Libro AC

Fundamentos del aprendizaje humano
Juan M. Rosas
Ana García Gutiérrez
José Enrique Callejas Aguilera
Fundamentos del
Aprendizaje Humano
Colección Universitas
© los autores
© del lunar 2005

c/ Cruz de la Magdalena 8
23004 Jaén
Tfs. 696 84 53 58 - 606 30 67 06
© Fotocomposición: ediciones del lunar
Imprime: Gráficas La Paz de Torredonjimeno S. L.
Tf. 953 57 10 87
D. L.: J XX-XXX - 2005
I. S. B. N.: 84 - 95331 - XXX - XXX
www.dellunar.com
A Sofía, Alba, Beatriz y Shadow, por
lo que entre todas me han enseñado
del aprendizaje.
J.M.R.
Prólogo
Este libro surgió con la intención de llenar un hueco que los autores habían apre-
ciado en las estanterías de librerías y bibliotecas dedicadas a los manuales del aprendi-
zaje. Muchos de los manuales de aprendizaje y condicionamiento que llenan esas es-
tanterías son demasiado largos para poder funcionar como textos fundamentales en el
panorama universitario, donde el aprendizaje suele tratarse en asignaturas
cuatrimestrales; por otra parte, en los manuales que han tratado de adaptarse a la dura-
ción real de estas asignaturas la brevedad se ha conseguido a costa de sacrificar muchos
aspectos que nosotros y nuestros colegas consideramos importantes, particularmente
en lo referente a las teorías del aprendizaje. Finalmente, la mayoría de los libros de
texto se han centrado exclusivamente en el aprendizaje y condicionamiento animal, sin
explotar la relevancia que estos factores básicos de aprendizaje tienen sobre el aprendi-
zaje humano; eso ha llevado a que dejen fuera aspectos muy relevantes de los funda-
mentos del aprendizaje humano, como la discusión entre las explicaciones asociativas
y las explicaciones basadas en reglas del aprendizaje correlacional y causal humano
que se viene manteniendo en la literatura durante los últimos 20 años.
Así, el libro nace con un objetivo que a priori podría considerarse imposible.
Aunar al mismo tiempo la brevedad necesaria para poder considerarse introductorio y
utilizarse como texto básico en una asignatura cuatrimestral, y mostrar al mismo tiem-
po un panorama razonablemente amplio de lo que ha sido el estudio del aprendizaje en
el último siglo. Sólo el lector podrá juzgar si hemos conseguido este objetivo, tal y
como creemos.
El texto comienza con una introducción al estudio del aprendizaje en la que se
establecen las bases de lo que los autores consideramos aprendizaje, sus diferencias
con la conducta y los procedimientos de control que requiere su estudio. El segundo
capítulo está dedicado al análisis del aprendizaje acerca de un solo estímulo, recorrien-
do las características fundamentales de la habituación y la sensibilización, así como sus
explicaciones teóricas y la aplicación de estos conocimientos al estudio de las emocio-
nes complejas. El capítulo tercero está dedicado al condicionamiento clásico, presen-
tando las nociones fundamentales en las que se basa su estudio, las condiciones en las
que se produce y sus fenómenos básicos, y los contenidos del condicionamiento
pavloviano; el capítulo termina con la descripción de algunas formas de
condicionamiento específicamente humano. El capítulo cuarto está dedicado a los me-
canismos del aprendizaje, comienza presentando el paralelismo entre el
condicionamiento clásico y el aprendizaje causal para analizar después separadamente
las teorías principales dentro de la aproximación asociativa y causal a estos fenómenos.
El quinto capítulo está dedicado al condicionamiento instrumental, presentando los
fenómenos principales, las condiciones necesarias para su establecimiento, las estruc-
7
8 A PRENDIZAJE HUMANO
turas asociativas que establecen los sujetos, los programas de reforzamiento que deter-
minan los patrones conductuales que se desarrollan cuando aplicamos un procedimien-
to de condicionamiento instrumental, y algunos de los factores que determinan la con-
ducta de elección. El capítulo sexto analiza las teorías del aprendizaje instrumental,
centrándose en los efectos del refozamiento y en las teorías que han explicado estos
efectos desde la ley del efecto a la teoría de la regulación conductual para terminar con
una breve exposición de las teorías del aprendizaje instrumental, centrándose particu-
larmente en las explicaciones del aprendizaje de evitación. El capítulo 7 se centra en
los procedimientos utilizados para el cambio de la conducta, la extinción y la interfe-
rencia, en los principales fenómenos relacionados con ellos (renovación, recuperación
espontánea, efecto de reforzamiento parcial, etc.) y en las explicaciones teóricas de
estos fenómenos. Finalmente, en el capítulo 8 analizamos el aprendizaje que se produ-
ce a través de la observación y de la experiencia vicaria, desde el observado en anima-
les no humanos hasta el específicamente humano.
En la realización de una obra de estas características hay siempre mucho que
agradecer, la paciencia de la familia y los amigos en los encierros reiterados, los co-
mentarios y correcciones de tus compañeros, particularmente las correcciones de estilo
de nuestro amigo Angel, siempre paciente y eficaz. Sin embargo, nuestro agradeci-
miento mayor en la preparación de este trabajo se lo debemos a nuestros alumnos de las
licenciaturas de Psicología y Psicopedagogía de la Universidad de Jaén. Aún sin saber-
lo, ellos han sido el estímulo que nos ha llevado a mejorar y completar nuestras expli-
caciones con brevedad y claridad, y a la interacción continuada con ellos en estos años
pasados, a sus preguntas y a sus comentarios, se debe gran parte de lo que se recoge en
este texto, por todo ello, gracias.
Jaén, febrero 2005

Capítulo 1
El aprendizaje y su estudio
Un cielo oscuro puede ir seguido de lluvia, el acortamiento de los días va empareja-

do con el aumento del frío, la vegetación frondosa suele anunciar la cercanía del agua,
unas huellas recientes indican la proximidad de un depredador o de una presa, el timbre
anuncia el fin del día escolar. Esto es una pequeña muestra de la regularidad que man-
tiene el ambiente en el que vivimos los animales y a la que hemos de adaptarnos si
queremos mejorar nuestras oportunidades de supervivencia. El aprendizaje es la herra-
mienta que nos va a permitir detectar y adaptarnos a esas regularidades, por lo que
podemos suponer que va a estar en la base de gran parte de nuestro comportamiento.
Muchas de estas regularidades ambientales son esencialmente las mismas en distin-
tas especies animales por lo que puede suponerse que algunos de los mecanismos que
utilizamos para aprender acerca de ellas sean equivalentes. En este libro se toma una
perspectiva evolucionista, suponiendo que el aprendizaje se ha desarrollado a lo largo
de la evolución del mismo modo que otras características de los organismos. Esta aproxi-
mación tiene dos implicaciones, existirán formas de aprendizaje que serán comunes a
distintas especies, incluida la humana, y existirán formas de aprendizaje específicas de
cada especie que le permitirán a esta especie adaptarse al entorno concreto donde se
desarrolla. Las formas de aprendizaje incluidas en la primera categoría conforman lo
que denominamos aprendizaje básico, mientras que las incluidas en la segunda confor-
man lo que denominamos aprendizaje especializado (v.gr., Maldonado, 1998).
En el desarrollo de este libro nos vamos a centrar particularmente en aquellos fenó-
menos, mecanismos y formas de aprendizaje que son comunes a distintas especies ani-
males, es decir nos centraremos en las formas de aprendizaje básico. Esto no implica
que consideremos que las formas de aprendizaje que utiliza un ser humano se agoten
con las presentadas en estas páginas. Somos conscientes de que el lenguaje supone un
cambio cualitativo impresionante en la adaptación del ser humano a su medio y en la
creación de medios artificiales a los que le resulta imprescindible adaptarse. Pero el
reconocer la complejidad del aprendizaje mediado por el lenguaje no debe llevarnos a
desestimar las formas básicas de aprendizaje que compartimos con otras especies y que
muchas veces modulan el aprendizaje mediado por el lenguaje, y viceversa.
1.1. Aprendizaje y conducta

En la introducción a este capítulo hemos hablado del aprendizaje como mecanismo
de adaptación al ambiente. Ésta es una definición funcional y por otra parte bastante
9
ambigua. En este apartado vamos a intentar dar una definición más precisa que será la
que nos guíe en el desarrollo de los capítulos posteriores. Establecer una definición de
aprendizaje clara resulta imprescindible, puesto que la definición que establezcamos
va a determinar cuál va a ser nuestro objeto de estudio y la aproximación que tomemos
al mismo.
Las definiciones del aprendizaje en la literatura han sido múltiples, pero mantienen
unas ciertas constantes que permiten separarlas en dos clases más o menos amplias. En
las definiciones más tradicionales, el aprendizaje se identifica con cambios conductua-
les. Así, Hilgard y Bower (1966) afirman que el aprendizaje es un cambio relativamen-
te permanente de la conducta, debido a la experiencia, que no puede explicarse por un
estado transitorio del organismo, por la maduración, o por tendencias de respuesta
innatas.
Esta definición de aprendizaje recoge la tradición conductista e identifica el apren-
dizaje con cambios en la actuación. Tomando esta definición, el objeto de estudio del
aprendizaje sería la conducta y más concretamente el establecimiento de relaciones
funcionales entre variables externas al organismo y cambios conductuales. Esta defini-
ción puede parecer razonable, pero basta una pequeña reflexión para darnos cuenta de
que no abarca todo lo que claramente consideraríamos aprendizaje. Imagina que llegas
a una ciudad desconocida, dejas tu equipaje en el hotel y decides dar un paseo por los
alrededores. Después de pasear un rato, decides regresar al hotel. El hecho de que seas
capaz de regresar al hotel pone de manifiesto que tu paseo te ha permitido aprender
algo acerca de la organización espacial de la ciudad. Este tipo de aprendizaje se recoge
en la definición anterior.
Ahora bien, imagina que al llegar a tu hotel comienzas a padecer un fuerte dolor de
cabeza, decides salir a buscar una aspirina y te diriges a la farmacia que recuerdas haber
visto cerca del hotel, en tu paseo previo. El aprendizaje de la localización de la farmacia
no se manifiesta hasta que aparece el dolor de cabeza y la necesidad de usarla. Si no
hubiera aparecido esta necesidad, tu aprendizaje no se hubiera traducido en conducta y,
de acuerdo con la definición de aprendizaje que acabamos de exponer, ese aprendizaje
no habría existido, algo a todas luces incorrecto.
La inadecuación de la identificación entre aprendizaje y conducta era algo ya cono-
cido por los teóricos del aprendizaje. Tolman y Honzik (1930) presentan un experimen-
to que lo demuestra claramente. Tres grupos de ratas hambrientas recorrieron un labe-
rinto complejo. El grupo C (comida) recibió comida al finalizar el recorrido en el labe-
rinto. El grupo N (no comida) no recibió nada al finalizar el laberinto. Finalmente, el
grupo N-C recibió el mismo tratamiento que el grupo N en los 10 primeros ensayos y el
mismo tratamiento que el grupo C en los ensayos siguientes. Tolman y Honzik (1930)
encontraron que el tiempo que las ratas emplearon en salir del laberinto disminuía en el
grupo C mientras se mantenía más o menos constante en el grupo N. De acuerdo con la
definición de aprendizaje planteada, las ratas del grupo C aprendieron a orientarse por
el laberinto, mientras no aprendieron nada las ratas del grupo N. Los resultados obteni-
A PRENDIZAJE Y SU ESTUDIO 11
dos por el grupo N-C contradicen esta conclusión. Este grupo manifestó el mismo com-
portamiento que el grupo N hasta el ensayo 10, pero a partir de ese momento (cuando se
introdujo la comida) su actuación fue equivalente a la de las ratas del grupo N. Este
cambio brusco en la actuación no se podría haber producido a menos que estas ratas
hubieran aprendido a orientarse en el laberinto durante los ensayos en los que no reci-
bían comida. Aprendieron, pero no lo manifestaron conductualmente hasta que el cam-
bio en las condiciones ambientales hizo necesaria la manifestación de ese aprendizaje.
Asímismo, este experimento demuestra que el reforzamiento puede ser necesario para
que se manifieste el aprendizaje, pero desde luego no es necesario para que éste se
produzca.
Así, vemos que no todo aprendizaje se traduce en actuación, existen aprendizajes
que denominaremos silenciosos y que pueden no dar lugar a un cambio conductual
observable. Igualmente, no todo cambio en la actuación es consecuencia del aprendiza-
je. Por ejemplo, la maduración produce cambios en la conducta muy evidentes que no
son debidos al aprendizaje, cuando un organismo alcanza la madurez sexual su conduc-
ta cambia, cambian los estímulos a los que le presta atención y la respuesta que les da
sin necesidad de que exista un aprendizaje que justifique ese cambio. Igualmente, cam-
bios estimulares como un descenso brusco de las temperaturas o una lluvia intensa
producen cambios conductuales evidentes en los que no media necesariamente el apren-
dizaje. Finalmente, la fatiga muscular o sensorial puede producir cambios en la con-
ducta que tampoco pueden identificarse como aprendizaje. En resumen, el aprendizaje
no puede identificarse con un cambio en la conducta porque no todo aprendizaje se
manifiesta en conducta y no todo cambio conductual está causado por el aprendizaje.
El cambio en el paradigma conductista en toda la psicología en la segunda mitad del
siglo XX afectó también al concepto de aprendizaje. Las cuestiones que resaltamos en
los párrafos previos llevaron a un cambio en la concepción del aprendizaje. El aprendi-
zaje pasó a considerarse algo distinto de la conducta, aunque fuera necesario el uso de
la conducta para medirlo. Domjan (1996) propone una definición que podemos consi-
derar representativa de las definiciones modernas de aprendizaje. Así, el aprendizaje se
define como un cambio relativamente duradero en los mecanismos neurales de la con-
ducta que resulta de la experiencia con eventos ambientales específicamente relacio-
nados con dicha conducta (véase también por ejemplo Dickinson, 1980).
Al definir el aprendizaje como un “cambio en los mecanismos neurales de la con-
ducta” separamos definitivamente aprendizaje y conducta. El aprendizaje subyace a la
conducta, puede producir cambios en ella, pero aprendizaje y conducta no son la mis-
ma cosa.
1.2. Aspectos generales del estudio del aprendizaje

En este apartado vamos a tratar de dar somera cuenta de distintos aspectos generales
que uno debe plantearse a la hora de estudiar el aprendizaje. Abordaremos el tema de la
necesidad de su estudio, del método que ha de utilizarse para estudiarlo y de las razo-
nes por las que muchos de estos estudios se han realizado con animales no humanos.
Esto nos dará una perspectiva general y facilitará la comprensión de los capítulos pos-
teriores.
Conviene comenzar nuestra aproximación al estudio del aprendizaje con una consi-
deración que afecta al estudio de toda ciencia, aunque se hace probablemente más evi-
dente en las ciencias donde coinciden el sujeto y el objeto de estudio, como es el caso
de la psicología. Debemos tener en cuenta que si bien la conducta es indiscutible como
hecho, normalmente nuestra descripción está cargada de interpretación subjetiva que
no siempre está justificada. En muchos casos tendemos a explicar la conducta animal y
humana como si estuviera regulada por un procesamiento complejo que no siempre es
necesario.
Un ejemplo clásico de la literatura es el caso de “Hans el listo”. Hans era un caballo
alemán muy famoso a principios del siglo XX. El caballo era capaz de reconocer los
números y sumarlos, dando las respuestas a golpe de pezuña y lo hacía incluso cuando
su dueño no estaba presente. Parecía que efectivamente el caballo sumaba, algo inaudi-
to. Sin embargo, Pfungst (1965) descubrió que la habilidad del caballo desaparecía
cuando la persona que hacía la pregunta no conocía la respuesta; igualmente, cuanto
más lejos estuviera el dueño de Hans, peor era su actuación y cuando no podía ver al
que preguntaba su respuesta fue al azar. Pfungst descubrió que el caballo había apren-
dido a distinguir señales sutiles de los interrogadores. Hans utilizaba la ligera inclina-
ción de cabeza que hacía su dueño al terminar la pregunta como señal para comenzar
sus patadas; a medida que el caballo se acercaba a la respuesta correcta, los observado-
res tendían a tensar ligeramente sus cuerpos en anticipación y esa era la señal que usaba
Hans para parar... y acertar la respuesta. Hans no sabía sumar, pero era extraordinaria-
mente bueno en detectar ligeros cambios en el comportamiento de las personas que lo
examinaban. El comportamiento aparentemente complejo se explicaba por mecanis-
mos muy simples.
Veámoslo con otro ejemplo. Si colocamos a unas hormigas forrajeras en un laberin-
to como el de la figura 1.1 en el que tienen dos caminos para llegar desde la salida hasta
un cuenco de azúcar, uno largo y otro corto, inicialmente las hormigas se distribuirán al
azar por los dos caminos de forma que más o menos la mitad escogerán el camino corto
y la otra mitad escogerán el camino largo. Al cabo de poco tiempo, todas las hormigas
escogerán el camino corto mostrando conducta inteligente al resolver correcta y adap-
tativamente el problema espacial. Este resultado lo podríamos explicar si las hormigas
tuvieran una forma de comunicarse parecida a la de las abejas, de modo que hubieran
podido transmitirse cuál era el camino más corto. Igualmente podríamos explicarlo si
asumimos que las hormigas se forman un mapa cognitivo del ambiente aprendiendo
que se llegaba a la misma comida por los dos caminos y escogiendo el más corto en los
próximos viajes. Sin embargo, la solución del problema es mucho más simple. Las
hormigas forrajeras dejan un rastro de feromonas en el suelo a medida que regresan al
nido desde un lugar en el que haya comida disponible. En el nido, la hormiga da res-
Figura 1.1. Laberinto utilizado en estudios sobre aprendiza-

je espacial en las hormigas forrajeras. El laberinto tiene una
caja de salida donde se colocan las hormigas y dos caminos,
uno largo y otro corto para llegar a la caja meta donde se sitúa
el alimento.
puestas estereotipadas que animan a otras hormigas a dejar el nido y seguir el rastro. En
el laberinto, las hormigas que escogen el camino más corto regresan más rápidamente y
por lo tanto pueden hacer más viajes que las que escogen el camino más largo. Cuanto
más viajes hagan, más fuerte es el rastro de feromonas que van dejando, aumentando el
número de hormigas que escogen el camino más corto, aumentando el rastro y así hasta
que todas las hormigas escogen este camino. El problema era relativamente complejo,
la solución natural extremadamente simple, el comportamiento inteligente de las hor-
migas no necesita de ninguna inteligencia.
Estos dos ejemplos muestran como la interpretación de los cambios conductuales
no es simple y directa. A la hora de aproximarnos al estudio del aprendizaje hemos de
tomar el canon de Morgan como punto de partida: si algo puede explicarse por meca-
nismos simples no se debe recurrir a mecanismos complejos para explicarlo.
¿Por qué estudiar el aprendizaje? Los estudios de cualquier materia están funda-
mentados en dos razones básicas. La primera de ellas es la curiosidad, el conocimiento
por el propio conocimiento. Ampliar los horizontes del saber es una justificación pro-
bablemente suficiente, aunque quizá sea un lujo difícil de casar con el afán pragmático
de la sociedad moderna. La segunda razón tiene que ver con el valor práctico del cono-
cimiento. Si conocemos como aprenden las personas podremos facilitar ese aprendiza-
je, o modificarlo si el aprendizaje es inapropiado. Esta justificación está basada en tres
suposiciones encadenadas, que la conducta está gobernada por leyes, que si conocemos
las leyes de la conducta seremos capaces de controlarla y que el control de la conducta
es algo deseable. Determinar si toda la conducta está controlada por leyes es un proble-
ma filosófico que va mucho más allá de los objetivos que nos planteamos en estas
líneas. No obstante, los capítulos siguientes constituyen una demostración de que al

menos parte de la conducta animal y humana está gobernada por leyes y que algunas de
esas leyes están siendo descubiertas por la investigación. En cuanto a la deseabilidad
del control de la conducta, Skinner (1955) sostenía que ésta es una pregunta sin senti-
do. De acuerdo con él, la conducta está inevitablemente controlada por el mundo en
que vivimos. Nuestra única elección es si queremos dejar que sea el azar el que controle
nuestra conducta o seamos nosotros mismos los que la controlemos a través de un
diseño cultural eficaz.
El método experimental y el problema de control en los estudios de aprendizaje.

La definición de aprendizaje en términos de cambios en los mecanismos neurales de la
conducta implica un cambio en el objeto de estudio del aprendizaje. El objetivo de los
estudiosos del aprendizaje pasará de ser el establecimiento de relaciones funcionales
entre variables ambientales y cambios conductuales al estudio de los mecanismos sub-
yacentes a esos cambios conductuales. Esta definición tiene otra implicación importan-
te. El separar aprendizaje y conducta lleva a que el aprendizaje no pueda observarse
directamente. Tendremos que inferir los cambios en los mecanismos de aprendizaje a
través de cambios en la conducta, teniendo siempre en cuenta que estos cambios en la
conducta pueden no corresponderse con los cambios en los mecanismos subyacentes,
bien porque estos cambios no se manifiesten en cambios conductuales, bien porque los
cambios conductuales no se deban al aprendizaje. Esta limitación, el tener que inferir
los cambios en el aprendizaje a través de cambios en la conducta, nos forzará a ser
particularmente cuidadosos en nuestras conclusiones y a utilizar procedimientos de
control estrictos que nos permitan extraer conclusiones fiables de nuestros estudios.
Imaginemos que un orientador escolar llega a un colegio de un barrio marginal de
cualquiera de nuestras ciudades, encontrándose con una tasa de fracaso escolar del
80% en tercero de primaria. Imaginemos que tras un análisis de la situación el orienta-
dor considera que el fracaso escolar se debe a que los niños no tienen habilidades lecto-
ras suficientes. Sin esas habilidades lectoras, no comprenden las preguntas de los exá-
menes y difícilmente van a ser capaces de responderlas. El orientador decide que los
niños tengan una hora diaria de lectura guiada en la biblioteca. Al cabo de seis meses, la
tasa de fracaso escolar se reduce al 10%. El orientador considera que el fracaso escolar
puede corregirse a través del entrenamiento en la lectura, presenta sus resultados a las
autoridades escolares y propone la extensión del tratamiento a todos los cursos y cole-
gios del país.
Analicemos la situación. Los hechos son indiscutibles, la hora diaria de lectura guiada
durante 6 meses se ha llevado a un descenso en la tasa de fracaso escolar. En otras
palabras, la modificación del ambiente ha acompañado un cambio conductual. Pero,
¿podemos concluir que el tratamiento del orientador es eficaz contra el fracaso escolar?
Es posible que nuestra primera respuesta fuera “sí, sin duda”; sin embargo, antes de
llegar a esta conclusión debemos de responder a la siguiente pregunta: ¿existe algo
implícito en el tratamiento dado por el orientador que pudiera haber provocado ese
cambio conductual? La respuesta a esta pregunta va a depender del tratamiento concre-
to que administremos. En la situación propuesta ese “algo” existe, al menos en dos
vertientes. Por una parte, un tratamiento de 6 meses lleva implícitos 6 meses de vida en
los chiquillos y estos 6 meses pueden verse acompañados por un proceso madurativo
que por sí solo atenue el fracaso escolar. Esto es, es posible que los niños hubieran
mejorado sin ningún tratamiento, simplemente por el paso del tiempo.
La posibilidad de que los niños mejoren por el simple paso del tiempo no puede
descartarse en el ejemplo propuesto y limita las conclusiones que puede obtener nues-
tro orientador acerca de su tratamiento. Este ejemplo pone de manifiesto una de las
características fundamentales del estudio del aprendizaje. El aprendizaje, al igual que
los efectos del tratamiento, no puede observarse directamente, ambos han de inferirse a
través de cambios conductuales. Esto nos lleva a que tengamos que utilizar procedi-
mientos especiales de control que nos aseguren que los cambios conductuales se deben
a nuestro tratamiento y no a otros factores implícitos en el mismo.
Esto lo vamos a lograr a través del uso del método experimental. Para ser honestos,
nuestro orientador ha aplicado el método experimental a la hora de evaluar los efectos
de su tratamiento. Ha tomado como referencia el fracaso escolar en el punto de partida,
ha administrado su tratamiento (variable independiente) y ha comprobado sus efectos
sobre la tasa de fracaso escolar (variable dependiente). Sin embargo, su uso del método
experimental es bastante pobre, puesto que su tratamiento implica una serie de factores
implícitos que podían actuar sobre la variable dependiente (el fracaso escolar), modifi-
cándola. Planteábamos ya uno de esos factores, el simple paso del tiempo. Para poder
asegurarnos que es la hora diaria en la biblioteca y no el paso del tiempo el que produce
el cambio en el fracaso escolar es necesario contar con condiciones de control. Las
condiciones de control nos permiten discernir qué parte de todos los factores implícitos
en el tratamiento está causando la modificación en la conducta, en este caso de la tasa
de fracaso escolar.
En el ejemplo previo, una forma razonable de descartar los efectos del paso del
tiempo sobre el fracaso escolar sería dividir nuestra muestra en dos grupos equivalen-
tes. Una vez seleccionados los dos grupos, uno de ellos recibiría el tratamiento de una
hora de lectura guiada en la biblioteca y el otro continuaría con sus clases habituales. Al
cabo de los seis meses compararíamos la actuación académica en ambos grupos. Si el
grupo experimental (el grupo que recibe el tratamiento) tiene una tasa de fracaso esco-
lar más baja que el grupo de control (el que continúa con sus clases habituales) parece
que podríamos concluir que el tratamiento ha sido eficaz en la reducción del fracaso
escolar.
Sin embargo, ¿qué parte del tratamiento ha sido eficaz? Parece claro desde el expe-
rimento hipotético propuesto que el hecho de recibir el tratamiento es imprescindible
para la reducción del fracaso escolar. Pero el tratamiento en sí mismo implica una serie
de factores implícitos en la lectura guiada que por sí solos podrían haber sido los cau-
santes de la mejora y que no son la lectura guiada en sí misma. Por ejemplo, los niños
que se trasladan a la biblioteca podrían sentirse especiales por recibir un tratamiento
distinto de lo normal, eso podría mejorar su motivación y producir la mejoría. Obsérve-
se que en este caso no sería la lectura guiada la que produce la mejoría, sino el hecho de
recibir un tratamiento. Esto se denomina efecto de placebo. Igualmente, el simple he-
cho de recibir atención podría llevar a los niños a comportarse tal y como espera el
experimentador, lo que en psicología se conoce como deseabilidad social y que en
experimentación se conoce como efecto Rosenthal (Rosenthal, 1966). El grupo de con-
trol escogido no permite controlar estos factores y por lo tanto ha de considerarse un
mal grupo de control.
En general, la regla a la hora de establecer un buen grupo de control es muy sencilla
en la teoría: un buen grupo de control es aquél que es idéntico en todo al grupo experi-
mental, salvo en la variable que pretendemos evaluar. En este caso la variable sería la
lectura guiada y no todos los elementos que la rodean. Para poder conocer la eficacia de
la lectura guiada en la atenuación del fracaso escolar deberíamos comparar el grupo
experimental, que recibe el tratamiento de lectura guiada, con un grupo de control idén-
tico a él en todo, salvo en la lectura guiada. Este grupo de control recibiría lo que se
conoce como pseudotratamiento, pasaría el mismo tiempo en la biblioteca, tendría ac-
ceso a los libros, pero no recibiría lectura guiada. Si al cabo de los seis meses el grupo
experimental presenta menos fracaso escolar que el grupo de control podríamos con-
cluir que la lectura guiada atenúa el fracaso escolar. Si el resultado no fuera éste ten-
dríamos que continuar nuestra investigación para determinar qué factores del trata-
miento son los que atenúan el fracaso escolar (el paso del tiempo, el hecho de singula-
rizar a los niños, etc.).
El método experimental permite llegar a conclusiones más exactas y fiables sobre
las causas de la conducta que cualquier otro método de investigación. No obstante, el
método experimental no es perfecto y nuestras conclusiones han de ser siempre tentati-
vas. Obsérvese que los grupos de control tratan de controlar los factores que ya conoce-
mos, pero es posible que existan factores que no conocemos y que sin embargo pueden
ser las verdaderas causas del cambio en la conducta. Sirva como ilustración este ejem-
plo citado en Lieberman (1992). En la Inglaterra victoriana, el índice de mortandad en
el parto cuando éste tenía lugar dentro de un hospital era altísimo. Joseph Lister soste-
nía que estas muertes podrían evitarse si los médicos se lavaran las manos con jabón.
Su idea fue recibida con incredulidad, ¿cómo podía prevenirse la muerte de una mujer
lavando las manos del doctor con grasa animal hervida? Hoy lo entendemos, dado que
conocemos la naturaleza de los gérmenes y microbios, pero entonces su sugerencia
resultaba en el mejor de los casos cuestionable, ¿cómo explicarle a un médico de la
época que existían bichitos invisibles altamente contaminantes? La sugerencia estaría
al mismo nivel que si les dijéramos que las muertes estaban siendo causadas por espíri-
tus malignos. Esta situación demuestra cómo incluso en las situaciones mejor controla-
das la posibilidad de que algún factor quede sin controlar es alta. Por esta razón, los
resultados científicos se consideran siempre tentativos y nunca han de dejar de cuestio-

narse.
De lo expuesto aquí pueden extraerse dos conclusiones: la necesidad del uso del
método experimental para estudiar el aprendizaje y la necesidad de usar métodos espe-
ciales de control forzada porque nuestro objeto de estudio, el aprendizaje, no es obser-
vable directamente y ha de inferirse a partir de cambios conductuales.
La diferencia entre fenómeno y proceso. El análisis de los procedimientos de estudio

del aprendizaje ha puesto de manifiesto la diferencia entre aprendizaje y conducta y los
problemas que esto nos genera a la hora de sacar conclusiones acerca del aprendizaje.
Esta idea entronca con la distinción entre fenómeno y proceso. Los fenómenos o efec-
tos son los cambios conductuales que producen distintas manipulaciones ambientales.
En el ejemplo que presentábamos arriba el fenómeno o efecto sería el descenso en el
fracaso escolar que se observa con el tratamiento realizado por el orientador. Los fenó-
menos o efectos son directamente observables y en ese sentido indiscutibles.
Lo que sí es discutible es la explicación de los efectos. Como señalábamos más
arriba, una de las dificultades que tiene el estudio del aprendizaje es que el mismo
cambio conductual puede estar producido por procesos muy diferentes. Cuando hablá-
bamos de las hormigas forrajeras o del caballo Hans veíamos que la conducta de unos
y otros (los fenómenos correspondientes) podía responder en principio a mecanismos
muy diferentes. Los procesos o mecanismos son las modificaciones neurales o cogniti-
vas subyacentes que se presumen responsables de los efectos conductuales. En este
sentido, los procesos o mecanismos de un fenómeno concreto son discutibles, puesto
que el mismo fenómeno podría explicarse por distintos mecanismos alternativos. Nuestro
objetivo en el estudio del aprendizaje será por una parte determinar los fenómenos
relacionados con él, pero en último término tratar de descubrir cuáles son los procesos
que subyacen a estos fenómenos.
El uso de animales no humanos en los estudios de aprendizaje. Muchos de los estu-

dios que presentaremos en las páginas siguientes han utilizado animales no humanos
para su realización. Una pregunta lícita en estas circunstancias es si los conocimientos
adquiridos a través de la experimentación con animales no humanos son extensibles a
los seres humanos. Veremos que éste es el caso en muchos de los resultados que presen-
temos, sin embargo, eso no justifica el uso de animales no humanos en lugar de trabajar
con seres humanos directamente.
Las razones que motivan el uso de animales de laboratorio en los estudios de apren-
dizaje son varias. Por una parte existen razones teóricas que provienen del principio de
la evolución subyacente a la mayoría de estos estudios. Básicamente se asume que del
mismo modo que compartimos características físicas con otros organismos próximos a
nosotros en el árbol evolutivo, compartimos también características psicológicas y en-
tre ellas algunos modos de aprendizaje. Por otra parte existen una serie de motivaciones
prácticas, los animales pueden someterse a un control ambiental y experimental que

sería éticamente inviable en los estudios con seres humanos; por ejemplo, ¿cómo po-
dríamos estudiar los efectos de la deprivación afectiva durante la infancia sobre la vida
del adulto en seres humanos? Algo a todas luces imposible se puede conseguir utilizan-
do macacos como sujetos experimentales (v.gr., Harlow y Harlow, 1965). Por otra par-
te, si asumimos que los mecanismos de aprendizaje que estamos estudiando los com-
partimos distintas especies animales, estos mecanismos básicos se manifestarán de for-
ma más simple en animales no humanos, dado que en estos últimos el lenguaje puede
contaminar la manifestación de estas formas simples de aprendizaje. Empleando una
metáfora, los principios de la electrónica se entenderán mejor comenzando por el estu-
dio de un transistor que tratando de abordar directamente el estudio de un ordenador de
última generación.
1.3. Resumen
El aprendizaje se define como la adquisición de conocimiento, entendiendo por ésta
la modificación relativamente duradera de los mecanismos de la conducta a través de la
experiencia con eventos ambientales específicamente relacionados con esa conducta.
Esta definición de aprendizaje distingue entre aprendizaje y conducta, asumiendo que
no todos los aprendizajes se manifiestan en conducta ni todos los cambios conductua-
les se deben al aprendizaje. Aceptar esta definición tiene importantes implicaciones
para el estudio del aprendizaje. Si aprendizaje y conducta no son lo mismo, pero el
aprendizaje ha de inferirse a través de cambios conductuales, nuestros métodos de estu-
dio del aprendizaje deberán incluir condiciones de control exhaustivas que permitan
determinar con seguridad qué modificaciones conductuales se deben al aprendizaje,
discerniendo los mecanismos que las gobiernan. El método de estudio del aprendizaje
será el método experimental, en el que se modifican las variables independientes de
una en una para ver su efecto sobre la variable dependiente. En el método experimental
será fundamental el diseño de las condiciones de control con las que compararemos el
efecto de estas variaciones. Nuestras conclusiones se basarán en la comparación entre
las condiciones experimentales y las condiciones de control, teniendo en cuenta que
éstas deberán ser idénticas a las condiciones experimentales en todo, salvo en aquello
que pretendemos medir. El estudio del aprendizaje se justifica por el valor práctico del
conocimiento. Por último, el uso de animales no humanos en muchos de estos estudios
se justifica por las mayores posibilidades de control experimental que permite, así como
por la suposición de que los mecanismos básicos de aprendizaje estarán menos conta-
minados en estos animales por procesos cognitivos superiores que, mediados por el
lenguaje, únicamente aparecen en seres humanos.
Capítulo 2
Aprendizaje acerca de un solo estímulo
Imagina que estás tranquilamente paseando por la plaza de tu pueblo en fiestas cuando
de repente explota un cohete en el aire. Ante el sonido brusco cierras los ojos, encoges
los hombros y agachas la cabeza, te sobresaltas. La respuesta de sobresalto ante un
estímulo intenso sorprendente es una respuesta refleja, no has necesitado aprenderla, se
presenta en todos los seres humanos y en muchas otras especies animales. El sonido
brusco que desencadena la respuesta refleja recibe el nombre de estímulo elicitador o
estímulo señal.
La conducta refleja es fundamental para la supervivencia de muchos organismos,
incluido el ser humano. El bebé al nacer tiene un repertorio de conductas reflejas que le
ayudan a adaptarse a su ambiente. Un ejemplo de esto es el reflejo de succión, basta
acercar a la boca del bebé cualquier objeto que tenga un parecido remoto a un pezón, un
dedo mismo, para que el bebé comience a succionarlo. Claramente, este reflejo permite
al bebé comenzar a mamar sin demora, si tuvieran que aprenderlo es posible que mu-
chos bebés fallecieran de inanición en el intento.
En los vertebrados los reflejos simples suelen estar mediados por tres neuronas, una
neurona sensorial o aferente que registra el estímulo y lo transmite a la médula espinal,
una neurona motora o eferente que activa el músculo implicado en la respuesta y una
interneurona que comunica a las dos previas. El conjunto de neuronas implicadas en un
reflejo simple es lo que se denomina arco reflejo. En algunas especies los reflejos se
organizan en conductas más complejas denominadas pautas de acción modal.
La supervivencia de muchas especies animales depende de estos patrones reflejos
de conducta implicados en la alimentación, la reproducción y la defensa de los preda-
dores. Un ejemplo claro de conducta refleja en animales distintos del ser humano es la
respuesta de mendicidad en la gaviota arenquera (Tinbergen y Perdeck, 1950). Estas
gaviotas se tragan el pescado que pescan y después lo regurgitan para alimentar a sus
crías. La cría picotea en el extremo del pico del progenitor y ese picoteo produce o
elicita la regurgitación del alimento que puede entonces ser aprovechado por el pollue-
lo. Observando la conducta desde fuera uno podría pensar que el polluelo de gaviota
está genéticamente preparado para reconocer y picotear el pico de sus padres. El estí-
mulo elicitador de la conducta de mendicidad sería el pico de sus progenitores. Aceptar
esta idea tal cual implicaría que el polluelo tiene inscrito en su código genético la forma
del pico de sus padres y que debe picotearles la punta para conseguir la comida.
19
Sin embargo, la evolución se especializa en resolver problemas complejos con me-

canismos sencillos. El pico de la gaviota arenquera es amarillo y tiene un punto rojo
cerca de la punta. Es ese punto rojo el que parecen picotear los polluelos. Tinbergen y
Perdeck (1950) trataron de determinar cuál era el estímulo señal que elicitaba la res-
puesta de picoteo en los polluelos de la gaviota arenquera. Aplicaron el método experi-
mental y descompusieron el estímulo aparentemente elicitador (el pico del progenitor)
en sus características más simples. Así, prepararon modelos del pico que preservaban
los colores y la forma, modelos que preservaban los colores pero en los que la forma
distaba de ser perfecta y modelos que no preservaban los colores, los picos eran grises
y el punto negro. Comparando la respuesta de los polluelos a los modelos descubrieron
que picoteaban prácticamente igual a todos los modelos, salvo a aquéllos en los que no
se preservaba el contraste (modelos en los que no se diferenciaba el punto del fondo del
pico). De este modo concluyeron que era el contraste punto-fondo el estímulo señal de
la respuesta de mendicidad en la gaviota arenquera. Incluso crearon estímulos super-
normales, en los que se maximizaba el contraste (picos coloreados con listas), encon-
trando que los polluelos picoteaban estos picos más que los picos originales. Este ejem-
plo demuestra que en muchos casos la conducta refleja está elicitada por estímulos
mucho más simples de los que inicialmente suponemos (véase también Domjan y Nash,
1988).
La conducta refleja viene determinada genéticamente y el profano del estudio del
aprendizaje tiene la idea de que no puede modificarse. Nada más lejos de la realidad, la
conducta refleja nunca se repite de forma exactamente igual, cada presentación del
estímulo elicitador da lugar a una respuesta distinta, a veces la presentación repetida
del estímulo elicitador produce un descenso gradual en la respuesta refleja conocido
como efecto de habituación; a veces la repetición del estímulo produce un aumento
sostenido en la respuesta conocido como efecto de sensibilización; y a veces la repeti-
ción del estímulo produce un ascenso inicial en la respuesta (sensibilización) que va
seguido de un descenso posterior (habituación). Cuando ambos efectos se presentan
seguidos, el efecto de sensibilización siempre precede al efecto de habituación.
2.1.- Habituación
¿Recuerdas el sobresalto que te produjo el primer cohete lanzado en las fiestas de tu
pueblo? Las fiestas siguen y continúan lanzándose cohetes regularmente para animar el
ambiente. El sobresalto que te produce cada nuevo lanzamiento es cada vez menor y
puede darse el caso de que incluso termines por apenas notar los cohetes que se lanzan.
Este descenso en la respuesta de sobresalto que se produce como consecuencia de la
exposición repetida al estímulo elicitador se conoce como efecto de habituación.
La habituación es probablemente el tipo de aprendizaje más simple y extendido a lo
largo del reino animal. La habituación reduce nuestra respuesta a estímulos inocuos,
desechando lo superfluo y permitiéndonos focalizar nuestra atención en los estímulos
relevantes o en aquellos sobre los que no conocemos todavía sus consecuencias. Los
HABITUACIÓN 21
estudios de habituación han permitido establecer de forma bastante clara sus caracterís-
ticas que, entre otras cosas, permiten diferenciar la habituación de efectos conductuales
parecidos, como la fatiga.
La habituación es específica del estímulo. Imagina que sigues paseando por las calles
de tu pueblo en medio del lanzamiento de cohetes. Te has ido “acostumbrando” al
sonido de los cohetes y tu respuesta de sobresalto ha dejado de producirse. Sin embar-
go, cuando de repente se activa la alarma del banco junto al que te lleva tu paseo vuel-
ves a sobresaltarte. Este ejemplo muestra como la habituación es relativamente especí-
fica del estímulo que se ha presentado repetidamente. Cuando se cambia el estímulo la
habituación desaparece, en otras palabras la respuesta aparece ante el estímulo nuevo.
No obstante, conviene matizar la afirmación que acabamos de hacer acerca de la
especificidad del estímulo en la habituación. Siguiendo con el ejemplo anterior, si el
sonido nuevo fuera un cohete de intensidad diferente en lugar de la alarma del banco es
bastante probable que tu respuesta de sobresalto siguiera amortiguada. La habituación
se va a generalizar a estímulos parecidos; cuando señalamos que la habituación es es-
pecífica del estímulo en realidad estamos diciendo que sólo se generaliza a estímulos
muy parecidos al habituado. A medida que los estímulos se diferencien más del estímu-
lo habituado la respuesta volverá a aparecer.
La especificidad del estímulo en la habituación nos permite introducir dos concep-
tos fundamentales en todo tipo de aprendizaje, la generalización y la discriminación.
Decimos que existe generalización cuando después del entrenamiento con un estímulo
se produce la misma respuesta ante estímulos parecidos. La discriminación sería el
fenómeno espejo de la generalización. Hablamos de discriminación cuando el sujeto
responde de forma diferente ante estímulos distintos al entrenado. Para comprobar el
nivel de generalización y discriminación del estímulo se realizan pruebas con estímu-
los que van variando en alguna o varias características del estímulo entrenado. Imagi-
nemos que después de lanzar una cantidad considerable de cohetes del mismo tipo
comienzan a entremezclarlos con cohetes que producen explosiones de distintas inten-
sidades. En la figura 2.1 se presentan los resultados hipotéticos de nuestra respuesta de
sobresalto ante los cohetes de distintas intensidades. En el centro de la figura se presen-
ta la respuesta ante los cohetes que tienen la misma intensidad que los que utilizaron al
inicio de la fiesta; tal y como vemos, la respuesta de sobresalto ante esos cohetes es
mínima, mostrando habituación. A la derecha y a la izquierda se recoge la respuesta
ante cohetes que varían gradualmente en intensidad de los presentados originalmente.
A la izquierda se presenta la respuesta ante cohetes de menor intensidad y a la derecha
ante cohetes de intensidad mayor. La figura representa un gradiente de generalización
típico de la habituación, con muy poca respuesta ante estímulos muy parecidos al origi-
nal, aumentando la respuesta rápidamente ante estímulos cada vez más diferentes. En
este caso, el gradiente de generalización tiene forma de valle abrupto, indicando que la
generalización es muy escasa. Cuando la generalización es muy alta y la respuesta ante
Figura 2.1. Gradiente de generalización hipotético de la respuesta de sobresalto ante los cohetes.
En el centro se presenta la respuesta ante el estímulo entrenado. La función etiquetada como baja
representa el gradiente de generalización típico de la habituación con mayor respuesta refleja
cuanto más diferente sea el estímulo elicitador del estímulo entrenado. El gradiente más suave
representa un resultado de generalización alta típico de la sensibilización, donde la respuesta es
alta ante estímulos diferentes.
estímulos diferentes es prácticamente la misma que ante el estímulo original el gradien-

te de generalización tiene forma de un valle suave, encontrando también poca respuesta
ante los estímulos diferentes al estímulo original (véase la figura 2.1), aunque ya seña-
lamos que este tipo de gradiente de generalización aplanado no es típico de la habitua-
ción.
La especificidad del estímulo de la habituación nos permite desechar una importan-
te explicación del efecto de habituación, la fatiga. El efecto de habituación lo hemos
definido como un descenso en la respuesta refleja por la exposición repetida al estímu-
lo señal. Este descenso podría no tener nada que ver con el aprendizaje, siendo simple-
mente consecuencia de la fatiga de los músculos implicados en la respuesta causada
por la realización repetida. Tal y como señalábamos en el primer capítulo, hemos de
buscar siempre la explicación más simple de los fenómenos que analizamos y no hay
explicación más simple del descenso en la respuesta que la fatiga. Sin embargo, en este
caso la explicación más simple no es la correcta. Si el descenso en la respuesta hubiera
estado causado por la fatiga, cambiar el estímulo no haría reaparecer la respuesta refle-
ja, puesto que el organismo seguiría igualmente fatigado. El hecho de que el cambio en
el estímulo produzca una reaparición de la respuesta refleja nos indica que estamos
ante un fenómeno de habituación y no de fatiga.
La respuesta habituada se recupera espontáneamente con el paso del tiempo. Las

fiestas de tu pueblo terminaron y se acabaron los cohetes, aunque ya prácticamente no
HABITUACIÓN 23
los notabas. Si al cabo de unos días se celebra una nueva fiesta y lanzan de nuevo
cohetes, vuelves a sobresaltarte, la respuesta de sobresalto elicitada por el sonido del
cohete se recupera espontáneamente con el simple paso del tiempo. Ésta es otra carac-
terística de la habituación. En general, el grado de recuperación espontánea tiene una
relación directa con el periodo de descanso. Obsérvese que esta característica se com-
parte también con fenómenos que no tienen nada que ver con el aprendizaje, como es el
caso de la fatiga. Un periodo de descanso alivia la fatiga y permite que la respuesta
fatigada vuelva a presentarse. Luego la recuperación espontánea no permite distinguir
entre habituación y fatiga.
No todas las respuestas habituadas se recuperan espontáneamente. Una respuesta
refleja común en los mamíferos es la neofobia, el miedo a lo nuevo. Cuando nos encon-
tramos en un ambiente nuevo desconfiamos y nuestra conducta se vuelve cautelosa. La
neofobia al sabor es una respuesta típica de distintos mamíferos, incluido el ser humano
y la rata. Cualquiera que haya trabajado con ratas sabe que la primera vez que se le
permite beber a una rata de un sabor nuevo su consumo no suele ser muy alto, particu-
larmente si el sabor es intenso. Cuando el sabor se le vuelve a presentar al día siguiente
su consumo aumenta considerablemente y normalmente se mantiene estable a partir de
ahí. Lo interesante de esto es que una vez habituado el sabor parece mantenerse así por
periodos muy largos de tiempo (Domjan, 1977; Siegel, 1974). La habituación de la
neofobia no parece estar sujeta a recuperación espontánea y lo mismo ocurre cuando
otros estímulos se presentan espaciados (v.gr., Leaton, 1974). En general, los casos de
habituación en los que se produce recuperación espontánea se conocen como habitua-
ción a corto plazo, mientras que cuando no se produce recuperación espontánea habla-
mos de habituación a largo plazo. Normalmente, en cualquier situación de habituación
aparece tanto habituación a corto como a largo plazo, dado que la recuperación espon-
tánea no es normalmente completa. No obstante, los mecanismos de la habituación a
corto y a largo plazo podrían ser diferentes, tal y como veremos más adelante (Wagner,
1981).
Efectos de la frecuencia y la intensidad del estímulo en la habituación. Con respec-

to a la frecuencia de presentación del estímulo elicitador, parece que existe una relación
directa entre la frecuencia de presentación del estímulo y la habituación, esto es, a
mayor frecuencia la habituación parece producirse más rápidamente al permitir menor
recuperación espontánea entre ensayos. Por otra parte, como ya apuntábamos al final
del apartado previo, a mayor frecuencia de presentación del estímulo mayor será la
habituación a corto plazo y viceversa, con presentaciones de estímulo más espaciadas
la habituación será menor pero más a largo plazo (v.gr., Leaton, 1974). Lo contrario
podríamos decir de la intensidad del estímulo cuya relación con la habituación parece
ser inversa; en general, la respuesta declina más lentamente cuando el estímulo elicita-
dor es más intenso. No obstante, estas afirmaciones no cuentan la historia completa.
Imagina que queremos domar a un caballo. Uno de los objetivos de la doma del
Figura 2.2. Respuesta de sobresalto media en cada una de las 15 sesiones en las que las ratas
fueron expuestas a sonidos de distinta intensidad. El nombre de los grupos representa la intensi-
dad del sonido utilizado. En los grupos aleatorio y aumento gradual se emplearon sonidos entre 83
y 118 decibelios que se entremezclaron al azar en el grupo aleatorio y se aumentaron gradualmen-
te entre sesiones en el grupo aumento gradual. Adaptado del estudio de Davis y Wagner (1969).
caballo es que se habitúe al peso del jinete y que no intente desmontarlo cada vez que lo
cabalgue. Para realizar la doma se pueden utilizar dos estrategias, la primera es el estilo
vaquero de las películas del oeste, el jinete se sube en el caballo hasta que lo “rompe”,
esto es, hasta que el caballo se cansa de dar coces y saltos. La segunda sería ir adaptan-
do poco a poco al caballo al peso del jinete, comenzaríamos echándole una manta en el
lomo, después la silla, después cargaríamos la silla con peso hasta que finalmente lo
montamos nosotros. ¿Cuál es la mejor estrategia?
Davis y Wagner (1969) realizaron un sencillo experimento que nos puede dar una
idea de cual es la respuesta a esta pregunta. Utilizaron cuatro grupos de ratas que fueron
expuestas 750 veces a distintos sonidos, a razón de 50 sonidos diarios, registrando la
respuesta de sobresalto que les producían. En el grupo 120 siempre se les presentó un
sonido de 120 decibelios; en el grupo 100 siempre se les presentó un sonido de 100
decibelios; en el grupo aleatorio se le presentaron aleatoriamente sonidos de distintas
intensidades que oscilaban entre 83 y 118 decibelios; finalmente, en el grupo aumento
gradual los tonos fueron aumentando gradualmente a lo largo de las sesiones partiendo
de 83 decibelios y alcanzando finalmente los 118.
La figura 2.2 está basada en los resultados obtenidos por Davis y Wagner (1969) en
este experimento. Tal y como podemos observar, la respuesta de sobresalto decrece
muy poco en el grupo 120 que recibió exposiciones repetidas al estímulo más intenso.
Los otros tres grupos alcanzan el mismo nivel de respuesta al final del entrenamiento.
La pregunta ahora es, ¿cuál de los procedimientos ha producido mayor habituación? La
respuesta habitual a esta pregunta es que la mayor habituación se ha producido en los
HABITUACIÓN 25
Figura 2.3. Respuesta de sobresalto media en la prueba con un estímulo de 120 decibelios reali-
zada tras el entrenamiento descrito en la Figura 2.2 en los grupos 120, 100, aleatorio y aumento
gradual. Adaptado del estudio de Davis y Wagner (1969).
grupos 100 o 120, puesto que son los únicos en los que se aprecia realmente un descen-
so claro en la respuesta de sobresalto a lo largo de los días de exposición. De hecho, en
el grupo aumento gradual la respuesta de sobresalto parece aumentar ligeramente a lo
largo de los días, más que disminuir. Y sin embargo, la respuesta no es correcta. Dado
que los grupos reciben distintas intensidades de estímulos la respuesta final no es com-
parable. En la sesión final de la gráfica se están comparando respuestas ante estímulos
de distintas intensidades (100 decibelios en el grupo 100, 120 en el grupo 120, la media
de distintas intensidades en el grupo aleatorio y 118 decibelios en el grupo aumento
gradual).
Esto nos permite introducir un nuevo concepto importante en los estudios de apren-
dizaje y en los estudios científicos en general: la importancia de la prueba común. Para
poder comparar los efectos de distintos entrenamientos sobre la conducta es importante
que la prueba sea idéntica y bajo las mismas condiciones en todos los participantes, sin
esa prueba común cualquier conclusión es imposible. En temas posteriores veremos
que este problema, aparentemente tan evidente, ha llevado establecer conclusiones erró-
neas en la literatura. Así, para poder saber qué método de entrenamiento produce ma-
yor habituación es necesario que todos los grupos reciban en la prueba los mismos
estímulos. Esto lo sabían Davis y Wagner, por lo que realizaron una prueba en la que
todos los grupos recibieron el estímulo de 120 decibelios. Los resultados de esta prueba
se presentan en la figura 2.3. Tal y como puede observarse, el único grupo que clara-
mente muestra una habituación alta es el grupo que recibió una exposición a los estímu-
los en los que se aumentaba gradualmente su intensidad. El resto mostró poca eviden-
cia de habituación.
Los grupos 120 y aumento gradual se corresponden con las dos estrategias de entre-
namiento que planteábamos en nuestro ejemplo de la doma del caballo. De acuerdo con
los resultados de Davis y Wagner (1969) parece evidente que el mejor modo de conse-
guir que el caballo se habitúe a nuestro peso es entrenarlo gradualmente con pesos cada
vez mayores. Este resultado tiene implicaciones muy importantes en el desarrollo de
aprendizajes más complejos como es el caso del condicionamiento instrumental. Cuan-
do tratemos el castigo tendremos la oportunidad de comprobar hasta qué punto es im-
portante tener en cuenta el modo en que se administran los estímulos si queremos con-
seguir que nuestros procedimientos de aprendizaje resulten eficaces.
La exposición a un estímulo nuevo produce deshabituación. Una vez que se ha

producido la habituación a un estímulo, por ejemplo un sonido, la presentación de un
estímulo nuevo, por ejemplo una luz, inmediatamente antes de la presentación del soni-
do produce una recuperación de la respuesta que se conoce como deshabituación (Gro-
ves y Thompson, 1970). Obsérvese que la deshabituacion es diferente de la especifici-
dad del estímulo en la habituación, puesto que no registramos la respuesta ante el estí-
mulo nuevo sino ante el estímulo habituado después de que el estímulo nuevo se pre-
sente. Tampoco debe confundirse con la recuperación espontánea dado que la respues-
ta no se recupera por si sola, sino tras la presentación previa del estímulo nuevo.
2.2.- Sensibilización
Imagina que vives encima de un bar de copas mal insonorizado y que estás prepa-
rando tu examen del viernes un jueves por la noche, en plena algarabía estudiantil. El
sonido de la calle se mantiene intenso con ligeros altibajos hasta la madrugada. De
acuerdo con lo que veíamos en el apartado previo, al cabo de un tiempo de exposición
al sonido de la calle deberías habituarte a él con lo que no te impediría estudiar. Sin
embargo sabemos que lo normal es que ocurra lo contrario, a medida que transcurre la
noche tus nervios están más a flor de piel y encontrar la concentración suficiente para
estudiar es cada vez más difícil. Este aumento en la respuesta con la exposición repeti-
da al estímulo se conoce como sensibilización.
Davis (1974) ilustra este fenómeno experimentalmente al presentar reiteradamente
un sonido intenso a las ratas. En la figura 2.4 se recoge un resumen de los resultados
obtenidos en este experimento. En uno de los grupos el sonido intenso se presentó
mientras la rata estaba en un ambiente con poco nivel de ruido (60 decibelios); en el
otro grupo el ruido de fondo alcanzaba los 80 decibelios. Tal y como vemos en la figura
la respuesta de sobresalto disminuyó cuando el sonido se presentó en el ambiente tran-
quilo, habituándose, mientras que aumentó cuando se presentaba en el ambiente de
ruido intenso. Este aumento se conoce como sensibilización y nos permite ilustrar la
característica principal de la sensibilización, la falta de especificidad del estímulo.
La sensibilización se generaliza con facilidad. Te has pasado la noche estudiando con

el ruido del bar de copas de fondo. A eso de las seis de la mañana la calle se tranquiliza
HABITUACIÓN 27
Figura 2.4. Magnitud de la respuesta de sobresalto ante las presentaciones repetidas de un tono
con un ruido de fondo de 60 (bajo) o de 80 decibelios (alto). Basado en el estudio de Davis (1974).
y por fin cuentas con un poco de silencio; uno de tus compañeros de piso se levanta y
pone la radio a un volumen moderado, el mismo que todas las mañanas. Sin embargo,
tu reacción es desproporcionada, gritándole que apague la radio, que tenga un poco de
respeto por tus horas de estudio. Igualmente, cuando ves una película de terror, cual-
quier sonido en la casa que normalmente te hubiera pasado desapercibido te sobresalta
sobremanera. Estas reacciones desproporcionadas e inusuales ilustran la falta de espe-
cificidad del estímulo de la sensibilización. Cuando se produce la sensibilización por la
exposición a un estímulo determinado la respuesta aumenta ante estímulos distintos al
original. El experimento de Davis (1974) recogido en la figura 2.4 también ilustra esta
característica; el ambiente de ruido intenso produce un aumento en la respuesta ante el
sonido que de otro modo hubiera disminuido.
2.3.- Mecanismos de habituación y sensibilización.

En el capítulo primero hacíamos una diferenciación entre fenómenos o efectos y
explicaciones de esos fenómenos o efectos. Hasta ahora, en este capítulo nos hemos
centrado en los efectos de habituación y sensibilización, evitando entrar en las explica-
ciones de estos efectos. En este apartado presentaremos algunas de las explicaciones
más aceptadas de la habituación y la sensibilización lo que nos permitirá observar cómo
se integran los fenómenos que hemos descrito hasta ahora. Describiremos primeramen-
te la teoría del proceso dual de Groves y Thompson (1970) donde habituación y sensi-
bilización se consideran procesos no asociativos, para presentar posteriormente la teo-
ría de Wagner (1981), donde la habituación se considera consecuencia de una mezcla
entre procesos asociativos y no asociativos.
La teoría del proceso dual. Groves y Thompson (1970) propusieron una teoría capaz
de integrar la mayoría de los resultados experimentales de habituación y sensibiliza-
ción que hemos presentado arriba. Esta teoría propone que los mecanismos de habitua-
ción y sensibilización actúan en partes distintas del sistema nervioso: el sistema estí-
mulo-respuesta y el sistema de estado.
La habituación actuaría en lo que estos autores denominan sistema Estímulo-Res-
puesta (sistema E-R) y que se correspondería con el arco reflejo, controlando la con-
ducta específica. La habituación actuaría aumentando el umbral específico de un arco
reflejo concreto de tal modo que la próxima vez que se presentara el estímulo elicitador
la respuesta refleja fuera más improbable. De otro modo, se necesitaría un estímulo
elicitador más intenso para elicitar la misma respuesta refleja. De aquí la especificidad
del estímulo de la habituación. Sólo el estímulo elicitador de ese arco reflejo concreto
producirá el aumento en el umbral de respuesta. Cuando se cambie el estímulo el um-
bral no aumentará y la respuesta aparecerá normalmente.
La sensibilización actuaría en el sistema de estado. Este sistema que incluye todo el
sistema nervioso que no forma parte del arco reflejo pero que influye en su reactividad.
La sensibilización supondría un descenso general en el umbral de respuesta que lleva-
ría a que la respuesta ante cualquier estímulo se facilitara, independientemente de que
éste estuviera habituado. La sensibilización se traduciría así en un aumento en nuestro
nivel de activación o arousal, aumentando nuestra respuesta a cualquier estímulo. De
ahí que la sensibilización no sea específica del estímulo. Si el estímulo que produce
sensibilización supone un aumento en el nivel de activación nerviosa, se aumentará la
respuesta a cualquier otro estímulo que se presente, incluso aunque esté habituado.
Esta idea explica por qué se produce la deshabituación. Cuando habituamos la respues-
ta a un estímulo mediante su presentación repetida y después presentamos un estímulo
nuevo inmediatamente antes del estímulo habituado, el incremento en el nivel de arousal
(la sensibilización) que produce el estímulo nuevo hará aumentar la respuesta ante el
estímulo habituado.
La teoría del proceso dual de Groves y Thompson (1970) ha recibido respaldo em-
pírico de los estudios neurobiológicos realizados con la babosa marina Aplysia Califór-
nica; en estos estudios se ha encontrado que la habituación depende de un descenso
progresivo en la liberación del neurotransmisor en las conexiones realizadas por las
neuronas sensoriales e interneuronas provocando un descenso en los potenciales de
acción en las neuronas motoras y reduciendo la respuesta refleja. En cambio, la sensibi-
lización parece ser consecuencia de una facilitación sináptica en las interneuronas re-
guladoras que inervan presinapticamente a las neuronas sensoriales permitiéndoles li-
berar una mayor cantidad de neurotransmisor. Así, la sensibilización afecta en general
las neuronas sensoriales de distintos arcos reflejos, mientras que la habituación incide
en la transmisión sináptica dentro de un arco reflejo concreto (véase Kandel, Schwartz
y Jessell, 2001). Como vemos, la investigación neurológica parece haber instanciado la
teoría psicológica propuesta por Groves y Thompson.
HABITUACIÓN 29
Figura 2.5. Representación gráfica de la circulación de la información en la memoria según el

modelo de Wagner (1981). A1, A2 e I son tres niveles distintos de activación de la información.
La teoría de la habituación de Wagner (1981). Ésta es una teoría asociativa que trata
de dar cuenta de cuándo y cómo se producen asociaciones entre distintos estímulos.
Cuando más adelante hablemos acerca de las relaciones asociativas entre estímulos nos
extenderemos más en el concepto de asociación y de los distintos tipos de asociaciones.
A efectos de la habituación basta saber que las asociaciones son conexiones entre re-
presentaciones de estímulos que llevan a que la aparición de uno de los estímulos pro-
voque la recuperación de la representación del otro en la memoria. El modelo asume
que existen dos tipos de memoria que son en realidad dos estados diferentes de activa-
ción de la información, la memoria inactiva (estado I) y la memoria activa (estado A). A
su vez, dentro de la memoria activa se distingue el estado de máxima activación (A1) y
un estado de activación secundaria, periferia de la atención (A2).
En la figura 2.5 se representa gráficamente la circulación de la información en me-
moria según el modelo de Wagner (1981). La información nueva se procesa en estado
A1. De A1 decae a A2, y de aquí a I. La transición entre A1 y A2 es muy rápida, pues se
asume que no podemos prestar atención a muchos estímulos al mismo tiempo. La tran-
sición de A2 a I es mucho más lenta, dado que son muchos más los estímulos que
pueden estar siendo procesados en la periferia de la atención (A2). Cuando presenta-
mos un estímulo conocido gran parte de sus características se activarán en A1, recupe-
rándose desde la memoria inactiva (I). De ahí pasará a A2, y de A2 a I. Finalmente,
cuando se haya establecido la asociación entre dos estímulos, es decir, cuando un suje-
to haya aprendido que dos estímulos se presentan juntos, la aparición del primer estí-
mulo activará su representación en A1 y al mismo tiempo activará la representación del
segundo estímulo en A2. La respuesta sólo va a aparecer ante el estímulo que esté
siendo procesado en A1.
Aunque el modelo lo hayamos simplificado al extremo a fin de no distraer la aten-

ción del tema que nos ocupa, podemos aplicarlo con facilidad a la habituación. De
acuerdo con el modelo existen dos modos en los que se puede producir habituación.
Cuando el intervalo entre presentaciones del estímulo elicitador es muy corto la huella
de memoria del estímulo se encuentra todavía en A2 cuando vuelve a presentarse, con
lo que gran parte del estímulo no se activará en A1 y la respuesta refleja disminuirá.
Veámoslo con el ejemplo de los cohetes. Cuando se presenta el cohete la primera vez la
explosión se procesa en A1 decayendo poco a poco hacia A2. Si la segunda explosión
se produce mientras el recuerdo de la primera está en A2, tu respuesta de sobresalto
será menor. Esta explicación daría cuenta de la habituación a corto plazo, que se pro-
duce cuando el intervalo entre presentaciones del estímulo elicitador es muy corto.
Cuando distinguíamos habituación a corto y a largo plazo decíamos que la característi-
ca discriminativa entre ambas era la presencia de recuperación espontánea. Este mode-
lo permite explicar la recuperación espontánea en la habituación a corto plazo. Si espa-
ciamos las presentaciones del estímulo elicitador éste habrá dejado de procesarse en A2
y cuando vuelva a presentarse se procesará completo en A1 dando lugar a la recupera-
ción espontánea de la respuesta habituada.
La habituación a largo plazo suele ocurrir con presentaciones más espaciadas del
estímulo elicitador y no parece estar sujeta a recuperación espontánea. Para explicar la
habituación a largo plazo el modelo toma en cuenta que los estímulos elicitadores no
ocurren en el vacío, sino dentro de un ambiente que llamaremos contexto. Así, los
cohetes no se presentan en el vacío ni en cualquier momento, sino dentro del contexto
de las fiestas de tu pueblo. Este modelo supone que la presentación repetida de los
estímulos elicitadores en su contexto lleva al establecimiento de una asociación entre
ellos, de tal modo que la próxima vez que se presente el contexto (en A1) se activará el
recuerdo del estímulo elicitador (en A2). Cuando por fin se presente el estímulo elicita-
dor, al estar siendo procesado en A2, la respuesta no se producirá, o se producirá en
menor medida. Volviendo a nuestro ejemplo, la presentación repetida de los cohetes en
el contexto de las fiestas lleva a que la próxima vez que haya fiestas esperes que aparez-
can los cohetes, con lo que la respuesta de sobresalto ante las explosiones será mucho
menor que en una situación distinta, cuando no haya fiestas. Aunque la explicación de
la habituación a largo plazo parezca razonable, la confirmación experimental que ha
recibido es relativa; en muchas situaciones, cuando se establece la habituación en un
contexto concreto, la habituación se transfiere a un contexto distinto siempre que este
último sea un contexto que al sujeto le resulte familiar (véase Hall, 1991).
2.4.- Habituación, sensibilización, principios de regulación y aplicación a las emo-

ciones complejas
La habituación y la sensibilización pueden considerarse como mecanismos oponen-
tes que sirven para regular la respuesta refleja de los organismos. El mecanismo de
habituación actúa disminuyendo la respuesta refleja, mientras el mecanismo de sensi-
HABITUACIÓN 31
bilización actúa aumentándola. El resultado conductual que se observe dependerá de la

fuerza relativa de estos dos procesos, aumentando la respuesta refleja cuando la sensi-
bilización supere a la habituación y viceversa.
Cuando hablamos de mecanismos oponentes que regulan la respuesta refleja nos
referimos a procesos que mantienen la conducta dentro de un determinado rango obje-
tivo. En general, los sistemas que se mantienen dentro de un rango objetivo se denomi-
nan sistemas homeostáticos, un concepto que aparecerá recurrentemente en distintos
apartados del estudio del aprendizaje. Un sistema homeostático es aquél que trata de
mantener su funcionamiento dentro de un determinado rango objetivo que se denomina
nivel homeostático. Para conseguir mantener el sistema dentro del nivel homeostático
se activan procesos oponentes que contrarrestan las agresiones externas al sistema.
Un ejemplo claro de un sistema homeostático natural es la regulación de la tempera-
tura corporal en los animales endotérmicos, como nosotros. La temperatura corporal en
el ser humano se mantiene dentro de límites muy estrictos, en torno a 36’5 grados
centígrados. El sistema es tan estricto que variaciones mínimas de la temperatura se
consideran síntomas de enfermedad. Y sin embargo, tenemos que vivir en un ambiente
en el que las temperaturas oscilan muy por debajo y a veces muy por encima de nuestro
nivel óptimo de funcionamiento. Cuando eso ocurre, nuestro propio sistema activa au-
tomáticamente mecanismos oponentes. Si la temperatura ambiente es muy fría se con-
traen los poros y se comienza a tiritar, mecanismos que producen calor. Al contrario, si
la temperatura exterior es muy alta se activa un mecanismo oponente distinto, los poros
se abren y se segrega sudor lo que permite refrescar el sistema y mantenerlo dentro de
su rango objetivo. Otro ejemplo de sistema homeostático, esta vez artificial, es el siste-
ma de climatización de los automóviles modernos. El conductor establece el nivel ho-
meostático, la temperatura deseada, y el sistema activa mecanismos oponentes en fun-
ción de la temperatura exterior, bien el aire acondicionado, bien la calefacción de forma
que el vehículo se mantenga a una temperatura relativamente constante.
La teoría de la motivación del proceso oponente (Solomon y Corbit, 1974). Como

veremos, los principios generales de regulación se han aplicado a distintos aspectos del
aprendizaje. Ahora nos vamos a ocupar de cómo se han aplicado estos principios a la
regulación de las emociones complejas. Solomon y Corbit (1974) observaron que las
emociones elicitadas por estímulos emotivos suelen seguir un patrón estándar que de-
nominaron patrón estándar de la dinámica afectiva. Cuando conocemos a una persona
nueva que nos encandila la sensación de enamoramiento es muy intensa. Después de la
primera impresión, nuestra sensación de enamoramiento se reduce un poco, aunque se
mantiene todavía a niveles altos. Si a la semana de salir con ese chico o esa chica decide
terminar con nosotros nos sentimos frustrados, pero pronto nos recuperamos. En térmi-
nos técnicos, la presentación del estímulo genera una reacción emocional intensa que
alcanza rápidamente su punto máximo. Esta reacción va seguida de una fase de adapta-
ción en la que se reduce la respuesta emocional hasta alcanzar un nivel de equilibrio.
Cuando el estímulo cesa, el estado emocional se transforma rápidamente y aparecen

unos sentimientos contrarios a los que se producen en presencia del estímulo, es lo que
se denomina postrreacción afectiva.
¿Qué ocurre con los estímulos habituados? Cuando mantenemos esa relación con la
persona escogida durante mucho tiempo la presencia de nuestra pareja no nos produce
esa sensación de enamoramiento, mantenemos una reacción próxima a la neutralidad
que produce en el otro el reproche de “ya no me quieres como antes”. Sin embargo,
cuando la persona con la que hemos compartido una parte importante de nuestra vida
nos abandona, la sensación de frustración y tristeza es muy alta, nos sentimos mucho
peor y durante mucho más tiempo que cuando nos dejan al poco tiempo de comenzar la
relación. Este patrón es general y se denomina patrón de cambios afectivos ante estí-
mulos habituados. La repetición del estímulo lleva a una reacción afectiva ante el estí-
mulo pequeña que pronto desaparece manteniéndonos en un estado de neutralidad. Sin
embargo, cuando el estímulo desaparece, la postrreacción afectiva es mucho más gran-
de y duran más tiempo que en el caso de estímulos que no han sido habituados.
Los patrones descritos son patrones estándar que pueden observarse de forma sim-
ple en nuestra vida diaria y que se encuentran implícitos en muchos dichos populares,
nadie respeta menos a un muerto que un enterrador, ya no me quieres como antes o
espera a que tengas mi edad y verás como no te apetece tanto el sexo. Aunque a veces
pueda resultar inconveniente, estos efectos resultan muy adaptativos. Pensemos por
ejemplo en el enamoramiento o en la vida en situaciones difíciles, como por ejemplo en
la prisión. Si mantuviéramos nuestra respuesta inicial ante los estímulos sería difícil
sobrevivir, en el caso del enamoramiento nuestra vida sería muy poco productiva y en
el caso de la prisión nos quedaría poco más que el suicidio. La capacidad de adaptación
emocional del ser humano a distintas situaciones le permite llevar una vida de felicidad
razonable o de tristeza relativa que le resulta mucho más soportable que la felicidad o
tristeza extrema.
Decíamos que estos patrones de la dinámica afectiva son observables y por lo tanto
pueden registrarse como efectos conductuales. Solomon y Corbit (1974) proponen una
explicación de estos patrones en términos de regulación conductual en la que sostienen
que son efectos de la regulación homeostática de un sistema imperfecto. En la figura
2.6 se representan gráficamente los patrones de dinámica afectiva tal y como fueron
propuestos por Solomon y Corbit (1974). En las dos figuras superiores se presenta la
respuesta afectiva ante la presentación de un estímulo nuevo (izquierda) y un estímulo
habituado (derecha); es simplemente una representación gráfica de los dos fenómenos
que describíamos arriba.
Esta teoría asume que el sistema emocional humano trata de mantenerse dentro de
un nivel homeostático que básicamente se corresponde con la neutralidad emocional.
Cuando se presenta un estímulo emocional produce una reacción afectiva (A) que apar-
ta al sistema del equilibrio emocional y que se conoce como proceso primario. Esta
reacción afectiva se produce automáticamente con la presentación del estímulo, se
HABITUACIÓN 33
Figura 2.6. Representación de la dinámica afectiva según Solomon y Corbit (1974). Las dos
figuras de la parte superior representan la respuesta observable ante un estímulo que elicita una
emoción las primeras veces que se presenta (izquierda) y cuando ya está habituado (derecha). Las
dos figuras de la parte inferior representan los procesos oponentes subyacentes cuya combinación
produce la respuesta emocional observable en las figuras superiores. La parte sombreada corres-
ponde al tiempo que está presente el estímulo elicitador de la emoción. Adaptado de Solomon y
Corbit (1974).
mantiene mientras el estímulo esté presente y desaparece rápidamente cuando el estí-

mulo se elimina (véanse la curva A en las dos gráficas inferiores de la figura 2.6). Para
devolver al sistema a su equilibrio emocional se activa el proceso contrario o proceso
oponente (B), que devuelve al sistema al equilibrio. La emoción observable resulta de
la combinación de estos dos procesos (parte superior de la figura 2.6).
Al principio, el proceso oponente tarda en activarse dando como resultado que no es
capaz de contrarrestar completamente el proceso primario. Se supone que el proceso
oponente, al ser autogenerado, no puede eliminarse tan rápidamente como los estímu-
los externos, lo que lleva a que se mantenga durante un tiempo breve cuando ha des-
aparecido el proceso primario.
La reacción ante el estímulo habituado es distinta. La repetición del estímulo lleva a
que el proceso B se fortalezca y aparezca antes, con el resultado de que es capaz de
contrarrestar casi totalmente el proceso primario. Sin embargo, esta fortaleza del proce-
so oponente lleva a que cuando desaparece el estímulo elicitador se mantenga de forma
más intensa y durante más tiempo que en el caso de los estímulos nuevos, con el resul-
tado de que la postrreacción afectiva es muy intensa. Además de por simple repetición
del estímulo, el proceso oponente puede estar generado por asociación. Imagina que tu
padre sólo te deja el coche el fin de semana. La asociación entre fin de semana y coche
(estímulo elicitador afectivo) lleva a que cuando se acerque el fin de semana esperes
poder conducir el coche. Esta regularidad permite a tu organismo anticipar la aparición
del proceso oponente, resultando mucho más eficiente la regulación emocional. Sin
embargo, cuando un fin de semana te quedes sin coche la sensación de frustración va a
ser muy intensa pues el hecho de estar en el fin de semana va a llevar a la generación
automática del proceso oponente de frustración que, en ausencia del estímulo elicitador
primario (el coche) se va a manifestar con toda su intensidad. La idea de los procesos
oponentes se ha visto respaldada empíricamente por los estudios sobre la tolerancia a
las drogas que veremos más adelante (Siegel, 1999).
2.5.- Resumen.
La conducta refleja no es invariable. La repetición del estímulo elicitador lleva a un
descenso o un aumento en la conducta refleja. El descenso en la conducta refleja por la
presentación del estímulo elicitador se conoce como efecto de habituación, es específi-
co del estímulo y está sujeto a recuperación espontánea con el simple paso del tiempo.
El aumento en la respuesta como consecuencia de la exposición repetida al estímulo
elicitador se denomina sensibilización y no es específica del estímulo. La teoría del
proceso dual de Groves y Thompson (1970) sostiene que la habituación se produce
aumentando el umbral de respuesta en el arco reflejo, en lo que denominan sistema
estímulo-respuesta, mientras que la sensibilización tiene lugar en el sistema de estado,
aumentando la reactividad del sujeto a los estímulos. Wagner (1981) explica la habitua-
ción desde un punto de vista asociativo, considerando que se produce porque el contex-
to donde se presenta habitualmente el estímulo activa el recuerdo del estímulo e impide
que se procese tan activamente como cuando se presenta inesperadamente.
Habituación y sensibilización son dos mecanismos reguladores de la respuesta re-
fleja, manteniéndola dentro de un rango objetivo. En ese sentido, habituación y sensibi-
lización son mecanismos oponentes. La idea de los mecanismos oponentes, común en
el funcionamiento de sistemas homeostáticos, se ha aplicado con éxito a la regulación
de las emociones complejas. Solomon y Corbit (1974) suponen que la presentación de
un estímulo que elicite una emoción produce en el organismo una reacción emocional
de signo contrario, proceso oponente, que devuelve al organismo a la neutralidad emo-
cional. Cuando el estímulo desaparece, el proceso oponente permanece produciendo
una postrreacción afectiva de signo contrario a la producida por el estímulo afectivo
original. La habituación lleva a que el proceso oponente se active más rápido y con
mayor intensidad, con la consecuencia de que la emoción observada ante el estímulo es
menor y sin embargo la postrreacción afectiva es mayor.
Capítulo 3
Aprendizaje acerca de la relación entre estímulos
Imagina que vas paseando por el campo y el cielo se encapota, a los pocos minutos
comienza a llover y acabas hecho una sopa, ¿has aprendido algo? Seguro que has apren-
dido muchas cosas, como a llevar paraguas o a no salir al campo si amenaza lluvia,
aunque de eso trataremos en temas posteriores. También has aprendido que un cielo
encapotado va seguido de lluvia, en otras palabras, has establecido una relación entre el
cielo encapotado y la lluvia. Esta es una forma de aprendizaje asociativo en el que se
establecen relaciones o conexiones entre eventos, de tal modo que la presentación de
uno de esos eventos en el futuro active en la memoria la expectativa de la aparición del
otro. Dentro del aprendizaje asociativo, la relación entre el cielo encapotado y la lluvia
es una forma de condicionamiento pavloviano o condicionamiento clásico.
El estudio sistemático del condicionamiento clásico comenzó en el laboratorio de
Ivan Pavlov (1849-1936) un fisiólogo ruso que recibió el premio Nobel de fisiología
por sus estudios sobre el sistema digestivo. En estos estudios Pavlov implantaba una
fístula estomacal a sus perros y descubrió que bastaba la presencia del técnico de labo-
ratorio que normalmente los alimentaba para que el perro comenzara a secretar jugos
gástricos antes de tener la oportunidad de comer. Pavlov explotó este hallazgo en sus
estudios posteriores para crear las bases del estudio del condicionamiento clásico (Pa-
vlov, 1927).
3.1.- Nociones básicas en el condicionamiento clásico

La característica definitoria del condicionamiento clásico es que se establecen rela-
ciones entre eventos que ocurren en el ambiente independientemente de la conducta del
organismo que realiza el aprendizaje. Llevado al ejemplo que utilizamos antes, el cielo
encapotado irá seguido de lluvia independientemente de lo que hagas o dejes de hacer.
En las situaciones prototípicas de condicionamiento clásico se establece una rela-
ción entre un estímulo neutro en el sentido de que no elicita una respuesta amplia por
parte del sujeto que lo recibe (por ejemplo una luz) y un estímulo biológicamente signi-
ficativo que sí elicita la respuesta (por ejemplo una ración de comida). El estímulo
biológicamente significativo se denomina estímulo incondicionado (EI) debido a que
elicita directamente una respuesta, sin necesidad de un condicionamiento o aprendizaje
previo. La respuesta que da el sujeto ante la presentación del EI se denomina respuesta
incondicionada (RI). Obsérvese el parecido del EI y la RI con el estímulo elicitador y la
respuesta elicitada que tratábamos en el capítulo previo. Ese parecido no es casual
35
puesto que hablamos del mismo tipo de estímulos y respuestas. El estímulo elicitador y
la respuesta refleja se convierten en EI y RI cuando forman parte de un procedimiento
de condicionamiento clásico.
Los emparejamientos del estímulo neutro con el EI llevan a que el primero termine
por elicitar una respuesta observable que se denomina respuesta condicionada (RC),
convirtiéndose así en un estímulo condicionado (EC). La denominación de estos ele-
mentos no es casual, el estímulo condicionado se llama así porque provoca la RC sólo
después del proceso de condicionamiento; y la respuesta es condicionada porque nece-
sita igualmente del condicionamiento para presentarse.
Los emparejamientos repetidos entre el EC y el EI llevan a un incremento gradual
negativamente acelerado en la RC que se conoce como curva de adquisición. Esta
curva negativamente acelerada es una característica de todo el aprendizaje, piensa por
ejemplo en cuando aprendes un idioma nuevo, las primeras semanas los avances son
espectaculares pero después los avances son cada vez más pequeños, aunque tu capaci-
dad de uso del idioma sea cada vez mayor. Cuando después del aprendizaje se presenta
el EC solo, en ausencia del EI, se produce un descenso gradual en la RC que se conoce
como efecto de extinción. No obstante, el estudio del efecto de extinción, de las varia-
bles que le afectan y de sus explicaciones lo demoraremos hasta un capítulo posterior.
El condicionamiento clásico se ha estudiado en la literatura con multitud de proce-
dimientos. En general, los procedimientos podemos dividirlos en función de si el EI
utilizado es apetitivo (algo que el sujeto quiere tener, como la comida) o aversivo (algo
que el sujeto preferiría no recibir como una descarga eléctrica o un malestar gastroin-
testinal), en el primer caso hablaremos de condicionamiento apetitivo y en el segundo
de condicionamiento aversivo.
La naturaleza del EC y del EI. Una cuestión fundamental en el condicionamiento

clásico hace referencia al tipo de estímulos utilizados como EC y como EI. En principio
se suponía que el EC tenía que ser un estímulo neutro y el EI un estímulo biológica-
mente significativo tal y como lo hemos descrito en nuestro ejemplo prototípico. Sin
embargo, entender el condicionamiento clásico de esta manera supone tener una visión
muy restrictiva del significado del condicionamiento clásico y de su papel en el apren-
dizaje. Es posible que el EI sea necesario para que aparezca una respuesta observable,
pero no tiene por qué ser necesario para que se establezca una asociación entre dos
eventos. Entendiendo el condicionamiento clásico como el mecanismo que nos permite
establecer asociaciones entre eventos que están más allá de nuestro control conductual
y sabiendo como sabemos que no todo aprendizaje ha de manifestarse en conducta, la
necesidad de fuerza biológica diferencial entre el EC y el EI es cuando menos cuestio-
nable lógicamente.
El precondicionamiento sensorial quizá sea uno de los fenómenos donde la necesi-
dad del EI quede más claramente cuestionada. Brodgen (1939) utilizó perros y el dise-
ño que se presenta en el panel superior de la figura 3.1. Primero les presentó varios
CONDICIONAMIENTO CLÁSICO 37
Figura 3.1. El diseño de precondicionamiento sensorial utilizado por Brodgen (1939) se presenta
en el panel superior. En el panel inferior se presenta un diseño alternativo en el que se ha mejorado
el grupo de control y se ha contrabalanceado el papel que juegan la luz y el tono como estímulos
A y B.
emparejamientos de un tono y una luz. Después presentó la luz seguida por una descar-
ga eléctrica breve y por último comprobó el miedo que el tono elicitaba en los perros,
comparándolo con el que elicitaba en un grupo de control que únicamente había recibi-
do emparejamientos entre la luz y la descarga. Encontró que la presentación del tono
producía miedo en los perros, concluyendo que se había formado una asociación entre
el tono y la luz durante la primera fase de modo que cuando después la luz se asoció con
la descarga, el perro esperaba recibir la descarga en presencia del tono. La asociación
tono-luz se formó durante la primera fase, en ausencia de un estímulo incondicionado
al uso; la segunda fase sólo es necesaria en tanto en cuanto necesitamos una respuesta
observable para poder medir la asociación entre el tono y la luz. El EI puede ser nece-
sario para la respuesta observable, pero desde luego no es necesario para el aprendiza-
je.
En el panel inferior de la figura 3.1 se presenta un diseño alternativo al diseño de
Brodgen (1939). Cuando hablábamos de las condiciones de control señalábamos que
una condición de control adecuada debe de ser idéntica a la condición experimental en
todo salvo en aquello que queremos medir, en este caso la asociación tono-luz. Sin
embargo, la condición de control utilizada por Brodgen (1939) difiere de la condición
experimental en más aspectos de los aconsejables. Además de diferir en la posibilidad
de la asociación tono-luz difiere también en la experiencia con el tono y en la experien-
cia con la luz. Una condición de control más apropiada sería la que se presenta en la
parte derecha de la figura 3.1, en la que el tono y la luz se presentan el mismo número
de veces que en la condición experimental, pero no se da la oportunidad de que se
establezca una asociación entre ellos al presentarse separados. Adicionalmente, en este

diseño alternativo se ha contrabalanceado el papel que juegan la luz y el tono, por eso
los estímulos aparecen descritos de forma abstracta como estímulos A y B. El contraba-
lanceo es un procedimiento de control muy habitual en la literatura. En este caso, impli-
ca que en la mitad de los sujetos el estímulo A sea la luz y el estímulo B el tono, y
viceversa en la otra mitad. Este procedimiento asegura que los resultados del experi-
mento no se deban a que la luz o el tono jueguen un papel específico dentro del diseño.
El condicionamiento de segundo orden es otro ejemplo que demuestra que no es
necesario el uso de un EI estándar para conseguir condicionamiento clásico (Pavlov,
1927). En la situación de condicionamiento de segundo orden tras realizar los empare-
jamientos EC-EI se utiliza el EC como el EI de una segunda asociación, esto es, el
diseño sería idéntico al del precondicionamiento sensorial con la única diferencia de
que se invierte el orden de las fases. En este caso el estímulo que cumple la función de
EI no es un estímulo biológicamente potente sino un estímulo neutro que ha adquirido
su valor motivacional a través del condicionamiento.
Finalmente, el contracondicionamiento muestra que también pueden establecerse
asociaciones entre dos estímulos de fuerza biológica equivalentemente alta. Pavlov
(1927) realizó emparejamientos entre dos EIs al uso, una descarga eléctrica y comida.
Los perros utilizados en este experimento dejaron de mostrar la reacción defensiva
habitual ante la descarga y comenzaron a salivar ante ella indicando que el valor afec-
tivo de la descarga eléctrica había cambiado al asociarse con la comida.
Precondicionamiento sensorial, condicionamiento de segundo orden y contracondi-
cionamiento son tres fenómenos que en conjunto demuestran que el condicionamiento
clásico es un mecanismo general de asociación, utilizado para establecer relaciones
entre distintos tipos de estímulos, relaciones que no parecen estar limitadas por la natu-
raleza de los estímulos empleados.
La asociación selectiva. No obstante, el hecho de que el condicionamiento clásico
no esté limitado a estímulos con características determinadas no implica que todos los
estímulos se condicionen igualmente. García y Koelling (1966) realizaron un experi-
mento utilizando el diseño que se presenta en la figura 3.2. Emplearon cuatro grupos de
ratas a las que se les presentó como EC un combinado de sabor y un estímulo audiovi-
sual. En los grupos 1 y 3 el EC se emparejó con una descarga eléctrica, mientras en los
grupos 2 y 4 se emparejó con el malestar gastrointestinal producido por la exposición a
rayos X. Finalmente, los grupos 1 y 4 recibieron una prueba con el agua audiovisual
mientras los grupos 2 y 3 recibieron una prueba con el agua sápida. En la figura 3.2 se
presentan esquemáticamente los resultados obtenidos por estos autores. El resumen de
los resultados es simple, el estímulo audiovisual fue un buen EC cuando se emparejó
con la descarga eléctrica y el sabor lo fue cuando se emparejó con el malestar gastroin-
testinal. Cualquier otra combinación no resultó eficaz.
Este resultado no es sorprendente. Imagina que vas a un restaurante mexicano, co-
mes gusanos de maguey por primera vez y terminas sintiéndote mal a las pocas horas,
Figura 3.2. Diseño esquematizado y resumen de los resultados del experimento realizado por
García y Koelling (1966) en el que demostraban la selectividad de las asociaciones. Sólo se obser-
vó condicionamiento cuando el estímulo audiovisual se emparejó con la descarga eléctrica o cuando
el estímulo sápido se emparejó con el malestar gástrico. Cualquier otra combinación no produjo
evidencia de condicionamiento. Basado en el trabajo de García y Koelling (1966).
¿a qué le echarás la culpa, a la decoración del restaurante o a la comida? Probablemente

a la comida. Seligman (1970) acuñó el término preparación implicando que estamos
preparados para establecer asociaciones entre determinadas combinaciones EC-EI y
contrapreparados para establecer otras. No obstante, aunque el concepto de prepara-
ción tiene un innegable valor descriptivo, no está clara cual es la explicación de esa
característica. Existe la posibilidad de que esta preparación sea genética, pero también
podría producirse por aprendizaje, normalmente el malestar gastrointestinal está pro-
ducido por estímulos ingeridos. Una tercera posibilidad no descartable tiene que ver
con las leyes de la asociación ya propuestas por Aristóteles. Una de estas leyes era la
ley de similitud y sostenía que estímulos similares eran más fáciles de asociar entre sí
que estímulos disímiles. En el caso que nos ocupa, la descarga, un estímulo externo,
fásico se parece más al estímulo audiovisual, también externo, también fásico. Por el
contrario, el malestar gastrointestinal, un estímulo interno, tónico, se parece mucho
más al estímulo sápido.
En cualquier caso, respecto al tema que nos ocupa, parece que los estímulos que
actúen como EC y como EI no tienen porqué tener fuerza biológica diferencial. En
principio, cualquier par de estímulos son asociables, si bien parece que estamos prepa-
rados para asociar más fácilmente algunos pares de estímulos que otros.
La naturaleza de la RC. La RC suele describirse muy a menudo como similar a la RI.

En el condicionamiento salival, en el que se establece la asociación entre un estímulo
externo y la presentación de comida, la RC que manifiesta el sujeto ante el EC es la
misma respuesta que aparece ante la comida, la salivación. Lo mismo ocurre en el
condicionamiento palpebral, en el que se empareja un estímulo con una descarga eléc-
trica suave en el párpado; la RI es el cierre del párpado y lo mismo ocurre con la RC.
Quizá la demostración más espectacular de la similitud entre la RC y la RI provenga

de un experimento realizado por Jenkins y Moore (1973). Estos autores utilizaron un
procedimiento de automoldeamiento en palomas. En este procedimiento se empareja la
iluminación de una tecla con el acceso al comedero durante unos segundos, registrando
como RC el picoteo de la paloma a la tecla iluminada. Estos autores utilizaron dos
grupos de palomas, en uno la luz fue emparejada con agua y en el otro con comida. En
ambos casos las palomas picoteaban la tecla iluminada, pero la forma de picoteo era
distinta. Cuando se utilizó la comida como EI las palomas mantenían pico entreabierto,
como si estuvieran comiéndose la luz; sin embargo, cuando se utilizó agua como EI las
palomas mantenían el pico cerrado, como si estuvieran bebiéndose la luz. En este caso
concreto la RC fue claramente idéntica a la RI, cambiando en función del EI que se
utilizara.
Sin embargo, el que la RC y la RI sean idénticas en algunos procedimientos no
implica que esto sea una ley del condicionamiento clásico. En otros procedimientos la
RC puede ser diferente a la RI. Por ejemplo, en el condicionamiento de la entrada en el
comedero en ratas se empareja un sonido o una luz con la administración de una bolita
de comida en un comedero. La RI ante la bolita es la conducta de manipulación e
ingestión del alimento, mientras que la RC que se registra en ese procedimiento es el
número de veces que la rata mete la cabeza en el comedero durante el EC.
En otros casos la respuesta condicionada es justo la opuesta a la respuesta incondi-
cionada. Cuando hablábamos en el capítulo 2 de los mecanismos oponentes terminába-
mos señalando que estos mecanismos oponentes podían activarse por asociación, esto
es, por condicionamiento. Por ejemplo, Siegel (1999) revisa una serie de resultados que
sugieren que en el caso de la ingestión de drogas la respuesta condicionada puede ser la
reacción opuesta a la que produce la droga. Por ejemplo, Siegel (1975) inyectó morfina
reiteradamente a varias ratas antes de colocarlas en una plancha moderadamente ca-
liente, registrando el tiempo que transcurría hasta que las ratas comenzaban a lamerse
las patas. La morfina tiene un efecto analgésico por lo que aumenta la tolerancia al
dolor y retrasa el momento en el que las ratas comienzan a lamerse las patas. Al cabo de
una serie de inyecciones el retraso fue haciéndose menor en lo que se conoce como
tolerancia a la droga. Lo sorprendente fue que cuando se sustituyó la inyección de
morfina por una inyección de suero salino la reacción manifestada por las ratas fue la
contraria, hiperalgesia, mostrando mucha menos tolerancia al dolor que las ratas de un
grupo de control que sólo recibieron inyecciones de suero salino. Esta reacción de
hiperalgesia parece ser consecuencia de la asociación entre la habitación y las claves
que acompañan a la inyección de morfina con la morfina misma. Esta asociación per-
mite al organismo prepararse para la recepción de la morfina y activar el proceso opo-
nente que contrarreste su efecto (véase la figura 2.6 en el capítulo previo).
Finalmente, la RC también puede depender del EC utilizado. Holland (1977) usó la
comida como EI en dos grupos de ratas. Los grupos se diferenciaron en el EC utilizado,
que en un caso fue un sonido y en el otro una luz. La RC de las ratas en las que el EC fue
el sonido fue girar sobre sí mismas y lo que podríamos denominar un aumento en la

actividad horizontal; en cambio las ratas que recibieron la luz mostraron una RC de
orientación a la luz, en lo que podríamos denominar un aumento en la actividad verti-
cal.
En resumen, la RC puede ser similar, distinta o incluso opuesta a la RI. En muchas
circunstancias la RC está determinada por el EI utilizado, pero experimentos como el
de Holland (1977) demuestran que son muchos los factores que pueden afectar a la
forma de la RC. En general, la RC parece servir para preparar al sujeto para la recep-
ción del EI y dependiendo del EI, de las posibilidades de respuesta que permita la
situación y del EC utilizado, la RC será una u otra.
Las condiciones de control básicas. Una cuestión importante en cualquier estudio de

aprendizaje son las condiciones de control que nos permiten determinar qué tipo de
aprendizaje estamos evaluando. En este mismo apartado hemos destacado la necesidad
de control en el caso del precondicionamiento sensorial, el condicionamiento clásico
no es una excepción. Imaginemos el ejemplo de la comida en el restaurante que nos
sienta mal, la próxima vez rechazaremos los gusanos de maguey pero, ¿se debe esto a
que establecimos una asociación entre los gusanos y el malestar? Es posible, pero tam-
bién podría deberse este rechazo a razones alternativas distintas del condicionamiento
clásico.
Por ejemplo, la exposición repetida a los gusanos de maguey puede producir sensi-
bilización. Como veíamos en el capítulo anterior, la sensibilización supone un aumento
en la respuesta refleja por la exposición repetida a un estímulo. En este caso, la exposi-
ción repetida a los gusanos, un plato al que los europeos nos acercamos con equivocada
reticencia, podría producir un aumento en el rechazo de los gusanos que no tuviera que
ver con el malestar gastrointestinal. Para eliminar esta explicación alternativa podría-
mos establecer dos grupos de sujetos, en uno la ingesta de gusanos iría seguida de
malestar gastrointestinal y en el otro se presentarían los gusanos solos. Si al final del
entrenamiento los gusanos se rechazan en el primer grupo pero no en el segundo po-
dríamos concluir que la aversión por los gusanos no se debe a la sensibilización por la
exposición repetida a los gusanos.
Sin embargo, señalábamos en el capítulo anterior que la sensibilización no es espe-
cífica del estímulo. En la situación planteada el EI es un firme candidato a producir
sensibilización que podría generalizarse al EC. Si esto ocurriera estaríamos hablando
de pseudocondicionamiento, en el que el aumento en la aversión por los gusanos se
debería a la generalización de la sensibilización por la simple exposición al malestar,
sin necesidad de que hubiera emparejamiento entre ellos.
Cuando hablábamos del precondicionamiento sensorial remarcábamos que la forma
de comprobar si la asociación influía en la respuesta de los individuos era compararlos
con una condición en la que tal asociación no se podía establecer. En el condiciona-
miento clásico una de las formas de impedir la formación de la asociación es el uso del
control desemparejado, en el que el EC y el EI se presentan separados. Sin embargo,

como veremos más adelante este tipo de tratamiento puede llevar a que el sujeto apren-
da que el EC anuncia la ausencia del EI, con lo que es posible que la diferencia con el
grupo que recibe emparejamientos EC-EI no se deba sólo a que la RC aumenta en el
grupo EC-EI sino a que disminuya en el grupo desemparejado.
Consciente de estos problemas Rescorla (1967) sugirió que el control adecuado
para el condicionamiento clásico era el de control aleatorio, en el que el EC y el EI se
presentan igualmente juntos y por separado, en una relación totalmente aleatoria entre
ellos. Aunque esta podría considerarse una solución mejor que las anteriores, Papini y
Bitterman (1990) encontraron que el control aleatorio puede dar lugar a aprendizaje
asociativo, dependiendo de cómo se distribuyan las combinaciones EC-EI a lo largo de
su distribución aleatoria.
Finalmente, también se ha empleado en la literatura el control discriminativo, en el
que se realiza un condicionamiento diferencial donde uno de los estímulos, los gusanos
de maguey van seguidos de malestar gastrointestinal mientras el otro estímulo, por
ejemplo el pollo, no va seguido de malestar. El condicionamiento se observaría como
un incremento en la aversión por los gusanos combinado con un decremento en la
aversión por el pollo. No obstante, como veremos más adelante este procedimiento
puede llevar a que el estímulo que no va seguido de consecuencias se convierta en un
inhibidor condicionado, en un estímulo que anuncia la ausencia de consecuencias. Esto
podría conllevar una magnificación del resultado del condicionamiento pues podría
deberse tanto al aumento en la RC ante el estímulo seguido por el EI, a una disminución
en la respuesta ante el estímulo no seguido por el EI o a una combinación de ambas
cosas.
Vemos así que no hay controles perfectos para el condicionamiento clásico, cual-
quiera de ellos deja asuntos sin resolver. No obstante, tanto el control discriminativo,
como el control explícitamente desemparejado y el control aleatorio mantienen la regla
que establecíamos de inicio para los grupos de control, que fueran idénticos al grupo
experimental en todo salvo en aquello que queremos medir. Dadas las circunstancias,
cualquiera de ellos parece razonablemente adecuado para el estudio del condiciona-
miento clásico, aunque debemos tener en cuenta que todos son imperfectos y que nues-
tras conclusiones debieran basarse en el uso de varios de ellos siempre que fuera posi-
ble.
3.2. Las condiciones del condicionamiento clásico y los fenómenos básicos

Venimos señalando que en el condicionamiento clásico se le presentan al sujeto dos
eventos relacionados dándole la oportunidad de aprender acerca de su relación. Sin
embargo, hasta ahora hemos hablado de esta presentación conjunta de modo ambiguo,
sin especificar qué queremos decir con ello. En este apartado vamos a concretar las
formas de combinación EC-EI más habituales en la literatura y las condiciones necesa-
rias y suficientes para que se produzca la asociación entre el EC y el EI.
Figura 3.3. Relaciones temporales básicas entre el EC y el EI en los estudios de condicionamiento

clásico.
En la figura 3.3 se presentan las relaciones temporales entre el EC y el EI más

habitualmente utilizadas en los estudios de condicionamiento clásico. En el primer caso
el EC y el EI comienzan y terminan al mismo tiempo, es un caso de condicionamiento
simultáneo dado que el intervalo entre estímulos, el tiempo que transcurre entre el
inicio del EC y el inicio del EI es de cero. En el segundo caso el intervalo entre estímu-
los es mayor que cero y menor que la duración del EC; hablamos entonces de condicio-
namiento de demora puesto que la presentación del EI se demora hasta que el EC lleva
un rato activado. Por último, en aquellas situaciones en las que el intervalo entre estí-
mulos es muy largo de modo que da tiempo a que el EC termine antes de que comience
el EI hablamos de condicionamiento de huella. El periodo que transcurre entre el EC y
el EI se denomina intervalo de huella, puesto que durante ese tiempo el EC no está
físicamente presente, sino en forma de huella de memoria, de ahí el nombre del proce-
dimiento.
Desde Aristóteles se había considerado que la ley fundamental de la asociación era
la contigüidad. Dicho en otros términos, el mejor modo de que se establezca una aso-
ciación entre dos estímulos es que ambos se presenten al mismo tiempo. De acuerdo
con esta ley el mejor procedimiento para conseguir la asociación sería el condiciona-
miento simultáneo puesto que es el único en el que el principio de contigüidad se cum-
ple estrictamente. Sin embargo, veremos que esto no está tan claro.
Asincronía y relatividad. Terminábamos el párrafo previo señalando que el principio

de contigüidad sólo se cumple en el procedimiento de condicionamiento simultáneo.
Figura 3.4. Representación esquemática de una situación de condicionamiento simultáneo com-

parada con una situación de condicionamiento demorado. Obsérvese que aunque a primera vista
la prueba pueda parecer idéntica para ambos, el sujeto entrenado con el condicionamiento simul-
táneo sufre un cambio mayor entre el aprendizaje y la prueba que el sujeto entrenado con el
condicionamiento demorado
Sin embargo, un análisis de los resultados de condicionamiento clásico reflejados en la

literatura nos permite comprobar que el procedimiento simultáneo no suele ser el que
mejor respuesta condicionada produce. Independientemente de la técnica de condicio-
namiento que se utilice la fuerza de la RC observada depende del intervalo entre estí-
mulos. Cuando el intervalo entre estímulos es muy corto como en el caso del condicio-
namiento simultáneo, la fuerza de la RC es escasa; aumentar el intervalo entre estímu-
los produce una mejoría en el aprendizaje, pero cuando el intervalo entre estímulos se
va haciendo demasiado grande el aprendizaje vuelve a empeorar. Parece que se necesi-
ta cierta asincronía entre el comienzo del EC y el comienzo del EI para que se produzca
un buen condicionamiento, lo que supone una primera dificultad para la ley de conti-
güidad como principio fundamental de la asociación.
En otras palabras, parece que el procedimiento de condicionamiento de demora es el
más eficaz para producir el condicionamiento. No obstante, ya en el primer capítulo
incidíamos en la dificultad que suponía tener que medir el aprendizaje a través de la
conducta por lo que enfrentados a una situación en la que se observa una diferencia en
la manifestación conductual es necesario preguntarse si estas dificultades del principio
de contigüidad son realmente dificultades de aprendizaje o responden a nuestros proce-
dimientos de medida del aprendizaje a través de la respuesta. Imaginemos una situa-
ción de condicionamiento de demora y otra de condicionamiento simultáneo. La RC es
mayor en el condicionamiento de demora pero, ¿significa esto necesariamente que hay
más aprendizaje en el condicionamiento de demora?
Observemos la figura 3.4, en ella se presentan los diseños estándar de condiciona-
miento simultáneo y condicionamiento de demora, ¿es posible que exista algo en la
situación que pudiera estar afectando a la actuación durante la prueba independiente-
mente del aprendizaje acerca de la relación EC-EI? En el capítulo 2 avanzábamos una
Figura 3.5. Extracto del diseño y resultados de un experimento en el que se comparan los proce-
dimientos de condicionamiento simultáneo y condicionamiento demorado. El estímulo A mantie-
ne una relación simultánea con el estímulo B y demorada con el estímulo C durante la primera
fase. La razón de supresión en los distintos grupos sugieren que el condicionamiento fue mejor en
el grupo simultáneo que en el grupo de demora. Basado en un estudio de Rescorla (1980).
condición necesaria para poder establecer comparaciones, la necesidad de una prueba

común. Aparentemente, los diseños presentados en la figura 3.4 cumplen esta condi-
ción puesto que en ambos se pregunta por el EC solo. Sin embargo, la prueba supone un
cambio radical en las condiciones estimulares en el caso del condicionamiento simultá-
neo, cambio que no ocurre en el condicionamiento de demora. En el condicionamiento
simultáneo el EC pasa de presentarse en compuesto con el EI a presentarse solo durante
la prueba. El sujeto entrenado en la situación de condicionamiento simultáneo puede
darse cuenta de que el EI no está en cuanto comienza la prueba. Por el contrario, el
sujeto entrenado en la situación de condicionamiento de demora no puede darse cuenta
de que está en una situación de prueba hasta que el EC termina. Esta diferencia por sí
sola podría explicar la menor respuesta en el procedimiento simultáneo que en el pro-
cedimiento de demora.
Rescorla (1980) ideó un método realmente ingenioso para contrastar los procedi-
mientos de condicionamiento simultáneo y de demora en una situación en la que la
prueba se realizara en ambos en las mismas condiciones. Utilizó un procedimiento de
supresión condicionada en ratas. En este procedimiento primero se enseña a las ratas a
presionar una palanca para obtener comida, hasta que terminan presionándola regular-
mente. Después se comienza el condicionamiento pavloviano, normalmente presentan-
do el EC seguido por una descarga eléctrica breve. La RC registrada en este prodeci-
miento es el descenso en la respuesta de presión de palanca durante el EC (a) en rela-
ción con un periodo de duración equivalente en ausencia del EC (b). Con los resultados
de estos dos periodos se calcula lo que se conoce como razón de supresión (a / a+b) que
oscila entre 0, máxima supresión, máxima respuesta condicionada y 0’5, supresión
mínima, presión de palanca idéntica en presencia y en ausencia del EC. La figura 3.5
presenta un extracto del diseño utilizado en ese experimento y los resultados obtenidos.
Durante la primera fase estableció una relación entre tres estímulos neutros, los estímu-
los A y B se presentaban simultáneamente y ambos mantenían una relación de demora
con el estímulo C. En el grupo simultáneo el estímulo B se emparejó con una descarga
eléctrica durante la segunda fase; en el grupo demorado el estímulo emparejado con la
descarga fue el estímulo C. Finalmente, todos recibieron una prueba con el estímulo A.
Obsérvese que la respuesta en la prueba dependerá de la relación que tenga durante la
primera fase el estímulo A con el estímulo emparejado con la descarga durante las
segunda fase, simultánea en el grupo simultáneo y demorada en el grupo demorado. En
la parte derecha de la figura 3.5 se presentan los resultados de este experimento. Como
puede observarse, la supresión es mínima en el grupo de demora mientras es más alta
en el grupo simultáneo, sugiriendo que la relación simultánea entre Ay B durante la
primera fase fue más eficaz para establecer la asociación que la relación demorada
entre A y C. Este resultado, aunque no necesariamente extrapolable a una situación de
condicionamiento normal, con EIs biológicamente relevantes, cuestiona cuando menos
la supuesta dificultad que implica la asincronía para el principio de contigüidad y pone
de manifiesto las dificultades del estudio del aprendizaje que remarcábamos en el capí-
tulo primero.
La relatividad es otro fenómeno que cuestiona la ley de contigüidad. Varios autores
han encontrado que el que se produzca mayor o menor condicionamiento no depende
tanto del intervalo entre estímulos, sino también del intervalo entre ensayos o intervalo
entre distintos emparejamientos EC-EI (Gibbon, Locurto y Terrace, 1975; Lattal, 1999).
En otras palabras a la hora de juzgar si dos cosas están o no próximas tomamos en
cuenta dos factores, lo cerca que esté objetivamente la una de la otra y lo cerca que
estén ambas de las demás. La asociación entre dos estímulos parece depender de la
proporción entre el intervalo entre estímulos y el intervalo entre ensayos y no tanto de
la contigüidad entre ellos (Gibbon y Balsam, 1981). En general, cuanto mayor sea el
intervalo entre ensayos con respecto al intervalo entre estímulos, el aprendizaje será
más rápido.
Validez predictiva relativa, bloqueo y relación predictiva. En apartados previos veía-

mos algunas dificultades claras de la ley de contigüidad, como la asincronía o la relati-
vidad. Igualmente, cuando hablábamos del trabajo de García y Koelling (1966) y del
concepto de asociación selectiva observábamos que el aprendizaje asociativo no sólo
dependía de que el EC y el EI se presentaran juntos, sino también de otros factores
como la relevancia biológica o la similitud entre ellos. No obstante, el ataque empírico
más fuerte a la ley de contigüidad llegó con los estudios de validez predictiva relativa,
bloqueo y relación predictiva.
La validez predictiva relativa demostraba que el aprendizaje no dependía sólo de la
relación entre un EC y un EI, sino también de la relación del resto de los ECs presentes
en la situación con ese mismo EI. En la parte superior de la figura 3.6 se presenta un
resumen adaptado del diseño utilizado por Wagner, Logan, Haberlandt y Price (1968).
Adaptación del diseño de validez predictiva relativa utilizado por Wagner et al. (1968).
Condicionamiento Prueba
Correlacionado XA+, XB- X?
Descorrelacionado XA+/-, XB+/- X?
Adaptación del diseño de bloqueo usado por Kamin (1969).

Fase I Fase II Prueba
Bloqueo S+ SL+ L?
Control SL+ L?
Figura 3.6. Esquematización del diseño empleado por Wagner et al. (1968) en su estudio de
validez predictiva relativa (arriba) y del empleado por Kamin (1969) en su estudio sobre bloqueo
(abajo). Obsérvese que en ambos casos la contigüidad entre los estímulos de prueba y el EI es la
misma en ambos grupos.
En ambos grupos la contigüidad entre el estímulo X y el EI es idéntica, en ambos casos

el EC X va seguido por el EI la mitad de las veces que se presenta, por lo que el
principio de contigüidad predice el mismo nivel de respuesta. Sin embargo, lo que
Wagner et al. (1968) observaron fue una respuesta alta ante X en el grupo descorrela-
cionado y ninguna en el grupo correlacionado. La respuesta no dependía sólo de la
contigüidad entre X y el EI, sino también de si había presentes otros estímulos que
predecían el EI mejor que X. En el grupo correlacionado la situación puede resolverse
utilizando el estímulo A y desestimando X.
El efecto de bloqueo es otro de los fenómenos que cuestiona la suficiencia de la ley
de la contigüidad para explicar el aprendizaje asociativo. Kamin (1969) utilizó un pro-
cedimiento de supresión condicionada y el diseño que aparece en la parte inferior de la
figura 3.6. En el grupo Bloqueo se emparejó primero un sonido con una descarga eléc-
trica (S+). Posteriormente, el sonido se presentó en conjunto con una luz seguido por la
misma descarga eléctrica (SL+) para finalmente comprobar el efecto de la presentación
de la luz sola. En el grupo de control no se realizó el condicionamiento previo de la luz,
pasando directamente a condicionar el compuesto SL. Este grupo de control se deno-
mina grupo de ensombrecimiento porque el condicionamiento de la luz y el sonido son
menores cuando se presentan emparejados que cuando se condiciona cada uno por
separado. En otras palabras, la presencia de la luz ensombrece el condicionamiento del
sonido y viceversa.
De acuerdo con la ley de contigüidad, ambos grupos debían haber aprendido lo
mismo acerca de la luz puesto que la relación entre la luz y la descarga eléctrica fue
idéntica en ambos casos. Sin embargo, Kamin encontró que los sujetos en el grupo de
bloqueo no tenían miedo a la luz, mientras que los sujetos en el grupo de control sí la
temían. Estos resultados llevaron a Kamin a proponer que el aprendizaje se produce
sólo cuando las consecuencias son sorprendentes; si no lo son, si hay un estímulo que
ya predice bien el EI, no se aprenderá nada nuevo. En el caso del grupo de bloqueo, el
sujeto aprende que S predice el EI durante la primera fase. Cuando durante la fase II
aparecen S y L juntos, el sujeto espera el EI gracias a S, por lo que no aprende nada
acerca de L; la consecuencia no es sorprendente y por tanto no hay aprendizaje. Inde-
pendientemente de que la interpretación de Kamin sea correcta, sí parece claro que el
bloqueo demuestra que la contigüidad no es suficiente para que se produzca el aprendi-
zaje.
Apliquémoslo al ejemplo del restaurante mexicano. Después de haber tomado gusa-
nos de maguey y sentirte mal atiendes a una comida familiar con tus suegros que han
decidido obsequiarte con comida mexicana. Para tu sorpresa, observas que el entrante
son gusanos de maguey con chapulines (saltamontes); a fin de no desairar a tus suegros
comes ambas cosas y, tal como esperabas, al cabo de unas horas te sientes mal, ¿a qué
le vas a echar la culpa de tu malestar? A los gusanos de maguey, puesto que tu experien-
cia previa con ellos te hacía esperar el malestar. ¿Qué hubiera pasado si no hubieras
tenido la experiencia previa de malestar? Probablemente hubieras culpado del mismo a
los dos componentes del plato, a los gusanos y a los saltamontes, rechazando en el
futuro cualquiera de los dos platos.
En los estudios de aprendizaje causal humano se ha encontrado que no importa el
orden de las fases a la hora de conseguir el bloqueo. Éste se consigue también cuando
se comienza con la fase de condicionamiento con el compuesto y se termina con la fase
de condicionamiento simple. Este fenómeno se conoce como bloqueo hacia atrás y
supone una revaluación retrospectiva del significado del estímulo. En el ejemplo ante-
rior, la capacidad de los chapulines para producir el malestar tras los emparejamientos
de los gusanos de maguey y los chapulines con el malestar se reconsidera a la baja
cuando se descubre que los gusanos de maguey también producen malestar cuando se
presentan solos. Este fenómeno parecía exclusivo del aprendizaje humano. No obstan-
te, se ha encontrado que también puede aparecer en animales siempre que los estímulos
empleados no tengan un significado biológico importante, esto es, cuando se utiliza un
diseño de precondicionamiento sensorial (Miller y Matute, 1996).
Rescorla (1968) sugirió que además de la contigüidad se necesitaba que el EC man-
tuviera una relación predictiva adecuada con el EI. Tomemos el siguiente ejemplo adap-
tado de un experimento de Rescorla (1968). Dos grupos de ratas recibieron los mismos
emparejamientos entre el EC y el EI (20T+). La única diferencia fue que el grupo que
denominaremos azar recibió además presentaciones del EI solo (20+), presentaciones
que no recibió el grupo informativo. La contigüidad fue la misma en los dos grupos y
por tanto, si la contigüidad fuera suficiente para que se produjera el aprendizaje los dos
grupos hubieran debido mostrar el mismo nivel de respuesta. Sin embargo, mientras
que el aprendizaje fue máximo en el grupo informativo no se encontró evidencia de
aprendizaje en el grupo azar.
Este tipo de resultados llevaron a Rescorla (1968) a proponer que el factor determi-
nante del aprendizaje fuera la contingencia EC-EI, más que la contigüidad. La contin-
gencia se define como la diferencia entre la probabilidad del EI en presencia del EC y la
probabilidad del EI en ausencia del EC. De acuerdo con esta idea, cuando el resultado
de la diferencia sea positivo el EC es un buen predictor de la aparición del EI y se
produce un condicionamiento excitatorio. Cuando el resultado de la diferencia sea ne-
gativo el EC es un buen predictor, pero de la ausencia del EI y se establece un aprendi-
zaje inhibitorio. En el próximo capítulo retomaremos la idea de la contingencia y pre-
sentaremos algunos de sus desarrollos en las explicaciones del aprendizaje humano.
Inhibición condicionada. Terminábamos el apartado previo señalando que cuando la

probabilidad del EI es mayor en ausencia que en presencia del EC se establecía un
aprendizaje inhibitorio. Esto es, se aprende que el EC predice la ausencia del EI. Reto-
memos el ejemplo del restaurante mexicano que presentábamos más arriba. Imagine-
mos que los gusanos de maguey nos sientan mal, pero que nos encontramos en la situa-
ción que describíamos más arriba en la que para no desairar a nuestros suegros nos
vemos forzados a comerlos y decidimos acompañarlos con tequila para pasar el mal
trago. Para nuestra sorpresa, esta vez los gusanos no producen el efecto al que nos
tenían acostumbrados. Quizá el efecto no fuera de los gusanos, sino de otra cosa, con lo
que en nuestra siguiente visita a un restaurante mexicano volvemos a probar los gusa-
nos… y volvemos a sentirnos enfermos, salvo cuando los tomamos con tequila, ¿qué
aprendemos en esta situación? Que el tequila previene el malestar que producen los
gusanos. En términos más técnicos, el tequila se convierte en un inhibidor condiciona-
do del malestar.
El tequila desconfirma la relación esperada entre los gusanos de maguey y el males-
tar gástrico que se presentaría en ausencia del tequila. En términos más generales, el
inhibidor condicionado indica que la relación entre el EC y el EI no está en efecto en su
presencia. La clave de la inhibición condicionada radica en que el sujeto no recibe el EI
en una situación en la que espera recibirlo. Retomemos el ejemplo, si tomaras gusanos
de maguey con tequila sin haber tenido antes experiencia con ninguno de los dos y no
sintieras malestar, ¿aprenderías que el tequila inhibe el malestar? No, para que el tequi-
la se convierta en un inhibidor es necesario que haya algo en la situación que te lleve a
esperar el malestar.
Cualquier situación en la que el sujeto no reciba el EI en una situación en la que
espera recibirlo es un candidato firme a la inhibición condicionada. En el procedimien-
to estándar de inhibición condicionada que venimos utilizando como ejemplo se entre-
mezclan ensayos en los que el EC produce el EI (A+) con ensayos en los que el EC
acompañado de otro estímulo no va seguido por el EI (BA-). Esto lleva a que el EC
añadido se convierta en inhibidor condicionado.
En el caso de la contingencia negativa EC-EI, en el que la probabilidad del EI es
mayor en ausencia que en presencia del EC, el EC se convierte en inhibidor condicio-
nado porque el contexto, el lugar donde se recibe el EI anuncia al sujeto que el EI va a

presentarse. Imagina que tienes malestar gastrointestinal crónico, sin saber por qué de
vez en cuando te pones malo, salvo cuando tomas tequila. En esta situación el tequila se
convierte igualmente en inhibidor condicionado puesto que previene el malestar que de
otro modo esperarías que apareciera.
Finalmente, en el procedimiento de inhibición diferencial se utiliza un diseño con
dos estímulos, uno reforzado y otro no reforzado (A+, B-). En esta situación el estímulo
no reforzado puede llegar a convertirse en inhibidor condicionado, aunque es un proce-
dimiento mucho menos eficaz que los dos descritos previamente. En este caso el con-
texto donde se presentan ambos estímulos media en el condicionamiento inhibitorio
del estímulo B.
La medida de la inhibición condicionada. Un estímulo condicionado excitatorio
tiene efectos observables sobre la conducta. El EC inhibitorio tiene efectos opuestos,
reduce la conducta, la inhibe. Sin embargo, para poder reducir una conducta es necesa-
rio que ésta se dé, en caso contrario observaremos la misma respuesta ante un inhibidor
condicionado y ante un estímulo neutro que no haya recibido condicionamiento. Para
poder comprobar si un estímulo es un inhibidor condicionado la mejor aproximación es
elevar la conducta para poder comprobar los efectos depresores del inhibidor condicio-
nado. Esto se logra a través de la prueba de sumación. En la parte superior de la figura
3.7 se presenta un ejemplo de un diseño intrasujeto de la prueba de sumación en inhibi-
ción condicionada. Se utiliza un diseño de inhibición condicionada estándar (A+, AB-
) donde se supone que B se convierte en inhibidor condicionado. Se condiciona excita-
toriamente otro estímulo (C+) que nos va a servir como estímulo elicitador de la res-
puesta que supuestamente reducirá el inhibidor condicionado. El estímulo D es un estí-
mulo de control, al igual que el inhibidor condicionado no va seguido del EI, pero al no
presentarse junto a un excitador condicionado no puede convertirse en un inhibidor
condicionado. La inhibición condicionada se infiere a través de la comparación entre
los efectos sobre C del inhibidor condicionado B y del estímulo neutro D. Sólo se
considera que B es un inhibidor condicionado cuando la respuesta ante CB es menor
que la respuesta ante CD.
En la parte inferior de la figura 3.7 se presenta un ejemplo de la prueba de retraso en
la adquisición para medir la inhibición condicionada. Esta prueba está basada en la
concepción pavloviana de que la inhibición y la excitación son los polos opuestos de
un continuo. De este supuesto se deriva que la inhibición interferirá con la adquisición
de propiedades condicionadas excitatorias por el mismo estímulo. En otras palabras, la
inhibición retrasará el condicionamiento excitatorio del estímulo. Nuevamente escoge-
mos como ejemplo un diseño intrasujeto en el que el mismo sujeto recibe todos los
tratamientos. En este diseño B supuestamente se convierte en un inhibidor condiciona-
do mediante el procedimiento estándar de inhibición condicionada (A+, AB-); se pre-
senta también el estímulo C en ausencia de consecuencia, de forma que se iguale la
experiencia del sujeto con los estímulos B y C en todo salvo en que sólo B tiene la
Ejemplo de diseño intrasujeto en la prueba de sumación

A+, AB-, C+, D- CB vs CD
Ejemplo de diseño intrasujeto en la prueba de retraso en la adquisición

A+, AB-, D- B+ vs D+
Figura 3.7. Dos ejemplos de diseño intrasujeto de la prueba de sumación (arriba) y de retraso
(abajo) en la inhibición condicionada. Si el estímulo B se convierte en inhibidor condicionado
debe reducir la respuesta ante C más de lo que lo hace D (sumación) y condicionarse más lenta-
mente que el estímulo D (retraso en la adquisición).
oportunidad de convertirse en inhibidor condicionado. Posteriormente se establece el

condicionamiento excitatorio de los estímulos B y C. La inhibición condicionada se
manifestará como un condicionamiento más lento del estímulo B que del estímulo C.
En la explicación de las pruebas de sumación y de retraso hemos hecho mucho
hincapié en el uso de estímulos de control a los que el sujeto haya sido expuesto en la
misma medida que el supuesto inhibidor condicionado. La razón de esto estriba en que
la simple exposición a un estímulo retrasa su condicionamiento posterior, en un fenó-
meno conocido como inhibición latente y que trataremos en breve, por lo que puede
confundirse con un inhibidor condicionado. Para evitar esto, en los dos diseños presen-
tados en la figura 3.7 se comparan los efectos del inhibidor condicionado con los del
inhibidor latente y sólo si los primeros son mayores se concluye la existencia de inhibi-
ción condicionada.
Facilitación. En el diseño de inhibición condicionada un estímulo se empareja con el

EI cuando se presenta solo y no va seguido de consecuencias cuando va acompañado
por otro estímulo. Esto lleva a que el estímulo añadido se convierta en un inhibidor
condicionado. ¿Qué ocurriría si invertimos el diseño de tal modo que ahora el EC no
vaya seguido por el EI cuando se presenta solo, sino cuando va acompañado por otro?
Este diseño A-, BA+ es un diseño de facilitación condicionada pues se asume que el
estímulo B se convierte en un facilitador de la relación entre el estímulo A y el EI.
Veámoslo con un ejemplo, frotar un fósforo contra una raspa puede producir fuego,
pero sólo en aquellas situaciones en las que el oxígeno esté presente. En ausencia de
oxígeno el fuego no se presenta y tampoco basta la presencia de oxígeno para que el
fuego aparezca, es necesario que se frote el fósforo contra la raspa. Así, el oxígeno es
un facilitador de la relación entre la cerilla y el fuego.
Preexposición al EC, preexposición al EI e irrelevancia aprendida. Al hablar de

inhibición condicionada hicimos una breve referencia a que la simple exposición a un
EC podía retrasar el establecimiento posterior de una relación entre este EC y el EI.
Este retraso en el condicionamiento por la preexposición al EC se conoce como inhibi-
ción latente y ha sido replicado en multitud de estudios con procedimientos muy dife-
rentes (v.gr., Lubow, 1989). Cuando en lugar del EC es el EI el que se preexpone tam-
bién se observa un retraso en el condicionamiento conocido como efecto de preexposi-
ción al EI (v.gr., Randich, 1981). Finalmente, la combinación de la preexposición al EC
y la preexposición al EI en una combinación similar al control aleatorio que presentá-
bamos más arriba produce un retraso en el establecimiento de una asociación posterior
del EC-EI aún mayor que el que produce la exposición a cada uno por separado (v.gr.
Baker y Mackintosh, 1977).
La inhibición latente se ha explicado principalmente en términos atencionales, con-
siderando que la exposición al EC sin el EI lleva a un descenso en la atención que el
sujeto le presta al EC con lo que el condicionamiento posterior va a resultar más difícil
(v.gr., Mackintosh, 1975; Pearce y Hall, 1980; Wagner, 1981); la explicación del efecto
de preexposición al EI en cambio se ha realizado principalmente en términos de blo-
queo por el contexto. Se supone que la presentación del EI sin el EC lleva a que se
establezcan asociaciones contexto-EI que luego bloquean el establecimiento de rela-
ciones entre el EC y ese EI cuya presencia está siendo ya anunciada por el contexto
(v.gr., de Brugada, Hall y Symonds, 2004). Por otra parte, la explicación natural de la
irrelevancia aprendida sería la suma de los efectos de preexposición al EC y preexposi-
ción al EI (v.gr., Bonardi y Hall, 1996). No obstante, otros autores sostienen que la
irrelevancia aprendida puede ser diferente de la suma de estos efectos sugiriendo que la
exposición a la correlación cero entre el EC y el EI lleva a aprender que el EC no
predice cambios en la probabilidad de aparición del EI (Bennet, Maldonado y Mackin-
tosh, 1995).
3.3.- Los contenidos del condicionamiento clásico, ¿qué se aprende?

En este apartado nos vamos a centrar brevemente en el estudio de los contenidos del
condicionamiento clásico, tratando de determinar que tipo de asociaciones establece el
sujeto en cada una de las situaciones de condicionamiento clásico que veíamos arriba.
Los contenidos del aprendizaje durante la excitación condicionada. Después del

entrenamiento en una situación de condicionamiento clásico, los emparejamientos EC-
EI llevan a que el sujeto termine dando la RC cuando se presenta el EC. Este resultado
puede ser consecuencia de cualquiera de las dos asociaciones que se presentan en la
figura 3.8. De acuerdo con Hull (1943), el sujeto podría aprender a responder en pre-
sencia del EC, esta sería una asociación estímulo-respuesta (E-R) en la que el EI sólo
serviría como catalizador para el establecimiento de la asociación. Por otra parte, Pa-
vlov (1927) considera que el EC se convierte en señal del EI, de lo que se deriva que
Figura 3.8. Representación esquemática de las dos asociaciones que puede formar el sujeto en
una situación de condicionamiento clásico. En la asociación E-R el sujeto aprende a responder
ante el EC, mientras en la asociación E-E el sujeto aprende que el EC predice el EI.
establece asociaciones EC-EI, asociación estímulo-estímulo (E-E), siendo la RC un

efecto secundario de esa asociación. En las páginas previas nuestra exposición ha coin-
cidido con una visión del condicionamiento clásico en términos E-E, sin embargo cual-
quiera de estas dos estrategias llevaría al sujeto a dar la respuesta condicionada cuando
se presentara el EC. Retomando el ejemplo del restaurante mexicano que presentába-
mos más arriba, después de tomar los gusanos (EC) y sentirte mal (EI), la próxima vez
que te ofrezcan gusanos probablemente sientas náuseas y los rechaces (RC). Si has
establecido una asociación E-R has aprendido a rechazar los gusanos; por otra parte, si
has establecido una asociación E-E lo que has aprendido es que los gusanos te sientan
mal y el rechazarlos es una consecuencia de ese conocimiento. Las dos estrategias te
llevarían a no comer gusanos de maguey, pero por razones distintas.
La forma de distinguir entre estas dos estrategias es alterando el valor motivacional
del EI después de que el condicionamiento se haya establecido. Si el sujeto ha estable-
cido una asociación E-R cualquier cambio en el valor motivacional del EI que se reali-
ce después del condicionamiento dejará la RC intacta, dado que el EI no forma parte de
lo que el sujeto ha aprendido. Por otra parte, si la asociación establecida es del tipo E-
E, los cambios en el valor del EI producirán bien un aumento en la respuesta si el valor
del EI se aumenta, bien una disminución si el valor del EI disminuye. Veámoslo con un
ejemplo, Rescorla (1973) utilizó un procedimiento de supresión condicionada en ratas
en el que EC fue una luz intermitente y el EI un sonido muy intenso (105 decibelios).
Tras este entrenamiento las ratas fueron divididas en dos grupos. El grupo experimental
recibió presentaciones repetidas del EI hasta que se produjo habituación y el sonido
dejó de resultarle tan aversivo a la rata. El grupo de control pasó el mismo tiempo en el
aparato, pero no recibió habituación al sonido. Desde la teoría E-R, la habituación al
sonido post-condicionamiento no debía de producir ningún efecto sobre la RC; sin
embargo, desde la teoría E-E, al devaluar el valor del EI debería reducirse también la
respuesta condicionada. Rescorla (1973) encontró que la devaluación del valor moti-
vacional del sonido redujo la respuesta condicionada en una prueba posterior, conclu-
yendo que el sujeto establece una asociación E-E durante el condicionamiento clásico.
Este procedimiento se denomina devaluación del EI.
De acuerdo con la teoría E-E la inflación del EI debería producir resultados contra-
rios a la devaluación del EI. Rescorla y Freberg (1978) comprobaron esta hipótesis
utilizando ratas a las que se les administró una combinación de sabor amargo y sal. Las
ratas no beben mucho del sabor amargo (EC), mientras parece gustarles bastante la sal
(EI). Después de establecer la asociación entre el sabor amargo y la sal se les adminis-
tró una inyección de formalina, la formalina produce un déficit de sodio en el organis-
mo y dispara la necesidad de sal. Finalmente las ratas recibieron una prueba de prefe-
rencia por el sabor amargo. Si las ratas hubieran establecido una relación E-R en la que
aprendieron a beber el sabor amargo, el aumento en la necesidad de la sal no debiera
conllevar un aumento en el consumo de sabor amargo. Por el contrario, si las ratas
aprendieron que el sabor amargo anuncia la sal (E-E) la inflación del valor de la sal
(inflación del EI) debiera llevar a un aumento en la preferencia por el sabor amargo,
como efectivamente ocurrió.
Los procedimientos de devaluación e inflación del EI demuestran que establecemos
asociaciones EC-EI en el condicionamiento clásico. No obstante, debemos señalar que
en el condicionamiento clásico no sólo se establecen estas asociaciones. Los procedi-
mientos de devaluación del EI rara vez consiguen eliminar la respuesta condicionada,
sugiriendo que parte de lo que aprende el sujeto en el es una asociación E-R.
Los contenidos del aprendizaje durante la inhibición condicionada y la facilita-

ción. Cuando presentábamos el diseño estándar de inhibición condicionada (A+, AB-)
decíamos que el estímulo añadido se convertía en un inhibidor condicionado, en el
sentido que anunciaba que el EI no va a presentarse. Aún dejando de lado la posibilidad
de que el sujeto realice un aprendizaje configuracional en el que considere al estímulo
AB como un estímulo con entidad propia, distinto de la suma del estímulo A y el estí-
mulo B, este problema puede resolverse al menos de dos maneras, mediante el estable-
cimiento de una asociación inhibitoria directa entre el EC y el EI (panel superior iz-
quierdo de la figura 3.9) o mediante el establecimiento de una relación de orden supe-
rior en el que el estímulo B module la relación entre A y el EI; en este último caso (panel
superior derecho de la figura 3.9). En este último caso A mantendría dos asociaciones
con el EI, una excitatoria y la otra inhibitoria, dependiendo la activación de esta última
de que B estuviera presente (véase Nelson y Bouton, 1994, 1997). El procedimiento
estándar de inhibición condicionada parece producir una relación directa EC-no EI. Sin
embargo, cuando el procedimiento estándar se modifica ligeramente de modo que la
presentación del compuesto estimular sea serial (B–A-) en vez de simultánea (BA-) la
relación establecida es de orden superior, convirtiéndose B en un modulador de la aso-
Figura 3.9. Representación esquemática de las dos asociaciones que puede formar el sujeto du-
rante la inhibición condicionada (arriba) y durante la facilitación (abajo). En la columna de la
izquierda aparecen representadas dos asociaciones directas entre el EC y el EI, mientras que en la
parte derecha se representan dos relaciones jerárquicas o de orden superior. La flecha representa
una asociación excitatoria mientras la línea cortada representa una asociación inhibitoria.
ciación entre A y el EI. Holland (1984) encontró que en estas circunstancias, el condi-
cionamiento del estímulo B después del entrenamiento ocurría más rápidamente que en
un inhibidor condicionado estándar y que este condicionamiento no afectaba a las pro-
piedades de B como modulador. Esto es, tras emparejar B con el EI, B seguía supri-
miendo la respuesta ante el estímulo A.
En el caso de la facilitación (A-, BA+) son igualmente dos las posibles estrategias
que puede utilizar el sujeto para resolver la situación, puede establecer una relación
directa entre B y el EI, desestimando A, como la representada en el panel inferior iz-
quierdo de la figura 3.9, o establecer una relación de orden superior en la que el B
module la relación entre A y el EI como la que aparece en el panel inferior derecho de
la figura 3.9.
La distinción entre estas dos posibilidades se ha realizado a través de dos estrategias
experimentales. Por una parte, si la relación establecida es una relación directa entre B
y el EI la presentación de B solo, en extinción, debería producir un descenso en la
respuesta, cosa que no ocurriría si la relación fuera de orden superior. El hecho de que
la extinción del estímulo B no parezca afectar a la respuesta del sujeto en la situación de
facilitación sugiere que el tipo de relación establecido en este diseño es una relación de
orden superior donde el estímulo B anuncia la relación entre A y el EI (v.gr., Holland,
1989).
Rescorla, Durlach y Grau (1985) utilizaron una estrategia distinta para establecer el
tipo de aprendizaje que se producía en facilitación. Utilizaron un procedimiento de
automoldeamiento en palomas y tomaron ventaja de la topografía de la RC ante distin-
tos ECs en esa situación. Como mencionábamos más arriba en la descripción de la
técnica de automoldeamiento, el establecimiento de una relación entre una luz localiza-
da y la comida produce una RC de picoteo en la tecla iluminada. Sin embargo, un
estímulo auditivo relacionado con la comida elicita un aumento en la actividad (los
sonidos no se pueden picotear, naturalmente). Rescorla et al. (1985) tomaron ventaja de
estas características y utilizaron el sonido como estímulo A y la luz como estímulo B,
de modo que tenían ensayos sonido+luz seguido por el EI (BA+) combinados con en-
sayos en los que se presentaba la luz sin el EI (A-). Si las palomas hubieran establecido
una asociación directa B-EI (sonido-comida) la respuesta que se hubiera observado en
los ensayos AB+ hubiera sido de aumento en la actividad; por el contrario, si las palo-
mas establecieron una relación de orden superior en la que el sonido anuncia que la luz
va seguida de comida se observaría un picoteo a la luz sólo en los momentos en los que
estuviera presente el sonido. Este último resultado fue lo que encontraron Rescorla et
al. (1985) concluyendo que la relación que se establece en la situación de facilitación es
una relación de orden superior del tipo B(A-EI).
No obstante, al igual que cuando hablábamos de las estrategias de aprendizaje en el
condicionamiento clásico simple y como ya apuntábamos al hablar de inhibición con-
dicionada, es posible encontrar evidencia de los dos tipos de soluciones tanto en inhibi-
ción condicionada como en facilitación. La clave para que el sujeto establezca una
relación de orden superior o una relación directa con el EI parece depender de la rela-
ción temporal entre los estímulos. Cuando el estímulo B empieza y termina antes de
que empiece el estímulo A es más fácil que se produzca una asociación del tipo B(A-EI)
en la facilitación y B(A-no EI) en la inhibición condicionada, mientras que lo contrario
es cierto cuando A y B se presentan simultáneamente (v.gr., Holland, 1992; Nelson y
Bouton, 1997).
3.4. Condicionamiento específicamente humano

Las formas de condicionamiento que hemos tratado hasta aquí son comunes a espe-
cies muy distintas, incluida la humana. Sin embargo, existen formas de condiciona-
miento que, al hacer uso del lenguaje, son específicamente humanas y que tienen im-
portantes implicaciones para la discusión sobre lo que el sujeto aprende y los requisitos
necesarios para que se produzca el aprendizaje en el condicionamiento clásico en seres
humanos. A continuación presentaremos someramente estos procedimientos.
Condicionamiento semántico. Este tipo de condicionamiento se produce cuando en vez

de estímulos físicos utilizamos palabras provistas de significado. En esta situación los
fenómenos de condicionamiento clásico no se circunscriben a las características físicas
y sensoriales de los estímulos sino al significado de los mismos, de tal modo que los
estímulos físicos que soportan ese significado pueden cambiarse sin que el condiciona-
miento se vea afectado. Por ejemplo, si establecemos una relación entre la palabra plá-
tano y la administración de un sabor ácido que produzca salivación (v.gr., Rosas y
Callejas-Aguilera, 2004), la prueba con la palabra banana elicitará en nosotros la mis-
ma cantidad de salivación que la palabra condicionada.
Apareamiento y desapareamiento informado. Brewer (1974) en un análisis sobre la

necesidad de conciencia para el condicionamiento clásico que discutiremos más ade-
lante utilizó una serie de procedimientos de condicionamiento que por sus característi-
cas sólo pueden aplicarse en seres humanos. En el caso del apareamiento informado,
en lugar de presentar físicamente el EC y el EI, se le informa al sujeto acerca de la
relación de contingencia que existe entre ellos. En el supuesto que la relación que que-
remos establecer sea entre un sonido y una descarga eléctrica se le indica al sujeto que
el sonido va a ir seguido por la descarga eléctrica, pero sin presentarle la relación física-
mente. En el momento de la prueba se presenta el sonido solo y se comprueba si apare-
ce la respuesta condicionada en ausencia de emparejamientos reales EC-EI. El caso del
desapareamiento informado sería esencialmente el mismo, con la salvedad de que el
sujeto recibe un procedimiento normal de condicionamiento y una vez terminado se le
indica que el EC ya no va a ir seguido por el EI. Continuando con el ejemplo anterior,
se presentaría al sujeto el sonido seguido por la descarga eléctrica. Posteriormente se le
indicaría al sujeto que el sonido ya no va seguido por la descarga eléctrica comproban-
do si el sujeto deja de emitir la RC cuando volvemos a presentar el sonido.
Condicionamiento y extinción instruidos. Estos procedimientos pueden confundirse

con los de apareamiento y desapareamiento informados que acabamos de mencionar,
pero presentan una diferencia importante. En las situaciones de apareamiento informa-
do se informa al sujeto de la relación entre el EC y el EI sin darle ninguna indicación
sobre cómo tiene que responder. El condicionamiento instruido coincide con el aparea-
miento informado en que el sujeto no se expone a la relación física entre el EC y el EI
pero en este caso lo que se pide al sujeto es que emita la RC en presencia del EC. Con
la extinción instruida ocurre algo similar, en este caso tras un condicionamiento normal
se pide al sujeto que deje de emitir la RC en presencia del EC.
Enmascaramiento. En este tipo de procedimientos el sujeto se expone a una situación

normal de condicionamiento con emparejamientos entre el EC y el EI. Sin embargo, se
realiza alguna manipulación que no permita detectar claramente la contingencia o la
presencia de ambos. Por ejemplo, en el caso del emascaramiento hacia atrás el EC se
presenta durante un periodo demasiado breve para que pueda percibirse consciente-
mente seguido por un estímulo que actúa de máscara y que precede al EI. Así, aparen-
temente es el estímulo máscara el que actúa como EC consciente, pero es en realidad el
estímulo que ha sido enmascarado el que nos interesa como estímulo condicionado.
Condicionamiento evaluativo. En las situaciones de condicionamiento descritas pre-

viamente el EC actuaba como una señal del EI. En varios puntos de este capítulo hemos
señalado implícitamente que el EC adquiere las propiedades motivacionales del EI. El
condicionamiento evaluativo incide en el estudio de la respuesta afectiva ante el EC
por una transferencia de las propiedades afectivas del EI. Por ejemplo, Baeyens, Here-
mans, Eelen y Crombez (1993) expusieron a 72 estudiantes a una tarea distractora mien-
tras se les presentaron además una serie de figuras geométricas contiguas temporal-
mente a unas diapositivas con valencias positivas o negativas. Las figuras geométricas
variaban en el grosor de las líneas. Posteriormente se les pidió a los sujetos que indica-
ran el grado de atracción que les producían estímulos nuevos dibujados con líneas de
distintos grosores. La preferencia de los sujetos se estableció en función de las relacio-
nes que se hubieran establecido previamente. Así, si las líneas gruesas se habían rela-
cionado con imágenes positivas los sujetos preferían los dibujos de trazo grueso, mien-
tras lo contrario fue cierto cuando eran las líneas finas las relacionadas con diapositivas
positivas. Esto ocurrió a pesar de que los sujetos no habían descubierto conscientemen-
te la contingencia entre el grosor de las líneas y las diapositivas; ni siquiera fueron
capaces de reconocer los estímulos presentados durante la adquisición. El condiciona-
miento evaluativo no parece estar sujeto a la extinción, independientemente de cómo se
establezca ésta (por experiencia directa o informada). Sin embargo, la valencia afectiva
de los estímulos puede cambiarse utilizando el contracondicionamiento, esto es, empa-
rejando el estímulo con otros estímuos de valencia contraria.
Condicionamiento clásico y conciencia. Uno de los aspectos más interesantes del

estudio del condicionamiento clásico en seres humanos proviene de la cuestión de si
éste puede establecerse en ausencia de conciencia de la contingencia EC-EI. La opi-
nión dominante hasta los años 70, basada en los estudios con animales no humanos y
animales decorticados era que para que se produjera el condicionamiento no era nece-
saria la conciencia. Sin embargo, Brewer (1974) utilizó varios de los procedimientos
que presentábamos en el punto anterior para demostrar que el condicionamiento clási-
co en humanos no se produce en ausencia de la conciencia de contingencia entre el EC
y el EI. Así, cuando la detección de la contingencia EC-EI se dificulta, la respuesta
condicionada sólo aparece en las personas capaces de verbalizar la contingencia, dan-
do la impresión de que el condicionamiento clásico humano conlleva la formulación de
hipótesis y expectativas conscientes sobre la contingencia entre los estímulos.
De hecho, la existencia del apareamiento y desapareamiento informados ya nos in-
dica que el condicionamiento clásico puede desarrollarse en humanos de forma total-
mente consciente, controlado por procesos mentales superiores. Sin embargo, en estos
procedimientos, al igual que en los procedimientos de condicionamiento y extinción
instruidos parece que las respuestas que el sujeto controla son principalmente las res-
puestas motoras sobre las que el sujeto tiene un control consciente y no ocurre lo mis-
mo con las respuestas del sistema nervioso autónomo. Las respuestas autonómicas se
mantienen de manera irracional en el desapareamiento informado sugiriendo que al
menos estas respuestas tienen un componente inconsciente. Esta misma conclusión
puede extraerse de los resultados obtenidos en condicionamiento evaluativo en el que,
en contra de lo que ocurre en el condicionamiento estándar, parece razonablemente
claro que se puede lograr condicionamiento en ausencia de conciencia al encontrarlo
por ejemplo en situaciones de percepción subliminal (véase De Houwer, Thomas y
Baeyends, 2001, para una revisión).
Incluso en los casos en los que la conciencia parece necesaria para el condiciona-
miento humano, lo cierto es que ésta no es suficiente para que el condicionamiento se
manifieste. Se ha encontrado que sujetos conscientes de la contingencia entre el EC y el
EI no muestran la RC (v.gr., Dawson y Fusedy, 1976) y viceversa. Conciencia y condi-
cionamiento no parecen correlacionar de forma consistente.
3.5.- Resumen
El mecanismo básico para establecer relaciones entre estímulos del ambiente que se
presentan independientemente de la conducta del sujeto es el condicionamiento clási-
co. En el condicionamiento clásico se establece una relación entre un estímulo condi-
cionado y un estímulo incondicionado, con el resultado de que el sujeto termina por
emitir una respuesta condicionada ante el EC. No obstante, el condicionamiento clási-
co se define más exactamente como el establecimiento de relaciones entre dos estímu-
los, sean estos biológicamente relevantes o no lo sean. No obstante, los estudios de
asociación selectiva sugieren que hay asociaciones que son más fáciles de establecer
que otras, por ejemplo la asociación sabor-malestar gastrointestinal parece más fácil de
aprender en la rata y el ser humano que la asociación sabor-descarga eléctrica. La res-
puesta condicionada puede ser idéntica, distinta o incluso opuesta a la RI estando algu-
nas veces determinada por el EC utilizado en el entrenamiento. Como cualquier otra
forma de aprendizaje, el condicionamiento clásico necesita de grupos de control que
aseguren que la respuesta del sujeto depende de la asociación EC-EI. Los grupos de
control más utilizados son el control desemparejado, el control aleatorio y el control
discriminativo.
Tradicionalmente se había considerado que la ley fundamental del condicionamien-
to clásico era la contigüidad EC-EI. Sin embargo, fenómenos como la asincronía y la
relatividad cuestionan la suficiencia de esta ley para explicar la adquisición de la aso-
ciación EC-EI. De hecho, en los años setenta se encontraron varios fenómenos que
demostraban que la contigüidad entre dos estímulos no era suficiente para lograr esta-
blecer la asociación entre ellos. Bloqueo, validez predictiva relativa, y relación predic-
tiva todos demuestran que en situaciones de contigüidad equivalente no tiene por qué
producirse el mismo aprendizaje. El aprendizaje en esas situaciones depende del poder
predictivo de otros estímulos presentes en ellas. Cuando el EC sea un buen predictor de
la presencia del EI en relación con otros predictores presentes en la situación se produ-
cirá condicionamiento excitatorio. Cuando el EC sea un buen predictor de la ausencia
del EI se producirá condicionamiento inhibitorio. El condicionamiento inhibitorio no
se observa directamente en la conducta y necesita de pruebas especiales para demos-
trarse, la prueba de sumación y la prueba de retraso en la adquisición. Otros factores
que determinan el establecimiento de la asociación EC-EI son la preexposición al EC
(inhibición latente), la preexposición al EI y la preexposición al EC y al EI descorrela-
cionados (irrelevancia aprendida). Estas tres formas de preexposición producen un re-
traso en la adquisición posterior de la relación EC-EI durante el condicionamiento.
La presentación correlacionada de un EC y un EI puede producir una relación EC-
EI del tipo E-E, o una relación EC-RC del tipo E-R. Los procedimientos de devalua-
ción e inflación del EI tras el condicionamiento modifican la respuesta condicionada,
sugiriendo que en el condicionamiento clásico se establece una asociación E-E más
que una asociación E-R. Los diseños de inhibición condicionada (A+, BA-) y facilita-
ción (A-, BA+) pueden resolverse estableciendo relaciones directas entre el estímulo B
y el EI (inhibitoria en la inhibición y excitatoria en la facilitación) o mediante relacio-
nes de orden superior en las que el estímulo B actúa como un modulador de la relación
entre el estímulo A y el EI. El que se establezca un tipo de relación parece depender de
la forma de presentación de los estímulos, más que de características intrínsecas de los
sujetos.
El lenguaje permite la existencia de formas de condicionamiento específicamente
humanas. Este es el caso del condicionamiento semántico, el apareamiento y desapa-
reamiento informado, el condicionamiento y la extinción instruidos, el enmascaramiento
y el condicionamiento evaluativo. Estos procedimientos se han utilizado en el afán de
descubrir si la conciencia de la existencia de la asociación EC-EI era necesaria para el
establecimiento del condicionamiento clásico. Aunque los resultados iniciales sugerían
que no podía encontrarse condicionamiento clásico en humanos en ausencia de con-
ciencia de la contingencia EC-EI, resultados más recientes y fenómenos como el condi-
cionamiento evaluativo sugieren que, si bien en algunos casos la conciencia de la con-
tingencia puede ser necesaria, en otros se produce aprendizaje asociativo en ausencia
de conciencia.
Los fenómenos que recogemos en este capítulo han sido investigados con distintas
especies animales, incluido el ser humano. Si bien el lenguaje establece algunas dife-
rencias marcadas en cuanto a los procedimientos utilizables en distintas especies y en
el ser humano, lo cierto es que los fenómenos básicos de aprendizaje se encuentran de
forma muy similar en distintas especies, al menos dentro del rango de los vertebrados.
Capítulo 4
Aprendizaje acerca de relaciones entre estímulos:

teorías de condicionamiento clásico y aprendizaje causal
En el capítulo 1 justificamos la utilización de animales no humanos en el estudio de

algunas formas de aprendizaje, así como la extensión a la cognición humana de los
conocimientos adquiridos en muchos de estos trabajos. La aparición de nuevas herra-
mientas como el ordenador permitió utilizar en seres humanos ciertos procedimientos
que hubieran sido de otro modo éticamente cuestionables. Imagina que estamos intere-
sados en realizar un estudio de aversión condicionada al sabor con los gusanos de
maguey. Para ello podríamos reclutar un grupo de sujetos y darles a probar estos gusa-
nos (EC) rociados con Naltrexona, una sustancia empleada en algunos tratamientos
con alcohólicos que produce un malestar gastrointestinal severo (EI). Días después
invitaríamos de nuevo a nuestra muestra a comer gusanos de maguey y observaríamos
su conducta. Además de ser éticamente discutible, este procedimiento resultaría extre-
madamente incómodo para nuestros sujetos experimentales y probablemente muchos
de ellos preferirían no participar en nuestro experimento. Una alternativa posible sería
invitar a nuestra muestra a que vieran en una tarea simulada por ordenador lo que les
ocurrió a un conjunto de comensales que comieron dicho manjar en nuestro restaurante
mexicano. Posteriormente les pediríamos que realizaran una valoración de la relación
entre el EC y el EI, esto es, que emitiera un juicio de contingencia. Un asunto funda-
mental es determinar si la RC y los juicios de contingencia pueden ser tratados como
medidas conductuales de un mismo proceso o estado mental. En el siguiente apartado
nos ocuparemos de esta cuestión y de las tareas utilizadas para el estudio del aprendiza-
je causal en seres humanos, así como de los principales resultados obtenidos con ellas.
4.1.- Condicionamiento clásico y aprendizaje causal

Las teorías asociativas a las que dedicaremos este capítulo fueron desarrolladas prin-
cipalmente para explicar el condicionamiento clásico en animales. Sin embargo, no
tardó en señalarse la gran similitud existente entre los juicios de contingencia y el con-
dicionamiento pavloviano, lo que llevó a algunos autores a declarar explícitamente que
las teorías desarrolladas en el contexto del aprendizaje animal debieran ser considera-
das seriamente como un marco explicativo de cómo las personas juzgan la eficacia de
las consecuencias derivadas de sus acciones (v.gr., Dickinson y Shanks, 1985). De
61
acuerdo con estos autores, el tránsito del aprendizaje animal al humano implica el aban-
dono de la terminología del condicionamiento y reforzamiento, considerando el condi-
cionamiento como un simple procedimiento que permite el estudio de cómo los anima-
les detectan y aprenden sobre la relación entre ciertos eventos, relación que es predicti-
va en el caso del condicionamiento clásico y causal en el caso del condicionamiento
instrumental. Estos autores sostienen que la RC puede tratarse como una medida con-
ductual de un proceso o estado mental. La analogía de los resultados de condiciona-
miento animal y juicios de contingencia humanos puede establecerse si el EC se equi-
para a la clave y el EI a la consecuencia que la sigue. Así, la RC reflejaría el juicio
emitido por el animal acerca de la relación entre esos dos eventos.
La correspondencia entre el aprendizaje animal y humano vino motivada por la
sensibilidad comparable de distintas especies a la correlación entre eventos. Como veía-
mos en el capítulo previo, la contingencia entre el EC y el EI determina la RC de los
animales no humanos en muchas situaciones (v.gr., Rescorla, 1968) y lo mismo se en-
cuentra en los estudios de aprendizaje causal humano (v.gr., Allan y Jenkins, 1980).
Vamos a comenzar presentando una tarea simple de aprendizaje causal humano en la
que aprenderemos calcular el valor de la contingencia objetiva entre un EC y un EI
según la regla normativa conocida como contingencia incondicional (regla ∆P).
Tareas de aprendizaje causal humano y el cálculo de la contingencia incondicional

(regla ∆P). La mayor parte de los estudios sobre aprendizaje causal en humanos han
utilizado variables discretas, esto es, variables que admiten solamente dos modalida-
des, están presentes o están ausentes. En las tareas más sencillas sólo existen dos varia-
bles discretas que vamos a denominar clave y resultado. Siguiendo con el ejemplo que
presentábamos arriba, la clave candidata gusanos de maguey se manipularía a dos nive-
les (ingesta o no ingesta), manipulando igualmente a dos niveles el resultado potencial
de esta clave, el malestar gastrointestinal (presencia o ausencia). En nuestra tarea de
aprendizaje causal humano presentaríamos a los participantes información sobre la
combinación de los dos valores de cada variable. En la figura 4.1 se presentan las
cuatro combinaciones posibles entre los dos valores de la clave candidata y los dos
valores del resultado potencial. Así, a representa el número de ocasiones en las que
coinciden la clave y el resultado (las veces que la ingesta de los gusanos de maguey
producen el malestar gastrointestinal), b recoge el número de ocasiones en los que la
clave está presente y el resultado ausente (las veces en que la ingesta de gusanos de
maguey no va seguida por malestar gastrointestinal), c recoge el número de ocasiones
en los que se presenta el resultado sin la clave (cuando aparece el malestar sin haber
comido gusanos) y por último d recoge las ocasiones en las que ni el resultado ni la
clave están presentes (cuando no se comen gusanos y no se presenta el malestar). La
combinación de estas cuatro informaciones nos permite determinar la relación objetiva
existente entre la clave candidata y el resultado potencial. Una vez que los participantes
han recibido toda la información se les pide que realicen una estimación acerca de la
TEORÍAS DEL APRENDIZAJE 63
Figura 4.1. Matriz de contingencia. Tipos de ensayo en una tarea estándar de juicios de contin-
gencia en la que se baraja una clave (C) y un resultado (R). Las casillas a, b, c y d corresponden a
los distintos tipos de información que se puede generar con dos variables discretas de este tipo.
Los valores entre paréntesis corresponden al ejemplo desarrollado en el texto.
relación que existe entre la clave y el resultado en una escala graduada, por ejemplo con
valores entre 0 y 100.
La expresión matemática de la contingencia incondicional objetiva corresponde al
algoritmo ∆P = P(R/C)-P(R/noC) y se define como la diferencia entre la probabilidad
de la aparición del resultado R en presencia de la clave C [P(R/C)] y la probabilidad de
la aparición del resultado R en ausencia de la clave C [P(R/noC)]. El valor de cada una
de estas probabilidades se corresponde con el resultado de las operaciones a/(a+b) y c/
(c+d), respectivamente. La contingencia oscila entre +1 y -1; valores de ∆P positivos
indican una relación generativa entre los eventos, lo que hasta ahora hemos denomina-
do excitación condicionada; valores negativos indican una relación preventiva, que
hasta ahora denominábamos inhibitoria; finalmente, un valor nulo indica que los even-
tos no están relacionados.
Veamos el cálculo de la contingencia incondicional usando los valores que aparecen
entre paréntesis en la figura 4.1. Supongamos que queremos evaluar si los gusanos de
maguey provocan malestar gastrointestinal. Para ello deberíamos determinar si el re-
sultado (malestar) es más probable cuando los comensales ingieren los gusanos que
cuando no los comen. Imaginemos que contamos con 40 comensales, 20 que tomaron
gusanos y 20 que tomaron otra cosa. De los 20 clientes que comieron gusanos, 15
desarrollaron el malestar (a) y 5 no lo desarrollaron (b). De los 20 que no comieron
gusanos, 4 desarrollaron el malestar (c) y 16 no lo desarrollaron (d). Si aplicamos la
fórmula de cálculo de la contingencia incondicional encontramos que P(R/C) = 15/
(15+5) = 0’75 y que P(R/no EC) = 4/(4+16) = 0’20. La contingencia objetiva en esta
situación sería 0’55 (∆P = 0’75 – 0’20 = 0’55) una relación positiva intermedia que
indica que la ingestión de gusanos predice moderadamente el malestar gastrointestinal.
Paralelismo entre el condicionamiento animal y el aprendizaje causal humano.

Una clara diferencia en las tareas utilizadas en aprendizaje causal humano y en los
estudios de condicionamiento animal es la relevancia biológica del EI empleado. En la
mayoría de los ejemplos de condicionamiento clásico se emplea un EI biológicamente

relevante para el sujeto que se somete al procedimiento. En cambio, en el caso de los
estudios de aprendizaje causal humano se utilizan resultados biológicamente irrelevan-
tes para el sujeto (v.gr., virus imaginados), lo que podría llevar a que el tipo de aprendi-
zaje que se estableciera fuera distinto al que se establece en el condicionamiento clási-
co estándar. Este problema se puede salvar mediante el uso del procedimiento de pre-
condicionamiento sensorial que veíamos en el capítulo previo (pp. 34-35), en el que la
relevancia biológica de los estímulos utilizados es escasa, asemejando el procedimien-
to de condicionamiento a la situación de aprendizaje causal.
No obstante, y aunque la relevancia biológica del EI se ha mostrado como un factor
importante a la hora de obtener algunos fenómenos de los que hablaremos más adelan-
te, como el bloqueo hacia atrás (Miller y Matute, 1996), lo cierto es que son muchas las
similitudes encontradas entre el condicionamiento clásico y el aprendizaje causal. Así,
en ambos casos la actuación depende de la contingencia programada entre los eventos.
Por ejemplo, si mantenemos fija la probabilidad del resultado en presencia de la clave y
aumentamos la probabilidad del resultado en ausencia de la clave [P(R/NoC)] se pro-
duce un descenso tanto en el condicionamiento excitatorio como en los juicios de con-
tingencia generativos. Igualmente, los sujetos que se enfrentan a una contingencia cla-
ve-resultado nula con una probabilidad alta de que aparezca el resultado terminan com-
portándose como si la relación fuera en realidad positiva, esto es, como si la clave
produjera el resultado. Este último efecto se conoce como sesgo de densidad y se ha
encontrado tanto en condicionamiento clásico (Kremer, 1971) como en juicios causales
(Allan y Jenkins, 1983). En la misma línea, el bloqueo ha aparecido en tareas de juicios
de contingencia (v.gr., Chapman, 1991), lo mismo que las curvas de adquisición (Shanks,
1985), la inhibición condicionada (v.gr., Chapman y Robbins, 1999) y la mayoría de
los fenómenos de los que hablábamos en el capítulo previo, por lo que parece razonable
considerar que condicionamiento clásico y aprendizaje causal humano podrían com-
partir al menos parcialmente algunos de sus mecanismos.
Teorías del condicionamiento y teorías del aprendizaje causal. Tradicionalmente, el

desarrollo de las teorías explicativas del condicionamiento clásico y el aprendizaje cau-
sal han tomado dos perspectivas diferentes. Así, para las explicaciones del condiciona-
miento clásico se ha tomado una perspectiva asociativa en la que se intenta determinar
los mecanismos que permiten aumentar la fuerza de la relación o la asociación entre
representaciones de dos eventos distintos, el EC y el EI. Por otra parte, las explicacio-
nes del aprendizaje causal han tomado una perspectiva estadística, considerando que
los seres humanos nos comportamos como estadísticos intuitivos aplicando reglas que
nos permiten determinar la relación correlacional o causal entre eventos del ambiente.
No obstante, con los paralelismos encontrados entre los dos tipos de aprendizaje y
con el hincapié que algunos autores hicieron en esos paralelismos a partir de los años
ochenta, la división entre teorías de condicionamiento clásico y teorías de aprendizaje
causal, si bien sigue existiendo, es cuando menos cuestionable, habiéndose aplicado

teorías asociativas al aprendizaje causal y teorías estadísticas al condicionamiento clá-
sico indistintamente. En las páginas siguientes esquematizaremos las principales teo-
rías que se engloban en estas dos perspectivas.
4.2.- Modelos asociativos de aprendizaje

Nuestro viaje por la teoría asociativa va a comenzar con el modelo de Rescorla y
Wagner (1972); esto no implica que no existieran teorías asociativas previas a esa fe-
cha, más bien al contrario, las teorías asociativas más o menos elaboradas guiaron el
desarrollo del estudio del condicionamiento desde sus inicios (v.gr., Hull, 1943).
El que comencemos nuestro viaje en el modelo de Rescorla y Wagner (1972) viene
determinado simplemente por una cuestión de espacio y de relevancia actual de las
propias teorías. Así, aunque las teorías asociativas clásicas siguen siendo fuente de
inspiración para los investigadores que las conocen, es a partir de los años 70 del siglo
XX, cuando el paradigma cognitivo sustituye al conductual como dominante en la psi-
cología del aprendizaje, cuando se establecen las teorías del aprendizaje que podríamos
llamar modernas, principalmente porque son las que más se barajan en nuestros días.
En las páginas siguientes presentaremos una muestra de las principales teorías asocia-
tivas que se usan en la actualidad como explicaciones del condicionamiento y del apren-
dizaje causal humano.
El modelo de Rescorla y Wagner (1972). Cuando hablábamos de las condiciones del

aprendizaje en el capítulo previo mencionábamos que Rescorla (1968) había sugerido
la posibilidad de que el factor determinante del aprendizaje de la relación EC-EI fuera
la contingencia entre ambos. De hecho, ya hemos visto en este mismo capítulo que la
contingencia objetiva puede utilizarse para describir y predecir fenómenos que afectan
tanto al condicionamiento clásico como al aprendizaje causal. Sin embargo, y a pesar
de la buena labor descriptiva que hace la contingencia en muchas situaciones de apren-
dizaje, fenómenos como el ensombrecimiento o el bloqueo demuestran que la contin-
gencia objetiva es insuficiente para dar cuenta del aprendizaje asociativo. Estas dificul-
tades llevaron a Rescorla a abandonar la contingencia como modelo explicativo y a
proponer junto a Wagner un modelo basado en la contigüidad y la sorpresa que permi-
tiera dar cuenta de aquello que el modelo de la contingencia dejaba sin explicar.
Desde este modelo el aprendizaje se entiende como el establecimiento de conexio-
nes entre las representaciones mentales de los estímulos. La fuerza de estas conexiones
entre representaciones mentales se denomina fuerza asociativa; así, la cantidad de fuer-
za asociativa que tenga un estímulo representa el grado en que ese estímulo está rela-
cionado con el EI o, en otras palabras, la medida en la que el sujeto considera que la
causa potencial está relacionada con el efecto. Los cambios en esa fuerza asociativa, es
decir el aprendizaje, dependerán de la sorpresa. La sorpresa se define operacionalmen-
te como la diferencia entre lo que el sujeto recibe y lo que el sujeto espera. Siempre que
exista un desajuste entre lo que el sujeto espera y lo que el sujeto recibe se producirá un
cambio en la fuerza asociativa; cuando ese desajuste no exista, no habrá sorpresa y por
lo tanto no habrá aprendizaje. La novedad más interesante de este modelo y que lo
diferencia de modelos anteriores más o menos similares es que considera que la sorpre-
sa viene determinada por la discrepancia entre lo que el sujeto recibe y lo que espera de
acuerdo con la suma de la fuerza predictiva de todos los estímulos presentes en la
situación. Si recordamos el ejemplo de bloqueo que aparece en la página 46 veremos
ejemplificada esta característica del modelo de Rescorla y Wagner de manera muy cla-
ra. En aquel ejemplo habíamos aprendido que los gusanos de maguey nos producían
malestar gastrointestinal. En un evento social nos veíamos forzados a tomar gusanos de
maguey con saltamontes y sufríamos el mismo malestar. Si sumamos la fuerza asocia-
tiva de los gusanos y de los saltamontes el resultado será que esperamos sentir el males-
tar, justo lo que sentimos. No habrá sorpresa y por lo tanto no habrá aprendizaje adicio-
nal. Rescorla y Wagner (1972) estructuraron estos principios básicos en un modelo
formal que presentamos a continuación:
Vn C = V n-1C+∆VnC
En esta fórmula Vn C representa la fuerza asociativa de una clave candidata (C) en el
ensayo n; Vn-1C es la fuerza asociativa de la clave en el ensayo n-1. Finalmente, ∆Vn C es
el cambio que se produce en la fuerza asociativa de esa clave candidata en el ensayo n.
En términos más coloquiales, lo que el sujeto sabe en un ensayo concreto (Vn C) es igual
a lo que sabía en el ensayo previo (Vn-1C) más lo que aprendió en el ensayo actual
(∆Vn C). El problema fundamental de la fórmula radica en determinar qué es lo que
aprende el sujeto en un ensayo concreto acerca de la relación entre la clave candidata C
y el resultado R (∆Vn C), la fórmula que recoge el modo en que se produce este cambio
es la esencia del modelo de Rescorla y Wagner (1972):
∆Vn C = a CβR (λR-Vn-1T)
El mecanismo fundamental de aprendizaje se localiza dentro del paréntesis que es

donde se captura operacionalmente la noción de sorpresa. λR es una constante que re-
presenta el límite de la fuerza asociativa o aprendizaje que puede ser soportado por el
resultado concreto que estamos utilizando; tiene un valor positivo (igual o menor que
uno) cuando R está presente y es cero cuando R está ausente; Vn-1T es la suma de la
fuerza de las asociaciones establecidas previamente entre todas las causas presentes en
el ensayo y R (C, D, E…). Así, la sorpresa queda representada como la discrepancia
entre lo que el sujeto espera (Vn-1T) y lo que el sujeto obtiene (λR); el aprendizaje se
producirá siempre que exista la sorpresa, esto es, siempre que el valor resultante del
paréntesis sea distinto de cero.
Hasta ahora no hemos mencionado los parámetros a C y βR; estos son parámetros
libres que representan la intensidad percibida o saliencia de la clave y el resultado,
respectivamente. El valor de estos parámetros oscila entre 0 y 1, con lo que el resultado

de su multiplicación será normalmente un número decimal. La multiplicación de un
número decimal por un valor equivale a realizar una división; por tanto, cuando aplica-
mos la fórmula los parámetros libres cumplen la función de evitar que el aprendizaje se
produzca en un solo ensayo, llevando a que el incremento en la fuerza asociativa sea
siempre una proporción constante de lo que al sujeto le queda por aprender.
Para entender como tiene lugar el aprendizaje en situaciones en las que dos o más
predictores compiten por una misma consecuencia debemos considerar el papel que
desempeña Vn-1T. Según este modelo, la fuerza asociativa de un compuesto de estímulos
es igual a la suma de la fuerza asociativa de los elementos que lo componen:
Vn AB=Vn A +VnB
En las situaciones en las que hay varios estímulos el incremento de la fuerza asocia-
tiva de cada estímulo se evalúa por separado:
Vn A =Vn-1A+[ a A βR (λR - Vn-1A + Vn-1B)]
Vn B=Vn-1B+[ aBβ R (λ - Vn-1B + Vn-1A )]
Apliquemos el modelo al ejemplo de bloqueo que presentábamos en el capítulo 3.
Imagina que tomas gusanos de maguey y te producen malestar gastrointestinal. Vamos
a suponer que la intensidad del sabor de los gusanos (a gusanos) es 0’5, que la intensidad
del malestar gastrointestinal (βmalestar) es 0’7 y que 1 es el valor máximo de aprendizaje
que se puede desarrollar acerca del malestar gástrico (λmalestar = 1). Con estas suposicio-
nes, el resultado de los primeros ensayos de condicionamiento sería el siguiente:
V1 gusanos= 0’00 + [0’5 * 0’7 (1 – 0’00)] = 0’00 + 0’35 = 0’35 (Ensayo 1)
V2 gusanos= 0’35 + [0’5 * 0’7 (1 – 0’35)] = 0´35 + 0’23 = 0’58 (Ensayo 2)
V3 gusanos= 0’58 + [0’5 * 0’7 (1 – 0’58)] = 0´58 + 0,15 = 0’73 (Ensayo 3)
Obsérvese que a medida que aumenta la fuerza asociativa entre los gusanos y el
malestar los incrementos en la fuerza asociativa se hacen cada vez más pequeños (el
resultado del paréntesis, 0’35 > 0’23 > 0’15). Este descenso en los incrementos da
lugar a la curva de aprendizaje negativamente acelerada que se suele encontrar en los
estudios de aprendizaje. El aprendizaje se interrumpirá cuando la fuerza asociativa al-
cance el valor de λ, en este caso 1.
Suponiendo que durante estas primeras experiencias la fuerza asociativa entre los
gusanos y el malestar alcance la asíntota de aprendizaje, ¿qué ocurrirá cuando después
comamos los gusanos combinados con los chapulines? De acuerdo con el modelo, el
incremento en la fuerza asociativa de gusanos y chapulines será el siguiente (suponien-
do que la intensidad de los chapulines es 0’6):
∆Vn gusanos = 0’5 * 0’7 (1 - 1 + 0) = 0

∆Vn chapulines = 0’6 * 0’7 (1 - 1 + 0) = 0
Así, vemos que el modelo predice que no va a haber aprendizaje adicional en los
ensayos en los que los gusanos y los chapulines se presenten junto al malestar. La razón
de esto estriba en que los gusanos ya predicen el malestar eliminando la discrepancia en
el paréntesis, la sorpresa, y bloqueando la adquisición de nueva fuerza asociativa.
Este modelo predice multitud de los fenómenos que presentábamos en el capítulo 3.
La extinción se lograría porque al no presentar la consecuencia el valor de λNOmalestar
sería 0, llevando a una discrepancia con la fuerza asociativa del estímulo condicionado
que, aplicando la fórmula, iría perdiendo gradualmente fuerza asociativa hasta igualar
a λNOmalestar. En la inhibición condicionada que implicaba ensayos entremezclados en los
que los gusanos iban seguidos de malestar (A+) con ensayos en los que los gusanos
ingeridos con tequila no iban seguidos de malestar (AB-) el modelo sólo interrumpirá
el aprendizaje cuando se cumplan dos condiciones simultáneamente: que Vgusanos = λma-
lestar = 1 (ensayos A+) y que Vgusanos + Vchapulines = λNOmalestar = 0 (ensayos AB-); esto sólo
puede ocurrir cuando la fuerza asociativa de los chapulines iguale a -1; en el modelo de
Rescorla y Wagner la fuerza asociativa inhibitoria se representa con valores negativos.
Aunque este modelo es un referente en los estudios de aprendizaje animal y huma-
no, dista mucho de ser perfecto. El modelo es incapaz de explicar fenómenos como la
inhibición latente, la irrelevancia aprendida y otros resultados experimentales como la
renovación o la recuperación espontánea de los que hablaremos en el capítulo 8.
Teorías del cambio en la asociabilidad del estímulo. Mackintosh (1975) observa

algunos de los problemas del modelo de Rescorla y Wagner (1972) y propone un nuevo
modelo en el que se hace hincapié en los procesos atencionales como mediadores del
fortalecimiento de las conexiones entre claves y resultados. El modelo propuesto por
Mackintosh parte de varios supuestos: considera que la asociabilidad de la clave (a C)
depende de la atención que se le preste y cambia con la experiencia; igualmente supone
que nuestro foco de atención es limitado, con lo que la atención que le prestemos a una
clave está inversamente relacionada con la atención que le prestemos a otras claves
presentes. Tomados estos dos supuestos en conjunto, la asociabilidad de la clave au-
mentará en tanto en cuanto ésta sea mejor predictora del resultado que el resto de las
claves presentes en la situación y disminuirá cuando sea una predictora igual o peor del
resultado que el resto de las claves presentes. Este supuesto permite explicar la inhibi-
ción latente al asumir que durante la exposición a la clave sin el resultado disminuirá su
asociabilidad, lo que dificultará su posterior asociación con dicho resultado.
Así, si sabemos que el sujeto presta más atención a las claves que predicen bien sus
resultados y que el aprendizaje acerca de una clave depende de la atención que le preste
el sujeto, concluiríamos que una clave que haya sido emparejada consistentemente con
un resultado podrá relacionarse rápidamente con un resultado distinto. Volviendo a

nuestro ejemplo, una vez que aprendemos que los gusanos de maguey predicen el ma-
lestar, deberíamos aprender muy rápidamente una relación entre los gusanos de ma-
guey y otro resultado distinto, por ejemplo una alergia cutánea. Lo cierto es que en la
literatura se observa justo lo contrario, en la situación hipotética que planteamos, la
relación entre los gusanos y la alergia cutánea es más difícil de establecer si hemos
aprendido previamente que los gusanos producen malestar que si no hemos tenido esa
experiencia, justo lo contrario de lo que sugiere Mackintosh (1975). Este resultado se
conoce como efecto de Hall y Pearce (1979).
Este último resultado llevó a Pearce y Hall (1980) a proponer un modelo atencional
alternativo al de Mackintosh. Aunque cuenta con algunas otras diferencias importan-
tes, la diferencia esencial estriba en el supuesto de que la asociabilidad de la clave va
disminuyendo a medida que se establece la asociación clave-resultado. En otras pala-
bras, cuanto peor predictor sea una clave más atención le prestaremos y viceversa.
Vemos que esto puede explicar sin problemas el efecto de Hall y Pearce; en nuestro
ejemplo, una vez que aprendemos que los gusanos de maguey son buenos predictores
del malestar dejamos de prestarles atención y en consecuencia nos cuesta establecer la
nueva relación entre los gusanos y la alergia cutánea.
Los dos grupos de teorías que hemos presentado mantienen la suposición de que la
fuerza asociativa de una clave es igual a la suma de los elementos que componen esa
clave. En otras palabras, comparten una perspectiva elemental del mundo en la que los
estímulos están conformados por la suma de elementos más pequeños, cada uno ganan-
do fuerza asociativa independiente. Frente a esta aproximación se sitúan un grupo de
teorías cuyo más reciente exponente es la teoría de Pearce (1987, 2002) que consideran
que el aprendizaje se realiza acerca de configuraciones estimulares.
Teoría configuracional de Pearce (1987, 2002). De acuerdo con este modelo los ani-
males contamos con un almacén sensorial transitorio de información de capacidad li-
mitada que siempre está lleno. Cualquier representación que se encuentre en el alma-
cén sensorial y vaya seguida por un resultado servirá como clave y se establecerá su
representación en la memoria a largo plazo. La fuerza asociativa de esta representación
aumentará con la experiencia posterior entre esta misma representación y el EI gracias
a una regla de aprendizaje similar a la del modelo de Rescorla y Wagner (1972). La
respuesta del sujeto dependerá del parecido que tenga la configuración presente con la
almacenada en la memoria a largo plazo asociada con el resultado.
Existen dos conceptos que conviene tener claros a la hora de explicar este modelo,
el de fuerza asociativa propia y el de fuerza asociativa generalizada. Aquellas confi-
guraciones estimulares que se asocien directamente con el resultado terminan ganando
fuerza asociativa propia; por otra parte, las configuraciones estimulares también pue-
den tener fuerza asociativa generalizada dependiendo de su parecido con la configura-
ción estimular asociada con el resultado. Así, la fuerza asociativa neta de una clave
será igual a la suma de su fuerza asociativa propia y la fuerza asociativa generalizada
que tome prestada de otros estímulos parecidos. Existen dos supuestos más en este
modelo que merecen nuestra atención: 1) una clave sólo puede generalizar la fuerza
asociativa que haya recibido por sus emparejamientos directos con el resultado, la fuer-
za asociativa generalizada no puede generalizarse 2) al igual que en el modelo de Res-
corla y Wagner (1972), el aprendizaje se interrumpe cuando la fuerza asociativa neta (la
suma de la fuerza asociativa propia y generalizada) alcanza la asíntota.
Con estos supuestos básicos podemos aplicar conceptualmente el modelo a la situa-
ción de bloqueo que habíamos escogido como ejemplo en modelos anteriores. Recor-
demos que en la situación de bloqueo teníamos dos grupos, el grupo de bloqueo que
recibía los emparejamientos gusanos-malestar seguidos por emparejamientos
gusanos+chapulines-malestar y por una prueba con los chapulines solos y el grupo de
control que recibía directamente el entrenamiento con la relación gusanos+chapulines-
malestar antes de la prueba con los chapulines. El bloqueo se infería como una menor
aversión por los chapulines en el grupo experimental que en el grupo de control. De
acuerdo con el modelo de Pearce (1987) en un diseño de bloqueo se darían las siguien-
tes asociaciones: cuando los gusanos del maguey van seguidos del malestar relaciona-
mos los gusanos con el malestar gastrointestinal; cuando posteriormente ingerimos gu-
sanos con chapulines esta nueva configuración recibe fuerza asociativa generalizada
por su parecido con los gusanos que se habían relacionado con el malestar. Ahora la
configuración gusanos y chapulines se relaciona con el malestar de modo que al final
alcanza una fuerza asociativa neta máxima. Sin embargo, recordemos que la fuerza
asociativa neta era igual a la fuerza asociativa propia más la fuerza asociativa generali-
zada. Como el aprendizaje está limitado en cantidad por el valor de λ, la fuerza asocia-
tiva propia de la nueva configuración será menor en el grupo de bloqueo que en el
grupo de control, puesto que al no existir experiencia previa en el grupo de control, los
emparejamientos entre el compuesto gusanos+chapulines y el malestar llevan a que en
esa configuración la fuerza asociativa propia iguale a la fuerza asociativa neta. Cuando
finalmente se presentan los chapulines durante la prueba, como nunca han ido seguidos
de malestar por si solos, su fuerza asociativa y por tanto la aversión que les mostremos
dependerá de lo que se parezcan a los estímulos que sí tienen fuerza asociativa propia,
en este caso el compuesto de gusanos con chapulines. En el grupo de bloqueo y en el
grupo de control los chapulines se parecen lo mismo al compuesto; sin embargo, recor-
demos que en el grupo de bloqueo la fuerza asociativa propia del compuesto es menor
que en el grupo de control y por lo tanto la cantidad de fuerza asociativa generalizada
que van a recibir los chapulines en ese grupo será menor que la que reciben en el grupo
de control.
Al igual que ocurría con el modelo de Rescorla y Wagner (1972), el modelo de
Pearce y sus diferentes versiones (Pearce 1987, 1994, 2002) es capaz de dar cuenta de
la mayoría de los fenómenos que presentábamos en el capítulo 3. Ambos tipos de aproxi-
maciones, la elemental y la configuracional han recibido respaldo consistente en la

literatura, lo que lleva a pensar si no podrían ser aproximaciones compatibles, entrando
en funcionamiento la estrategia elemental o configuracional según la situación a la que
se enfrenten los sujetos. Esta posibilidad no es descartable, aunque hace necesaria la
apertura de una nueva línea de investigación que trate de determinar en que circunstan-
cias se activa el procesamiento configuracional y en cuales el procesamiento elemental.
Comentario final acerca de las teorías asociativas del aprendizaje. Las teorías aso-
ciativas suponen que en una situación de aprendizaje de relaciones entre estímulos
como el condicionamiento clásico o algunas formas de aprendizaje correlacional, los
cambios en la magnitud de la respuesta condicionada o en los juicios de contingencia
reflejan cambios en el fortalecimiento de la asociación entre las representaciones men-
tales de la clave y el resultado, cambios que dependen de que clave y resultado sean
procesados conjuntamente (Dickinson, 1980). Las teorías asociativas descritas some-
ramente en este apartado son sólo una pequeña muestra de las disponibles en la litera-
tura. A la hora de seleccionar las que aquí hemos descrito nos hemos guiado por su
tradición, por el respaldo empírico obtenido y por encontrarse en la base de muchas de
las teorías asociativas del aprendizaje que no hemos mencionado.
Así por ejemplo, una cuestión que no hemos tratado y que sin embargo es un factor
fundamental en la literatura actual de aprendizaje animal y humano es el aprendizaje
acerca de estímulos ausentes o, dicho de otro modo, aprendizaje acerca de representa-
ciones de estímulos. Una serie de experimentos en la literatura demuestran que un suje-
to puede llegar a establecer relaciones excitatorias o inhibitorias entre estímulos que no
se presentan conjuntamente. Imaginemos la situación de bloqueo hacia atrás que pre-
sentábamos en el capítulo 3 (p. 46). Retomando nuestro ejemplo, en el diseño de blo-
queo hacia atrás ingeriríamos primero la combinación gusanos con chapulines y senti-
ríamos malestar. Después de esta experiencia echaríamos la culpa de nuestro malestar
tanto a los gusanos como a los chapulines. Sin embargo, si después nos presentan los
gusanos seguidos del malestar, cuando nos pregunten acerca de los chapulines diremos
que no son los causantes del malestar gastrointestinal; nuestra valoración acerca de la
relación entre los chapulines y el malestar ha cambiado en una situación en la que los
chapulines no se presentaron; en otras palabras, hemos aprendido algo acerca de un
estímulo que no estaba físicamente presente. La explicación de fenómenos como el
bloqueo hacia atrás queda fuera de los modelos asociativos tradicionales que hemos
visto en este apartado, sin embargo, modificaciones recientes del modelo de Rescorla y
Wagner (1972) como la realizada por Van Hamme y Wasserman (1994), o las modifica-
ciones realizadas por Holland (1983) y Dickinson y Burke (1996) del modelo de Wag-
ner (1981) que presentábamos en el capítulo 2 para explicar la habituación han aborda-
do estos problemas con cierto éxito resaltando el enorme potencial de la teoría asocia-
tiva como marco explicativo del aprendizaje animal y humano (para una revisión más
completa de las teorías asociativas del aprendizaje véase Rosas, 2002).
4.3.- Modelos estadísticos o de reglas

La idea que subyace a todos los modelos estadísticos o de reglas es que las personas
actúan en cierto modo como estadísticos intuitivos, integrando la información acerca
de distintos eventos mediante algoritmos de cálculo que les permiten determinar la
relación existente entre ellos. El primer ejemplo de estos modelos lo veíamos al inicio
del capítulo cuando presentábamos la regla ∆P, atribuyéndole un considerable poder
descriptivo de muchas situaciones de aprendizaje. En los modelos que trataremos en
este apartado consideraremos los algoritmos desde un punto de vista explicativo; los
modelos que presentamos a continuación suponen en su mayoría que las personas uti-
lizamos los algoritmos propuestos para computar los valores de las relaciones entre
claves y resultados, actuando después en función de los resultados de este cálculo.
Al igual que ocurría con los modelos asociativos, los investigadores no han llegado
a un acuerdo sobre la regla que explica el aprendizaje humano. De hecho, las reglas
propuestas pueden ser diametralmente opuestas, desde las que sostienen que las perso-
nas procesamos claramente la información de covariación entre elementos (Kelley, 1967)
hasta las que sostienen que las evaluaciones que realizamos las personas acerca de las
relaciones entre eventos están altamente sesgadas, caracterizándose por su inexactitud
(Nisbett y Ross, 1980).
Las reglas se diferencian en el uso que hacen de las cuatro casillas que presentába-
mos en la figura 4.1. Vamos a presentar primero las reglas categóricas, entendiendo por
éstas las que consideran que el valor de las casillas de la tabla de contingencia es equi-
valente; continuaremos después con la presentación de las reglas ponderadas que atri-
buyen pesos distintos a las diferentes celdas de la tabla de contingencia; nos centrare-
mos después en el modelo de contrastes probabilísticos desarrollado para dar cuenta de
situaciones como el bloqueo en las que se produce competición entre estímulos; para
terminar describiremos someramente la teoría del poder causal que, derivada del mode-
lo de contrastes probabilísticos, trata de explicar el paso del aprendizaje de correlación
entre eventos al establecimiento de relaciones causa-efecto.
Reglas categóricas: a, a-b, a-c, ∆D y ∆P. Los investigadores de percepción causal

humana han propuesto un buen número de reglas como explicación de los resultados de
sus experimentos. Kao y Wasserman (1993) recogen las 5 siguientes que presentare-
mos utilizando como ejemplo de cálculo las frecuencias que recogemos en la figura
4.1: a) regla de la casilla a según la cual los participantes juzgan la relación entre dos
eventos en función de la frecuencia de la información contenida en dicha casilla, esto
es, de los emparejamientos clave-resultado, ignorando las demás; en el caso de la figu-
ra 4.1 se evaluarían únicamente las 15 ocasiones en las que la clave se empareja con el
resultado aunque , a efectos comparativos se suele dividir por el total de observaciones
(15/40 = 0’38); b) regla de a-b según la cual los participantes le restan las presentacio-
nes de la clave sola a los emparejamientos clave-resultado; en el ejemplo recogido en la
figura 4.1 el valor de esta regla sería positivo (10 / 40 = 0’25); c) regla de a-c, en la que
la estimación se realiza en función de la diferencia entre las presentaciones conjuntas

de clave y resultado y las presentaciones del resultado en ausencia de la clave; en el
ejemplo propuesto el resultado sería positivo y ligeramente más alto que en el caso
anterior (11/40 = 0’28); d) ∆D o estrategia de la suma de las diagonales, donde la
relación entre eventos se define comparando las frecuencias de la información confir-
matoria (casillas a y d) y las frecuencias de la información que desconfirma la relación
clave-resultado (casillas b y c). La fórmula de cálculo de ∆D sería [(a+d)-(b+c)]/N,
donde N representa el número total de casos (la suma de todas las casillas). Aplicándo-
lo al ejemplo de la figura 4.1 tendríamos [(15+16)-(4+5)]/40 = 0’55; y finalmente e) la
regla de la contingencia incondicional o ∆P que vimos anteriormente cuyo resultado
fue de 0’55, igualando en este caso el resultado obtenido con ∆D, aunque en muchas
ocasiones los resultados de aplicar ambas reglas son diferentes.
La diversidad de reglas propuestas se correspondía con la variedad de datos experi-
mentales encontrados. Se realizaron análisis de clasificación estudiando el ajuste de las
estrategias descritas y los juicios de contingencia en distintos experimentos a fin de
encontrar que regla o reglas daban mejor cuenta del máximo de resultados experimen-
tales. Los análisis de clasificación fundamentalmente se han realizado desde dos pers-
pectivas, el método correlacional y el análisis de la regla.
El método correlacional consiste en calcular la correlación existente entre los jui-
cios predichos por cada una de las reglas que presentábamos en los párrafos previos y
la respuesta real de los sujetos que participaban en los experimentos. Utilizando este
método Allan y Jenkins (1980) encontraron que el 67% de sus participantes mostraban
una correlación de 0’80 con la regla ∆P. En un estudio posterior observaron que las
reglas ∆P, ∆D y a-c correlacionan entre sí en situaciones como las descritas en nuestro
ejemplo. Allan y Jenkins (1983) variaron las frecuencias de cada casilla y encontraron
que los juicios correlacionaban mejor con ∆D que con ∆P, aunque también se han en-
contrado los resultados contrarios en otras situaciones, lo que parece sugerir que las
reglas utilizadas por los sujetos pueden variar en función de las exigencias de la tarea.
El análisis de la regla responde a la idea de construir un conjunto especial de pro-
blemas y examinar el patrón de soluciones individuales empleadas por los sujetos para
diagnosticar la estrategia que utilizan. Shaklee y Tucker (1980) estructuraron un con-
junto de problemas de forma que los problemas de la casilla a podían ser resueltos
correctamente por todas estrategias, los problemas a-b podían ser resueltos mediante la
utilización de todas las estrategias excepto por la regla de la casilla a, los problemas de
la suma de las diagonales podían ser resueltos con éxito por ésta y la estrategia ∆P y los
últimos podían ser resueltos sólo por la estrategia ∆P. En su estudio presentaron a los
participantes distintos grupos de problemas en los que la contingencia podía ser positi-
va, nula o negativa. Se informó a los participantes que superarían el criterio si juzgaban
correctamente dos de los tres problemas propuestos. Los participantes que superaron el
criterio en todos los tipos de problemas fueron identificados con la utilización de la
regla ∆P. Los que tuvieron éxito en todos los problemas excepto los propuestos para
∆P, fueron identificados con el empleo de ∆D y así sucesivamente. Estos autores en-
contraron que el 1%, 18%, 35% y 33% de los participantes utilizaron las reglas casilla
a, a-b, ∆D y ∆P, respectivamente; el 13% restante usaron estrategias no clasificadas.
Reglas ponderadas . Algunos autores han cuestionado la validez de los dos métodos de
clasificación descritos en el apartado previo señalando que no permiten detectar utili-
zaciones distintas de la información contenida en la matriz de contingencia a las reglas
propuestas hasta el momento. Así, Wasserman, Dorner y Kao (1990) encontraron que
los sujetos no asignaban la misma importancia a cada casilla a la hora de utilizar la
información contenida en la regla de contingencia. Los resultados encontrados por es-
tos autores sugieren que las casillas pueden ordenarse en función de la importancia
subjetiva que les asignan los sujetos de la siguiente forma: a > b > c > d. Este descubri-
miento sugiere que los cálculos realizados por los sujetos en una tarea de aprendizaje
causal no son normativos, esto es, no se ajustan a una norma matemática formalmente
correcta. De este modo, las reglas descritas anteriormente pueden reformularse adscri-
biendo a cada una de las casillas un peso diferente y creando lo que se conoce como
reglas ponderadas.
Modelo de contrastes probabilísticos. En la descripción de los modelos de reglas que

venimos realizando nos hemos centrado en situaciones en las que la información que se
les presenta a los participantes se circunscribe a una clave candidata y un resultado
potencial. El mayor problema de la regla ∆P y sus derivados procede de aquellos fenó-
menos como el bloqueo en los que se demuestra que los participantes no utilizan este
tipo de reglas para resolverlos, ajustándose los resultados a modelos asociativos del
tipo de Rescorla y Wagner (1972). Cheng y Novic (1990, 1992) corrigieron este pro-
blema de las teorías estadísticas en su modelo de contrastes probabilísticos. Estos auto-
res sostienen que las personas no utilizamos la regla ∆P en circunstancias que implican
claves potenciales múltiples; en estas situaciones el comportamiento no es normativo,
analizando el resultado de cada clave independientemente del resultado de las otras
claves; en otras palabras, el resultado de cada una de las causas implicadas debiera
evaluarse condicionalmente a la presencia o ausencia de otras claves potenciales.
El funcionamiento de este modelo lo entenderemos mejor con un ejemplo. Volva-
mos a nuestro restaurante mexicano e imaginemos que nos encontramos en una situa-
ción en la que comemos dos platos diferentes, los gusanos de maguey y los chapulines.
Nuestro objetivo será determinar en qué medida cada una de estas claves produce el
malestar gastrointestinal, esto es, determinar su eficacia predictiva. Imaginemos que
nos encontramos con la distribución de frecuencias que presentamos en la figura 4.2.
En esta ocasión utilizaremos las dos claves para establecer la tabla de contingencia,
incluyendo el resultado dentro de cada casilla. Así, en cada casilla aparece una fracción
que en el numerador recoge el número de veces que aparece el malestar gastrointestinal
y en el denominador presenta el número total de comensales que ingirieron bien las dos
Diseño experimental
5G+ | 15GC+, 5C–, 15–
Contingencia incondicional
∆Pchapulines = 15/20 – 5/20 = 0’50
∆Pgusanos = 20/20 – 0/20 = 1
Contingencia condicional (chapulines) Contingencia condicional (gusanos)
Con los gusanos presentes Con los chapulines presentes

15/20 – 5/5 = 0 15/15 – 0/5 = 1
Con los gusanos ausentes Con los chapulines ausentes

0/5 – 0/15 = 0 5/5 – 0/15 = 1
Figura 4.2. Aplicación del modelo de los contrastes probabilísticos de Cheng y Novick (1990). El
diseño experimental es una variación del diseño de bloqueo en el que G representa los gusanos, C
los chapulines, + el malestar y – la ausencia de malestar. Este diseño se puede explicitar en una
tabla de contingencia en la que en cada casilla se representa el número total de comensales que
desarrollan el malestar después de haber ingerido una de las comidas, las dos o ninguna (depen-
diendo de la casilla). Los cálculos corresponden a la contingencia incondicional (normativa) y a la
contingencia condicional de acuerdo con el modelo de los contrastes probabilísticos.
comidas (casilla a), que sólo comieron gusanos de maguey (casilla b), que sólo comie-
ron chapulines (casilla c) o que no comieron ninguna de las dos cosas (casilla d). Si
queremos calcular la contingencia incondicional (∆P) en una de las claves, por ejem-
plo, los chapulines, tomaremos la proporción de comensales que tuvieron el malestar
después de haber ingerido los chapulines (15/20) y la proporción de los comensales
con malestar que no habían comido chapulines (5/20). La diferencia entre esas dos
proporciones nos dará el valor de ∆P que en este caso es de 0’5 (15/20 – 5/20 = 0’75 –
0’25 = 0’50) indicando que hay una contingencia objetiva positiva entre los chapulines
y el malestar, lo que nos llevaría a rechazarlos. Calculemos ahora la contingencia in-
condicional para los gusanos y el malestar. En esta ocasión tomaremos la proporción de
comensales con malestar después de ingerir los gusanos (20/20) restándole la propor-
ción de comensales con malestar sin haber comido gusanos (0/20). En esta situación el
valor de ∆P será 1 (20/20 – 0/15 = 1 – 0 = 1) indicando una relación positiva perfecta
entre los gusanos y el malestar. Dicho en términos coloquiales, echaremos la culpa de

nuestro malestar a los gusanos de maguey, pero también a los chapulines, aunque en
menor medida.
El diseño experimental que se recoge en la figura 4.2 es un diseño de bloqueo lige-
ramente modificado en el que los sujetos son expuestos a la relación gusanos-malestar
en 5 ocasiones, a la relación gusanos+chapulines-malestar en 15 ocasiones, a la rela-
ción chapulines sin malestar en 5 ocasiones, y en otras 15 ocasiones no son expuestos
a ninguna de las claves. El orden en el que se presentan estos ensayos es irrelevante
para el cálculo de la contingencia, puesto que en el cálculo se evalúa la experiencia
completa a la que se somete el individuo. Por tanto, a efectos de comparación vamos a
suponer el orden que aparece recogido en el diseño que presentamos en la figura 4.2,
aplicándole el modelo de Rescorla y Wagner (1972) en el que el orden de los ensayos sí
determina los resultados finales. En los ensayos iniciales gusanos-malestar la fuerza
asociativa de los gusanos aumenta hasta que se convierten en buenos predictores del
malestar. Cuando después se le presentan los chapulines y los gusanos de maguey el
sujeto espera ya el malestar gracias a los gusanos, no hay sorpresa y por lo tanto no hay
aprendizaje adicional. Si además tomamos en cuenta que los chapulines se presentan
también sin malestar, el modelo predice la extinción de cualquier fuerza asociativa que
pudieran tener los chapulines. El resultado final predicho por el modelo de Rescorla y
Wagner (1972) con respecto a los gusanos coincide con el predicho por la regla ∆P. Sin
embargo, el resultado predicho respecto a los chapulines es radicalmente distinto, el
modelo de Rescorla y Wagner (1972) predice que los chapulines no van a tener fuerza
asociativa, mientras que la regla ∆P predice que vamos a considerar los chapulines
como predictores moderados de la aparición del malestar. El modelo de Rescorla y
Wagner (1972) predice que la relación gusanos-malestar va a bloquear la relación cha-
pulines-malestar, un efecto de bloqueo que aparece recogido reiteradas veces en la lite-
ratura sobre aprendizaje animal y humano.
El ejemplo utilizado nos permite ilustrar los problemas que tiene la regla ∆P para
resolver situaciones de competición entre claves. El modelo de contrastes probabilísti-
cos de Cheng y Novick (1990, 1992) sostiene que en estas situaciones de competición
entre claves la contingencia que debe utilizarse es la contingencia condicional, en la
que el poder predictivo de cada clave se evalúa comparando sus resultados en ausencia
y presencia de otras claves. Aplicándolo al ejemplo de la figura 4.2 y tratando de deter-
minar la contingencia condicional de los chapulines tendríamos que considerar por
separado la contingencia condicional de los chapulines en presencia y en ausencia de
los gusanos de maguey. Para calcular la contingencia condicional de los chapulines en
presencia de los gusanos tomaríamos la diferencia entre la proporción de comensales
que padecieron el malestar después de comer el plato de gusanos y chapulines (15/15)
y la proporción de comensales que sufrieron malestar cuando comieron sólo gusanos
(5/5). La contingencia condicional para la relación gusanos-malestar sería igual a 0
(15/15 – 5/5 = 1 – 1 = 0). Para calcular la contingencia condicional de los chapulines en
ausencia de los gusanos tomaríamos la diferencia entre la proporción de comensales

que sufren el malestar cuando toman sólo chapulines (0/5) y la proporción de comensa-
les que sufren el malestar cuando no ingieren ninguno de los dos alimentos (0/15). La
contingencia condicional es nuevamente 0 (0/5 – 0/15 = 0 – 0 = 0). Así, cuando el
efecto de los chapulines se condiciona a la presencia o ausencia de gusanos nos encon-
tramos con que los gusanos no tienen ningún poder predictivo sobre el malestar. Otra
manera de comprender este resultado la obtenemos si observamos que cuando están
presentes los gusanos los comensales siempre enferman, independientemente de si han
comido o no chapulines (20/20) mientras que cuando no comen gusanos nunca sufren
malestar, independientemente de si comieron o no chapulines (0 / 20). De esta forma,
los chapulines no tienen ningún efecto sobre el malestar gastrointestinal.
Vemos que la situación cambia radicalmente con respecto a la aplicación de ∆P
incondicional; la aplicación de la contingencia condicional predice que vamos a deses-
timar los chapulines como causa del malestar, atribuyéndolo exclusivamente a los gu-
sanos de maguey, igualando su predicción a la realizada desde el modelo de Rescorla y
Wagner (1972) y a los resultados de bloqueo obtenidos en la literatura.
4.4.- Comentario final: las teorías asociativas y los modelos de reglas

En el final del apartado previo hemos observado los esfuerzos que se han realizado
desde los modelos de reglas para integrar resultados de competición entre claves, pro-
vocando el desarrollo de nuevos modelos como el de contrastes probabilísticos de Cheng
y Novic (1990). No obstante, una pregunta lícita que podemos hacernos en este punto
es por qué dedicar tanto esfuerzo a modificar las reglas de contingencia para poder
explicar el efecto de bloqueo si este efecto ya lo explicaban los modelos asociativos
como el de Rescorla y Wagner (1972).
Irónicamente, el problema que generó el bloqueo a los modelos de reglas se tornó en
contra de los modelos asociativos a partir del modelo de contrastes probabilísticos de
Cheng y Novick (1990). En este mismo apartado señalábamos que para la mayor parte
de los modelos que utilizan reglas de contingencia el orden en el que se presentan los
ensayos es irrelevante (una notable excepción es el modelo de revisión de creencias de
Maldonado, Catena, Cándido y García, 1999), cosa que no siempre ocurre en los mode-
los asociativos. Tomemos como ejemplo el bloqueo, si invertimos las fases del bloqueo
de modo que el condicionamiento con el compuesto preceda al condicionamiento sim-
ple (gusanos+chapulines-malestar | gusanos-malestar) los modelos asociativos tradi-
cionales predicen que no va a observarse el efecto de bloqueo, en otras palabras, que
los sujetos van a considerar que los chapulines provocan el malestar, aunque en menor
medida que los gusanos. En cambio, el modelo de contrastes probabilísticos predice el
bloqueo independientemente del orden en el que se presenten los ensayos. Las dificul-
tades para observar bloqueo hacia atrás en animales no humanos podrían sugerir que
los mecanismos del aprendizaje humano son diferentes de los mecanismos de aprendi-
zaje en otros animales, favoreciendo una interpretación en términos de reglas del apren-
dizaje humano y en términos asociativos del aprendizaje animal. Sin embargo, ya seña-
lábamos en el capítulo 3 que el bloqueo hacia atrás se había obtenido también en ani-
males siempre que la situación no incluyera estímulos con alta relevancia biológica,
asemejándose más a las tareas habitualmente utilizadas en los estudios de aprendizaje
causal (Miller y Matute, 1996). Esto podría llevar a la sugerencia de que los modelos
estadísticos o de reglas son más adecuados para dar cuenta del aprendizaje en animales
y humanos. Sin embargo, ya apuntábamos al final de nuestra presentación de las teorías
asociativas que habían surgido nuevos desarrollos asociativos que permitían explicar
fenómenos de evaluación retrospectiva como el bloqueo hacia atrás. Uno de los retos
de la investigación futura en el campo del aprendizaje será determinar el tipo de meca-
nismos que utilizamos las distintas especies o, si fuera el caso, que circunstancias lle-
van a que se utilicen unos mecanismos u otros.
Correlación y causación: la teoría del poder causal (Cheng, 1997). Cuando un tono
va seguido por una descarga eléctrica o la ingestión de gusanos va seguida consistente-
mente por un malestar gastrointestinal tendemos a decir que el tono causa la desgarga o
que la ingestión de los gusanos es la causa del malestar. Sin embargo, en la mayoría de
estas situaciones lo único que ocurre es que covarían dos eventos en el ambiente, lo
cual no necesariamente implica que uno sea la causa del otro. Por ejemplo, aunque la
vida moderna nos haya alejado a muchos de las experiencias campestres, está inscrito
en el saber popular que el canto del gallo precede al amanecer. Así, uno puede predecir
que el amanecer está próximo en cuanto escuche cantar al gallo. Sin embargo, ¿dirías
que el gallo es la causa de que amanezca? Ciertamente no. El que ambos eventos cova-
ríen no implica que uno sea la causa del otro; la pregunta entonces es ¿qué nos lleva a
establecer relaciones de causa-efecto, más allá de las relaciones de covariación o corre-
lación entre eventos?
Desde las teorías asociativas el problema de las relaciones causa-efecto no se ha
tratado de forma sistemática. Algunos autores han señalado que el aprendizaje es el
mecanismo que permite al sujeto detectar la textura causal del ambiente (Tolman y
Brunswick, 1935); sin embargo, esa es una generalización inapropiada dado que la
textura del ambiente se define mucho más apropiadamente como correlacional que
como causal. Desde la perspectiva de los modelos de reglas, Cheng (1997) realiza una
aproximación mas sistemática a este problema. Sostiene que las relaciones causales no
son observables ni deducibles, al contrario, deben ser inducidas a partir de los eventos
observados. A la hora de inducir estas relaciones causales la regla ∆P resulta insuficien-
te, dado que esta regla establece el grado de covariación entre dos eventos y como ya
hemos señalado en nuestro ejemplo, la existencia de correlación entre dos eventos no
garantiza la inferencia de una relación causal entre ellos. La aproximación al poder
causal sostiene que existe un conocimiento a priori que sirve como estructura para la
interpretación de la información de las causas potenciales; así, los sujetos no inferirían
que una cosa es causa de otra a menos que perciban o conozcan un mecanismo causal
que enlace la causa candidata al efecto observado; de acuerdo con la aproximación del
poder causal las causas no están meramente seguidas por sus efectos, sino que los
producen. Esta aproximación resulta tan insuficiente como la aproximación correlacio-
nal, al no especificar cómo descubrimos la existencia de relaciones causales a partir de
la información disponible en el ambiente y al implicar que los sujetos no aprenden que
una relación es causal a menos que comprendan primero que lo es.
La teoría del poder causal de Cheng (1997) combina estas dos aproximaciones en
una formulación matemática cuya discusión excedería en mucho los objetivos de este
capítulo. Propone que los sujetos utilizan una noción de poder para interpretar y expli-
car el modelo de covariación. Los sujetos no tratan las covariaciones observadas como
equivalentes a relaciones causales sino que las interpretan como la manifestación de la
operación de poderes causales inobservables cuya magnitud debe estimarse.
Según este modelo, el valor de la probabilidad de aparición del efecto “e” en pre-
sencia de la causa candidata “i” coincidirá con el valor de la fuerza causal de la causa
candidata “p i ” cuando no existan otras causas alternativas “a” para el mismo efecto. Sin
embargo, por lo general no son iguales, hecho que se debe a que otras causas “a”
(conocidas o desconocidas para los participantes) pueden estar presentes cuando “i”
está presente.
Según esta teoría, las personan consideran que “e” puede estar producido por “i” o
por “a” independientemente, es decir, la ocurrencia del efecto es la unión de dos even-
tos independientes: el efecto producido por “i” y el efecto producido por “a”. Por ello,
la covariación no implica siempre causación. Si una causa alternativa “a” existe y no
ocurre independientemente de “i” ∆Pi no es interpretable como un estimado de “pi”;
podría sobreestimarse “pi”, o infravalorarse, dependiendo de los valores de P(a/i) y
P(a/-i).
Aunque por lo general ∆Pi no proporciona un estimado de “pi”, existen condicio-
nes bajo las cuales sí puede ofrecerlo. Consideremos el caso especial en el que “a”
ocurre independientemente de “i”. Cuando P(e/-i) es aproximadamente igual a 0, en-
tonces pi≅∆Pi, lo que significa que en esta situación el sujeto puede interpretar el con-
traste para “i” como una estimación cercana del poder causal de “i”. Ahora, considere-
mos otro caso extremo en el que P(e/-i)≅1. Esta es la situación en la que el efecto casi
siempre ocurre, incluso cuando el candidato “i” está ausente. En este caso, “pi” es
indefinido. En otras palabras, ∆Pi será aproximadamente igual a cero lo que significa
que, en esta situación, el sujeto no puede interpretar el contraste para “i” como un
estimado del poder causal de “i”.
4.5.- Resumen
Las teorías del aprendizaje buscan determinar el mecanismo y el modo en el que los
sujetos aprenden a establecer relaciones entre eventos. Se han establecido dos grandes
grupos de teorías, las teorías asociativas y los modelos de reglas, las primeras proce-
dentes principalmente de los estudios de aprendizaje y condicionamiento realizados
con animales no humanos y las segundas de los estudios de aprendizaje causal en seres
humanos. Sin embargo, el descubrimiento de que muchos de los fenómenos de apren-
dizaje se manifiestan de modo similar en animales humanos y no humanos ha permiti-
do que los estudios sobre aprendizaje causal humano se beneficien de los procedimien-
tos y las teorías que han sido desarrolladas en condicionamiento animal y viceversa.
Las teorías asociativas modernas asumen que el aprendizaje consiste en establecer
conexiones o asociaciones entre representaciones de eventos en la memoria, con lo que
su objetivo radica en determinar los mecanismos por los que se establecen esas asocia-
ciones. Dentro de estas teorías destaca el modelo de Rescorla y Wagner (1972) que
captura en su formulación matemática la idea de que el aprendizaje se produce cuando
existe sorpresa, operacionalizándola como la discrepancia entre lo que el sujeto recibe
y lo que el sujeto espera recibir. Modelos posteriores como el de Mackintosh (1975) o
el de Pearce y Hall (1980) se centran en los cambios en el procesamiento del estímulo,
suponiendo que la atención que se le presta al estímulo cambia durante el proceso de
aprendizaje en función de su poder predictivo. El modelo de Mackintosh supone que
existe una relación directa entre la capacidad predictiva de un estímulo y la atención
que se le presta, mientras que el modelo de Pearce y Hall (1980) supone que la relación
es inversa. Estos modelos comparten la característica de ser elementales, suponiendo
que la fuerza asociativa de un compuesto estimular es equivalente a la suma de la fuer-
za asociativa de cada uno de los elementos que lo componen. Teorías posteriores como
la de Pearce (1987) toman una perspectiva configuracional, suponiendo que las asocia-
ciones se establecen directamente entre compuestos estimulares y sus resultados.
Los modelos basados en reglas consideran que las personas integran la información
entre dos eventos mediante algoritmos de cálculo. Pronto se observó que los modelos
de reglas normativos, matemáticamente correctos, no resultaban suficientes para dar
cuenta de los resultados observados en los estudios de aprendizaje, apareciendo los
modelos de reglas ponderadas en los que se considera que las personas atribuyen im-
portancia diferente a los distintos tipos de información que se les presenta. No obstante,
ninguna de estas reglas fue capaz de dar cuenta de los resultados de los procedimientos
que como el bloqueo o el ensombrecimiento implicaban competición entre estímulos y
que sin embargo sí eran perfectamente explicables desde las teorías asociativas. El
modelo de los contrastes probabilísticos corrigió esta deficiencia al sostener que el
poder predictivo de una clave determinada se calculaba contrastando su poder predicti-
vo en presencia y en ausencia de otras causas alternativas.
Aunque desde alguno de estos modelos de aprendizaje se asuma más o menos implí-
citamente que se está dando cuenta del aprendizaje de relaciones de causa-efecto, todos
se centran en la explicación con mayor o menor fortuna de situaciones de covariación
entre eventos. La teoría del poder causal de Cheng (1997) parte de la teoría de los
contrastes probabilísticos para intentar dar cuenta de cómo se pasa de la experiencia de
covariación al establecimiento de relaciones de causa efecto entre dos eventos.
Capítulo 5
Aprendizaje acerca de relaciones entre respuestas y

consecuencias: condicionamiento instrumental
Descubrimos nuestro restaurante cuando llegamos a México con motivo de conti-

nuar nuestros estudios allí. Las primeras semanas de aquel año fueron difíciles. Añorá-
bamos a nuestros amigos, nuestra habitación e incluso detectábamos aquella fatídica
cama que nos estaba destrozando la espalda. Rápidamente nos pusimos manos a la
obra; dispusimos la distribución de la habitación de la forma más parecida a como la
teníamos en casa, recorrimos parte de la ciudad hasta que encontramos la misma marca
del colchón en el que acostumbrábamos dormir y visitamos distintos locales hasta que
encontramos nuestro restaurante donde comenzamos a entablar amistad con lugareños
con los que compartíamos aficiones y trabajo. Quizás los gusanos de maguey nos sen-
taron mal, sin embargo con cierta regularidad frecuentábamos aquel restaurante donde
nos encontrábamos con nuestros nuevos amigos.
El denominador común de los fenómenos que hemos estudiado en los capítulos
anteriores (habituación, sensibilización y condicionamiento clásico) es que un orga-
nismo no tiene control sobre los estímulos a los que se expone. Por el contrario, el
condicionamiento instrumental se refiere a situaciones de aprendizaje en las que los
estímulos a los que un organismo se expone son el resultado directo de su conducta.
Las situaciones que describimos arriba reflejan esta forma de aprendizaje. Cambiamos
la distribución de la habitación para que se asemejara a la nuestra. Si bien la habitación
en sí misma no producía ningún efecto especial sobre nosotros en nuestro país, su
ausencia activaba el proceso oponente, la tristeza (véase la teoría del proceso oponente
en el capítulo 2) y nuestra respuesta permitió corregirlo. El colchón de la habitación
nos provocaba dolor de espalda, y para evitarlo lo cambiamos. Finalmente, frecuentá-
bamos el restaurante donde nos encontrábamos con nuestros nuevos amigos, quienes
animaban nuestros malos ratos y compartían los buenos.
Todos estos son ejemplos en los que nuestra conducta nos lleva a cambiar el am-
biente para conseguir las consecuencias que deseamos, sea evitar algo desagradable
como la tristeza o el dolor de espalda, o conseguir algo agradable como la compañía y
los mimos de nuestros amigos, ejemplos en definitiva de condicionamiento instrumen-
tal u operante.
81
5.1.- Antecedentes históricos y definiciones

Imagina que introduces a un gato hambriento en una caja, desde cuyo interior pue-
de ver un plato de comida situado fuera. Para conseguir escapar, el gato tiene que tirar
de una anilla que conectada mediante un sistema de poleas desplaza la puerta vertical-
mente, permitiendo así acceder a la comida. ¿Sería capaz el gato de analizar inteligen-
temente el problema para dar la respuesta que le permite salir de la caja? Esta pregunta
se la realizó Thorndike (1898) quien, con un procedimiento similar al descrito llegó a
la conclusión de que la conducta del gato no parecía ser inteligente. Observó en el gato
el conjunto de respuestas típicas de un animal encerrado, algunas de las cuales termi-
naron llevándole a la apertura de la puerta y a la consecución de la comida deseada.
Después de varios ensayos, el tiempo empleado por el gato para resolver el problema
(latencia) terminó disminuyendo. Promediando los resultados de varios gatos encontró
un descenso gradual en la latencia. Esta adquisición gradual de la respuesta llevó a
Thorndike a concluir que el gato resolvía la situación por ensayo y error, probando
distintas respuestas hasta que por azar daba la respuesta correcta.
Sin embargo, Köhler (1925) observó que el azar era el único modo en el que el gato
de Thorndike podía resolver la situación, y éste era una característica de la situación
experimental, no del gato. Si el mecanismo de apertura de la puerta hubiera sido visible
para el gato, señala Köhler, hubiéramos observado en él una conducta mucho más
inteligente (para una demostración sencilla de cómo la situación puede forzar el apren-
dizaje por ensayo y error en humanos replicando los mismos resultados encontrados
con Thorndike, véase Rosas y Callejas-Aguilera, 2004). Köhler (1925) encontró que
cuando enfrentaba a sus chimpancés a un problema, coger un plátano que está más allá
de su alcance, y se dejaban a su disposición los elementos con los que podía resolverlo,
una vara larga, los chimpancés no actuaban por ensayo y error, el aprendizaje se mani-
festaba de repente, cuando el animal descubría repentinamente la solución del proble-
ma, tenía un insight.
Algunos años más tarde, Harlow (1949) explicaba cómo se podían integrar los re-
sultados dispares de Köhler y Thorndike. Encontró que el aprendizaje se producía
gradualmente cuando los monos rhesus se enfrentaban a una situación nueva, por ejem-
plo establecer una discriminación entre dos objetos; sin embargo, cuando el mono
recibía entrenamiento en problemas similares, llegó a entrenarlos en 344 discrimina-
ciones distintas, terminaba encontrando la solución después del primer ensayo. Esta
mejoría denominada por Harlow aprender a aprender podía explicar la diferencia en-
tre los resultados de Thorndike y los de Köhler. Es posible que los chimpancés de
Köhler hubieran llegado a un insight a través de la experiencia. En concordancia con
esta idea, Birch (1945) encontró que los chimpancés criados en cautividad tenían se-
rias dificultades para resolver el problema de Köhler; sin embargo, cuando se les per-
mitió jugar con palos durante tres días antes de regresar a la situación de prueba, todos
resolvieron el problema en menos de veinte segundos, luego quizá la idea de Thorn-
dike no fuera completa, pero no estaba del todo desencaminada.
CONDICIONAMIENTO INSTRUMENTAL 83
El experimento de Thorndike nos permite ilustrar los elementos fundamentales del

condicionamiento instrumental; en este experimento el gato (sujeto) colocado frente a
un estímulo discriminativo (la caja-problema) daba una respuesta (tirar de la anilla) y
obtenía una consecuencia (la comida). Cuando definíamos el EI en el condicionamien-
to clásico hacíamos mención a que ese mismo estímulo lo habíamos llamado estímulo
elicitador al hablar de la habituación. En este caso, ese mismo estímulo se denominará
consecuencia o, en según que casos, reforzador. Igualmente, la luz o el sonido que
antes llamábamos estímulo condicionado, en el condicionamiento instrumental se de-
nomina estímulo discriminativo, porque permite al sujeto determinar si la respuesta va
a ir seguida de la consecuencia. Así, la definición de los elementos del condiciona-
miento instrumental viene determinada por su función, pero al igual que resaltábamos
en el caso del condicionamiento clásico, es conveniente destacar que estos estímulos
son los mismos por lo que dentro del propio condicionamiento instrumental se produ-
cirá aprendizaje de condicionamiento clásico o de habituación, lo que en algunos casos
puede determinar que el condicionamiento instrumental funcione.
Método de ensayos discretos y método de operante libre. Los procedimientos utili-

zados por Thorndike se caracterizan por contener ensayos discretos, es decir, el animal
sólo puede realizar la respuesta instrumental con éxito una sola vez en cada ocasión
que es introducido en la caja problema. Los procedimientos de ensayos discretos se
utilizaron con asiduidad en los estudios de aprendizaje instrumental de la primera mi-
tad del siglo XX, muchos de los cuales utilizaron laberintos. En los laberintos más
sencillos se puede medir el tiempo que una rata hambrienta tarda en recorrer un corre-
dor recto desde el compartimento de salida al compartimento meta, donde se encuentra
situada cierta cantidad de comida. Tras su entrada en el compartimento de meta la rata
se coloca nuevamente (un nuevo ensayo) en el compartimento de salida y se repite la
operación. En otros laberintos, por ejemplo el laberinto en forma de T, se puede medir
tanto la latencia de respuesta como el número de aciertos (veces en las que la rata
escoge el pasillo que le lleva a la caja donde está la comida).
Los métodos de ensayos discretos tienen una serie de inconvenientes prácticos im-
portantes. Implican una gran manipulación del sujeto experimental por parte del expe-
rimentador, dado que el experimentador tiene que devolver al sujeto experimental a la
situación inicial cada vez que emite una respuesta. Esto conlleva además una gran
inversión de tiempo por parte del experimentador y, por último, no permite medir la
frecuencia de la respuesta. Estos inconvenientes se vieron aliviados por la introduc-
ción de los métodos de operante libre (Skinner, 1938).
Los métodos de operante libre permiten la observación continuada de la conducta
del animal durante periodos de tiempo prolongados y por tanto permiten observar los
cambios en la frecuencia y distribución temporal de la respuesta instrumental. El desa-
rrollo de los métodos de operante libre tiene su máximo exponente en la caja de Skin-
ner, que debe su nombre a su creador, y que sigue siendo uno de los principales apara-
tos de experimentación animal en nuestros días. Se han diseñado distintas cajas de

Skinner para ratas, ratones y palomas, pero todas tienen en común que están equipadas
con distintos mecanismos que permiten al animal accionarlos mediante una respuesta
mecánica. A su vez, estos mecanismos se pueden encontrar conectados con distintos
dispositivos automáticos que dispensan diferentes recompensas (comida o agua para
animales hambrientos o sedientos, respectivamente). La acción de presionar uno de
estos mecanismos –por ejemplo una palanca de respuesta– recibe el nombre de res-
puesta operante. Dicha respuesta se define en términos del efecto que tiene sobre el
ambiente –por ejemplo hacer que una bolita de comida caiga en el comedero– y no
por la conducta o acción mecánica concreta realizada por el animal (presión de la
palanca con las patas delanteras o con el rabo).
La adquisición de la respuesta instrumental. Al definir el condicionamiento instru-

mental hemos señalado que implica a todas aquellas situaciones en las que la respuesta
está regulada por las consecuencias que produce en el ambiente; en nuestros ejemplos
iniciales, implícitamente asumíamos que la respuesta aumentaba porque iba seguida
de consecuencias que nosotros deseábamos, como el que nuestros amigos nos mimen
y nos den conversación. Así, podríamos decir que para que aumente la frecuencia de
respuesta de una conducta instrumental basta con relacionarla con una consecuencia
que al sujeto le apetezca disfrutar. Pero si esto fuera así, el condicionamiento instru-
mental sólo serviría para aumentar la frecuencia de respuestas que el sujeto ya emite.
En otras palabras, serviría para seleccionar una respuesta de entre todas las emitidas
por el sujeto, pero ¿qué ocurre el sujeto no emite por sí mismo la respuesta instrumen-
tal, o cuando la emite con muy poca frecuencia?
Imaginemos que tenemos un niño con problemas de integración y que no muestra
ninguna respuesta de interacción social con sus compañeros. Nuestro objetivo como
especialistas en aprendizaje es que el niño termine integrándose en su grupo de compa-
ñeros y para ello podríamos establecer una estrategia en la que relacionáramos cual-
quier respuesta de interacción con sus compañeros con algo que el niño aprecie, por
ejemplo salir al recreo o recibir una felicitación por parte del profesor. Sin embargo, si
el niño es verdaderamente problemático es probable que realice tan pocas respuestas
sociales que sea imposible reforzarlo lo suficiente como para que su conducta mejore,
¿debemos concluir que el condicionamiento instrumental es inútil en esta situación?
Justo al contrario, los procedimientos de condicionamiento instrumental pueden resul-
tar muy útiles para incluir respuestas completamente nuevas en el repertorio del sujeto.
Para enseñar conductas nuevas a un sujeto utilizando el reforzamiento instrumental
utilizaremos la técnica de moldeamiento, también conocida como reforzamiento de las
aproximaciones sucesivas a la conducta objetivo. En este procedimiento se establece
una gradación conductual escalonada en uno de cuyos extremos se sitúan las conduc-
tas que ya realiza el sujeto (punto de partida) y en el otro la conducta que queremos
instaurar (conducta objetivo). Las conductas intermedias representan acercamientos
progresivos de dificultad creciente entre el punto de partida y la conducta objetivo. El

sistema es simple, consiste en reforzar secuencialmente cada aproximación que realice
el sujeto a la conducta objetivo, incrementando gradualmente las exigencias del re-
fuerzo a medida que el sujeto va mejorando en su conducta.
Aunque esta explicación pueda resultar críptica, aplicada al ejemplo previo vere-
mos que la situación se relativamente sencilla. Imaginemos que nuestro niño lo más
que hace es mirar ocasionalmente a alguno de sus compañeros (punto de partida), que
nuestro objetivo es que el niño termine jugando con ellos (conducta objetivo) y que
contamos con un reforzador eficaz para el niño (la atención del profesor). Una vez
definido donde estamos y donde queremos llegar, nuestro siguiente paso será estable-
cer la gradación conductual que lleve en pequeños pasos desde el punto de partida
hasta la conducta objetivo. En este caso los pasos podrían ser mirar a sus compañeros
(paso 1), amagar con acercarse a algún compañero (paso 2), acercarse al compañero
(paso 3), hablar con un compañero (paso 4) y así progresivamente hasta alcanzar la
conducta objetivo, jugar con sus compañeros. Una vez establecida la secuencia con-
ductual, podemos comenzar el moldeamiento; comenzaremos reforzando con atención
las miradas del niño a sus compañeros; esto llevará a que el niño mire a sus compañe-
ros cada vez más a menudo; una vez que el niño mire regularmente a sus compañeros
pasaremos a ser más exigentes y no administraremos nuestra atención a menos que
amague con acercarse a alguno de ellos. Este procedimiento toma ventaja de la varia-
bilidad de la conducta, cuando dejemos de reforzar la conducta de mirar el niño co-
menzará a variarla en búsqueda del refuerzo perdido. Esto llevará a que termine emi-
tiendo la respuesta de amagar con acercarse a un compañero, lo que nos permitirá
reforzar el paso 2; repetiremos el procedimiento una y otra vez hasta conseguir que el
niño termine jugando con sus compañeros.
5.2.- Principales fenómenos del condicionamiento instrumental.

Encontrarnos con nuestros nuevos amigos en el restaurante mexicano donde comi-
mos por primera vez los gusanos de maguey ha modificado nuestros hábitos en cuanto
a los locales que visitamos cuando salimos. En nuestro tiempo libre apenas visitamos
otras cantinas o restaurantes que no sean éste. Cuando estamos con ellos incluso come-
mos gusanos de maguey, aunque siempre acompañados por ese tequila que impide la
aparición de nuestro malestar gastrointestinal. En definitiva, manifestamos estas nue-
vas conductas porque nos permiten controlar la naturaleza de ciertos acontecimientos
ambientales, produciendo algún tipo de consecuencia en el ambiente. Las consecuen-
cias del ambiente pueden ser agradables o desagradables; las primeras se denominan
consecuencias apetitivas y las segundas consecuencias aversivas. El condicionamien-
to instrumental se clasifica habitualmente en función del tipo de consecuencia utiliza-
da y del tipo de relación entre la respuesta y la consecuencia. La relación puede ser
positiva, la emisión de la respuesta da lugar a la aparición de la consecuencia, o nega-
tiva, la emisión de la respuesta lleva a que la consecuencia, que de otro modo iba a
presentarse, no se presente. La combinación del tipo de consecuencia y del tipo de

relación en una tabla de doble entrada da lugar a los cuatro tipos de condicionamiento
instrumental que se presentan en la figura 5.1 y que describiremos brevemente a conti-
nuación. No obstante, a la hora de presentar estos procedimientos de condicionamien-
to instrumental, hemos escogido clasificarlos en función de los efectos que producen
sobre la respuesta del sujeto
Procedimientos que aumentan la respuesta instrumental: reforzamiento. El tér-

mino reforzamiento tiene una función puramente descriptiva y supone el aumento en
la respuesta instrumental como resultado de su relación con las consecuencias que
produce en el ambiente. Los dos procedimientos que producen reforzamiento se pre-
sentan en la figura 5.1 y se diferencian en función de la naturaleza de la consecuencia
y de la relación que se establece entre la respuesta y la consecuencia, dando lugar al
reforzamiento positivo y al reforzamiento negativo o evitación.
Reforzamiento positivo. Frecuentamos el restaurante mexicano porque esta con-
ducta nos lleva a tener un encuentro con nuestros amigos, que de otra forma serían
difíciles de localizar. En términos de condicionamiento instrumental ir al restaurante es
la respuesta instrumental y nuestros amigos suponen una consecuencia apetitiva. Así,
el reforzamiento positivo tiene lugar cuando existe una contingencia positiva entre la
respuesta instrumental y un estímulo reforzador apetitivo (véase la matriz de contin-
gencia presentada en la tabla 4.1, p. 61).
Reforzamiento negativo. No queremos ser descorteses con nuestros amigos, así que
cuando nos ofrecen gusanos de maguey los comemos aunque sabemos que nos sientan
mal. Nos encontramos ante una disyuntiva, o desairamos a nuestros amigos o nos ve-
mos abocados a un malestar gastrointestinal serio. Sin embargo, y continuando con el
ejemplo que presentábamos en el capítulo 3, aprendimos que el tequila inhibía la apa-
rición del malestar. Esto nos deja una salida inmejorable para nuestra difícil situación,
podemos comernos los gusanos de maguey y evitar el malestar, basta con que los acom-
pañemos de tequila. Aquí la respuesta instrumental (beber tequila) se ve reforzada,
aumenta, porque su realización evita una consecuencia desagradable (el malestar gas-
trointestinal). Así, el reforzamiento negativo o evitación tiene lugar porque la emisión
de la respuesta impide la aparición de un reforzador que es un estímulo aversivo. Ob-
sérvese que en esta ocasión existe una contingencia negativa entre la respuesta instru-
mental y una consecuencia aversiva. En otras circunstancias la respuesta instrumental
nos permite escapar de una consecuencia desagradable que ya está presente. Imagina
que comienza a llover cuando vas caminando por un descampado y corres a refugiarte
bajo el alero de una casa cercana. Aquí el acercarte a la casa (respuesta instrumental) te
permite escapar de la consecuencia desagradable (la lluvia). En muchas situaciones la
conducta de evitación comienza siendo una conducta de escape, no obstante, ese tema
lo trataremos en el capítulo 7, cuando hablemos de las teorías del aprendizaje instru-
mental.
Figura 5.1. Procedimientos de condicionamiento instrumental organizados según el tipo de con-

secuencia utilizado y la contingencia que establecen entre la respuesta y la consecuencia.
Procedimientos que disminuyen la respuesta instrumental: el castigo. A diferencia

de los procedimientos que acabamos de describir, en otras ocasiones la respuesta de un
organismo puede tener consecuencias desagradables para él, bien porque recibe algo
que no quiere (castigo) o por que le priva de algo que de otro modo tendría (castigo
negativo u omisión). En estas ocasiones el procedimiento instrumental conlleva un
descenso en la respuesta instrumental del sujeto.
Castigo. Antes de cambiar el colchón, cada vez que nos acostábamos sentíamos un
dolor intenso en nuestra espalda. Este hecho nos llevó a dormir varios días en un sofá,
hasta que finalmente cambiamos el colchón de la cama. En este ejemplo, acostarnos en
ese colchón es nuestra respuesta instrumental y el dolor de espalda es la consecuencia
aversiva que produce nuestra conducta; como consecuencia de la relación entre uno y
otra la respuesta de acostarnos en la cama disminuyó, siendo sustituida por la respuesta
de dormir en el sofá. Así, el castigo se refiere a aquellas situaciones en las que existe
una contingencia positiva entre la respuesta instrumental y un estímulo aversivo. Ob-
serva que en los procedimientos de refuerzo positivo y castigo se establece una contin-
gencia positiva entre la respuesta instrumental y el reforzador. La diferencia se encuen-
tra en la naturaleza de la consecuencia, apetitiva en el primero y aversiva en el segun-
do, lo que va a dar lugar a consecuencias conductuales opuestas.
Entrenamiento de omisión o castigo negativo. Este procedimiento de condiciona-
miento instrumental se caracteriza porque la emisión de la respuesta va a impedir la
aparición de una consecuencia agradable. Volvamos a nuestro ejemplo. El dueño del
restaurante que frecuentábamos tenía una hija pequeña que adquirió el hábito de co-
merse las uñas mientras veía programas infantiles en la televisión. Para eliminar esta
conducta, decidió que cuando la viera morderse las uñas apagaría la televisión. En esta
ocasión, morderse las uñas es la respuesta instrumental y la interrupción del programa
la consecuencia desagradable. Observa que en esta ocasión, al igual que en el reforza-
miento negativo, existe una contingencia negativa entre la respuesta instrumental y un
estímulo reforzador. La diferencia se encuentra en que en el reforzamiento negativo la

consecuencia es aversiva, y en el entrenamiento de omisión la consecuencia es apetiti-
va con lo que los procedimientos tienen consecuencias opuestas.
5.3.- Condiciones para el aprendizaje instrumental.

En el capítulo 3 (epígrafe 3.2) se expusieron las condiciones del condicionamiento
clásico. Contigüidad, contingencia, competición entre claves y relevancia biológica
del EI, fueron algunas de las condiciones estudiadas en condicionamiento clásico que,
como veremos a continuación, tienen también una gran importancia en el aprendizaje
instrumental (véase Shanks, 1993).
Contigüidad. Tomemos como ejemplo el castigo. Durante la primera mitad del siglo
XX se cuestión la propiedad del castigo como método eficaz de cambio de cambio
conductual. Thorndike (1932) y más tarde Skinner (1953) sostuvieron que el castigo
era ineficaz y propusieron descartarlo de la educación. No vamos a entrar aquí a cues-
tionar si el uso del castigo en educación es éticamente correcto, dejaremos que sea el
propio lector quien lo evalúe. No obstante, sí podemos determinar su eficacia como
procedimiento de aprendizaje. Pensemos por ejemplo en dos situaciones de castigo
que se caracterizan por estar en los dos extremos de la eficacia. Si tocamos la base de
una plancha encendida (respuesta instrumental) nos quemamos los dedos (consecuen-
cia aversiva); de modo similar, si aparcamos en lugar prohibido (respuesta instrumen-
tal), conseguimos una multa (consecuencia aversiva). En ambos ejemplos estamos ha-
blando de castigo, sin embargo, nos cuidamos mucho de tocar una plancha encendida
mientras que basta pasear por cualquiera de nuestras ciudades para encontrar cientos
de coches mal aparcados. En el primer caso el procedimiento de castigo es muy eficaz,
basta una sola experiencia con la plancha para que no vuelvas a tocar su base; en el
segundo en cambio el castigo es ineficaz. Una de las condiciones que determinan la
eficacia del procedimiento instrumental es la contigüidad entre la respuesta y la conse-
cuencia. En el caso de la plancha la contigüidad es perfecta, si tocas la base de una
plancha encendida te quemas inmediatamente; en el caso del mal aparcamiento la con-
tigüidad es imperfecta, incluso si llegan a multarte, pasan varios días hasta que te recla-
man el pago y aún así tienes varios días más para pagarla. En general, el procedimiento
instrumental es más eficaz en la medida en que la consecuencia siga de forma inmedia-
ta a la respuesta. La contigüidad respuesta-consecuencia es un determinante funda-
mental de la eficacia de cualquiera de los procedimientos de reforzamiento instrumen-
tal (véase por ejemplo Shanks, 1986).
La explicación de la importancia del efecto disruptivo de la demora en el reforza-
miento sobre el condicionamiento instrumental la podemos ilustrar claramente con un
ejemplo. Muchos de los que tenemos perro nos hemos enfrentado a la situación en la
que el cachorro se va y no atiende a nuestra llamada. La reacción habitual cuando por
fin alcanzamos a nuestro perro o conseguimos que se acerque a nosotros es abroncarlo;
¿qué va a aprender el perro en esa situación? Probablemente lo contrario de lo que

deseamos, aunque lo más natural; relacionará la última respuesta emitida con la conse-
cuencia recibida y el resultado es que en vez de conseguir que no se escape, consegui-
remos que no vuelva. La mayoría de los que tenemos perro hemos pasado por esa
experiencia alguna vez. Los procedimientos de condicionamiento instrumental pueden
entenderse por tanto como procedimientos de selección de la respuesta objetivo de
entre todas las respuestas que estén en el repertorio del sujeto y esta selección se verá
facilitada por la inmediatez de la relación respuesta-consecuencia (Domjan, 2002).
Hemos señalado la importancia de la inmediatez del reforzamiento en una situación
de condicionamiento instrumental, pero esto nos ha generado un problema práctico sin
dotarnos de solución para él. Si la contigüidad respuesta-consecuencia es necesaria
para que se produzca un cambio en la respuesta, el margen de acción que nos queda
para el uso del condicionamiento instrumental es muy pequeño, limitándonos las situa-
ciones en las que podemos aplicarlo y las consecuencias que podemos utilizar. Por
ejemplo, un reforzador eficaz para un niño de primaria es la oportunidad de utilizar
juguetes variados. Atendiendo a los principios del condicionamiento instrumental que
estamos estableciendo, si quisiéramos utilizarlos para mejorar las habilidades escrito-
ras de uno de nuestros niños tendríamos que permitirle jugar cinco minutos por, por
ejemplo, cada frase que terminara en su cuaderno. Este procedimiento sería eficaz…
si pudiéramos aplicarlo. Este procedimiento es inviable en una clase en la que normal-
mente contamos con 25 niños, cada uno con su ritmo de trabajo y sus apetencias;
¿debemos descartar entonces el uso del condicionamiento instrumental en las situacio-
nes como la descrita?
La respuesta a esta pregunta es negativa. Cuando hablábamos del condicionamien-
to clásico decíamos que los estímulos condicionados terminaban convirtiéndose en
señales del EI y adquiriendo propiedades motivacionales condicionadas. Al comenzar
este capítulo señalábamos que el reforzador o la consecuencia era en esencia el mismo
estímulo que antes habíamos denominado EI en el procedimiento de condicionamiento
clásico. Fundiendo estas dos frases nos encontramos con que podemos conseguir estí-
mulos condicionados que puedan utilizarse como consecuencias instrumentales en la
medida que las señalan; estos estímulos se llaman reforzadores condicionados o se-
cundarios, debido a que adquieren sus propiedades reforzantes por su asociación pre-
via con un reforzador primario. Tomemos el ejemplo del mal aparcamiento, lo normal
es que si nos pillan con el coche mal aparcado nos encontremos con un papel indicán-
donos la cuantía de la multa. Ese papel nos resulta aversivo porque está relacionado
con el pago de un dinero cuya entrega supone perder el acceso a los bienes materiales
que podríamos haber obtenido con él. El guardia de tráfico no nos quita directamente
los bienes materiales, sin embargo sabemos que vamos a perderlos. El lector estará
pensando que los refuerzos condicionados sirven de poco, puesto que la gente sigue
aparcando incívicamente. Cierto, pero esto tiene que ver con otras características de
este procedimiento concreto de condicionamiento instrumental que destacaremos más
adelante. Pensemos en un ejemplo implícito en el anterior y que nos hará ver claramen-
te la eficacia de los reforzadores condicionados. El dinero no es en sí mismo más que
papel y metal, en muchos casos bastante deteriorado por el uso. Sin embargo, resulta
un reforzador muy eficaz por su asociación con los bienes y beneficios que nos propor-
ciona. El uso de reforzadores condicionados, como la retroalimentación verbal inme-
diata nos permiten evitar los efectos de la demora entre la respuesta instrumental y la
entrega del reforzador primario. En la literatura se han encontrado otras maneras de
aliviar el efecto negativo de la demora en la administración de la consecuencia, como
la utilización de estímulos-marca que permiten de algún modo al sujeto determinar
cual es la respuesta objetivo de entre todo su repertorio conductual (v.gr., Lieberman,
McIntosh y Thomas, 1979).
Contingencia. Al igual que ocurre en el condicionamiento clásico, la contigüidad no

constituye una condición suficiente para que se produzca el aprendizaje instrumental.
No basta con que la consecuencia aparezca inmediatamente después de la respuesta,
además se debe establecer una relación de contingencia adecuada para que el condi-
cionamiento instrumental se manifieste. Habíamos dejado nuestro ejemplo del apar-
camiento incívico señalando que aún en el caso de la administración inmediata del
reforzador condicionado este procedimiento resultaba poco eficaz para cambiar la con-
ducta incívica de muchos conductores. Tal y como expusimos en el capítulo 4, la con-
tingencia se determinaba a partir de la relación objetiva entre la clave y el resultado, en
este caso, entre la respuesta y la consecuencia. La contingencia respuesta-consecuen-
cia será alta cuando la respuesta sea una buena predictora de la consecuencia. Pense-
mos en la situación de aparcamiento incívico; en la mayoría de las ocasiones en las que
dejamos el coche mal aparcado, la consecuencia no aparece, el reforzamiento es inter-
mitente, la contingencia respuesta-reforzamiento bastante baja y los resultados obvios.
Sin volver al ejemplo de la plancha, que debiera de resultar manifiesto, pensemos aho-
ra en lugares en los que el aparcamiento incívico rara vez se da, como en los campus de
algunas universidades y hospitales. En muchos de estos lugares el mal aparcamiento se
castiga con la imposición de una pegatina en el cristal del vehículo de tamaño relativa-
mente amplio y que por sus características es de difícil eliminación sin un esfuerzo
considerable. La ventaja de estas pegatinas es que pueden ser impuestas por el perso-
nal del propio centro, sin necesidad de recurrir a la policía municipal, con lo que se
puede mantener una contingencia casi perfecta entre aparcamiento incívico y pegatina
en el cristal. El resultado de esta estrategia sobre la conducta de aparcamiento incívico
es espectacular y el procedimiento de castigo enormemente eficaz, como hemos tenido
ocasión de comprobar recientemente en nuestra propia universidad.
La indefensión aprendida. En el capítulo 3 señalábamos que cuando la contingen-
cia entre el EC y el EI era nula se producía un fenómeno que denominábamos irrele-
vancia aprendida y que se traducía en un retraso en el aprendizaje posterior acerca de
una relación entre ese EC y ese EI (v.gr., Baker y Mackintosh, 1977). En el caso del
condicionamiento instrumental se puede producir una situación equivalente estable-

ciendo una contingencia cero entre la respuesta y la consecuencia; en este caso se
produce el efecto conocido como indefensión aprendida, aunque al ser la respuesta
instrumental algo intrínseco al sujeto las consecuencias son mucho más amplias que en
el caso del condicionamiento clásico y merecen un tratamiento más detallado, puesto
que afecta a la sensación de control del ambiente por parte del sujeto.
En uno de los experimentos en los que se descubrió este fenómeno, Seligman y
Maier (1967; véase también Overmier y Seligman, 1967) entrenaron a tres grupos de
perros en una tarea de escape/evitación en la que los perros se situaban en una jaula
rectangular dividida en dos partes por una barrera que el perro podía saltar. Durante el
entrenamiento, una luz anunciaba que se iba a presentar una descarga eléctrica a me-
nos que el perro saltara la barrera, en ese caso la luz se apagaba y el perro evitaba la
descarga (o escapaba de ella si la descarga eléctrica ya se había presentado). Los gru-
pos se diferenciaban en su experiencia previa; el grupo ingenuo no tuvo experiencia
previa, el grupo escapable había recibido entrenamiento en el que podían escapar de
las descargas eléctricas pulsando un panel con el hocico y finalmente los perros del
grupo inescapable habían recibido exposición a las descargas en una situación en la
que no podían escapar de ellas, independientemente de lo que hicieran. Cuando des-
pués entrenaron a los animales en la situación de evitación descrita, la actuación de los
sujetos del grupo inescapable fue peor que la de los otros dos grupos. En el grupo
inescapable la contingencia entre la respuesta del sujeto y la descarga eléctrica fue
nula; la hipótesis de la indefensión aprendida considera que los animales podemos
percibir esta contingencia llevándonos a aprender que no podemos controlar la apari-
ción de las descargas y en consecuencia a una expectativa de falta de control que redu-
ce la motivación para responder y aumenta la dificultad para aprender que podemos
controlar las consecuencias del ambiente a través de nuestra respuesta (v.gr., Maier y
Seligman, 1976). Otros autores han cuestionado la hipótesis de la indefensión aprendi-
da sugiriendo que el efecto de indefensión se debe a que los animales aprendemos a
mantenernos inactivos durante la exposición a consecuencias incontrolables (v.gr.,
Anisman, de Cantazazo y Remington, 1978), o a que este entrenamiento produce un
déficit atencional, reduciendo la atención que prestamos a nuestra conducta (v.gr., Maier,
Jackson y Tomie, 1987).
La indefensión aprendida es un fenómeno de explicación compleja que probable-
mente implique una combinación de todos los déficits planteados. Las implicaciones
prácticas de este fenómeno se ilustran con un experimento realizador por Dweck y
Repucci (1973). Estos autores escogieron dos profesores que presentaban problemas a
distintos niños; uno de los profesores siempre les presentaba problemas solubles, el
otro presentaba primero una secuencia larga de problemas irresolubles y después pro-
blemas solubles. Aunque los alumnos habían sido capaces de resolver estos problemas
con el primer maestro, eran incapaces de resolverlos después de la secuencia de pro-
blemas irresolubles, incluso dejaban de intentarlo. No es éste el lugar para desarrollar
las implicaciones prácticas de la indefensión aprendida, pero el lector agudo encontra-

rá fácilmente la potencial relevancia que este fenómeno puede tener en aspectos tan
dispares como el fracaso escolar, o la depresión reactiva (para una exposición más
extensa de estos temas, véase Maldonado, 1998).
El fenómeno de indefensión aprendida demuestra que la contingencia no sólo es
fundamental para que se establezca el aprendizaje instrumental; la experiencia previa
de contingencia que tenga un sujeto puede facilitar o dificultar la detección de contin-
gencias futuras, modificando su capacidad para favorecerse del aprendizaje instru-
mental (obsérvese la relación de estas conclusiones con el concepto de aprender a
aprender que planteábamos en el punto 5.1).
Competición asociativa. Cuando estudiamos el condicionamiento clásico, hablamos

de algunos fenómenos que se caracterizaban por la competición entre claves para pre-
decir un mismo resultado (por ejemplo, el bloqueo o el ensombrecimiento). ¿Ocurre
también competición asociativa en el condicionamiento instrumental? Para responder
a esta pregunta de manera científica, se debe de establecer un procedimiento experi-
mental adecuado. Tomando como ejemplo la situación de ensombrecimiento, en el
condicionamiento clásico bastaba con presentar dos estímulos de manera simultánea e
inmediatamente antes de la aparición física del EI, y posteriormente registrar la RC
ante la presentación de sólo uno de esos estímulo. La RC en estos sujetos se contrasta-
ba con las de un grupo de control que hubiera recibido emparejamientos entre el EC y
el EI en ausencia de otro estímulo competidor. Si tenemos en cuenta este procedimien-
to, parece que la manera más adecuada de comprobar si ocurre competición asociativa
en condicionamiento instrumental es observar qué sucede cuando dos respuestas dis-
tintas predicen el mismo resultado. Sin embargo, dicho procedimiento se encuentra
con una serie de problemas de control que subyacen a la propia definición de respuesta
operante. La respuesta operante se define en términos del efecto que tiene sobre el
ambiente, más que por la acción concreta que emite un animal. De hecho, una respues-
ta simple como la presión de palanca por parte de una rata es en realidad una conducta
molar que implica un conjunto de respuestas moleculares complejo (acercarse a la
palanca, erguirse sobre las patas traseras y desplazar la palanca hacia abajo con las
patas traseras), por lo que cualquier situación de condicionamiento instrumental impli-
ca implícitamente competición entre respuestas moleculares. Además, al contrario de
lo que ocurría en el condicionamiento clásico, la característica definitoria del condi-
cionamiento instrumental es que el propio sujeto determina si emite o no la respuesta
en función de las consecuencias que le proporciona el ambiente, con lo que el control
de la respuesta que emite el sujeto por parte del experimentador es mucho menor.
Estas dificultades han motivado el desarrollo de procedimientos en los que se esta-
blece la competición entre una respuesta instrumental y un estímulo. Un ejemplo de
este procedimiento lo encontramos en Pearce y Hall (1979) quienes compararon la
frecuencia de la respuesta en dos grupos de animales. En uno de ellos (grupo correla-
cionado) se presentó un sonido inmediatamente después de cada respuesta que fuera

recompensada. En el otro grupo el sonido se presentó al azar (no correlacionado). La
frecuencia de respuesta fue mayor en el grupo no correlacionado, sugiriendo que la
correlación sonido-consecuencia ensombreció la relación entre la respuesta y la conse-
cuencia, indicando que la competición asociativa puede encontrarse también en el con-
dicionamiento instrumental. En un experimento de aprendizaje causal humano similar
a éste, Lambert, Fischer y Kates (1986) pidieron a sus sujetos que presionaran una
palanca en presencia de un sonido para ganar una recompensa económica. En la condi-
ción experimental el tono se presentaba también seguido de la recompensa en ausencia
de la respuesta instrumental, por tanto el tono se convirtió en un buen predictor de la
recompensa y como consecuencia empeoró la actuación instrumental de los sujetos
(para una revisión véase Shanks, 1993).
Naturaleza de la consecuencia. La distinción entre aprendizaje y conducta la hemos

hecho evidente desde la propia definición de aprendizaje que planteábamos en las pri-
meras páginas de este libro; ya en el condicionamiento clásico encontrábamos que
había muchos ejemplos que demostraban que el aprendizaje se producía en ausencia
de un EI de fuerza biológica alta; lo mismo ocurre en el caso del condicionamiento
instrumental, el trabajo clásico de Tolman y Honzik (1930) que describíamos breve-
mente al inicio del capítulo 1 mostraba que la respuesta instrumental que llevaba a la
salida del laberinto podía aprenderse en ausencia de una consecuencia biológicamente
relevante, la comida, aunque ésta sí era necesaria para que el resultado del aprendizaje
se manifestara.
Aunque dedicaremos el capítulo siguiente al estudio de las características de las
consecuencias y su papel en el condicionamiento instrumental, sí conviene hacer una
precisión con respecto a un asunto que no trataremos en ese capítulo y que implica la
interrelación entre los distintos tipos de aprendizaje que hemos estudiado hasta el mo-
mento. En la definición de la consecuencia señalábamos que ésta era el mismo estímu-
lo que antes habíamos denominado incondicionado e inicialmente nombramos como
elicitador; la definición de consecuencia es funcional, pero eso no implica que el sujeto
no pueda aprender acerca de ella utilizando mecanismos propios de la habituación o
del condicionamiento clásico. Ser conscientes de esto es fundamental para predecir y
controlar la eficacia del condicionamiento instrumental. De hecho, la eficacia del pro-
cedimiento de condicionamiento instrumental para modificar la conducta en cuestión
va a depender de los factores expuestos más arriba, pero también y particularmente de
la importancia de la consecuencia para el sujeto.
Uno de los factores que varían la importancia subjetiva de una determinada conse-
cuencia para un sujeto concreto se ilustra en los experimentos de contraste. En distin-
tos experimentos se ha encontrado que los efectos de la consecuencia dependen de la
cantidad y naturaleza de las consecuencias que el individuo hay experimentado previa-
mente (véase por ejemplo Flaherty, 1996). Así, cuando se comienza administrando a
los sujetos una consecuencia pobre (por ejemplo, una bolita de comida por recorrer un
corredor recto) el incremento posterior en la cantidad de la recompensa produce un
aumento en la respuesta que se mantiene a niveles más altos que los de un sujeto que
haya recibido siempre la recompensa grande (contraste positivo). Por el contrario, cuan-
do se comienza administrando al sujeto una cantidad de recompensa grande y después
se le disminuye su actuación es peor que la de un sujeto que haya recibido la recom-
pensa pequeña desde el inicio (contraste negativo).
Otro factor que determina la importancia subjetiva de la consecuencia y que puede
producir efectos similares al contraste en una situación de castigo son los fenómenos
de habituación y sensibilización. De hecho, lo que sabemos de los fenómenos de habi-
tuación y sensibilización pueden ayudarnos aún más a comprender la diferencia en la
eficacia del castigo en la situación de tocar la base de una plancha encendida y las
multas de tráfico. Una de las características de la situación de tocar la base de la plan-
cha es que la consecuencia (la quemadura) tiene siempre la misma intensidad y esta
intensidad es alta. En el capítulo 2 señalábamos que los estímulos intensos producían
sensibilización, de tal modo que aumentaba la respuesta refleja ante esos estímulos y
otros parecidos en presentaciones sucesivas. ¿Qué podemos esperar en la situación de
tocar la plancha? Que la quemadura mantenga su eficacia y de hecho, que por la sensi-
bilización se aumente la eficacia posterior de otras consecuencias más débiles. Pense-
mos ahora en la situación de las multas de tráfico, en este caso normalmente se co-
mienza con un aviso o una pequeña multa que va aumentando a medida que se reiteran
las infracciones. Cuando hablábamos de la habituación en el capítulo 2 mostrábamos
que el mejor modo de conseguirla era aumentando gradualmente la intensidad del estí-
mulo elicitador (véanse las figuras 2.2 y 2.3, Davis y Wagner, 1969). Teniendo en
cuenta que la eficacia del castigo está en relación inversa a la habituación del sujeto a
la consecuencia aversiva, ¿qué podemos esperar que ocurra con el incremento gradual
en la consecuencia que se observa habitualmente en el castigo social? Efectivamente,
que no funcione, como de hecho ocurre. En términos más generales, el castigo intenso
sensibiliza y aumenta la eficacia del castigo moderado que se administre posterior-
mente, mientras que un castigo moderado lleva a que el sujeto se habitúe a la conse-
cuencia aversiva y lo inmuniza contra un castigo intenso posterior (véase Church, 1969).
Aunque nuestros ejemplos se han circunscrito a unas pocas situaciones de condi-

cionamiento, estas condiciones para la adquisición de la relación respuesta consecuen-
cia pueden considerarse generales. En general podemos decir que si trabajamos con
una contigüidad y una contingencia alta entre la respuesta y una consecuencia que el
sujeto considere relevante tendremos garantizado el éxito de nuestro procedimiento de
condicionamiento instrumental. Sabiendo ya qué hay que hacer para que el sujeto apren-
da, en el siguiente apartado analizaremos qué es lo que es lo que el sujeto aprende en
estas circunstancias.
Figura 5.2. Estructuras asociativas en el condicionamiento instrumental.
5.4.- Contenidos del aprendizaje instrumental

Retomemos al niño en el que tratábamos de conseguir que jugara con sus compañe-
ros. Estamos en la parte final de nuestro procedimiento de moldeamiento y si estando
en la clase con otros niños (estímulo discriminativo) se acerca a otro niño (respuesta
instrumental) recibe nuestra atención (consecuencia). ¿Qué está aprendido el niño en
esta situación? La respuesta más intuitiva y la que probablemente daríamos muchos
sería decir que el niño ha aprendido a relacionar su conducta de acercamiento a otros
niños con la consecuencia deseada. Sin embargo, nuestra experiencia en el análisis de
los contenidos del condicionamiento clásico en el capítulo 3 debería prepararnos para
saber que las cosas no suelen ser tan sencillas.
De hecho, en una situación aparentemente simple como la propuesta, nuestro niño
puede aprender las cuatro cosas diferentes que se presentan en la figura 5.2. Por una
parte podría aprender a acercarse a otros niños cuando estuviera en clase (relación E-
R); podría aprender que en la clase recibe la atención del profesor (relación E-C);
podría aprender que si se acerca a otros niños recibe la atención del profesor (relación
R-C); podría aprender que en una clase donde hay niños, si se acerca a ellos recibe la
atención del profesor [relación E(R-C)]; o podría aprender cualquier combinación de
estas cuatro cosas, o las cuatro. De hecho, aunque no nos vamos a extender demasiado
en su justificación experimental, los estudios sobre los contenidos del aprendizaje han
demostrado que en una situación de condicionamiento instrumental pueden encontrar-

se pruebas de la existencia de estas cuatro asociaciones (para una revisión véase Co-
lwill, 1994).
Asociación E-R. Nuestro niño podría haber aprendido a acercarse a otros niños cuan-
do estuviera en clase; este tipo de asociación fue propuesto por Thorndike (1911) quien
atribuyó la disminución en la latencia de escape de los gatos en la caja problema a que
la conexión se fortalecía como resultado de la consecuencia que obtenía, llegar hasta la
comida. La comida sería una especie de catalizador que permitiría el fortalecimiento
de la asociación E-R, pero no formaría parte de lo que el sujeto aprende. La conceptua-
lización del aprendizaje en estos términos se refleja claramente en su conocida ley del
efecto, que presentamos aquí en su versión teórica, dejando la versión empírica para el
capítulo siguiente:
“De las varias respuestas realizadas en la misma situación, aquellas que van
acompañadas o inmediatamente seguidas por la satisfacción del animal se co-
nectarán más fácilmente con la situación, manteniendo lo demás constante”
(Thorndike, 1911).
Asociación E-C. Si obviamos el papel que la respuesta instrumental puede desempe-

ñar en los contenidos del aprendizaje instrumental y sólo nos quedamos con el estímu-
lo y la consecuencia, nos encontramos en una situación similar a las estudiadas en el
capítulo sobre condicionamiento clásico. Una formulación teórica que tiene en cuenta
el proceso básico de aprendizaje de señales (condicionamiento pavloviano) y desde la
que se intenta explicar los contenidos del aprendizaje instrumental, es la teoría de los
dos procesos que trataremos con más detalle en el capítulo 7 aplicada a la explicación
de la evitación (Rescorla y Solomon, 1967). Esta teoría propone la existencia de dos
procesos distintos de aprendizaje (condicionamiento clásico y condicionamiento ins-
trumental) que se encuentran relacionados de una forma especial; supone que se esta-
blece una asociación E-C (condicionamiento clásico) si ante ese estímulo la respuesta
instrumental es recompensada (condicionamiento instrumental), y es precisamente la
aparición de ese estímulo a través de la asociación E-C lo que lleva a un organismo al
estado motivacional necesario para que ejecute la respuesta instrumental.
El análisis de los contenidos de la extinción se vio favorecido por el desarrollo de la
técnica de transferencia (Colwill y Rescorla, 1988). En una aplicación de la técnica de
transferencia al estudio del aprendizaje asociativo humano, Paredes-Olay, Abad, Gá-
mez y Rosas (2002) diseñaron un videojuego en el que los participantes tenían que
defender Andalucía de ataques aéreos y marítimos. Se estableció primero una relación
entre dos respuesta instrumentales (dos teclas en un teclado de ordenador estándar) y
dos consecuencias diferentes (destrucción de los barcos y destrucción de los aviones).
Una vez aprendidas las relaciones R1-C1 y R2-C2, los participantes tuvieron que apren-
der a predecir cual de dos estímulos diferentes predecía cada una de las consecuencias
Figura 5.3. Respuestas por minuto en la tecla que coincide en el reforzador con el estímulo
presente (igual) y en la que fue seguida por un reforzador diferente, en ausencia del estímulo (pre-
estímulo) y en presencia del estímulo. La respuesta mayor en la alternativa que había sido reforza-
da con una consecuencia igual ejemplifica el efecto de transferencia entre la relación estímulo-
consecuencia y la respuesta instrumental. Basado en el experimento 4 de Paredes-Olay et al.
(2002).
(A-C1 y B-C2). En la prueba final se daba al participante la oportunidad de escoger

entre las dos respuestas instrumentales (R1 y R2) en presencia de cada uno de los
estímulos utilizados durante la fase de aprendizaje predictivo. Tal y como puede obser-
varse en la figura 5.3, la transferencia se manifestó como una mayor respuesta en la
tecla que coincidía con el reforzador en el estímulo presente (R1 en presencia de A y
R2 en presencia de B), que en la otra tecla. Este resultado sólo se explica si el sujeto ha
establecido una relación clave-consecuencia que favorece la respuesta asociada con la
misma consecuencia.
Asociación R-C. Las aproximaciones teóricas anteriores excluyen la asociación R-C,

cosa bastante difícil de entender desde el sentido común. Parece evidente que gran
parte de las respuestas que emitimos van encaminadas a la consecución de un resulta-
do agradable, o la desaparición de uno desagradable (la motivación principal de ir al
restaurante era encontrarnos con nuestros amigos, y bebemos tequila para evitar el
malestar). Estos y otros muchos ejemplos han hecho sospechar a muchos investigado-
res acerca de la necesidad de las asociaciones R-C. Además, como hemos visto en los
capítulos anteriores, la asociación E-C requiere que el estímulo esté relacionado con la
consecuencia y en el condicionamiento instrumental la consecuencia no se puede pre-
decir únicamente a partir de la presencia del estímulo.
Al igual que veíamos en el caso del condicionamiento clásico, las técnicas de deva-
luación e inflación del reforzador se han mostrado muy útiles para el análisis de los
contenidos del condicionamiento instrumental. Colwill y Rescorla (1985) entrenaron a

un grupo de ratas con dos respuestas instrumentales (presionar una palanca y tirar de
una cadena), cada una seguida por una consecuencia distinta (comida seca y una solu-
ción dulce). Posteriormente devaluaron el valor motivacional de una de las consecuen-
cias (por ejemplo, la comida) emparejándola con el malestar gastrointestinal produci-
do por el cloruro de litio; cuando después se les dio a los sujetos la oportunidad de dar
las dos respuestas entrenadas previamente, estos autores encontraron que las ratas res-
pondían menos en la respuesta que se había relacionado en el entrenamiento inicial
con la consecuencia que había sido devaluada que en la otra respuesta. Dicho en térmi-
nos coloquiales, la relación respuesta-consecuencia se demuestra porque las ratas de-
jaron de realizar la respuesta que les proporcionaba una comida que ahora les resultaba
desagradable, centrando su esfuerzo en la respuesta que todavía les proporcionaba una
consecuencia apetitosa. En un estudio reciente, Vega, Vila y Rosas (2004) encontraron
estos mismos resultados en un estudio de aprendizaje instrumental humano en el que
se manipuló el valor de la consecuencia tanto devaluándolo como aumentándolo.
Modelo de relación jerárquica E-(R-C). Imaginemos que nuestro niño, que ya mues-
tra la respuesta de acercamiento a otros niños en clase, pasa la tarde en un parque bajo
nuestra tutela y encontramos que en esa situación no se acerca a otros niños. Suponien-
do que hayamos demostrado que el niño aprendió todas las combinaciones binarias
que planteábamos en los párrafos previos, habremos de concluir que el niño ha apren-
dido algo más, de lo contrario esperaríamos que su respuesta apareciera en cualquier
situación en la que hubiera otros niños. Este tipo de comportamiento nos indica que el
niño establece una relación jerárquica en la que aprende que la clase es el estímulo
discriminativo que le indica que su respuesta de acercamiento va a ser reforzada por el
profesor. En muchas situaciones este tipo de aprendizaje discriminativo es consecuen-
cia de un entrenamiento directo del sujeto, bien por intención del experimentador, bien
por determinación del mismo ambiente. Por ejemplo, la respuesta de expresar tus opi-
niones en voz alta será recompensada cuando la emitas en un seminario, pero proba-
blemente no lo sea si la emites en medio de la misa dominical (para una demostración
experimental de la existencia de asociaciones jerárquicas en el condicionamiento ins-
trumental véase Colwill, 1994).
5.5.- Programas de reforzamiento

Imagina que tus padres te han encargado que supervises si tu hermano pequeño
realmente estudia cuando está en su habitación. Para ello decides que, de manera siste-
mática, cada treinta minutos iras a su cuarto para observar la actividad que está reali-
zando. Además, decides poner en práctica un procedimiento de reforzamiento positi-
vo, de forma que cada vez que lo visites y esté realizando tareas escolares lo premiaras
alabando su esfuerzo y sus ganas de superación. Los primeros días te encontrabas a tu
hermano realizando actividades no escolares en muchas ocasiones, sin embargo, des-
pués de estos primeros días siempre que visitabas a tu hermano lo encontrabas estu-
diando, con lo que esperabas con optimismo el resultado de sus exámenes. Y sin em-
bargo, cuando llegaron las notas resulta que no eran tan buenas como esperabas, ¿qué
ha pasado? ¿Acaso tienes un hermano tonto? Probablemente lo que tengas sea un herma-
no más listo que tú. Observa que en este ejemplo has actuado de manera sistemática,
visitando a tu hermano cada media hora. Este sistema permite a tu hermano controlar
tus visitas y anticiparlas poniéndose a estudiar justo unos minutos antes de que llegues;
el resultado es que tu hermano ha pasado estudiando aproximadamente 5 minutos de
cada hora de supuesto estudio, un tiempo que a la luz de los resultados académicos que
obtuvo fue claramente insuficiente. Seguramente elegiste el procedimiento (reforza-
miento positivo) más adecuado para aumentar la frecuencia de esta conducta (estudio),
pero a juzgar por los resultados no parece que el modo en el que lo administraste fuera
el mejor para conseguir lo que pretendías.
En muchas situaciones de reforzamiento instrumental la respuesta va seguida direc-
tamente por la consecuencia cada vez que se emite; cuando abrimos el grifo sale agua,
al pulsar el interruptor se enciende la luz y al descolgar el teléfono escuchamos el tono
de llamada. Sin embargo, muchas otras ocasiones, sólo algunas de las respuestas que
emitimos van seguidas de reforzamiento. En algunos casos, como el del ejemplo con el
que iniciábamos este epígrafe, sólo van a reforzarse las respuestas que realice el sujeto
después de que haya transcurrido un tiempo determinado desde que obtuvimos el últi-
mo reforzador; en otros casos vamos a necesitar emitir un número de respuestas deter-
minado para que el reforzador esté disponible. La regla de que determina cuándo una
respuesta va a ser reforzada es lo que denominamos programa de reforzamiento y va a
determinar en gran medida los resultados que obtengamos en nuestro procedimiento
de condicionamiento instrumental (v.gr., Ferster y Skinner, 1957).
A pesar de que los programas de reforzamiento pueden ser tan numerosos como las
situaciones de condicionamiento instrumental, podemos establecer una clasificación
sencilla en función del tipo de regla que contengan. Así, los programas de reforzamien-
to se clasifican habitualmente en dos tipos, programas en los que la obtención del
reforzador depende exclusivamente del número de respuestas que emita el sujeto (pro-
gramas de razón) y programas en los que la obtención del reforzador depende de que
el sujeto emita la respuesta una vez que ha transcurrido un tiempo determinado desde
la última vez que obtuvo el reforzador (programas de intervalo).
Programas de razón. Estos programas se caracterizan porque la aparición del refor-

zamiento depende exclusivamente del número de respuestas emitidas por un organis-
mo. Este número puede ser fijo o variable, por lo que dentro de los programas de razón
tendremos a su vez dos subtipos, los programas de razón fija y los programas de razón
variable.
Programas de razón fija. Un programa de razón fija se caracteriza porque la obten-
ción de la consecuencia depende de la emisión de un número fijo de respuestas; todos
los ejemplos de condicionamiento instrumental que hemos presentado a lo largo de

este capítulo son programas de razón fija, puesto que el número de respuestas necesa-
rias para obtener el reforzador siempre fue el mismo, una, dado que en todos los su-
puestos se asumía implícitamente un reforzamiento continuo. En otras ocasiones, el
número de respuestas necesario para la obtención del reforzador es mayor que uno,
aunque siempre es el mismo; imagina que decides premiar a tus alumnos de primaria
por cada hoja de problemas de matemáticas que resuelvan con diez minutos de acceso
a un determinado juguete de su elección durante el periodo de recreo; Imagina que
cada hoja de problemas contenga cuatro problemas. Para conseguir el reforzador el
niño tendrá que emitir las cuatro respuestas. Este tipo de programas se caracteriza por
una tasa de respuesta elevada, con pausas predecibles inmediatamente después de la
consecución del reforzador. Así, nuestros niños comenzarán la realización de los pro-
blemas y mantendrán su respuesta alta y constante hasta conseguir el reforzador; este
comportamiento se conoce como carrera de la razón. Una vez consigan el primer
reforzador, se tomarán un respiro que se conoce como pausa postrreforzamiento, cuya
duración tendrá una relación directa con el número de respuestas que requiera cada
reforzador. Una vez comiencen a responder, la respuesta volverá a ser alta y constante
pues cada respuesta que emite el sujeto le coloca más cerca del reforzador siguiente.
Los programas de reforzamiento de razón fija se representan con las letras RF se-
guidas por un número que indica la cantidad de respuestas necesarias para obtener el
reforzador. Así, en el caso del reforzamiento continuo hablaremos de un programa
RF1, mientras que en el ejemplo de los cuadernos de ejercicios estaremos hablando de
un programa RF4.
Programas de razón variable. En ocasiones, el número de respuestas que se necesi-
tan para obtener la consecuencia varía de forma impredecible entre distintos ensayos.
Pensemos en las máquinas tragaperras; en este ejemplo la respuesta instrumental sería
la introducción de la moneda en la máquina y la consecuencia la obtención del premio
en metálico. La situación real es algo más compleja de lo que planteamos aquí porque
el premio que se obtiene varía en cantidad, no obstante, a efectos ilustrativos, el ejem-
plo cumplirá su función. En las maquinas tragaperras, la obtención del premio depende
del número de monedas que metas; a más monedas, más posibilidad de que el premio
aparezca, luego éste es un programa de razón; sin embargo, el número de monedas que
necesitas meter en la máquina para conseguir el premio varía de ensayo a ensayo, unas
veces serán 5, otras 20 y quizá en alguna ocasión lo consigas a la primera. Al variar el
número de respuestas necesario para obtener la consecuencia estamos hablando de un
programa de razón variable. En los programas de razón variable la respuesta que va a
ir seguida del premio es impredecible, por lo que la tasa de respuesta que se observa es
alta y constante, sin pausas predecibles.
Los programas de razón variable se representan con las letras RV y un número que
representa la cantidad media de respuestas que son necesarias para conseguir la conse-
cuencia. Así, un programa RV5 indica que el número de respuestas que necesitaremos
para obtener la consecuencia variará en torno a 5, siendo algunas veces 1, otras 3, otras
7, otras 10 y así sucesivamente.
El tipo de programa de reforzamiento que se utiliza en el ambiente natural no siem-

pre es fácil de establecer. Pensemos por ejemplo en la recogida de la aceituna; aunque
en algunos casos se trabaja a jornal, aún hoy hay muchos recolectores que prefieren
trabajar a destajo, cobrando una determinada cantidad por cada kilo de aceituna que
recogen. Uno podría considerar que este tipo de programa de reforzamiento es de ra-
zón fija, puesto que el precio que se paga por kilo siempre es el mismo. Sin embargo, la
producción de los olivos depende del terreno donde se encuentren y de sus condicio-
nes de mantenimiento, con lo que va a variar incluso dentro de una misma finca; así,
algunos días va a costar menos conseguir recoger cada kilo de aceituna y otros días va
a costar más; dentro de cada tajo el programa de reforzamiento se aproxima bastante a
la razón fija, pero a lo largo de los días el programa de reforzamiento tenemos que
considerarlo de razón variable, incluso aunque esta variabilidad no sea muy alta.
Programas de intervalo. Estos se diferencian de los anteriores en que la aparición de

la consecuencia no se encuentra determinada por un número de respuestas instrumen-
tales (fijo o aleatorio), sino si éstas ocurren cuando ha transcurrido un cierto intervalo
de tiempo desde la última vez que se obtuvo el reforzador. Dentro de este tipo de
programas podemos distinguir entre programas de intervalo fijo y programas de inter-
valo variable, según sea fijo o variable el tiempo que ha de transcurrir desde la última
vez que se obtuvo el reforzador.
Programa de intervalo fijo. El ejemplo con el comenzamos el epígrafe constituye
un claro ejemplo del procedimiento empleado en un programa de este tipo, en el que el
reforzador se dispensa sólo después de que transcurra un periodo de tiempo fijo desde
la última vez que la respuesta que da el organismo le proporcionó la consecuencia. Al
igual que en los programas de razón fija, en los programas de intervalo fijo también se
observa una pausa postrrerforzamiento que va seguida por un incremento gradual en la
tasa de respuesta alcanzando su máximo en el momento en el que el reforzador debería
estar disponible de nuevo. En trabajos con seres humanos se ha encontrado que la
pausa postrreforzamiento es muy larga en bebés de entre 3 y 5 meses, terminándola
con una única respuesta que resulta reforzada al final del intervalo; los bebés mayores
(9-23 meses) o bien muestran el mismo patrón que los bebés más pequeños o bien un
patrón distinto caracterizado por pausas breves y raptos de respuesta alta y constante
(Darcheville, Riviere y Wearden, 1993).
Los programas de intervalo fijo se representan con las siglas IF y un número que
representa el tiempo fijo que tiene que transcurrir entre respuestas reforzadas. En el
ejemplo que presentábamos al principio el programa que utilizabas era un IF30’. Así,
debido a que tus visitas procedieron de manera regular cada 30 minutos tu hermano
aprendió este patrón y cesaba en sus actividades lúdicas y comenzaba a estudiar desde
un momento antes de tu llegada hasta el momento en que abandonabas su habitación.

Así, seguramente la capacidad intelectual de tu hermano no estaba relacionada con su
rendimiento académico, sino más bien con no haber empleado un programa de reforza-
miento eficaz que le llevara a estudiar de manera continuada.
Programa de intervalo variable. El procedimiento utilizado en este tipo de progra-
ma es idéntico al empleado en el anterior, con la salvedad de que en esta ocasión el
reforzador está disponible a intervalos de tiempo diferentes. Imagina que te carteas por
e-mail con un amigo íntimo con el que tienes la suficiente implicación emocional como
para que sus mensajes te resulten muy deseados. Este amigo te escribe varios mensajes
todos los días, pero no sabes en que momento la respuesta de abrir tu correo electróni-
co va a ir seguida por el deseado mensaje de tu amigo (la consecuencia). Este tipo de
programa de reforzamiento te lleva a consultar el e-mail regularmente a lo largo del
día, con la esperanza de que alguna de tus respuestas se vea seguida por el reforza-
miento.
Los programas de intervalo variable se representan con las siglas IV seguidas por
un número que representa el tiempo medio que ha de transcurrir entre reforzadores.
Así, un IV60” te indica que el tiempo medio necesario para que la próxima respuesta
sea reforzada va a estar en torno a 60 segundos; en algunos casos coincidirá con el
minuto, en otros el reforzador estará disponible 10 segundos después de la última res-
puesta reforzada, en otros 120 segundos después y así sucesivamente, variando el in-
tervalo de forma aleatoria, impredecible.
Programas de reforzamiento diferencial de tasa baja y de tasa alta. Estos progra-
mas son una variación de los programas de intervalo fijo en los que se refuerza el dar
las respuestas a una determinada velocidad. Imagina que utilizas un pozo para regar tu
sembrado; la respuesta de conectar el motor de riego sólo se verá reforzada por la
consecuencia (tener agua suficiente para completar el regado) si ha transcurrido un
tiempo suficientemente largo para que el pozo se recupere después de tu último riego;
si emites la respuesta antes de que transcurra ese tiempo te encontrarás con que no
consigues el reforzador, dejando tu sembrado a medio regar. Éste es un ejemplo de
programa de reforzamiento diferencial de tasa baja en el que si quieres tener éxito
tienes que emitir tus respuestas de poner en marcha el motor de riego dejando entre
ellas el tiempo suficiente como para que el pozo se recupere. Imagina ahora que en
lugar de un motor de riego utilizas una bomba manual para extraer el agua del pozo. En
esas bombas tienes que accionar una palanca arriba y abajo hasta conseguir que el agua
fluya por el caño. Si tu acción sobre la palanca no la haces con la velocidad suficiente,
nunca consigues que el agua llegue al caño. Éste es un ejemplo de programa de refor-
zamiento diferencial de tasa alta. Para conseguir el reforzador tienes que mantener un
tiempo entre respuestas bajo, de lo contrario ninguna respuesta se verá reforzada.
Programas de reforzamiento encadenados. Los programas de reforzamiento descri-

tos son programas de reforzamiento simple, donde el sujeto repite la misma respuesta
hasta conseguir el reforzador. Aunque muchos ejemplos de la vida real se describen

con estos programas de reforzamiento, hay muchas ocasiones en las que es necesario
dar una serie de respuestas distintas secuencialmente antes de conseguir el reforzador.
Pensemos por ejemplo en la respuesta de multiplicar por dos cifras. Circunscribiéndo-
nos sólo a las respuestas más evidentes, el sujeto tiene que ser capaz de multiplicar, de
sumar cada excedente a la multiplicación siguiente y después, de sumar el resultado
general de la multiplicación por cada cifra antes de conseguir el resultado de correcto,
el reforzador. Estos programas de reforzamiento encadenados se componen de progra-
mas de reforzamiento simples en los que cada una de las consecuencias intermedias
obtenidas se convierte en el estímulo discriminativo de la respuesta siguiente en la
cadena. Así, la multiplicación del primer número se convierte en el estímulo discrimi-
nativo que te lleva a multiplicar el segundo y así sucesivamente, hasta conseguir el
reforzador después de haber completado la cadena completa. El entrenamiento en los
programas de reforzamiento encadenados se puede realizar tanto hacia atrás (reforzan-
do el último componente del programa, en este caso la suma final de los resultados de
las dos multiplicaciones independientes y utilizando esto como reforzador condiciona-
do para cada una de las multiplicaciones) como hacia delante (reforzando primero la
multiplicación del primer número y exigiendo cada vez la compleción de un mayor
número de componentes del programa encadenado para obtener el resultado final).
En la mayoría de los programas de reforzamiento descritos, la primera respuesta

que emita el organismo una vez que el reforzador está disponible irá seguida de refor-
zador. Tomemos el ejemplo del pozo, una vez lleno de agua la respuesta irá seguida de
reforzamiento independientemente de que la des inmediatamente o esperes al día si-
guiente o a los dos días para emitirla. Sin embargo, en algunos casos el reforzador está
disponible sólo durante un tiempo limitado. Imagina que estás asando un pollo en el
horno; en esta situación el programa de reforzamiento es de intervalo fijo, si sacas el
pollo del horno antes de que transcurra el tiempo necesario te vas comerás el pollo
crudo y no conseguirás el reforzamiento deseado. Sin embargo, si no emites tu res-
puesta una vez que haya transcurrido el tiempo necesario para que el pollo esté a tu
gusto, el pollo se quemará y perderás la oportunidad de reforzamiento. Los programas
que tienen esta característica se conocen como programas de reforzamiento de dura-
ción limitada.
La tasa de respuesta en los programas de reforzamiento. De la descripción realiza-

da hasta el momento uno podría concluir que la característica definitoria del patrón de
respuesta que producen los programas de reforzamiento en los organismos es si éstos
son fijos o variables, independientemente de si son de razón o de intervalo. Esta con-
clusión está garantizada en cuanto al patrón o distribución de las respuestas a lo largo
del tiempo. Sin embargo, esto nos da sólo una visión parcial de lo que determina la
conducta bajo un programa de reforzamiento.
Así como el patrón de respuesta está determinado por la variabilidad del programa,
la tasa de respuesta parece estar determinada por el tipo de programa utilizado. En
general, los programas de razón producen tasas de respuesta más altas que los progra-
mas de intervalo. La razón de esta diferencia proviene de las funciones de retroalimen-
tación de unos programas y otros. Pensemos primero en los programas de razón, si
establecemos una función que ponga en relación la tasa de respuesta y la tasa de refor-
zamiento (el número de reforzadores obtenidos) nos encontramos con que en todos los
programas de razón existe una relación directa entre el número de respuestas que emite
el organismo y el número de reforzadores que consigue. Imaginemos que tenemos un
programa RV60; si el sujeto responde a una tasa de 60 respuestas por minuto, conse-
guirá un reforzador cada minuto; si la tasa es 120 conseguirá dos y así sucesivamente,
cualquier incremento en la tasa se ve reflejado en un incremento en las consecuencias
obtenidas.
En cambio, en los programas de intervalo, el número de reforzadores que puede
conseguir el sujeto estará limitado en función del tiempo establecido, con lo que un
aumento en el número de respuestas más allá del mínimo requerido no va a ir seguido
por un aumento en el número de reforzadores obtenidos. Imagina que trabajamos con
un programa IV60”; como el programa es de intervalo variable, es probable que re-
quiera que el sujeto responda a una tasa de unas 60 respuestas por minuto para conse-
guir todos los reforzadores disponibles de manera inmediata; sin embargo, una vez que
responda a la tasa suficiente para conseguir todos los reforzadores disponibles, aumen-
tar la tasa de respuesta no le va a proporcionar ningún beneficio. Probablemente ésta
sea la razón de que la tasa de respuesta en los programas de intervalo sea menor que en
los programas de razón.
5.6.- Conducta de elección y ley de la igualación

Hasta el momento hemos hablado de programas de reforzamiento independientes,
asumiendo que el sujeto se enfrenta a estas situaciones de reforzamiento de una en una.
Lo cierto es que en la vida real las cosas no son así prácticamente nunca. Nuestra vida
diaria es un cúmulo de elecciones secuenciales entre distintas alternativas de reforza-
miento. Por ejemplo, esta mañana podía escoger prepararme el desayuno o desayunar
fuera. Ambas situaciones tienen ventajas y desventajas, en el primer caso la obtención
del reforzador, el desayuno apetecido, me hubiera requerido un trabajo de preparación
primero y fregar y recoger los utensilios después. En el caso de desayunar fuera hubie-
ra tenido que salir de casa sin desayunar y pagar por el desayuno. ¿Qué determina mi
elección entre estas dos alternativas? La elección va a depender de muchos factores;
por ejemplo, del coste de respuesta, si el preparar el desayuno con todo lo que implica
me cuesta menos que el esfuerzo de salir de casa sin desayunar y pagar el desayuno
fuera, es probable que desayune en casa; también dependerá de la calidad del reforza-
dor, si el desayuno fuera es más completo y apetitoso que el que me preparo en casa, es
probable que desayune fuera. Continuamente nos estamos enfrentando a situaciones
de elección, tenemos que decidir si nos ponemos a estudiar o a ver la tele, si salimos
con Rosa o con Ana, si comemos carne o pescado, etc. La conducta de elección es tan
continua que los estudiosos del aprendizaje instrumental no podían sino dedicar parte
de su esfuerzo a determinar por qué realizamos los organismos las elecciones que ha-
cemos.
El estudio de la conducta de elección se ha realizado utilizando varios programas de
reforzamiento en distintas alternativas de respuesta a las que el sujeto tiene acceso al
mismo tiempo (programas de reforzamiento concurrentes). Herrnstein (1970) encon-
tró que en estas circunstancias la tasa relativa de respuesta en una alternativa es igual a
la tasa relativa de reforzamiento obtenida con dicha alternativa de respuesta. Esto se
conoce como ley de igualación.
La tasa relativa de respuesta nos aporta información acerca de la distribución de las
respuestas del organismo. Para calcularla basta con dividir la tasa de respuesta en cada
una de las alternativas por la suma total de las tasas de respuesta en todas las alternati-
vas. Imaginemos que tenemos dos alternativas de respuesta, la respuesta A reforzada
con un programa RF20 y en la que el sujeto mantiene una tasa de 50 respuestas por
minuto y la respuesta B reforzada con un programa RF10 y en la que el sujeto mantiene
una de 100 respuestas por minuto. La tasa relativa para la respuesta A será de 0’33, con
lo que consecuentemente la tasa relativa para la respuesta B será de 0’66.
La tasa relativa de reforzamiento se calcula dividiendo el número de reforzadores ob-
tenidos por respuesta en una alternativa, por la suma de los reforzadores obtenidos por
respuesta en ambas alternativas. Imaginemos que la respuesta A está siendo reforzada
con un programa RF20 (el sujeto obtiene un reforzador cada 20 respuestas) y la res-
puesta B está siendo reforzada con un programa RF10 (el sujeto obtiene 2 reforzadores
cada 20 respuestas). La tasa relativa de reforzamiento en la alternativa A será 1/3, es
decir, 0’33, mientras que la tasa relativa de reforzamiento en la alternativa B será de
0’66. De acuerdo con la ley de igualación, el sujeto que tenga posibilidad de elegir
entre estas dos alternativas de respuesta emitirá un tercio de sus respuestas en la alter-
nativa A y dos tercios en la alternativa B, justo la distribución que se refleja en el
ejemplo propuesto.
Así, la ley de igualación establece que la distribución de la respuesta de un organis-
mo no obedece a criterios arbitrarios, o a idiosincrasias personales, sino que más bien
es una función ordenada de las tasas de reforzamiento. No obstante, existen una serie
de criterios que ha de cumplir necesariamente la situación para que la ley de igualación
se cumpla. La primera de estas condiciones es la independencia de las dos alternativas
de respuesta; cuando los sujetos son reforzados por realizar una secuencia concreta de
alternancia entre las dos respuestas desaparece la independencia entre las respuestas y
en consecuencia no se cumple la ley de igualación. Una segunda condición se refiere al
tiempo o la dificultad que supone el cambio en la respuesta; cuando el cambio de una
respuesta a otra es complejo o conlleva un coste de tiempo importante, se suele obser-
var una tasa de respuesta mayor en la alternativa de respuesta preferida. La tercera
condición hace referencia a la topografía de respuesta; cuando una respuesta es más

fácil de realizar que otra el sujeto realiza más respuestas en la alternativa más fácil de
las que le correspondería realizar por la proporción de reforzamiento que recibe en
ella. Finalmente, la ley de igualación depende de que los reforzadores utilizados ten-
gan un valor equivalente para el sujeto.
Así, la ley de igualación debe reformularse del siguiente modo: cuando los reforza-
dores son idénticos, las respuestas tienen dificultad equivalente, el cambio de una
respuesta a otra es rápido y fácil y las dos alternativas de respuesta son independien-
tes, la tasa relativa de respuesta en cada alternativa iguala a la tasa relativa de refor-
zamiento en la misma.
5.7. Resumen
A diferencia de otras formas de aprendizaje, el condicionamiento instrumental se
refiere a situaciones en las que los estímulos a los que se expone un organismo son el
resultado directo de su conducta; en otras palabras, la aparición de una determinada
consecuencia en el ambiente estará bajo el control de la respuesta del sujeto. Para el
estudio del aprendizaje instrumental se han empleado dos métodos distintos, el método
de ensayos discretos y el método de operante libre. En el primero, la respuesta instru-
mental con éxito puede ocurrir sólo una vez en cada ensayo, requiriendo que el experi-
mentador manipule al sujeto para colocarlo en situación de poder emitir de nuevo la
respuesta instrumental; en el segundo la conducta de un organismo puede ocurrir du-
rante periodos de tiempo prolongados, lo que permite su observación continuada así
como el registro de los cambios que ocurren en dicha conducta. La conducta operante
se define por el efecto que tiene sobre el ambiente y no por la acción mecánica concreta
que realiza un organismo. Los principales procedimientos de condicionamiento instru-
mental son: el refuerzo positivo, el refuerzo negativo o evitación, el castigo y la omi-
sión. Los procedimientos de refuerzo se caracterizan por producir un aumento en la
aparición o frecuencia de la conducta instrumental, bien porque la respuesta propor-
ciona una consecuencia apetitiva (refuerzo positivo) o porque evita la aparición de una
consecuencia aversiva (refuerzo negativo). Los procedimientos de castigo se caracteri-
zan por producir un descenso en la aparición o frecuencia de la conducta instrumental,
bien porque la respuesta garantiza una consecuencia aversiva (castigo), o bien porque
priva de una consecuencia apetitiva (omisión o reforzamiento negativo).
Uno de los factores que determinan la adquisición del aprendizaje instrumental es
la contigüidad entre la respuesta y la consecuencia; el requisito de contigüidad pode-
mos obviarlo mediante la utilización de reforzadores condicionados o de estímulos
marca que nos permiten aumentar la demora entre la emisión de la respuesta instru-
mental y la aparición de la consecuencia. Otro factor fundamental que determina el
desarrollo del aprendizaje instrumental es la contingencia respuesta-consecuencia; la
importancia de la contingencia en el aprendizaje instrumental va más allá de sus efec-
tos directos sobre la asociación respuesta-consecuencia. Cuando un sujeto se entrena
en una situación de contingencia cero se produce la indefensión aprendida, que se

manifiesta como la incapacidad para el aprendizaje posterior de contingencias res-
puesta-reforzador. El aprendizaje instrumental depende también de la validez predicti-
va relativa de la respuesta con respecto a otras causas potenciales del ambiente, obser-
vándose fenómenos de competición similares a los que se observaban en el condicio-
namiento clásico, como el ensombrecimiento. Por último, la eficacia del condiciona-
miento instrumental depende del valor subjetivo que la consecuencia tenga para el
sujeto. Este valor depende de la experiencia previa, siendo mayor cuando el sujeto ha
tenido experiencia previa con consecuencias de menor valor (contraste positivo) y menor
cuando la experiencia previa ha sido con consecuencias de valor mayor (contraste
negativo). El valor de la consecuencia también puede modificarse a través de la habi-
tuación y la sensibilización. Cuando la consecuencia utilizada es de intensidad alta se
produce sensibilización y se facilitan los efectos posteriores de consecuencias de in-
tensidad moderada. Y viceversa, cuando la consecuencia utilizada es de intensidad
moderada o se administra incrementando progresivamente su intensidad, se produce
habituación y se atenúan los efectos posteriores de consecuencias de intensidad más
alta.
En el condicionamiento instrumental se pueden establecer tres asociaciones bina-
rias (E-C, R-C y E-R) y una asociación jerárquica [E(R-C)]. La investigación en este
asunto ha encontrado pruebas de la existencia de todas estas asociaciones dentro del
condicionamiento instrumental, indicando que el condicionamiento instrumental es
una forma de aprendizaje más compleja que el condicionamiento clásico.
La regla que determina el momento en el que una respuesta va a ir seguida de la
consecuencia se denomina programa de reforzamiento. Cuando la regla se establece en
función del número de respuestas que necesita emitir un sujeto para conseguir la con-
secuencia se habla de programas de razón, mientras que se habla de programas de
intervalo cuando la regla se establece en función del tiempo transcurrido desde la últi-
ma vez que el sujeto obtuvo la consecuencia. Si el número de respuestas o el intervalo
requerido es fijo los programas se denominan de razón fija y de intervalo fijo, respec-
tivamente. Si el número de respuestas o el tiempo necesario para que la próxima res-
puesta vaya seguida de consecuencia varía entre reforzadores hablamos de programas
de razón variable y de intervalo variable, respectivamente. Los programas de reforza-
miento simples pueden combinarse en programas de reforzamiento complejo denomi-
nados programas de reforzamiento encadenados. En estos programas la consecuencia
sólo aparece cuando el sujeto ha emitido su respuesta o respuestas de tal modo que
cumple secuencialmente cada uno de los requerimientos de los programas de reforza-
miento simple que los componen.
La conducta de elección se estudia mediante el uso de programas de reforzamiento
concurrentes. En estos programas se presenta al sujeto la posibilidad de responder en
varias alternativas de respuesta que tiene disponibles al mismo tiempo y que están
reforzadas bajo programas de reforzamiento independientes. Los estudios realizados
sobre la conducta de elección han mostrado que, manteniendo todo lo demás constan-
te, la tasa relativa de respuesta en cada alternativa es idéntica a la tasa relativa de
reforzamiento en dicha alternativa, lo que se conoce como ley de igualación y determi-
na que uno de los factores fundamentales que determinan nuestra elección es la canti-
dad de reforzamiento que nos proporciona cada posibilidad de respuesta.
Capítulo 6
Teorías de la actuación y el aprendizaje instrumental
Cuando describíamos los fenómenos de aprendizaje instrumental los defíniamos en

función del tipo de contingencia establecida entre la respuesta y la consecuencia, y el
tipo de consecuencia utilizada. Esto nos permitía establecer una diferenciación descrip-
tivamente muy útil entre los cuatro procedimientos simples de condicionamento instru-
mental, el reforzamiento positivo, el castigo, la omisión y la evitación. Desde el punto
de vista conductual las situaciones de aprendizaje instrumental pueden reducirse a dos
clases, el reforzamiento, en el que la respuesta instrumental aumenta como consecuen-
cia de la contingencia instrumental con la consecuencia (reforzamiento positivo y evi-
tación) y el castigo, en el que la contingencia respuesta-consecuencia lleva a una dis-
minución en la respuesta instrumental (castigo y omisión).
En este capítulo vamos a realizar una aproximación a las explicaciones teóricas del
condicionamiento instrumental, centrándonos tanto en las teorías que tratan de explicar
la actuación instrumental como aquéllas que intentan dar cuenta del tipo de aprendizaje
que se produce en el condicionamiento instrumental.
El recorrido por las teorías de la actuación instrumental va a comenzar tratando de
dar cuenta del reforzamiento positivo, situación en la que se produce un aumento en la
respuesta como consecuencia del establecimiento de una contingencia positiva entre la
respuesta y una consecuencia apetitiva. Así, durante la primera parte del capítulo va a
dar la sensación de que dejamos fuera el castigo de nuestro ámbito explicativo. Al final
descubriremos que la distinción entre castigo y reforzamiento, muy útil desde el punto
de vista descriptivo, castra la realidad pues comprobaremos que cualquier situación de
condicionamiento instrumental eficaz que produzca el aumento en una respuesta por
encima de lo que el sujeto la emite habitualmente (reforzamiento), conlleva el descenso
en la emisión de otra respuesta por debajo de lo que al sujeto le gustaría emitirla (casti-
go).
6.1.- Cuestiones teóricas básicas en el condicionamiento instrumental

El reforzamiento es un término de uso ampliamente extendido en los trabajos de
psicología del aprendizaje, aunque su significado puede variar bastante dependiendo
del contexto en el que se utilice. Por ejemplo, el término reforzamiento se utiliza para
describir un procedimiento de condicionamiento instrumental en el que se programa
una consecuencia apetitiva tras la realización de una respuesta determinada.
109
Desde otra perspectiva, el término reforzamiento se utiliza para especificar un efec-

to manifiesto sobre la respuesta instrumental causado por la aplicación de un procedi-
miento de reforzamiento. Así, el efecto conductual manifiesto se traduce en un aumen-
to en la tasa de respuesta en relación con una línea base de respuesta instrumental.
Desde una tercera perspectiva, el uso del término es deliberadamente teórico, asu-
miendo que el reforzamiento lleva, tal y como sugiere Skinner (1938), a un fortaleci-
miento de la respuesta instrumental o, tal y como sugiere Thorndike (1911) al fortaleci-
miento de la conexión entre la respuesta instrumental y la situación en la que se realiza.
En la aproximación que tomaremos aquí utilizaremos el término reforzamiento en-
tendiéndolo como el efecto manifiesto de incremento en la respuesta instrumental como
consecuencia de los emparejamientos entre la respuesta instrumental y alguna determi-
nada consecuencia. Dado que el emparejamiento entre la respuesta y la consecuencia
da como resultado un claro aumento en la respuesta instrumental, el objetivo de nuestro
análisis va a ser determinar qué características específicas tiene esa consecuencia, y
cuál es el mecanismo que lleva a que esa consecuencia produzca el aumento en la
respuesta. En otras palabras, en este tema comenzaremos analizando las teorías del
reforzamiento clasificándolas en función de cómo responden a las dos cuestiones plan-
teadas, qué se entiende por reforzador y cómo produce éste sus efectos. Este tipo de
análisis nos llevará a eliminar la distinción entre reforzamiento y castigo al descubrir
que ambos son el haz y el envés conductual de la misma moneda.
6.2.- La ley del efecto

La respuesta intuitiva más común a la pregunta de qué es un reforzador probable-
mente sea considerar que éste es un estímulo especial con unas características particu-
lares. De acuerdo con esto, una primera definición del reforzador sería considerar que
es un estímulo que aumenta la probabilidad futura de la respuesta a la que sigue.
Esta respuesta fue precisamente la que dió Thorndike (1911) en la ley empírica del
efecto. Esta ley, expresada por Spence (1956) sostiene que las respuestas a las que
acompañan o siguen ciertos eventos (llamados reforzadores) tienden a ocurrir más
veces en el futuro, mientras que las que se siguen por otros eventos (llamados no-
refuerzos) no muestran una ocurrencia mayor.
En esta ley, la cualidad de un evento como reforzador se infiere a partir del aumento
que produce en la respuesta del sujeto, lo que lleva a que la definición del reforzador
sea simplemente una redescripción de la situación instrumental.
Si tomamos un niño y hacemos contingente la posibilidad de ver la televisión a la
respuesta de estudiar y encontramos que la respuesta de estudiar aumenta, de acuerdo
con lo señalado en la ley empírica del efecto podemos concluir que la televisión es un
reforzador para el niño y que el niño aumenta su tasa de respuesta de estudiar porque
ésta va seguida por un reforzador. Así, la definición de reforzador se convierte en circu-
lar, tal y como señala Postman (1947); el estímulo se denomina reforzador porque au-
menta la conducta, y aumenta la conducta porque es un reforzador. De este modo, esta
TEORÍAS DEL CONDICIONAMIENTO INSTRUMENTAL 111
definición de reforzador no puede realizar ninguna predicción a priori acerca de qué

estímulo va a funcionar tal. La teoría sólo nos indica que el estímulo es un reforzador
una vez que hemos comprobado que lo es, pero no nos da ninguna guía para predecir a
priori qué estímulos van a funcionar como reforzadores. A efectos prácticos, la ley
empírica del efecto nos condena a que cada vez que nos enfrentemos a una situación
nueva, tengamos que probar distintos estímulos hasta dar con el reforzador adecuado,
lo que cuestiona seriamente la utilidad de la ley.
En una defensa clásica de la ley empírica del efecto, Meehl (1950) sugirió que ésta
escapaba al problema de la circularidad si los refuerzos mostraban su efecto en distin-
tas situaciones. Esto se conoce como principio de transituacionalidad, e implica que
una vez identificado un estímulo como reforzador en una situación podemos predecir
que aumentará la respuesta instrumental en otras situaciones.
A la cuestión de cómo produce sus efectos el reforzador, Thorndike (1911) responde
con la ley teórica del efecto. De acuerdo con ésta, el reforzador produce una asociación
entre el estímulo discriminativo en presencia del cual se realiza la respuesta instrumen-
tal y dicha respuesta. Así, el reforzamiento aumenta la probabilidad futura de la res-
puesta instrumental porque la asociación entre el estímulo y la respuesta termina ha-
ciendo que el estímulo provoque la respuesta instrumental de modo similar a como se
consideraba en la época que el estímulo condicionado clásicamente elicitaba la res-
puesta condicionada.
El problema fundamental de esta teoría es que no especifica el mecanismo por el
que el reforzamiento llega a tener tales efectos. Es necesario que el reforzador actúe
retroactivamente para de algún modo estampar la asociación entre el estímulo discrimi-
nativo y la respuesta, y la ley no especifica cómo se produce ese efecto catalizador del
reforzador.
6.3.- La teoría de la reducción del impulso

Uno de los problemas que presentaba la aplicación del principio de transituacionali-
dad como solución a la circularidad de la ley empírica del efecto es que existen excep-
ciones bien conocidas a la propiedad transituacional. Por ejemplo, la comida no au-
menta necesariamente la respuesta instrumental en una rata saciada.
Este problema, al igual que el que supone no poder establecer a priori qué estímulos
actuarán como reforzadores, se solventa en la teoría de la reducción de la necesidad
propuesta por Hull (1943). De acuerdo con este autor, los reforzadores son estímulos
que reducen alguna necesidad biológica del sujeto, de lo que se concluye que todos los
estímulos que reduzcan necesidades biológicas actuarán como reforzadores. Para de-
terminar si un estímulo va a ser o no un reforzador basta evaluar si éste puede reducir
alguna necesidad biológicamente importante. Si puede hacerlo, bastará inducir en el
sujeto esta necesidad para que el estímulo termine actuando como reforzador.
Así, Hull (1943) propone la existencia de una serie de reforzadores primarios como
la comida, el agua o la evitación del dolor, todos ellos fácilmente reconocibles por
servir a funciones biológicas importantes. Sin embargo, resulta fácil encontrar excep-
ciones a la teoría de la reducción de la necesidad. Por ejemplo, la estimulación sexual
no satisface una necesidad biológica fundamental del individuo, en el sentido de que no
es necesaria para su supervivencia (aunque lo sea para la de la especie). En otras pala-
bras, nadie se muere por practicar la abstinencia sexual indefinidamente y sin embargo
la estimulación sexual resulta un reforzador poderoso.
Así, la teoría de la reducción de la necesidad se fue refinando hasta sustituirse en
escritos posteriores por la teoría de la reducción del impulso (v.gr., Miller, 1948, 1951).
Esta teoría asume que una estimulación intensa de cualquier tipo es aversiva para el
organismo y que cualquier reducción en esta estimulación actuará como reforzador de
la conducta precedente. En realidad, en esta teoría se toma el concepto de homeostasis
que ya presentábamos al hablar de habituación y que retomaremos más adelante cuan-
do tratemos las teorías de la regulación conductual, si bien desde una perspectiva radi-
calmente diferente. Así, Hull está asumiendo que el organismo tiende a mantener un
nivel de equilibrio. Este nivel de equilibrio va a verse desestabilizado por agresiones
externas e internas al sistema, lo que genera un estado de impulso en el individuo. Por
ejemplo, el consumo de nutrientes por el organismo lleva a la activación del impulso de
hambre; este impulso se mantendrá hasta que el organismo consiga los nutrientes nece-
sarios, se reduzca el impulso y regrese a la normalidad. El reforzador será aquel estímu-
lo que reduzca el estado de impulso y devuelva al organismo a la homeostasis.
Impulsos básicos, impulsos adquiridos y reforzadores condicionados. Hull consi-

deraba que existían cuatro impulsos básicos cuya reducción resultaba reforzante para el
organismo: el hambre, la sed, el alejamiento del dolor y el sexo. Una vez establecidos
los impulsos básicos, la cuestión radica en determinar si se pueden explicar todas las
situaciones de reforzamiento recurriendo a ellos. De hecho, existen muchas situaciones
en las que un estímulo parece actuar como reforzador sin ser un reductor de esos impul-
sos básicos. Por ejemplo, en el caso humano, el dinero sirve como un refozador muy
eficaz de la conducta instrumental y sin embargo no permite en sí mismo una reducción
de los impulsos básicos propuestos por Hull. Este problema se solventaba acudiendo al
condicionamiento clásico. De acuerdo con Hull, los estímulos que acompañen a otros
estímulos que satisfagan los impulsos primarios terminan por asociarse con esa satis-
facción del impulso convirtiéndose en reforzadores secundarios. Igualmente, los estí-
mulos que se presenten conjuntamente con los impulsos primarios pueden terminar
generando impulsos adquiridos. La inclusión de impulsos y reforzadores aprendidos
permitía a la teoría de la reducción del impulso extenderse a multitud de situaciones
que le hubieran sido difícilmente explicables de otra manera, como el que trabajemos
por dinero, el fetichismo, o el que sintamos hambre las 2 de la tarde aunque nuestro
desayuno haya sido lo suficientemente copioso como para que objetivamente no nece-
sitemos comer en un par de días.
Reforzamiento sin reducción del impulso. Si la teoría de la reducción del impulso

fuera correcta, no debería poder encontrarse efecto de reforzamiento en ausencia de
reducción del impulso. Esta aproximación fue la que tomaron algunos investigadores,
incluso dentro de su propia universidad para intentar falsar la teoría hulliana. Así, dedi-
caron sus esfuerzos a buscar una situación donde se produjera reforzamiento en ausen-
cia de la reducción del impulso. Sheffield y Roby (1950) utilizaron la sacarina como
reforzador en un laberinto en T. La sacarina no tiene valor nutritivo, su ingesta no
reduce la toma posterior de comida en un animal hambriento y por lo tanto no puede
considerarse un reductor del impulso. Así, de acuerdo con la teoría de la reducción del
impulso la sacarina no sería un reforzador y no podría dar lugar a una mejora en la
elección correcta en la tarea instrumental de Sheffield y Roby. Sin embargo, las ratas
aprendieron a dirigirse al brazo que contenía la sacarina poniendo en cuestión la teoría
de la reducción del impulso. La respuesta de Hull a este problema para su teoría fue
recurrir al reforzamiento condicionado. Aunque la sacarina no reduce directamente el
impulso sí lo hace indirectamente; es un sabor dulce y como tal ha acompañado a la
comida que sí es un reductor del impulso de hambre. Así, los emparejamientos inevita-
bles entre el sabor dulce y la reducción del impulso podían haber convertido a cual-
quier sabor dulce, incluida la sacarina, en un reforzador condicionado.
Como respuesta a la idea de Hull, Sheffield se preguntó entonces por qué la asocia-
ción dulce-reducción del impulso no se extingue cuando la sacarina se presenta por si
solo repetidas veces a lo largo del entrenamiento. Hull también tenía respuesta para
esta objeción. Durante el experimento, los animales reciben comida suplementaria en
la jaula hogar que tiene componentes dulces y que protege la asociación dulce-reduc-
ción del impulso de la extinción llevando a que la sacarina continúe siendo reforzante.
La respuesta de Hull, aunque razonable, presentaba el problema de tener que expli-
car por qué no se producía un aprendizaje discriminativo que sí se produce relativa-
mente rápido en otras situaciones. El razonamiento de Hull llevaba a preguntarse por
qué las ratas no habían aprendido que el sabor dulce sólo reducía el impulso cuando se
tomaba en “casa” y no lo hacía cuando se tomaba en el laberinto. Este aprendizaje
discriminativo hubiera llevado a la sacarina a perder su capacidad como reforzador
condicionado y por tanto a no ser un reforzador eficaz.
Aunque esta discusión es una idealización de las discusiones que tuvieron lugar en
la universidad de Yale rondando la mitad del siglo XX y no nos consta que se produjera
exactamente en estos términos, esta escenificación resulta útil para resaltar el poder
explicativo del sistema hulliano y las dificultades a las que se enfrentó Sheffield para
encontrar un experimento que escapara del ámbito explicativo de la teoría de la reduc-
ción del impulso.
Sheffield cambió de estrategia y abordó el problema utilizando un reforzador y un
impulso diferentes (Sheffield, Wulff y Baker, 1951). En esta ocasión el reforzador fue
una hembra en celo y el impulso el deseo sexual en la rata macho. Colocaron la rata
hembra al final de un corredor recto y midieron la latencia de la rata macho en llegar al
final del corredor. La reducción del impulso sexual se impidió separando a los machos
antes de que consiguieran la eyaculación. A pesar de no reducir el impulso sexual, la
latencia de carrera en los machos disminuyó con el entrenamiento, lo que ponía una vez
más en cuestión la teoría de la reducción del impulso.
En una aproximación similar, varios autores descubrieron que podían hacer aumen-
tar respuestas instrumentales relacionándolas con estímulos que difícilmente podían
considerarse reductores de impulso. Así, las ratas presionan una palanca para poder
explorar un ambiente nuevo (Myers y Miller, 1954) y los monos realizan distintas res-
puestas instrumentales para poder mirar fuera de la cámara experimental (Butler, 1953).
Este fenómeno se conoce como reforzamiento sensorial y parece indicar que los cam-
bios estimulares pueden actuar como reforzadores en especies muy distintas. En el ser
humano esto resulta particularmente claro en el gusto por las artes.
Otro grupo de resultados que presentaban problemas para la teoría de la reducción
del impulso fueron los procedentes de los estudios de autoestimulación intracraneal.
Olds y Milner (1954) encontraron que las ratas presionaban una palanca durante mu-
chas horas con el objeto de recibir estimulación en el área septal del cerebro. Esto no
tenía por qué contradecir en principio la teoría de la reducción del impulso; de hecho,
se planteó la explicación de que esta estimulación activaba los circuitos neurológicos
que intervenían en la reducción de los impulsos. Sin embargo, el que esta misma esti-
mulación pueda reforzar conductas como comer, beber, o la conducta sexual sugería
que la estimulación cerebral en realidad induce el impulso, más que reducirlo, presen-
tando un nuevo problema para la teoría hulliana.
6.4.- La hipótesis de la respuesta consumatoria

Sheffield realizó algunos experimentos en los que se correlacionaban conductas que
comenzaron a sugerir que quizá el reforzador no fuera un estímulo, sino una respuesta.
En uno de sus trabajos, Sheffield, Roby y Campbell (1954) compararon lo rápido que
corría un animal en un laberinto con lo rápido que bebía la sacarina con la que se le
reforzaba. Estos autores encontraron que había una correlación positiva entre ambas
respuestas, es decir el efecto del reforzamiento se manifestaba más en aquellos sujetos
que bebían la sacarina más rápidamente. Esta correlación llevó a estos autores a sugerir
que quizá fuera el acto de consumir la sacarina y no la sacarina en si misma lo que
actuaba como reforzador.
Estos trabajos de Sheffield y colaboradores ya habían sido anticipados por el trabajo
de Wolfe y Kaplon (1941). Estos autores habían contrastado la hipótesis de si lo refor-
zante era el estímulo que actuaba como reforzador, o la respuesta consumatoria de
consumirlo. Diseñaron un sencillo pero ingenioso experimento para contrastar estas
hipótesis. Los dos grupos de pollos que nos interesan de este experimento recibieron un
grano de maíz como recompensa por escoger el brazo correcto en un laberinto en T. En
uno de los grupos el grano se presentaba entero, por lo que requería una única respuesta
consumatoria de los sujetos. En el otro un grano del mismo tamaño se presentó dividi-
do en cuatro trozos, con lo que requería cuatro respuestas consumatorias para consumir
la misma cantidad de alimento.
La cantidad de grano que recibían ambos grupos de pollos por llegar al final del
laberinto era exactamente la misma, por lo que las teorías que consideraban el reforza-
dor como estímulo que acabamos de discutir predicen que el efecto del reforzamiento
va a ser el mismo en ambos casos y por tanto que ambos grupos de pollos aprenderían
lo mismo y al mismo tiempo. Sin embargo, el grupo que necesitaba realizar cuatro
respuestas consumatorias en vez de una aprendió más rápido y cometió menos errores
que el otro grupo. Por lo tanto, parece que lo reforzante no es tanto el estímulo emplea-
do, sino la respuesta de consumirlo.
Experimentos como los descritos establecieron el germen para un importante cam-
bio en la definición del reforzador. A partir de este momento se comenzó a considerar la
posibilidad de que los reforzadores no fueran estímulos específicos contingentes a la
respuesta instrumental, sino la respuesta de consumir dichos estímulos.
6.5.- El principio de probabilidad diferencial

Premack (1959, 1965) recogió la tradición que apuntaba a que los reforzadores podrían
ser respuestas y demostró que la distinción que se había hecho hasta el momento entre
respuestas reforzables y estímulos reforzantes era una distinción sin sentido. De acuer-
do con este autor, el procedimiento de reforzamiento se caracteriza mucho más adecua-
damente como la contingencia entre dos conductas que como la contingencia entre una
conducta y un estímulo.
Además de cambiar la definición de reforzador de estímulo a respuesta, propuso un
principio que relativizaba el valor del reforzador y por tanto violaba el principio de
transituacionalidad que había salvado la ley empírica del efecto. El principio de proba-
bilidad diferencial de Premack, establece que dadas dos respuestas en un procedi-
miento de condicionamiento operante, la respuesta más probable servirá como refor-
zador para la respuesta menos probable; la respuesta menos probable no reforzará
nunca a la conducta más probable.
Esto es, las respuestas que el sujeto realiza con una probabilidad alta van a servir
como reforzadores para aumentar la tasa de respuesta en una alternativa que el sujeto
realiza con una probabilidad más baja. Esta aproximación relativiza el valor del refor-
zador que ya no tiene valor intrínseco y por tanto puede no actuar como reforzador en
una situación diferente. Actuará como reforzador siempre que la nueva respuesta ins-
trumental tenga una probabilidad más baja que la respuesta seleccionada como reforza-
dor, pero no lo hará cuando en la nueva situación la respuesta instrumental tenga una
probabilidad más alta que la respuesta reforzadora.
Por ejemplo, imaginemos un adolescente que en plena libertad dedica el 30% de su
tiempo a ver la televisión, el 10% a leer y el 2% a labores domésticas. En ese adolescen-
te la respuesta de leer tiene una probabilidad más alta que la respuesta de realizar labo-
res domésticas y de acuerdo con el principio de Premack podemos aumentar el tiempo
dedicado a las labores domésticas si hacemos contingente la posibilidad de leer con la

realización de alguna tarea doméstica. Sin embargo, el principio de probabilidad dife-
rencial sostiene que no podremos reforzar la conducta de ver la televisión con la res-
puesta de leer. Es decir, la misma respuesta puede servir como reforzador en una situa-
ción y sin embargo, no servir como reforzador en otra. El que sirva o no sirva va a
depender fundamentalmente de la probabilidad relativa de esta respuesta con respecto
a la respuesta instrumental que queramos reforzar con ella. Siempre que la probabilidad
de la respuesta reforzante sea más alta que la probabilidad de la respuesta instrumental
el reforzamiento será eficaz, y viceversa.
El principio de probabilidad diferencial de Premack ha recibido un importante res-
paldo empírico tanto en animales como en seres humanos. El ejemplo más citado en el
que Premack demuestra la relatividad de la respuesta reforzadora es el publicado en
1963, realizado con monos Cebus y en una situación que se asemejaba al ejemplo del
adolescente que exponíamos más arriba. Uno de los monos, Chicko, tuvo la oportuni-
dad de realizar tres respuestas durante la línea base: presionar una palanca, abrir una
puerta y tirar de un émbolo. Durante esta línea base el mono pasó más tiempo presio-
nando la palanca que abriendo la puerta, y más tiempo abriendo la puerta que tirando
del émbolo. En seis fases posteriores se combinaron todas estas respuestas por pares,
haciendo actuar a una como respuesta instrumental y a otra como respuesta reforzado-
ra. La respuesta de presionar la palanca reforzó a las otras dos, mientras la respuesta de
tirar del émbolo no reforzó a ninguna. En otras palabras, la presión de palanca parecía
ser una respuesta reforzadora, mientras que tirar del émbolo tenía todos los visos de ser
una respuesta instrumental. Lo más interesante vino de los casos en los que intervenía
la respuesta de abrir la puerta. ¿Era ésta una respuesta reforzadora o una respuesta
reforzable? La respuesta de Premack es que puede ser cualquiera de las dos cosas,
dependiendo de su posición relativa en la escala de probabilidades. Así, podía actuar
como respuesta reforzadora de tirar del émbolo puesto que se situaba en una posición
más alta en la escala de probabilidades con respecto a esta última. Sin embargo, no
podía actuar como reforzador de la respuesta de presión de palanca, puesto que en este
caso las posiciones relativas en la escala se invertían.
La figura 6.1 presenta una esquematización del experimento y de sus resultados. De
acuerdo con las predicciones del principio de Premack, la respuesta de abrir la puerta
aumentó la respuesta de tirar del émbolo, pero no sirvió como reforzador de la respues-
ta de manipular la palanca. Es decir, la misma respuesta podía ser un reforzador o no
serlo, dependiendo de si la respuesta instrumental que reforzamos con ella tiene una
probabilidad más baja de ser realizada por el sujeto en ausencia de las restricciones
impuestas por el programa de reforzamiento.
El principio de Premack planteaba importantes posibilidades de uso en el marco
educativo y clínico. Por ejemplo, Mitchell y Stofelmayr (1973), intentaron aumentar la
conducta productiva de un grupo de esquizofrénicos extremadamente inactivos. Su
objetivo era conseguir que estos pacientes terminaran aseándose ellos mismos, arregla-
Figura 6.1. Esquematización del diseño y de los resultados del del experimento sobre la relatividad
de la respuesta reforzadora realizado por Premack (1963).
ran sus habitaciones, etc. De acuerdo con los principios del reforzamiento, bastaba con
hacer que un reforzador fuera contingente a estas conductas para que las mismas au-
mentaran. Sin embargo, el problema al que se enfrentaron estos autores emanaba la
propia situación que intentaban modificar. No parecía haber ningún reforzador al uso
eficaz para estos pacientes, rechazaban los dulces, las galletas, los cigarrillos etc. Ya
hemos visto que la teoría de Premack recomienda una aproximación distinta a este tipo
de problemas. Basta con determinar qué conductas son más probables en los sujetos y
utilizar éstas como reforzadores; en estos pacientes, la conducta más probable era per-
manecer sentados y quietos por lo que estos autores decidieron hacer que la oportuni-
dad de sentarse y no hacer nada fuera contingente con realizar una tarea simple durante
unos minutos. Este procedimiento llevó a que los pacientes finalmente realizaran acti-
vidades útiles por primera vez en mucho tiempo.
Problemas del principio de probabilidad diferencial. Uno de los problemas que pre-
senta el principio de Premack el tipo de medida que se ha de utilizar para determinar la
probabilidad de las distintas respuestas que actuarán como reforzadores y respuestas
reforzables. La probabilidad de respuesta se determina normalmente durante una línea
base apareada en la que el sujeto tiene la oportunidad de realizar concurrentemente
cualesquiera respuestas que estemos evaluando. Cuando ambas respuestas son simila-
res, una medida que podemos usar para establecer la comparación es el número de
respuestas por unidad de tiempo, es decir la tasa de respuesta. Sin embargo, cuando
comparamos dos respuestas muy distintas, como por ejemplo limpiar la casa y comer,
la medida de tasa resulta difícil. En esas situaciones, Premack sugirió que la probabili-
dad de respuesta podía determinarse calculando el tiempo que dedicaba el sujeto a cada
una de las respuestas respecto a un tiempo determinado en el que ambas respuestas
estuvieran disponibles.
No obstante, esta forma de determinar la probabilidad de la respuesta presenta el
problema de que las actividades no se distribuyen uniformemente a lo largo del tiempo.
Por ejemplo, en un período de 24 horas es bastante probable que dediquemos bastante
tiempo a comer; sin embargo, la conducta de comer no se va a distribuir uniformemente
a lo largo del día. Ésta será altamente probable a ciertas horas y no lo será tanto a otras.
Para solventar este problema Premack sugiere que la medida de la respuesta más ade-
cuada es la probabilidad momentánea.
En la figura 6.2 se presenta una distribución hipotética de dos conductas distintas a
lo largo de un tiempo determinado. Como vemos, la respuesta A es más probable que la
respuesta B durante la primera parte de la sesión y viceversa durante la segunda parte
de la sesión. Por tanto, durante la primera parte de la sesión A puede utilizarse para
reforzar la respuesta B y viceversa durante la segunda parte. Un registro de la probabi-
lidad de respuesta durante toda la sesión nos daría como resultado dos conductas de
aproximadamente probabilidad equivalente, lo que sugeriría que ninguna puede actuar
como reforzador de la otra. Sin embargo, el registro de la probabilidad momentánea de
la respuesta nos indica que esto no es así, simplemente las probabilidades cambian a lo
largo de la sesión y por lo tanto los papeles de la respuesta reforzadora y reforzable
cambian también.
En ambientes clínicos y educativos el problema de registro de la probabilidad de la
respuesta se ha soslayado mediante la utilización de economías de fichas. En estos
sistemas los sujetos realizan la respuesta instrumental para conseguir unas fichas que
después pueden intercambiar por la oportunidad de realizar una respuesta reforzadora
escogida por ellos mismos de entre una variedad de respuestas disponibles. Esto permi-
te aplicar el principio de Premack sin necesidad de determinar a priori que respuesta va
a actuar como reforzador y sin tener el problema práctico de registrar la probabilidad
momentánea de las respuestas. La oportunidad de realizar una respuesta reforzadora
escogida por el sujeto se hace contingente con la respuesta instrumental, pero es el
propio sujeto el que determina qué respuesta va a actuar como reforzador en función de
sus preferencias coyunturales. Esto evita además el tener que calcular probabilidades
de respuesta idiosincráticas para cada sujeto. Por ejemplo, en un ambiente educativo, el
tiempo de lectura puede hacerse contingente con la obtención de puntos que después el
niño puede cambiar por la oportunidad de pintar con tizas de colores, correr en el patio,
jugar a los videojuegos etc. según sus preferencias personales en ese momento.
Predicciones erróneas del principio de probabilidad diferencial. Aunque el princi-

pio de reforzamiento de Premack ha demostrado una enorme capacidad predictiva so-
bre qué respuestas van a actuar como reforzadores en multitud de situaciones, hay oca-
siones en las que se cumple el principio de probabilidad diferencial y sin embargo no se
encuentra un reforzamiento de la respuesta instrumental. Estas situaciones se producen
cuando el programa de reforzamiento permite realizar la respuesta de probabilidad alta
Figura 6.2. Distribución hipotética de dos conductas distintas a lo largo de una sesión.
al mismo nivel que durante la línea base, simplemente realizando la actividad de proba-
bilidad baja al mismo nivel que durante la línea base.
Por ejemplo, imaginemos que una rata pasa durante la línea base el 60% de su tiem-
po bebiendo y el 10% corriendo en la rueda sin fin. Durante la fase de condicionamien-
to instrumental se establece una contingencia en la que la rata ha de pasar 10 segundos
corriendo para tener acceso a 60 segundos de bebida. De acuerdo con el principio de
probabilidad diferencial de Premack en esta situación la respuesta de correr debería
aumentar, pero esto no ocurre; no se observan cambios en la conducta. De hecho, esta
predicción del principio de Premack resulta contraintuitiva. El programa de reforza-
miento descrito permite al sujeto distribuir las respuestas durante la sesión de contin-
gencia de forma totalmente equivalente a como las distribuía durante la línea base, por
tanto, ¿por qué iba a cambiar su conducta?
Premack resolvió el problema revisando su hipótesis de la probabilidad diferencial
e incluyendo una nueva condición que se hacía necesaria para que se manifestara el
reforzamiento de cualquier respuesta instrumental. Era necesario que el programa pri-
vara al sujeto de la realización de la respuesta consecuente. Así, en su revisión del
principio de probabilidad diferencial, el reforzamiento dependía de que se escogiera la
respuesta más probable como reforzadora y de que el programa instrumental privara al
sujeto de la oportunidad de realizar la respuesta reforzadora con respecto a la línea base
a menos que eleve su tasa de respuesta instrumental. Premack consideraba que un pro-
grama de reforzamiento necesita cumplir ambas condiciones para ser eficaz (v.gr.,
Eisenberger, Karpman y Trattner, 1967).
6.6.- La hipótesis de la privación de respuesta

El refinamiento en el principio de probabilidad diferencial que tuvo que realizar
Premack a raíz de las predicciones incorrectas de su principio llevó a una vuelta de
tuerca más que terminó convirtiéndose en lo que se conoce como hipótesis de la priva-
ción de la respuesta. Los autores que propusieron esta hipótesis sostenían que la carac-
terística fundamental del reforzamiento era que privaba al sujeto de la realización de
una respuesta, impidiéndole que la realizara al nivel de su línea base (Timberlake y
Allison, 1974). En otras palabras, la diferencia entre la respuesta instrumental y la res-
puesta reforzadora no es la mayor probabilidad de la segunda sino que el sujeto es libre
de realizar la respuesta instrumental, pero tiene restringido el acceso a la respuesta
reforzadora en función de la cantidad de respuesta instrumental que realice.
De acuerdo con esta hipótesis, una respuesta de probabilidad baja puede servir per-
fectamente para reforzar una respuesta de probabilidad alta; basta con restringir el ac-
ceso a la respuesta de baja probabilidad por debajo de la línea base. Esta predicción se
ha demostrado en varios experimentos. En uno de ellos, Mazur (1975) utilizó ratas y las
respuestas de correr y beber. Registró las respuestas de correr y beber durante una línea
base apareada en la que los sujetos tenían la oportunidad de realizar ambas conductas.
En la parte izquierda de la figura 6.3 aparecen reflejados los resultados de una de las
ratas. Ésta pasó el 17% de su tiempo bebiendo y el 10% corriendo, luego la respuesta de
beber tenía una probabilidad mayor que la respuesta de correr, alcanzando una relación
de casi 2 a 1.
En la primera fase experimental usó un procedimiento de contingencia recíproca en
el que la rata necesitaba pasar 15 segundos corriendo para poder pasar 5 segundos
bebiendo. La contingencia es recíproca porque el sujeto necesita realizar la respuesta
reforzadora por el tiempo estipulado para poder volver a realizar la respuesta instru-
mental y viceversa. Este tipo de contingencia permite controlar que las dos conductas
ocurran en la proporción fija determinada por el programa de reforzamiento. La contin-
gencia establecida requiere que el sujeto realice 3 veces más la respuesta de correr que
la de beber, invirtiendo la relación que encontrábamos entre estas respuestas durante la
línea base. Esta situación cumple los requisitos del principio de probabilidad diferen-
cial de Premack y los de la hipótesis de la privación de respuesta. Por una parte, la
respuesta que se utiliza como reforzadora es la más probable durante la línea base y por
otra su acceso se restringe, de tal modo que el sujeto tiene que aumentar su respuesta
instrumental por encima de la línea base para poder acercarse a su línea base de res-
puesta reforzadora. En esa situación, el sujeto llega a una especie de compromismo,
aumentando la respuesta instrumental (el correr) por encima de la línea base, pero dis-
minuyendo la respuesta reforzadora (el beber) por debajo de la línea base, tal y como se
aprecia en la parte central de la figura 6.3.
En la segunda fase del experimento se cambió la contingencia recíproca. El sujeto
tenía que pasar ahora 45 segundos bebiendo para poder tener acceso a 5 segundos de
carrera. En esta situación, la respuesta más probable cumplió el papel de respuesta
instrumental y la menos probable de respuesta reforzadora. Por tanto, el principio de
Premack predice que no va a haber efectos del reforzamiento. Sin embargo, la hipótesis
de la privación de respuesta sostiene lo contrario. El programa establece una relación
Figura 6.3. Distribución de las respuestas de correr y beber durante la línea base (izquierda), bajo
un programa de reforzamiento que cumple el principio de Premack (centro) y bajo un programa
de reforzamiento que no cumple el principio de Premack pero en el que se priva al sujeto el acceso
a la respuesta reforzadora por debajo de su línea base (derecha). Basado en Mazur (1975).
de 9 a 1 entre la respuesta de beber y la respuesta de correr, lo que se aleja enormemente

de la relación de 2 a 1 escogida por el sujeto durante la línea base. En otras palabras, el
programa restringe el acceso a la respuesta reforzadora por debajo de la línea base, por
lo que de acuerdo con la hipótesis de la privación de respuesta debería producirse un
aumento en la respuesta instrumental. De otro modo, para que el sujeto pueda correr
tanto como lo hacía durante la línea base necesita pasar más tiempo bebiendo del que
pasaba durante la línea base. Esto le lleva a un nuevo compromiso en el que el sujeto
aumenta la conducta de beber y reduce la conducta de correr respecto a la línea base, tal
y como puede observarse en la parte derecha de la figura 6.3.
Este experimento es uno de tantos que demuestran las ventajas de la hipótesis de la
privación de respuesta sobre el principio de Premack. La primera es capaz de dar cuen-
ta de las situaciones explicadas por éste, además de explicar resultados que lo contradi-
cen. Pero además de su mayor poder predictivo, la hipótesis de privación de respuesta
presenta unas importantes ventajas teóricas y prácticas sobre las teorías anteriores.
Ventajas teóricas y prácticas de la hipótesis de la privación de respuesta. Por una

parte, la hipótesis de la privación de respuesta se libra de algunas implicaciones extra-
vagantes de la ley del efecto. En ésta se predecía que existía una relación directa entre
la cantidad de recompensa administrada y el aumento correspondiente en la respuesta.
Sin embargo, eso no ocurre así necesariamente. Si la recompensa es desmesuradamente
grande, la respuesta puede no aumentar. Si por trabajar un día nos reforzaran con el
sueldo de un mes, es bastante probable que termináramos reduciendo nuestro tiempo

de trabajo, en lugar de aumentarlo. La hipótesis de la privación de la respuesta sostiene
que lo que convierte al dinero en reforzante es que el acceso a él está restringido. En
cuanto se elimina la restricción, el dinero deja de ser reforzante.
Por otra parte, presenta las ventajas prácticas de eliminar el problema del cómputo
de las probabilidades relativas de respuesta que se le presentaba al principio de proba-
bilidad diferencial. Esta hipótesis no necesita computar la probabilidad relativa de res-
puesta, basta con registrar una respuesta durante la línea base y restringir su acceso
haciéndolo contingente a la respuesta instrumental.
Finalmente, esta hipótesis coloca la explicación del reforzamiento dentro del propio
programa de reforzamiento instrumental. No necesita recurrir a factores externos al
procedimiento como los estados de impulso o las probabilidades de respuesta diferen-
ciales. Son las restricciones impuestas por el propio programa de reforzamiento las que
producen el reforzamiento y la determinación de respuestas instrumentales y reforzan-
tes la realiza el propio experimentador, sin restricciones impuestas por las preferencias
del sujeto o por su estado de impulso.
6.7. Teorías de la regulación conductual

Las teorías de la regulación conductual parten de la herencia de Skinner (1938),
quien consideraba que el reforzamiento cumple la doble función de seleccionar la res-
puesta instrumental de entre todo el repertorio conductual del sujeto y mantener poste-
riormente esa respuesta instrumental. Estas teorías aplican el principio de selección de
la respuesta pero lo engloban en un concepto más amplio, el de homeostasis conduc-
tual, concepto que ya nos resulta familiar aplicado a la habituación y a la reducción del
impulso y que ahora vamos a aplicar a la conducta. De acuerdo con la idea de homeos-
tasis, en una situación sin restricciones, el sujeto manifiesta una distribución de activi-
dades que podemos inferir como su modo preferido de distribuir su tiempo. Este nivel
homeostático conductual se ha dado en llamar punto preferido de equilibrio conduc-
tual o punto de deleite conductual, pues asume que ese patrón de conducta maximiza la
satisfacción del sujeto.
Por ejemplo, si observamos a un niño en total libertad y registramos su conducta
durante un día podemos encontrar que el niño pasa 4 horas viendo la televisión, 2 horas
leyendo y el resto del tiempo haciendo otras cosas. El punto de equilibrio conductual
puede representarse gráficamente como la relación entre estas dos variables. Desde
estas teorías se asume que esta distribución de respuestas funciona como el ideal con-
ductual del sujeto. En un programa de reforzamiento estándar, se colocan en relación
las dos respuestas que el sujeto daba libre e independientemente, estableciendo una
contingencia entre ellas. A partir de aquí, la cantidad de tiempo que nuestra niño va a
pasar viendo la televisión estará en función de la cantidad de tiempo que pase leyendo,
y lo contrario será también cierto si el programa establece una contingencia recíproca.
La actuación del niño en esa situación va a depender de las restricciones que el
Figura 6.4. Representación de la distribución hipotética de la conducta de leer y ver la televisión

en un niño en ausencia de restricciones (punto de equilibrio conductual). Programa 1 y programa
2 representan dos líneas de programa distintas. El punto de desviación mínima representa el punto
más cercano al punto de equilibrio conductual permitido por las restricciones de programa, donde
se situará la distribución de respuestas del sujeto siempre y cuando el sacrificio de aumentar una
de las respuestas equivalga al sacrificio de disminuir la realización de la otra.
programa imponga a su conducta. Estas restricciones se pueden representar mediante

una función lineal que pone en relación las dos conductas. Por ejemplo, si el programa
establece que son necesarios 10 minutos leyendo para poder pasar 20 minutos viendo
la televisión, la línea de programa resultante será la que aparece recogida como progra-
ma 1 en la figura 6.4. En cambio, si se requieren 20 minutos leyendo para pasar 20
minutos viendo la televisión la línea de programa será la que aparece con el nombre de
programa 2.
Podemos ver que la actuación del sujeto bajo las restricciones del programa tiene
que situarse en algún punto de la línea de programa a fin de maximizar sus posibilida-
des de acceso a la respuesta reforzante. Si no se establece una contingencia recíproca,
también es posible que el sujeto se sitúe por debajo de la línea de programa, pero en ese
caso está realizando menos respuestas en una alternativa de las que le es posible reali-
zar. En nuestro ejemplo, esto implicaría que el niño no está aprovechando todo el tiem-
po que podría ver la televisión de acuerdo con la cantidad de tiempo que dedica a leer.
La teoría predice que la actuación del individuo durante las restricciones del progra-
ma de reforzamiento va a aproximarse lo más posible a su distribución de actividades
durante la línea base. Cuando la línea de programa pase por el punto de equilibrio
conductual, como en el caso de la primera línea del programa 1 en la figura, el sujeto va
a continuar actuando igual que lo hacía en la línea base. En términos de la hipótesis de
privación de respuesta, este programa no priva al sujeto de realizar cualquiera de las
dos respuestas al mismo nivel que durante la línea base y al no haber privación no hay
efecto del reforzamiento.
En cambio, en el segundo programa de reforzamiento la línea de programa no pasa
por el punto de equilibrio conductual. De acuerdo con Timberlake y Allison (1974) en
esta situación la imposición del programa genera un conflicto con la distribución de
actividades preferida por el sujeto. Es más, como la línea de programa no pasa por el
punto preferido de equilibrio conductual, el conflicto es irresoluble, aunque el sujeto
puede minimizarlo escogiendo una distribución de respuestas que se aproxime el máxi-
mo posible al punto de equilibrio conductual. De acuerdo con la teoría, la distribución
de respuestas que escogerá el sujeto en una situación de este tipo coincidirá con el
punto en el que la perpendicular a la línea del programa cruce el punto de equilibrio
conductual, tal y como aparece representado en la figura 6.4.
Naturalmente, esta predicción sólo se cumple si el sujeto asigna la misma importan-
cia a los dos niveles de respuesta que daba en la línea base, en nuestro ejemplo, si
considera que pasar 10 minutos leyendo tiene una importancia equivalente a pasar 20
viendo la televisión. Si esto no fuera así, el sujeto equilibraría su respuesta bajo las
restricciones del programa más abajo o más arriba en la línea del programa, dependien-
do de si le da mas importancia a mantener la línea base de respuesta de lectura o la de
ver la televisión, respectivamente. Por tanto, este modelo permite representar la impor-
tancia diferencial de dos niveles de conducta durante la línea base.
En definitiva, el modelo predice que la distribución final de la respuesta del sujeto
va a depender esencialmente de los costes y beneficios que le suponga la reestructura-
ción de la línea base de las respuestas instrumental y contingente. En el ejemplo que
venimos presentando, si el dejar de ver la televisión supone un coste mayor para el niño
que el aumentar la respuesta de leer, el niño va a aumentar la respuesta de correr por
encima del punto de desviación mínima representado por la línea perpendicular. Es
decir, va a aumentar mucho la respuesta de leer para poder mantenerse cerca de la línea
base de ver la televisión. Por el contrario, si aumentar la respuesta de leer supone un
coste mayor para el niño que disminuir la respuesta de ver la televisión, la respuesta de
leer aumentará pero quedará por debajo del nivel de desviación mínima. Es decir, el
sujeto disminuirá la respuesta de ver la televisión a fin de mantenerse más cerca de la
línea base de lectura (Allison, 1989).
La eficacia de los programas de reforzamiento y la relación coste beneficio. Una

ventaja del modelo es que permite comparar la eficacia de distintos programas de refor-
zamiento para aumentar la tasa de respuesta instrumental. En la figura 6.5 se represen-
tan 6 programas de reforzamiento distintos con las dos conductas que venimos usando
como ejemplo. Trazando las distintas perpendiculares a la línea de programa con res-
pecto al punto de equilibrio conductual y uniendo los puntos en los que la teoría predi-
ce que se va a estabilizar la respuesta en los distintos programas de reforzamiento en-
contramos una función cóncava respecto al punto de origen.
Figura 6.5. Distribución de la conducta bajo diferentes programas de reforzamiento. La línea

cóncava que une los puntos de desviación mínima de cada programa de reforzamiento sugiere que
cuando la el requerimiento de conducta instrumental sea demasiado alto o demasiado bajo se van
a producir pocos cambios en la respuesta.
Esto es, en situaciones en las que se requiera mucha conducta instrumental para
obtener unos pocos refuerzos, el sujeto va a aumentar muy poco su nivel de línea base
instrumental (va a leer poco). El aumento en la respuesta va a ser al principio cada vez
mayor a medida que disminuimos la restricción del programa, es decir a medida que
exigimos menos respuestas instrumentales para conseguir un reforzador. No obstante,
llegará un momento en el que la respuesta instrumental comience a disminuir a medida
que la cantidad de respuesta contingente recibida por respuesta instrumental crezca.
Esta función se asemeja mucho a la curva estándar de aporte del trabajo que apare-
ce en los libros de texto de microeconomía. Este tipo de coincidencia ha llevado a
algunos autores a reinterpretar la situación instrumental en términos económicos, en
los que el reforzamiento representa el dinero y la respuesta instrumental representa el
trabajo. Así, el punto de equilibrio conductual viene a representar la situación ideal del
sujeto, con mucho dinero y poco trabajo. El programa de reforzamiento lo que hace es
establecer una restricción en la que la cantidad de dinero depende de la cantidad de
trabajo. Las líneas de programa entonces representan distintas tasas o niveles salaria-
les. De acuerdo con la curva de la función de reforzamiento que observamos en la
figura, la máxima cantidad de trabajo se encuentra a tasas salariales intermedias, más
que a tasas salariales altas o a tasas salariales bajas.
Este tipo de aplicación de los principios de regulación conductual a la economía ha
abierto un nuevo campo de estudio, la economía conductual, que ha recibido gran
atención por parte de los investigadores pertenecientes a la tradición del análisis de la
conducta en los últimos años (v.gr., Allison, 1983; Green y Freed, 1998).
Figura 6.6. Ejemplo de la actuación del sujeto cuando dos respusestas son sustitutos perfectos.
En esos casos, la actuación de los sujetos no se aproximará al punto de equilibrio conductual
puesto que existen múltiples combinaciones que satisfacen al sujeto. El punto en el que la función
de todas las posibles combinaciones se cruza con la línea de programa marca la distribución de la
conducta del sujeto.
Las limitaciones del reforzamiento. Este modelo de redistribución de la respuesta tal

y como lo venimos planteando requiere que las respuestas instrumental y contingente
no resulten sustitutos perfectos la una de la otra. Si tomamos dos respuestas que puedan
considerarse sustitutos perfectos, como por ejemplo comer pan y comer tostadas, la
actuación de los sujetos bajo el programa de reforzamiento no se aproximará necesaria-
mente al punto de equilibrio conductual. En esa situación existen multitud de combina-
ciones que resultan satisfactorias para el sujeto. Por ejemplo, si partimos de una línea
base en la que el sujeto come 200gr de pan y 50gr de tostadas, cualquier combinación
de pan y tostadas que dé como resultado 250gr será aceptable para el sujeto. Si traza-
mos una línea que recorra las distintas combinaciones posibles, la intersección de esa
línea con la línea del programa nos indicará el punto en el que quedará redistribuida la
respuesta del sujeto. Este punto puede quedar bastante alejado del punto de desviación
mínima, tal y como vemos en la figura 6.7. Si después eliminamos la restricción del
programa la distribución de conductas del sujeto continuará alejada de la línea base, al
contrario de lo que ocurre cuando las respuestas instrumentales y contingente no son
sustitutos la una de la otra. Allison (1989) lo demostró experimentalmente utilizando
como respuestas intercambiables el lameteo en dos botellas de agua distintas y el lame-
teo en una botella de agua y una vacía para el caso de las respuestas no intercambiables.
Otra condición necesaria para que funcione la teoría de la regulación conductual es
que el sujeto no tenga disponibles sustitutos para la respuesta contingente. En el ejem-
plo de las respuestas de leer y ver la televisión que venimos trayendo, si establecemos
la respuesta de ver la televisión como contingente a la respuesta de leer, la respuesta de

leer aumentará siempre y cuando el sujeto no tenga un sustituto disponible para la
respuesta de ver la televisión. Si en la situación existe la posibilidad de salir con sus
amigos o jugar con los juguetes y esto no se hace contingente con la respuesta de
lectura, el sujeto terminará respondiendo en las otras alternativas de respuesta, en lugar
de aumentar la respuesta de lectura.
6.8. Reforzamiento y castigo revisitados

Al inicio de este capítulo señalábamos que la distinción entre reforzamiento y casti-
go iba a perder su sentido desde el punto de vista procedimental. Las teorías de la
regulación conductual se alejan de la visión molecular de la conducta del sujeto para
tomar una perspectiva más global, en la que la contingencia instrumental reorganiza la
distribución general de la conducta del sujeto que se ve sometido a ella.
La reorganización conductual implica aumento en algunas respuestas y disminu-
ción en otras lo que, en una definición puramente empírica implica reforzamiento de
algunas respuestas y castigo de otras. Tomemos el ejemplo del niño que pasaba 2 horas
leyendo y 4 horas viendo la televisión representado en la figura 6.4. Cuando utilizába-
mos un programa de reforzamiento que no permitía la distribución de conductas en el
punto de equilibrio conductual, la respuesta de leer aumentaba, observándose el efecto
de reforzamiento. Desde el punto de vista de las teorías tradicionales del condiciona-
miento instrumental nos cuesta poco interpretar que la conducta de leer (respuesta ins-
trumental) aumenta porque se hace contingente a ver la televisión (consecuencia apeti-
tiva). Sin embargo, lo más interesante en este momento es que la respuesta de ver la
televisión disminuía. Esto es un efecto de castigo. La misma situación puede interpre-
tarse de una manera totalmente diferente a como la interpretábamos en el párrafo ante-
rior, la respuesta de ver la televisión (respuesta instrumental) disminuye porque está
siendo relacionada con la respuesta de leer (consecuencia aversiva).
El ejemplo que acabamos de presentar ilustra el papel limitado de la definiciones de
castigo y reforzamiento dentro de las teorías de la actuación del condicionamiento ins-
trumental. Castigo y reforzamiento son términos útiles para definir procedimientos, tal
y como señalábamos en el capítulo previo, son incluso interesantes para definir efectos
conductuales, aunque vemos que la situación de condicionamento instrumental produ-
ce ambos efectos conductuales cuando se analiza la conducta del sujeto desde una
perspectiva global. Sin embargo, el valor teórico de estos términos resulta escaso desde
la perspectiva de las teorías de la regulación conductual. El efecto de los programas de
contingencia instrumental debe entenderse como una forma de redistribución de la con-
ducta global del sujeto que implica aumentos y disminuciones en distintas conductas.
6.9. Teorías del aprendizaje instrumental

Las teorías que hemos recorrido a lo largo de este capítulo eran explicaciones de la
actuación instrumental, estas teorías podrían considerarse conductistas en el sentido de
que buscan establecer relaciones funcionales entre las contingencias instrumentales y

los cambios conductuales en el sujeto; en otras palabras, estas teorías tratan de respon-
der a la pregunta de cómo se producen cambios en la actuación instrumental mediante
la manipulación de las contingencias ambientales. La utilidad de estas teorías ha de
haber quedado patente en el análisis que venimos realizando, sin embargo, dejan sin
responder la pregunta de por qué se establece el condicionamiento instrumental. La
respuesta a esta pregunta es la tarea que se encomienda a las teorías que presentaremos
en este epígrafe.
Teorías asociativas y modelos basados en reglas . En el capítulo 4 hablábamos de las

teorías asociativas y los modelos basados en reglas aplicados al condicionamiento clá-
sico, es decir, al establecimiento de relaciones entre claves y consecuencias. Los meca-
nismos de aprendizaje propuestos en esas teorías trataban de determinar como se esta-
blecían las relaciones entre dos estímulos, sin embargo, pueden considerarse como
mecanismos generales que determinan el establecimiento de relaciones entre eventos,
sean estos estímulos, respuestas o combinaciones de ambos. Entendidas desde esta
perspectiva general, las teorías asociativas y los modelos de reglas se han aplicado al
condicionamiento instrumental de igual manera a como se aplicaron al condiciona-
miento clásico, por lo que no nos vamos a detener en ellas sino someramente puesto
que ya han sido descritas en este texto.
Teorías asociativas. Estas teorías suponen que el conocimiento causal dentro del
condicionamiento instrumental se establece a partir de la formación de asociaciones
mentales entre representaciones de la acción o respuesta y de representaciones de la
consecuencia. Así, los mismos modelos que describíamos en el capítulo 4 pueden apli-
carse al condicionamiento instrumental sustituyendo en las formulaciones el EC por la
respuesta instrumental y el EI por la consecuencia o reforzador.
Teorías basadas en reglas. Recordemos que estas teorías suponen que los sujetos
establecen el conocimiento causal o correlacional aplicando una regla matemática que
determina la relación entre causa y consecuencia de entre las distintas reglas que reco-
gíamos en el capítulo 4. Al igual que en el caso de las teorías asociativas, los modelos
basados en reglas también pueden aplicarse al condicionamiento instrumental, basta
con considerar que la relación establecida es entre una acción y una consecuencia, con
lo que el problema que se plantea es el mismo que en el caso del condicionamiento
clásico, determinar el algoritmo de aprendizaje por el que se establece esa asociación.
Al igual que en el caso del condicionamiento clásico, los modelos de reglas se han
aplicado en mayor medida a la explicación del aprendizaje causal y correlacional hu-
mano, mientras que los modelos asociativos han sido aplicados tradicionalmente al
aprendizaje animal. Sin embargo, veíamos a lo largo del capítulo 5 que los fenómenos
encontrados en aprendizaje animal han sido igualmente encontrados en los estudios
aprendizaje causal humano (para una revisión véase Shanks, 1993), lo que ha dado pie
a la sugerencia de que estos fenómenos básicos de aprendizaje, sean de condiciona-
miento clásico o instrumental, sea en seres humanos u otros animales pueden explicar-
se a través de los mismos mecanismos. La discusión en la actualidad no se establece en
términos de si distintos animales utilizan mecanismos diferentes de aprendizaje, sino
de cuáles son los mecanismos de aprendizaje que se utilizan para resolver los proble-
mas de correlación, sin importar tanto la especie que se enfrente a resolverlos.
Teorías de la evitación. En el capítulo 5 describíamos la evitación como el aprendizaje

que se establece cuando existe una contingencia negativa entre una respuesta y una
consecuencia aversiva. El estudio de la conducta de evitación lo comenzó “por error”
Bechterev (1913). Este autor diseñó un procedimiento para el estudio del aprendizaje
asociativo humano que fuera similar al que estaba utilizando Pavlov en sus estudios
con animales. Así, estableció una situación en la que un EC iba seguido por una descar-
ga en el dedo del participante a través de una placa de metal sobre la que reposaba el
dedo. La respuesta condicionada que se registraba era la retirada del dedo de la placa de
metal. Esta situación parece contener un EC, un EI y una RC, por lo que podríamos
considerarla similar al condicionamiento salival desarrollado por Pavlov.
No obstante, basta analizar la situación para comprobar que el procedimiento dise-
ñado por Bechterev dista mucho de sus intenciones. En cuanto los participantes apren-
dían la relación entre el EC y el EI bastaba que el EC se presentara para que retiraran el
dedo de la placa de metal, de modo que no recibían la descarga eléctrica. Recordemos
que una de las diferencias fundamentales entre el condicionamiento clásico y el condi-
cionamiento instrumental radica en que en el segundo el sujeto controla la aparición de
consecuencia a través de su conducta, justo lo que ocurría en el procedimiento desarro-
llado por Bechterev. Luego, aunque la situación se diseñara como un procedimiento de
condicionamiento clásico, la respuesta que da el sujeto sugiere que el procedimiento de
Bechterev podría considerarse mucho más adecuadamente enmarcándolo dentro del
condicionamiento instrumental. De hecho, en experimentos posteriores se demostró
que la contingencia instrumental respuesta–no consecuencia era necesaria para que se
desarrollara la respuesta de evitación, descartando la posibilidad de que la evitación
pudiera considerarse simplemente como una forma de condicionamiento clásico (Brod-
gen, Lipman y Culler, 1938).
Así, el pretendido procedimiento de condicionamiento clásico de Bechterev (1913)
puede redefinirse como un procedimiento de evitación en el que una señal de aviso
anuncia al sujeto que la consecuencia aversiva va a presentarse a menos que emita la
respuesta instrumental. En los párrafos siguientes presentaremos las principales teorías
que se han aplicado a la explicación de esta situación.
Teoría de los dos procesos de la evitación. Un problema que confrontan las explica-
ciones de evitación y que comparte con algunas formas de castigo negativo u omisión
es que si el sujeto da la respuesta apropiada no se presenta ninguna consecuencia evi-
dente. La dificultad proviene de cómo puede considerarse que la ausencia de conse-
cuencia puede generar la motivación suficiente como para que el sujeto emita la res-
puesta instrumental. En el capítulo 5 presentábamos brevemente la teoría de los dos

procesos señalando que consideraba que en el condicionamiento instrumental los cam-
bios en la respuesta se producían como consecuencia de una interacción entre procesos
de condicionamiento clásico y de condicionamiento instrumental (v.gr., Rescorla y
Solomon, 1967). Cuando presentábamos la técnica de transferencia en ese mismo capí-
tulo señalábamos que los resultados obtenidos con ella sugerían que en el condiciona-
miento instrumental se establecía una relación estímulo-consecuencia que servía para
motivar la respuesta instrumental.
Algunos años antes, Mowrer (Millar, 1951; 1942, 1947) habían aplicado esta misma
lógica para explicar el aprendizaje de evitación, sugiriendo que los emparejamientos
entre la señal de aviso y la consecuencia aversiva que ocurren en la situación de evita-
ción cuando el sujeto no emite la respuesta apropiada llevan a que se establezca una
asociación entre el estímulo y la consecuencia (condicionamiento clásico). Como re-
sultado de estos emparejamientos la señal de aviso se convierte en un estímulo que
elicita miedo en el sujeto; el miedo es una sensación desagradable que desaparece cuando
el sujeto da la respuesta instrumental apropiada, se interrumpe el estímulo señal y no se
presenta la consecuencia. Así, de acuerdo con la teoría de los dos procesos la respuesta
instrumental de evitación se vería reforzada porque esta respuesta permite al sujeto
reducir el miedo que le produce la señal de aviso.
Imagina que en tu camino a casa desde la universidad atraviesas regularmente un
parque en el que un día eres víctima de un atraco. Es bastante probable que sientas
miedo la próxima vez que llegues al parque de camino a casa, por lo que comienzas a
rodear el parque en lugar de cruzarlo; supone un pequeño rodeo, pero te sientes más
seguro. Este ejemplo representa una situación de evitación, en la que el parque es el
estímulo de aviso, el rodearlo es la respuesta de evitación y, de acuerdo con la teoría de
los dos procesos, la desaparición del miedo que se produce cuando emites la respuesta
de evitación es la consecuencia que la refuerza.
A la luz del ejemplo la explicación de la evitación desde la teoría de los dos procesos
resulta bastante razonable y nos permite integrar los conocimientos que hemos adquiri-
do en los capítulos previos. De hecho, ha recibido un apoyo empírico considerable. Por
ejemplo, en algunos experimentos se ha comenzando estableciendo una relación entre
la señal de aviso y la consecuencia aversiva en una situación donde el sujeto no podía
emitir la respuesta instrumental. Una vez establecido el miedo a la señal de aviso a
través de condicionamiento clásico se comenzaba el condicionamiento instrumental.
Para ello, se mantenía la señal de aviso activada hasta que el sujeto daba la respuesta de
evitación correcta. En estos experimentos se ha encontrado que el sujeto aprende a dar
la respuesta de evitación para desactivar la señal de aviso, la cual produce miedo con-
dicionado tal y como se sugiere desde la teoría de los dos procesos (v.gr., Brown y
Jacobs, 1949).
Sin embargo, la formulación original de la teoría de los dos procesos tenía un pro-
blema que emanaba de su propia formulación. Esta teoría supone que el sujeto da la
respuesta instrumental para escapar del miedo que elicita la señal de aviso, lo que lleva
a que la señal de aviso no vaya seguida por la consecuencia aversiva. Esto debiera
producir extinción del miedo, con lo que el sujeto dejaría de dar la respuesta instrumen-
tal, la consecuencia aversiva volvería a presentarse y volvería a comenzar el proceso.
Sin embargo, el resultado que se obtiene habitualmente con los procedimientos de evi-
tación no se parece al que predice la teoría de los dos procesos; una vez que has apren-
dido que evitar cruzar el parque te protege del atraco la visión del parque no te elicita
miedo y sin embargo sigues dando un rodeo para evitarlo. De hecho, el entrenamiento
en un procedimiento de evitación conlleva una disminución del miedo, y sin embargo
la fuerza de la respuesta de evitación se mantiene intacta (v.gr., Mineka y Gino, 1980).
R eformulación de la teoría de los dos procesos, hipótesis de la señal de seguridad.
Las dificultades que tenía la teoría de los dos procesos para explicar alguno de los
resultados que presentábamos en el párrafo previo llevaron a buscar formulaciones
teóricas alternativas para explicar el comportamiento en el procedimiento de evitación.
Una de las formulaciones más sugerentes tiene en común con la teoría de los dos proce-
sos el considerar que el condicionamiento clásico lleva a la motivación necesaria para
que se establezca la respuesta instrumental.
La respuesta de evitación va seguida inevitablemente por un cambio en la estimula-
ción que le sirve de retroalimentación. La respuesta de rodear el parque va acompañada
de un cambio en el paisaje ante tus ojos. Si llamáramos A a la señal de aviso y B a las
claves retroalimentadoras que acompañan a la respuesta de evitación, el diseño al que
nos enfrentamos desde el punto de vista del condicionamiento clásico es un diseño A+,
AB- que, como veíamos en el capítulo 3 dota a B con propiedades inhibitorias con
respecto a la consecuencia aversiva. Un inhibidor de la consecuencia aversiva se con-
vierte en una señal de seguridad y una señal de seguridad puede actuar como una
consecuencia apetitiva. Así, según la hipótesis de la señal de seguridad los sujetos emi-
ten la respuesta de evitación porque va seguida de una consecuencia apetitiva, la señal
de seguridad (para una revisión véase Dinsmoor, 2001).
Las dos explicaciones de la evitación que planteamos en estas líneas no pretenden
agotar todo el trabajo teórico en evitación que va mucho más allá de lo que podemos
plasmar en estos párrafos. Así, algunas teorías han destacado el papel que juega la
reducción de la frecuencia de la consecuencia aversiva en los procedimientos de evita-
ción (v.gr., Herrnstein y Hineline, 1966), o la influencia de las reacciones de defensa
específicas de la especie (v.gr., Bolles, 1970). Nos hemos centrado en las teorías de
doble proceso por ser las que más evidencia empírica aglutinan, utilizando conceptos
que nos resultan familiares y que están muy contrastados como hemos visto en capítu-
los previos.
6.10. Resumen
En este capítulo hemos presentado las distintas explicaciones de la actuación bajo
programas de condicionamiento instrumental. La explicación de la actuación instru-
mental comenzó tratando de dar respuesta a dos preguntas, qué es un reforzador y qué
hace que el reforzador produzca sus efectos. En la definición de reforzador se pueden
establecer dos grandes clases de teorías, las que consideran que los reforzadores son
estímulos y las que consideran que los reforzadores son respuestas. Dentro de las pri-
meras destaca la ley del efecto de Thorndike (1911) y la teoría de la reducción del
impulso de Hull. En ambos casos se considera que los reforzadores son clases especia-
les de estímulos, en el caso de Hull aquellos estímulos que reducen los impulsos (refor-
zadores primarios) o que se han asociado con ellos (reforzadores secundarios). Esta
teoría tropezó con dos problemas, el reforzamiento sensorial que demostraba reforza-
miento en ausencia de reducción del impulso y los experimentos que sugerían que el
reforzador era la respuesta de consumir el estímulo más que el estímulo en sí mismo.
Esto dio lugar al desarrollo de un nuevo grupo de teorías en las que se consideraba
que los reforzadores eran respuestas. Premack (1965) en su principio de probabilidad
diferencial sostiene que los reforzadores son las respuestas de probabilidad más alta
relativizando el valor del reforzador, puesto que la misma respuesta puede ser instru-
mental o reforzante, dependiendo de si la respuesta que se empareja con ella tiene una
probabilidad más alta o más baja, respectivamente. Algunas predicciones erróneas de
este principio llevaron al nacimiento de la hipótesis de la privación de respuesta, en la
que se deja de considerar a los reforzadores como clases especiales de respuestas y se
sostiene que cualquier respuesta puede ser reforzadora si el acceso del sujeto a ella se
restringe por debajo de sus deseos.
La teoría de la regulación conductual nace como complemento a la hipótesis de
privación de respuesta tratando de explicar cómo produce sus efectos el reforzador.
Esta teoría asume el principio de homeostasis conductual y sostiene que el programa de
reforzamiento funciona porque aleja al sujeto de su punto preferido de equilibrio con-
ductual, esto es de la homeostasis conductual. Esto fuerza que el sujeto tenga que redis-
tribuir su conducta; la redistribución exacta de su conducta va a depender del sacrificio
relativo que le suponga al sujeto prescindir de unas y aumentar otras, así como de que
haya conductas sustitutas que eliminarían cualquier efecto de reforzamiento. La teoría
de la regulación conductual supone cambia la concepción de reforzamiento y castigo,
al considerar que ambos son el haz y el envés de la misma moneda conductual. Cual-
quier situación de reforzamiento puede ser reinterpretada como castigo, y viceversa,
puesto que la regulación conductual implica una redistribución de conductas que lleva
a la disminución de unas (castigo) y el aumento en otras (reforzamiento).
Las teorías generales del aprendizaje instrumental coinciden con las teorías asocia-
tivas y los modelos de reglas que se detallaron en el capítulo 4. No obstante, existen
algunas teorías específicas para fenómenos concretos de aprendizaje instrumental, como
la evitación; a modo de ejemplo presentamos la teoría de los dos procesos y la hipótesis
de la señal de seguridad.
Capítulo 7
El cambio en la conducta, extinción e interferencia
Hasta ahora hemos concentrado nuestro esfuerzo en determinar como se aprende a

establecer relaciones entre distintos eventos del ambiente o entre la respuesta del sujeto
y sus consecuencias. En este capítulo nos centraremos en determinar como se modifica
el aprendizaje acerca de esas relaciones una vez que éstas han sido aprendidas. Este
aspecto del aprendizaje tiene un enorme interés práctico y teórico. En muchas circuns-
tancias necesitaremos cambiar y eliminar conductas inadaptadas o relaciones inapro-
piadas, bien porque las relaciones en el ambiente han cambiado y lo aprendido no
resulta ya útil habiendo de sustituirse por algo nuevo, bien porque la conducta estable-
cida resulta socialmente inapropiada o nos dificulta el desarrollo de nuestra vida.
Imagina que después de que te has aprendido el número de teléfono de tu mejor
amigo, éste lo cambia. Llamar al número antiguo no te va a conseguir el reforzador
esperado, la voz de tu amigo al otro lado de la línea, por lo que para conseguir contactar
con él necesitarás sustituir en tu memoria el número antiguo por el número nuevo. Al
principio te sorprenderás algunas veces marcando el número antiguo, pero poco a poco
estos episodios serán cada vez menos comunes y finalmente sólo marcarás el nuevo
número de tu amigo. Has sustituido el aprendizaje antiguo por un aprendizaje nuevo
gracias a un tratamiento que técnicamente se conoce como interferencia y en cuyos
efectos y consecuencias nos centraremos en las páginas siguientes.
7.1.- Extinción e interferencia

La extinción. El tratamiento de interferencia más simple y profusamente estudiado es
el de extinción. El procedimiento de extinción es muy sencillo. En el caso del condicio-
namiento clásico la extinción consiste en presentar el EC sin el EI después de que la
asociación EC-EI se ha establecido; imagina que has establecido una aversión condi-
cionada a la leche porque su ingesta te ha producido vómitos en el pasado. El procedi-
miento de extinción en esta situación de condicionamiento clásico consistiría en expo-
nerte a la leche (EC) sin que se presenten los vómitos (EI). En el caso del condiciona-
miento instrumental la extinción consiste en eliminar la consecuencia que sigue a la
realización de la respuesta instrumental; retomemos el ejemplo que venimos utilizando
en los párrafos previos, después de aprender que marcar el número de teléfono X (res-
puesta instrumental) te lleva a hablar con tu amigo (reforzador), el procedimiento de
extinción consistiría en romper la relación respuesta-reforzador de modo que cuando
marcaras el número de teléfono X no tuvieras como consecuencia la voz de tu amigo al

otro lado de la línea.
El efecto de extinción es igualmente claro, la aplicación de los procedimientos de
extinción produce como consecuencia una disminución en la respuesta condicionada,
sea ésta clásica o instrumental. En los ejemplos que venimos utilizando, la exposición
a la leche sin consecuencias haría disminuir tu aversión por la leche aumentando gra-
dualmente tu consumo de ese alimento, mientras que la emisión de la respuesta de
marcar el número X sin resultados llevaría a que dejaras de marcarlo para intentar
hablar con tu amigo. Tanto en el condicionamiento clásico como en el condicionamien-
to instrumental el efecto de extinción se manifiesta como un descenso en la respuesta
condicionada que en muchos casos puede llegar a desaparecer.
La extinción en la inhibición condicionada y el aprendizaje de evitación. El proce-

dimiento de extinción no es eficaz en situaciones en las que está implicada la inhibición
condicionada, esto es, cuando el EC se convierte en un buen predictor de la ausencia
del EI. Así, la inhibición condicionada no desaparece cuando el inhibidor condicionado
se presenta reiteradamente solo (Zimmer-Hart y Rescorla, 1972). En el aprendizaje de
evitación la respuesta instrumental llevaba a que no se presentara el reforzador aversi-
vo que anunciaba un estímulo de aviso. Veíamos que en esta situación las claves retroa-
limentadoras de la respuesta de evitación podían adquirir propiedades inhibitorias; como
en el caso de la inhibición condicionada, la respuesta de evitación no parece extinguir-
se a pesar de que su realización consistente lleva a que el reforzador no vuelva a presen-
tarse.
Cuando hablábamos de las condiciones del aprendizaje en el capítulo 3 y de las
teorías del aprendizaje en el capítulo 4 señalábamos que el aprendizaje dependía de la
sorpresa, de que ocurriera algo distinto de lo que el sujeto esperaba. En la inhibición
condicionada, cuando se presenta el EC el sujeto no espera que aparezca el EI y efecti-
vamente no aparece. Lo mismo ocurre con la respuesta de evitación, el sujeto espera
que la respuesta de evitación le libre del reforzador aversivo y efectivamente si emite la
respuesta su expectativa se confirma independientemente de que el reforzador se hu-
biera presentado en ausencia de respuesta como ocurre durante el entrenamiento, o de
que el reforzador se hubiera eliminado de la situación, como ocurre en la extinción. En
ambas situaciones el procedimiento de extinción no proporciona al sujeto resultados
sorprendentes y por lo tanto no aprende nada nuevo, no cambia su conducta ni sus
expectativas, no aparece el efecto de extinción.
Para conseguir el cambio conductual en los procedimientos que implican la inhibi-
ción condicionada es necesario cambiar el significado del estímulo, tornando el inhibi-
dor en un excitador condicionado, en otras palabras, llevándolo a que sea un predictor
de la presencia de la consecuencia, en vez de un predictor de su ausencia. Este procedi-
miento implica cambiar el significado del estímulo en una situación de interferencia
más compleja que la extinción y que trataremos en breve.
EXTINCIÓN E INTERFERENCIA 135
En el caso del aprendizaje de evitación la situación es algo más compleja. Siguiendo

la misma lógica que empleamos en el caso de la inhibición condicionada, la respuesta
de evitación podría eliminarse cambiando el significado de las claves retroalimentado-
ras que la acompañan, en otras palabras, castigando la respuesta de evitación. Sin em-
bargo, el castigo de la respuesta de evitación produce algunas veces efectos contrarios
a los esperados, aumentando la respuesta de evitación en lugar de disminuirla (v.gr.,
Bolles y Riley, 1973). Aparentemente, un procedimiento simple y directo para eliminar
la respuesta de evitación sería presentar la señal de aviso sin que fuera seguida del
reforzador aversivo, es decir, extinguiendo la señal de aviso. No obstante, este procedi-
miento sólo es simple y directo desde la perspectiva del experimentador que lo imple-
menta, pero la propia actuación del sujeto impide que el método funcione. Recordemos
que la respuesta de evitación se da en presencia de la señal de aviso y evita que el
reforzador se presente; una vez el sujeto ha aprendido a dar la respuesta de evitación
dejará de recibir el reforzador aversivo y, como señalábamos arriba, no tendrá oportu-
nidad de experimentar que las contingencias señal de aviso-reforzador aversivo han
cambiado y por tanto no aprenderá nada nuevo. Este procedimiento se convierte en
eficaz con una modificación muy simple, exponiendo al sujeto a la señal de aviso pero
en una situación en la que se impida al sujeto realizar la respuesta de evitación (proce-
dimiento de inundación o prevención de respuesta, Baum, 1970). Este procedimiento
de extinción experimental ha tenido su versión clínica en la terapia de conducta con la
terapia implosiva (v.gr., Lewis y Brewer, 2001) aplicada particularmente al tratamiento
de las fobias.
Interferencia por cambios en el EI o en el reforzador. Veíamos en el apartado previo

que el procedimiento de extinción no siempre resultaba suficiente para conseguir el
cambio conductual, necesitando procedimientos alternativos para conseguirlo. Un ejem-
plo de estos procedimientos que puede aplicarse en cualquier situación, no sólo en
aquéllas en las que la extinción no funciona, consiste en la sustitución de aprendizajes
antiguos por aprendizajes nuevos; en el ejemplo que presentábamos al inicio de este
capítulo la relación entre marcar el número de teléfono X y que aparezca la voz de tu
amigo al otro lado de la línea se sustituye por la relación entre el número de teléfono Z
y la voz de tu amigo al otro lado. En esta situación la información original (el número
de teléfono X) interfiere el aprendizaje de la información nueva (el número de teléfono
Z) de tal modo que algunas veces, aún sabiendo que el número de tu amigo ha cambia-
do puedes terminar marcando el número antiguo; esto se conoce como efecto de inter-
ferencia proactiva puesto que la información antigua interfiere proactivamente (hacia
adelante) con la información nueva. Por otra parte, la información nueva termina inter-
firiendo con la información antigua de tal modo que terminas utilizando siempre el
número nuevo; esto se conoce como efecto de interferencia retroactiva pues la infor-
mación nueva interfiere retroactivamente (hacia atrás) con la información antigua.
Naturalmente, el efecto de interferencia dependerá esencialmente del parecido que ten-
ga la información nueva con la información antigua, siendo mayor cuanto mayor sea
este parecido. Este tratamiento implica dos formas de interferencia y por tanto el posi-
ble establecimiento de dos nuevos aprendizajes, por una parte en este tratamiento se
puede aprender que el marcar el número X ya no va seguido de la voz de tu amigo al
otro lado de la línea (extinción); por otra, se puede aprender que marcando el número Z
consigues hablar con tu amigo. El resultado final, el efecto de interferencia, es que el
sujeto termina actuando de acuerdo con la última información recibida dejando de ac-
tuar de acuerdo con la información aprendida originalmente, en otras palabras, termi-
nas utilizando el número Z para llamar a tu amigo y ya no utilizas el número X.
Como ocurre con otros fenómenos de aprendizaje, los procedimientos y efectos son
indiscutibles puesto que simplemente describen la realidad; sin embargo, nuestro inte-
rés último se centra en descubrir las explicaciones de esos fenómenos o efectos, en
otras palabras, en descubrir qué se aprende en estos procedimientos y qué mecanismos
subyacen a esos efectos. De hecho, la descripción y organización de los fenómenos
descritos en este apartado no ha sido todo lo aséptica que debiera; el hecho de incluir a
la extinción dentro de los fenómenos de interferencia implica la suposición de que en la
extinción se aprende algo nuevo que compite o interfiere con lo aprendido en la adqui-
sición, algo que necesita mayor justificación que la realizada hasta ahora.
En un primer análisis, el efecto de extinción podría considerarse como la conse-
cuencia del desaprendizaje de la relación EC-EI o Respuesta-Reforzador. Igualmente,
el efecto de interferencia por la adquisición de información nueva podría interpretarse
como la combinación del desaprendizaje de la asociación antigua y el aprendizaje de
una nueva relación independiente. La simpleza de la idea del desaprendizaje es atracti-
va, aunque pronto veremos que es incorrecta. En el apartado siguiente comprobaremos
que la adquisición de información nueva en distintas formas de interferencia no conlle-
va la eliminación de la información antigua, tampoco en la extinción.
7.2.- ¿Conllevan desaprendizaje los tratamientos de interferencia?

Como señalábamos al final del apartado previo, la explicación más simple de los
efectos de extinción y otros fenómenos de interferencia es que los procedimientos uti-
lizados conllevan la eliminación de la asociación EC-EI o respuesta-consecuencia apren-
dida originalmente. De hecho, esta explicación de la extinción aparece recogida en
modelos que como el de Rescorla y Wagner (1972) han mantenido su influencia hasta
nuestros días, tal y como veíamos en el capítulo 4. Sin embargo, esta explicación es
incorrecta puesto que existe una variedad de fenómenos que demuestran que la infor-
mación aparentemente borrada puede recuperarse a través de distintos tratamientos que
describiremos brevemente a continuación.
En la explicación de estos fenómenos utilizaremos indistintamente ejemplos de ex-
tinción y de otros tipos de interferencia, dado que estos fenómenos se han encontrado
de forma similar con tratamientos de interferencia diferentes. Igualmente, aunque en
nuestros ejemplos nos centraremos principalmente en situaciones de condicionamiento

clásico o de aprendizaje causal con diseños equivalentes al condicionamiento clásico,
haremos notar que estos fenómenos han sido encontrados igualmente en situaciones de
condicionamiento instrumental.
La inhibición externa o desinhibición. Los primeros ejemplos que demuestran el

error en la interpretación de la interferencia como desaprendizaje de la información
aprendida originalmente ya fueron planteados por Pavlov (1927) en sus estudios de
condicionamiento salival. Este autor encontró que cuando después del establecimiento
de la relación EC-EI se presentaba el EC en extinción, la presentación de un estímulo
nuevo junto al estímulo extinguido producía una recuperación temporal de la respuesta
extinguida que se conoce como inhibición externa o desinhibición. Dado que el estí-
mulo nuevo no elicita la respuesta condicionada, esta recuperación no se le puede atri-
buir directamente, sino a la liberación de la respuesta extinguida de algún tipo de in-
fluencia inhibitoria, recuperación que no podría existir si la extinción hubiera elimina-
do la asociación EC-EI aprendida originalmente. Obsérvese el parecido que tiene este
fenómeno con el fenómeno de deshabituación que veíamos en el capítulo 2. En ambos
casos la presentación del estímulo nuevo produce una recuperación de la respuesta. Sin
embargo, la explicación no puede ser la misma para ambos fenómenos puesto que en el
caso de la desinhibición la respuesta recuperada es una respuesta aprendida, mientras
que en el caso de la deshabituación la respuesta recuperada era una respuesta refleja,
directamente elicitada por el estímulo.
La recuperación espontánea. Pavlov (1927) observó que si dejaba pasar el tiempo

después de aplicar un procedimiento de extinción la respuesta condicionada extinguida
se recuperaba espontáneamente. La recuperación espontánea tras el tratamiento de in-
terferencia es una característica contrastada en distintas situaciones experimentales y
con distintas especies animales, incluido el ser humano. Por ejemplo, Rosas y Bouton
(1996) realizaron una serie experimental con ratas utilizando un procedimiento de aver-
sión condicionada al sabor en el que establecieron primero una relación entre la inges-
tión de un sabor dulce y el malestar gastrointestinal producido por una inyección de
cloruro de litio. Esto llevó a que las ratas rechazaran el sabor dulce cuando se les pre-
sentó de nuevo. La presentación reiterada del sabor dulce en una situación en la que las
ratas estaban sedientas y no tenían otra posibilidad concurrente de bebida llevó a que
consumieran gradualmente más del sabor dulce, manifestándose un efecto de extinción
de la relación sabor-malestar. Sin embargo, cuando la prueba se realizó 24 días después
del último ensayo de extinción las ratas volvieron a manifestar una mayor aversión por
el sabor dulce que las ratas que habían recibido la prueba un día después de la extin-
ción, mostrando una recuperación espontánea de la aversión condicionada extinguida.
Vila y Rosas (2001) presentan otro ejemplo de recuperación espontánea tras la ex-
tinción, esta vez en seres humanos. Estos autores utilizaron un procedimiento de apren-
Figura 7.1. Juicios medios emitidos por los estudiantes acerca de la relación medicamento-enfer-
medad en la prueba realizada después de la adquisición (izquierda) y la prueba realizada después
de la extinción (derecha). La prueba final tuvo lugar inmediatamente después de la extinción en el
grupo 0 y 48 horas más tarde en el grupo 48. La recuperación de la respuesta tras el intervalo de
retención más largo ejemplifica la recuperación espontánea después de la extinción. Basado en
Vila y Rosas (2001).
dizaje predictivo en el que se enseñó a dos grupos de estudiantes la relación existente

entre un medicamento ficticio (Batim) y una enfermedad (dolor de estómago). Tras 12
ensayos en los que se presentó el medicamento seguido por la enfermedad, se preguntó
a los dos grupos de estudiantes por el grado en el que esperaban que apareciera la
enfermedad en presencia del medicamento. En la parte derecha de la figura 8.1 se pre-
sentan los juicios medios emitidos por los estudiantes en esta prueba. Los juicios me-
dios se situaron en torno a 90 acercándose a la relación objetiva existente entre el me-
dicamento y la enfermedad. Posteriormente se expuso a los estudiantes a 12 ensayos de
extinción en los que el medicamento ya no iba seguido por la enfermedad. En la prueba
final los estudiantes fueron cuestionados de nuevo acerca de la relación entre medica-
mento y enfermedad. Esta prueba tuvo lugar inmediatamente después de la extinción
en el grupo 0 y 48 horas más tarde en el grupo 48. Tal y como puede observarse en la
parte derecha de la figura 7.1, los dos días de intervalo entre la extinción y la prueba
(grupo 48) llevaron a una recuperación espontánea de la relación medicamento-enfer-
medad en relación con la prueba realizada inmediatamente después de la extinción
(grupo 0). Rosas, Vila, Lugo y López (2001) encontraron resultados equivalentes usan-
do como tratamiento de interferencia el emparejamiento secuencial del medicamento
con dos enfermedades distintas (fiebre y vigor físico), en vez de con la enfermedad y su
ausencia.
Por último, Rescorla (1996) presenta un ejemplo de recuperación espontánea tras la
extinción instrumental cuyo diseño se presenta en la tabla 7.1 por su interés metodoló-
gico. Este autor entrenó a ratas a realizar dos respuestas instrumentales distintas para
Tabla 7.1
Esquematización del diseño de recuperación espontánea empleado por Rescorla (1996)
Adquisición Extinción 1 Extinción 2 Prueba
R1-C1 R1- (1 día de descanso) R1?

R2-C1 R2- (7 días de descanso) R2?
Nota: R1 y R2 son dos respuestas instrumentales distintas. C1 es la consecuencia (comida). Las

respuestas fueron extinguidas en momentos diferentes del intervalo entre la adquisición y la prue-
ba, de modo que el intervalo extinción-prueba varió permitiendo comprobar la recuperación es-
pontánea al comparar la actuación en la respuesta R1 con la actuación en la respuesta R2.
conseguir comida (presionar una palanca y empujar una pestaña con el hocico, contra-
balanceadas como R1 y R2). Tras entrenar estas dos respuestas por separado se proce-
dió a su extinción en dos sesiones en las que se eliminó la comida de la situación de tal
modo que las ratas dejaron de responder. La extinción de una de las respuestas tuvo
lugar inmediatamente después de la adquisición, mientras que la otra respuesta comen-
zó a extinguirse 5 días más tarde. Finalmente, todas las ratas recibieron la prueba con
las dos respuestas en dos sesiones distintas. La prueba tuvo lugar inmediatamente des-
pués de la extinción para una de las respuestas (R1) y 7 días más tarde para la otra
respuesta (R2). La tasa de respuesta durante la prueba fue mayor en R2 que en R1
reflejando el efecto del intervalo de retención sobre la respuesta instrumental condicio-
nada y replicando en condicionamiento instrumental la recuperación espontánea en-
contrada en condicionamiento clásico. Obsérvese que el diseño utilizado por Rescorla
(1996) tiene una serie de características metodológicamente importantes desde el punto
de vista del control experimental. Es un diseño intrasujeto, con lo que la recuperación
espontánea se demuestra dentro del propio sujeto en dos respuestas distintas, depen-
diendo del momento en el que cada una fuera extinguida. Por otra parte, la prueba se
realiza en el mismo día para ambas respuestas, variando el momento en el que se reali-
zó la extinción; finalmente, las respuestas fueron contrabalanceadas. Todas estas carac-
terísticas son importantes a la hora de establecer un buen control experimental.
El efecto de renovación. Cuando el condicionamiento se realiza en un lugar específico

que denominaremos contexto X y la extinción se lleva a cabo en un contexto distinto
(contexto Y), el regreso al contexto de adquisición durante la prueba produce una recu-
peración de la respuesta condicionada extinguida que se denomina renovación (Bouton
y Bolles, 1979). Como ejemplo de este fenómeno vamos a tomar un experimento reali-
zado por Paredes-Olay y Rosas (1999) en el que un grupo de estudiantes fueron ex-
puestos a una situación en la que un medicamento ficticio podía estar asociado con una
enfermedad inventada (Mal de Polsky). Los sujetos debían emitir un juicio predictivo
sobre la probabilidad de que dicho medicamento provocara el mal de Polsky. Durante
Figura 7.2. Juicios medios emitidos por los estudiantes acerca de la relación medicamento-enfer-
medad a lo largo de los 12 ensayos de la fase de adquisición y los 12 ensayos de extinción en el
estímulo que fue emparejado con la enfermedad durante la adquisición (A) y el que no fue empa-
rejado con ella (B). Los sujetos recibieron la fase de extinción en un contexto distinto al de adqui-
sición. Obsérvese que este cambio de contexto no afectó a los juicios emitidos en el primer ensayo
de extinción en ninguno de los estímulos. Basado en Paredes-Olay y Rosas (1999).
la fase de adquisición el medicamento A iba seguido por la enfermedad en el hospital

X, mientras el medicamento B no iba seguido por enfermedad en el hospital Y. En la
extinción ambos medicamentos se presentaban sin ir seguidos de enfermedad, pero
ahora el medicamento B se presentaba en el hospital X y el medicamento A se presen-
taba en el hospital Y. Es decir, hubo un cambio de contexto entre la adquisición y la
extinción para ambos medicamentos. Esto permitía comprobar si los contextos habían
adquirido algún tipo de fuerza asociativa (es decir, predecían la presencia o la ausencia
de la enfermedad).
En la figura 7.2 se presentan los juicios predictivos emitidos por los sujetos respecto
a la probabilidad de que un determinado medicamento causara el mal de Polsky (de 0,
ninguna, a 9, máxima) a lo largo de los 12 ensayos de adquisición y los 12 ensayos de
extinción. Tal y como vemos, a medida que transcurrió la adquisición los sujetos consi-
deraban cada vez más que el medicamento A iba seguido por la enfermedad en el con-
texto X mientras consideraban que el medicamento B no iba seguido por la enfermedad
en el contexto Y. El cambio de contexto entre la adquisición y la extinción no produjo
ningún efecto apreciable sobre los juicios de los sujetos. No se observaron diferencias
entre el último ensayo de adquisición y el primero de extinción para ninguno de los
medicamentos. Este resultado es importante porque demuestra que los contextos no
adquirieron fuerza asociativa, en otras palabras, que los sujetos aprendieron que eran
los medicamentos y no los hospitales los que causaban la enfermedad. De lo contrario,
cuando preguntáramos por el medicamento A en el contexto Y durante la extinción
Figura 7.3. Juicios predictivos medios emitidos por los estudiantes acerca de la relación medica-
mento-enfermedad en las pruebas realizadas en el contexto Y y en el contexto X. La extinción
tuvo lugar en el contexto Y, por lo que la prueba en el contexto X supuso una vuelta al contexto de
adquisición tras haber recibido la extinción en un contexto distinto. La recuperación que se obser-
va en los juicios ejemplifica el efecto de renovación. Basado en Paredes-Olay y Rosas (1999).
deberíamos haber observado un descenso inmediato en los juicios que no se produjo.

Lo contrario debía haber ocurrido con el medicamento B. Si el contexto X hubiera
llegado a predecir la enfermedad, entonces cuando B se presenta en X durante la extin-
ción los sujetos deberían haber predicho que la enfermedad iba a aparecer, cosa que
tampoco sucedió. La extinción del medicamento A se produjo sin novedad, consideran-
do los sujetos al final que ninguno de los medicamentos causaba la enfermedad en
ninguno de los hospitales.
Durante la prueba se presentó el medicamento A en los contextos X e Y. Tal y como
se observa en la figura 7.3, los sujetos continuaron considerando que A no provocaba la
enfermedad en el contexto de extinción (Y), pero en cambio consideraban que sí la
provocaba en el contexto de adquisición (X). En otras palabras, la vuelta al contexto de
adquisición renovó la idea de que el medicamento causaba la enfermedad.
El efecto de renovación también se ha encontrado cuando la adquisición y la extin-
ción tienen lugar en el mismo contexto y la prueba en un contexto diferente (renova-
ción XXY, v.gr., Bouton y Ricker, 1994; Rosas et al. 2001) o cuando adquisición, extin-
ción y prueba tienen lugar en tres contextos distintos (v.gr., Bouton y Swartzentruber,
1986). Asimismo y al igual que ocurría con la recuperación espontánea, se ha encon-
trado también en condicionamiento instrumental (Nakajima, Tanaka, Urushihara e Imada,
2000) y en situaciones de interferencia distintas de la extinción (Rosas et al., 2001). En
general, estos resultados muestran que la información interferente (v.gr., extinción) es
más susceptible de verse afectada por el cambio de contexto que la información interfe-
rida (v.gr., adquisición), aunque demoraremos esta discusión hasta que entremos a dis-
cutir las explicaciones teóricas de estos fenómenos en el apartado siguiente.
Tabla 7.2
Extracto del diseño del Experimento 1 de García-Gutiérrez y Rosas (2003)
Grupo Adquisición Interferencia Reinstauración Prueba
X- X: -
X: A-C1, B-C2, X: A-C2, Z-C1,
X-C1 S-C1, T-C2, R- S-C1, T-C2, R- X:C1 X:A
Y: S-C1, T-C2, R- Y: S-C1, T-C2, R-
Y-C1 Y:C1
Nota: X e Y son dos contextos (restaurantes) diferentes, A, B, Z, S, T y R son nombres de alimen-

tos; C1 y C2 fueron diarrea y estreñimiento. Los tratamientos relevantes aparecen en negrita.
Todos los sujetos recibieron el mismo entrenamiento de interferencia con el estímulo A, diferen-
ciándose únicamente en la experiencia recibida durante la fase de reinstauración. Los grupos X- e
Y-C1 fueron grupos de control. El experimento original incluyó cuatro grupos de sujetos; aquí
hemos seleccionado únicamente los más relevantes para nuestra exposición.
El efecto de reinstauración. Si después de la extinción presentamos de nuevo la con-

secuencia con la que el estímulo estuvo relacionado originalmente encontraremos que
se produce un aumento en la respuesta condicionada durante la prueba que denomina-
mos reinstauración (Rescorla y Heth, 1975); este fenómeno parece depender de que la
consecuencia se presente en el mismo contexto donde va a tener lugar la prueba. Gar-
cía-Gutiérrez y Rosas (2003) exploraron este fenómeno en interferencia retroactiva.
Utilizaron una técnica similar a la empleada por Rosas et al. (2001) con la salvedad de
que como claves se utilizaron nombres de alimentos, nombres de restaurantes como
contextos y diarrea y estreñimiento como consecuencias. Esencialmente, uno de los
alimentos aparecía relacionado con una consecuencia durante la primera fase del expe-
rimento (A-C1) para después relacionarse con la opuesta durante la segunda fase (A-
C2). Esto debía producir un efecto de interferencia retroactiva, esto es, que el partici-
pante juzgara que A va seguido por la consecuencia C2 en lugar de ir seguido por la
consecuencia C1.
El diseño de su primer experimento aparece recogido en la tabla 7.2 (sólo se recogen
3 de los 4 grupos utilizados). Todos los sujetos recibieron el entrenamiento de interfe-
rencia retroactiva descrito con el estímulo A. El estímulo B fue un estímulo control que
no recibió la interferencia. El resto de los estímulos se utilizaron para igualar la expe-
riencia de los sujetos con las consecuencias a lo largo de todas las fases en los distintos
contextos que se utilizaron. Los grupos difirieron en el tratamiento que recibieron du-
rante la fase de reinstauración. El grupo X- recibió simple exposición al contexto, por
lo que se esperaba que mostrara un efecto de interferencia claro (más respuesta a la
relación A-C2 que a la relación A-C1). El grupo X-C1 recibió exposición a la conse-
cuencia originalmente relacionada con A (C1) durante la reinstauración. Se esperaba
que esto atenuara el efecto de interferencia, llevando a una recuperación parcial de la
relación A-C1, en detrimento de la relación A-C2. Finalmente, el grupo Y-C1 recibió el
Figura 7.4. Diferencia media entre los juicios adscritos a la relación A-C1 y a la relación A-C2
durante la prueba final en los grupos X-, X-C1 e Y-C1. Diferencias negativas implican una actua-
ción acorde con el tratamiento de interferencia (A-C2) mientras que diferencias positivas impli-
can actuación acorde con el tratamiento de adquisición original (A-C1). Los grupos se diferencia-
ron en el tratamiento recibido durante la fase de reinstauración, sólo el grupo X-C1 recibió expo-
sición a la consecuencia C1 en el contexto de prueba. Las diferencias positivas mostradas por ese
grupo en relación con los otros dos ejemplifican el efecto de reinstauración. Adaptado del experi-
mento 1 de García-Gutiérrez y Rosas (2003).
mismo tratamiento que el grupo X-C1, pero en un contexto diferente al de interferencia

y prueba por lo que, asumiendo que la reinstauración depende de que la consecuencia
se presente en estos contextos, debería observarse un efecto de interferencia equivalen-
te al manifestado por el grupo X-.
La figura 7.4 presenta la diferencia media entre las estimaciones que los estudiantes
dieron a la relación A-C1 y A-C2 en la prueba realizada tras la reinstauración. Diferen-
cias positivas indican que los participantes juzgan una relación más fuerte entre la cla-
ve y la primera consecuencia con la que se asocia (C1) que entre la clave y la segunda
consecuencia (C2). Diferencias negativas indican mayor fuerza en la relación clave-
segunda consecuencia que en la relación clave-primera consecuencia. Finalmente, di-
ferencias de cero indican igual relación juzgada con respecto a C1 y a C2. La figura
muestra diferencias positivas para las estimaciones medias respecto al estímulo A en el
grupo X-C1 y diferencias negativas en los grupos X- e Y-C1. Tal y como se esperaba,
apareció reinstauración cuando que la consecuencia se presentó en el contexto de en-
trenamiento, mientras que se encontró interferencia en el caso contrario.
Los fenómenos de inhibición externa, recuperación espontánea, renovación y reins-

tauración tienen en común el demostrar que distintos tratamientos de interferencia, in-
cluida la extinción, no conllevan la eliminación de la información aprendida original-
mente, sea esta una respuesta condicionada clásica o instrumentalmente. Si la interfe-

rencia conllevara la eliminación de la memoria de las relaciones EC-EI o respuesta-
consecuencia que se establecieron durante la adquisición no se podría producir la re-
cpueración de esta información que venimos describiendo. En el apartado siguiente
trataremos de presentar una explicación integradora de estos fenómenos desde el punto
de vista de las teorías de la recuperación de la información.
7.3.- Explicación de los fenómenos de recuperación de la información tras la inter-

ferencia
La explicación más completa de los fenómenos relacionados con la interferencia
que detallábamos en el apartado previo integra aspectos que tienen que ver con la me-
moria y los factores que afectan a la recuperación de la información por lo que será
necesaria una pequeña introducción acerca del olvido y las causas que lo producen.
El olvido se define desde una perspectiva operacional como el deterioro en la actua-
ción que se produce entre el momento de la adquisición de la información y el momen-
to de la prueba de memoria. Este olvido puede estar motivado por distintas razones,
desde el simple paso del tiempo hasta el cambio en el contexto o lugar donde la infor-
mación se adquiere y se prueba. Un análisis de la literatura muestra que son muchos los
ejemplos en los que el simple paso del tiempo o el cambio de contexto no afecta a la
recuperación de la información (véase por ejemplo la ausencia de efectos del cambio de
contexto sobre la recuperación de la información que encontramos en la figura 8.2).
Así, se ha sugerido que el factor fundamental que dificulta el acceso a la información es
la interferencia por la competición entre informaciones similares, incluyendo la adición
de nuevo significado a una información ya aprendida (v.gr., Bouton, 1993). A partir de
aquí, la memoria de la información interferente está más accesible que la de la informa-
ción interferida, aunque ésta puede recuperarse si se dan las circunstancias adecuadas.
Tal y como veíamos en el apartado previo, las principales circunstancias que favorecen
la recuperación de la información que ha recibido interferencia son el paso del tiempo
(recuperación espontánea), el cambio de contexto (renovación) y la exposición a la
consecuencia primigenia antes de la prueba (reinstauración).
La similitud entre los efectos del cambio de contexto y del paso del tiempo ha lleva-
do a Bouton (1993) a sostener que ambos reflejan el mismo mecanismo subyacente en
una aproximación que considera que el paso del tiempo es una forma particular de
cambio de contexto (Bouton, Nelson y Rosas, 1999). Así, la recuperación espontánea
aparece en las mismas situaciones en las que aparece la renovación (v.gr., Rosas et al.,
2001); igualmente, cuando presentamos durante la prueba una clave que ha estado pre-
sente durante el tratamiento de interferencia, la recuperación espontánea y la renova-
ción se atenúan en la misma medida (Brooks y Bouton, 1993); por último, el efecto del
paso del tiempo y del cambio de contexto son aditivos, de tal modo que cuando se
manipulan conjuntamente estos dos factores la recuperación de la información es ma-
yor que cuando se manipula cada uno por separado (Rosas y Bouton, 1997, 1998;
Rosas et al., 2001). Todas estas coincidencias llevaron a Bouton y a sus colegas a sos-
tener que recuperación espontánea y renovación son dos formas parecidas de recupera-
ción de la información por el cambio de dos contextos distintos, uno temporal y el otro
físico.
Bouton (1994) extendió la explicación del cambio de contexto a la reinstauración.
Las interpretaciones tradicionales de la reinstauración suponían que la presentación de
la consecuencia en ausencia de la clave llevaba a la formación de un aprendizaje nuevo.
Por ejemplo, Rescorla y Heth (1975) sostenían que la presentación de la consecuencia
llevaría a la formación de una asociación contexto-consecuencia que se sumaría a los
restos de la asociación clave-consecuencia que sobreviven a la extinción dando como
resultado la reinstauración de la respuesta. Bouton (1994) realiza una sugerencia dis-
tinta; conociendo que extinción e interferencia son dependientes del contexto donde se
adquieren, sostiene que la presentación de la consecuencia en el contexto podría llevar
a que éste se transformara en un contexto perceptualmente diferente gracias a su aso-
ciación con la consecuencia, con el resultado de que la prueba se realiza en un contexto
virtualmente distinto al contexto en el que tiene lugar la extinción. Si esto fuera así, la
reinstauración de la respuesta durante la prueba estaría provocada por haber realizado
la prueba en un contexto diferente al contexto donde tuvo lugar la interferencia, provo-
cando el olvido de la información interferente y la recuperación de la información ori-
ginal. El fenómeno de reinstauración se interpretaría entonces como un caso especial
de renovación XXY.
García-Gutiérrez y Rosas (2003) realizaron una serie de experimentos en los que
trataron de contrastar esta idea. Después de la demostración del efecto de reinstaura-
ción tras la interferencia que veíamos en la figura 8.4, estos autores diseñaron una
situación que permitía discernir entre la interpretación de reinstauración como un caso
especial de renovación de las que interpretan el fenómeno como un nuevo aprendizaje.
Observaron que si la reinstauración era debida a un cambio en el contexto causado por
los emparejamientos contexto-consecuencia, el cambio contextual debiera de producir-
se igual independientemente de cual fuera la consecuencia utilizada.
Emplearon un diseño de 4 grupos que recibían un tratamiento similar al que se ob-
serva en la tabla 8.2. Los grupos se diferenciaban en la consecuencia que se presentaba
durante la fase de reinstauración. En el grupo X-C1 se presentó la consecuencia empa-
rejada originalmente con la clave A; e el grupo X-C2 se presentó la consecuencia em-
parejada con A durante la interferencia; en el grupo X-C3 se presentó una consecuencia
nueva (vómito). Finalmente, el grupo Y-C2/C3 fue un grupo de control en el que se
presentaron las consecuencias C2 y C3 pero en un contexto distinto al contexto en el
que tuvo lugar el aprendizaje y la prueba (la mitad de los sujetos recibieron exposición
a C2 y la otra mitad a C3).
La figura 7.5 recoge la diferencia entre la probabilidad adscrita a la relación A-C1 y
la adscrita a la relación A-C2 durante la prueba final tras el tratamiento de reinstaura-
ción. Recordemos que diferencias negativas implican una actuación de acuerdo a la
Figura 7.5. Diferencia media entre los juicios adscritos a la relación A-C1 y a la relación A-C2
durante la prueba final en los grupos X-C1, X-C2, X-C3 e Y-C2/C3. Diferencias negativas impli-
can una actuación acorde con el tratamiento de interferencia (A-C2) mientras que diferencias
positivas implican actuación acorde con el tratamiento de adquisición original (A-C1). La atenua-
ción de las diferencias negativas encontrada en los grupos X-C1, X-C2 y X-C3 muestran que la
reinstauración se produce independientemente de la consecuencia que se presente, siempre que
ésta se presente en el contexto donde tuvo lugar el entrenamiento (X). Basado en el experimento
4 de García-Gutiérrez y Rosas (2003).
situación de interferencia (probabilidad adscrita a A-C2 mayor que A-C1), mientras

que diferencias positivas implican recuperación de la primera relación aprendida (A-
C1) en detrimento de la información interferente (A-C2). Tal y como puede observarse
en la figura, en el grupo control (Y-C2/C3) los sujetos juzgaron que la clave A iba
seguida por la consecuencia C2 (diferencias negativas muy altas) mostrando que la
presentación de las consecuencias fuera del contexto de prueba tenía poca influencia
sobre la interferencia. Sin embargo, la presentación de la consecuencia en el contexto
de prueba produjo una recuperación de la relación A-C1 en detrimento de la relación A-
C2, y esto ocurrió independientemente de que la consecuencia presentada fuera la pri-
mera asociada con A, la segunda, o una consecuencia nueva. Estos resultados confir-
man las predicciones de la teoría de la recuperación de la información de Bouton (1994)
sugiriendo que la reinstauración es un caso especial de renovación XXY, en el que los
emparejamientos contexto-consecuencia cambian las características asociativas del pri-
mero, lo convierten en un contexto nuevo y como resultado se dificulta la recuperación
de la información interferente y facilita la recuperación de la información interferida.
El conjunto de los resultados expuestos sugiere que reinstauración, renovación y
recuperación espontánea son todos efectos en los que la recuperación de la información
interferente se ve dificultada por un cambio en las características del contexto, sean
éstas asociativas, físicas o temporales, respectivamente. Así, tendríamos dos factores

principales que regulan la recuperación de la información, la interferencia y el cambio
de contexto. Ahora bien, ¿por qué este cambio de contexto produce un deterioro en la
recuperación de la información interferente y no lo produce en la recuperación de la
información original?
Bouton (1993, 1994) sostiene que hay dos razones por las que una información se
convierte en más dependiente del contexto que otra: que sea una información inhibito-
ria (v. gr., la extinción) o que sea aprendida en segundo lugar. En la situación experi-
mental que venimos presentando en la que un mismo estímulo se relaciona secuencial-
mente con dos consecuencias distintas, el efecto del cambio de contexto sobre la recu-
peración de la información se produciría por dos razones. Por una parte, cuando rela-
cionamos la clave con su segunda consecuencia estamos extinguiendo la relación cla-
ve-primera consecuencia, la extinción es información inhibitoria, se verá afectada por
el cambio de contexto llevando a una reactivación de la asociación clave-primera con-
secuencia durante la prueba. Por otra parte, la relación clave-segunda consecuencia es
lo segundo que el sujeto aprende acerca de la clave, información que de acuerdo con
Bouton (1994) también se verá afectada por el cambio de contexto que dificultará su
recuperación.
Sin embargo, un análisis más detallado de la situación nos lleva a notar que la infor-
mación inhibitoria en este caso (extinción de la relación clave-C1) es al mismo tiempo
información aprendida en segundo lugar. Siguiendo este razonamiento en una serie
experimental en la que contrasta la dependencia contextual de la inhibición y la excita-
ción condicionada, Nelson (2002) encuentra que el efecto de cambio de contexto sólo
se manifiesta cuando la información, sea excitatoria o inhibitoria, se aprende en segun-
do lugar, revelando una simetría entre la excitación y la inhibición. Así, una vez esta-
blecido que la información dependiente de contexto es la aprendida en segundo lugar,
la pregunta de verdadero interés teórico es por qué esa información se hace dependien-
te del contexto.
Bouton (1993) tiene una respuesta natural a esta cuestión, sosteniendo que la segun-
da información acerca de una clave se hace dependiente del contexto porque cuando la
clave pasa de proporcionar una información consistente a proporcionar una informa-
ción ambigua los sujetos comienzan a prestar atención al contexto en una búsqueda
automática que rompa la ambigüedad en el significado de la clave. Esto explicaría por
que la segunda información adquirida acerca del significado de una clave es depen-
diente del contexto donde se aprende, mientras que no ocurre lo mismo con la primera
información que se transfiere de forma similar a distintos contextos.
Rosas, García-Gutiérrez y Callejas-Aguilera (2005) dan una vuelta de tuerca más a
este razonamiento. De acuerdo con estos autores, si profundizamos en el razonamiento
dado por Bouton (1994), la especificidad del contexto no dependerá de que la informa-
ción posea alguna característica especial, sino más bien de alguna característica especí-
fica de la situación que conduce a los participantes a prestar atención al contexto. Así,
si lo que hace a la información específica del contexto es que la ambigüedad de la

información lleva a que los participantes comiencen a prestarle atención, una vez que el
contexto se convierte en relevante por la aparición de información ambigua, cualquier
información que los participantes aprendan en dicho contexto se convertirá en especí-
fica del mismo, independientemente de si la información es la primera o la segunda
cosa que los participantes aprenden acerca de la clave o de si este aprendizaje es inhibi-
torio o excitatorio. Rosas et al. (2005) encuentran que cualquier información que se
aprenda en un contexto donde ha tenido lugar interferencia se convierte en específica
del contexto, sugiriendo que el factor fundamental que explica los efectos de reinstau-
ración, renovación y recuperación espontánea es el cambio atencional que se produce
durante la fase de interferencia, que lleva a que toda la información que se presente a
partir de ese momento se convierta en dependiente del contexto.
7.4.- Contenidos de la extinción: las asociaciones inhibitorias

En los apartados previos hemos visto que la extinción no conlleva un desaprendiza-
je de la asociación establecida originalmente y que lo que el sujeto aprende durante la
interferencia no se transfiere bien a contextos diferentes. En el análisis de este tipo de
aprendizajes nos hemos olvidado intencionadamente de profundizar en que es lo que el
sujeto aprende durante la extinción. Sabemos que la extinción no implica el desapren-
dizaje de la asociación establecida originalmente e implícitamente hemos apuntado en
varios lugares que supone el establecimiento de un nuevo aprendizaje de carácter inhi-
bitorio que se superpone al aprendizaje excitatorio original y que dificulta su manifes-
tación. Ahora bien, ¿cuál es específicamente el aprendizaje que se establece durante la
extinción?
La primera respuesta a esta pregunta es considerar que durante la extinción se esta-
blece una asociación inhibitoria entre el EC y el EI, o entre la respuesta y la consecuen-
cia según el caso (v.gr., Konorski, 1948; Pearce y Hall, 1980). Esta asociación no podía
ser igual a la inhibición condicionada puesto que un estímulo extinguido no pasa la
prueba de sumación (v.gr., Reberg, 1972; aunque véase Calton, Mitchell y Schacht-
man, 1996 para una demostración, si bien poco convincente, de lo contrario). Igual-
mente, el estímulo extinguido tampoco pasa la prueba de retraso, salvo en situaciones
en las que la extinción se prolonga más allá de la asíntota (v. gr., Bouton, 1986).
El análisis de los contenidos de la extinción se vio favorecido por el desarrollo de la
técnica de transferencia que presentábamos en el capítulo 5 (Colwill y Rescorla, 1988).
Recordemos que ese procedimiento nos permitía comprobar la existencia de una aso-
ciación estímulo-consecuencia a través de la capacidad del estímulo para elevar la res-
puesta instrumental que había estado relacionada con la misma consecuencia en el pa-
sado (véase la figura 5.3). Delamater (1996) encontró en ratas que la extinción de la
clave no afectaba a la transferencia que seguía manifestándose independientemente de
que el estímulo recibiera extinción antes de la prueba. Rescorla (1993) encontró la
misma ausencia de efectos de la extinción sobre la transferencia en el caso del condi-
cionamiento instrumental. Este resultado nulo no podría darse si los sujetos establecie-
ran una relación clave-no consecuencia durante la extinción, puesto que esta asocia-
ción inhibitoria llevaría a que la transferencia desapareciera. Resultados de este tipo
han llevado a Rescorla (1993, 1996) a proponer que la asociación inhibitoria durante la
extinción se establece entre el estímulo y la respuesta específica que se extingue, una
idea muy similar a la de inhibición reactiva específica de la respuesta que había sido
propuesta por Hull (1943). Los resultados de estos últimos experimentos no han sido
todavía replicados en seres humanos por lo que la cuestión de si en seres humanos el
aprendizaje durante la extinción implica la misma inhibición estímulo-respuesta o es
un aprendizaje distinto permanece aún abierta.
7.5.- Contenidos de la extinción: el efecto del reforzamiento parcial

En el apartado previo hemos incidido en el tipo de aprendizaje que puede producirse
durante la extinción; aunque no hemos hecho alusión explícita a ello, implícitamente
hemos considerado aquellas situaciones en las que la relación EC-EI o respuesta-con-
secuencia mantienen un reforzamiento continuo durante el aprendizaje. Sin embargo,
cuando hablábamos del condicionamiento instrumental y de los programas de reforza-
miento veíamos que en muchas situaciones la relación respuesta-consecuencia no es
perfecta, dando como resultado un reforzamiento parcial o intermitente.
Por ejemplo, cuando introducimos dinero en una máquina expendedora de refrescos
lo habitual es que consigamos el refresco deseado todas y cada una de las veces que
hemos introducido nuestro dinero. Sin embargo, cuando intentamos llamar a un amigo
podemos encontrarnos con que algunas veces no se encuentra disponible, tiene el telé-
fono desconectado o lo tiene fuera de cobertura; así, aunque consigamos ponernos en
contacto con nuestro amigo muchas veces, no siempre que lo llamamos conseguimos
hablar con él. El primer ejemplo descrito es un ejemplo de reforzamiento continuo,
mientras que el segundo es un ejemplo de reforzamiento intermitente. La pregunta que
nos podemos hacer lícitamente es si estas dos formas de establecer el aprendizaje ten-
drán efectos diferenciales sobre la extinción, y lo cierto es que los tienen. Humphreys
(1939) encontró que la extinción después del reforzamiento parcial se producía más
lentamente que después del reforzamiento continuo. Imagina que se ha estropeado la
máquina expendedora y cuando introduces la moneda (respuesta) no obtienes tu refres-
co (consecuencia), ¿cuántas monedas más introducirás en la máquina antes de conside-
rarla estropeada (extinción)? Probablemente muy pocas. Ahora pensemos en el otro
ejemplo, imagina que a tu amigo se le ha estropeado su teléfono móvil mientras está de
viaje, ¿cuántas veces intentarás llamarlo antes de darte por vencido? Probablemente
muchas más que en el caso de las monedas. Este ejemplo ilustra el efecto del reforza-
miento parcial en la extinción (ERPE). Aunque la mayoría de los trabajos de reforza-
miento parcial se han realizado en el ámbito del condicionamiento instrumental, re-
cientemente se ha encontrado este mismo efecto en situaciones de condicionamiento
clásico (Rescorla, 1999).
Explicaciones del ERPE. La primera explicación de este efecto se ha denominado

hipótesis de la discriminación y parece la respuesta más natural al ERPE. La base de
esta hipótesis radica en que objetivamente es más fácil discriminar la extinción en el
caso del reforzamiento continuo que en el caso del reforzamiento parcial. Retomando
los ejemplos anteriores, es muy fácil detectar una avería en la máquina expendedora
puesto que cada respuesta iba seguida de reforzador antes de que se produjera la avería,
en el momento en que una respuesta quede sin recompensa notas algo diferente y pue-
des cambiar tu conducta dejando de introducir monedas. Sin embargo, en el caso del
teléfono de nuestro amigo es mucho más difícil detectar que el teléfono se ha estropea-
do y que nuestro amigo ya no podrá respondernos. Cuando no recibamos respuesta a
nuestra llamada no sabremos si coincide con un periodo inusualmente largo en el que
nuestro amigo resulta difícil de encontrar o si realmente se le estropeó el teléfono, por
lo que seguiremos intentando llamarlo durante mucho más tiempo que en el caso pre-
vio. Aunque esta explicación puede parecer razonable hace ya tiempo que se conoce
que es incorrecta. Theios (1962) y Jenkins (1962) desarrollaron independientemente
dos experimentos en los que emplearon un diseño muy simple. Ambos sostenían que si
el problema del ERPE era la discriminación entre las fases de adquisición y extinción
bastaría interponer entre las dos fases una fase de reforzamiento continuo para que la
extinción fuera equivalente en ambos casos. Retomemos el ejemplo del teléfono de
nuestro amigo, si después de una temporada en la que lo encontramos sólo algunas de
las veces que lo llamamos (reforzamiento parcial), mantenemos una temporada en la
que siempre responda a nuestras llamadas (reforzamiento continuo), estaríamos en si-
tuación de detectar perfectamente cuando se le estropea su teléfono, con lo que en
cuanto dejara de responder a alguna de nuestras llamadas dejaríamos de intentarlo.
Theios y Jenkins encontraron que la interposición de un periodo de reforzamiento con-
tinuo antes de la extinción no eliminaba el efecto del reforzamiento parcial, de lo que se
concluye que la razón por la que ocurre el ERPE no es una cuestión de discriminación
sino de que los sujetos aprenden algo distinto durante el reforzamiento parcial que
durante el reforzamiento continuo.
A la hora de explicar qué se aprende durante el reforzamiento parcial que lleva a que
la extinción se produzca más lentamente se han tomado fundamentalmente dos aproxi-
maciones, la teoría secuencial (Capaldi, 1967) y la teoría de la frustración (Amsel,
1967, 1992). Ambas teorías suponen que durante el reforzamiento parcial el sujeto
aprende a seguir respondiendo en ausencia del reforzamiento. La teoría secuencial
hace hincapié en aspectos de la memoria. Considera que el recuerdo de las consecuen-
cias de la última respuesta actúa como estímulo discriminativo de la respuesta siguien-
te. Así, en la situación en la que reciben reforzamiento continuo los sujetos aprenden
exclusivamente que la respuesta en presencia del recuerdo de reforzamiento va seguida
de refuerzo. En cambio, en los sujetos entrenados con reforzamiento parcial el aprendi-
zaje es más complejo. Recordemos que en la situación de reforzamiento parcial el suje-
to recibe ensayos no reforzados y ensayos reforzados entremezclados. Imaginemos una
situación en la que la secuencia de ensayos sea R 1 N1 N2 R2 N3 R3 R4 N4 , donde N represen-

ta la ausencia de reforzamiento y R representa la presencia de reforzamiento. En el
ensayo N1 el sujeto aprende que la respuesta emitida cuando está presente el recuerdo
del reforzamiento de la respuesta previa (R1 ) no va seguida de refuerzo. Lo mismo
ocurre con el ensayo N2 , en el que aprende que la respuesta en presencia del recuerdo
de ausencia de reforzamiento (N1 ) no va seguida de refuerzo. En el ensayo R4 el sujeto
aprende que la respuesta en presencia del recuerdo de reforzamiento (R3 ) va seguida de
refuerzo, lo mismo que en el caso del reforzamiento continuo. Sin embargo, el aprendi-
zaje fundamental radica en los ensayos del tipo R3 , en los que responder en presencia
del recuerdo de la ausencia de reforzamiento (N3 ) va seguido de refuerzo. En estos
ensayos el sujeto aprende a continuar respondiendo cuando recuerda no haber sido
reforzado en el ensayo previo puesto que la persistencia de la respuesta a veces le
consigue un premio. En el ejemplo del amigo al que intentamos localizar aprendemos
que muchas veces nuestro amigo termina respondiendo a nuestra llamada incluso cuan-
do nuestra llamada previa no haya conseguido respuesta, lo que nos lleva a insistir
hasta conseguirlo.
La teoría de la frustración realiza su análisis desde la perspectiva de la motivación.
Parte del hecho de que la ausencia de un reforzamiento esperado produce frustración y
la frustración lleva al sujeto a alejarse de la situación que se la produce. Durante el
entrenamiento con reforzamiento parcial la ausencia de recompensa en los ensayos no
reforzados genera frustración en el sujeto. Sin embargo, los sujetos que continúan res-
pondiendo cuando se encuentran frustrados obtienen muchas veces recompensa por
sus respuestas. Esto les permite aprender a continuar con su respuesta incluso cuando
la respuesta previa no haya sido reforzada y se encuentren frustrados, lo que les lleva a
mantener la respuesta durante mucho más tiempo en la situación de extinción. En cam-
bio, en el caso del reforzamiento continuo los sujetos no tienen oportunidad de apren-
der a seguir respondiendo en presencia de la frustración por lo que cuando comienza la
extinción y aparece la frustración la respuesta desaparece rápidamente.
Como señalábamos al principio, ambas teorías tienen en común el considerar que
durante el reforzamiento parcial el sujeto aprende a mantener su respuesta bien en el
recuerdo de no haber sido reforzado por su respuesta previa, bien en presencia de un
sentimiento de frustración. Ambas teorías han recibido un respaldo empírico conside-
rable lo que hace pensar que quizá no resulten tan incompatibles como se han demos-
trado en la literatura, dado que cada teoría incide en aspectos distintos del aprendizaje,
una en aspectos de memoria y otra en aspectos motivacionales.
7.6.- Resumen
En este capítulo nos hemos centrado en el análisis de los efectos de extinción y otras
formas de interferencia y de sus explicaciones teóricas. El procedimiento de extinción
consiste en la presentación del EC sin el EI o de la respuesta sin la consecuencia. Esto
produce un efecto de extinción que se manifiesta como un descenso en la respuesta
condicionada. Este procedimiento de extinción no resulta útil en los casos de inhibi-

ción condicionada, donde para conseguir que se produzca la extinción es necesario
recurrir a otros procedimientos de interferencia en los que el significado de la clave o
de la respuesta se cambian completamente, lo que lleva a que el sujeto actúe de acuerdo
con la información reciente que posee.
La interpretación del descenso en la respuesta condicionada en las situaciones de
interferencia no puede interpretarse como una eliminación de la asociación EC-EI o
respuesta-consecuencia, sino por el establecimiento de un nuevo aprendizaje que inhi-
be la expresión del anterior. Inhibición externa, recuperación espontánea, renovación y
reinstauración son fenómenos que demuestran que basta la presencia de un estímulo
nuevo, el simple paso del tiempo, un cambio de contexto o la exposición a la conse-
cuencia después del tratamiento de interferencia para que la información original se
recupere, demostrando que el tratamiento de interferencia no conlleva el desaprendiza-
je de esa información. Desde la teoría de la recuperación de la información todos estos
fenómenos se han interpretado como formas distintas de cambio contextual, llegando a
la conclusión de que el factor fundamental que produce el olvido de la información
interferente y la recuperación de la información original es el cambio en el contexto
donde tiene lugar la interferencia. Resultados recientes sugieren que este efecto se pro-
duce porque el cambio en las consecuencias del estímulo o de la respuesta durante el
tratamiento de interferencia lleva al sujeto a prestar atención al contexto donde la inter-
ferencia tiene lugar, codificando ese contexto como parte de la información aprendida.
Así, cuando el contexto cambia la información no se recupera.
La extinción parece dar lugar al establecimiento de una relación inhibitoria entre el
estímulo y la respuesta, de modo que el sujeto aprende a no emitir esa respuesta concre-
ta en presencia del estímulo extinguido. Por otra parte, parece que el aprendizaje que se
produce en el caso del reforzamiento continuo es distinto del que se produce en el caso
del reforzamiento parcial, dado que la extinción se produce más lentamente en este
último (efecto del reforzamiento parcial en la extinción). A la hora de explicar estos
resultados la teoría secuencial sostiene que en el reforzamiento parcial el sujeto tiene la
oportunidad de aprender que si sigue respondiendo cuando recuerda no haber sido re-
forzado su respuesta puede producirle premio; la teoría de la frustración sostiene que
en la situación de reforzamiento parcial el sujeto puede aprender que mantener su res-
puesta cuando se siente frustrado por no haber recibido reforzamiento por su respuesta
previa puede llevarle a conseguir el reforzador. Estos aprendizajes no pueden desarro-
llarse en la situación de reforzamiento continuo puesto que el reforzamiento continuo
no produce respuestas sin consecuencias ni da ocasión a la frustración. Ambas teorías
tienen en común la idea de que el efecto de reforzamiento parcial en la extinción se
produce porque los sujetos aprenden a persistir en su respuesta, bien en el recuerdo de
ausencia de reforzamiento, bien cuando se sienten frustrados.
Capítulo 8
El aprendizaje vicario
En todos los ejemplos y teorías del aprendizaje que hemos presentado hasta el mo-
mento hemos hecho hincapié en el aprendizaje que se produce a través de la experien-
cia individual. La propia definición de aprendizaje que presentábamos en el capítulo 1
sostiene que el aprendizaje depende de la experiencia con eventos ambientales especí-
ficamente relacionados con la conducta (p. 9) e implícitamente lo hemos interpretado
como si el aprendizaje dependiera de la experiencia directa del individuo con las con-
tingencias ambientales o con los resultados que le producen sus propias acciones. No
obstante, esta interpretación está sesgada, en la definición no se explicita que la expe-
riencia con eventos ambientales tenga que experimentarla el sujeto en carne propia,
sería posible y de hecho lo es, que pudiéramos aprender a partir de las experiencias que
tienen los demás.
Imaginemos que tomamos un grupo de monos que han pasado su vida en el labora-
torio. Los monos criados en la naturaleza muestran reacciones de miedo cuando se les
presenta una serpiente, sin embargo, los monos criados en el laboratorio, como nunca
han tenido experiencias con serpientes no dan muestras de tener miedo, lo que puede
resultarles muy peligroso en el ambiente natural dado que las serpientes les pueden
causar daños físicos importantes, incluso la muerte. Teniendo en cuenta que los monos
viven en ambientes donde la serpiente es un animal común, si tuvieran que aprender la
importancia de las serpientes a través de su propia experiencia con ellas probablemente
se hubieran extinguido hace tiempo. Mineka, Davidson, Cook y Kerr (1984) realizaron
varios experimentos en los que presentaron a estos monos ingenuos imágenes de video
en las que aparecía una serpiente seguida por una reacción de miedo en otro mono de su
especie. Tras esta experiencia, los mismos monos que inicialmente no manifestaban
ningún temor ante la serpiente comenzaron a temerlas, a pesar de que nunca habían
tenido una experiencia directa desagradable con ellas. Aprendieron de los otros monos
que las serpientes eran algo peligroso a lo que había que temer. No obstante, conviene
hacer una precisión. Cuando hablábamos de la asociación selectiva en el capítulo 3
destacábamos que había formas de condicionamiento clásico que resultaban más fáci-
les de establecer que otras, veíamos que resultaba más fácil establecer relaciones entre
sabores y malestar gastrointestinal que entre sabores y descargas eléctricas, por ejem-
plo. Lo mismo parece ocurrir con el aprendizaje vicario, los monos de Mineka et al.
153
(1984) no aprendieron a tener miedo a las flores cuando fueron entrenadas del mismo
modo que habían sido entrenadas las serpientes.
El aprendizaje vicario u observacional está ligado al aprendizaje social; es el proce-
so por el que se transmiten los logros sociales a través de generaciones, supone una
forma de transmisión cultural en la que el sujeto aprende a partir de las experiencias de
un modelo que puede ser real o simbólico, como ocurre en las imágenes televisadas o
en los mensajes lingüísticos. De hecho, los monos del ejemplo anterior recibían la ex-
periencia vicaria por medio de un video.
7.1.- El aprendizaje vicario en animales no humanos

El aprendizaje vicario es una forma de aprendizaje más compleja que el aprendizaje
a través de la propia experiencia. En el ejemplo con el que comenzábamos este capítulo
observábamos que al menos algunos animales distintos del ser humano son capaces de
aprender a partir de las experiencias de los demás. De entrada, siendo una forma de
transmisión social del conocimiento, sólo las especies que desarrollen su vida en socie-
dad, como los monos, los perros o las ratas podrían tener ventaja en desarrollar esta
capacidad. Sin embargo, aunque el aprendizaje vicario supone una gran ventaja para
adaptarse al medio, no todas las especies son capaces de desarrollar este tipo de apren-
dizaje, como veremos en las páginas siguientes.
El ejemplo que presentábamos al inicio del capítulo permite comprobar como algu-
nos animales pueden aprender de sus congéneres a tener miedo a posibles depredado-
res. En el resto de este apartado vamos a ver como el aprendizaje vicario resulta eficaz
en otra serie de situaciones como la búsqueda de la dieta o el aprendizaje del canto.
Selección y búsqueda de la dieta. Uno podría pensar que la selección de la dieta es

algo personal, sin embargo, lo que comemos está determinado en gran parte por nuestra
cultura gastronómica; por ejemplo, los gusanos de maguey o los chapulines son consi-
derados platos exquisitos por muchos mexicanos, mientras que a muchos miembros de
nuestra sociedad les costaría considerarlos comestibles. Lo que comemos está en mu-
chos casos determinado por lo que vemos comer. Por ejemplo, si a una rata le damos de
comer cacao o canela y después colocamos a otra rata en su compañía, ya sin comida
disponible, cuando después le demos a escoger a esta nueva rata entre el cacao y la
canela se decantará preferentemente el sabor que haya ingerido la primera rata (Galef,
1988). Igualmente, cuando una rata recibe un alimento inocuo, por ejemplo sacarina
disuelta en agua, y después se expone a otra rata que ha sido previamente envenenada
y que muestra signos evidentes de malestar, la primera rata termina rechazando el sabor
que le habíamos presentado, a pesar de que no haya sufrido la enfermedad en sí misma.
Este resultado se conoce como efecto del compañero envenenado (v.gr., Coombes,
Revusky y Lett, 1980) y parece depender de la intensidad del sabor al que se exponga
la rata observadora, apareciendo sólo cuando el alimento tiene un sabor intenso (Iraola
y Alonso, 1995).
A PRENDIZAJE VICARIO 155
Aprendizaje del canto en las aves. La comunicación vocal de las aves puede catego-
rizarse en llamadas y cantos. Las llamadas tienden a ser breves y permiten el reconoci-
miento individual, el cortejo e incluso sirven para comunicar información específica
sobre depredadores. Por ejemplo, los pollos domésticos tienen al menos dos tipos de
llamadas de alarma, uno para depredadores aéreos y otro para depredadores de tierra
(Klump y Shalter, 1984). Estas llamadas son heredadas y el aprendizaje influye poco en
ellas. El canto es una actividad más compleja, cumple la misma función que las llama-
das pero en él sí es importante el aprendizaje. Thorpe (1963) demostró que los pinzones
sólo podían desarrollar el canto cuando habían escuchado el canto de un pinzón adulto
mientras eran polluelos. De modo similar, el gorrión de la corona blanca tiene un canto
diferente según el grupo del que proceda, el desarrollo de este canto depende de que el
polluelo haya recibido exposición al canto de un adulto durante un periodo sensible
comprendido entre los 10 y los 50 días de edad. Fuera de ese periodo el gorrión no es
capaz de aprender el canto, al menos no con facilidad (Marler, 1970).
Llamadas de alarma en los monos. Los monos Tato viven en bandas y habitan en
áreas de la sabana del sur de África y del Sáhara. Estos monos tienen llamadas diferen-
tes para hacer referencia a amenazas distintas, por ejemplo, existe una llamada especí-
fica para los depredadores aéreos y, cuando un miembro de la banda emite esta llama-
da, el resto de los miembros otean el cielo y huyen al interior de un arbusto para prote-
gerse. Igualmente, tienen otra llamada para indicar la presencia de un leopardo que
provoca la huida hacia los árboles, otra para las serpientes, otra para los mandriles, etc.
Las propiedades físicas de las llamadas están determinadas genéticamente, sin embar-
go, es la interacción con el resto de la banda la que lleva a que las llamadas se concen-
tren gradualmente en los depredadores apropiados (Seyfarth y Cheney, 1993).
7.2.- Mimetismo, imitación y condicionamiento observacional

En el apartado previo hemos visto una selección de ejemplos en los que el aprendi-
zaje vicario se manifiesta en distintas especies y situaciones. En este apartado vamos a
intentar profundizar un poco más en este tipo de aprendizaje para tratar comenzar a
analizar cuales son los mecanismos posibles que guían el aprendizaje vicario en anima-
les, antes de centrarnos en aspectos del aprendizaje vicario que son especialmente hu-
manos.
Antes de comenzar con el análisis del mimetismo y la imitación conviene descartar
de este análisis la conducta contagiosa, una forma de reproducción conductual que no
parece tener que ver con aspectos aprendidos por lo que no estaría dentro de la discu-
sión del aprendizaje vicario. La conducta contagiosa ocurre cuando la respuesta de un
animal provoca automáticamente la misma respuesta en otro animal, por ejemplo el
bostezo en seres humanos o el ladrido en perros.
El mimetismo implica la copia de una respuesta por observación, en ausencia de
recompensa tangible. Muchos de los ejemplos de mimetismo en animales no humanos
proceden de la observación casual y están abiertos a varias interpretaciones. No obs-

tante, existe un caso que podría interpretarse como mimetismo. Moore (1992) entrenó
a un loro gris africano pronunciando una frase, realizando un movimiento esterotipado
y saliendo de la habitación. Grabaciones en video demostraron que el loro repetía la
frase y el movimiento en ausencia del experimentador, por lo que difícilmente se puede
interpretar que existiera una recompensa extrínseca a esa conducta.
La imitación implica la copia de una respuesta en la que el que la realiza obtiene
beneficios inmediatos y tangibles. Esta forma de aprendizaje resulta muy útil para re-
solver problemas complejos que puedan requerir mucho tiempo para el descubrimiento
de la respuesta correcta; sin embargo, y a pesar de los beneficios claros que puede traer
la imitación a distintas especies animales, los animales no humanos rara vez imitan.
Existen multitud de ejemplos que han sido interpretados como imitación. Por ejem-
plo, los carboneros comunes en la Gran Bretaña muestran una habilidad espectacular
para romper los tapones de aluminio de las botellas de leche a fin de poder bebérsela.
Se ha sugerido que esta habilidad se desarrolló en un pequeño grupo y que después se
ha ido transmitiendo entre generaciones por imitación. Sin embargo, hay una explica-
ción mucho más simple de esta conducta, si un pájaro encuentra una botella abierta se
bebe la leche. Mientras bebe, el tapón de aluminio roto (EC) se asocia con la leche (EI)
de tal modo que la próxima vez que encuentre el tapón el pájaro tendera a picotearlo
(RC). Sherry y Galef (1990) mostraron que bastaba que un pájaro estuviera acompaña-
do para que su picoteo aumentara, lo que podría llevar a que el carbonero terminara
abriendo la primera botella por casualidad. Esta facilitación social es difícil de explicar
aunque podría servir para reducir el miedo y alentar respuestas de búsqueda de comida.
Como vemos, en este caso la interpretación de la imitación tiene interpretaciones alter-
nativas, por lo que no podemos concluir que exista.
Otras observaciones en ambiente natural sugieren la existencia de imitación. Por
ejemplo, en los primates se habla de tradiciones conductuales específicas de la pobla-
ción para definir las conductas que se adquieren a través de la experiencia, se encuen-
tran en una población definida, persisten entre generaciones y no se encuentran en otras
poblaciones de la misma especie. Por ejemplo, los chimpancés de Costa de Marfil uti-
lizan piedras para romper nueces, cosa que no hacen otros chimpancés, y un grupo de
macacos japoneses lava las patatas antes de comérselas (Itani y Nishimura, 1973). Este
tipo de comportamientos sugiere la existencia de imitación en animales, sin embargo, si
son capaces de imitar, la pregunta entonces es por qué no utilizan esta habilidad en su
beneficio. Por ejemplo, Gibson (1989) tuvo un mono Cebus viviendo en su casa atado
con una cuerda y, aunque había observado muchas veces como desatarse, nunca lo
hizo. En la misma línea, Lefebvre y Palameta (1988) observaron el comportamiento de
un grupo de monos Tato que se encontraban en un lugar donde se colocaron varias
piezas huecas de bambú rellenas de comida y precintadas con un papel. Uno de los
monos aprendió a quitar el papel y los otros parecían observarlo muy atentamente, pero
ninguno más desarrolló esa habilidad.
Los intentos de demostrar verdadera conducta imitativa en el laboratorio han tenido

poco éxito, dado que la mayoría de estos ejemplos pueden interpretarse por mecanis-
mos más simples que la imitación. Imaginemos que colocamos a una rata que observa
como otra presiona una palanca para obtener comida. Si después colocamos a la rata
observadora en frente de la palanca es probable que termine presionándola (Huang,
Koski y DeQuardo, 1983). Sin embargo, esta conducta aparentemente imitativa puede
producirse al menos por dos razones distintas, el ver pasar a una rata mucho tiempo
alrededor de la palanca puede haber convertido a la palanca en un estímulo más saliente
y, por intensificación del estímulo, llevar a que la rata observadora concentre su activi-
dad en torno a ella. La otra explicación se basa en el condicionamiento observacional,
los animales podrían haber asociado la visión del movimiento de la palanca de respues-
ta (EC) con la comida (EI) por lo que al ponerlos junto a la palanca se sentirían atraídos
por ella y contarían con ventaja a la hora de aprender la relación entre la presión de
palanca y la comida. Esta forma de condicionamiento observacional no implica la ver-
dadera imitación, al no relacionar la conducta del modelo con la recompensa obtenida
por éste. No obstante, formas distintas de condicionamiento observacional se conside-
ran como uno de los mecanismos principales de la imitación, tal y como veremos más
adelante.
Intensificación del estímulo y condicionamiento observacional son dos mecanis-
mos claros de aprendizaje social en animales no humanos. Sin embargo, los mecanis-
mos más complejos de mimetismo e imitación parecen estar circunscritos a un número
limitado de especies y situaciones, en el mejor de los casos, aunque probablemente
puedan considerarse patrimonio casi exclusivo del ser humano (no obstante, véase Heyes
y Dawson, 1990 para un ejemplo claro de imitación en ratas).
7.3.- Aprendizaje vicario humano

Como veíamos en los apartados previos, aunque existen multitud de ejemplos de
aprendizaje social en animales, no conocemos ningún ejemplo convincente de verda-
dera imitación en animales no humanos, mientras que existen multitud de ejemplos de
mimetismo e imitación en el ambiente natural humano, el niño que cambia el pañal de
su muñeco o le ofrece un biberón sin más entrenamiento que el haber observado esos
comportamientos en sus padres, o el adolescente que cambia su peinado o su ropa
imitando los usos del grupo social al que le gustaría pertenecer son ejemplos claros
donde el aprendizaje vicario se manifiesta como imitación. El estudio de la imitación
en seres humanos ha determinado que ésta depende de las características del modelo,
de las características del observador y de las características de la situación.
Características del modelo. En principio, la lista de modelos potenciales a los que las
personas nos exponemos a lo largo de nuestras vidas es casi infinita, nuestros padres,
maestros, hermanos, amigos, cantantes, personajes de ficción etc. Sin embargo, no to-
dos tienen la misma influencia en nosotros, hay modelos que son determinantes en
nuestro comportamiento y modelos a los que raramente imitamos. Las principales ca-
racterísticas del modelo que determinan la imitación son las siguientes:
El carácter afectivo y recompensante del modelo. Bandura y Huston (1961) expu-
sieron a niños de preescolar a encuentros individuales con una mujer que para algunos
niños se mostraba afectiva y atenta y para otros se mostraba distante. Varios días des-
pués pidieron a los niños que participaran en un juego con la misma mujer durante el
cual ésta realizó muchos gestos y verbalizaciones distintivas. Los niños que anterior-
mente habían recibido afecto y atención por parte de la mujer imitaron su conducta más
a menudo que los otros. En investigaciones posteriores se han confirmado estas conclu-
siones, encontrando que imitamos más a los modelos que son más afectivos y recom-
pensantes.
El control o poder del modelo sobre el observador. Mischel y Grusec (1966) toma-
ron a un grupo de niños de preescolar y les presentaron a una mujer indicando que iba
a ser su nueva profesora y que se verían mucho en el futuro. En otro grupo la mujer se
presentó como una profesora visitante de otra ciudad a la que no iban a volver a ver. En
los dos casos la mujer jugaba con los niños durante un rato. Posteriormente, cuando
observaron a los niños solos encontraron que aquéllos que suponían que habían jugado
con su nueva profesora imitaban mucho más las conductas y gestos de la mujer que los
que pensaban que era una profesora de visita. Imitaron más a la persona que imagina-
ban que iba a tener más control sobre ellos en el futuro.
La dominancia y estatus social del modelo. Abramovitch y Grusec (1978) encontra-
ron que los niños más imitados eran los que habían sido evaluados por sus maestros
como niños dominantes. Igualmente, se tiende a imitar más a aquellos modelos que los
observadores consideran que tienen un estatus social más alto. Probablemente la razón
de que muchos adolescentes imiten a sus ídolos musicales o cinematográficos radique
parcialmente en este motivo.
La semejanza del modelo con el observador. Imitamos más a los modelos que más
se parecen a nosotros. Tendemos imitar más fácilmente a los modelos que tienen nues-
tro mismo sexo, nuestra misma edad o que parecen tener nuestros propios intereses
(Davidson y Smith, 1982).
La sinceridad del modelo. Tendemos a imitar más a aquellos modelos que nos pare-
cen más sinceros que a aquéllos que consideramos que no se están comportando con
sinceridad (Klass, 1979).
Características del observador. Al igual que existen personas que son más imitables
que otras, existen personas que tienen mayor tendencia a imitar a los demás. Entre las
características personales que mayor correlación mantienen con la imitación están la
edad del observador y la inseguridad en si mismo (Maldonado, 1998). Así, se ha encon-
trado una mayor tendencia a la imitación en niños de 4 años que en niños de 9 años
(Abramovitch y Grusec, 1978). Estos autores encontraron también que los niños domi-
nantes, que veíamos en el caso anterior que eran más imitados, tendían también a imitar
más. Por otra parte, los individuos menos seguros de su comportamiento son los que
más imitan. Cuando manipulamos el nivel de confianza en sí mismo de un individuo
exponiéndolo a una tarea e indicándole que ha fracasado en su realización, expuestos a
una nueva tarea muestran mayor imitación que los niños a los que se les dice que reali-
zaron correctamente la primera tarea (Roberts, Boone y Wurtele, 1982). Del mismo
modo que la edad y la seguridad en sí mismo, la autoestima y la independencia correla-
cionan negativamente con la tendencia a la imitación.
Características de la situación. En general, las tareas o situaciones que eliciten mayor

incertidumbre en el sujeto llevarán a una mayor probabilidad de imitación. Imagina que
te invitan a una recepción en la casa real, es bastante más probable que imites a los
demás en esa situación que en una comida familiar, donde ya conoces las reglas.
La dificultad de la tarea parece tener también importancia en la probabilidad de que
el individuo termine utilizando la imitación. Cuando las tareas tienen dificultad inter-
media tenemos más tendencia a imitar al modelo; si las tareas son muy simples la imi-
tación del modelo es innecesaria, mientras que si son difíciles no intentamos realizarlas
aunque tengamos un modelo disponible (Harnick, 1978).
Finalmente, se han realizado estudios en los que se ha evaluado el formato de pre-
sentación de la tarea. Los resultados encontrados parecen sugerir que la presentación
de un modelo real no es mucho mejor que la presentación de un modelo filmado o un
manual de instrucciones impreso, aunque estas formas de presentación parecen superar
a una voz grabada (O’Briant, Bradlyn y Giebenhain, 1982). Esto da una idea de la
importancia de la televisión como transmisora de valores culturales y patrones de com-
portamiento, algo que viendo la programación actual de la mayoría de nuestras cadenas
resulta cuando menos preocupante.
7.4.- Teorías del aprendizaje vicario

La imitación como instinto. Muchos psicólogos de principios del siglo XX sugirieron
que las personas y otros animales nacen con una tendencia a imitar las conductas que
emiten sus congéneres (v.gr., James, 1890). La evidencia que podría respaldar esta idea
proviene del hecho de bebes muy pequeños, de entre 12 y 21 días son capaces de imitar
gestos observados cuando el modelo ya no está presente y en ausencia de reforzamien-
to (Meltzoff y Moore, 1983); esto se conoce como imitación diferida y sugiere que el
mecanismo es innato. En otros animales hemos visto que la tendencia a imitar no se ha
manifestado como una característica general de su comportamiento, aunque sí parece
que existen algunos ejemplos convincentes de que la imitación puede darse en primates
y ratas.
No obstante, aún aceptando que algunos animales sean capaces de imitar las con-
ductas de otros y que la tendencia a imitar fuera un instinto también en humanos, la
validez explicativa de esta aproximación es prácticamente nula. Los seres humanos
podríamos contar con un mecanismo que nos permite imitar, del mismo modo que
contamos con un mecanismo que nos permite habituarnos a un estímulo o establecer

relaciones entre eventos; ahora bien, ¿cuál es ese mecanismo y cómo funciona? Estas
preguntas no pueden responderse desde las aproximaciones que consideran a la imita-
ción como un instinto, al no tener éstas más valor que el puramente descriptivo.
Teorías conductuales. Las teorías conductuales supusieron el primer intento de siste-

matización teórica del aprendizaje vicario. Miller y Dollard (1941) consideraban que la
imitación era únicamente una variación del condicionamiento operante. De acuerdo
con estos autores, la imitación sería una forma de condicionamiento observacional, en
el que el sujeto observa la conducta del modelo, copia la respuesta y recibe reforza-
miento por emitirla. Esto es cierto en muchas situaciones, por ejemplo, un niño observa
a su madre preparar un postre de gelatina y al día siguiente, cuando su madre no está
presente, realiza todos los pasos de la receta consiguiendo una gelatina perfecta. En
principio, esta situación no puede explicarse por medio del condicionamiento instru-
mental puesto que el niño realiza una serie de respuestas por primera vez antes de que
vayan seguidas por reforzamiento.
Sin embargo, los propios principios del reforzamiento permiten resolver este pro-
blema. Las respuestas nuevas pueden tratarse como variaciones de respuestas similares
que sí habían sido reforzadas en el pasado. Nuestro chico probablemente fue reforzado
anteriormente por imitar la conducta de sus padres, con lo que la imitación de la con-
ducta de preparación de la gelatina es simplemente un ejemplo de generalización desde
situaciones de reforzamiento previas. Por otra parte, es un hecho común que los padres
recompensen a sus hijos por imitarles; esto convertiría a la propia imitación en un refor-
zador secundario al haber sido asociado en el pasado con un estímulo reforzador prima-
rio, por ejemplo con las sonrisas y atención de los padres; así, la propia imitación se
convertiría en algo reforzante para el sujeto y le llevaría a repetirla en el futuro. Final-
mente, la empatía con el modelo nos llevaría a sentir como nuestros los premios o
castigos que recibe, de forma que asociaríamos la respuesta del modelo con las conse-
cuencias que obtiene por ella; esto nos llevaría a repetir o reducir nuestra respuesta de
imitación de la conducta del modelo en función de las consecuencias que recibiera éste.
Obsérvese que en todos estos ejemplos y razonamientos se está asumiendo que el
reforzamiento, bien directo o bien a través de un proceso empático, es necesario para
que se desarrolle la conducta imitativa. Sin embargo, como ya señalábamos en el capí-
tulo 1, la idea común a las aproximaciones conductuales de que el reforzamiento era
necesario para que se produjera el aprendizaje es incorrecta. El aprendizaje se puede
producir en ausencia de reforzamiento, aunque el reforzamiento puede ser necesario
para que el aprendizaje se manifieste (Tolman y Honzik, 1930).
Teoría del aprendizaje social de Bandura (1976). Al hilo de la idea que plasmábamos
en el párrafo previo, Bandura (1965) realizó un experimento en el que niños de 4 años
observaban un video en el que un adulto agredía a un gran muñeco de peluche. Parte de
los niños observaron que otro adulto premiaba la conducta del agresor, otros observa-
ron que el agresor recibía un castigo y los niños restantes observaron que el agresor no
recibía ninguna consecuencia por su acción, ni deseable ni indeseable. Posteriormente
los niños se metieron individualmente en una habitación donde estaba el muñeco del
video rodeado de otros juguetes; las observaciones a través de un espejo unidireccional
permitieron registrar las respuestas agresivas contra el muñeco que daba el niño solo,
encontrando que muchos niños imitaban la forma de la conducta agresiva del adulto.
Sin embargo, Bandura (1965) encontró que los niños que observaban al modelo casti-
gado imitaban menos que los otros; además, cuando en la fase final del estudio se le
ofreció a los niños una recompensa por imitar las conductas que observaron en el vi-
deo, todos los niños exhibieron una conducta muy agresiva independientemente del
tratamiento que hubiera recibido el modelo previamente. Este experimento pone de
manifiesto que el reforzamiento no resulta necesario para el aprendizaje vicario, aun-
que la expectativa de reforzamiento pueda ser imprescindible para que este aprendizaje
vicario se manifieste en conducta imitativa.
Así, Bandura aplicó al aprendizaje vicario los mismos principios que en la época se
aplicaron al estudio del condicionamiento, considerando que el aprendizaje observa-
cional implica la adquisición de representaciones cognitivas mediadas por procesos
atencionales, procesos de retención, de reproducción motora y motivacionales.
Procesos atencionales. La atención es una condición necesaria pero no suficiente
para que se produzca la imitación, puesto que ésta depende de que el observador preste
atención a las características apropiadas de la conducta del modelo. Cualquier manipu-
lación que lleve a un incremento en la saliencia de los aspectos relevantes de la conduc-
ta del modelo frente a los aspectos irrelevantes, como la capacidad cognitiva del obser-
vador o sus conocimientos previos va a repercutir positivamente en el aprendizaje ob-
servacional.
Procesos de retención. La imitación va a depender de que el sujeto retenga la infor-
mación obtenida a través de la observación, de que entren en juego los procesos de
memoria que permitan codificar la información de manera apropiada y acceder a ella
en el futuro.
Procesos de reproducción motora. Para que el aprendizaje vicario pueda observarse
va a ser necesario que el imitador tenga la habilidad motora suficiente para trasladar los
contenidos del aprendizaje en un patrón coordinado de respuestas y movimientos. En
muchas situaciones el observador puede ser capaz de almacenar y retener de manera
abstracta la secuencia completa de la conducta imitable y sin embargo no ser capaz de
reproducirla conductualmente sin una práctica intensa. Por ejemplo, resulta muy fácil
reproducir la conducta agresiva de golpear a un muñeco, pero si esta conducta agresiva
implicara movimientos complejos de Karate la imitación de la conducta distaría de ser
perfecta en sus primeros intentos.
Procesos motivacionales y de incentivo. El que se cumplan las tres condiciones
necesarias descritas previamente no va a garantizar que la conducta se observe. El
sujeto puede conocer y almacenar la respuesta del modelo, tener las habilidades moto-
ras para reproducirla y sin embargo no manifestar esa respuesta en su conducta. Para
que esto ocurra es necesario que el sujeto esté motivado para realizarla; el experimento
de Bandura (1965) que motivó el desarrollo de esta teoría cognitivo conductual es un
buen ejemplo de la diferencia entre capacidad de imitar una conducta e imitación.
7.5.- Resumen
En este capítulo se recogen una serie de ejemplos y explicaciones acerca de cómo
aprenden los sujetos a realizar conductas a través de la observación de modelos. Duran-
te la primera parte del capítulo hemos comprobado que el aprendizaje vicario es una
característica de multitud de especies animales, incluido el ser humano, jugando un
papel importante en la selección de la dieta, el aprendizaje de habilidades comunicacio-
nales y la protección contra los depredadores.
Posteriormente hemos establecido una diferenciación entre mimetismo, repetición
de la conducta por observación en ausencia de recompensa tangible, y la imitación o
copia de una respuesta por la que el modelo recibe una recompensa. Uno de los meca-
nismos por los que puede ocurrir la imitación es a través del condicionamiento obser-
vacional. El análisis de las situaciones de aprendizaje vicario en animales no humanos
nos lleva a la conclusión de que la verdadera imitación es difícil de encontrar fuera del
ser humano.
El aprendizaje vicario humano está determinado por las características del modelo,
las características del observador y las características de la situación. Se ha encontrado
que se imita con mayor facilidad a los modelos afectivos, que tienen un poder de con-
trol sobre el observador, que se muestran dominantes y con un estatus social alto, son
sinceros y tienen rasgos en común con el observador. Asimismo, se ha encontrado que
imitan más los niños más jóvenes y las personas más inseguras. Finalmente, la mayor
imitación se da en situaciones que generen incertidumbre en el observador y en tareas
que tienen una dificultad intermedia.
En algunas explicaciones del aprendizaje vicario se ha supuesto que la imitación es
un instinto. Sin embargo, esta aproximación es puramente descriptiva y no da una ex-
plicación de los mecanismos de aprendizaje que llevan a que la imitación se desarrolle.
Estos mecanismos han sido propuestos desde las teorías conductuales, que asumen que
el aprendizaje vicario es una forma especial de aprendizaje instrumental, regulado por
los mismos principios que regulan este último. Las limitaciones en las teorías conduc-
tuales para explicar algunos de los resultados experimentales cimentaron el desarrollo
de la teoría del aprendizaje social de Bandura (1976). En esta teoría se remarca que el
reforzamiento no es necesario para la imitación, aunque sí lo es para la expresión con-
ductual. Ésta es una teoría cognitiva que supone que el aprendizaje observacional re-
quiere de la conjunción de procesos atencionales, de retención y de reproducción mo-
tora, siendo además necesarios procesos motivacionales para que el aprendizaje obser-
vacional se manifieste.
Referencias

Libro AC

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Libro AC

Cargado por

Copyright:

Formatos disponibles

Fundamentos del aprendizaje humano

© del lunar 2005

Jaén, febrero 2005

Un cielo oscuro puede ir seguido de lluvia, el acortamiento de los días va empareja-

1.1. Aprendizaje y conducta

1.2. Aspectos generales del estudio del aprendizaje

Figura 1.1. Laberinto utilizado en estudios sobre aprendiza-

líneas. No obstante, los capítulos siguientes constituyen una demostración de que al

El método experimental y el problema de control en los estudios de aprendizaje.

resultados científicos se consideran siempre tentativos y nunca han de dejar de cuestio-

La diferencia entre fenómeno y proceso. El análisis de los procedimientos de estudio

El uso de animales no humanos en los estudios de aprendizaje. Muchos de los estu-

prácticas, los animales pueden someterse a un control ambiental y experimental que

Aprendizaje acerca de un solo estímulo

Sin embargo, la evolución se especializa en resolver problemas complejos con me-

estímulos diferentes es prácticamente la misma que ante el estímulo original el gradien-

La respuesta habituada se recupera espontáneamente con el paso del tiempo. Las

Efectos de la frecuencia y la intensidad del estímulo en la habituación. Con respec-

La exposición a un estímulo nuevo produce deshabituación. Una vez que se ha

La sensibilización se generaliza con facilidad. Te has pasado la noche estudiando con

2.3.- Mecanismos de habituación y sensibilización.

Figura 2.5. Representación gráfica de la circulación de la información en la memoria según el

Aunque el modelo lo hayamos simplificado al extremo a fin de no distraer la aten-

2.4.- Habituación, sensibilización, principios de regulación y aplicación a las emo-

bilización actúa aumentándola. El resultado conductual que se observe dependerá de la

La teoría de la motivación del proceso oponente (Solomon y Corbit, 1974). Como

Cuando el estímulo cesa, el estado emocional se transforma rápidamente y aparecen

mantiene mientras el estímulo esté presente y desaparece rápidamente cuando el estí-

Aprendizaje acerca de la relación entre estímulos

3.1.- Nociones básicas en el condicionamiento clásico

La naturaleza del EC y del EI. Una cuestión fundamental en el condicionamiento

establezca una asociación entre ellos al presentarse separados. Adicionalmente, en este

¿a qué le echarás la culpa, a la decoración del restaurante o a la comida? Probablemente

La naturaleza de la RC. La RC suele describirse muy a menudo como similar a la RI.

Quizá la demostración más espectacular de la similitud entre la RC y la RI provenga

el sonido fue girar sobre sí mismas y lo que podríamos denominar un aumento en la

Las condiciones de control básicas. Una cuestión importante en cualquier estudio de

control desemparejado, en el que el EC y el EI se presentan separados. Sin embargo,

3.2. Las condiciones del condicionamiento clásico y los fenómenos básicos

Figura 3.3. Relaciones temporales básicas entre el EC y el EI en los estudios de condicionamiento

En la figura 3.3 se presentan las relaciones temporales entre el EC y el EI más

Asincronía y relatividad. Terminábamos el párrafo previo señalando que el principio

Figura 3.4. Representación esquemática de una situación de condicionamiento simultáneo com-

Sin embargo, un análisis de los resultados de condicionamiento clásico reflejados en la

condición necesaria para poder establecer comparaciones, la necesidad de una prueba

Validez predictiva relativa, bloqueo y relación predictiva. En apartados previos veía-

Adaptación del diseño de bloqueo usado por Kamin (1969).

En ambos grupos la contigüidad entre el estímulo X y el EI es idéntica, en ambos casos

Inhibición condicionada. Terminábamos el apartado previo señalando que cuando la

nado porque el contexto, el lugar donde se recibe el EI anuncia al sujeto que el EI va a

Ejemplo de diseño intrasujeto en la prueba de sumación

Ejemplo de diseño intrasujeto en la prueba de retraso en la adquisición

oportunidad de convertirse en inhibidor condicionado. Posteriormente se establece el

Facilitación. En el diseño de inhibición condicionada un estímulo se empareja con el

Preexposición al EC, preexposición al EI e irrelevancia aprendida. Al hablar de

3.3.- Los contenidos del condicionamiento clásico, ¿qué se aprende?

Los contenidos del aprendizaje durante la excitación condicionada. Después del

establece asociaciones EC-EI, asociación estímulo-estímulo (E-E), siendo la RC un

Los contenidos del aprendizaje durante la inhibición condicionada y la facilita-

3.4. Condicionamiento específicamente humano

Condicionamiento semántico. Este tipo de condicionamiento se produce cuando en vez

Apareamiento y desapareamiento informado. Brewer (1974) en un análisis sobre la

Condicionamiento y extinción instruidos. Estos procedimientos pueden confundirse