Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Libro AC
Libro AC
Juan M. Rosas
Ana García Gutiérrez
José Enrique Callejas Aguilera
Fundamentos del
Aprendizaje Humano
Colección Universitas
© los autores
www.dellunar.com
A Sofía, Alba, Beatriz y Shadow, por
lo que entre todas me han enseñado
del aprendizaje.
J.M.R.
Prólogo
Este libro surgió con la intención de llenar un hueco que los autores habían apre-
ciado en las estanterías de librerías y bibliotecas dedicadas a los manuales del aprendi-
zaje. Muchos de los manuales de aprendizaje y condicionamiento que llenan esas es-
tanterías son demasiado largos para poder funcionar como textos fundamentales en el
panorama universitario, donde el aprendizaje suele tratarse en asignaturas
cuatrimestrales; por otra parte, en los manuales que han tratado de adaptarse a la dura-
ción real de estas asignaturas la brevedad se ha conseguido a costa de sacrificar muchos
aspectos que nosotros y nuestros colegas consideramos importantes, particularmente
en lo referente a las teorías del aprendizaje. Finalmente, la mayoría de los libros de
texto se han centrado exclusivamente en el aprendizaje y condicionamiento animal, sin
explotar la relevancia que estos factores básicos de aprendizaje tienen sobre el aprendi-
zaje humano; eso ha llevado a que dejen fuera aspectos muy relevantes de los funda-
mentos del aprendizaje humano, como la discusión entre las explicaciones asociativas
y las explicaciones basadas en reglas del aprendizaje correlacional y causal humano
que se viene manteniendo en la literatura durante los últimos 20 años.
Así, el libro nace con un objetivo que a priori podría considerarse imposible.
Aunar al mismo tiempo la brevedad necesaria para poder considerarse introductorio y
utilizarse como texto básico en una asignatura cuatrimestral, y mostrar al mismo tiem-
po un panorama razonablemente amplio de lo que ha sido el estudio del aprendizaje en
el último siglo. Sólo el lector podrá juzgar si hemos conseguido este objetivo, tal y
como creemos.
El texto comienza con una introducción al estudio del aprendizaje en la que se
establecen las bases de lo que los autores consideramos aprendizaje, sus diferencias
con la conducta y los procedimientos de control que requiere su estudio. El segundo
capítulo está dedicado al análisis del aprendizaje acerca de un solo estímulo, recorrien-
do las características fundamentales de la habituación y la sensibilización, así como sus
explicaciones teóricas y la aplicación de estos conocimientos al estudio de las emocio-
nes complejas. El capítulo tercero está dedicado al condicionamiento clásico, presen-
tando las nociones fundamentales en las que se basa su estudio, las condiciones en las
que se produce y sus fenómenos básicos, y los contenidos del condicionamiento
pavloviano; el capítulo termina con la descripción de algunas formas de
condicionamiento específicamente humano. El capítulo cuarto está dedicado a los me-
canismos del aprendizaje, comienza presentando el paralelismo entre el
condicionamiento clásico y el aprendizaje causal para analizar después separadamente
las teorías principales dentro de la aproximación asociativa y causal a estos fenómenos.
El quinto capítulo está dedicado al condicionamiento instrumental, presentando los
fenómenos principales, las condiciones necesarias para su establecimiento, las estruc-
7
8 A PRENDIZAJE HUMANO
turas asociativas que establecen los sujetos, los programas de reforzamiento que deter-
minan los patrones conductuales que se desarrollan cuando aplicamos un procedimien-
to de condicionamiento instrumental, y algunos de los factores que determinan la con-
ducta de elección. El capítulo sexto analiza las teorías del aprendizaje instrumental,
centrándose en los efectos del refozamiento y en las teorías que han explicado estos
efectos desde la ley del efecto a la teoría de la regulación conductual para terminar con
una breve exposición de las teorías del aprendizaje instrumental, centrándose particu-
larmente en las explicaciones del aprendizaje de evitación. El capítulo 7 se centra en
los procedimientos utilizados para el cambio de la conducta, la extinción y la interfe-
rencia, en los principales fenómenos relacionados con ellos (renovación, recuperación
espontánea, efecto de reforzamiento parcial, etc.) y en las explicaciones teóricas de
estos fenómenos. Finalmente, en el capítulo 8 analizamos el aprendizaje que se produ-
ce a través de la observación y de la experiencia vicaria, desde el observado en anima-
les no humanos hasta el específicamente humano.
En la realización de una obra de estas características hay siempre mucho que
agradecer, la paciencia de la familia y los amigos en los encierros reiterados, los co-
mentarios y correcciones de tus compañeros, particularmente las correcciones de estilo
de nuestro amigo Angel, siempre paciente y eficaz. Sin embargo, nuestro agradeci-
miento mayor en la preparación de este trabajo se lo debemos a nuestros alumnos de las
licenciaturas de Psicología y Psicopedagogía de la Universidad de Jaén. Aún sin saber-
lo, ellos han sido el estímulo que nos ha llevado a mejorar y completar nuestras expli-
caciones con brevedad y claridad, y a la interacción continuada con ellos en estos años
pasados, a sus preguntas y a sus comentarios, se debe gran parte de lo que se recoge en
este texto, por todo ello, gracias.
El aprendizaje y su estudio
9
10 A PRENDIZAJE HUMANO
ambigua. En este apartado vamos a intentar dar una definición más precisa que será la
que nos guíe en el desarrollo de los capítulos posteriores. Establecer una definición de
aprendizaje clara resulta imprescindible, puesto que la definición que establezcamos
va a determinar cuál va a ser nuestro objeto de estudio y la aproximación que tomemos
al mismo.
Las definiciones del aprendizaje en la literatura han sido múltiples, pero mantienen
unas ciertas constantes que permiten separarlas en dos clases más o menos amplias. En
las definiciones más tradicionales, el aprendizaje se identifica con cambios conductua-
les. Así, Hilgard y Bower (1966) afirman que el aprendizaje es un cambio relativamen-
te permanente de la conducta, debido a la experiencia, que no puede explicarse por un
estado transitorio del organismo, por la maduración, o por tendencias de respuesta
innatas.
Esta definición de aprendizaje recoge la tradición conductista e identifica el apren-
dizaje con cambios en la actuación. Tomando esta definición, el objeto de estudio del
aprendizaje sería la conducta y más concretamente el establecimiento de relaciones
funcionales entre variables externas al organismo y cambios conductuales. Esta defini-
ción puede parecer razonable, pero basta una pequeña reflexión para darnos cuenta de
que no abarca todo lo que claramente consideraríamos aprendizaje. Imagina que llegas
a una ciudad desconocida, dejas tu equipaje en el hotel y decides dar un paseo por los
alrededores. Después de pasear un rato, decides regresar al hotel. El hecho de que seas
capaz de regresar al hotel pone de manifiesto que tu paseo te ha permitido aprender
algo acerca de la organización espacial de la ciudad. Este tipo de aprendizaje se recoge
en la definición anterior.
Ahora bien, imagina que al llegar a tu hotel comienzas a padecer un fuerte dolor de
cabeza, decides salir a buscar una aspirina y te diriges a la farmacia que recuerdas haber
visto cerca del hotel, en tu paseo previo. El aprendizaje de la localización de la farmacia
no se manifiesta hasta que aparece el dolor de cabeza y la necesidad de usarla. Si no
hubiera aparecido esta necesidad, tu aprendizaje no se hubiera traducido en conducta y,
de acuerdo con la definición de aprendizaje que acabamos de exponer, ese aprendizaje
no habría existido, algo a todas luces incorrecto.
La inadecuación de la identificación entre aprendizaje y conducta era algo ya cono-
cido por los teóricos del aprendizaje. Tolman y Honzik (1930) presentan un experimen-
to que lo demuestra claramente. Tres grupos de ratas hambrientas recorrieron un labe-
rinto complejo. El grupo C (comida) recibió comida al finalizar el recorrido en el labe-
rinto. El grupo N (no comida) no recibió nada al finalizar el laberinto. Finalmente, el
grupo N-C recibió el mismo tratamiento que el grupo N en los 10 primeros ensayos y el
mismo tratamiento que el grupo C en los ensayos siguientes. Tolman y Honzik (1930)
encontraron que el tiempo que las ratas emplearon en salir del laberinto disminuía en el
grupo C mientras se mantenía más o menos constante en el grupo N. De acuerdo con la
definición de aprendizaje planteada, las ratas del grupo C aprendieron a orientarse por
el laberinto, mientras no aprendieron nada las ratas del grupo N. Los resultados obteni-
A PRENDIZAJE Y SU ESTUDIO 11
dos por el grupo N-C contradicen esta conclusión. Este grupo manifestó el mismo com-
portamiento que el grupo N hasta el ensayo 10, pero a partir de ese momento (cuando se
introdujo la comida) su actuación fue equivalente a la de las ratas del grupo N. Este
cambio brusco en la actuación no se podría haber producido a menos que estas ratas
hubieran aprendido a orientarse en el laberinto durante los ensayos en los que no reci-
bían comida. Aprendieron, pero no lo manifestaron conductualmente hasta que el cam-
bio en las condiciones ambientales hizo necesaria la manifestación de ese aprendizaje.
Asímismo, este experimento demuestra que el reforzamiento puede ser necesario para
que se manifieste el aprendizaje, pero desde luego no es necesario para que éste se
produzca.
Así, vemos que no todo aprendizaje se traduce en actuación, existen aprendizajes
que denominaremos silenciosos y que pueden no dar lugar a un cambio conductual
observable. Igualmente, no todo cambio en la actuación es consecuencia del aprendiza-
je. Por ejemplo, la maduración produce cambios en la conducta muy evidentes que no
son debidos al aprendizaje, cuando un organismo alcanza la madurez sexual su conduc-
ta cambia, cambian los estímulos a los que le presta atención y la respuesta que les da
sin necesidad de que exista un aprendizaje que justifique ese cambio. Igualmente, cam-
bios estimulares como un descenso brusco de las temperaturas o una lluvia intensa
producen cambios conductuales evidentes en los que no media necesariamente el apren-
dizaje. Finalmente, la fatiga muscular o sensorial puede producir cambios en la con-
ducta que tampoco pueden identificarse como aprendizaje. En resumen, el aprendizaje
no puede identificarse con un cambio en la conducta porque no todo aprendizaje se
manifiesta en conducta y no todo cambio conductual está causado por el aprendizaje.
El cambio en el paradigma conductista en toda la psicología en la segunda mitad del
siglo XX afectó también al concepto de aprendizaje. Las cuestiones que resaltamos en
los párrafos previos llevaron a un cambio en la concepción del aprendizaje. El aprendi-
zaje pasó a considerarse algo distinto de la conducta, aunque fuera necesario el uso de
la conducta para medirlo. Domjan (1996) propone una definición que podemos consi-
derar representativa de las definiciones modernas de aprendizaje. Así, el aprendizaje se
define como un cambio relativamente duradero en los mecanismos neurales de la con-
ducta que resulta de la experiencia con eventos ambientales específicamente relacio-
nados con dicha conducta (véase también por ejemplo Dickinson, 1980).
Al definir el aprendizaje como un “cambio en los mecanismos neurales de la con-
ducta” separamos definitivamente aprendizaje y conducta. El aprendizaje subyace a la
conducta, puede producir cambios en ella, pero aprendizaje y conducta no son la mis-
ma cosa.
nes por las que muchos de estos estudios se han realizado con animales no humanos.
Esto nos dará una perspectiva general y facilitará la comprensión de los capítulos pos-
teriores.
Conviene comenzar nuestra aproximación al estudio del aprendizaje con una consi-
deración que afecta al estudio de toda ciencia, aunque se hace probablemente más evi-
dente en las ciencias donde coinciden el sujeto y el objeto de estudio, como es el caso
de la psicología. Debemos tener en cuenta que si bien la conducta es indiscutible como
hecho, normalmente nuestra descripción está cargada de interpretación subjetiva que
no siempre está justificada. En muchos casos tendemos a explicar la conducta animal y
humana como si estuviera regulada por un procesamiento complejo que no siempre es
necesario.
Un ejemplo clásico de la literatura es el caso de “Hans el listo”. Hans era un caballo
alemán muy famoso a principios del siglo XX. El caballo era capaz de reconocer los
números y sumarlos, dando las respuestas a golpe de pezuña y lo hacía incluso cuando
su dueño no estaba presente. Parecía que efectivamente el caballo sumaba, algo inaudi-
to. Sin embargo, Pfungst (1965) descubrió que la habilidad del caballo desaparecía
cuando la persona que hacía la pregunta no conocía la respuesta; igualmente, cuanto
más lejos estuviera el dueño de Hans, peor era su actuación y cuando no podía ver al
que preguntaba su respuesta fue al azar. Pfungst descubrió que el caballo había apren-
dido a distinguir señales sutiles de los interrogadores. Hans utilizaba la ligera inclina-
ción de cabeza que hacía su dueño al terminar la pregunta como señal para comenzar
sus patadas; a medida que el caballo se acercaba a la respuesta correcta, los observado-
res tendían a tensar ligeramente sus cuerpos en anticipación y esa era la señal que usaba
Hans para parar... y acertar la respuesta. Hans no sabía sumar, pero era extraordinaria-
mente bueno en detectar ligeros cambios en el comportamiento de las personas que lo
examinaban. El comportamiento aparentemente complejo se explicaba por mecanis-
mos muy simples.
Veámoslo con otro ejemplo. Si colocamos a unas hormigas forrajeras en un laberin-
to como el de la figura 1.1 en el que tienen dos caminos para llegar desde la salida hasta
un cuenco de azúcar, uno largo y otro corto, inicialmente las hormigas se distribuirán al
azar por los dos caminos de forma que más o menos la mitad escogerán el camino corto
y la otra mitad escogerán el camino largo. Al cabo de poco tiempo, todas las hormigas
escogerán el camino corto mostrando conducta inteligente al resolver correcta y adap-
tativamente el problema espacial. Este resultado lo podríamos explicar si las hormigas
tuvieran una forma de comunicarse parecida a la de las abejas, de modo que hubieran
podido transmitirse cuál era el camino más corto. Igualmente podríamos explicarlo si
asumimos que las hormigas se forman un mapa cognitivo del ambiente aprendiendo
que se llegaba a la misma comida por los dos caminos y escogiendo el más corto en los
próximos viajes. Sin embargo, la solución del problema es mucho más simple. Las
hormigas forrajeras dejan un rastro de feromonas en el suelo a medida que regresan al
nido desde un lugar en el que haya comida disponible. En el nido, la hormiga da res-
A PRENDIZAJE Y SU ESTUDIO 13
puestas estereotipadas que animan a otras hormigas a dejar el nido y seguir el rastro. En
el laberinto, las hormigas que escogen el camino más corto regresan más rápidamente y
por lo tanto pueden hacer más viajes que las que escogen el camino más largo. Cuanto
más viajes hagan, más fuerte es el rastro de feromonas que van dejando, aumentando el
número de hormigas que escogen el camino más corto, aumentando el rastro y así hasta
que todas las hormigas escogen este camino. El problema era relativamente complejo,
la solución natural extremadamente simple, el comportamiento inteligente de las hor-
migas no necesita de ninguna inteligencia.
Estos dos ejemplos muestran como la interpretación de los cambios conductuales
no es simple y directa. A la hora de aproximarnos al estudio del aprendizaje hemos de
tomar el canon de Morgan como punto de partida: si algo puede explicarse por meca-
nismos simples no se debe recurrir a mecanismos complejos para explicarlo.
¿Por qué estudiar el aprendizaje? Los estudios de cualquier materia están funda-
mentados en dos razones básicas. La primera de ellas es la curiosidad, el conocimiento
por el propio conocimiento. Ampliar los horizontes del saber es una justificación pro-
bablemente suficiente, aunque quizá sea un lujo difícil de casar con el afán pragmático
de la sociedad moderna. La segunda razón tiene que ver con el valor práctico del cono-
cimiento. Si conocemos como aprenden las personas podremos facilitar ese aprendiza-
je, o modificarlo si el aprendizaje es inapropiado. Esta justificación está basada en tres
suposiciones encadenadas, que la conducta está gobernada por leyes, que si conocemos
las leyes de la conducta seremos capaces de controlarla y que el control de la conducta
es algo deseable. Determinar si toda la conducta está controlada por leyes es un proble-
ma filosófico que va mucho más allá de los objetivos que nos planteamos en estas
14 A PRENDIZAJE HUMANO
implícito en el tratamiento dado por el orientador que pudiera haber provocado ese
cambio conductual? La respuesta a esta pregunta va a depender del tratamiento concre-
to que administremos. En la situación propuesta ese “algo” existe, al menos en dos
vertientes. Por una parte, un tratamiento de 6 meses lleva implícitos 6 meses de vida en
los chiquillos y estos 6 meses pueden verse acompañados por un proceso madurativo
que por sí solo atenue el fracaso escolar. Esto es, es posible que los niños hubieran
mejorado sin ningún tratamiento, simplemente por el paso del tiempo.
La posibilidad de que los niños mejoren por el simple paso del tiempo no puede
descartarse en el ejemplo propuesto y limita las conclusiones que puede obtener nues-
tro orientador acerca de su tratamiento. Este ejemplo pone de manifiesto una de las
características fundamentales del estudio del aprendizaje. El aprendizaje, al igual que
los efectos del tratamiento, no puede observarse directamente, ambos han de inferirse a
través de cambios conductuales. Esto nos lleva a que tengamos que utilizar procedi-
mientos especiales de control que nos aseguren que los cambios conductuales se deben
a nuestro tratamiento y no a otros factores implícitos en el mismo.
Esto lo vamos a lograr a través del uso del método experimental. Para ser honestos,
nuestro orientador ha aplicado el método experimental a la hora de evaluar los efectos
de su tratamiento. Ha tomado como referencia el fracaso escolar en el punto de partida,
ha administrado su tratamiento (variable independiente) y ha comprobado sus efectos
sobre la tasa de fracaso escolar (variable dependiente). Sin embargo, su uso del método
experimental es bastante pobre, puesto que su tratamiento implica una serie de factores
implícitos que podían actuar sobre la variable dependiente (el fracaso escolar), modifi-
cándola. Planteábamos ya uno de esos factores, el simple paso del tiempo. Para poder
asegurarnos que es la hora diaria en la biblioteca y no el paso del tiempo el que produce
el cambio en el fracaso escolar es necesario contar con condiciones de control. Las
condiciones de control nos permiten discernir qué parte de todos los factores implícitos
en el tratamiento está causando la modificación en la conducta, en este caso de la tasa
de fracaso escolar.
En el ejemplo previo, una forma razonable de descartar los efectos del paso del
tiempo sobre el fracaso escolar sería dividir nuestra muestra en dos grupos equivalen-
tes. Una vez seleccionados los dos grupos, uno de ellos recibiría el tratamiento de una
hora de lectura guiada en la biblioteca y el otro continuaría con sus clases habituales. Al
cabo de los seis meses compararíamos la actuación académica en ambos grupos. Si el
grupo experimental (el grupo que recibe el tratamiento) tiene una tasa de fracaso esco-
lar más baja que el grupo de control (el que continúa con sus clases habituales) parece
que podríamos concluir que el tratamiento ha sido eficaz en la reducción del fracaso
escolar.
Sin embargo, ¿qué parte del tratamiento ha sido eficaz? Parece claro desde el expe-
rimento hipotético propuesto que el hecho de recibir el tratamiento es imprescindible
para la reducción del fracaso escolar. Pero el tratamiento en sí mismo implica una serie
de factores implícitos en la lectura guiada que por sí solos podrían haber sido los cau-
16 A PRENDIZAJE HUMANO
santes de la mejora y que no son la lectura guiada en sí misma. Por ejemplo, los niños
que se trasladan a la biblioteca podrían sentirse especiales por recibir un tratamiento
distinto de lo normal, eso podría mejorar su motivación y producir la mejoría. Obsérve-
se que en este caso no sería la lectura guiada la que produce la mejoría, sino el hecho de
recibir un tratamiento. Esto se denomina efecto de placebo. Igualmente, el simple he-
cho de recibir atención podría llevar a los niños a comportarse tal y como espera el
experimentador, lo que en psicología se conoce como deseabilidad social y que en
experimentación se conoce como efecto Rosenthal (Rosenthal, 1966). El grupo de con-
trol escogido no permite controlar estos factores y por lo tanto ha de considerarse un
mal grupo de control.
En general, la regla a la hora de establecer un buen grupo de control es muy sencilla
en la teoría: un buen grupo de control es aquél que es idéntico en todo al grupo experi-
mental, salvo en la variable que pretendemos evaluar. En este caso la variable sería la
lectura guiada y no todos los elementos que la rodean. Para poder conocer la eficacia de
la lectura guiada en la atenuación del fracaso escolar deberíamos comparar el grupo
experimental, que recibe el tratamiento de lectura guiada, con un grupo de control idén-
tico a él en todo, salvo en la lectura guiada. Este grupo de control recibiría lo que se
conoce como pseudotratamiento, pasaría el mismo tiempo en la biblioteca, tendría ac-
ceso a los libros, pero no recibiría lectura guiada. Si al cabo de los seis meses el grupo
experimental presenta menos fracaso escolar que el grupo de control podríamos con-
cluir que la lectura guiada atenúa el fracaso escolar. Si el resultado no fuera éste ten-
dríamos que continuar nuestra investigación para determinar qué factores del trata-
miento son los que atenúan el fracaso escolar (el paso del tiempo, el hecho de singula-
rizar a los niños, etc.).
El método experimental permite llegar a conclusiones más exactas y fiables sobre
las causas de la conducta que cualquier otro método de investigación. No obstante, el
método experimental no es perfecto y nuestras conclusiones han de ser siempre tentati-
vas. Obsérvese que los grupos de control tratan de controlar los factores que ya conoce-
mos, pero es posible que existan factores que no conocemos y que sin embargo pueden
ser las verdaderas causas del cambio en la conducta. Sirva como ilustración este ejem-
plo citado en Lieberman (1992). En la Inglaterra victoriana, el índice de mortandad en
el parto cuando éste tenía lugar dentro de un hospital era altísimo. Joseph Lister soste-
nía que estas muertes podrían evitarse si los médicos se lavaran las manos con jabón.
Su idea fue recibida con incredulidad, ¿cómo podía prevenirse la muerte de una mujer
lavando las manos del doctor con grasa animal hervida? Hoy lo entendemos, dado que
conocemos la naturaleza de los gérmenes y microbios, pero entonces su sugerencia
resultaba en el mejor de los casos cuestionable, ¿cómo explicarle a un médico de la
época que existían bichitos invisibles altamente contaminantes? La sugerencia estaría
al mismo nivel que si les dijéramos que las muertes estaban siendo causadas por espíri-
tus malignos. Esta situación demuestra cómo incluso en las situaciones mejor controla-
das la posibilidad de que algún factor quede sin controlar es alta. Por esta razón, los
A PRENDIZAJE Y SU ESTUDIO 17
1.3. Resumen
El aprendizaje se define como la adquisición de conocimiento, entendiendo por ésta
la modificación relativamente duradera de los mecanismos de la conducta a través de la
experiencia con eventos ambientales específicamente relacionados con esa conducta.
Esta definición de aprendizaje distingue entre aprendizaje y conducta, asumiendo que
no todos los aprendizajes se manifiestan en conducta ni todos los cambios conductua-
les se deben al aprendizaje. Aceptar esta definición tiene importantes implicaciones
para el estudio del aprendizaje. Si aprendizaje y conducta no son lo mismo, pero el
aprendizaje ha de inferirse a través de cambios conductuales, nuestros métodos de estu-
dio del aprendizaje deberán incluir condiciones de control exhaustivas que permitan
determinar con seguridad qué modificaciones conductuales se deben al aprendizaje,
discerniendo los mecanismos que las gobiernan. El método de estudio del aprendizaje
será el método experimental, en el que se modifican las variables independientes de
una en una para ver su efecto sobre la variable dependiente. En el método experimental
será fundamental el diseño de las condiciones de control con las que compararemos el
efecto de estas variaciones. Nuestras conclusiones se basarán en la comparación entre
las condiciones experimentales y las condiciones de control, teniendo en cuenta que
éstas deberán ser idénticas a las condiciones experimentales en todo, salvo en aquello
que pretendemos medir. El estudio del aprendizaje se justifica por el valor práctico del
conocimiento. Por último, el uso de animales no humanos en muchos de estos estudios
se justifica por las mayores posibilidades de control experimental que permite, así como
por la suposición de que los mecanismos básicos de aprendizaje estarán menos conta-
minados en estos animales por procesos cognitivos superiores que, mediados por el
lenguaje, únicamente aparecen en seres humanos.
Capítulo 2
Imagina que estás tranquilamente paseando por la plaza de tu pueblo en fiestas cuando
de repente explota un cohete en el aire. Ante el sonido brusco cierras los ojos, encoges
los hombros y agachas la cabeza, te sobresaltas. La respuesta de sobresalto ante un
estímulo intenso sorprendente es una respuesta refleja, no has necesitado aprenderla, se
presenta en todos los seres humanos y en muchas otras especies animales. El sonido
brusco que desencadena la respuesta refleja recibe el nombre de estímulo elicitador o
estímulo señal.
La conducta refleja es fundamental para la supervivencia de muchos organismos,
incluido el ser humano. El bebé al nacer tiene un repertorio de conductas reflejas que le
ayudan a adaptarse a su ambiente. Un ejemplo de esto es el reflejo de succión, basta
acercar a la boca del bebé cualquier objeto que tenga un parecido remoto a un pezón, un
dedo mismo, para que el bebé comience a succionarlo. Claramente, este reflejo permite
al bebé comenzar a mamar sin demora, si tuvieran que aprenderlo es posible que mu-
chos bebés fallecieran de inanición en el intento.
En los vertebrados los reflejos simples suelen estar mediados por tres neuronas, una
neurona sensorial o aferente que registra el estímulo y lo transmite a la médula espinal,
una neurona motora o eferente que activa el músculo implicado en la respuesta y una
interneurona que comunica a las dos previas. El conjunto de neuronas implicadas en un
reflejo simple es lo que se denomina arco reflejo. En algunas especies los reflejos se
organizan en conductas más complejas denominadas pautas de acción modal.
La supervivencia de muchas especies animales depende de estos patrones reflejos
de conducta implicados en la alimentación, la reproducción y la defensa de los preda-
dores. Un ejemplo claro de conducta refleja en animales distintos del ser humano es la
respuesta de mendicidad en la gaviota arenquera (Tinbergen y Perdeck, 1950). Estas
gaviotas se tragan el pescado que pescan y después lo regurgitan para alimentar a sus
crías. La cría picotea en el extremo del pico del progenitor y ese picoteo produce o
elicita la regurgitación del alimento que puede entonces ser aprovechado por el pollue-
lo. Observando la conducta desde fuera uno podría pensar que el polluelo de gaviota
está genéticamente preparado para reconocer y picotear el pico de sus padres. El estí-
mulo elicitador de la conducta de mendicidad sería el pico de sus progenitores. Aceptar
esta idea tal cual implicaría que el polluelo tiene inscrito en su código genético la forma
del pico de sus padres y que debe picotearles la punta para conseguir la comida.
19
20 A PRENDIZAJE HUMANO
2.1.- Habituación
¿Recuerdas el sobresalto que te produjo el primer cohete lanzado en las fiestas de tu
pueblo? Las fiestas siguen y continúan lanzándose cohetes regularmente para animar el
ambiente. El sobresalto que te produce cada nuevo lanzamiento es cada vez menor y
puede darse el caso de que incluso termines por apenas notar los cohetes que se lanzan.
Este descenso en la respuesta de sobresalto que se produce como consecuencia de la
exposición repetida al estímulo elicitador se conoce como efecto de habituación.
La habituación es probablemente el tipo de aprendizaje más simple y extendido a lo
largo del reino animal. La habituación reduce nuestra respuesta a estímulos inocuos,
desechando lo superfluo y permitiéndonos focalizar nuestra atención en los estímulos
relevantes o en aquellos sobre los que no conocemos todavía sus consecuencias. Los
HABITUACIÓN 21
estudios de habituación han permitido establecer de forma bastante clara sus caracterís-
ticas que, entre otras cosas, permiten diferenciar la habituación de efectos conductuales
parecidos, como la fatiga.
La habituación es específica del estímulo. Imagina que sigues paseando por las calles
de tu pueblo en medio del lanzamiento de cohetes. Te has ido “acostumbrando” al
sonido de los cohetes y tu respuesta de sobresalto ha dejado de producirse. Sin embar-
go, cuando de repente se activa la alarma del banco junto al que te lleva tu paseo vuel-
ves a sobresaltarte. Este ejemplo muestra como la habituación es relativamente especí-
fica del estímulo que se ha presentado repetidamente. Cuando se cambia el estímulo la
habituación desaparece, en otras palabras la respuesta aparece ante el estímulo nuevo.
No obstante, conviene matizar la afirmación que acabamos de hacer acerca de la
especificidad del estímulo en la habituación. Siguiendo con el ejemplo anterior, si el
sonido nuevo fuera un cohete de intensidad diferente en lugar de la alarma del banco es
bastante probable que tu respuesta de sobresalto siguiera amortiguada. La habituación
se va a generalizar a estímulos parecidos; cuando señalamos que la habituación es es-
pecífica del estímulo en realidad estamos diciendo que sólo se generaliza a estímulos
muy parecidos al habituado. A medida que los estímulos se diferencien más del estímu-
lo habituado la respuesta volverá a aparecer.
La especificidad del estímulo en la habituación nos permite introducir dos concep-
tos fundamentales en todo tipo de aprendizaje, la generalización y la discriminación.
Decimos que existe generalización cuando después del entrenamiento con un estímulo
se produce la misma respuesta ante estímulos parecidos. La discriminación sería el
fenómeno espejo de la generalización. Hablamos de discriminación cuando el sujeto
responde de forma diferente ante estímulos distintos al entrenado. Para comprobar el
nivel de generalización y discriminación del estímulo se realizan pruebas con estímu-
los que van variando en alguna o varias características del estímulo entrenado. Imagi-
nemos que después de lanzar una cantidad considerable de cohetes del mismo tipo
comienzan a entremezclarlos con cohetes que producen explosiones de distintas inten-
sidades. En la figura 2.1 se presentan los resultados hipotéticos de nuestra respuesta de
sobresalto ante los cohetes de distintas intensidades. En el centro de la figura se presen-
ta la respuesta ante los cohetes que tienen la misma intensidad que los que utilizaron al
inicio de la fiesta; tal y como vemos, la respuesta de sobresalto ante esos cohetes es
mínima, mostrando habituación. A la derecha y a la izquierda se recoge la respuesta
ante cohetes que varían gradualmente en intensidad de los presentados originalmente.
A la izquierda se presenta la respuesta ante cohetes de menor intensidad y a la derecha
ante cohetes de intensidad mayor. La figura representa un gradiente de generalización
típico de la habituación, con muy poca respuesta ante estímulos muy parecidos al origi-
nal, aumentando la respuesta rápidamente ante estímulos cada vez más diferentes. En
este caso, el gradiente de generalización tiene forma de valle abrupto, indicando que la
generalización es muy escasa. Cuando la generalización es muy alta y la respuesta ante
22 A PRENDIZAJE HUMANO
Figura 2.1. Gradiente de generalización hipotético de la respuesta de sobresalto ante los cohetes.
En el centro se presenta la respuesta ante el estímulo entrenado. La función etiquetada como baja
representa el gradiente de generalización típico de la habituación con mayor respuesta refleja
cuanto más diferente sea el estímulo elicitador del estímulo entrenado. El gradiente más suave
representa un resultado de generalización alta típico de la sensibilización, donde la respuesta es
alta ante estímulos diferentes.
los notabas. Si al cabo de unos días se celebra una nueva fiesta y lanzan de nuevo
cohetes, vuelves a sobresaltarte, la respuesta de sobresalto elicitada por el sonido del
cohete se recupera espontáneamente con el simple paso del tiempo. Ésta es otra carac-
terística de la habituación. En general, el grado de recuperación espontánea tiene una
relación directa con el periodo de descanso. Obsérvese que esta característica se com-
parte también con fenómenos que no tienen nada que ver con el aprendizaje, como es el
caso de la fatiga. Un periodo de descanso alivia la fatiga y permite que la respuesta
fatigada vuelva a presentarse. Luego la recuperación espontánea no permite distinguir
entre habituación y fatiga.
No todas las respuestas habituadas se recuperan espontáneamente. Una respuesta
refleja común en los mamíferos es la neofobia, el miedo a lo nuevo. Cuando nos encon-
tramos en un ambiente nuevo desconfiamos y nuestra conducta se vuelve cautelosa. La
neofobia al sabor es una respuesta típica de distintos mamíferos, incluido el ser humano
y la rata. Cualquiera que haya trabajado con ratas sabe que la primera vez que se le
permite beber a una rata de un sabor nuevo su consumo no suele ser muy alto, particu-
larmente si el sabor es intenso. Cuando el sabor se le vuelve a presentar al día siguiente
su consumo aumenta considerablemente y normalmente se mantiene estable a partir de
ahí. Lo interesante de esto es que una vez habituado el sabor parece mantenerse así por
periodos muy largos de tiempo (Domjan, 1977; Siegel, 1974). La habituación de la
neofobia no parece estar sujeta a recuperación espontánea y lo mismo ocurre cuando
otros estímulos se presentan espaciados (v.gr., Leaton, 1974). En general, los casos de
habituación en los que se produce recuperación espontánea se conocen como habitua-
ción a corto plazo, mientras que cuando no se produce recuperación espontánea habla-
mos de habituación a largo plazo. Normalmente, en cualquier situación de habituación
aparece tanto habituación a corto como a largo plazo, dado que la recuperación espon-
tánea no es normalmente completa. No obstante, los mecanismos de la habituación a
corto y a largo plazo podrían ser diferentes, tal y como veremos más adelante (Wagner,
1981).
Figura 2.2. Respuesta de sobresalto media en cada una de las 15 sesiones en las que las ratas
fueron expuestas a sonidos de distinta intensidad. El nombre de los grupos representa la intensi-
dad del sonido utilizado. En los grupos aleatorio y aumento gradual se emplearon sonidos entre 83
y 118 decibelios que se entremezclaron al azar en el grupo aleatorio y se aumentaron gradualmen-
te entre sesiones en el grupo aumento gradual. Adaptado del estudio de Davis y Wagner (1969).
caballo es que se habitúe al peso del jinete y que no intente desmontarlo cada vez que lo
cabalgue. Para realizar la doma se pueden utilizar dos estrategias, la primera es el estilo
vaquero de las películas del oeste, el jinete se sube en el caballo hasta que lo “rompe”,
esto es, hasta que el caballo se cansa de dar coces y saltos. La segunda sería ir adaptan-
do poco a poco al caballo al peso del jinete, comenzaríamos echándole una manta en el
lomo, después la silla, después cargaríamos la silla con peso hasta que finalmente lo
montamos nosotros. ¿Cuál es la mejor estrategia?
Davis y Wagner (1969) realizaron un sencillo experimento que nos puede dar una
idea de cual es la respuesta a esta pregunta. Utilizaron cuatro grupos de ratas que fueron
expuestas 750 veces a distintos sonidos, a razón de 50 sonidos diarios, registrando la
respuesta de sobresalto que les producían. En el grupo 120 siempre se les presentó un
sonido de 120 decibelios; en el grupo 100 siempre se les presentó un sonido de 100
decibelios; en el grupo aleatorio se le presentaron aleatoriamente sonidos de distintas
intensidades que oscilaban entre 83 y 118 decibelios; finalmente, en el grupo aumento
gradual los tonos fueron aumentando gradualmente a lo largo de las sesiones partiendo
de 83 decibelios y alcanzando finalmente los 118.
La figura 2.2 está basada en los resultados obtenidos por Davis y Wagner (1969) en
este experimento. Tal y como podemos observar, la respuesta de sobresalto decrece
muy poco en el grupo 120 que recibió exposiciones repetidas al estímulo más intenso.
Los otros tres grupos alcanzan el mismo nivel de respuesta al final del entrenamiento.
La pregunta ahora es, ¿cuál de los procedimientos ha producido mayor habituación? La
respuesta habitual a esta pregunta es que la mayor habituación se ha producido en los
HABITUACIÓN 25
Figura 2.3. Respuesta de sobresalto media en la prueba con un estímulo de 120 decibelios reali-
zada tras el entrenamiento descrito en la Figura 2.2 en los grupos 120, 100, aleatorio y aumento
gradual. Adaptado del estudio de Davis y Wagner (1969).
grupos 100 o 120, puesto que son los únicos en los que se aprecia realmente un descen-
so claro en la respuesta de sobresalto a lo largo de los días de exposición. De hecho, en
el grupo aumento gradual la respuesta de sobresalto parece aumentar ligeramente a lo
largo de los días, más que disminuir. Y sin embargo, la respuesta no es correcta. Dado
que los grupos reciben distintas intensidades de estímulos la respuesta final no es com-
parable. En la sesión final de la gráfica se están comparando respuestas ante estímulos
de distintas intensidades (100 decibelios en el grupo 100, 120 en el grupo 120, la media
de distintas intensidades en el grupo aleatorio y 118 decibelios en el grupo aumento
gradual).
Esto nos permite introducir un nuevo concepto importante en los estudios de apren-
dizaje y en los estudios científicos en general: la importancia de la prueba común. Para
poder comparar los efectos de distintos entrenamientos sobre la conducta es importante
que la prueba sea idéntica y bajo las mismas condiciones en todos los participantes, sin
esa prueba común cualquier conclusión es imposible. En temas posteriores veremos
que este problema, aparentemente tan evidente, ha llevado establecer conclusiones erró-
neas en la literatura. Así, para poder saber qué método de entrenamiento produce ma-
yor habituación es necesario que todos los grupos reciban en la prueba los mismos
estímulos. Esto lo sabían Davis y Wagner, por lo que realizaron una prueba en la que
todos los grupos recibieron el estímulo de 120 decibelios. Los resultados de esta prueba
se presentan en la figura 2.3. Tal y como puede observarse, el único grupo que clara-
mente muestra una habituación alta es el grupo que recibió una exposición a los estímu-
los en los que se aumentaba gradualmente su intensidad. El resto mostró poca eviden-
cia de habituación.
Los grupos 120 y aumento gradual se corresponden con las dos estrategias de entre-
26 A PRENDIZAJE HUMANO
namiento que planteábamos en nuestro ejemplo de la doma del caballo. De acuerdo con
los resultados de Davis y Wagner (1969) parece evidente que el mejor modo de conse-
guir que el caballo se habitúe a nuestro peso es entrenarlo gradualmente con pesos cada
vez mayores. Este resultado tiene implicaciones muy importantes en el desarrollo de
aprendizajes más complejos como es el caso del condicionamiento instrumental. Cuan-
do tratemos el castigo tendremos la oportunidad de comprobar hasta qué punto es im-
portante tener en cuenta el modo en que se administran los estímulos si queremos con-
seguir que nuestros procedimientos de aprendizaje resulten eficaces.
2.2.- Sensibilización
Imagina que vives encima de un bar de copas mal insonorizado y que estás prepa-
rando tu examen del viernes un jueves por la noche, en plena algarabía estudiantil. El
sonido de la calle se mantiene intenso con ligeros altibajos hasta la madrugada. De
acuerdo con lo que veíamos en el apartado previo, al cabo de un tiempo de exposición
al sonido de la calle deberías habituarte a él con lo que no te impediría estudiar. Sin
embargo sabemos que lo normal es que ocurra lo contrario, a medida que transcurre la
noche tus nervios están más a flor de piel y encontrar la concentración suficiente para
estudiar es cada vez más difícil. Este aumento en la respuesta con la exposición repeti-
da al estímulo se conoce como sensibilización.
Davis (1974) ilustra este fenómeno experimentalmente al presentar reiteradamente
un sonido intenso a las ratas. En la figura 2.4 se recoge un resumen de los resultados
obtenidos en este experimento. En uno de los grupos el sonido intenso se presentó
mientras la rata estaba en un ambiente con poco nivel de ruido (60 decibelios); en el
otro grupo el ruido de fondo alcanzaba los 80 decibelios. Tal y como vemos en la figura
la respuesta de sobresalto disminuyó cuando el sonido se presentó en el ambiente tran-
quilo, habituándose, mientras que aumentó cuando se presentaba en el ambiente de
ruido intenso. Este aumento se conoce como sensibilización y nos permite ilustrar la
característica principal de la sensibilización, la falta de especificidad del estímulo.
Figura 2.4. Magnitud de la respuesta de sobresalto ante las presentaciones repetidas de un tono
con un ruido de fondo de 60 (bajo) o de 80 decibelios (alto). Basado en el estudio de Davis (1974).
y por fin cuentas con un poco de silencio; uno de tus compañeros de piso se levanta y
pone la radio a un volumen moderado, el mismo que todas las mañanas. Sin embargo,
tu reacción es desproporcionada, gritándole que apague la radio, que tenga un poco de
respeto por tus horas de estudio. Igualmente, cuando ves una película de terror, cual-
quier sonido en la casa que normalmente te hubiera pasado desapercibido te sobresalta
sobremanera. Estas reacciones desproporcionadas e inusuales ilustran la falta de espe-
cificidad del estímulo de la sensibilización. Cuando se produce la sensibilización por la
exposición a un estímulo determinado la respuesta aumenta ante estímulos distintos al
original. El experimento de Davis (1974) recogido en la figura 2.4 también ilustra esta
característica; el ambiente de ruido intenso produce un aumento en la respuesta ante el
sonido que de otro modo hubiera disminuido.
La teoría del proceso dual. Groves y Thompson (1970) propusieron una teoría capaz
de integrar la mayoría de los resultados experimentales de habituación y sensibiliza-
ción que hemos presentado arriba. Esta teoría propone que los mecanismos de habitua-
ción y sensibilización actúan en partes distintas del sistema nervioso: el sistema estí-
mulo-respuesta y el sistema de estado.
La habituación actuaría en lo que estos autores denominan sistema Estímulo-Res-
puesta (sistema E-R) y que se correspondería con el arco reflejo, controlando la con-
ducta específica. La habituación actuaría aumentando el umbral específico de un arco
reflejo concreto de tal modo que la próxima vez que se presentara el estímulo elicitador
la respuesta refleja fuera más improbable. De otro modo, se necesitaría un estímulo
elicitador más intenso para elicitar la misma respuesta refleja. De aquí la especificidad
del estímulo de la habituación. Sólo el estímulo elicitador de ese arco reflejo concreto
producirá el aumento en el umbral de respuesta. Cuando se cambie el estímulo el um-
bral no aumentará y la respuesta aparecerá normalmente.
La sensibilización actuaría en el sistema de estado. Este sistema que incluye todo el
sistema nervioso que no forma parte del arco reflejo pero que influye en su reactividad.
La sensibilización supondría un descenso general en el umbral de respuesta que lleva-
ría a que la respuesta ante cualquier estímulo se facilitara, independientemente de que
éste estuviera habituado. La sensibilización se traduciría así en un aumento en nuestro
nivel de activación o arousal, aumentando nuestra respuesta a cualquier estímulo. De
ahí que la sensibilización no sea específica del estímulo. Si el estímulo que produce
sensibilización supone un aumento en el nivel de activación nerviosa, se aumentará la
respuesta a cualquier otro estímulo que se presente, incluso aunque esté habituado.
Esta idea explica por qué se produce la deshabituación. Cuando habituamos la respues-
ta a un estímulo mediante su presentación repetida y después presentamos un estímulo
nuevo inmediatamente antes del estímulo habituado, el incremento en el nivel de arousal
(la sensibilización) que produce el estímulo nuevo hará aumentar la respuesta ante el
estímulo habituado.
La teoría del proceso dual de Groves y Thompson (1970) ha recibido respaldo em-
pírico de los estudios neurobiológicos realizados con la babosa marina Aplysia Califór-
nica; en estos estudios se ha encontrado que la habituación depende de un descenso
progresivo en la liberación del neurotransmisor en las conexiones realizadas por las
neuronas sensoriales e interneuronas provocando un descenso en los potenciales de
acción en las neuronas motoras y reduciendo la respuesta refleja. En cambio, la sensibi-
lización parece ser consecuencia de una facilitación sináptica en las interneuronas re-
guladoras que inervan presinapticamente a las neuronas sensoriales permitiéndoles li-
berar una mayor cantidad de neurotransmisor. Así, la sensibilización afecta en general
las neuronas sensoriales de distintos arcos reflejos, mientras que la habituación incide
en la transmisión sináptica dentro de un arco reflejo concreto (véase Kandel, Schwartz
y Jessell, 2001). Como vemos, la investigación neurológica parece haber instanciado la
teoría psicológica propuesta por Groves y Thompson.
HABITUACIÓN 29
La teoría de la habituación de Wagner (1981). Ésta es una teoría asociativa que trata
de dar cuenta de cuándo y cómo se producen asociaciones entre distintos estímulos.
Cuando más adelante hablemos acerca de las relaciones asociativas entre estímulos nos
extenderemos más en el concepto de asociación y de los distintos tipos de asociaciones.
A efectos de la habituación basta saber que las asociaciones son conexiones entre re-
presentaciones de estímulos que llevan a que la aparición de uno de los estímulos pro-
voque la recuperación de la representación del otro en la memoria. El modelo asume
que existen dos tipos de memoria que son en realidad dos estados diferentes de activa-
ción de la información, la memoria inactiva (estado I) y la memoria activa (estado A). A
su vez, dentro de la memoria activa se distingue el estado de máxima activación (A1) y
un estado de activación secundaria, periferia de la atención (A2).
En la figura 2.5 se representa gráficamente la circulación de la información en me-
moria según el modelo de Wagner (1981). La información nueva se procesa en estado
A1. De A1 decae a A2, y de aquí a I. La transición entre A1 y A2 es muy rápida, pues se
asume que no podemos prestar atención a muchos estímulos al mismo tiempo. La tran-
sición de A2 a I es mucho más lenta, dado que son muchos más los estímulos que
pueden estar siendo procesados en la periferia de la atención (A2). Cuando presenta-
mos un estímulo conocido gran parte de sus características se activarán en A1, recupe-
rándose desde la memoria inactiva (I). De ahí pasará a A2, y de A2 a I. Finalmente,
cuando se haya establecido la asociación entre dos estímulos, es decir, cuando un suje-
to haya aprendido que dos estímulos se presentan juntos, la aparición del primer estí-
mulo activará su representación en A1 y al mismo tiempo activará la representación del
segundo estímulo en A2. La respuesta sólo va a aparecer ante el estímulo que esté
siendo procesado en A1.
30 A PRENDIZAJE HUMANO
Figura 2.6. Representación de la dinámica afectiva según Solomon y Corbit (1974). Las dos
figuras de la parte superior representan la respuesta observable ante un estímulo que elicita una
emoción las primeras veces que se presenta (izquierda) y cuando ya está habituado (derecha). Las
dos figuras de la parte inferior representan los procesos oponentes subyacentes cuya combinación
produce la respuesta emocional observable en las figuras superiores. La parte sombreada corres-
ponde al tiempo que está presente el estímulo elicitador de la emoción. Adaptado de Solomon y
Corbit (1974).
(estímulo elicitador afectivo) lleva a que cuando se acerque el fin de semana esperes
poder conducir el coche. Esta regularidad permite a tu organismo anticipar la aparición
del proceso oponente, resultando mucho más eficiente la regulación emocional. Sin
embargo, cuando un fin de semana te quedes sin coche la sensación de frustración va a
ser muy intensa pues el hecho de estar en el fin de semana va a llevar a la generación
automática del proceso oponente de frustración que, en ausencia del estímulo elicitador
primario (el coche) se va a manifestar con toda su intensidad. La idea de los procesos
oponentes se ha visto respaldada empíricamente por los estudios sobre la tolerancia a
las drogas que veremos más adelante (Siegel, 1999).
2.5.- Resumen.
La conducta refleja no es invariable. La repetición del estímulo elicitador lleva a un
descenso o un aumento en la conducta refleja. El descenso en la conducta refleja por la
presentación del estímulo elicitador se conoce como efecto de habituación, es específi-
co del estímulo y está sujeto a recuperación espontánea con el simple paso del tiempo.
El aumento en la respuesta como consecuencia de la exposición repetida al estímulo
elicitador se denomina sensibilización y no es específica del estímulo. La teoría del
proceso dual de Groves y Thompson (1970) sostiene que la habituación se produce
aumentando el umbral de respuesta en el arco reflejo, en lo que denominan sistema
estímulo-respuesta, mientras que la sensibilización tiene lugar en el sistema de estado,
aumentando la reactividad del sujeto a los estímulos. Wagner (1981) explica la habitua-
ción desde un punto de vista asociativo, considerando que se produce porque el contex-
to donde se presenta habitualmente el estímulo activa el recuerdo del estímulo e impide
que se procese tan activamente como cuando se presenta inesperadamente.
Habituación y sensibilización son dos mecanismos reguladores de la respuesta re-
fleja, manteniéndola dentro de un rango objetivo. En ese sentido, habituación y sensibi-
lización son mecanismos oponentes. La idea de los mecanismos oponentes, común en
el funcionamiento de sistemas homeostáticos, se ha aplicado con éxito a la regulación
de las emociones complejas. Solomon y Corbit (1974) suponen que la presentación de
un estímulo que elicite una emoción produce en el organismo una reacción emocional
de signo contrario, proceso oponente, que devuelve al organismo a la neutralidad emo-
cional. Cuando el estímulo desaparece, el proceso oponente permanece produciendo
una postrreacción afectiva de signo contrario a la producida por el estímulo afectivo
original. La habituación lleva a que el proceso oponente se active más rápido y con
mayor intensidad, con la consecuencia de que la emoción observada ante el estímulo es
menor y sin embargo la postrreacción afectiva es mayor.
Capítulo 3
Imagina que vas paseando por el campo y el cielo se encapota, a los pocos minutos
comienza a llover y acabas hecho una sopa, ¿has aprendido algo? Seguro que has apren-
dido muchas cosas, como a llevar paraguas o a no salir al campo si amenaza lluvia,
aunque de eso trataremos en temas posteriores. También has aprendido que un cielo
encapotado va seguido de lluvia, en otras palabras, has establecido una relación entre el
cielo encapotado y la lluvia. Esta es una forma de aprendizaje asociativo en el que se
establecen relaciones o conexiones entre eventos, de tal modo que la presentación de
uno de esos eventos en el futuro active en la memoria la expectativa de la aparición del
otro. Dentro del aprendizaje asociativo, la relación entre el cielo encapotado y la lluvia
es una forma de condicionamiento pavloviano o condicionamiento clásico.
El estudio sistemático del condicionamiento clásico comenzó en el laboratorio de
Ivan Pavlov (1849-1936) un fisiólogo ruso que recibió el premio Nobel de fisiología
por sus estudios sobre el sistema digestivo. En estos estudios Pavlov implantaba una
fístula estomacal a sus perros y descubrió que bastaba la presencia del técnico de labo-
ratorio que normalmente los alimentaba para que el perro comenzara a secretar jugos
gástricos antes de tener la oportunidad de comer. Pavlov explotó este hallazgo en sus
estudios posteriores para crear las bases del estudio del condicionamiento clásico (Pa-
vlov, 1927).
35
36 A PRENDIZAJE HUMANO
puesto que hablamos del mismo tipo de estímulos y respuestas. El estímulo elicitador y
la respuesta refleja se convierten en EI y RI cuando forman parte de un procedimiento
de condicionamiento clásico.
Los emparejamientos del estímulo neutro con el EI llevan a que el primero termine
por elicitar una respuesta observable que se denomina respuesta condicionada (RC),
convirtiéndose así en un estímulo condicionado (EC). La denominación de estos ele-
mentos no es casual, el estímulo condicionado se llama así porque provoca la RC sólo
después del proceso de condicionamiento; y la respuesta es condicionada porque nece-
sita igualmente del condicionamiento para presentarse.
Los emparejamientos repetidos entre el EC y el EI llevan a un incremento gradual
negativamente acelerado en la RC que se conoce como curva de adquisición. Esta
curva negativamente acelerada es una característica de todo el aprendizaje, piensa por
ejemplo en cuando aprendes un idioma nuevo, las primeras semanas los avances son
espectaculares pero después los avances son cada vez más pequeños, aunque tu capaci-
dad de uso del idioma sea cada vez mayor. Cuando después del aprendizaje se presenta
el EC solo, en ausencia del EI, se produce un descenso gradual en la RC que se conoce
como efecto de extinción. No obstante, el estudio del efecto de extinción, de las varia-
bles que le afectan y de sus explicaciones lo demoraremos hasta un capítulo posterior.
El condicionamiento clásico se ha estudiado en la literatura con multitud de proce-
dimientos. En general, los procedimientos podemos dividirlos en función de si el EI
utilizado es apetitivo (algo que el sujeto quiere tener, como la comida) o aversivo (algo
que el sujeto preferiría no recibir como una descarga eléctrica o un malestar gastroin-
testinal), en el primer caso hablaremos de condicionamiento apetitivo y en el segundo
de condicionamiento aversivo.
Figura 3.1. El diseño de precondicionamiento sensorial utilizado por Brodgen (1939) se presenta
en el panel superior. En el panel inferior se presenta un diseño alternativo en el que se ha mejorado
el grupo de control y se ha contrabalanceado el papel que juegan la luz y el tono como estímulos
A y B.
emparejamientos de un tono y una luz. Después presentó la luz seguida por una descar-
ga eléctrica breve y por último comprobó el miedo que el tono elicitaba en los perros,
comparándolo con el que elicitaba en un grupo de control que únicamente había recibi-
do emparejamientos entre la luz y la descarga. Encontró que la presentación del tono
producía miedo en los perros, concluyendo que se había formado una asociación entre
el tono y la luz durante la primera fase de modo que cuando después la luz se asoció con
la descarga, el perro esperaba recibir la descarga en presencia del tono. La asociación
tono-luz se formó durante la primera fase, en ausencia de un estímulo incondicionado
al uso; la segunda fase sólo es necesaria en tanto en cuanto necesitamos una respuesta
observable para poder medir la asociación entre el tono y la luz. El EI puede ser nece-
sario para la respuesta observable, pero desde luego no es necesario para el aprendiza-
je.
En el panel inferior de la figura 3.1 se presenta un diseño alternativo al diseño de
Brodgen (1939). Cuando hablábamos de las condiciones de control señalábamos que
una condición de control adecuada debe de ser idéntica a la condición experimental en
todo salvo en aquello que queremos medir, en este caso la asociación tono-luz. Sin
embargo, la condición de control utilizada por Brodgen (1939) difiere de la condición
experimental en más aspectos de los aconsejables. Además de diferir en la posibilidad
de la asociación tono-luz difiere también en la experiencia con el tono y en la experien-
cia con la luz. Una condición de control más apropiada sería la que se presenta en la
parte derecha de la figura 3.1, en la que el tono y la luz se presentan el mismo número
de veces que en la condición experimental, pero no se da la oportunidad de que se
38 A PRENDIZAJE HUMANO
Figura 3.2. Diseño esquematizado y resumen de los resultados del experimento realizado por
García y Koelling (1966) en el que demostraban la selectividad de las asociaciones. Sólo se obser-
vó condicionamiento cuando el estímulo audiovisual se emparejó con la descarga eléctrica o cuando
el estímulo sápido se emparejó con el malestar gástrico. Cualquier otra combinación no produjo
evidencia de condicionamiento. Basado en el trabajo de García y Koelling (1966).
Figura 3.5. Extracto del diseño y resultados de un experimento en el que se comparan los proce-
dimientos de condicionamiento simultáneo y condicionamiento demorado. El estímulo A mantie-
ne una relación simultánea con el estímulo B y demorada con el estímulo C durante la primera
fase. La razón de supresión en los distintos grupos sugieren que el condicionamiento fue mejor en
el grupo simultáneo que en el grupo de demora. Basado en un estudio de Rescorla (1980).
Durante la primera fase estableció una relación entre tres estímulos neutros, los estímu-
los A y B se presentaban simultáneamente y ambos mantenían una relación de demora
con el estímulo C. En el grupo simultáneo el estímulo B se emparejó con una descarga
eléctrica durante la segunda fase; en el grupo demorado el estímulo emparejado con la
descarga fue el estímulo C. Finalmente, todos recibieron una prueba con el estímulo A.
Obsérvese que la respuesta en la prueba dependerá de la relación que tenga durante la
primera fase el estímulo A con el estímulo emparejado con la descarga durante las
segunda fase, simultánea en el grupo simultáneo y demorada en el grupo demorado. En
la parte derecha de la figura 3.5 se presentan los resultados de este experimento. Como
puede observarse, la supresión es mínima en el grupo de demora mientras es más alta
en el grupo simultáneo, sugiriendo que la relación simultánea entre Ay B durante la
primera fase fue más eficaz para establecer la asociación que la relación demorada
entre A y C. Este resultado, aunque no necesariamente extrapolable a una situación de
condicionamiento normal, con EIs biológicamente relevantes, cuestiona cuando menos
la supuesta dificultad que implica la asincronía para el principio de contigüidad y pone
de manifiesto las dificultades del estudio del aprendizaje que remarcábamos en el capí-
tulo primero.
La relatividad es otro fenómeno que cuestiona la ley de contigüidad. Varios autores
han encontrado que el que se produzca mayor o menor condicionamiento no depende
tanto del intervalo entre estímulos, sino también del intervalo entre ensayos o intervalo
entre distintos emparejamientos EC-EI (Gibbon, Locurto y Terrace, 1975; Lattal, 1999).
En otras palabras a la hora de juzgar si dos cosas están o no próximas tomamos en
cuenta dos factores, lo cerca que esté objetivamente la una de la otra y lo cerca que
estén ambas de las demás. La asociación entre dos estímulos parece depender de la
proporción entre el intervalo entre estímulos y el intervalo entre ensayos y no tanto de
la contigüidad entre ellos (Gibbon y Balsam, 1981). En general, cuanto mayor sea el
intervalo entre ensayos con respecto al intervalo entre estímulos, el aprendizaje será
más rápido.
Adaptación del diseño de validez predictiva relativa utilizado por Wagner et al. (1968).
Condicionamiento Prueba
Correlacionado XA+, XB- X?
Descorrelacionado XA+/-, XB+/- X?
Figura 3.6. Esquematización del diseño empleado por Wagner et al. (1968) en su estudio de
validez predictiva relativa (arriba) y del empleado por Kamin (1969) en su estudio sobre bloqueo
(abajo). Obsérvese que en ambos casos la contigüidad entre los estímulos de prueba y el EI es la
misma en ambos grupos.
sólo cuando las consecuencias son sorprendentes; si no lo son, si hay un estímulo que
ya predice bien el EI, no se aprenderá nada nuevo. En el caso del grupo de bloqueo, el
sujeto aprende que S predice el EI durante la primera fase. Cuando durante la fase II
aparecen S y L juntos, el sujeto espera el EI gracias a S, por lo que no aprende nada
acerca de L; la consecuencia no es sorprendente y por tanto no hay aprendizaje. Inde-
pendientemente de que la interpretación de Kamin sea correcta, sí parece claro que el
bloqueo demuestra que la contigüidad no es suficiente para que se produzca el aprendi-
zaje.
Apliquémoslo al ejemplo del restaurante mexicano. Después de haber tomado gusa-
nos de maguey y sentirte mal atiendes a una comida familiar con tus suegros que han
decidido obsequiarte con comida mexicana. Para tu sorpresa, observas que el entrante
son gusanos de maguey con chapulines (saltamontes); a fin de no desairar a tus suegros
comes ambas cosas y, tal como esperabas, al cabo de unas horas te sientes mal, ¿a qué
le vas a echar la culpa de tu malestar? A los gusanos de maguey, puesto que tu experien-
cia previa con ellos te hacía esperar el malestar. ¿Qué hubiera pasado si no hubieras
tenido la experiencia previa de malestar? Probablemente hubieras culpado del mismo a
los dos componentes del plato, a los gusanos y a los saltamontes, rechazando en el
futuro cualquiera de los dos platos.
En los estudios de aprendizaje causal humano se ha encontrado que no importa el
orden de las fases a la hora de conseguir el bloqueo. Éste se consigue también cuando
se comienza con la fase de condicionamiento con el compuesto y se termina con la fase
de condicionamiento simple. Este fenómeno se conoce como bloqueo hacia atrás y
supone una revaluación retrospectiva del significado del estímulo. En el ejemplo ante-
rior, la capacidad de los chapulines para producir el malestar tras los emparejamientos
de los gusanos de maguey y los chapulines con el malestar se reconsidera a la baja
cuando se descubre que los gusanos de maguey también producen malestar cuando se
presentan solos. Este fenómeno parecía exclusivo del aprendizaje humano. No obstan-
te, se ha encontrado que también puede aparecer en animales siempre que los estímulos
empleados no tengan un significado biológico importante, esto es, cuando se utiliza un
diseño de precondicionamiento sensorial (Miller y Matute, 1996).
Rescorla (1968) sugirió que además de la contigüidad se necesitaba que el EC man-
tuviera una relación predictiva adecuada con el EI. Tomemos el siguiente ejemplo adap-
tado de un experimento de Rescorla (1968). Dos grupos de ratas recibieron los mismos
emparejamientos entre el EC y el EI (20T+). La única diferencia fue que el grupo que
denominaremos azar recibió además presentaciones del EI solo (20+), presentaciones
que no recibió el grupo informativo. La contigüidad fue la misma en los dos grupos y
por tanto, si la contigüidad fuera suficiente para que se produjera el aprendizaje los dos
grupos hubieran debido mostrar el mismo nivel de respuesta. Sin embargo, mientras
que el aprendizaje fue máximo en el grupo informativo no se encontró evidencia de
aprendizaje en el grupo azar.
CONDICIONAMIENTO CLÁSICO 49
Este tipo de resultados llevaron a Rescorla (1968) a proponer que el factor determi-
nante del aprendizaje fuera la contingencia EC-EI, más que la contigüidad. La contin-
gencia se define como la diferencia entre la probabilidad del EI en presencia del EC y la
probabilidad del EI en ausencia del EC. De acuerdo con esta idea, cuando el resultado
de la diferencia sea positivo el EC es un buen predictor de la aparición del EI y se
produce un condicionamiento excitatorio. Cuando el resultado de la diferencia sea ne-
gativo el EC es un buen predictor, pero de la ausencia del EI y se establece un aprendi-
zaje inhibitorio. En el próximo capítulo retomaremos la idea de la contingencia y pre-
sentaremos algunos de sus desarrollos en las explicaciones del aprendizaje humano.
Figura 3.7. Dos ejemplos de diseño intrasujeto de la prueba de sumación (arriba) y de retraso
(abajo) en la inhibición condicionada. Si el estímulo B se convierte en inhibidor condicionado
debe reducir la respuesta ante C más de lo que lo hace D (sumación) y condicionarse más lenta-
mente que el estímulo D (retraso en la adquisición).
Figura 3.8. Representación esquemática de las dos asociaciones que puede formar el sujeto en
una situación de condicionamiento clásico. En la asociación E-R el sujeto aprende a responder
ante el EC, mientras en la asociación E-E el sujeto aprende que el EC predice el EI.
embargo, desde la teoría E-E, al devaluar el valor del EI debería reducirse también la
respuesta condicionada. Rescorla (1973) encontró que la devaluación del valor moti-
vacional del sonido redujo la respuesta condicionada en una prueba posterior, conclu-
yendo que el sujeto establece una asociación E-E durante el condicionamiento clásico.
Este procedimiento se denomina devaluación del EI.
De acuerdo con la teoría E-E la inflación del EI debería producir resultados contra-
rios a la devaluación del EI. Rescorla y Freberg (1978) comprobaron esta hipótesis
utilizando ratas a las que se les administró una combinación de sabor amargo y sal. Las
ratas no beben mucho del sabor amargo (EC), mientras parece gustarles bastante la sal
(EI). Después de establecer la asociación entre el sabor amargo y la sal se les adminis-
tró una inyección de formalina, la formalina produce un déficit de sodio en el organis-
mo y dispara la necesidad de sal. Finalmente las ratas recibieron una prueba de prefe-
rencia por el sabor amargo. Si las ratas hubieran establecido una relación E-R en la que
aprendieron a beber el sabor amargo, el aumento en la necesidad de la sal no debiera
conllevar un aumento en el consumo de sabor amargo. Por el contrario, si las ratas
aprendieron que el sabor amargo anuncia la sal (E-E) la inflación del valor de la sal
(inflación del EI) debiera llevar a un aumento en la preferencia por el sabor amargo,
como efectivamente ocurrió.
Los procedimientos de devaluación e inflación del EI demuestran que establecemos
asociaciones EC-EI en el condicionamiento clásico. No obstante, debemos señalar que
en el condicionamiento clásico no sólo se establecen estas asociaciones. Los procedi-
mientos de devaluación del EI rara vez consiguen eliminar la respuesta condicionada,
sugiriendo que parte de lo que aprende el sujeto en el es una asociación E-R.
Figura 3.9. Representación esquemática de las dos asociaciones que puede formar el sujeto du-
rante la inhibición condicionada (arriba) y durante la facilitación (abajo). En la columna de la
izquierda aparecen representadas dos asociaciones directas entre el EC y el EI, mientras que en la
parte derecha se representan dos relaciones jerárquicas o de orden superior. La flecha representa
una asociación excitatoria mientras la línea cortada representa una asociación inhibitoria.
ciación entre A y el EI. Holland (1984) encontró que en estas circunstancias, el condi-
cionamiento del estímulo B después del entrenamiento ocurría más rápidamente que en
un inhibidor condicionado estándar y que este condicionamiento no afectaba a las pro-
piedades de B como modulador. Esto es, tras emparejar B con el EI, B seguía supri-
miendo la respuesta ante el estímulo A.
En el caso de la facilitación (A-, BA+) son igualmente dos las posibles estrategias
que puede utilizar el sujeto para resolver la situación, puede establecer una relación
directa entre B y el EI, desestimando A, como la representada en el panel inferior iz-
quierdo de la figura 3.9, o establecer una relación de orden superior en la que el B
module la relación entre A y el EI como la que aparece en el panel inferior derecho de
la figura 3.9.
La distinción entre estas dos posibilidades se ha realizado a través de dos estrategias
experimentales. Por una parte, si la relación establecida es una relación directa entre B
y el EI la presentación de B solo, en extinción, debería producir un descenso en la
56 A PRENDIZAJE HUMANO
respuesta, cosa que no ocurriría si la relación fuera de orden superior. El hecho de que
la extinción del estímulo B no parezca afectar a la respuesta del sujeto en la situación de
facilitación sugiere que el tipo de relación establecido en este diseño es una relación de
orden superior donde el estímulo B anuncia la relación entre A y el EI (v.gr., Holland,
1989).
Rescorla, Durlach y Grau (1985) utilizaron una estrategia distinta para establecer el
tipo de aprendizaje que se producía en facilitación. Utilizaron un procedimiento de
automoldeamiento en palomas y tomaron ventaja de la topografía de la RC ante distin-
tos ECs en esa situación. Como mencionábamos más arriba en la descripción de la
técnica de automoldeamiento, el establecimiento de una relación entre una luz localiza-
da y la comida produce una RC de picoteo en la tecla iluminada. Sin embargo, un
estímulo auditivo relacionado con la comida elicita un aumento en la actividad (los
sonidos no se pueden picotear, naturalmente). Rescorla et al. (1985) tomaron ventaja de
estas características y utilizaron el sonido como estímulo A y la luz como estímulo B,
de modo que tenían ensayos sonido+luz seguido por el EI (BA+) combinados con en-
sayos en los que se presentaba la luz sin el EI (A-). Si las palomas hubieran establecido
una asociación directa B-EI (sonido-comida) la respuesta que se hubiera observado en
los ensayos AB+ hubiera sido de aumento en la actividad; por el contrario, si las palo-
mas establecieron una relación de orden superior en la que el sonido anuncia que la luz
va seguida de comida se observaría un picoteo a la luz sólo en los momentos en los que
estuviera presente el sonido. Este último resultado fue lo que encontraron Rescorla et
al. (1985) concluyendo que la relación que se establece en la situación de facilitación es
una relación de orden superior del tipo B(A-EI).
No obstante, al igual que cuando hablábamos de las estrategias de aprendizaje en el
condicionamiento clásico simple y como ya apuntábamos al hablar de inhibición con-
dicionada, es posible encontrar evidencia de los dos tipos de soluciones tanto en inhibi-
ción condicionada como en facilitación. La clave para que el sujeto establezca una
relación de orden superior o una relación directa con el EI parece depender de la rela-
ción temporal entre los estímulos. Cuando el estímulo B empieza y termina antes de
que empiece el estímulo A es más fácil que se produzca una asociación del tipo B(A-EI)
en la facilitación y B(A-no EI) en la inhibición condicionada, mientras que lo contrario
es cierto cuando A y B se presentan simultáneamente (v.gr., Holland, 1992; Nelson y
Bouton, 1997).
presenta durante un periodo demasiado breve para que pueda percibirse consciente-
mente seguido por un estímulo que actúa de máscara y que precede al EI. Así, aparen-
temente es el estímulo máscara el que actúa como EC consciente, pero es en realidad el
estímulo que ha sido enmascarado el que nos interesa como estímulo condicionado.
mente consciente, controlado por procesos mentales superiores. Sin embargo, en estos
procedimientos, al igual que en los procedimientos de condicionamiento y extinción
instruidos parece que las respuestas que el sujeto controla son principalmente las res-
puestas motoras sobre las que el sujeto tiene un control consciente y no ocurre lo mis-
mo con las respuestas del sistema nervioso autónomo. Las respuestas autonómicas se
mantienen de manera irracional en el desapareamiento informado sugiriendo que al
menos estas respuestas tienen un componente inconsciente. Esta misma conclusión
puede extraerse de los resultados obtenidos en condicionamiento evaluativo en el que,
en contra de lo que ocurre en el condicionamiento estándar, parece razonablemente
claro que se puede lograr condicionamiento en ausencia de conciencia al encontrarlo
por ejemplo en situaciones de percepción subliminal (véase De Houwer, Thomas y
Baeyends, 2001, para una revisión).
Incluso en los casos en los que la conciencia parece necesaria para el condiciona-
miento humano, lo cierto es que ésta no es suficiente para que el condicionamiento se
manifieste. Se ha encontrado que sujetos conscientes de la contingencia entre el EC y el
EI no muestran la RC (v.gr., Dawson y Fusedy, 1976) y viceversa. Conciencia y condi-
cionamiento no parecen correlacionar de forma consistente.
3.5.- Resumen
El mecanismo básico para establecer relaciones entre estímulos del ambiente que se
presentan independientemente de la conducta del sujeto es el condicionamiento clási-
co. En el condicionamiento clásico se establece una relación entre un estímulo condi-
cionado y un estímulo incondicionado, con el resultado de que el sujeto termina por
emitir una respuesta condicionada ante el EC. No obstante, el condicionamiento clási-
co se define más exactamente como el establecimiento de relaciones entre dos estímu-
los, sean estos biológicamente relevantes o no lo sean. No obstante, los estudios de
asociación selectiva sugieren que hay asociaciones que son más fáciles de establecer
que otras, por ejemplo la asociación sabor-malestar gastrointestinal parece más fácil de
aprender en la rata y el ser humano que la asociación sabor-descarga eléctrica. La res-
puesta condicionada puede ser idéntica, distinta o incluso opuesta a la RI estando algu-
nas veces determinada por el EC utilizado en el entrenamiento. Como cualquier otra
forma de aprendizaje, el condicionamiento clásico necesita de grupos de control que
aseguren que la respuesta del sujeto depende de la asociación EC-EI. Los grupos de
control más utilizados son el control desemparejado, el control aleatorio y el control
discriminativo.
Tradicionalmente se había considerado que la ley fundamental del condicionamien-
to clásico era la contigüidad EC-EI. Sin embargo, fenómenos como la asincronía y la
relatividad cuestionan la suficiencia de esta ley para explicar la adquisición de la aso-
ciación EC-EI. De hecho, en los años setenta se encontraron varios fenómenos que
demostraban que la contigüidad entre dos estímulos no era suficiente para lograr esta-
blecer la asociación entre ellos. Bloqueo, validez predictiva relativa, y relación predic-
60 A PRENDIZAJE HUMANO
tiva todos demuestran que en situaciones de contigüidad equivalente no tiene por qué
producirse el mismo aprendizaje. El aprendizaje en esas situaciones depende del poder
predictivo de otros estímulos presentes en ellas. Cuando el EC sea un buen predictor de
la presencia del EI en relación con otros predictores presentes en la situación se produ-
cirá condicionamiento excitatorio. Cuando el EC sea un buen predictor de la ausencia
del EI se producirá condicionamiento inhibitorio. El condicionamiento inhibitorio no
se observa directamente en la conducta y necesita de pruebas especiales para demos-
trarse, la prueba de sumación y la prueba de retraso en la adquisición. Otros factores
que determinan el establecimiento de la asociación EC-EI son la preexposición al EC
(inhibición latente), la preexposición al EI y la preexposición al EC y al EI descorrela-
cionados (irrelevancia aprendida). Estas tres formas de preexposición producen un re-
traso en la adquisición posterior de la relación EC-EI durante el condicionamiento.
La presentación correlacionada de un EC y un EI puede producir una relación EC-
EI del tipo E-E, o una relación EC-RC del tipo E-R. Los procedimientos de devalua-
ción e inflación del EI tras el condicionamiento modifican la respuesta condicionada,
sugiriendo que en el condicionamiento clásico se establece una asociación E-E más
que una asociación E-R. Los diseños de inhibición condicionada (A+, BA-) y facilita-
ción (A-, BA+) pueden resolverse estableciendo relaciones directas entre el estímulo B
y el EI (inhibitoria en la inhibición y excitatoria en la facilitación) o mediante relacio-
nes de orden superior en las que el estímulo B actúa como un modulador de la relación
entre el estímulo A y el EI. El que se establezca un tipo de relación parece depender de
la forma de presentación de los estímulos, más que de características intrínsecas de los
sujetos.
El lenguaje permite la existencia de formas de condicionamiento específicamente
humanas. Este es el caso del condicionamiento semántico, el apareamiento y desapa-
reamiento informado, el condicionamiento y la extinción instruidos, el enmascaramiento
y el condicionamiento evaluativo. Estos procedimientos se han utilizado en el afán de
descubrir si la conciencia de la existencia de la asociación EC-EI era necesaria para el
establecimiento del condicionamiento clásico. Aunque los resultados iniciales sugerían
que no podía encontrarse condicionamiento clásico en humanos en ausencia de con-
ciencia de la contingencia EC-EI, resultados más recientes y fenómenos como el condi-
cionamiento evaluativo sugieren que, si bien en algunos casos la conciencia de la con-
tingencia puede ser necesaria, en otros se produce aprendizaje asociativo en ausencia
de conciencia.
Los fenómenos que recogemos en este capítulo han sido investigados con distintas
especies animales, incluido el ser humano. Si bien el lenguaje establece algunas dife-
rencias marcadas en cuanto a los procedimientos utilizables en distintas especies y en
el ser humano, lo cierto es que los fenómenos básicos de aprendizaje se encuentran de
forma muy similar en distintas especies, al menos dentro del rango de los vertebrados.
Capítulo 4
61
62 A PRENDIZAJE HUMANO
acuerdo con estos autores, el tránsito del aprendizaje animal al humano implica el aban-
dono de la terminología del condicionamiento y reforzamiento, considerando el condi-
cionamiento como un simple procedimiento que permite el estudio de cómo los anima-
les detectan y aprenden sobre la relación entre ciertos eventos, relación que es predicti-
va en el caso del condicionamiento clásico y causal en el caso del condicionamiento
instrumental. Estos autores sostienen que la RC puede tratarse como una medida con-
ductual de un proceso o estado mental. La analogía de los resultados de condiciona-
miento animal y juicios de contingencia humanos puede establecerse si el EC se equi-
para a la clave y el EI a la consecuencia que la sigue. Así, la RC reflejaría el juicio
emitido por el animal acerca de la relación entre esos dos eventos.
La correspondencia entre el aprendizaje animal y humano vino motivada por la
sensibilidad comparable de distintas especies a la correlación entre eventos. Como veía-
mos en el capítulo previo, la contingencia entre el EC y el EI determina la RC de los
animales no humanos en muchas situaciones (v.gr., Rescorla, 1968) y lo mismo se en-
cuentra en los estudios de aprendizaje causal humano (v.gr., Allan y Jenkins, 1980).
Vamos a comenzar presentando una tarea simple de aprendizaje causal humano en la
que aprenderemos calcular el valor de la contingencia objetiva entre un EC y un EI
según la regla normativa conocida como contingencia incondicional (regla ∆P).
Figura 4.1. Matriz de contingencia. Tipos de ensayo en una tarea estándar de juicios de contin-
gencia en la que se baraja una clave (C) y un resultado (R). Las casillas a, b, c y d corresponden a
los distintos tipos de información que se puede generar con dos variables discretas de este tipo.
Los valores entre paréntesis corresponden al ejemplo desarrollado en el texto.
relación que existe entre la clave y el resultado en una escala graduada, por ejemplo con
valores entre 0 y 100.
La expresión matemática de la contingencia incondicional objetiva corresponde al
algoritmo ∆P = P(R/C)-P(R/noC) y se define como la diferencia entre la probabilidad
de la aparición del resultado R en presencia de la clave C [P(R/C)] y la probabilidad de
la aparición del resultado R en ausencia de la clave C [P(R/noC)]. El valor de cada una
de estas probabilidades se corresponde con el resultado de las operaciones a/(a+b) y c/
(c+d), respectivamente. La contingencia oscila entre +1 y -1; valores de ∆P positivos
indican una relación generativa entre los eventos, lo que hasta ahora hemos denomina-
do excitación condicionada; valores negativos indican una relación preventiva, que
hasta ahora denominábamos inhibitoria; finalmente, un valor nulo indica que los even-
tos no están relacionados.
Veamos el cálculo de la contingencia incondicional usando los valores que aparecen
entre paréntesis en la figura 4.1. Supongamos que queremos evaluar si los gusanos de
maguey provocan malestar gastrointestinal. Para ello deberíamos determinar si el re-
sultado (malestar) es más probable cuando los comensales ingieren los gusanos que
cuando no los comen. Imaginemos que contamos con 40 comensales, 20 que tomaron
gusanos y 20 que tomaron otra cosa. De los 20 clientes que comieron gusanos, 15
desarrollaron el malestar (a) y 5 no lo desarrollaron (b). De los 20 que no comieron
gusanos, 4 desarrollaron el malestar (c) y 16 no lo desarrollaron (d). Si aplicamos la
fórmula de cálculo de la contingencia incondicional encontramos que P(R/C) = 15/
(15+5) = 0’75 y que P(R/no EC) = 4/(4+16) = 0’20. La contingencia objetiva en esta
situación sería 0’55 (∆P = 0’75 – 0’20 = 0’55) una relación positiva intermedia que
indica que la ingestión de gusanos predice moderadamente el malestar gastrointestinal.
exista un desajuste entre lo que el sujeto espera y lo que el sujeto recibe se producirá un
cambio en la fuerza asociativa; cuando ese desajuste no exista, no habrá sorpresa y por
lo tanto no habrá aprendizaje. La novedad más interesante de este modelo y que lo
diferencia de modelos anteriores más o menos similares es que considera que la sorpre-
sa viene determinada por la discrepancia entre lo que el sujeto recibe y lo que espera de
acuerdo con la suma de la fuerza predictiva de todos los estímulos presentes en la
situación. Si recordamos el ejemplo de bloqueo que aparece en la página 46 veremos
ejemplificada esta característica del modelo de Rescorla y Wagner de manera muy cla-
ra. En aquel ejemplo habíamos aprendido que los gusanos de maguey nos producían
malestar gastrointestinal. En un evento social nos veíamos forzados a tomar gusanos de
maguey con saltamontes y sufríamos el mismo malestar. Si sumamos la fuerza asocia-
tiva de los gusanos y de los saltamontes el resultado será que esperamos sentir el males-
tar, justo lo que sentimos. No habrá sorpresa y por lo tanto no habrá aprendizaje adicio-
nal. Rescorla y Wagner (1972) estructuraron estos principios básicos en un modelo
formal que presentamos a continuación:
Vn C = V n-1C+∆VnC
En esta fórmula Vn C representa la fuerza asociativa de una clave candidata (C) en el
ensayo n; Vn-1C es la fuerza asociativa de la clave en el ensayo n-1. Finalmente, ∆Vn C es
el cambio que se produce en la fuerza asociativa de esa clave candidata en el ensayo n.
En términos más coloquiales, lo que el sujeto sabe en un ensayo concreto (Vn C) es igual
a lo que sabía en el ensayo previo (Vn-1C) más lo que aprendió en el ensayo actual
(∆Vn C). El problema fundamental de la fórmula radica en determinar qué es lo que
aprende el sujeto en un ensayo concreto acerca de la relación entre la clave candidata C
y el resultado R (∆Vn C), la fórmula que recoge el modo en que se produce este cambio
es la esencia del modelo de Rescorla y Wagner (1972):
∆Vn C = a CβR (λR-Vn-1T)
En las situaciones en las que hay varios estímulos el incremento de la fuerza asocia-
tiva de cada estímulo se evalúa por separado:
Vn A =Vn-1A+[ a A βR (λR - Vn-1A + Vn-1B)]
Vn B=Vn-1B+[ aBβ R (λ - Vn-1B + Vn-1A )]
Apliquemos el modelo al ejemplo de bloqueo que presentábamos en el capítulo 3.
Imagina que tomas gusanos de maguey y te producen malestar gastrointestinal. Vamos
a suponer que la intensidad del sabor de los gusanos (a gusanos) es 0’5, que la intensidad
del malestar gastrointestinal (βmalestar) es 0’7 y que 1 es el valor máximo de aprendizaje
que se puede desarrollar acerca del malestar gástrico (λmalestar = 1). Con estas suposicio-
nes, el resultado de los primeros ensayos de condicionamiento sería el siguiente:
V1 gusanos= 0’00 + [0’5 * 0’7 (1 – 0’00)] = 0’00 + 0’35 = 0’35 (Ensayo 1)
V2 gusanos= 0’35 + [0’5 * 0’7 (1 – 0’35)] = 0´35 + 0’23 = 0’58 (Ensayo 2)
V3 gusanos= 0’58 + [0’5 * 0’7 (1 – 0’58)] = 0´58 + 0,15 = 0’73 (Ensayo 3)
Obsérvese que a medida que aumenta la fuerza asociativa entre los gusanos y el
malestar los incrementos en la fuerza asociativa se hacen cada vez más pequeños (el
resultado del paréntesis, 0’35 > 0’23 > 0’15). Este descenso en los incrementos da
lugar a la curva de aprendizaje negativamente acelerada que se suele encontrar en los
estudios de aprendizaje. El aprendizaje se interrumpirá cuando la fuerza asociativa al-
cance el valor de λ, en este caso 1.
Suponiendo que durante estas primeras experiencias la fuerza asociativa entre los
gusanos y el malestar alcance la asíntota de aprendizaje, ¿qué ocurrirá cuando después
comamos los gusanos combinados con los chapulines? De acuerdo con el modelo, el
incremento en la fuerza asociativa de gusanos y chapulines será el siguiente (suponien-
do que la intensidad de los chapulines es 0’6):
68 A PRENDIZAJE HUMANO
Los dos grupos de teorías que hemos presentado mantienen la suposición de que la
fuerza asociativa de una clave es igual a la suma de los elementos que componen esa
clave. En otras palabras, comparten una perspectiva elemental del mundo en la que los
estímulos están conformados por la suma de elementos más pequeños, cada uno ganan-
do fuerza asociativa independiente. Frente a esta aproximación se sitúan un grupo de
teorías cuyo más reciente exponente es la teoría de Pearce (1987, 2002) que consideran
que el aprendizaje se realiza acerca de configuraciones estimulares.
Teoría configuracional de Pearce (1987, 2002). De acuerdo con este modelo los ani-
males contamos con un almacén sensorial transitorio de información de capacidad li-
mitada que siempre está lleno. Cualquier representación que se encuentre en el alma-
cén sensorial y vaya seguida por un resultado servirá como clave y se establecerá su
representación en la memoria a largo plazo. La fuerza asociativa de esta representación
aumentará con la experiencia posterior entre esta misma representación y el EI gracias
a una regla de aprendizaje similar a la del modelo de Rescorla y Wagner (1972). La
respuesta del sujeto dependerá del parecido que tenga la configuración presente con la
almacenada en la memoria a largo plazo asociada con el resultado.
Existen dos conceptos que conviene tener claros a la hora de explicar este modelo,
el de fuerza asociativa propia y el de fuerza asociativa generalizada. Aquellas confi-
guraciones estimulares que se asocien directamente con el resultado terminan ganando
fuerza asociativa propia; por otra parte, las configuraciones estimulares también pue-
den tener fuerza asociativa generalizada dependiendo de su parecido con la configura-
70 A PRENDIZAJE HUMANO
ción estimular asociada con el resultado. Así, la fuerza asociativa neta de una clave
será igual a la suma de su fuerza asociativa propia y la fuerza asociativa generalizada
que tome prestada de otros estímulos parecidos. Existen dos supuestos más en este
modelo que merecen nuestra atención: 1) una clave sólo puede generalizar la fuerza
asociativa que haya recibido por sus emparejamientos directos con el resultado, la fuer-
za asociativa generalizada no puede generalizarse 2) al igual que en el modelo de Res-
corla y Wagner (1972), el aprendizaje se interrumpe cuando la fuerza asociativa neta (la
suma de la fuerza asociativa propia y generalizada) alcanza la asíntota.
Con estos supuestos básicos podemos aplicar conceptualmente el modelo a la situa-
ción de bloqueo que habíamos escogido como ejemplo en modelos anteriores. Recor-
demos que en la situación de bloqueo teníamos dos grupos, el grupo de bloqueo que
recibía los emparejamientos gusanos-malestar seguidos por emparejamientos
gusanos+chapulines-malestar y por una prueba con los chapulines solos y el grupo de
control que recibía directamente el entrenamiento con la relación gusanos+chapulines-
malestar antes de la prueba con los chapulines. El bloqueo se infería como una menor
aversión por los chapulines en el grupo experimental que en el grupo de control. De
acuerdo con el modelo de Pearce (1987) en un diseño de bloqueo se darían las siguien-
tes asociaciones: cuando los gusanos del maguey van seguidos del malestar relaciona-
mos los gusanos con el malestar gastrointestinal; cuando posteriormente ingerimos gu-
sanos con chapulines esta nueva configuración recibe fuerza asociativa generalizada
por su parecido con los gusanos que se habían relacionado con el malestar. Ahora la
configuración gusanos y chapulines se relaciona con el malestar de modo que al final
alcanza una fuerza asociativa neta máxima. Sin embargo, recordemos que la fuerza
asociativa neta era igual a la fuerza asociativa propia más la fuerza asociativa generali-
zada. Como el aprendizaje está limitado en cantidad por el valor de λ, la fuerza asocia-
tiva propia de la nueva configuración será menor en el grupo de bloqueo que en el
grupo de control, puesto que al no existir experiencia previa en el grupo de control, los
emparejamientos entre el compuesto gusanos+chapulines y el malestar llevan a que en
esa configuración la fuerza asociativa propia iguale a la fuerza asociativa neta. Cuando
finalmente se presentan los chapulines durante la prueba, como nunca han ido seguidos
de malestar por si solos, su fuerza asociativa y por tanto la aversión que les mostremos
dependerá de lo que se parezcan a los estímulos que sí tienen fuerza asociativa propia,
en este caso el compuesto de gusanos con chapulines. En el grupo de bloqueo y en el
grupo de control los chapulines se parecen lo mismo al compuesto; sin embargo, recor-
demos que en el grupo de bloqueo la fuerza asociativa propia del compuesto es menor
que en el grupo de control y por lo tanto la cantidad de fuerza asociativa generalizada
que van a recibir los chapulines en ese grupo será menor que la que reciben en el grupo
de control.
Al igual que ocurría con el modelo de Rescorla y Wagner (1972), el modelo de
Pearce y sus diferentes versiones (Pearce 1987, 1994, 2002) es capaz de dar cuenta de
la mayoría de los fenómenos que presentábamos en el capítulo 3. Ambos tipos de aproxi-
TEORÍAS DEL APRENDIZAJE 71
Comentario final acerca de las teorías asociativas del aprendizaje. Las teorías aso-
ciativas suponen que en una situación de aprendizaje de relaciones entre estímulos
como el condicionamiento clásico o algunas formas de aprendizaje correlacional, los
cambios en la magnitud de la respuesta condicionada o en los juicios de contingencia
reflejan cambios en el fortalecimiento de la asociación entre las representaciones men-
tales de la clave y el resultado, cambios que dependen de que clave y resultado sean
procesados conjuntamente (Dickinson, 1980). Las teorías asociativas descritas some-
ramente en este apartado son sólo una pequeña muestra de las disponibles en la litera-
tura. A la hora de seleccionar las que aquí hemos descrito nos hemos guiado por su
tradición, por el respaldo empírico obtenido y por encontrarse en la base de muchas de
las teorías asociativas del aprendizaje que no hemos mencionado.
Así por ejemplo, una cuestión que no hemos tratado y que sin embargo es un factor
fundamental en la literatura actual de aprendizaje animal y humano es el aprendizaje
acerca de estímulos ausentes o, dicho de otro modo, aprendizaje acerca de representa-
ciones de estímulos. Una serie de experimentos en la literatura demuestran que un suje-
to puede llegar a establecer relaciones excitatorias o inhibitorias entre estímulos que no
se presentan conjuntamente. Imaginemos la situación de bloqueo hacia atrás que pre-
sentábamos en el capítulo 3 (p. 46). Retomando nuestro ejemplo, en el diseño de blo-
queo hacia atrás ingeriríamos primero la combinación gusanos con chapulines y senti-
ríamos malestar. Después de esta experiencia echaríamos la culpa de nuestro malestar
tanto a los gusanos como a los chapulines. Sin embargo, si después nos presentan los
gusanos seguidos del malestar, cuando nos pregunten acerca de los chapulines diremos
que no son los causantes del malestar gastrointestinal; nuestra valoración acerca de la
relación entre los chapulines y el malestar ha cambiado en una situación en la que los
chapulines no se presentaron; en otras palabras, hemos aprendido algo acerca de un
estímulo que no estaba físicamente presente. La explicación de fenómenos como el
bloqueo hacia atrás queda fuera de los modelos asociativos tradicionales que hemos
visto en este apartado, sin embargo, modificaciones recientes del modelo de Rescorla y
Wagner (1972) como la realizada por Van Hamme y Wasserman (1994), o las modifica-
ciones realizadas por Holland (1983) y Dickinson y Burke (1996) del modelo de Wag-
ner (1981) que presentábamos en el capítulo 2 para explicar la habituación han aborda-
do estos problemas con cierto éxito resaltando el enorme potencial de la teoría asocia-
tiva como marco explicativo del aprendizaje animal y humano (para una revisión más
completa de las teorías asociativas del aprendizaje véase Rosas, 2002).
72 A PRENDIZAJE HUMANO
∆P, fueron identificados con el empleo de ∆D y así sucesivamente. Estos autores en-
contraron que el 1%, 18%, 35% y 33% de los participantes utilizaron las reglas casilla
a, a-b, ∆D y ∆P, respectivamente; el 13% restante usaron estrategias no clasificadas.
Reglas ponderadas . Algunos autores han cuestionado la validez de los dos métodos de
clasificación descritos en el apartado previo señalando que no permiten detectar utili-
zaciones distintas de la información contenida en la matriz de contingencia a las reglas
propuestas hasta el momento. Así, Wasserman, Dorner y Kao (1990) encontraron que
los sujetos no asignaban la misma importancia a cada casilla a la hora de utilizar la
información contenida en la regla de contingencia. Los resultados encontrados por es-
tos autores sugieren que las casillas pueden ordenarse en función de la importancia
subjetiva que les asignan los sujetos de la siguiente forma: a > b > c > d. Este descubri-
miento sugiere que los cálculos realizados por los sujetos en una tarea de aprendizaje
causal no son normativos, esto es, no se ajustan a una norma matemática formalmente
correcta. De este modo, las reglas descritas anteriormente pueden reformularse adscri-
biendo a cada una de las casillas un peso diferente y creando lo que se conoce como
reglas ponderadas.
Diseño experimental
Contingencia incondicional
Figura 4.2. Aplicación del modelo de los contrastes probabilísticos de Cheng y Novick (1990). El
diseño experimental es una variación del diseño de bloqueo en el que G representa los gusanos, C
los chapulines, + el malestar y – la ausencia de malestar. Este diseño se puede explicitar en una
tabla de contingencia en la que en cada casilla se representa el número total de comensales que
desarrollan el malestar después de haber ingerido una de las comidas, las dos o ninguna (depen-
diendo de la casilla). Los cálculos corresponden a la contingencia incondicional (normativa) y a la
contingencia condicional de acuerdo con el modelo de los contrastes probabilísticos.
comidas (casilla a), que sólo comieron gusanos de maguey (casilla b), que sólo comie-
ron chapulines (casilla c) o que no comieron ninguna de las dos cosas (casilla d). Si
queremos calcular la contingencia incondicional (∆P) en una de las claves, por ejem-
plo, los chapulines, tomaremos la proporción de comensales que tuvieron el malestar
después de haber ingerido los chapulines (15/20) y la proporción de los comensales
con malestar que no habían comido chapulines (5/20). La diferencia entre esas dos
proporciones nos dará el valor de ∆P que en este caso es de 0’5 (15/20 – 5/20 = 0’75 –
0’25 = 0’50) indicando que hay una contingencia objetiva positiva entre los chapulines
y el malestar, lo que nos llevaría a rechazarlos. Calculemos ahora la contingencia in-
condicional para los gusanos y el malestar. En esta ocasión tomaremos la proporción de
comensales con malestar después de ingerir los gusanos (20/20) restándole la propor-
ción de comensales con malestar sin haber comido gusanos (0/20). En esta situación el
valor de ∆P será 1 (20/20 – 0/15 = 1 – 0 = 1) indicando una relación positiva perfecta
76 A PRENDIZAJE HUMANO
dizaje humano y en términos asociativos del aprendizaje animal. Sin embargo, ya seña-
lábamos en el capítulo 3 que el bloqueo hacia atrás se había obtenido también en ani-
males siempre que la situación no incluyera estímulos con alta relevancia biológica,
asemejándose más a las tareas habitualmente utilizadas en los estudios de aprendizaje
causal (Miller y Matute, 1996). Esto podría llevar a la sugerencia de que los modelos
estadísticos o de reglas son más adecuados para dar cuenta del aprendizaje en animales
y humanos. Sin embargo, ya apuntábamos al final de nuestra presentación de las teorías
asociativas que habían surgido nuevos desarrollos asociativos que permitían explicar
fenómenos de evaluación retrospectiva como el bloqueo hacia atrás. Uno de los retos
de la investigación futura en el campo del aprendizaje será determinar el tipo de meca-
nismos que utilizamos las distintas especies o, si fuera el caso, que circunstancias lle-
van a que se utilicen unos mecanismos u otros.
Correlación y causación: la teoría del poder causal (Cheng, 1997). Cuando un tono
va seguido por una descarga eléctrica o la ingestión de gusanos va seguida consistente-
mente por un malestar gastrointestinal tendemos a decir que el tono causa la desgarga o
que la ingestión de los gusanos es la causa del malestar. Sin embargo, en la mayoría de
estas situaciones lo único que ocurre es que covarían dos eventos en el ambiente, lo
cual no necesariamente implica que uno sea la causa del otro. Por ejemplo, aunque la
vida moderna nos haya alejado a muchos de las experiencias campestres, está inscrito
en el saber popular que el canto del gallo precede al amanecer. Así, uno puede predecir
que el amanecer está próximo en cuanto escuche cantar al gallo. Sin embargo, ¿dirías
que el gallo es la causa de que amanezca? Ciertamente no. El que ambos eventos cova-
ríen no implica que uno sea la causa del otro; la pregunta entonces es ¿qué nos lleva a
establecer relaciones de causa-efecto, más allá de las relaciones de covariación o corre-
lación entre eventos?
Desde las teorías asociativas el problema de las relaciones causa-efecto no se ha
tratado de forma sistemática. Algunos autores han señalado que el aprendizaje es el
mecanismo que permite al sujeto detectar la textura causal del ambiente (Tolman y
Brunswick, 1935); sin embargo, esa es una generalización inapropiada dado que la
textura del ambiente se define mucho más apropiadamente como correlacional que
como causal. Desde la perspectiva de los modelos de reglas, Cheng (1997) realiza una
aproximación mas sistemática a este problema. Sostiene que las relaciones causales no
son observables ni deducibles, al contrario, deben ser inducidas a partir de los eventos
observados. A la hora de inducir estas relaciones causales la regla ∆P resulta insuficien-
te, dado que esta regla establece el grado de covariación entre dos eventos y como ya
hemos señalado en nuestro ejemplo, la existencia de correlación entre dos eventos no
garantiza la inferencia de una relación causal entre ellos. La aproximación al poder
causal sostiene que existe un conocimiento a priori que sirve como estructura para la
interpretación de la información de las causas potenciales; así, los sujetos no inferirían
que una cosa es causa de otra a menos que perciban o conozcan un mecanismo causal
TEORÍAS DEL APRENDIZAJE 79
que enlace la causa candidata al efecto observado; de acuerdo con la aproximación del
poder causal las causas no están meramente seguidas por sus efectos, sino que los
producen. Esta aproximación resulta tan insuficiente como la aproximación correlacio-
nal, al no especificar cómo descubrimos la existencia de relaciones causales a partir de
la información disponible en el ambiente y al implicar que los sujetos no aprenden que
una relación es causal a menos que comprendan primero que lo es.
La teoría del poder causal de Cheng (1997) combina estas dos aproximaciones en
una formulación matemática cuya discusión excedería en mucho los objetivos de este
capítulo. Propone que los sujetos utilizan una noción de poder para interpretar y expli-
car el modelo de covariación. Los sujetos no tratan las covariaciones observadas como
equivalentes a relaciones causales sino que las interpretan como la manifestación de la
operación de poderes causales inobservables cuya magnitud debe estimarse.
Según este modelo, el valor de la probabilidad de aparición del efecto “e” en pre-
sencia de la causa candidata “i” coincidirá con el valor de la fuerza causal de la causa
candidata “p i ” cuando no existan otras causas alternativas “a” para el mismo efecto. Sin
embargo, por lo general no son iguales, hecho que se debe a que otras causas “a”
(conocidas o desconocidas para los participantes) pueden estar presentes cuando “i”
está presente.
Según esta teoría, las personan consideran que “e” puede estar producido por “i” o
por “a” independientemente, es decir, la ocurrencia del efecto es la unión de dos even-
tos independientes: el efecto producido por “i” y el efecto producido por “a”. Por ello,
la covariación no implica siempre causación. Si una causa alternativa “a” existe y no
ocurre independientemente de “i” ∆Pi no es interpretable como un estimado de “pi”;
podría sobreestimarse “pi”, o infravalorarse, dependiendo de los valores de P(a/i) y
P(a/-i).
Aunque por lo general ∆Pi no proporciona un estimado de “pi”, existen condicio-
nes bajo las cuales sí puede ofrecerlo. Consideremos el caso especial en el que “a”
ocurre independientemente de “i”. Cuando P(e/-i) es aproximadamente igual a 0, en-
tonces pi≅∆Pi, lo que significa que en esta situación el sujeto puede interpretar el con-
traste para “i” como una estimación cercana del poder causal de “i”. Ahora, considere-
mos otro caso extremo en el que P(e/-i)≅1. Esta es la situación en la que el efecto casi
siempre ocurre, incluso cuando el candidato “i” está ausente. En este caso, “pi” es
indefinido. En otras palabras, ∆Pi será aproximadamente igual a cero lo que significa
que, en esta situación, el sujeto no puede interpretar el contraste para “i” como un
estimado del poder causal de “i”.
4.5.- Resumen
Las teorías del aprendizaje buscan determinar el mecanismo y el modo en el que los
sujetos aprenden a establecer relaciones entre eventos. Se han establecido dos grandes
grupos de teorías, las teorías asociativas y los modelos de reglas, las primeras proce-
dentes principalmente de los estudios de aprendizaje y condicionamiento realizados
80 A PRENDIZAJE HUMANO
con animales no humanos y las segundas de los estudios de aprendizaje causal en seres
humanos. Sin embargo, el descubrimiento de que muchos de los fenómenos de apren-
dizaje se manifiestan de modo similar en animales humanos y no humanos ha permiti-
do que los estudios sobre aprendizaje causal humano se beneficien de los procedimien-
tos y las teorías que han sido desarrolladas en condicionamiento animal y viceversa.
Las teorías asociativas modernas asumen que el aprendizaje consiste en establecer
conexiones o asociaciones entre representaciones de eventos en la memoria, con lo que
su objetivo radica en determinar los mecanismos por los que se establecen esas asocia-
ciones. Dentro de estas teorías destaca el modelo de Rescorla y Wagner (1972) que
captura en su formulación matemática la idea de que el aprendizaje se produce cuando
existe sorpresa, operacionalizándola como la discrepancia entre lo que el sujeto recibe
y lo que el sujeto espera recibir. Modelos posteriores como el de Mackintosh (1975) o
el de Pearce y Hall (1980) se centran en los cambios en el procesamiento del estímulo,
suponiendo que la atención que se le presta al estímulo cambia durante el proceso de
aprendizaje en función de su poder predictivo. El modelo de Mackintosh supone que
existe una relación directa entre la capacidad predictiva de un estímulo y la atención
que se le presta, mientras que el modelo de Pearce y Hall (1980) supone que la relación
es inversa. Estos modelos comparten la característica de ser elementales, suponiendo
que la fuerza asociativa de un compuesto estimular es equivalente a la suma de la fuer-
za asociativa de cada uno de los elementos que lo componen. Teorías posteriores como
la de Pearce (1987) toman una perspectiva configuracional, suponiendo que las asocia-
ciones se establecen directamente entre compuestos estimulares y sus resultados.
Los modelos basados en reglas consideran que las personas integran la información
entre dos eventos mediante algoritmos de cálculo. Pronto se observó que los modelos
de reglas normativos, matemáticamente correctos, no resultaban suficientes para dar
cuenta de los resultados observados en los estudios de aprendizaje, apareciendo los
modelos de reglas ponderadas en los que se considera que las personas atribuyen im-
portancia diferente a los distintos tipos de información que se les presenta. No obstante,
ninguna de estas reglas fue capaz de dar cuenta de los resultados de los procedimientos
que como el bloqueo o el ensombrecimiento implicaban competición entre estímulos y
que sin embargo sí eran perfectamente explicables desde las teorías asociativas. El
modelo de los contrastes probabilísticos corrigió esta deficiencia al sostener que el
poder predictivo de una clave determinada se calculaba contrastando su poder predicti-
vo en presencia y en ausencia de otras causas alternativas.
Aunque desde alguno de estos modelos de aprendizaje se asuma más o menos implí-
citamente que se está dando cuenta del aprendizaje de relaciones de causa-efecto, todos
se centran en la explicación con mayor o menor fortuna de situaciones de covariación
entre eventos. La teoría del poder causal de Cheng (1997) parte de la teoría de los
contrastes probabilísticos para intentar dar cuenta de cómo se pasa de la experiencia de
covariación al establecimiento de relaciones de causa efecto entre dos eventos.
Capítulo 5
81
82 A PRENDIZAJE HUMANO
Contigüidad. Tomemos como ejemplo el castigo. Durante la primera mitad del siglo
XX se cuestión la propiedad del castigo como método eficaz de cambio de cambio
conductual. Thorndike (1932) y más tarde Skinner (1953) sostuvieron que el castigo
era ineficaz y propusieron descartarlo de la educación. No vamos a entrar aquí a cues-
tionar si el uso del castigo en educación es éticamente correcto, dejaremos que sea el
propio lector quien lo evalúe. No obstante, sí podemos determinar su eficacia como
procedimiento de aprendizaje. Pensemos por ejemplo en dos situaciones de castigo
que se caracterizan por estar en los dos extremos de la eficacia. Si tocamos la base de
una plancha encendida (respuesta instrumental) nos quemamos los dedos (consecuen-
cia aversiva); de modo similar, si aparcamos en lugar prohibido (respuesta instrumen-
tal), conseguimos una multa (consecuencia aversiva). En ambos ejemplos estamos ha-
blando de castigo, sin embargo, nos cuidamos mucho de tocar una plancha encendida
mientras que basta pasear por cualquiera de nuestras ciudades para encontrar cientos
de coches mal aparcados. En el primer caso el procedimiento de castigo es muy eficaz,
basta una sola experiencia con la plancha para que no vuelvas a tocar su base; en el
segundo en cambio el castigo es ineficaz. Una de las condiciones que determinan la
eficacia del procedimiento instrumental es la contigüidad entre la respuesta y la conse-
cuencia. En el caso de la plancha la contigüidad es perfecta, si tocas la base de una
plancha encendida te quemas inmediatamente; en el caso del mal aparcamiento la con-
tigüidad es imperfecta, incluso si llegan a multarte, pasan varios días hasta que te recla-
man el pago y aún así tienes varios días más para pagarla. En general, el procedimiento
instrumental es más eficaz en la medida en que la consecuencia siga de forma inmedia-
ta a la respuesta. La contigüidad respuesta-consecuencia es un determinante funda-
mental de la eficacia de cualquiera de los procedimientos de reforzamiento instrumen-
tal (véase por ejemplo Shanks, 1986).
La explicación de la importancia del efecto disruptivo de la demora en el reforza-
miento sobre el condicionamiento instrumental la podemos ilustrar claramente con un
ejemplo. Muchos de los que tenemos perro nos hemos enfrentado a la situación en la
que el cachorro se va y no atiende a nuestra llamada. La reacción habitual cuando por
fin alcanzamos a nuestro perro o conseguimos que se acerque a nosotros es abroncarlo;
CONDICIONAMIENTO INSTRUMENTAL 89
adelante. Pensemos en un ejemplo implícito en el anterior y que nos hará ver claramen-
te la eficacia de los reforzadores condicionados. El dinero no es en sí mismo más que
papel y metal, en muchos casos bastante deteriorado por el uso. Sin embargo, resulta
un reforzador muy eficaz por su asociación con los bienes y beneficios que nos propor-
ciona. El uso de reforzadores condicionados, como la retroalimentación verbal inme-
diata nos permiten evitar los efectos de la demora entre la respuesta instrumental y la
entrega del reforzador primario. En la literatura se han encontrado otras maneras de
aliviar el efecto negativo de la demora en la administración de la consecuencia, como
la utilización de estímulos-marca que permiten de algún modo al sujeto determinar
cual es la respuesta objetivo de entre todo su repertorio conductual (v.gr., Lieberman,
McIntosh y Thomas, 1979).
los sujetos una consecuencia pobre (por ejemplo, una bolita de comida por recorrer un
corredor recto) el incremento posterior en la cantidad de la recompensa produce un
aumento en la respuesta que se mantiene a niveles más altos que los de un sujeto que
haya recibido siempre la recompensa grande (contraste positivo). Por el contrario, cuan-
do se comienza administrando al sujeto una cantidad de recompensa grande y después
se le disminuye su actuación es peor que la de un sujeto que haya recibido la recom-
pensa pequeña desde el inicio (contraste negativo).
Otro factor que determina la importancia subjetiva de la consecuencia y que puede
producir efectos similares al contraste en una situación de castigo son los fenómenos
de habituación y sensibilización. De hecho, lo que sabemos de los fenómenos de habi-
tuación y sensibilización pueden ayudarnos aún más a comprender la diferencia en la
eficacia del castigo en la situación de tocar la base de una plancha encendida y las
multas de tráfico. Una de las características de la situación de tocar la base de la plan-
cha es que la consecuencia (la quemadura) tiene siempre la misma intensidad y esta
intensidad es alta. En el capítulo 2 señalábamos que los estímulos intensos producían
sensibilización, de tal modo que aumentaba la respuesta refleja ante esos estímulos y
otros parecidos en presentaciones sucesivas. ¿Qué podemos esperar en la situación de
tocar la plancha? Que la quemadura mantenga su eficacia y de hecho, que por la sensi-
bilización se aumente la eficacia posterior de otras consecuencias más débiles. Pense-
mos ahora en la situación de las multas de tráfico, en este caso normalmente se co-
mienza con un aviso o una pequeña multa que va aumentando a medida que se reiteran
las infracciones. Cuando hablábamos de la habituación en el capítulo 2 mostrábamos
que el mejor modo de conseguirla era aumentando gradualmente la intensidad del estí-
mulo elicitador (véanse las figuras 2.2 y 2.3, Davis y Wagner, 1969). Teniendo en
cuenta que la eficacia del castigo está en relación inversa a la habituación del sujeto a
la consecuencia aversiva, ¿qué podemos esperar que ocurra con el incremento gradual
en la consecuencia que se observa habitualmente en el castigo social? Efectivamente,
que no funcione, como de hecho ocurre. En términos más generales, el castigo intenso
sensibiliza y aumenta la eficacia del castigo moderado que se administre posterior-
mente, mientras que un castigo moderado lleva a que el sujeto se habitúe a la conse-
cuencia aversiva y lo inmuniza contra un castigo intenso posterior (véase Church, 1969).
Asociación E-R. Nuestro niño podría haber aprendido a acercarse a otros niños cuan-
do estuviera en clase; este tipo de asociación fue propuesto por Thorndike (1911) quien
atribuyó la disminución en la latencia de escape de los gatos en la caja problema a que
la conexión se fortalecía como resultado de la consecuencia que obtenía, llegar hasta la
comida. La comida sería una especie de catalizador que permitiría el fortalecimiento
de la asociación E-R, pero no formaría parte de lo que el sujeto aprende. La conceptua-
lización del aprendizaje en estos términos se refleja claramente en su conocida ley del
efecto, que presentamos aquí en su versión teórica, dejando la versión empírica para el
capítulo siguiente:
“De las varias respuestas realizadas en la misma situación, aquellas que van
acompañadas o inmediatamente seguidas por la satisfacción del animal se co-
nectarán más fácilmente con la situación, manteniendo lo demás constante”
(Thorndike, 1911).
Figura 5.3. Respuestas por minuto en la tecla que coincide en el reforzador con el estímulo
presente (igual) y en la que fue seguida por un reforzador diferente, en ausencia del estímulo (pre-
estímulo) y en presencia del estímulo. La respuesta mayor en la alternativa que había sido reforza-
da con una consecuencia igual ejemplifica el efecto de transferencia entre la relación estímulo-
consecuencia y la respuesta instrumental. Basado en el experimento 4 de Paredes-Olay et al.
(2002).
Modelo de relación jerárquica E-(R-C). Imaginemos que nuestro niño, que ya mues-
tra la respuesta de acercamiento a otros niños en clase, pasa la tarde en un parque bajo
nuestra tutela y encontramos que en esa situación no se acerca a otros niños. Suponien-
do que hayamos demostrado que el niño aprendió todas las combinaciones binarias
que planteábamos en los párrafos previos, habremos de concluir que el niño ha apren-
dido algo más, de lo contrario esperaríamos que su respuesta apareciera en cualquier
situación en la que hubiera otros niños. Este tipo de comportamiento nos indica que el
niño establece una relación jerárquica en la que aprende que la clase es el estímulo
discriminativo que le indica que su respuesta de acercamiento va a ser reforzada por el
profesor. En muchas situaciones este tipo de aprendizaje discriminativo es consecuen-
cia de un entrenamiento directo del sujeto, bien por intención del experimentador, bien
por determinación del mismo ambiente. Por ejemplo, la respuesta de expresar tus opi-
niones en voz alta será recompensada cuando la emitas en un seminario, pero proba-
blemente no lo sea si la emites en medio de la misa dominical (para una demostración
experimental de la existencia de asociaciones jerárquicas en el condicionamiento ins-
trumental véase Colwill, 1994).
pués de estos primeros días siempre que visitabas a tu hermano lo encontrabas estu-
diando, con lo que esperabas con optimismo el resultado de sus exámenes. Y sin em-
bargo, cuando llegaron las notas resulta que no eran tan buenas como esperabas, ¿qué
ha pasado? ¿Acaso tienes un hermano tonto? Probablemente lo que tengas sea un herma-
no más listo que tú. Observa que en este ejemplo has actuado de manera sistemática,
visitando a tu hermano cada media hora. Este sistema permite a tu hermano controlar
tus visitas y anticiparlas poniéndose a estudiar justo unos minutos antes de que llegues;
el resultado es que tu hermano ha pasado estudiando aproximadamente 5 minutos de
cada hora de supuesto estudio, un tiempo que a la luz de los resultados académicos que
obtuvo fue claramente insuficiente. Seguramente elegiste el procedimiento (reforza-
miento positivo) más adecuado para aumentar la frecuencia de esta conducta (estudio),
pero a juzgar por los resultados no parece que el modo en el que lo administraste fuera
el mejor para conseguir lo que pretendías.
En muchas situaciones de reforzamiento instrumental la respuesta va seguida direc-
tamente por la consecuencia cada vez que se emite; cuando abrimos el grifo sale agua,
al pulsar el interruptor se enciende la luz y al descolgar el teléfono escuchamos el tono
de llamada. Sin embargo, muchas otras ocasiones, sólo algunas de las respuestas que
emitimos van seguidas de reforzamiento. En algunos casos, como el del ejemplo con el
que iniciábamos este epígrafe, sólo van a reforzarse las respuestas que realice el sujeto
después de que haya transcurrido un tiempo determinado desde que obtuvimos el últi-
mo reforzador; en otros casos vamos a necesitar emitir un número de respuestas deter-
minado para que el reforzador esté disponible. La regla de que determina cuándo una
respuesta va a ser reforzada es lo que denominamos programa de reforzamiento y va a
determinar en gran medida los resultados que obtengamos en nuestro procedimiento
de condicionamiento instrumental (v.gr., Ferster y Skinner, 1957).
A pesar de que los programas de reforzamiento pueden ser tan numerosos como las
situaciones de condicionamiento instrumental, podemos establecer una clasificación
sencilla en función del tipo de regla que contengan. Así, los programas de reforzamien-
to se clasifican habitualmente en dos tipos, programas en los que la obtención del
reforzador depende exclusivamente del número de respuestas que emita el sujeto (pro-
gramas de razón) y programas en los que la obtención del reforzador depende de que
el sujeto emita la respuesta una vez que ha transcurrido un tiempo determinado desde
la última vez que obtuvo el reforzador (programas de intervalo).
para obtener la consecuencia variará en torno a 5, siendo algunas veces 1, otras 3, otras
7, otras 10 y así sucesivamente.
Así como el patrón de respuesta está determinado por la variabilidad del programa,
la tasa de respuesta parece estar determinada por el tipo de programa utilizado. En
general, los programas de razón producen tasas de respuesta más altas que los progra-
mas de intervalo. La razón de esta diferencia proviene de las funciones de retroalimen-
tación de unos programas y otros. Pensemos primero en los programas de razón, si
establecemos una función que ponga en relación la tasa de respuesta y la tasa de refor-
zamiento (el número de reforzadores obtenidos) nos encontramos con que en todos los
programas de razón existe una relación directa entre el número de respuestas que emite
el organismo y el número de reforzadores que consigue. Imaginemos que tenemos un
programa RV60; si el sujeto responde a una tasa de 60 respuestas por minuto, conse-
guirá un reforzador cada minuto; si la tasa es 120 conseguirá dos y así sucesivamente,
cualquier incremento en la tasa se ve reflejado en un incremento en las consecuencias
obtenidas.
En cambio, en los programas de intervalo, el número de reforzadores que puede
conseguir el sujeto estará limitado en función del tiempo establecido, con lo que un
aumento en el número de respuestas más allá del mínimo requerido no va a ir seguido
por un aumento en el número de reforzadores obtenidos. Imagina que trabajamos con
un programa IV60”; como el programa es de intervalo variable, es probable que re-
quiera que el sujeto responda a una tasa de unas 60 respuestas por minuto para conse-
guir todos los reforzadores disponibles de manera inmediata; sin embargo, una vez que
responda a la tasa suficiente para conseguir todos los reforzadores disponibles, aumen-
tar la tasa de respuesta no le va a proporcionar ningún beneficio. Probablemente ésta
sea la razón de que la tasa de respuesta en los programas de intervalo sea menor que en
los programas de razón.
de elección, tenemos que decidir si nos ponemos a estudiar o a ver la tele, si salimos
con Rosa o con Ana, si comemos carne o pescado, etc. La conducta de elección es tan
continua que los estudiosos del aprendizaje instrumental no podían sino dedicar parte
de su esfuerzo a determinar por qué realizamos los organismos las elecciones que ha-
cemos.
El estudio de la conducta de elección se ha realizado utilizando varios programas de
reforzamiento en distintas alternativas de respuesta a las que el sujeto tiene acceso al
mismo tiempo (programas de reforzamiento concurrentes). Herrnstein (1970) encon-
tró que en estas circunstancias la tasa relativa de respuesta en una alternativa es igual a
la tasa relativa de reforzamiento obtenida con dicha alternativa de respuesta. Esto se
conoce como ley de igualación.
La tasa relativa de respuesta nos aporta información acerca de la distribución de las
respuestas del organismo. Para calcularla basta con dividir la tasa de respuesta en cada
una de las alternativas por la suma total de las tasas de respuesta en todas las alternati-
vas. Imaginemos que tenemos dos alternativas de respuesta, la respuesta A reforzada
con un programa RF20 y en la que el sujeto mantiene una tasa de 50 respuestas por
minuto y la respuesta B reforzada con un programa RF10 y en la que el sujeto mantiene
una de 100 respuestas por minuto. La tasa relativa para la respuesta A será de 0’33, con
lo que consecuentemente la tasa relativa para la respuesta B será de 0’66.
La tasa relativa de reforzamiento se calcula dividiendo el número de reforzadores ob-
tenidos por respuesta en una alternativa, por la suma de los reforzadores obtenidos por
respuesta en ambas alternativas. Imaginemos que la respuesta A está siendo reforzada
con un programa RF20 (el sujeto obtiene un reforzador cada 20 respuestas) y la res-
puesta B está siendo reforzada con un programa RF10 (el sujeto obtiene 2 reforzadores
cada 20 respuestas). La tasa relativa de reforzamiento en la alternativa A será 1/3, es
decir, 0’33, mientras que la tasa relativa de reforzamiento en la alternativa B será de
0’66. De acuerdo con la ley de igualación, el sujeto que tenga posibilidad de elegir
entre estas dos alternativas de respuesta emitirá un tercio de sus respuestas en la alter-
nativa A y dos tercios en la alternativa B, justo la distribución que se refleja en el
ejemplo propuesto.
Así, la ley de igualación establece que la distribución de la respuesta de un organis-
mo no obedece a criterios arbitrarios, o a idiosincrasias personales, sino que más bien
es una función ordenada de las tasas de reforzamiento. No obstante, existen una serie
de criterios que ha de cumplir necesariamente la situación para que la ley de igualación
se cumpla. La primera de estas condiciones es la independencia de las dos alternativas
de respuesta; cuando los sujetos son reforzados por realizar una secuencia concreta de
alternancia entre las dos respuestas desaparece la independencia entre las respuestas y
en consecuencia no se cumple la ley de igualación. Una segunda condición se refiere al
tiempo o la dificultad que supone el cambio en la respuesta; cuando el cambio de una
respuesta a otra es complejo o conlleva un coste de tiempo importante, se suele obser-
var una tasa de respuesta mayor en la alternativa de respuesta preferida. La tercera
106 A PRENDIZAJE HUMANO
5.7. Resumen
A diferencia de otras formas de aprendizaje, el condicionamiento instrumental se
refiere a situaciones en las que los estímulos a los que se expone un organismo son el
resultado directo de su conducta; en otras palabras, la aparición de una determinada
consecuencia en el ambiente estará bajo el control de la respuesta del sujeto. Para el
estudio del aprendizaje instrumental se han empleado dos métodos distintos, el método
de ensayos discretos y el método de operante libre. En el primero, la respuesta instru-
mental con éxito puede ocurrir sólo una vez en cada ensayo, requiriendo que el experi-
mentador manipule al sujeto para colocarlo en situación de poder emitir de nuevo la
respuesta instrumental; en el segundo la conducta de un organismo puede ocurrir du-
rante periodos de tiempo prolongados, lo que permite su observación continuada así
como el registro de los cambios que ocurren en dicha conducta. La conducta operante
se define por el efecto que tiene sobre el ambiente y no por la acción mecánica concreta
que realiza un organismo. Los principales procedimientos de condicionamiento instru-
mental son: el refuerzo positivo, el refuerzo negativo o evitación, el castigo y la omi-
sión. Los procedimientos de refuerzo se caracterizan por producir un aumento en la
aparición o frecuencia de la conducta instrumental, bien porque la respuesta propor-
ciona una consecuencia apetitiva (refuerzo positivo) o porque evita la aparición de una
consecuencia aversiva (refuerzo negativo). Los procedimientos de castigo se caracteri-
zan por producir un descenso en la aparición o frecuencia de la conducta instrumental,
bien porque la respuesta garantiza una consecuencia aversiva (castigo), o bien porque
priva de una consecuencia apetitiva (omisión o reforzamiento negativo).
Uno de los factores que determinan la adquisición del aprendizaje instrumental es
la contigüidad entre la respuesta y la consecuencia; el requisito de contigüidad pode-
mos obviarlo mediante la utilización de reforzadores condicionados o de estímulos
marca que nos permiten aumentar la demora entre la emisión de la respuesta instru-
mental y la aparición de la consecuencia. Otro factor fundamental que determina el
desarrollo del aprendizaje instrumental es la contingencia respuesta-consecuencia; la
importancia de la contingencia en el aprendizaje instrumental va más allá de sus efec-
tos directos sobre la asociación respuesta-consecuencia. Cuando un sujeto se entrena
CONDICIONAMIENTO INSTRUMENTAL 107
sobre la conducta de elección han mostrado que, manteniendo todo lo demás constan-
te, la tasa relativa de respuesta en cada alternativa es idéntica a la tasa relativa de
reforzamiento en dicha alternativa, lo que se conoce como ley de igualación y determi-
na que uno de los factores fundamentales que determinan nuestra elección es la canti-
dad de reforzamiento que nos proporciona cada posibilidad de respuesta.
Capítulo 6
109
110 A PRENDIZAJE HUMANO
servir a funciones biológicas importantes. Sin embargo, resulta fácil encontrar excep-
ciones a la teoría de la reducción de la necesidad. Por ejemplo, la estimulación sexual
no satisface una necesidad biológica fundamental del individuo, en el sentido de que no
es necesaria para su supervivencia (aunque lo sea para la de la especie). En otras pala-
bras, nadie se muere por practicar la abstinencia sexual indefinidamente y sin embargo
la estimulación sexual resulta un reforzador poderoso.
Así, la teoría de la reducción de la necesidad se fue refinando hasta sustituirse en
escritos posteriores por la teoría de la reducción del impulso (v.gr., Miller, 1948, 1951).
Esta teoría asume que una estimulación intensa de cualquier tipo es aversiva para el
organismo y que cualquier reducción en esta estimulación actuará como reforzador de
la conducta precedente. En realidad, en esta teoría se toma el concepto de homeostasis
que ya presentábamos al hablar de habituación y que retomaremos más adelante cuan-
do tratemos las teorías de la regulación conductual, si bien desde una perspectiva radi-
calmente diferente. Así, Hull está asumiendo que el organismo tiende a mantener un
nivel de equilibrio. Este nivel de equilibrio va a verse desestabilizado por agresiones
externas e internas al sistema, lo que genera un estado de impulso en el individuo. Por
ejemplo, el consumo de nutrientes por el organismo lleva a la activación del impulso de
hambre; este impulso se mantendrá hasta que el organismo consiga los nutrientes nece-
sarios, se reduzca el impulso y regrese a la normalidad. El reforzador será aquel estímu-
lo que reduzca el estado de impulso y devuelva al organismo a la homeostasis.
final del corredor. La reducción del impulso sexual se impidió separando a los machos
antes de que consiguieran la eyaculación. A pesar de no reducir el impulso sexual, la
latencia de carrera en los machos disminuyó con el entrenamiento, lo que ponía una vez
más en cuestión la teoría de la reducción del impulso.
En una aproximación similar, varios autores descubrieron que podían hacer aumen-
tar respuestas instrumentales relacionándolas con estímulos que difícilmente podían
considerarse reductores de impulso. Así, las ratas presionan una palanca para poder
explorar un ambiente nuevo (Myers y Miller, 1954) y los monos realizan distintas res-
puestas instrumentales para poder mirar fuera de la cámara experimental (Butler, 1953).
Este fenómeno se conoce como reforzamiento sensorial y parece indicar que los cam-
bios estimulares pueden actuar como reforzadores en especies muy distintas. En el ser
humano esto resulta particularmente claro en el gusto por las artes.
Otro grupo de resultados que presentaban problemas para la teoría de la reducción
del impulso fueron los procedentes de los estudios de autoestimulación intracraneal.
Olds y Milner (1954) encontraron que las ratas presionaban una palanca durante mu-
chas horas con el objeto de recibir estimulación en el área septal del cerebro. Esto no
tenía por qué contradecir en principio la teoría de la reducción del impulso; de hecho,
se planteó la explicación de que esta estimulación activaba los circuitos neurológicos
que intervenían en la reducción de los impulsos. Sin embargo, el que esta misma esti-
mulación pueda reforzar conductas como comer, beber, o la conducta sexual sugería
que la estimulación cerebral en realidad induce el impulso, más que reducirlo, presen-
tando un nuevo problema para la teoría hulliana.
do en cuatro trozos, con lo que requería cuatro respuestas consumatorias para consumir
la misma cantidad de alimento.
La cantidad de grano que recibían ambos grupos de pollos por llegar al final del
laberinto era exactamente la misma, por lo que las teorías que consideraban el reforza-
dor como estímulo que acabamos de discutir predicen que el efecto del reforzamiento
va a ser el mismo en ambos casos y por tanto que ambos grupos de pollos aprenderían
lo mismo y al mismo tiempo. Sin embargo, el grupo que necesitaba realizar cuatro
respuestas consumatorias en vez de una aprendió más rápido y cometió menos errores
que el otro grupo. Por lo tanto, parece que lo reforzante no es tanto el estímulo emplea-
do, sino la respuesta de consumirlo.
Experimentos como los descritos establecieron el germen para un importante cam-
bio en la definición del reforzador. A partir de este momento se comenzó a considerar la
posibilidad de que los reforzadores no fueran estímulos específicos contingentes a la
respuesta instrumental, sino la respuesta de consumir dichos estímulos.
Figura 6.1. Esquematización del diseño y de los resultados del del experimento sobre la relatividad
de la respuesta reforzadora realizado por Premack (1963).
ran sus habitaciones, etc. De acuerdo con los principios del reforzamiento, bastaba con
hacer que un reforzador fuera contingente a estas conductas para que las mismas au-
mentaran. Sin embargo, el problema al que se enfrentaron estos autores emanaba la
propia situación que intentaban modificar. No parecía haber ningún reforzador al uso
eficaz para estos pacientes, rechazaban los dulces, las galletas, los cigarrillos etc. Ya
hemos visto que la teoría de Premack recomienda una aproximación distinta a este tipo
de problemas. Basta con determinar qué conductas son más probables en los sujetos y
utilizar éstas como reforzadores; en estos pacientes, la conducta más probable era per-
manecer sentados y quietos por lo que estos autores decidieron hacer que la oportuni-
dad de sentarse y no hacer nada fuera contingente con realizar una tarea simple durante
unos minutos. Este procedimiento llevó a que los pacientes finalmente realizaran acti-
vidades útiles por primera vez en mucho tiempo.
Problemas del principio de probabilidad diferencial. Uno de los problemas que pre-
senta el principio de Premack el tipo de medida que se ha de utilizar para determinar la
probabilidad de las distintas respuestas que actuarán como reforzadores y respuestas
reforzables. La probabilidad de respuesta se determina normalmente durante una línea
base apareada en la que el sujeto tiene la oportunidad de realizar concurrentemente
cualesquiera respuestas que estemos evaluando. Cuando ambas respuestas son simila-
res, una medida que podemos usar para establecer la comparación es el número de
respuestas por unidad de tiempo, es decir la tasa de respuesta. Sin embargo, cuando
comparamos dos respuestas muy distintas, como por ejemplo limpiar la casa y comer,
la medida de tasa resulta difícil. En esas situaciones, Premack sugirió que la probabili-
dad de respuesta podía determinarse calculando el tiempo que dedicaba el sujeto a cada
una de las respuestas respecto a un tiempo determinado en el que ambas respuestas
118 A PRENDIZAJE HUMANO
estuvieran disponibles.
No obstante, esta forma de determinar la probabilidad de la respuesta presenta el
problema de que las actividades no se distribuyen uniformemente a lo largo del tiempo.
Por ejemplo, en un período de 24 horas es bastante probable que dediquemos bastante
tiempo a comer; sin embargo, la conducta de comer no se va a distribuir uniformemente
a lo largo del día. Ésta será altamente probable a ciertas horas y no lo será tanto a otras.
Para solventar este problema Premack sugiere que la medida de la respuesta más ade-
cuada es la probabilidad momentánea.
En la figura 6.2 se presenta una distribución hipotética de dos conductas distintas a
lo largo de un tiempo determinado. Como vemos, la respuesta A es más probable que la
respuesta B durante la primera parte de la sesión y viceversa durante la segunda parte
de la sesión. Por tanto, durante la primera parte de la sesión A puede utilizarse para
reforzar la respuesta B y viceversa durante la segunda parte. Un registro de la probabi-
lidad de respuesta durante toda la sesión nos daría como resultado dos conductas de
aproximadamente probabilidad equivalente, lo que sugeriría que ninguna puede actuar
como reforzador de la otra. Sin embargo, el registro de la probabilidad momentánea de
la respuesta nos indica que esto no es así, simplemente las probabilidades cambian a lo
largo de la sesión y por lo tanto los papeles de la respuesta reforzadora y reforzable
cambian también.
En ambientes clínicos y educativos el problema de registro de la probabilidad de la
respuesta se ha soslayado mediante la utilización de economías de fichas. En estos
sistemas los sujetos realizan la respuesta instrumental para conseguir unas fichas que
después pueden intercambiar por la oportunidad de realizar una respuesta reforzadora
escogida por ellos mismos de entre una variedad de respuestas disponibles. Esto permi-
te aplicar el principio de Premack sin necesidad de determinar a priori que respuesta va
a actuar como reforzador y sin tener el problema práctico de registrar la probabilidad
momentánea de las respuestas. La oportunidad de realizar una respuesta reforzadora
escogida por el sujeto se hace contingente con la respuesta instrumental, pero es el
propio sujeto el que determina qué respuesta va a actuar como reforzador en función de
sus preferencias coyunturales. Esto evita además el tener que calcular probabilidades
de respuesta idiosincráticas para cada sujeto. Por ejemplo, en un ambiente educativo, el
tiempo de lectura puede hacerse contingente con la obtención de puntos que después el
niño puede cambiar por la oportunidad de pintar con tizas de colores, correr en el patio,
jugar a los videojuegos etc. según sus preferencias personales en ese momento.
Figura 6.2. Distribución hipotética de dos conductas distintas a lo largo de una sesión.
al mismo nivel que durante la línea base, simplemente realizando la actividad de proba-
bilidad baja al mismo nivel que durante la línea base.
Por ejemplo, imaginemos que una rata pasa durante la línea base el 60% de su tiem-
po bebiendo y el 10% corriendo en la rueda sin fin. Durante la fase de condicionamien-
to instrumental se establece una contingencia en la que la rata ha de pasar 10 segundos
corriendo para tener acceso a 60 segundos de bebida. De acuerdo con el principio de
probabilidad diferencial de Premack en esta situación la respuesta de correr debería
aumentar, pero esto no ocurre; no se observan cambios en la conducta. De hecho, esta
predicción del principio de Premack resulta contraintuitiva. El programa de reforza-
miento descrito permite al sujeto distribuir las respuestas durante la sesión de contin-
gencia de forma totalmente equivalente a como las distribuía durante la línea base, por
tanto, ¿por qué iba a cambiar su conducta?
Premack resolvió el problema revisando su hipótesis de la probabilidad diferencial
e incluyendo una nueva condición que se hacía necesaria para que se manifestara el
reforzamiento de cualquier respuesta instrumental. Era necesario que el programa pri-
vara al sujeto de la realización de la respuesta consecuente. Así, en su revisión del
principio de probabilidad diferencial, el reforzamiento dependía de que se escogiera la
respuesta más probable como reforzadora y de que el programa instrumental privara al
sujeto de la oportunidad de realizar la respuesta reforzadora con respecto a la línea base
a menos que eleve su tasa de respuesta instrumental. Premack consideraba que un pro-
grama de reforzamiento necesita cumplir ambas condiciones para ser eficaz (v.gr.,
Eisenberger, Karpman y Trattner, 1967).
tuerca más que terminó convirtiéndose en lo que se conoce como hipótesis de la priva-
ción de la respuesta. Los autores que propusieron esta hipótesis sostenían que la carac-
terística fundamental del reforzamiento era que privaba al sujeto de la realización de
una respuesta, impidiéndole que la realizara al nivel de su línea base (Timberlake y
Allison, 1974). En otras palabras, la diferencia entre la respuesta instrumental y la res-
puesta reforzadora no es la mayor probabilidad de la segunda sino que el sujeto es libre
de realizar la respuesta instrumental, pero tiene restringido el acceso a la respuesta
reforzadora en función de la cantidad de respuesta instrumental que realice.
De acuerdo con esta hipótesis, una respuesta de probabilidad baja puede servir per-
fectamente para reforzar una respuesta de probabilidad alta; basta con restringir el ac-
ceso a la respuesta de baja probabilidad por debajo de la línea base. Esta predicción se
ha demostrado en varios experimentos. En uno de ellos, Mazur (1975) utilizó ratas y las
respuestas de correr y beber. Registró las respuestas de correr y beber durante una línea
base apareada en la que los sujetos tenían la oportunidad de realizar ambas conductas.
En la parte izquierda de la figura 6.3 aparecen reflejados los resultados de una de las
ratas. Ésta pasó el 17% de su tiempo bebiendo y el 10% corriendo, luego la respuesta de
beber tenía una probabilidad mayor que la respuesta de correr, alcanzando una relación
de casi 2 a 1.
En la primera fase experimental usó un procedimiento de contingencia recíproca en
el que la rata necesitaba pasar 15 segundos corriendo para poder pasar 5 segundos
bebiendo. La contingencia es recíproca porque el sujeto necesita realizar la respuesta
reforzadora por el tiempo estipulado para poder volver a realizar la respuesta instru-
mental y viceversa. Este tipo de contingencia permite controlar que las dos conductas
ocurran en la proporción fija determinada por el programa de reforzamiento. La contin-
gencia establecida requiere que el sujeto realice 3 veces más la respuesta de correr que
la de beber, invirtiendo la relación que encontrábamos entre estas respuestas durante la
línea base. Esta situación cumple los requisitos del principio de probabilidad diferen-
cial de Premack y los de la hipótesis de la privación de respuesta. Por una parte, la
respuesta que se utiliza como reforzadora es la más probable durante la línea base y por
otra su acceso se restringe, de tal modo que el sujeto tiene que aumentar su respuesta
instrumental por encima de la línea base para poder acercarse a su línea base de res-
puesta reforzadora. En esa situación, el sujeto llega a una especie de compromismo,
aumentando la respuesta instrumental (el correr) por encima de la línea base, pero dis-
minuyendo la respuesta reforzadora (el beber) por debajo de la línea base, tal y como se
aprecia en la parte central de la figura 6.3.
En la segunda fase del experimento se cambió la contingencia recíproca. El sujeto
tenía que pasar ahora 45 segundos bebiendo para poder tener acceso a 5 segundos de
carrera. En esta situación, la respuesta más probable cumplió el papel de respuesta
instrumental y la menos probable de respuesta reforzadora. Por tanto, el principio de
Premack predice que no va a haber efectos del reforzamiento. Sin embargo, la hipótesis
de la privación de respuesta sostiene lo contrario. El programa establece una relación
TEORÍAS DEL CONDICIONAMIENTO INSTRUMENTAL 121
Figura 6.3. Distribución de las respuestas de correr y beber durante la línea base (izquierda), bajo
un programa de reforzamiento que cumple el principio de Premack (centro) y bajo un programa
de reforzamiento que no cumple el principio de Premack pero en el que se priva al sujeto el acceso
a la respuesta reforzadora por debajo de su línea base (derecha). Basado en Mazur (1975).
dos respuestas al mismo nivel que durante la línea base y al no haber privación no hay
efecto del reforzamiento.
En cambio, en el segundo programa de reforzamiento la línea de programa no pasa
por el punto de equilibrio conductual. De acuerdo con Timberlake y Allison (1974) en
esta situación la imposición del programa genera un conflicto con la distribución de
actividades preferida por el sujeto. Es más, como la línea de programa no pasa por el
punto preferido de equilibrio conductual, el conflicto es irresoluble, aunque el sujeto
puede minimizarlo escogiendo una distribución de respuestas que se aproxime el máxi-
mo posible al punto de equilibrio conductual. De acuerdo con la teoría, la distribución
de respuestas que escogerá el sujeto en una situación de este tipo coincidirá con el
punto en el que la perpendicular a la línea del programa cruce el punto de equilibrio
conductual, tal y como aparece representado en la figura 6.4.
Naturalmente, esta predicción sólo se cumple si el sujeto asigna la misma importan-
cia a los dos niveles de respuesta que daba en la línea base, en nuestro ejemplo, si
considera que pasar 10 minutos leyendo tiene una importancia equivalente a pasar 20
viendo la televisión. Si esto no fuera así, el sujeto equilibraría su respuesta bajo las
restricciones del programa más abajo o más arriba en la línea del programa, dependien-
do de si le da mas importancia a mantener la línea base de respuesta de lectura o la de
ver la televisión, respectivamente. Por tanto, este modelo permite representar la impor-
tancia diferencial de dos niveles de conducta durante la línea base.
En definitiva, el modelo predice que la distribución final de la respuesta del sujeto
va a depender esencialmente de los costes y beneficios que le suponga la reestructura-
ción de la línea base de las respuestas instrumental y contingente. En el ejemplo que
venimos presentando, si el dejar de ver la televisión supone un coste mayor para el niño
que el aumentar la respuesta de leer, el niño va a aumentar la respuesta de correr por
encima del punto de desviación mínima representado por la línea perpendicular. Es
decir, va a aumentar mucho la respuesta de leer para poder mantenerse cerca de la línea
base de ver la televisión. Por el contrario, si aumentar la respuesta de leer supone un
coste mayor para el niño que disminuir la respuesta de ver la televisión, la respuesta de
leer aumentará pero quedará por debajo del nivel de desviación mínima. Es decir, el
sujeto disminuirá la respuesta de ver la televisión a fin de mantenerse más cerca de la
línea base de lectura (Allison, 1989).
Esto es, en situaciones en las que se requiera mucha conducta instrumental para
obtener unos pocos refuerzos, el sujeto va a aumentar muy poco su nivel de línea base
instrumental (va a leer poco). El aumento en la respuesta va a ser al principio cada vez
mayor a medida que disminuimos la restricción del programa, es decir a medida que
exigimos menos respuestas instrumentales para conseguir un reforzador. No obstante,
llegará un momento en el que la respuesta instrumental comience a disminuir a medida
que la cantidad de respuesta contingente recibida por respuesta instrumental crezca.
Esta función se asemeja mucho a la curva estándar de aporte del trabajo que apare-
ce en los libros de texto de microeconomía. Este tipo de coincidencia ha llevado a
algunos autores a reinterpretar la situación instrumental en términos económicos, en
los que el reforzamiento representa el dinero y la respuesta instrumental representa el
trabajo. Así, el punto de equilibrio conductual viene a representar la situación ideal del
sujeto, con mucho dinero y poco trabajo. El programa de reforzamiento lo que hace es
establecer una restricción en la que la cantidad de dinero depende de la cantidad de
trabajo. Las líneas de programa entonces representan distintas tasas o niveles salaria-
les. De acuerdo con la curva de la función de reforzamiento que observamos en la
figura, la máxima cantidad de trabajo se encuentra a tasas salariales intermedias, más
que a tasas salariales altas o a tasas salariales bajas.
Este tipo de aplicación de los principios de regulación conductual a la economía ha
abierto un nuevo campo de estudio, la economía conductual, que ha recibido gran
atención por parte de los investigadores pertenecientes a la tradición del análisis de la
conducta en los últimos años (v.gr., Allison, 1983; Green y Freed, 1998).
126 A PRENDIZAJE HUMANO
Figura 6.6. Ejemplo de la actuación del sujeto cuando dos respusestas son sustitutos perfectos.
En esos casos, la actuación de los sujetos no se aproximará al punto de equilibrio conductual
puesto que existen múltiples combinaciones que satisfacen al sujeto. El punto en el que la función
de todas las posibles combinaciones se cruza con la línea de programa marca la distribución de la
conducta del sujeto.
miento clásico o instrumental, sea en seres humanos u otros animales pueden explicar-
se a través de los mismos mecanismos. La discusión en la actualidad no se establece en
términos de si distintos animales utilizan mecanismos diferentes de aprendizaje, sino
de cuáles son los mecanismos de aprendizaje que se utilizan para resolver los proble-
mas de correlación, sin importar tanto la especie que se enfrente a resolverlos.
respuesta instrumental para escapar del miedo que elicita la señal de aviso, lo que lleva
a que la señal de aviso no vaya seguida por la consecuencia aversiva. Esto debiera
producir extinción del miedo, con lo que el sujeto dejaría de dar la respuesta instrumen-
tal, la consecuencia aversiva volvería a presentarse y volvería a comenzar el proceso.
Sin embargo, el resultado que se obtiene habitualmente con los procedimientos de evi-
tación no se parece al que predice la teoría de los dos procesos; una vez que has apren-
dido que evitar cruzar el parque te protege del atraco la visión del parque no te elicita
miedo y sin embargo sigues dando un rodeo para evitarlo. De hecho, el entrenamiento
en un procedimiento de evitación conlleva una disminución del miedo, y sin embargo
la fuerza de la respuesta de evitación se mantiene intacta (v.gr., Mineka y Gino, 1980).
R eformulación de la teoría de los dos procesos, hipótesis de la señal de seguridad.
Las dificultades que tenía la teoría de los dos procesos para explicar alguno de los
resultados que presentábamos en el párrafo previo llevaron a buscar formulaciones
teóricas alternativas para explicar el comportamiento en el procedimiento de evitación.
Una de las formulaciones más sugerentes tiene en común con la teoría de los dos proce-
sos el considerar que el condicionamiento clásico lleva a la motivación necesaria para
que se establezca la respuesta instrumental.
La respuesta de evitación va seguida inevitablemente por un cambio en la estimula-
ción que le sirve de retroalimentación. La respuesta de rodear el parque va acompañada
de un cambio en el paisaje ante tus ojos. Si llamáramos A a la señal de aviso y B a las
claves retroalimentadoras que acompañan a la respuesta de evitación, el diseño al que
nos enfrentamos desde el punto de vista del condicionamiento clásico es un diseño A+,
AB- que, como veíamos en el capítulo 3 dota a B con propiedades inhibitorias con
respecto a la consecuencia aversiva. Un inhibidor de la consecuencia aversiva se con-
vierte en una señal de seguridad y una señal de seguridad puede actuar como una
consecuencia apetitiva. Así, según la hipótesis de la señal de seguridad los sujetos emi-
ten la respuesta de evitación porque va seguida de una consecuencia apetitiva, la señal
de seguridad (para una revisión véase Dinsmoor, 2001).
Las dos explicaciones de la evitación que planteamos en estas líneas no pretenden
agotar todo el trabajo teórico en evitación que va mucho más allá de lo que podemos
plasmar en estos párrafos. Así, algunas teorías han destacado el papel que juega la
reducción de la frecuencia de la consecuencia aversiva en los procedimientos de evita-
ción (v.gr., Herrnstein y Hineline, 1966), o la influencia de las reacciones de defensa
específicas de la especie (v.gr., Bolles, 1970). Nos hemos centrado en las teorías de
doble proceso por ser las que más evidencia empírica aglutinan, utilizando conceptos
que nos resultan familiares y que están muy contrastados como hemos visto en capítu-
los previos.
6.10. Resumen
En este capítulo hemos presentado las distintas explicaciones de la actuación bajo
programas de condicionamiento instrumental. La explicación de la actuación instru-
132 A PRENDIZAJE HUMANO
mental comenzó tratando de dar respuesta a dos preguntas, qué es un reforzador y qué
hace que el reforzador produzca sus efectos. En la definición de reforzador se pueden
establecer dos grandes clases de teorías, las que consideran que los reforzadores son
estímulos y las que consideran que los reforzadores son respuestas. Dentro de las pri-
meras destaca la ley del efecto de Thorndike (1911) y la teoría de la reducción del
impulso de Hull. En ambos casos se considera que los reforzadores son clases especia-
les de estímulos, en el caso de Hull aquellos estímulos que reducen los impulsos (refor-
zadores primarios) o que se han asociado con ellos (reforzadores secundarios). Esta
teoría tropezó con dos problemas, el reforzamiento sensorial que demostraba reforza-
miento en ausencia de reducción del impulso y los experimentos que sugerían que el
reforzador era la respuesta de consumir el estímulo más que el estímulo en sí mismo.
Esto dio lugar al desarrollo de un nuevo grupo de teorías en las que se consideraba
que los reforzadores eran respuestas. Premack (1965) en su principio de probabilidad
diferencial sostiene que los reforzadores son las respuestas de probabilidad más alta
relativizando el valor del reforzador, puesto que la misma respuesta puede ser instru-
mental o reforzante, dependiendo de si la respuesta que se empareja con ella tiene una
probabilidad más alta o más baja, respectivamente. Algunas predicciones erróneas de
este principio llevaron al nacimiento de la hipótesis de la privación de respuesta, en la
que se deja de considerar a los reforzadores como clases especiales de respuestas y se
sostiene que cualquier respuesta puede ser reforzadora si el acceso del sujeto a ella se
restringe por debajo de sus deseos.
La teoría de la regulación conductual nace como complemento a la hipótesis de
privación de respuesta tratando de explicar cómo produce sus efectos el reforzador.
Esta teoría asume el principio de homeostasis conductual y sostiene que el programa de
reforzamiento funciona porque aleja al sujeto de su punto preferido de equilibrio con-
ductual, esto es de la homeostasis conductual. Esto fuerza que el sujeto tenga que redis-
tribuir su conducta; la redistribución exacta de su conducta va a depender del sacrificio
relativo que le suponga al sujeto prescindir de unas y aumentar otras, así como de que
haya conductas sustitutas que eliminarían cualquier efecto de reforzamiento. La teoría
de la regulación conductual supone cambia la concepción de reforzamiento y castigo,
al considerar que ambos son el haz y el envés de la misma moneda conductual. Cual-
quier situación de reforzamiento puede ser reinterpretada como castigo, y viceversa,
puesto que la regulación conductual implica una redistribución de conductas que lleva
a la disminución de unas (castigo) y el aumento en otras (reforzamiento).
Las teorías generales del aprendizaje instrumental coinciden con las teorías asocia-
tivas y los modelos de reglas que se detallaron en el capítulo 4. No obstante, existen
algunas teorías específicas para fenómenos concretos de aprendizaje instrumental, como
la evitación; a modo de ejemplo presentamos la teoría de los dos procesos y la hipótesis
de la señal de seguridad.
TEORÍAS DEL CONDICIONAMIENTO INSTRUMENTAL 133
Capítulo 7
ga la información nueva con la información antigua, siendo mayor cuanto mayor sea
este parecido. Este tratamiento implica dos formas de interferencia y por tanto el posi-
ble establecimiento de dos nuevos aprendizajes, por una parte en este tratamiento se
puede aprender que el marcar el número X ya no va seguido de la voz de tu amigo al
otro lado de la línea (extinción); por otra, se puede aprender que marcando el número Z
consigues hablar con tu amigo. El resultado final, el efecto de interferencia, es que el
sujeto termina actuando de acuerdo con la última información recibida dejando de ac-
tuar de acuerdo con la información aprendida originalmente, en otras palabras, termi-
nas utilizando el número Z para llamar a tu amigo y ya no utilizas el número X.
Como ocurre con otros fenómenos de aprendizaje, los procedimientos y efectos son
indiscutibles puesto que simplemente describen la realidad; sin embargo, nuestro inte-
rés último se centra en descubrir las explicaciones de esos fenómenos o efectos, en
otras palabras, en descubrir qué se aprende en estos procedimientos y qué mecanismos
subyacen a esos efectos. De hecho, la descripción y organización de los fenómenos
descritos en este apartado no ha sido todo lo aséptica que debiera; el hecho de incluir a
la extinción dentro de los fenómenos de interferencia implica la suposición de que en la
extinción se aprende algo nuevo que compite o interfiere con lo aprendido en la adqui-
sición, algo que necesita mayor justificación que la realizada hasta ahora.
En un primer análisis, el efecto de extinción podría considerarse como la conse-
cuencia del desaprendizaje de la relación EC-EI o Respuesta-Reforzador. Igualmente,
el efecto de interferencia por la adquisición de información nueva podría interpretarse
como la combinación del desaprendizaje de la asociación antigua y el aprendizaje de
una nueva relación independiente. La simpleza de la idea del desaprendizaje es atracti-
va, aunque pronto veremos que es incorrecta. En el apartado siguiente comprobaremos
que la adquisición de información nueva en distintas formas de interferencia no conlle-
va la eliminación de la información antigua, tampoco en la extinción.
Figura 7.1. Juicios medios emitidos por los estudiantes acerca de la relación medicamento-enfer-
medad en la prueba realizada después de la adquisición (izquierda) y la prueba realizada después
de la extinción (derecha). La prueba final tuvo lugar inmediatamente después de la extinción en el
grupo 0 y 48 horas más tarde en el grupo 48. La recuperación de la respuesta tras el intervalo de
retención más largo ejemplifica la recuperación espontánea después de la extinción. Basado en
Vila y Rosas (2001).
Tabla 7.1
Esquematización del diseño de recuperación espontánea empleado por Rescorla (1996)
Adquisición Extinción 1 Extinción 2 Prueba
conseguir comida (presionar una palanca y empujar una pestaña con el hocico, contra-
balanceadas como R1 y R2). Tras entrenar estas dos respuestas por separado se proce-
dió a su extinción en dos sesiones en las que se eliminó la comida de la situación de tal
modo que las ratas dejaron de responder. La extinción de una de las respuestas tuvo
lugar inmediatamente después de la adquisición, mientras que la otra respuesta comen-
zó a extinguirse 5 días más tarde. Finalmente, todas las ratas recibieron la prueba con
las dos respuestas en dos sesiones distintas. La prueba tuvo lugar inmediatamente des-
pués de la extinción para una de las respuestas (R1) y 7 días más tarde para la otra
respuesta (R2). La tasa de respuesta durante la prueba fue mayor en R2 que en R1
reflejando el efecto del intervalo de retención sobre la respuesta instrumental condicio-
nada y replicando en condicionamiento instrumental la recuperación espontánea en-
contrada en condicionamiento clásico. Obsérvese que el diseño utilizado por Rescorla
(1996) tiene una serie de características metodológicamente importantes desde el punto
de vista del control experimental. Es un diseño intrasujeto, con lo que la recuperación
espontánea se demuestra dentro del propio sujeto en dos respuestas distintas, depen-
diendo del momento en el que cada una fuera extinguida. Por otra parte, la prueba se
realiza en el mismo día para ambas respuestas, variando el momento en el que se reali-
zó la extinción; finalmente, las respuestas fueron contrabalanceadas. Todas estas carac-
terísticas son importantes a la hora de establecer un buen control experimental.
Figura 7.2. Juicios medios emitidos por los estudiantes acerca de la relación medicamento-enfer-
medad a lo largo de los 12 ensayos de la fase de adquisición y los 12 ensayos de extinción en el
estímulo que fue emparejado con la enfermedad durante la adquisición (A) y el que no fue empa-
rejado con ella (B). Los sujetos recibieron la fase de extinción en un contexto distinto al de adqui-
sición. Obsérvese que este cambio de contexto no afectó a los juicios emitidos en el primer ensayo
de extinción en ninguno de los estímulos. Basado en Paredes-Olay y Rosas (1999).
Figura 7.3. Juicios predictivos medios emitidos por los estudiantes acerca de la relación medica-
mento-enfermedad en las pruebas realizadas en el contexto Y y en el contexto X. La extinción
tuvo lugar en el contexto Y, por lo que la prueba en el contexto X supuso una vuelta al contexto de
adquisición tras haber recibido la extinción en un contexto distinto. La recuperación que se obser-
va en los juicios ejemplifica el efecto de renovación. Basado en Paredes-Olay y Rosas (1999).
Tabla 7.2
Extracto del diseño del Experimento 1 de García-Gutiérrez y Rosas (2003)
Grupo Adquisición Interferencia Reinstauración Prueba
X- X: -
X: A-C1, B-C2, X: A-C2, Z-C1,
X-C1 S-C1, T-C2, R- S-C1, T-C2, R- X:C1 X:A
Y: S-C1, T-C2, R- Y: S-C1, T-C2, R-
Y-C1 Y:C1
Figura 7.4. Diferencia media entre los juicios adscritos a la relación A-C1 y a la relación A-C2
durante la prueba final en los grupos X-, X-C1 e Y-C1. Diferencias negativas implican una actua-
ción acorde con el tratamiento de interferencia (A-C2) mientras que diferencias positivas impli-
can actuación acorde con el tratamiento de adquisición original (A-C1). Los grupos se diferencia-
ron en el tratamiento recibido durante la fase de reinstauración, sólo el grupo X-C1 recibió expo-
sición a la consecuencia C1 en el contexto de prueba. Las diferencias positivas mostradas por ese
grupo en relación con los otros dos ejemplifican el efecto de reinstauración. Adaptado del experi-
mento 1 de García-Gutiérrez y Rosas (2003).
Rosas et al., 2001). Todas estas coincidencias llevaron a Bouton y a sus colegas a sos-
tener que recuperación espontánea y renovación son dos formas parecidas de recupera-
ción de la información por el cambio de dos contextos distintos, uno temporal y el otro
físico.
Bouton (1994) extendió la explicación del cambio de contexto a la reinstauración.
Las interpretaciones tradicionales de la reinstauración suponían que la presentación de
la consecuencia en ausencia de la clave llevaba a la formación de un aprendizaje nuevo.
Por ejemplo, Rescorla y Heth (1975) sostenían que la presentación de la consecuencia
llevaría a la formación de una asociación contexto-consecuencia que se sumaría a los
restos de la asociación clave-consecuencia que sobreviven a la extinción dando como
resultado la reinstauración de la respuesta. Bouton (1994) realiza una sugerencia dis-
tinta; conociendo que extinción e interferencia son dependientes del contexto donde se
adquieren, sostiene que la presentación de la consecuencia en el contexto podría llevar
a que éste se transformara en un contexto perceptualmente diferente gracias a su aso-
ciación con la consecuencia, con el resultado de que la prueba se realiza en un contexto
virtualmente distinto al contexto en el que tiene lugar la extinción. Si esto fuera así, la
reinstauración de la respuesta durante la prueba estaría provocada por haber realizado
la prueba en un contexto diferente al contexto donde tuvo lugar la interferencia, provo-
cando el olvido de la información interferente y la recuperación de la información ori-
ginal. El fenómeno de reinstauración se interpretaría entonces como un caso especial
de renovación XXY.
García-Gutiérrez y Rosas (2003) realizaron una serie de experimentos en los que
trataron de contrastar esta idea. Después de la demostración del efecto de reinstaura-
ción tras la interferencia que veíamos en la figura 8.4, estos autores diseñaron una
situación que permitía discernir entre la interpretación de reinstauración como un caso
especial de renovación de las que interpretan el fenómeno como un nuevo aprendizaje.
Observaron que si la reinstauración era debida a un cambio en el contexto causado por
los emparejamientos contexto-consecuencia, el cambio contextual debiera de producir-
se igual independientemente de cual fuera la consecuencia utilizada.
Emplearon un diseño de 4 grupos que recibían un tratamiento similar al que se ob-
serva en la tabla 8.2. Los grupos se diferenciaban en la consecuencia que se presentaba
durante la fase de reinstauración. En el grupo X-C1 se presentó la consecuencia empa-
rejada originalmente con la clave A; e el grupo X-C2 se presentó la consecuencia em-
parejada con A durante la interferencia; en el grupo X-C3 se presentó una consecuencia
nueva (vómito). Finalmente, el grupo Y-C2/C3 fue un grupo de control en el que se
presentaron las consecuencias C2 y C3 pero en un contexto distinto al contexto en el
que tuvo lugar el aprendizaje y la prueba (la mitad de los sujetos recibieron exposición
a C2 y la otra mitad a C3).
La figura 7.5 recoge la diferencia entre la probabilidad adscrita a la relación A-C1 y
la adscrita a la relación A-C2 durante la prueba final tras el tratamiento de reinstaura-
ción. Recordemos que diferencias negativas implican una actuación de acuerdo a la
146 A PRENDIZAJE HUMANO
Figura 7.5. Diferencia media entre los juicios adscritos a la relación A-C1 y a la relación A-C2
durante la prueba final en los grupos X-C1, X-C2, X-C3 e Y-C2/C3. Diferencias negativas impli-
can una actuación acorde con el tratamiento de interferencia (A-C2) mientras que diferencias
positivas implican actuación acorde con el tratamiento de adquisición original (A-C1). La atenua-
ción de las diferencias negativas encontrada en los grupos X-C1, X-C2 y X-C3 muestran que la
reinstauración se produce independientemente de la consecuencia que se presente, siempre que
ésta se presente en el contexto donde tuvo lugar el entrenamiento (X). Basado en el experimento
4 de García-Gutiérrez y Rosas (2003).
cionamiento instrumental. Este resultado nulo no podría darse si los sujetos establecie-
ran una relación clave-no consecuencia durante la extinción, puesto que esta asocia-
ción inhibitoria llevaría a que la transferencia desapareciera. Resultados de este tipo
han llevado a Rescorla (1993, 1996) a proponer que la asociación inhibitoria durante la
extinción se establece entre el estímulo y la respuesta específica que se extingue, una
idea muy similar a la de inhibición reactiva específica de la respuesta que había sido
propuesta por Hull (1943). Los resultados de estos últimos experimentos no han sido
todavía replicados en seres humanos por lo que la cuestión de si en seres humanos el
aprendizaje durante la extinción implica la misma inhibición estímulo-respuesta o es
un aprendizaje distinto permanece aún abierta.
7.6.- Resumen
En este capítulo nos hemos centrado en el análisis de los efectos de extinción y otras
formas de interferencia y de sus explicaciones teóricas. El procedimiento de extinción
consiste en la presentación del EC sin el EI o de la respuesta sin la consecuencia. Esto
produce un efecto de extinción que se manifiesta como un descenso en la respuesta
152 A PRENDIZAJE HUMANO
El aprendizaje vicario
En todos los ejemplos y teorías del aprendizaje que hemos presentado hasta el mo-
mento hemos hecho hincapié en el aprendizaje que se produce a través de la experien-
cia individual. La propia definición de aprendizaje que presentábamos en el capítulo 1
sostiene que el aprendizaje depende de la experiencia con eventos ambientales especí-
ficamente relacionados con la conducta (p. 9) e implícitamente lo hemos interpretado
como si el aprendizaje dependiera de la experiencia directa del individuo con las con-
tingencias ambientales o con los resultados que le producen sus propias acciones. No
obstante, esta interpretación está sesgada, en la definición no se explicita que la expe-
riencia con eventos ambientales tenga que experimentarla el sujeto en carne propia,
sería posible y de hecho lo es, que pudiéramos aprender a partir de las experiencias que
tienen los demás.
Imaginemos que tomamos un grupo de monos que han pasado su vida en el labora-
torio. Los monos criados en la naturaleza muestran reacciones de miedo cuando se les
presenta una serpiente, sin embargo, los monos criados en el laboratorio, como nunca
han tenido experiencias con serpientes no dan muestras de tener miedo, lo que puede
resultarles muy peligroso en el ambiente natural dado que las serpientes les pueden
causar daños físicos importantes, incluso la muerte. Teniendo en cuenta que los monos
viven en ambientes donde la serpiente es un animal común, si tuvieran que aprender la
importancia de las serpientes a través de su propia experiencia con ellas probablemente
se hubieran extinguido hace tiempo. Mineka, Davidson, Cook y Kerr (1984) realizaron
varios experimentos en los que presentaron a estos monos ingenuos imágenes de video
en las que aparecía una serpiente seguida por una reacción de miedo en otro mono de su
especie. Tras esta experiencia, los mismos monos que inicialmente no manifestaban
ningún temor ante la serpiente comenzaron a temerlas, a pesar de que nunca habían
tenido una experiencia directa desagradable con ellas. Aprendieron de los otros monos
que las serpientes eran algo peligroso a lo que había que temer. No obstante, conviene
hacer una precisión. Cuando hablábamos de la asociación selectiva en el capítulo 3
destacábamos que había formas de condicionamiento clásico que resultaban más fáci-
les de establecer que otras, veíamos que resultaba más fácil establecer relaciones entre
sabores y malestar gastrointestinal que entre sabores y descargas eléctricas, por ejem-
plo. Lo mismo parece ocurrir con el aprendizaje vicario, los monos de Mineka et al.
153
154 A PRENDIZAJE HUMANO
(1984) no aprendieron a tener miedo a las flores cuando fueron entrenadas del mismo
modo que habían sido entrenadas las serpientes.
El aprendizaje vicario u observacional está ligado al aprendizaje social; es el proce-
so por el que se transmiten los logros sociales a través de generaciones, supone una
forma de transmisión cultural en la que el sujeto aprende a partir de las experiencias de
un modelo que puede ser real o simbólico, como ocurre en las imágenes televisadas o
en los mensajes lingüísticos. De hecho, los monos del ejemplo anterior recibían la ex-
periencia vicaria por medio de un video.
Aprendizaje del canto en las aves. La comunicación vocal de las aves puede catego-
rizarse en llamadas y cantos. Las llamadas tienden a ser breves y permiten el reconoci-
miento individual, el cortejo e incluso sirven para comunicar información específica
sobre depredadores. Por ejemplo, los pollos domésticos tienen al menos dos tipos de
llamadas de alarma, uno para depredadores aéreos y otro para depredadores de tierra
(Klump y Shalter, 1984). Estas llamadas son heredadas y el aprendizaje influye poco en
ellas. El canto es una actividad más compleja, cumple la misma función que las llama-
das pero en él sí es importante el aprendizaje. Thorpe (1963) demostró que los pinzones
sólo podían desarrollar el canto cuando habían escuchado el canto de un pinzón adulto
mientras eran polluelos. De modo similar, el gorrión de la corona blanca tiene un canto
diferente según el grupo del que proceda, el desarrollo de este canto depende de que el
polluelo haya recibido exposición al canto de un adulto durante un periodo sensible
comprendido entre los 10 y los 50 días de edad. Fuera de ese periodo el gorrión no es
capaz de aprender el canto, al menos no con facilidad (Marler, 1970).
Llamadas de alarma en los monos. Los monos Tato viven en bandas y habitan en
áreas de la sabana del sur de África y del Sáhara. Estos monos tienen llamadas diferen-
tes para hacer referencia a amenazas distintas, por ejemplo, existe una llamada especí-
fica para los depredadores aéreos y, cuando un miembro de la banda emite esta llama-
da, el resto de los miembros otean el cielo y huyen al interior de un arbusto para prote-
gerse. Igualmente, tienen otra llamada para indicar la presencia de un leopardo que
provoca la huida hacia los árboles, otra para las serpientes, otra para los mandriles, etc.
Las propiedades físicas de las llamadas están determinadas genéticamente, sin embar-
go, es la interacción con el resto de la banda la que lleva a que las llamadas se concen-
tren gradualmente en los depredadores apropiados (Seyfarth y Cheney, 1993).
Características del modelo. En principio, la lista de modelos potenciales a los que las
personas nos exponemos a lo largo de nuestras vidas es casi infinita, nuestros padres,
maestros, hermanos, amigos, cantantes, personajes de ficción etc. Sin embargo, no to-
dos tienen la misma influencia en nosotros, hay modelos que son determinantes en
158 A PRENDIZAJE HUMANO
nuestro comportamiento y modelos a los que raramente imitamos. Las principales ca-
racterísticas del modelo que determinan la imitación son las siguientes:
El carácter afectivo y recompensante del modelo. Bandura y Huston (1961) expu-
sieron a niños de preescolar a encuentros individuales con una mujer que para algunos
niños se mostraba afectiva y atenta y para otros se mostraba distante. Varios días des-
pués pidieron a los niños que participaran en un juego con la misma mujer durante el
cual ésta realizó muchos gestos y verbalizaciones distintivas. Los niños que anterior-
mente habían recibido afecto y atención por parte de la mujer imitaron su conducta más
a menudo que los otros. En investigaciones posteriores se han confirmado estas conclu-
siones, encontrando que imitamos más a los modelos que son más afectivos y recom-
pensantes.
El control o poder del modelo sobre el observador. Mischel y Grusec (1966) toma-
ron a un grupo de niños de preescolar y les presentaron a una mujer indicando que iba
a ser su nueva profesora y que se verían mucho en el futuro. En otro grupo la mujer se
presentó como una profesora visitante de otra ciudad a la que no iban a volver a ver. En
los dos casos la mujer jugaba con los niños durante un rato. Posteriormente, cuando
observaron a los niños solos encontraron que aquéllos que suponían que habían jugado
con su nueva profesora imitaban mucho más las conductas y gestos de la mujer que los
que pensaban que era una profesora de visita. Imitaron más a la persona que imagina-
ban que iba a tener más control sobre ellos en el futuro.
La dominancia y estatus social del modelo. Abramovitch y Grusec (1978) encontra-
ron que los niños más imitados eran los que habían sido evaluados por sus maestros
como niños dominantes. Igualmente, se tiende a imitar más a aquellos modelos que los
observadores consideran que tienen un estatus social más alto. Probablemente la razón
de que muchos adolescentes imiten a sus ídolos musicales o cinematográficos radique
parcialmente en este motivo.
La semejanza del modelo con el observador. Imitamos más a los modelos que más
se parecen a nosotros. Tendemos imitar más fácilmente a los modelos que tienen nues-
tro mismo sexo, nuestra misma edad o que parecen tener nuestros propios intereses
(Davidson y Smith, 1982).
La sinceridad del modelo. Tendemos a imitar más a aquellos modelos que nos pare-
cen más sinceros que a aquéllos que consideramos que no se están comportando con
sinceridad (Klass, 1979).
Características del observador. Al igual que existen personas que son más imitables
que otras, existen personas que tienen mayor tendencia a imitar a los demás. Entre las
características personales que mayor correlación mantienen con la imitación están la
edad del observador y la inseguridad en si mismo (Maldonado, 1998). Así, se ha encon-
trado una mayor tendencia a la imitación en niños de 4 años que en niños de 9 años
(Abramovitch y Grusec, 1978). Estos autores encontraron también que los niños domi-
nantes, que veíamos en el caso anterior que eran más imitados, tendían también a imitar
A PRENDIZAJE VICARIO 159
más. Por otra parte, los individuos menos seguros de su comportamiento son los que
más imitan. Cuando manipulamos el nivel de confianza en sí mismo de un individuo
exponiéndolo a una tarea e indicándole que ha fracasado en su realización, expuestos a
una nueva tarea muestran mayor imitación que los niños a los que se les dice que reali-
zaron correctamente la primera tarea (Roberts, Boone y Wurtele, 1982). Del mismo
modo que la edad y la seguridad en sí mismo, la autoestima y la independencia correla-
cionan negativamente con la tendencia a la imitación.
Teoría del aprendizaje social de Bandura (1976). Al hilo de la idea que plasmábamos
en el párrafo previo, Bandura (1965) realizó un experimento en el que niños de 4 años
observaban un video en el que un adulto agredía a un gran muñeco de peluche. Parte de
A PRENDIZAJE VICARIO 161
los niños observaron que otro adulto premiaba la conducta del agresor, otros observa-
ron que el agresor recibía un castigo y los niños restantes observaron que el agresor no
recibía ninguna consecuencia por su acción, ni deseable ni indeseable. Posteriormente
los niños se metieron individualmente en una habitación donde estaba el muñeco del
video rodeado de otros juguetes; las observaciones a través de un espejo unidireccional
permitieron registrar las respuestas agresivas contra el muñeco que daba el niño solo,
encontrando que muchos niños imitaban la forma de la conducta agresiva del adulto.
Sin embargo, Bandura (1965) encontró que los niños que observaban al modelo casti-
gado imitaban menos que los otros; además, cuando en la fase final del estudio se le
ofreció a los niños una recompensa por imitar las conductas que observaron en el vi-
deo, todos los niños exhibieron una conducta muy agresiva independientemente del
tratamiento que hubiera recibido el modelo previamente. Este experimento pone de
manifiesto que el reforzamiento no resulta necesario para el aprendizaje vicario, aun-
que la expectativa de reforzamiento pueda ser imprescindible para que este aprendizaje
vicario se manifieste en conducta imitativa.
Así, Bandura aplicó al aprendizaje vicario los mismos principios que en la época se
aplicaron al estudio del condicionamiento, considerando que el aprendizaje observa-
cional implica la adquisición de representaciones cognitivas mediadas por procesos
atencionales, procesos de retención, de reproducción motora y motivacionales.
Procesos atencionales. La atención es una condición necesaria pero no suficiente
para que se produzca la imitación, puesto que ésta depende de que el observador preste
atención a las características apropiadas de la conducta del modelo. Cualquier manipu-
lación que lleve a un incremento en la saliencia de los aspectos relevantes de la conduc-
ta del modelo frente a los aspectos irrelevantes, como la capacidad cognitiva del obser-
vador o sus conocimientos previos va a repercutir positivamente en el aprendizaje ob-
servacional.
Procesos de retención. La imitación va a depender de que el sujeto retenga la infor-
mación obtenida a través de la observación, de que entren en juego los procesos de
memoria que permitan codificar la información de manera apropiada y acceder a ella
en el futuro.
Procesos de reproducción motora. Para que el aprendizaje vicario pueda observarse
va a ser necesario que el imitador tenga la habilidad motora suficiente para trasladar los
contenidos del aprendizaje en un patrón coordinado de respuestas y movimientos. En
muchas situaciones el observador puede ser capaz de almacenar y retener de manera
abstracta la secuencia completa de la conducta imitable y sin embargo no ser capaz de
reproducirla conductualmente sin una práctica intensa. Por ejemplo, resulta muy fácil
reproducir la conducta agresiva de golpear a un muñeco, pero si esta conducta agresiva
implicara movimientos complejos de Karate la imitación de la conducta distaría de ser
perfecta en sus primeros intentos.
Procesos motivacionales y de incentivo. El que se cumplan las tres condiciones
necesarias descritas previamente no va a garantizar que la conducta se observe. El
162 A PRENDIZAJE HUMANO
sujeto puede conocer y almacenar la respuesta del modelo, tener las habilidades moto-
ras para reproducirla y sin embargo no manifestar esa respuesta en su conducta. Para
que esto ocurra es necesario que el sujeto esté motivado para realizarla; el experimento
de Bandura (1965) que motivó el desarrollo de esta teoría cognitivo conductual es un
buen ejemplo de la diferencia entre capacidad de imitar una conducta e imitación.
7.5.- Resumen
En este capítulo se recogen una serie de ejemplos y explicaciones acerca de cómo
aprenden los sujetos a realizar conductas a través de la observación de modelos. Duran-
te la primera parte del capítulo hemos comprobado que el aprendizaje vicario es una
característica de multitud de especies animales, incluido el ser humano, jugando un
papel importante en la selección de la dieta, el aprendizaje de habilidades comunicacio-
nales y la protección contra los depredadores.
Posteriormente hemos establecido una diferenciación entre mimetismo, repetición
de la conducta por observación en ausencia de recompensa tangible, y la imitación o
copia de una respuesta por la que el modelo recibe una recompensa. Uno de los meca-
nismos por los que puede ocurrir la imitación es a través del condicionamiento obser-
vacional. El análisis de las situaciones de aprendizaje vicario en animales no humanos
nos lleva a la conclusión de que la verdadera imitación es difícil de encontrar fuera del
ser humano.
El aprendizaje vicario humano está determinado por las características del modelo,
las características del observador y las características de la situación. Se ha encontrado
que se imita con mayor facilidad a los modelos afectivos, que tienen un poder de con-
trol sobre el observador, que se muestran dominantes y con un estatus social alto, son
sinceros y tienen rasgos en común con el observador. Asimismo, se ha encontrado que
imitan más los niños más jóvenes y las personas más inseguras. Finalmente, la mayor
imitación se da en situaciones que generen incertidumbre en el observador y en tareas
que tienen una dificultad intermedia.
En algunas explicaciones del aprendizaje vicario se ha supuesto que la imitación es
un instinto. Sin embargo, esta aproximación es puramente descriptiva y no da una ex-
plicación de los mecanismos de aprendizaje que llevan a que la imitación se desarrolle.
Estos mecanismos han sido propuestos desde las teorías conductuales, que asumen que
el aprendizaje vicario es una forma especial de aprendizaje instrumental, regulado por
los mismos principios que regulan este último. Las limitaciones en las teorías conduc-
tuales para explicar algunos de los resultados experimentales cimentaron el desarrollo
de la teoría del aprendizaje social de Bandura (1976). En esta teoría se remarca que el
reforzamiento no es necesario para la imitación, aunque sí lo es para la expresión con-
ductual. Ésta es una teoría cognitiva que supone que el aprendizaje observacional re-
quiere de la conjunción de procesos atencionales, de retención y de reproducción mo-
tora, siendo además necesarios procesos motivacionales para que el aprendizaje obser-
vacional se manifieste.
A PRENDIZAJE VICARIO 163
Referencias