Está en la página 1de 6

TEMA 5 Aprendizaje acerca de relaciones entre respuestas y consecuencias.

Antecedentes históricos y definiciones.


Thorndike.
Thorndike (1898) con el procedimiento de la “caja problema”, llegó a la conclusión de que los gatos no parecían
tener conducta inteligente. Observó un continuo de respuestas típicas de un animal encerrado y algunas con-
ductas que lo terminaban llevando a abrir la puerta de la caja. Después de varios ensayos el tiempo empleado
por el gato era menor en resolver el problema (latencia). Realizando un promedio de varios gatos, encontró un
descenso gradual en la latencia, lo que llevo a Thorndike a concluir que el gato resolvía la situación por ensayo y
error.
Kohler.
Kohler (1925) observó que el mero azar era el único modo en el que el gato de Thorndike podía resolver la si-
tuación, lo que era una característica de la situación experimental, no del gato. Encontró también que cuando se
enfrentaban sus chimpancés a un problema y se dejaban a su disposición los elementos con los cuales podían
resolverlo, los chimpancés no actuaban por ensayo y error, el aprendizaje se manifestaba de repente, cuando el
animal descubría repentinamente la solución del problema: “insight”.
Harlow
Años más tarde, Harlow (1949) integró los resultados dispares de Kohler y Thorndike en lo que llamó “aprender
a aprender”. Encontró que cuando sometía a individuos a distintos problemas, los nuevos problemas, les costa-
ban menos resolverlos, como si el individuo aprendiera a aprender. A medida que se enfrentaba a más proble-
mas, aprendía a buscar soluciones cada vez más rápidos. Empezaría como los gatos de Thorndike y acabaría
como los monos de Kohler.
 A veces el mecanismo de aprendizaje no depende del organismo, sino de la situación. La forma de aprendiza-
je depende más del tipo de problema que se plantee, que de su propia capacidad cognitiva. Si vendamos los
ojos a un sujeto para que salga de un laberinto hecho en una tabla, lo logrará mediante ensayo y error, mien-
tras que si se le quita la venda, estudiará el problema y lo solucionará mediante “insight”.

Definiciones.
Respuesta instrumental: respuesta que tiene interés para nosotros y que el organismo puede emitir o no, según
su voluntad.
Consecuencia: sigue a la respuesta instrumental, lo que el organismo quiere o no tener (EI).
Estímulo discriminativo: estímulo que indica que la respuesta instrumental va a ir seguida de la consecuencia.

Método de ensayos discretos.


Los procedimientos que usaba Thorndike se caracterizan por contener ensayos discretos, el animal solo pude
realizar la respuesta instrumental con éxito una sola vez en cada ensayo. Estos procedimientos fueron muy utili-
zados durante la primera mitad del s.xx para experimentos sobre el aprendizaje, en muchos de los cuales se
usaban laberintos. Tras la entrada en el compartimento de meta del laberinto, la rata se colocaba de nuevo en
el compartimento de salida para repetir la operación, en otros laberintos como es el “laberinto en T” se puede
medir tanto la latencia de respuesta como el nº de aciertos (cuando escoge el pasillo correcto).
Los métodos de ensayos discretos tienen una serie de inconvenientes prácticos:
 Implican gran manipulación por parte del experimentador.
 Lo que conlleva gran pérdida de tiempo.
 No permite medir la frecuencia de la respuesta.

Método de operante libre.


Para suplir estos inconvenientes se introdujeron los métodos de operante libre (Skinner, 1938). Los cuales per-
miten la observación continuada de la conducta del animal durante periodos prolongados, por ello podemos
observar los cambios en la frecuencia y distribución temporal de la respuesta instrumental. Se han diseñado
diferentes cajas de Skinner para distintos tipos de animales pero todas tienen en común que están equipadas
con mecanismos que el animal puede accionar mediante una respuesta mecánica, dichos mecanismos pueden
estar conectados a distintos dispositivos automáticos que dispensan recompensas (comida o agua). La acción de
presionar los mecanismos recibe el nombre de respuesta operante, y se define en términos del efecto que tiene
sobre el ambiente, por ejemplo hacer que caiga una bolita de comida del comedero.
Adquisición de la respuesta instrumental.
El condicionamiento instrumental implica todas aquellas situaciones en las que la respuesta está regulada por
las consecuencias que produce en el ambiente, así que para que aumente la frecuencia de respuesta de una
conducta instrumental basta con relacionarla con una consecuencia que al sujeto le apetezca disfrutar. Pero si
esto fuera así, el condicionamiento instrumental solo serviría para aumentar la frecuencia de respuestas que el
sujeto ya tiene.
Sin embargo los procedimientos de condicionamiento instrumental pueden resultar útiles a la hora de incluir
respuestas nuevas. Para ello utilizaremos el reforzamiento instrumental: una técnica llamada moldeamiento o
también conocida como reforzamiento de las aproximaciones sucesivas a la conducta objetivo. Este procedi-
miento establece una graduación conductual escalonada en uno de cuyos extremos se sitúan las conductas que
ya realiza el sujeto (punto de partida) y en el otro la conducta que queremos instaurar (conducta objetivo). Las
conductas intermedias representan acercamientos progresivos de dificultad creciente entre el punto de partida
y la conducta objetivo. El sistema consiste en reforzar secuencialmente cada aproximación que realice el sujeto
a la conducta objetivo, incrementando las exigencias de refuerzo a medida que el sujeto mejora la conducta.
1. Punto de partida: línea base del repertorio comportamental del sujeto
2. Establecimiento de la conducta objetivo
3. Establecimiento del reforzador
4. Establecer los pasos que nos lleven de la conducta inicial hasta la objetivo.
5. Se comienza a reforzar secuencialmente y de manera exigente progresivamente los pasos establecidos hasta
conseguir reforzar la conducta objetivo.

Procedimientos de condicionamiento instrumental.


Las consecuencias del ambiente pueden ser:
 Agradables  Consecuencias apetitivas.
 Desagradables  Consecuencias aversivas.
El condicionamiento instrumental se clasifica habitualmente en función del tipo d consecuencia utilizada y del
tipo de relación entre la respuesta y la consecuencia:
 Relación positiva  La emisión de respuestas da lugar a la aparición de la consecuencia.
 Relación negativa  La emisión de la respuesta lleva a que la consecuencia, no se presente.
Consecuencia
Apetitiva Aversiva
Positiva Reforzamiento positivo Castigo
Contingencia
Reforzamiento negativo
Negativa Omisión o castigo negativo
(escape / evitación)

Procedimientos que aumentan la respuesta instrumental.


El reforzamiento tiene una función descriptiva y supone el aumento en la respuesta instrumental como resul-
tado de su relación con las consecuencia que producen en el amiente. Los dos procedimientos de reforza-
miento que se presentan en la tabla se diferencian en función de la naturaleza de la consecuencia y de la re-
lación que se establece entre la respuesta y la consecuencia dando lugar a:
 Reforzamiento positivo: Tiene lugar cuando existe una contingencia positiva entre la respuesta instru-
mental y un estímulo reforzador apetitivo (ej. frecuentar un lugar porque sabes que vas a encontrarte a
tus amigos y estar con ellos te agrada).
 Reforzamiento negativo (escape/evitación): La respuesta instrumental aumenta porque su realización
evita una consecuencia desagradable. La evitación tiene lugar porque la emisión de la respuesta impide
la aparición de un reforzador (estímulo aversivo). En otras circunstancias la respuesta instrumental nos
permite escapar de una consecuencia desagradable que ya esté presente. Muchas veces la conducta de
evitación comienza siendo de escape para tornarse después en una respuesta de evitación en anticipa-
ción de su presencia gracias a una señal de aviso.
Procedimientos que disminuyen la respuesta instrumental.
En estas ocasiones el procedimiento instrumental conlleva el descenso en la respuesta instrumental del suje-
to que se conoce como efecto de castigo.
 Castigo: existe una contingencia positiva entre la respuesta instrumental y un estímulo aversivo. Los
procedimientos de refuerzo positivo y de castigo se diferencian en que la naturaleza de la consecuencia
es apetitiva en el primero y aversiva en el segundo.
 Entrenamiento de omisión o castigo negativo: La emisión de la respuesta va a impedir la aparición de
una consecuencia agradable. Al igual que en el reforzamiento negativo, existe una contingencia negativa
entre la respuesta instrumental y un estímulo reforzador. La diferencia está en que el reforzamiento ne-
gativo la consecuencia es aversiva y en el entrenamiento de omisión la consecuencia es apetitiva, con lo
que los procedimientos tienen consecuencias conductuales opuestas.

Condiciones para el aprendizaje instrumental.


Contigüidad.
El procedimiento instrumental es más eficaz en la medida en que la consecuencia siga de forma inmediata a
la respuesta. Si la contigüidad respuesta- consecuencia es necesaria para que se produzca un cambio en la
respuesta, el margen de acción que nos queda para el uso del condicionamiento instrumental es muy peque-
ño, limitándonos a las situaciones en las que podemos aplicarlo y las consecuencias que podemos utilizar.
Podemos conseguir estímulos condicionados que puedan utilizarse como consecuencias instrumentales en la
medida que las señalan; estos estímulos se llaman reforzadores condicionados o secundarios, debido a que
adquieren sus propiedades reforzantes por su asociación previa con un reforzador primario.
El uso de reforzadores condicionados como la retroalimentación verbal inmediata nos permite evitar los
efectos de la demora entre la respuesta instrumental y la entrega del reforzador primario.
En un paso de peatones avisas a un niño de que como cruce sin mirar se la carga, es decir, le avisas de la ra-
zón por la que podrías castigarle luego.

Contingencia.
La contigüidad no constituye una condición suficiente para que se produzca el aprendizaje instrumental. Se
debe producir además una relación de contingencia adecuada para que el condicionamiento instrumental se
manifieste. La contingencia se determina a partir de la relación entre la respuesta y la consecuencia. La con-
tingencia respuesta-consecuencia será alta cuando la respuesta sea un buen predictor de la consecuencia.
 Indefensión aprendida: se puede producir una contingencia cero entre la respuesta y la consecuencia,
produciéndose el efecto de la indefensión aprendida. Seligman y Mayer, y Overmier y Seligman plantearon
esta hipótesis, en la que los animales podemos percibir una contingencia llevándonos a aprender que no
podemos controlar las consecuencias del ambiente a través de nuestra respuesta. Otros autores han cues-
tionado esta hipótesis sugiriendo que el efecto de la indefensión se debe a que los animales aprendemos a
mantenernos inactivos durante la exposición a consecuencias incontrolables o a que este entrenamiento
produce un déficit atencional, reduciendo la atención que prestamos a nuestra conducta. Este fenómeno
demuestra que la contingencia es fundamental para que se produzca el aprendizaje así como la experiencia
previa de la contingencia ya que puede facilitar o dificultar la detección de contingencias futuras, modifi-
cando su capacidad para favorecerse el aprendizaje instrumental.

Competición asociativa.
Pearce y Hall (1979) compararon la frecuencia de respuesta en dos grupos de animales, en uno de ellos (gru-
po correlacionado) se presentó un sonido inmediatamente después de cada respuesta que fuera recompen-
sada, en el otro el sonido se presentó al azar (grupo no correlacionado). La frecuencia de respuesta fue ma-
yor en el grupo correlacionado, sugiriendo que la correlación sonido-consecuencia ensombreció la relación
entre la respuesta y la consecuencia, indicando que la competición asociativa también se puede encontrar en
el condicionamiento instrumental. Por lo tanto existe competitividad asociativa si presentamos otro estimulo
que aparezca antes d la consecuencia y dejamos de emitir respuesta.
Lo suponemos, por ahora solo ocurre en el condicionamiento clásico.
Naturaleza de la consecuencia en el condicionamiento instrumental.
El aprendizaje se puede producir en ausencia del EI que tenga fuerza biológica alta, pues lo mismo ocurre con el condicio-
namiento instrumental. El trabajo clásico de Tolman y Honzik (1930), mostraba que la respuesta instrumental que llevaba
a la salida del laberinto podía perderse en ausencia de una consecuencia relevante biológicamente, aunque esta si era
necesaria para que el resultado del aprendizaje se manifestara.
Uno de los factores que varían la importancia subjetiva de una determinada consecuencia para un sujeto se
ilustra con los experimentos de contraste, en los que se han encontrado que los efectos de la consecuencia
dependen de la cantidad y naturaleza de las consecuencias que el individuo haya experimentado previamente.
Así cuando se comienza administrando a los sujetos una consecuencia pobre, el incremento posterior produce
un aumento en la respuesta que se mantiene a niveles más altos que los de un sujeto que haya recibido siem-
pre la recompensa grande (contraste positivo), y ocurre al contrario también (contraste negativo).
Otro factor que determina la importancia subjetiva de la consecuencia son los fenómenos de habituación y
sensibilización, en términos generales el castigo intenso sensibiliza y aumenta la eficacia del castigo moderado
que se administre posteriormente, mientras que un castigo moderado lleva a que el sujeto se habitué a la con-
secuencia aversiva y lo inmuniza contra un castigo intenso posterior.
Fenómenos de contraste.
 Contraste positivo: aumento en la respuesta instrumental como conse-
cuencia del paso de una consecuencia pobre a una consecuencia rica
comparado con un grupo de control que siempre ha sido entrenado con
la consecuencia rica.

 Contraste negativo: disminución en la respuesta instrumental como con-


secuencia del paso de una consecuencia rica a una consecuencia pobre
comparado con un grupo de control que siempre ha sido entrenado con
la consecuencia pobre.

Si trabajamos con una contigüidad y una contingencia alta entre la respuesta y una consecuencia que el sujeto
considere relevante se garantiza el éxito de nuestro procedimiento de condicionamiento instrumental.
Contenidos del aprendizaje instrumental.
En una situación de condicionamiento instrumental pueden encontrarse pruebas de que se han realizado hasta 4 tipos de
asociaciones distintas.
Asociación E-R.
Thorndike consideró que de las varias respuestas realizadas en la misma situación, aquellas
que van seguidas de la satisfacción del animal, se conectarán más fácilmente con la situación,
manteniendo las demás constantes (efecto de Thorndike). Se asume que el sujeto aprende a
emitir la respuesta en presencia del estímulo discriminativo.
Asociación E-C.
Prueba de transferencia. Se establece una asociación E-C si ante ese
estimulo la respuesta instrumental es recompensada y es la aparición de
ese estímulo a través de la asociación E-C lo que lleva a un organismo al
estado motivacional para que ejecute la respuesta instrumental.
Se diseñó un videojuego en el que los participantes tuvieron que defen-
der Andalucía de ataques aéreos y marítimos. Se estableció primero una
relación entre las dos respuestas instrumentales (2 teclas en un teclado
de ordenador) y 2 consecuencias diferentes (destrucción de los barcos y
de los aviones). Una vez aprendidas las relaciones R1-C1 y R2-C2, los
participantes tuvieron que aprender a predecir cuál de dos estímulos
diferentes predecía cada una de las consecuencias (A-C1 y B-C2). En la
prueba final se daba al participante la oportunidad de escoger entre las
dos respuestas instrumentales (R1 y R2) en presencia de cada uno de los
estímulos utilizados durante la fase de aprendizaje predictivo. La trasfe-
rencia se manifestó como una mayor respuesta en la tecla que coincidía
con el reforzador en el estímulo presente (R1 en A y R2 en B), que en la
otra. Este resultado solo se explica si el sujeto ha establecido una rela-
ción clave-consecuencia que favorece la respuesta asociada con la mis-
ma consecuencia.
Asociación R-C.
Colwill y Rescorla aplicaron la técnica de devaluación del reforzador: si una vez establecido el aprendizaje ins-
trumental, le quitamos el valor a motivacional a una de las consecuencias emparejándolo con algo desagrada-
ble, se seguirá respondiendo al estímulo de manera que se responde a la primera relación.
Entrenaron a un grupo de ratas a realizar 2 respuestas instrumentales diferentes, cada una seguida por una con-
secuencia distinta. Posteriormente devaluaron el valor motivacional de una de las consecuencias emparejándolo
con malestar gastrointestinal en el caso de la comida. Después se le dio la oportunidad a los sujetos de dar las
dos respuestas entrenadas previamente, pero encontraron que las ratas respondían mucho mejor en la respues-
ta que se había entrenado en el entrenamiento inicial con la consecuencia que había sido devaluada que en la
otra respuesta. En términos coloquiales, la relación R-C se demuestra porque las ratas dejaron de realizar la
respuesta que les proporcionaba una comida que ahora les resultaba desagradable, centrando su esfuerzo en la
respuesta que todavía les proporcionaba una consecuencia apetitosa.
Modelo de relación jerárquica E(R-C).
Los seres vivos establecemos una relación jerárquica en la que la asociación respuesta-consecuencia depende
de la presencia o ausencia del estímulo discriminativo. En muchas ocasiones este tipo de aprendizaje discrimina-
tivo es consecuencia de un entrenamiento directo del sujeto, bien por la intención del experimentador o por la
determinación del mismo ambiente.

Programas de reforzamiento.
 Dentro del condicionamiento instrumental, el programa de reforzamiento es la regla o conjunto combinado
de reglas que determinan cuándo una respuesta del organismo va a ir seguida por una determinada conse-
cuencia. Esas reglas pueden venir determinadas por
 la propia naturaleza: nº de veces que tengo que lanzar una caña para conseguir un pez.
 por criterios artificiales: nº de monedas que tengo que introducir en una máquina tragaperras para con-
seguir un premio.
Programas de razón: el que una respuesta sea reforzada depende del nº de respuestas que dé el sujeto desde la
última vez que su respuesta fue reforzada (respuesta seguida por la consecuencia):
 Programas de reforzamiento de razón fija (RF). El nº de respuestas entre reforzadores es siempre el mismo
(trabajo a destajo, siempre va a conseguir lo mismo después de cada x tareas realizadas). Se caracteriza por
una tasa de respuesta elevada, pausas predecibles inmediatamente después de la consecución del reforza-
dor. Este comportamiento se conoce como carrera de razón. Una vez consigan el primer reforzador, se toma-
ran un respiro que se conoce como pausa postrreforzamiento, cuya duración tendrá una relación directa con
el número de respuestas que requiera cada reforzador. Una vez comience a responder, la respuesta tenderá
a ser alta y constante pues cada respuesta que se emite lo coloca más cerca del siguiente reforzador.
 Programas de reforzamiento de razón variable (RV). El nº de respuestas necesarias para obtener la conse-
cuencia varía de forma impredecible (máquinas tragaperras). la respuesta que va a ir seguida del premio es
impredecible, por lo que la tasa de respuesta que se observa es alta y constante, sin pausas predecibles.

Programas de intervalo: se refuerza la 1º respuesta que ocurra después de un intervalo de tiempo desde el
último reforzador.
 Programas de reforzamiento de intervalo fijo (IF). El tiempo que ha de transcurrir desde la última respuesta
reforzada para poder obtener el reforzador es siempre el mismo (entrega de trabajo académico en un de-
terminado plazo). Igual que en programa de razón fija, se observa también una pausa postrreforzamiento
que va seguida por un incremento gradual en la tasa de respuesta alcanzando su máximo en el momento en
el que el reforzador debería estar disponible de nuevo.
 Programas de reforzamiento de intervalo variable (IV). Se refuerza la primera respuesta que dé el organismo
después de transcurrido un tiempo impredecible desde que la última respuesta fue reforzada (realización de
controles de examen aleatorios).
 Programas de reforzamiento diferencial de tasa baja (RDTB). El intervalo entre respuestas del sujeto tiene
que superar un determinado criterio para obtener el reforzamiento (tratamiento de reducción del consumo
diario de tabaco).
 Programas de reforzamiento diferencial de tasa alta (RDTA). El intervalo entre respuestas del sujeto tiene
que ser inferior a un criterio determinado para que la respuesta vaya seguida por reforzamiento (bomba ma-
nual de agua).
Programas de reforzamiento encadenados.
 Programas de reforzamiento simples que el sujeto tiene que completar para obtener el reforzamiento final
(montaje de un ventilador).

Programas de reforzamiento concurrentes.


 Los programas de reforzamiento concurrentes son aquellos que se le ofrecen al mismo tiempo al organismo,
dándole la oportunidad de responder en una alternativa de respuesta u otra (zapping).
Permiten el estudio de la conducta de elección y de los factores que determinan que elijamos realizar una
cosa u otra.
 Estudio de la conducta de elección. La elección viene determinada por la naturaleza del reforzador, la dificul-
tad de las respuestas que conducen a cada reforzador y la facilidad en pasar de una respuesta a otra.

La ley de igualación (Herrnstein, 1970). Cuando los reforzadores son idénticos, las respuestas tienen dificultad
equivalente, el cambio de una respuesta a otra es fácil y rápido, y las dos alternativas de respuesta son inde-
pendientes (lo que haga con una alternativa no condiciona a la otra), la tasa relativa de respuesta en cada al-
ternativa iguala a la tasa relativa de reforzamiento en dicha alternativa de respuesta.

Funciones retroalimentadoras de los programas de reforzamiento.


La tasa de respuesta en los programas de reforzamiento. Las funciones retroalimentadoras como explicación
de las tasas de respuesta más altas obtenidas con los programas de razón que con los programas de intervalo.

En los programas de razón, a mayor nº de res-


puestas por minuto, mayor nº de reforzadores.
En los programas de intervalo, a mayor nº de
respuestas por minuto, mayor nº de reforzado-
res hasta el punto que aumentar el nº de res-
puestas no tiene ningún beneficio.

También podría gustarte