Está en la página 1de 51

TEMA 4 .1 ¿QUÉ ES EL CONDICIONAMIENTO INSTRUMENTAL?

1.- INTRODUCCIÓN (ESTUDIOS PIONEROS):

1.1.- Thorndike:

Fue uno de los primeros en estudiar el condicionamiento instrumental, el considera este


tipo de condicionamiento como una conducta intencionada.

El fue el primero en describir la “Ley del Efecto”, según esta ley, la repetición de una
respuesta depende de la consecuencia de esa respuesta, es decir, si las consecuencias son
positivas se daráun aumento en la repetición de la conducta y viceversa.

El comenzó a estudiar este tipo de condicionamiento a través de un experimento, en el


que encerraba a un gato en una caja y media el tiempo que este necesitaba para
escapar de dichacaja (VD).

En este ejemplo, podemos ver como el gato a través de muchos ensayos requiere cada
vez de menos tiempo, aunque es cierto que podemos ver algunos picos como en el
intento 10, pero eso es normal ya que se debe a la variabilidad que existe al hacer los
experimentos, pero de manera general, podemos observar una disminución en el tiempo
requerido y esto demuestra que el gato aprende a salir de la caja.

Los tres componentes del condicionamiento en el ejemplo son:

• Estímulo discriminativo: la caja.


• La respuesta: el gato le da a la palanca y de esta manera se abre la caja.
• La consecuencia: el gato puede escapar de la caja y ser libre.

1.2.- Skinner:

Es otra de las figuras mas importantes del condicionamiento instrumental, este autor
estaba completamente disconforme con lo que había establecido Thorndike, una de las
razones era que Skinner pensaba que la manera en la que las respuestas habían sido
estudiadas no era una manera natural de estudiar estas respuestas. Por ejemplo, en el
caso de la caja y el gato, la respuesta instrumental de darle a la palanca para así poder
salir de la caja solo podía ser realizada por el gato una vez por ensayo, aquí podemos ver
como es una manera muy poco natural de responder, ya que por ejemplo en el
mundo real, en cualquier situación, nosotros podemos responder cuantas veces
queramos o podamos, pero no solo una, no existen restricciones en la manera que
nosotros respondemos.

Por lo que Skinner introdujo el término de “free-operant behaviur, el cual se refiere a


que por ejemplo el gato podría responder cuantas veces quisiera. Es por ello que el
diseño un nuevo experimento, la caja de Skinner, en la que la rata podía pulsar cuántas
veces quisiera el pulsador, en este caso para obtainer comida.
Otra cosa interesante, es que Skinner no le gustaba llamarlo condicionamiento
instrumental, el prefiera llamarlo condicionamiento operante. La diferencia era que el
pensaba que el término “operante” era un término menos mental, más neutro, y es que el
pensaba que no era necesario establecer un nombre muy complejo para explicar al fin y
al cabo lo que es la conducta.

El desarrolló una manera en la que se registrasen los datos de lo que hacía la rata, sin la
necesidad de estar el presente, y este instrumento es conocido como “el registro
acumulativo”, el cual se encarga de registrar automáticamente las respuesta del animal.
La manera en la que funciona esta máquina es con un rollo de papel que esta
conectado a una máquina y un boli sobre este papel, este boli esta conectado con la
palanca de la caja de manera que cuando el animal pulsa la palanca, este boli se mueve
verticalmente y sube como un escalón, mientras que si la rata no realiza ninguna
respuesta, el boli sigue haciendo una ralla horizontal. Dependiendo de la rapidez de la
respuesta de la rata, la pendiente de esta línea será de una manera o de otra.

En definitiva, esto nos permitía registrar la adquisición del condicionamiento


instrumental, o incluso la extinción del mismo, por ejemplo, si dejamos de proveer
comida cuando la rata pulse la palanca, esa respuesta instrumental se verá disminuida
hasta tal punto que desaparezca. (aquí veríamos una línea horizontal continua en la
máquina de Skinner.

2.- LOS ELEMENTOS DEL CONDICIONAMIENTO INSTRUMENTAL:

Existen tres elementos en este tipo de condicionamiento, el estímulo discriminativo, la


respuestay la consecuencia.

2.1.- El estímulo discriminativo:

Es un estímulo que indica si la respuesta que estamos entrenando (respuesta


instrumental), llevará a la consecuencia o a la recompensa. Porque por ejemplo una
misma respuesta puede provocar diferentes consecuencias dependiendo del estímulo
discriminativo.

Por ejemplo, imagínate que dices una frase muy amorosa y dulce delante de tu novio,
no tendría el mismo sentido decirlo delante de tu padre o de otra persona. Por lo que

3
la consecuencia de una respuesta particular dependerá de cual sea el estímulo
discriminativo ante el que estemos presente, es por ello que es muy importante saber
cuál es el estímulo discriminativo de una respuesta.

En particular, cuando hemos adquirido un hábito (hemos repetido muchas veces esa
respuesta) el estímulo discriminativo es capaz de hacer que el animal realice
automáticamente la respuesta, y esto ocurre incluso si no nos gustan las consecuencias.

Por ejemplo: imagina que una persona tiene un problema con el alcohol, va por la calle
y huele el olor a alcohol al pasar por delante de un bar, el olor (el estímulo
discriminativo) sería capaz por si mismo (si es alcohólica la persona) de hacer que esa
persona vaya a beber, aunque esta no quiera, es por este problema que es muy difícil
eliminar los problemas de adicciones.

2.2.- La respuesta:

La respuesta es definida por su efecto en el ambiente, es por ello que por ejemplo
aunque dos respuestas sean diferentes pueden ser consideradas una misma respuesta si
provocan el mismo efecto en el ambiente. Por ejemplo, tu puedes conseguir una misma
recompensa a través de diferentes respuestas.

Por ejemplo en el caso de la caja de Skinner, si dos ratas utilizan diferentes respuestas
para pulsar la palanca, por ejemplo una utiliza la boca y otra la pata, aunque sean dos
respuestas diferentes, si a través de ambas se consigue la misma recompensa, se
consideran respuestas idénticas.

En el laboratorio de condicionamiento instrumental, podemos entrenar respuestas


complejas, y disponemos de dos técnicas para hacerlo y estas son:

• Moldeamiento: se refiere a la recompensa de aproximaciones sucesivas a un


comportamiento objetivo. Por lo que moldeamos poco a poco hasta llegar a la respuesta
que tenemos como objetivo y vamos recompensando cada una de estas aproximaciones
sucesivas a este comportamiento objetivo.

En el ejemplo del video, podemos observar como en primer lugar a la rata se le


recompensa con comida con solo aproximarse a la palanca, más tarde se le recompensa
solo cuando olisquea la palanca, en un tercer lugar cuando la toca, y por último cuando
la presiona.

4
• Encadenamiento: Se trata de un proceso por el que se enlazan comportamientos
empezando por el último de la cadena.

En el ejemplo del video podemos observar a una niña autista, que está siendo entrenada
por su madre para aprender a lavarse las manos. Veremos cómo guía a la niña para
completar toda la secuencia que debemos hacer para lavarnos las manos, coger el jabón,
abrir el grifo, enjabonarse las manos, aclararlas, secarlas… (son muchas respuestas
encadenadas). En este caso como recompensa se le presentan caramelos.

En el primer ensayo, vemos cómo reproduce con ella toda la secuencia, menos la
última, la de secarse las manos, que debe hacerlo la niña por su cuenta. Se le
recompensa. En el segundo ensayo vemos como vuelve a realizar la secuencia con ella,
esta vez, dejándole los dos últimos pasos, aclararse y secarse las manos por su
cuenta, una vez más se le recompensa. En el tercer ensayo, reproducirá toda la
secuencia con la niña, menos las tres últimas acciones, enjabonarse, aclararse, y secarse
las manos. Nuevamente se le recompensará. De esta manera procederemos
sucesivamente hasta que se realice todo el proceso de forma individual.

2.3.- La consecuencia:

Es el último elemento, y podemos distinguir entre los reforzadores y los castigos.


REFORZADORES:

Son los estímulos que provocan o conducen a una mayor probabilidad de una respuesta
en el futuro, es decir, estos reforzadores aumentan la probabilidad de que una respuesta
se dé y vuelva a repetirse en el futuro. Estos reforzadores, pueden ser primarios o
secundarios.

• Los primarios: son estímulos relacionados con una necesidad biológica del sujeto
como puede ser la comida o el sexo, todos estos reforzadores primarios, pueden ser
considerados como EI apetitivos.
• Los secundarios: son aquellos que naturalmente no tienen un valor reforzador, pero
cuando estos son asociados (a través de condicionamiento clásico por ejemplo) con
reforzadores primarios, estos adquieren sus propios valores reforzadores, por ejemplo el
dinero, biológicamente no tiene ningún valor, pero cualquiera de nuestras necesidades
biológicas si que pueden ser asociadas con el dinero, por ejemplo la comida, por lo
cuando se produzca esta asociación este adquirirá su propio valor reforzador el cual,

5
antes por si solo no tenía.

Por otro lado, el término de contraste positivo es también un reforzador para el


individuo cuando se espera recibir una menor cantidad de recompensa, y recibes una
mayor. Si por ejemplo eres una rata, y estas en una caja y cada vez que presionas la
palanca recibes 1 porción de comida, si por alguna razón el experimentador cambia la
situación y en vez de 1 porción de comida, la rata recibe 2. Este es el contraste positivo.

CASTIGOS:

Son totalmente lo contrario, son aquellos que conducen a una menor probabilidad
de que serepita una respuesta en el futuro.

En este caso el contraste negativo, hace referencia a que esperas una mayor cantidad
de recompensa, pero, sin embargo, recibes menos.

3.- TIPOS DE CONDICIONAMIENTO INSTRUMENTAL:

Podemos distinguir entre 4 tipos de condicionamiento instrumental:

¿Qué significa reforzamiento? Significa que una vez que se ha producido el


entrenamiento aumentará la probabilidad de que se dé la respuesta o el comportamiento
en el futuro.

Tenemos dos formas en las que podemos obtener un reforzamiento. Tenemos una
versión:

• Reforzamiento positivo: Se refiere a que después de la respuesta, el reforzamiento


tendrá lugar, y lo que aparece en tu entorno será agradable para ti. Tiene como objetivo
que esa repuesta se vuelva a producir en un futuro. (Contingencia positiva entre la

6
respuesta y la consecuencia).

Ejemplo: Un padre le da a su hija una galleta cuando guarda sus juguetes; un profesor
elogia a un estudiante cuando éste entrega un buen informe; un empleado recibe un
bono en su cheque cuando se desempeña bien en el trabajo. Todos esos son ejemplos de
reforzamiento positivo. El reforzamiento positivo es un procedimiento en el que la
respuesta instrumental produce un estímulo apetitivo. Si la respuesta ocurre, se
presenta el estímulo apetitivo; en caso contrario no se presenta. Por consiguiente,
existe una contingencia positiva entre la respuesta instrumental y el estímulo apetitivo.
Los procedimientos de reforzamiento positivo producen un incremento en la tasa de
respuestas. Requerir que una rata hambrienta presione una palanca para obtener una
pellaes un ejemplo de reforzamiento positivo que es común en el laboratorio.

• Reforzamiento negativo: Si después de la respuesta se elimina algo “desagradable” y


como consecuencia nuestro comportamiento aumenta en un futuro estaremos llevando a
cabo un reforzamiento negativo. Si por ejemplo nos dan mucho miedo los perros y
vamos andando por la calle y vemos que hay un parque donde creemos que hay perros,

probablemente evitaremos ese parque, así que esa respuesta de evitar el parque es un
reforzamiento negativo, porque por hacer eso eliminamos el enfrentamiento a los
perros, y repetiremos ese comportamiento que tiene como consecuencia la eliminación
de algo que es malo para nosotros. (Contingencia negativa entre la respuesta y la
consecuencia).

Ejemplo: Abrir un paraguas para impedir que la lluvia lo moje, subir la ventana del
automóvil para reducir el viento que entra y ponerse los lentes de sol para protegerse
del brillo del sol de verano son ejemplos de reforzamiento negativo. En todos esos
casos, la respuesta instrumental termina un estímulo aversivo. Por lo tanto, existe una
contingencia negativa entre la respuesta instrumental y el estímulo aversivo. Los
procedimientos de reforzamiento negativo incrementan la respuesta instrumental. Es
más probable que se abra el paraguas si eso impide que uno se moje cuando llueve. La
gente tiende a confundir el reforzamiento negativo con el castigo. En ambos
procedimientos se emplea un estímulo aversivo. Sin embargo, la relación de la
respuesta instrumental con el estímulo aversivo es del todo diferente. En los
procedimientos de castigo, la respuesta instrumental produce el estímulo aversivo y la
contingencia entre la respuesta instrumental y el estímulo aversivo es positiva. En

7
contraste, en el reforzamiento negativo la respuesta termina el estímulo aversivo y
existe una contingencia negativa entre respuesta y resultado. Esta diferencia en la
contingencia produce resultados muy diferentes. El castigo disminuye la respuesta
instrumental mientras que el reforzamiento negativo la incrementa.

¿Qué significa castigo? Significa que una vez que se haya producido el
entrenamiento habrá una disminución en la probabilidad de que se dé la respuesta o el
comportamiento en el futuro.

Tenemos dos formas en las que podemos obtener un castigo. Tenemos una versión:

• Castigo positivo: Se refiere a que después de la respuesta, el castigo tendrá lugar, pasará
algo aversivo que no nos gustará. Tiene como objetivo que disminuya la probabilidad
dela respuesta en un futuro.

Una madre regaña a su hijo por correr en la calle; su jefe lo critica por llegar tarde a una
reunión; un maestro le asigna una calificación reprobatoria por dar una respuesta
incorrecta a muchas preguntas del examen. Esos son ejemplos de castigo. En un
procedimiento de castigo, la respuesta instrumental produce un evento desagradable o
aversivo. Existe una contingencia positiva entre la respuesta instrumental y el estímulo
resultante (la respuesta produce el resultado), pero el resultado es un estímulo aversivo.
Los procedimientos eficaces de castigo producen una disminución en la respuesta
instrumental.

• Castigo negativo o entrenamiento por omisión: En este caso nuestro comportamiento


disminuirá como consecuencia de que ha desaparecido algo “bueno” para nosotros,
después de realizar el comportamiento.

Imaginemos que tenemos 7 años, estamos sentados en navidad en la mesa, y cada


cucharada de sopa que cogemos, se la lanzamos a nuestro tío a la cara y nuestra madre
nos castiga por ese comportamiento, la consecuencia que obtengo es que, si vuelvo a
tirarle sopa al ojo a mi tío, me quedaré sin postre.

El entrenamiento por omisión es utilizado cuando a una niña se le ordena ir a su


habitación después de cometer una travesura. La niña no recibe un estímulo aversivo
cuando se le dice que vaya a su cuarto, No hay nada aversivo en la habitación de la niña.
Más bien, al enviarla a su cuarto el padre está retirando fuentes de reforzamiento

8
positivo, como jugar con las amigas o ver televisión. Suspenderle a alguien la licencia
de conducir por hacerlo ebrio también constituye un entrenamiento por omisión (retirar
el placer y el privilegio de conducir).

En este tipo de entrenamiento, la respuesta instrumental impide la entrega de un


estímulo placentero o apetitivo. Por consiguiente, este procedimiento también implica
una contingencia negativa entre la respuesta y un evento ambiental. Frecuentemente se
prefiere al entrenamiento por omisión para desalentar la conducta humana, pues a
diferencia del castigo, no supone la entrega de un estímulo aversivo.

Los procedimientos del entrenamiento por omisión también se denominan


reforzamiento diferencial de otra conducta (RDO). Dicho término destaca el
hecho de que en el entrenamiento por omisión el individuo recibe de manera periódica
el estímulo apetitivo siempre y cuando realice una conducta distinta a la respuesta
especificada por el procedimiento. Emitir la respuesta objetivo tiene como resultado la
supresión de la recompensa que se habría entregado si el individuo hubiese realizado
otra conducta. Por consiguiente, el entrenamiento por omisión implica el reforzamiento
de otra conducta.
CONCEPTOS:

• Positivo: quiere decir que después de ejecutar la respuesta algo va a aparecer o ocurrir
en tu entorno, es decir, existe una contingencia positiva entre la respuesta y la
consecuencia, si haces uno, aparecerá el otro.
• Negativo: existe una contingencia negativa entre la respuesta y la consecuencia, es
decir, cuando hacemos una cosa, y debido a eso, hacemos que la consecuencia no
ocurra.
EJEMPLO A MODO DE CURIOSIDAD:

La conducta autolesiva es un hábito problemático que resulta evidente en algunos


individuos con discapacidades en el desarrollo. Bridget era una mujer de 50 años con un
retardo mental profundo cuya conducta autolesiva consistía en golpearse en el cuerpo y
azotar la cabeza contra los muebles, paredes y pisos. Las evaluaciones preliminares
indicaron que la conducta de golpearse la cabeza era mantenida por la atención que
recibía de los demás cuando azotaba la cabeza contra una superficie dura. Para
desalentar la conducta autolesiva se puso en práctica un procedimiento de

9
entrenamiento por omisión o RDO.

Los procedimientos de entrenamiento se llevaron a cabo en sesiones de 15 minutos.


Durante la fase de entrenamiento por omisión, Bridget era ignorada cuando se
golpeaba la cabeza contra una superficie dura, pero recibía atención periódicamente si
no lo hacía. La atención consistía en que el terapeuta le hablara de tres a cinco
segundos y ocasionalmente le diera una palmadita en el brazo o la espalda. Los
resultados del estudio se presentan en la figura 5.7. Durante las primeras 19 sesiones,
cuando Bridget recibía atención por su conducta autolesiva, la tasa de los golpes en la
cabeza fluctuaba alrededor de seis respuestas por minuto. La primera fase del
entrenamiento RDO (sesiones 20-24) tuvieron como resultado un rápido descenso de los
golpes en la cabeza. La conducta autolesiva reapareció en las sesiones 25-31, cuando se
reintrodujo la condición de línea base. El entrenamiento RDO se reanudó en la sesión
32 y permaneció en efecto por el resto del estudio. El resultado importante del estudio
fue que la conducta autolesiva disminuyó de manera significativa durante las sesiones
con el RDO.

El estudio con Bridget ilustra varios principios conductuales que también son evidentes
en otras situaciones. Un principio general es que la atención es un reforzador muy
poderoso para la conducta humana.

Pueden desarrollarse, incluso, respuestas que son nocivas para el individuo si dichas
respuestas son reforzadas positivamente con atención. Desafortunadamente, es difícil
ignorar algunas respuestas, pero al atenderlas se puede estar proporcionando
reforzamiento positivo.

10
Es difícil ignorar a un niño que se porta mal en una tienda o en un restaurante, pero
prestarle atención puede alentar la mala conducta. Muchas formas de conducta
perturbadora se desarrollan por la atención que reciben. Como en el caso de Bridget, la
mejor terapia consiste en ignorar la conducta perturbadora y prestar atención cuando el
niño hace otra cosa, aunque no es sencillo reforzar deliberadamente otra conducta, ya
que se requiere esfuerzo consciente y disciplina por parte del padre o el maestro.

4.- FACTORES QUE FAVORECEN LA ADQUISICIÓN:

4.1.- Contigüidad temporal entre la respuesta y la consecuencia:

Como vimos en el condicionamiento clásico la contigüidad, en este caso, entre la


respuesta y la consecuencia es muy importante para el condicionamiento instrumental.

Recordemos que en el condicionamiento clásico debía haber muy poco tiempo entre
el EC y el EI, pero aquí la relación será entre la respuesta y la consecuencia, por lo que
para que el condicionamiento instrumental tenga lugar la consecuencia o
recompensa debe de serpresentada inmediatamente después de la respuesta.

A continuación, para comprender el gráfico recordemos el experimento de la caja de


Skinner con la rata, en la cual la rata al pulsar la palanca obtenía comida.

Ahora bien, en este gráfico se muestran tres situaciones diferentes, por un lado la
curva del medio representa los 4 segundos existen entre que la rata pulsa la palanca y
recibe la recompensa, la superior de esta, representa como inmediatamente tras la rata

11
presionar la palanca recibe la recompensa, y por último la línea que se encuentra por
debajo de estas dos representa los 10 segundos que tarda el experimentador en
proporcionarle la recompensa a larata tras esta haber presionado la palanca.

Como podemos observar la recompensa inmediata es mucho más eficiente que la


recompensa retrasada para el condicionamiento instrumental, es decir, las recompensas
inmediatas son muy efectivas para establecer un condicionamiento instrumental, las
recompensas con mucho retraso no lo son.

Por otro lado, cabe mencionar, el término autocontrol, que hace referencia a la
disposición de un individuo a renunciar a una pequeña recompensa inmediata (se
controla ante una recompensa inmediata) a favor de una recompensa futura más grande
(espera a una recompensa con mayor retraso).

Para esto se llevó a cabo un experimento con niños, en el que se les ponían un caramelo
delante durante un tiempo determinado y dónde se les decía que podían comérselo en el
momento, pero que si esperaban en vez de uno tendrían dos. El experimentador,
pudo seguirles la pista a los niños con los que se llevó a cabo el experimento y llegó
a la conclusión de que aquellos niños que fueron capaces de controlarse sin comerse el
caramelo tenían mejores resultados académicos además de resultados más exitosos a la
hora de tener un trabajo…

4.2.- Contingencia o correlación entre la respuesta y la consecuencia:

En el condicionamiento instrumental, la contingencia es calculada por la diferencia de


la probabilidad de una recompensa dada por una respuesta menos la probabilidad de la
misma recompensa con la ausencia de esa respuesta:

P (RECOMPENSA/RESPUESTA) - P (RECOMPENSA/SIN RESPUESTA)

Por lo tanto, necesitamos que el individuo aprenda que es la respuesta la que produce la
recompensa. Por ello necesitamos que esa contingencia sea alta y positiva. (Siendo la
probabilidad de la recompensa sin una previa respuesta cercana a 0)

Para un aprendizaje instrumental adecuado, el sujeto tiene que aprender que la respuesta
es la mejor herramienta para obtener el reforzador.

Así que aquellas recompensas libres (aquellas que se han dado sin que haya una
respuesta previa) son muy perjudiciales para el aprendizaje instrumental adecuado,

12
debido al deterioro contingente, por que de esta manera aumentaría la probabilidad de
que se de la recompensa sinla respuesta.

¿QUÉ PASA CUANDO HAY UNA NULA CONTINGENCIA ENTRE LA


RESPUESTA Y LA CONSECUENCIA, Y ADEMÁSLA CONSECUENCIA
ES UN ESTÍMULO AVERSIVO?

En otras palabras, ¿qué pasaría si hagas lo que hagas, es decir, hagas o no hagas la
respuesta, recibes un estímulo aversivo?

Pues precisamente esto es lo que se plantearon dos científicos hace ya algunos años y
descubrieron lo que se conoce por “el efecto de indefensión aprendida”, este es un
efecto muy importante en la psicología del aprendizaje.

EXPERIMENTO DEL EFECTO DE INDEFENSIÓN APRENDIDA:

A continuación, veremos el experimento original que fue llevado a cabo con perros,
pero que ha sido replicado de muchas maneras y todos coinciden con los mismos
resultados.

El experimento fue llevado a cabo con tres grupos de perros (el diseño triádico), en el
que todos fueron sometidos a dos tareas, una primera tarea denominada pre-exposición
y la otra el condicionamiento.

En primer lugar, tenemos al “Escapable Group”, los animales de este grupo en la


primera tarea fueron expuestos a un shock eléctrico, el cuál podía ser evitado, si los
animales realizaban la respuesta instrumental, por ejemplo pulsando una palanca.

En segundo lugar, tenemos al “Yoked Group”, los animales de estos grupos también
recibían un shock eléctrico al mismo tiempo que los animales del “Escapable Group”
lo recibían, pero para estos animales estos shocks eran inevitables, porque daba igual lo
que hiciesen que no podían evitarlo ni escapar.

13
Por último, tenemos el grupo control, que simplemente estaban expuestos al aparato,
pero no recibían ningún shock ni nada por el estilo. A partir de aquí, todos los grupos
cambiaron de tarea, a una similar, sin embargo, en esta ocasión los tres grupos de
perros recibían un shock eléctrico, pero el cual todos podían evitar.

Los resultados que se obtuvieron hacen referencia a como de bien o cómo de mal
aprendieron esta segunda tarea de condicionamiento.

RESULTADOS:

El primer grupo de perros, fueron capaces de aprender esta segunda tarea muy rápido.
Es decir, adquirieron la respuesta instrumental rápidamente para así evitar el shock. El
grupo control, también adquirieron la respuesta instrumental para evitar el shock
rápidamente.

No pasó lo mismo con el segundo grupo, difícilmente pudieron aprender esta segunda
tarea. Las dificultades de este segundo grupo no estaban basadas únicamente en
dificultades cognitivas, sino que estaba producidas a su vez por un déficit de motivación
y emocional.

¿POR QUÉ ESTOS ANIMALES DEL SEGUNDO GRUPO PRESENTABAN


TODOS ESTOS DÉFICITS?

La explicación que los investigadores dieron fue la hipótesis de indefensión


aprendida, ya que aprendieron que:

• Los shocks eran independientes a su comportamiento.


• Y concluyeron que esa independencia continuaría con respecto a su comportamiento en
el futuro.

Asumieron que los shocks no podían ser evitados de ninguna forma, y por eso los
pobres perritos abandonaron todos sus esfuerzos por evitarlos.

LEARNED HELPLESSNESS SYMPTOMS DEPRESSION SYMPTOMS

− Motivational: lack of responses − Motivational: submissive, apathy


− Cognitive: difficulties for new learning Lack of − Cognitive:negative thoughts Self-directed hostility
aggressiveness
− Weight and appetite loss Difficulties in social
− Weight and appetite los
relationships
− Difficulties in social relationships

14
Actualmente se ha investigado que existe cierto paralelismo entre los síntomas
asociados a este efecto de indefensión aprendida y los síntomas asociados a un tipo
particular de depresión llamada depresión reactiva, esta depresión aparece después de
una experiencia traumática, como por ejemplo la muerte de un familiar. Estos síntomas
son tanto motivacionales, cognitivos, sociales…

Es por ello por lo que se cree, que detrás de este tipo de depresión podría estar el
aprendizajepor impotencia, al no poder controlar ciertas experiencias.

4.3.- Relevancia o pertinencia:

Debe haber una coherencia entre la naturaleza de la respuesta y la naturaleza de la


consecuenciade otra manera si no, no tendremos un condicionamiento instrumental.

Podemos enseñarles a los animales cosas extraordinarias y complejas como, por


ejemplo, ratas que aprenden a jugar al baloncesto, cerdos que aprenden a ir al
supermercado sin embargo los investigadores descubrieron lo que se conoce por la
interferencia de la “deriva instintiva”, a través de un experimento que salió mal.

Intentaron enseñarle a un cerdo una respuesta muy simple, meter una moneda dentro de
una hucha. Pero el animal no pudo aprenderlo, lo intentaron de todas las maneras, con
distintos cerdos… pero ninguno aprendió esa aparente simple respuesta.

Todo esto pareció sorprendente ya que como hemos mencionado anteriormente, los
cerdos por ejemplo son capaces de aprender cosas mucho más complicadas que esta.

¿POR QUÉ PASABA ESTO?

Bueno pues ¿Cómo enseñaron al cerdo a introducir la moneda en la hucha? Lo hicieron


en dos fases diferentes. En la primera fase utilizaron el condicionamiento clásico,
intentaron que los animales asociasen la moneda con comida.

Y una vez que consiguieron eso, utilizaron el condicionamiento instrumental,


intentaron enseñarles a los animales a coger la moneda con sus hocicos y meterla en la
hucha, pero no pudieron

Lo que observaron es que los cerdos intentaban morder la moneda o tragársela, y lo que
había detrás de este experimento fallido, es lo que denominaron la interferencia de la

15
“deriva instintiva”, que se basa en la idea de que cuando intentas enseñarle a alguien
una respuesta que es incompatible con el instinto de reacción de los participantes, no
puedes enseñarle esa respuesta instrumental. Porque los experimentadores pretendían
que lanzasen la moneda, pero la moneda estaba previamente asociada con la comida, por
lo que no iban a aprender a tirar la comida, por que existía una contradicción entre la
respuesta instrumental objetivo y el instinto del animal.

5.- LA EXTINCIÓN DEL CONDICIONAMIENTO INSTRUMENTAL:

La extinción es una disminución progresiva en la respuesta cuando la respuesta


instrumental deja de ser seguida por la consecuencia.

Existen algunos efectos paradójicos en la extinción de la respuesta instrumental (como


paradójicos nos referimos a que los efectos que ocurren no son para nada esperados,
es decirque no nos podemos creer que sean ciertos):

• Efecto de sobre-entrenamiento: Cuánto más entrenamiento se proporcione con


refuerzo,más rápida será la extinción.

Ejemplo: Imaginemos que tenemos dos situaciones de condicionamiento instrumental.


En la primera de ellas, hacemos muchos ensayos de entrenamiento y en la segunda muy
pocos. La extinción se dará más rápidamente en la situación más entrenada.

• Efecto de la magnitud del reforzamiento: La repuesta disminuye más rápidamente


en laextinción después del refuerzo con un refuerzo más grande.

Ejemplo: Imaginemos que tenemos dos condicionamientos instrumentales. En la


primera situación tenemos una rata a la que se le dan dos porciones de comida cada
vez que pulse la palanca y en la otra condición tenemos a otra rata a la que solo
se le da una porción de comida tras pulsar la palanca. La extinción será más rápida
en la rata que recibe dos porcionesde comida.

EL EFECTO DEL REFORZAMIENTO PARCIAL:

Para describir este efecto explicaremos un experimento que se llevó a cabo.

16
Este experimento (estudio del laberinto) fue llevado a cabo por ratas bebés, el
reforzamiento era leche, y la respuesta que se registraba era la velocidad a la que corrían
las ratas en un simple corredor recto.

Sin embargo, hay dos diferentes situaciones experimentales.

En una de las condiciones las ratas bebes recibían la leche después de cada respuesta.
Cada vez que las ratas iban de una punta del corredor a la otra, recibían la leche. Este
reforzador es continuo.
Pero en la otra condición experimental las ratas bebes recibían leche, pero no en todos
los ensayos. Algunas veces encontraban leche y otras no.

Estos fueron los resultados de ambas condiciones experimentales:

En la parte izquierda del gráfico tenemos la fase de Adquisición para los dos grupos de
ratas. El reforzamiento continuo está representado con círculos negros y los círculos
blancos representan larespuesta de las ratas ante el reforzamiento parcial.

Cómo podemos observar hay un incremento en la velocidad de las ratas en las dos
condiciones alcompletar el entrenamiento completo.

De repente en un punto, comenzamos la fase de extinción en la cual las ratas no


recibirán ninguna recompensa, no recibirán leche. Cuando las ratas han sido entrenadas
previamente con un reforzamiento continuo, podemos ver que la extinción es más
rápida que cuando se ha utilizado un reforzamiento parcial. Por lo que, si entrenamos un
comportamiento con un reforzamiento parcial, esa respuesta será más difícil de
extinguir.

CONCLUSIÓN:

• Un entrenamiento con reforzadores parciales tiene una extinción más lenta.


• Un entrenamiento con reforzadores continuos tiene una extinción más rápida.

17
5.1.¿Por qué estos efectos paradójicos?:

Veremos ahora algunas explicaciones de estos efectos:

5.1.1.- La teoría de la frustración (Amsel):

De acuerdo con esta hipótesis, el no recibir un reforzador es frustrante para los


participantes:

Cuanto mayor sea la expectativa del reforzador, más frustración producirá su ausencia,
y la extinción será más rápido. De esta manera entendemos el efecto del sobre-
entrenamiento porque tenemos un entrenamiento más largo, una mejor expectativa una
mayor experiencia con el reforzador...

Gracias a esta teoría también podemos entender el efecto de la magnitud del


refuerzo, porque si estamos acostumbrados a recibir un reforzador muy bueno, y
tenemos esa expectativa en el momento en el que desaparezca la extinción será más
rápida.

El efecto del reforzamiento parcial también podemos explicarlo por esta teoría porque
si hemos sido entrenados con el reforzamiento parcial, y no hemos sido recompensados
consistentemente después de realizar una respuesta nos habremos acostumbrado a sentir
cierto grado de frustración, porque ha sido lo que hemos estado aprendiendo durante la
fase de adquisición.

Y si ahora no recibimos ningún reforzador, como hemos aprendido que unas veces sí,
unas veces no, estaremos acostumbrados y por tanto la extinción será más lenta.

5.1.2.- La teoría secuencial (Teoría sobre la memoria) (Capaldi):

Esta solo explica el efecto del reforzamiento parcial.

De acuerdo con esta teoría sobre la memoria, los participantes pueden recordar si fueron
reforzados o no en el pasado reciente. Por lo tanto, en el refuerzo parcial, la memoria de
no recompensa se convierte en una señal para la disponibilidad del reforzador en un
ensayo posterior. Ya que al recordar que a veces recibías recompensa y a veces no,
siempre tienes esa esperanza y por lo tanto persistes en las respuestas. Y es por esto, que
resulta más complicado extinguir una respuesta la cuál ha sido entrenada por un
reforzador parcial.

18
TEMA 4.2: PROGRAMAS DE REFORZAMIENTO, COMPORTAMIENTO
DE ELECCIÓN Y REGULACIÓN DEL COMPORTAMIENTO:
1.- PROGRAMAS DE REFORZAMIENTO:
La idea de los programas de reforzamiento es que para obtener un condicionamiento
instrumental no es necesario reforzar o proporcionar siempre una recompensa después de
cada respuesta, es decir, la recompensa no tiene que ser presentada siempre para que
ocurra el condicionamiento instrumental, y es que así es como ocurre en la vida real,
nosotros no obtenemos una recompensa cada vez que realizamos una determinada
conducta pero aunque esto ocurra así, si que existe un condicionamiento instrumental.

En el reforzamiento continuo todas las respuestas instrumentales son reforzadas, por


ejemplo, imaginemos que somos ratas y cada vez que presionemos la palanca recibiremos
comida.

Por otro lado, tenemos el reforzamiento parcial o intermitente, en el cual no todas las
respuestasvendrán acompañadas de una recompensa, si somos ratas, por ejemplo, cuando
presionemos la palanca, habrá veces que recibamos comida y otras que no. Por lo que
para saber cuándo una respuesta recibirá una recompensa o no, necesitaremos establecer
un criterio o una regla.

A continuación, hablaremos de cuatro alternativas básicas del programa de reforzamiento


continuo, comentaremos 4 alternativas basadas en el programa de reforzamiento parcial:

• Programa de razón: En este caso la recompensa será presentada después de que un


número concreto de respuestas instrumentales hayan tenido lugar. Habrá que completar
una serie de respuestas para que se produzca la recompensa. (el número de respuestas
tiene que ser mayor que 1; ya que si fuera uno estaríamos hablando de reforzamiento
continuo)

- Razón Fija: El número de respuestas que debemos de emitir siempre será el mismopara
obtener el reforzamiento. Si tenemos una razón de 3, la recompensa no vendráni con la
primera, ni con la segunda respuesta, sino con la tercera.

- Razón Variable: Si tenemos una razón variable de 3, significará que en general la


recompensa vendrá en la tercera respuesta, pero a veces la recompensa vendrá al pulsar
dos veces, otras cuatro, otras cinco, pero nunca estarás seguro al 100% de cuando vendrá.

1
Pero si obtenemos la media del número de respuestas que se han dado, ese número será
3.
• Programa de intervalo: Este otro criterio no está basado en el número de respuestas que
debe darse, sino en el tiempo, es decir, este criterio establece el periodo de tiempo que se
tendrá que esperar entre la obtención de un reforzador y otro (Criterio temporal). En este
caso la recompensa no se presentará siempre, sino que lo hará en un cierto intervalo de
tiempo desde la última vez que se presentó.
• Intervalo Fijo: Siempre será el mismo tiempo de espera.
• Intervalo Variable: El tiempo va variando, a veces es cada 1 minuto, cada 30
segundos …

Ej: Una rata es recompensada cuando presiona la barra, pero el programa de intervalo
fijo es de 1 minuto, esto significa que cuando presione la barra, tendrá que esperar un
minuto poder obtener la recompensa, por lo que, si durante ese minuto la presiona, no
obtendrá nada. Aunque debemos de recordar que no basta con que haya concluido el
intervalo fijo para que se presente el reforzamiento; una vez que concluye ese intervalo
el reforzamiento está disponible, pero el organismo debe responder para obtenerlo, por
lo que en este casola rata tendrá que volver a presionar la barra para obtener el
reforzador.

2.- COMPARACIÓN ENTRE PROGRAMAS DE RAZÓN Y DE INTERVALO:

RF (programa de razón fija): Una de las propiedades es que la tasa de respuesta puede
ser inestable en este tipo de programas cuando la proporción de respuestas requeridas es
alta, es decir, que ante un número muy alto de respuestas requeridas para obtener el
reforzador, la tasa derespuesta del sujeto no será estable. (se dará lo que se conoce como
pausa posreforzamiento)

Por ejemplo: hubo un experimento donde una paloma tenía que picar x veces en una luz
para obtener el reforzador. En el primer caso el RF es 50, lo que significa que la paloma
teniaque picotear 50 veces la luz para obtener el reforzador, y como podemos ver se puede
considerar que la tasa de respuesta es mas o menos estable y constante, ya que no podemos
ver ninguna parada en el comportamiento de la paloma, porque esas paradas se
representarían como lineas horizontales en la gráfica y no es el caso.

2
¿Qué ocurre si aumentamos la demanda?, por ejemplo, en el segundo caso vemos que se
ha duplicado las respuestas requeridas, siendo 100 RF, en este caso podemos ver cómo
existenpequeñas líneas horizontales, por lo que podemos observar que si aumentamos la
demanda podemos observar pequeñas paradas en el comportamiento de la paloma. Y
ya en el casode que aumentemos la demanda a 150 RF, podemos ver cómo existen
mayores paradas del comportamiento (flechas azules) de la paloma, es decir, de manera
temporal la paloma dejar de picotear.

En el último caso, podemos observar cómo existen lineas verticales (puntitos) muy chicas
antes de cada parada, que representan cuando se le ha entregado el reforzador al animal,
deesta manera justo después de recibir el reforzador, el animal se quedará un rato parado,
esto se conoce como la pausa posreforzamiento. Por esto podemos ver como la tasa de
respuesta es inestable, porque a veces tras haber entregado el reforzador la paloma
empiezade nuevo a picotear rápido y no hay pausa, o pasa todo lo contrario, y la paloma
espera un determinado tiempo antes de volver a picotear de nuevo.

Es como que acaba de obtenerlo y sabe que tendrá que trabajar mucho otra vez para
obtenerlo, por lo que todavía no tiene motivación para empezar, no tiene ganas, no es
queno lo necesite porque por ejemplo en el caso que fuera comida el reforzador, a lo
mejor la paloma si que tiene hambre, pero como no tiene motivación para hacerlo se
tomará una pausa y ya después cuando tenga la motivación necesaria comenzará de
nuevo.

IF (programa de intervalo fijo): Nuevamente, la tasa de respuesta puede ser inestable


en los programas de intervalo fijo, cuando el intervalo de tiempo para obtener el
reforzador es relativamente alto se producen pausas posteriores al refuerzo.

3
Si estamos en un intervalo fijo, por ejemplo los animales tienen que esperar un tiempo X
para obtener un reforzador, por ejemplo comida, los animales aprenden que tienen que
esperar tras la exposición del reforzador un determinado periodo de tiempo para volver a
obtenerlo, por lo que aprenden a hacer esa pausa, y tras esta pausa la tasa de respuesta de
los animales aumentará poco a poco de manera gradual. Si por algún motivo no queremos
estas pausas, deberíamos usar un intervalo variable, ya que así el animal no sabe cuánto
tiempo tiene que esperar, y por lo tantono hará pausas.

Las flechas en la imagen representan cuando se ha recibido el reforzador, que en este caso
se representa cada 10 segundos.

Un ejemplo de programa de intervalo fijo en la vida real sería: cuando se hornea un


pastel sin reloj. La receta dice que el pastel debe hornearse durante 30 minutos, pero debes
calcular cuándo está listo porque no tienes reloj y no quieres que se queme. No tiene
sentido que lo revises luegode los primeros cinco o 10 minutos, pero vale la pena hacerlo
cuando calculas que ya pasaron 20 o25 minutos, y es posible que lo revises con más
frecuencia a medida que se acercan cada vez máslos 30 minutos, porque no quieres
pasarte del tiempo de horneado. En este ejemplo, la respuesta es revisar el pastel, el
reforzamiento es obtener un pastel perfectamente horneado y sólo se refuerza la respuesta
que ocurre inmediatamente después de que termina el intervalo del horneado, el resto
son respuestas “desperdiciadas”.

¿SE PUEDEN ELIMINAR ESTAS PAUSAS POSTERIORES AL REFUERZO?:

Para poder responder a esta pregunta deberemos preguntarnos antes esta otra, ¿Por qué
estas pausas ocurren?

Estas pausas ocurren cuando el aprendiz ya ha adquirido el condicionamiento


instrumental. Por lo tanto, en el RF el aprendiz ya sabe que si la última respuesta ha sido

4
reforzada la siguiente no lo será por lo que no tiene motivación, y de la misma manera en
el IF, si la ultima respuesta ha sido reforzada, esperaremos un determinado periodo de
tiempo, ya que, si la próxima respuesta sehace inmediatamente, sabemos que esta no
será reforzada. Básicamente lo que hemos mencionado previamente.

¿CÓMO PUEDEN EVITARSE ENTONCES?

Podrán evitarse, por lo tanto, cambiando ese radio fijo, por uno variable y el intervalo fijo
por una variable, es decir, ambos pasarán de ser fijos a ser variables, y de esta manera
esas pausas posreforzamiento desaparecerán ya que al ser variable nunca podremos saber
con seguridad cuando la respuesta va a ser reforzada o no.

En la foto de abajo, podemos ver que al ser ambos “variables” no se genera ninguna pausa
del comportamiento, ya que el individuo nunca sabe con exactitud cuándo llegará el
siguiente reforzador. Ambos tipos de programa generan curvas de respuestas estables
sin largos periodosde inactividad, pero sin embargo, cuando comparamos las dos, RV y
IV, veremos que existe una diferencia entre ambas, y es que con los programas de razón
variable se produce una mayor tasa de respuesta que con los programas de intervalo
variable.

Esto ocurre porque en el RV cuanto más respondas, mas reforzadores obtendrás, es decir,
si continuas respondiendo de manera continua obtendrás más recompensas.

Sin embargo, en un IV como tienes que esperar un intervalo de tiempo determinado no


importa cuantas veces hagas la conducta, solo tienes que hacerla una vez en el momento
determinado, pero en el RV (estás más motivado a “trabajar”) la conducta está siendo
reforzada cada X respuestas, entonces aquí el sujeto puede verse mas motivado porque el
número de recompensas que obtenga dependerá de cuantas veces ejecute la respuesta.

5
Entonces podemos concluir que en los programas de intervalo variable, no se esta
recompensando o reforzando directamente la tasa de respuesta, es por ello, que para
entrenar y conseguir una alta tasa de respuesta se debe de entrenar mediante programas
de razónvariable.

Por ejemplo: un dependiente trabaja en una tienda de ropa, no es lo mismo cobrar


Xdinero cada 20 camisetas que venda, que saber que va a ganar X dinero cada mes
independientemente de lo que haga. Es por ello, que en el primer caso el dependiente se
sentirá motivado para aumentar la tasa de repuesta, que en este caso sería vender
camisetas, para así obtener una mayor recompensa, que sería más dinero.

EJEMPLOS EN LA VIDA REAL:

En este caso podemos ver que esta situación esta basado en un RV, ya que así sabemos
que obtendremos una mayor tasa de respuesta que si se basa en un IV, como hemos
explicado anteriormente.

En esta caso podemos ver cómo esta basado en el IF, ya que les refuerzo esta disponible
cada media hora.

6
En este caso podemos ver cómo está basado en el RF, ya que les refuerzo está disponible
cada cierto número de respuestas realizadas, este es el ejemplo que hemos puesto antes
sobre el dependiente de la tienda.

La recompensa aquí sería ver algún mensaje nuevo, y la respuesta sería comprobar el
correo, podemos ver que se trata de un IV, ya que no porque tu entres más veces no vas
a tener más correos, por lo que no es de radio, y es variable porque no sabemos seguro
cuando los mensajes van a llegar.

Aquí cuantas más vendas, más dinero tendrás, por lo que sería un RF.

Cada vez que el limpia una planta descansa un rato, por lo que esa es la recompensa, aquí
veríamos que es un RF, ya que cada vez que limpia una planta, el obtendrá la recompensa,
que es descansar un rato.

3.- CONDUCTA DE ELECCIÓN:


Además de los cuatro programas estudiados antes (RF, RV, IF, IV), también existen los
programas concurrentes en que el organismo puede presentar cualquiera de varias
respuestas posibles, cada una con su propia consecuencia. Esto nos permite analizar la
forma en que los organismos eligen dividir su tiempo y esfuerzo entre diferentes
opciones.

Programas concurrentes: una paloma está dentro de una caja con dos teclas, la tecla A
y la tecla

B. La paloma obtiene comida por picotear la tecla A a intervalos de dos minutos o por
picotear latecla B a intervalos de un minuto. ¿Qué debe hacer?
7
Si vemos el problema con lógica, en un intervalo de dos minutos la paloma puede obtener
dos bolitas de comida por picotear en B pero sólo una por picotear en A. Por lo que
podrías pensarque la paloma debe concentrarse en la tecla B e ignorar la tecla A. Pero si
el experimento continúa por más de unos cuantos minutos, hay una bolita de comida
a la espera de ser entregada encuanto la paloma picotee en A, y si la paloma ignora por
completo a A nunca obtendrá esta.

Por lo tanto, la conducta óptima es una estrategia que permite a la paloma maximizar
la cantidadde comida que puede obtener de ambas teclas, la cual puede consistir en
asignar la mayor parte del esfuerzo a B y cambiar en ocasiones a A, sólo para revisar.
¿Podemos hacer una predicción másprecisa de cómo distribuirá la paloma su tiempo?

Podemos suponer que la paloma dedicará cerca de 33% de su tiempo a picotear en A y


alrededor de 66% de su tiempo a picotear en B, es decir, dedicará a B el doble de tiempo
que a A. Date cuenta de que esta razón es idéntica a la tasa relativa de reforzamiento en
las dos teclas, ya que B se refuerza con el doble de frecuencia que A. Por lo tanto, la tasa
con que responde la paloma enA contra B es más o menos igual a la tasa de reforzamiento
de A contra B. Esto se conoce como ley de igualación de la conducta de elección.

La ley de igualación: establece que la tasa relativa de respuesta de un individuo será


(aproximadamente) igual a la tasa relativa de reforzamiento.

3.- REGULACIÓN CONDUCTUAL:

COMPORTAMIENTO HOMEOSTÁTICO:

La idea de comportamiento homeostático es cuando los organismos son libres de


distribuir sus respuestas como quieran, haciendo lo que mas ganas tengan, es por ello que
lo harán de una manera óptima para ellos, y llegarían a lo que se conoce como el punto
de éxtasis (lo que todos queremos encontrar).

8
El individuo distribuirá los recursos de una manera que maximice su “valor subjetivo” o
“satisfacción”. Se conoce como punto de éxtasis a la distribución de recursos que
proporciona el máximo valor subjetivo. Para determinar el punto de éxtasis de un
individuo sólo tenemos que registrar lo que éste elige hacer.

Los reforzadores ayudan a mantener esta distribución óptima: después de estudiar


mucho para el examen parcial, asistir a una fiesta es muy reforzador. Después de
desayunar a las 08:00, comeres muy reforzador a las 13:30. Por ejemplo, si tienes un
parcial, tienes que estudiar más y hacer menos cosas que te gustan, algunas de tus
respuestas están siendo restringidas por tener que estudiar, por lo que después del examen,
hacer estas respuestas que no estabas pudiendo y querías (ir a una fiesta, hacer deporte…)
será muy reforzante, pero siempre tiene que existir un equilibrio.

¿Qué son los reforzadores estímulos o respuestas?, desde el punto de vista de la


regulación conductual, los reforzadores son percibidos como respuestas (o actividades)
altamente deseables en una situación particular. Según esta perspectiva, los reforzadores
no son tanto el estímulo, sino que como hemos dicho se perciben como respuestas muy
deseadas, todo aquello que es restringido se vuelve muy deseable.

4.- EL PRINCIPIO DE PREMACK: (PRINCIPIO DE LA PROBABILIDAD


DIFERENCIAL)

Este principio es un ejemplo de esta perspectiva de la “regulación conductual”. De


acuerdo con esta teoría, una respuesta (o actividad) altamente deseable servirá para
incrementar la probabilidad de una respuesta (o actividad) poco deseable. Las respuestas
altamente probables reforzarán las respuestas poco probables, es decir, reforzarán aquellas
respuestas que no sé suelenrealizar.

Una respuesta que te guste mucho según tu punto de felicidad, pueden servir para reforzar
respuestas que te gusten menos, y básicamente este es el principio de Premack, el hecho
de que una conducta que te guste actúe como reforzador e incremente la probabilidad de
una conducta que en otras condiciones sería poco frecuente.

Por ejemplo: un grupo de niños en una habitación donde había una máquina de juegos y
un tazón con dulces y se registró cuánto tiempo dedicaba cada niño a jugar en la máquina

9
y a comer dulces. Algunos niños pasaron más tiempo jugando. Entonces, Premack
restringió el acceso a la máquina de juegos y sólo les permitía jugar después de que
hubieran comido algunos dulces. La ingesta de dulces se incrementó, lo que demostró que

el acceso a la actividad preferida (jugar) podía reforzar una actividad menos preferida
(comer dulces).

Por ejemplo: si se les da la oportunidad de elegir, la mayoría de los niños dedicarán más
tiempo a ver televisión que a hacer la tarea. De manera que ver televisión es una
actividad preferida ypuede usarse para reforzar la actividad menos preferida de hacer la
tarea. Si los padres restringen el tiempo de televisión y lo condicionan a hacer la tarea, el
niño dedicará más tiempo a hacer la tarea del que dedicaría, con la intención de
posteriormente poder ver la televisión.

10
TEMA 4.3.- EVITACIÓN Y CASTIGO:
1.- INTRODUCCIÓN:

En el tema anterior vimos cómo los reforzadores afectaban en el condicionamiento


instrumentalde manera positiva, sin embargo, en este tema nos centraremos en ver los
efectos de los castigosen este tipo de condicionamiento.

El miedo, el dolor y la decepción son una parte inevitable de la vida, por lo cual no
sorprende nuestro interés en la manera en que la conducta es controlada por estímulos
aversivos. En el estudio del control aversivo se han investigado dos procedimientos: la
evitación y el castigo. En un procedimiento de evitación el individuo realiza una
respuesta específica para impedir lapresentación de un estímulo aversivo. Por ejemplo,
usted puede agarrarse del pasamanos parano resbalarse. El procedimiento de evitación
incluye una contingencia negativa entre una respuesta instrumental y el estímulo
aversivo: si se realiza la respuesta se omite el estímulo aversivo. En contraste, el castigo
involucra una contingencia positiva: la respuesta objetivoproduce el resultado aversivo.
Si toca una estufa caliente se va a quemar.

Los procedimientos de evitación incrementan la ocurrencia de la conducta instrumental,


mientras que los procedimientos de castigo suprimen la respuesta instrumental. Sin
embargo, en ambos procedimientos, el resultado final es un contacto menor con el
estímulo aversivo, de ahí queambos procedimientos implican periodos crecientes de
seguridad. A veces dicha seguridad se logra haciendo algo, por lo cual es común referirse
al condicionamiento de evitación como “evitación activa”. En el caso del castigo la
mayor seguridad se consigue dejando de hacer algo, por esta razón se le denomina
“evitación pasiva”.

2.- APRENDIZAJE DE EVITACIÓN:


Existen muchos tipos de aprendizaje de evitación, pero a continuación vamos a ver la
manera más simple que se conoce como “evitación discriminada”.

Lo primero que debemos de recordar es que existían 4 tipos de condicionamiento


instrumental, siendo la evitación un proceso de reforzamiento negativo porque existe
una correlación negativa entre la respuesta que estamos entrenando y la consecuencia.

1
En este caso la consecuencia es un estímulo negativo, y la rata repite esa respuesta porque
aprende que con esa respuesta podrá evitar o escapar de dicho estímulo negativo, por
lo que si la rata realiza la conducta que estamos entrenado, está escapará del estímulo
aversivo.

Este ejemplo que vamos a tratar, se trata de un experimento que se realiza en un


laboratorio y se realiza en lo que se conoce como una caja de vaivén, que es un caja que
tiene dos compartimentos que se unen por un pequeño hueco en la pared que los separa,
de manera que una vez que tu pongas al animal en cualquiera de los dos
compartimentos, este podrá moverse de uno a otro cuando quiera.

Uno de estos compartimentos es el “compartimento seguro”, en el que el animal nunca


recibirá el estímulo negativo, y el otro compartimento es el “compartimento de
shock”, en el que el animal en este caso recibirá una descarga eléctrica. Otro elemento
de esta caja de vaivén, es el estímulo discriminante que será una luz verde como podemos
ver en la imagen.

Inicialmente se pone a la rata en el compartimento de shock y en algún momento la luz


verde se encenderá, tras esto la rata observará dicha luz y si no realiza nada recibirá una
descarga eléctrica, y esta descarga se mantendrá hasta que la rata se cambie al otro
compartimento, y en ese momento la luz verde se apagará y la descarga desaparecerá.

Este es un claro ejemplo de cómo podemos entrenar este aprendizaje de evitación, en el


que podemos observar que la respuesta de evitación es cambiarse de compartimento
evitando así la consecuencia que es recibir una descarga eléctrica. Esto se realizará varias
veces con la intenciónde que se produzca el aprendizaje en la rata, de manera que cuando
ya vea la luz verdeencendida, inmediatamente se cambie de compartimento.

2
Este ejemplo que hemos explicado, se conoce como “evitación de vaivén en un
sentido”, pero también podemos encontrar lo que se conoce como “evitación de vaivén
en dos sentidos”, en el que los compartimentos son intercambiables, es decir, no son fijos
por lo tanto el animal se moverá en direcciones diferentes durante los diferentes ensayos.
Debemos de mencionar que la rata no aprenderá los dos procedimientos con la misma
facilidad, ya que para la rata aprender la “evitación de vaivén en dos sentidos” será más
difícil.

También tenemos que ver la diferencia entre los ensayos de escape y los de evitación, ya
que al principio el animal verá la luz verde, no hará nada y por lo tanto recibirá la descarga
eléctrica, e intentará escapar, sin embargo, el aprendizaje se ha producido la rata verá la
luz verde y nada másque ésta se encienda, se cambiará de compartimento para evitar
la descarga eléctrica. Por lotanto en este ensayo de evitación la rata no llegará a recibir
la descarga porque se anticipa, mientras que en el ensayo de escape si que la recibe.

2.1.- TEORÍA DE LOS DOS PROCESOS DE LA EVITACIÓN:

Tenemos que plantearnos la siguiente pregunta: ¿Cómo se adquiere la respuesta de


evitación?, aunque para responder a esta pregunta tendremos que hacer referencia a la
teoría de los dos procesos de la evitación.

Aunque antes de explicar esta teoría, hablaremos de la importancia del periodo de


tiempo entrelos eventos relevantes en el aprendizaje de evitación. Es muy importante
tener en cuenta el periodo de tiempo que existe entre dichos eventos, por ejemplo en el
caso de la rata, si tras encenderse la luz pasan 30 segundos y la rata no escapa del
compartimento, la descarga eléctrica se aplicará, mientras que si la rata escapa del
compartimento antes de que pasen estos 30 segundos, la luz verde se apagara y por lo
tanto la descarga eléctrica no tendrá lugar.

3
Tras explicar esto, intentaremos responder a la pregunta que establecimos antes. En esta
teoría existen dos procesos, como se puede deducir por su propio nombre, el primero de
ellos es condicionamiento clásico, lo que quiere decir que aunque los hayamos estudiado
de maneras separadas, a veces podemos encontrar que en una situación de
condicionamiento instrumental, también se puede dar condicionamiento clásico.

Como podemos ver, el estímulo discriminativo sería el EC y la descarga sería el EI,


produciéndoseasí entre ellos un condicionamiento de miedo. Por ello el animal le
tiene miedo al estímulodiscriminativo, a la luz, porque lo asocia con la descarga, y ese
miedo que siente la rata forma parte de la motivación que tiene para realizar más tarde la
respuesta instrumental que es la de saltar para cambiarse de compartimento.

Pero podemos preguntar ¿por qué de todas las respuestas que son motivadas por el miedo,
es la de cambiarse de compartimento la respuesta que más se repite?, para entender
esto tenemos que hablar del segundo proceso de la teoría, que es el proceso de
condicionamiento instrumental.

El animal salta por el miedo que siente ante el estímulo discriminativo, ya que
previamente ha asociado dicho estímulo a la descarga eléctrica, y por lo tanto selecciona
y realiza esa respuesta ya que es la única capaz de eliminar la fuente de miedo del animal,
que es la luz verde, ya que cambiándose de compartimento la luz verde se apagará.

Nos podemos hacer la siguiente pregunta, y es ¿sirve solo esta teoría para explicar el
aprendizaje de evitación?, es decir, sirve esta teoría de los dos procesos para explicar
cualquier tipo de respuesta instrumental o solo para explicar el aprendizaje de evitación.

Y la respuesta es que sí que podemos entender el aprendizaje instrumental desde esta


teoría, ya que esta teoría puede ser extendida a cualquier forma de condicionamiento
instrumental, es por ello que a continuación explicaremos esta teoría pero con un ejemplo
típico de condicionamiento instrumental, que es el reforzamiento positivo.

4
Podemos poner un ejemplo en el que una rata pulsa un botón para obtener comida, que
puedeser considerada como la recompensa pero también como el EI. Además añadiremos
un estímulo discriminativo, que será una luz, la cual le indicará al animal que si realiza la
respuesta obtendrá comida. Aunque es cierto que no es del todo necesario incluir la luz,
ya que la misma caja de Skinner podría actuar como estímulo discriminativo, ya que
también solo en este contexto la rata podrá pulsar el botón.

Podemos decir que sea cual sea el ED, este será asociado a la recompensa o al reforzador
que en este caso es la comida y esto se realizará a través de condicionamiento clásico,
obviamente en este caso no será miedo lo que se condicione, pero será esperanza
por ejemplo, entonces cuando la rata vea la luz sabrá que podrá obtener comida. El
segundo proceso sería cuando el animal está motivado por esa emoción, esa esperanza, y
ello le llevará a pulsar el botón, es decir, le llevará a realizar la respuesta instrumental.

En conclusión, podemos decir que existen dos asociaciones en la mente de la rata, por un
lado, la asociación del condicionamiento clásico entre el estímulo discriminativo o el
EC y la comida, y por otra parte la asociación producida por el condicionamiento
instrumentalentre la respuesta instrumental y la consecuencia, que es obtener la comida.

Todo aprendizaje instrumental debería de ser entendido como el producto de un estado


emocional condicionado y un proceso instrumental.

2.1.1.- EVIDENCIAS DE LA TEORÍA DE LOS DOS PROCESOS:


Si que existen evidencias de la veracidad y utilidad de esta teoría, para ello hablaremos
de Pavlovian - Instrumental transfer experiments, ya que los resultados de este tipo
de experimentos pueden considerarse evidencias de la validez de esta teoría sobre la
adquisición del condicionamiento instrumental.

5
Este experimento está compuesto por un total de tres fases: la fase 1, la fase 2 y la
tercer fase

• Fase 1: los animales son entrenados en base a un condicionamiento instrumental


preparatorio, en el que ellos en la caja de Skinner aprenden que tienen que pulsar el
botón para obtener comida.
• Fase 2: Después de esto moveremos a los animales a esta fase, en la que se establecerá
un condicionamiento pavloviano o condicionamiento clásico, es lo mismo, en este
caso los animales ya no tendrán que pulsar ningún botón, sino que serán sometidos a un
condicionamiento clásico, en el que el EC será un tono y el EI será la comida, por lo que
aprenderán que después de escuchar el tono recibirán comida.
• Fase 3: En la transfer test, los animales se encontrarán de nuevo en la caja de Skinner
pero esta vez si estará presente el botón que aprendieron en la primera fase a pulsar para
obtener comida. En este momento se separará al grupo para dos condiciones diferentes,
la primera deellas mientras que el animal este pulsando el botón escuchará el tono, y
en la otra condición,la condición control, ellos pulsarán el botón con normalidad sin la
presencia del tono.

En base a la teoría de los dos procesos, la conducta de pulsar el botón debería de estar
motivada debido a la emoción que se ha condicionado, la esperanza de que van obtener
comida. De la misma manera, que en la segunda fase también podemos pensar que los
animales han adquirido ese estado emocional. Por ello en esta tercera fase, en la primera
condición los animales tienen la capacidad de pulsar el botón al mismo tiempo que
escuchan el tono, por lo tanto asumimos que pulsar el botón está motivado por la emoción
que sienten los animales, además también tienen la misma emoción debido a que también
está presente el tono, es por ello que los animales en esta condición pulsarán el botón más
veces y más fuerte que en cualquiera de las dos fases anteriores, mientras que aquellos
que estén en la situación en la que no existe el tono, solo tendrán la motivación asociada
al pulsador y no existirá ninguna emoción añadida.

6
Por lo que, para concluir, podemos decir que el tono facilita la pulsación del botón en
comparación con el grupo control, en el que no existe o que no se encuentra presente el
tono durante el transfer test.

Así, la teoría de dos procesos asume que la respuesta instrumental es motivada en parte
por: respuestas emocionales condicionadas + expectativas sobre el refuerzo específico.

OTRO EXPERIMENTO:

En este experimento la fase 1 es igual que en el anterior, pero se diferencia en que en la


fase 2 el tono se asocia con un shock eléctrico, es decir, el tono produce miedo.

Entonces ¿Qué pasará con la respuesta instrumental en el grupo que al presionar


el botóntambién escucha el tono? Pues habrá una supresión de la respuesta, y si esa
asociación es muy fuerte, habrá una supresión completa de la respuesta.

Si el tono está asociado con el shock, ¿qué pasará con la respuesta instrumental?

El tono inducirá una respuesta emocional condicionada (miedo) que interferirá con la
esperanza (respuestas subyacentes durante la prueba) y, como consecuencia, las
respuestas instrumentalesdisminuirán e incluso pueden congelarse completamente si el
miedo es lo suficientemente fuerte (supresión condicionada).

2.1.2.- DETRÁS DE LA TEORÍA DE LOS DOS PROCESOS DE LA


EVITACIÓN:
Otras razones han sido descritas sobre porque la respuesta de evitación tiene lugar, y una
de ellases la hipótesis de la señal de seguridad. No tenemos que ver esta hipótesis como
una manera alternativa de explicar porque ocurre la respuesta de evitación, sino que es
una manera adicional de explicarlo.

De acuerdo con la hipótesis, las señales de seguridad que acompañan a las respuestas de
evitación pueden proporcionar reforzamiento positivo para la conducta de evitación.

7
De acuerdo a esta hipótesis, imaginemos que somos la rata en la caja de vaivén y
imaginemos que ya hemos sido expuestos al estímulo discriminativo, por lo que nada
más verlo intentamos huir del yendo hacia el otro compartimento de dicha caja, al
compartimento seguro. En ese momento, asociaremos ese compartimento o esa parte de
la caja con “seguridad”, porque en esa parte de la caja nunca hemos recibido la descarga,
es por ello que los estímulos espaciales, táctiles y propioceptivos que acompañan de
manera inevitable a la respuesta de evitación se convierten en señales de seguridad.

Dichas señales del compartimento de la caja, podrían ser consideradas como un EC


asociado conla ausencia de la descarga (EI), es por ello que esas señales podrían ser
consideradas como un conditioned inhibitor, porque como acabamos de decir esas
señales se asocian con la ausenciadel shock.

Es por ello que después de la respuesta de evitación, al llegar al compartimento seguro


nos sentiremos bien, incluso nos gustaran esas señales que acabamos de mencionar, por
lo tanto, la respuesta de evitación se verá reforzada positivamente.

Es lo que dice esta hipótesis, que las señales asociadas al compartiendo seguro, se
convertirán también en una recompensa o en un refuerzo de la respuesta de la evitación.
Incluso se ha comprobado que, si se incluye en ese compartimento seguro estímulos
condicionados específicos como ruidos o luces después de la respuesta de evitación, no
solo el estímulo discriminativo desaparece, sino que también aparecen estas señales de
seguridad, serán estas señales las que faciliten el aprendizaje de evitación. Es decir, si
después de realizar la conducta correcta de cambiarte de compartimento para evitar la
descarga, el animal es expuesto a estas señales específicas, estas acelerarán el proceso de
aprendizaje asociado con la evitación.

En resumen, podemos decir que existen diferentes maneras que nos ayudan a
aprender larespuesta de evitación, por un lado, encontramos la reducción del miedo (la
explicación asociadaa la teoría de los dos procesos) y por otro lado encontramos la
adquisición de seguridad (asociado a la hipótesis de la señal de seguridad).

2.2.- LA RELEVANCIA CLÍNICA DE LA EVITACIÓN:

Las respuestas de evitación son muy relevantes desde una perspectiva clínica, ya que una
gran variedad de trastornos mentales incluye este tipo de respuestas por parte del
paciente. Por loque estas respuestas son una forma muy disfuncional de responder,

8
característica de muchas patologías como pueden ser los trastornos de ansiedad, los
trastornos obsesivos compulsivos, lasadicciones…

Imagínate que tienes una fobia a viajar, y tienes que ir a Barcelona por temas de trabajo
por loque tendrás que coger un avión, en este caso seguro que lo evitaras, y cogerás un
tren para ir a Barcelona en vez de coger un avión.

En este caso podemos ver cómo se evitaría dicha fobia, y a corto plazo obtendríamos
unatranquilidad, porque sabemos que no vamos a tener que estar expuestos a ese
miedo quesentimos cuando estamos en un avión.

Pero ¿que ocurre a largo plazo?, pues ocurre que esa evitación de coger el avión, es lo
que esta haciendo que mantengamos esa fobia y no la superemos, es por ello que estas
respuestas de evitación que son disfuncionales deberían de ser completamente
eliminadas.

Pongamos el ejemplo que pongamos, lo que queremos decir que estas respuestas de
evitación pueden ser la solución a corto plazo, ya que a través de ellas evitamos algo que
no nos gusta, pero sin embargo estas respuestas son muy disfuncionales a largo plazo, ya
que son las encargadas de mantener la fobia, la adicción, el TOC o lo que sea que
tengamos.

UN EJEMPLO DE ESTO EN EL TOC:


• Estímulo discriminativo: la idea de que estamos contaminados o sucios.
• Respuesta de evitación: ritual de limpieza para así eliminar “aquello de lo que hemos
sidocontaminados”, es decir, el estímulo discriminativo desaparece.
• Consecuencia a corto plazo: sentirse relajado.
• Consecuencia a largo plazo: mantener y sustentar el TOC.

9
¿POR QUÉ ES TAN DISFUNCIONAL?:

Porque estas respuestas de evitación evitan que el paciente experimente la falta de


correlación entre el estímulo temido y las consecuencias aversivas resultantes que estas
respuestas están destinadas a eliminar, es decir, por ejemplo si le tienes miedo a los
aviones y vas en tren para evitarlo, no te darás la oportunidad a ti mismo para darte
cuenta de que por coger un avión no teva a pasar nada.

Entonces estas respuestas de evitación son tan disfuncionales porque no nos dejan darnos
cuentaque estas consecuencias aversivas que esperamos no van a ocurrir, y lo único que
hacen es mantener e incluso incrementar el TOC, la fobia o de lo que se trate. Otro
ejemplo sería el de las manos que hemos puesto antes, aunque pensemos que por no
lavarnos las manos vamos a cogerun virus, si no nos las lavásemos nos daríamos cuenta
de que no nos pasaría nada.

2.3.- LA EXTINCIÓN DE LA EVITACIÓN:

Las respuestas de evitación son posibles de extinguir, aunque este proceso es muy
complicado, ya que aunque tras varios ensayos nos demos cuenta de que la respuesta de
evitación no tenia sentido y veamos que no ocurre nada negativo, los efectos de esta
evitación son muy duraderos por lo tanto son muy difíciles de eliminar.

• Por ejemplo: imagínate que tenemos fobia a los perros y sabemos que una calle
determinadasiempre esta llena de perros por lo que la evitamos, y cogeremos otra
nueva ruta en la que sabremos que no nos encontraremos a ningún perro. De esta
manera, aunque la respuesta deevitación se haya adquirido únicamente en varios
ensayos, esta respuesta tendrá efectos muy duraderos a largo plazo, aunque con
esfuerzo podremos eliminarlos.

Para hacerlo tendremos que prestar atención a la teoría de los dos procesos, ya que
sabemos queesta respuesta de evitación era causada por el primer proceso, que era el
condicionamiento del miedo. Por lo que si exponemos al paciente al estímulo
discriminativo y le hacemos ver que no ocurre nada tras la exposición del mismo,

10
conseguiremos extinguir la respuesta emocional condicionada y por lo tanto la
motivación (el miedo) para realizar la respuesta de evitación no existirá.

Pero debemos de tener en cuenta, que no solo tenemos que exponer al paciente al estímulo
discriminativo, sino que también el paciente tendrá que ser prevenido de realizar la
respuesta es evitación, es decir, tenemos que asegurarnos de que el paciente no realice
dicha respuesta de evitación.

3.- EL CASTIGO:
En este tema, también vamos a ver cómo los castigos pueden controlar y afectar a nuestro
comportamiento. En los ejemplos anteriores podemos ver cómo el castigo (la
consecuencia a la que tememos) puede controlar nuestra conducta, produciendo una
respuesta de evitación con la intención de evitar dicho castigo.

En el caso anterior existía una contingencia negativa, es decir, nosotros hacíamos X para
evitar Y,pero en este apartado vamos a ver cómo muchas veces nuestra conducta X puede
generar ciertasconsecuencias aversivas, es por ello que podemos decir que vamos a hablar
de castigo positivo.

Aquí veremos que una respuesta instrumental provoca un estímulo aversivo, y nuestra
intención es suprimir o disminuir la probabilidad de que se genere dicha respuesta.
Sabemos que laestimulación aversiva es inevitable en la vida real, pero ¿cómo de efectivo
puede llegar a ser usar este tipo de estimulación aversiva para controlar nuestro
comportamiento?.

La respuesta a esta pregunta es que, hay ciertos momentos o condiciones en los que usar
este tipo de estimulación puede ser efectiva para controlar o modificar nuestro
comportamiento, aunque desde el punto de vista de Thorndike y Skinner era todo lo
contrario, ellos pensaban que este tipo de estimulación era un mal camino para controlar
nuestra conducta, aunque esto se ha descubierto que no es del todo cierto, ya que si que
existe condiciones en las que este tipo de estimulación se puede emplear para controlar
algún tipo de comportamiento que no es deseado.

Una cosa muy importante a destacar es que en la psicología del aprendizaje no se castigan
a las personas, se castigan a determinadas respuestas.

3.1.- FACTORES QUE FAVORECEN LA EFECTIVIDAD DEL CASTIGO:

11
3.1.1.- INTENSIDAD Y EL MÉTODO DE INTRODUCCIÓN:
El primer factor que vamos a ver va a ser la intensidad y el método de introducción o
de presentación del castigo. Si desde el inicio del castigo se emplea una descarga de alta
intensidad,la supresión de la respuesta será considerable. Sin embargo, si el castigo sólo
alcanza una intensidad elevada después de un aumento gradual, la supresión de la
respuesta será mucho menor. Este es un hallazgo muy importante, pues demuestra que la
exposición a un castigo de baja intensidad genera resistencia e inmuniza al sujeto contra
los efectos del castigo más severo.

• Por ejemplo: pasar dos semanas en la cárcel no es una experiencia tan perturbadora
paraalguien que se ha acostumbrado a periodos más cortos de encarcelamiento.

Aunque a medida que la respuesta objetivo se vaya viendo reducida debemos de


irdisminuyendo la intensidad de dicho estímulo aversivo. Es muy importante, que al
principio la estimulación sea intensa, ya que sino lo es no solo será ineficaz inicialmente,
sino que también impedirá la efectividad de un uso posterior de la estimulación más
intensa.

3.1.2.- LA CONTIGÜIDAD:

El segundo factor que vamos a considerar es la contigüidad. Debe de existir una muy
buena contigüidad entre la respuesta que queremos castigar y la estimulación aversiva, es
decir, esta estimulación negativa tiene que ser inmediatamente aplicada tras la
ejecución de la respuestaque queremos castigar. Cuanta menos contigüidad exista,
menos efectiva será la estimulación aversiva.

3.1.3.- LA CONTINGENCIA:
El tercer factor que vamos a considerar es la contingencia. Para que el proceso del castigo
sea efectivo, debemos de asegurarnos que únicamente esa respuesta sea la que provoque
esecastigo, es decir, ese castigo no debería de ocurrir con ninguna otra respuesta.

3.1.4.- EFECTOS DE LOS PROGRAMAS DE CASTIGO:

Otro factor a tener en cuenta son los programas de castigo. En los casos de castigo un
programade razón fija de 1, es el programa más efectivo, ya que se castiga todo el rato,
después de cada respuesta instrumental se presenta el castigo. Por lo que podemos deducir
que cuanto mayor sea el programa de razón, menor será la efectividad en la supresión de
la conducta, sin embargo, aunque el programa de razón tenga un valor de 1000, siempre
se producirá una disminución en la respuesta, por muy mínima que sea.
12
Aunque debemos de decir que si esa respuesta que ahora queremos reducir
castigándola, ha sido previamente reforzada positivamente con un reforzador muy
poderoso, el castigo no será efectivo para reducir esa respuesta instrumental, es decir, si
una respuesta ha sido muy bien reforzada positivamente, será imposible después reducir
su probabilidad de ejecución castigándola. Esto ocurre porque dicha respuesta se ha
convertido en un hábito y por lo tanto el sujeto tiene dicha respuesta bajo su control,
aunque esto lo veremos un poco más adelante.

3.1.5.- DISPONIBILIDAD DE FUENTES ALTERNATIVAS DE


REFORZAMIENTO POSITIVO:
Otro de los factores que debemos de tener en cuenta es la disponibilidad de fuentes
alternativas de reforzamiento positivo. Imagínate que quieres reducir una determinada
respuesta y para ello presentas un castigo tras esa respuesta, aunque existe otra cosa que
podría aumentar la eficacia de esto, que sería recompensar otras respuestas alternativas.

Por ejemplo: tú eres un profesor y tienes un alumno que esta todo el rato pinchando a
los compañeros con un lápiz, y quieres que eso deje de pasar por ello le castigas cada
vez que lo hace. Para que el niño dejara de pinchar con el lápiz no solo deberíamos de
castigar esa respuesta, sino que deberíamos de premiarle que haga otras alternativas, de
esta manera la probabilidad de que realice esa conducta, que no queremos, será mucho
menor.

También debemos de tener en cuenta, que reforzando aquellas respuestas alternativas


que sean incompatibles con la respuesta que queremos suprimir, conseguiremos que
dicha respuestase vea mucho más reducida.

Por ejemplo: en el caso anterior del niño y el lápiz, castigamos la conducta de que el
niño utilice el lápiz para pinchar, pero premiamos la conducta de que el niño utilice el
lápiz para dibujar, esto es un ejemplo de una respuesta alternativa incompatible, ya
que el niño nopuede hacer las dos cosas a la vez.

3.1.6.- EFECTOS DE UN ESTÍMULO DISCRIMINATIVO PARA EL


CASTIGO:
También tenemos que tener en cuenta, que a veces los estímulos discriminativos deben
de ser evitados a la hora de castigar, ya que de lo contrario, la respuesta que queremos
reducir, solo se reducirá cuando esté presente el ED y no de manera general. El hecho de
que los efectos supresivos del castigo puedan limitarse a la presencia de un estímulo

13
discriminativo a menudo representa un problema en la aplicación del castigo. En muchas
situaciones, la persona que aplica el castigo también funciona como estímulo
discriminativo del mismo, lo que tiene el resultado de que la conducta indeseable sólo se
suprime en tanto que el monitor esté presente.

Por ejemplo: los niños aprenden qué maestros son estrictos en relación a la disciplina y
a suprimir su conducta bravucona con esos maestros más que con otros. Una patrulla en
la carretera es un estímulo discriminativo que indica el castigo por exceso de velocidad.
Otro ejemplo sería: es más probable que los conductores se mantengan dentro o por
debajo del límite de velocidad en los tramos de la carretera donde ven patrullas que en
los tramos donde no.

3.1.7.- EL CASTIGO COMO SEÑAL DE LA DISPONIBILIDAD DE


REFORZAMIENTO POSITIVO:
Por último, no serás capaz de castigar una respuesta, si esa respuesta particular es la única
manera en la que el individuo puede obtener reforzamiento positivo, es decir, si el castigo
es una señal de la disponibilidad de la recompensa no obtendrás un castigo eficaz.

Por ejemplo: imaginemos que tengo un niño que es muy pequeño, y yo y mi mujer
estamos todo el día fuera de casa trabajando, y el niño esta todo el día con un canguro, y
el niño solo tiene la opción de llamar nuestra atención cuando llegamos por la noche del
trabajo, y por lo tanto todas las noches se pone a llorar. Entonces por mucho que
nosotros intentemos hacer algo o castigarle para que esa respuesta desaparezca, no
funcionara, ya que es la única manera que tiene el niño de obtener nuestra atención
(reforzador), por lo que dará igual si le regañemos o le castiguemos, ya que al fin y al
cabo le prestaremos esa atención que el busca y por lo tanto el castigo no será efectivo,
y seguirá actuando de la misma manera.

3.2.- EL CASTIGO FUERA DEL LABORATORIO:

Aquí hablaremos del castigo corporal en la crianza de los hijos. Este tipo de castigo esta
prohibido en varios países (por ejemplo, Austria, Dinamarca, Alemania, Israel, Italia o
Noruega), y existen países dónde no esta prohibido pero solo puede considerarse
justificado para situaciones muy excepcionales en las que el comportamiento debe ser
suprimido de inmediato.

14
En la situación en la que este tipo de castigo tenga que usarse, tenemos que tener en cuenta
que existen efectos secundarios asociados a su uso como puede ser que los niños muestren
un comportamiento agresivo, o si se usa sistemáticamente, estos niños cuando sean
adultos podría mostrar un comportamiento antisocial o un comportamiento agresivo, es
decir, ocurriría lo que se conoce como moldeamiento, ya que en el niño se produciría un
aprendizaje social del comportamiento de sus padres, y este lo repetiría en el futuro.

De la misma manera, otros efectos secundarios sería que las personas que administran
castigos corporales podrían convertirse en estímulos condicionados aversivos, de manera
que podrían surgir o desarrollarse respuestas de evitación hacia ellos.

15
TEMA 4.4: CONDUCTA ADICTIVA
1.- SUSTANCIAS Y ADICCIONES CONDUCTUALES:

El comportamiento de enfoque repetitivo a las sustancias y/o recompensas: El bajo


control inhibitorio del comportamiento (autocontrol) predispone a la adquisición de
adicciones.

Cuando tenemos un comportamiento repetitivo ante sustancias o premios, este


comportamientose vuelve un hábito controlado automáticamente, lo cual es un buen lugar
para que nazca un comportamiento adictivo. Esto es más dramático en aquellas personas
que tienen un bajo control inhibitorio, es decir, tienen menos autocontrol.

Etapa inicial: reforzamiento positivo debido al valor apetitivo de la sustancia y/o


recompensa. La etapa inicial no suele ser problemática, es un reforzamiento positivo
normal, donde haces larespuesta para obtener algo que es gratificante, pero todavía
tienes control de la situación (Regulación intencional; puedes decidir hacer la conducta o
no puedes decidir, porque tienes el control).

Etapa de dependencia: La regulación intencional se pierde, siendo reemplazada por el


control automático del comportamiento del enfoque para obtener la recompensa. El
comportamiento repetitivo prevalece a pesar de los esfuerzos por abandonar. Esta fase de
dependencia ocurre cuando ya no tienes control de la situación, cuando la etapa inicial se
ha acabado, cuando la regulación intencional se ha perdido. Es cuando ya se convierte en
un hábito.

En todas las adicciones conductuales se pierde la regulación intencional del


comportamiento. En las adicciones a las sustancias, además de esa pérdida tenemos
también respuestas fisiológicas condicionadas compensatorias.

2.- RESPUESTAS FISIOLÓGICAS CONDICIONADAS:

Las sustancias psicoactivas provocan respuestas fisiológicas primarias y luego reacciones


compensatorias (homeostáticas). Estas sustancias tienen unos efectos muy potentes para
nuestro organismo, por lo que cuando tomamos esas sustancias, tenemos reacciones en
nuestro organismo que nos hace apartarnos de nuestro balance homeostático
(relacionado con la teoríadel proceso oponente). Esto se soluciona con mecanismos

1
compensatorios, para tratar de volver al equilibrio, compensando los efectos que las
sustancias han provocado.

Imagina que eres adicto a la heroína y usas determinados elementos para metértela, en
uncontexto determinado, con unas personas concretas… estos elementos, las personas y
el contexto se vuelven asociados a la droga (EI) debido al condicionamiento clásico,
convirtiéndose en EC asociados a la droga, pudiendo desembocar las respuestas
fisiológicas compensatorias a losefectos de la droga, por lo que el efecto de la droga ya
no es igual de fuerte de lo que era al principio, ya que esos estímulos ya preparan a tu
cuerpo para compensar el efecto de la droga,por lo que cuando de verdad te la metes,
ya no hace el mismo efecto, porque tu cuerpo había anticipado el desequilibrio que iba a
haber. Así se desarrolla la tolerancia, donde necesitas una dosis mayor para obtener el
efecto de antes.

Es decir, la tolerancia hacia una droga se desarrolla porque en la presencia de los ECs
compensamos la acción primaria de la droga, es por ello que el efecto neto es decir, la
respuesta observable, va a ser más suave que la inicial.

Algunas consecuencias de este condicionamiento:

- Especificidad de contexto de tolerancia a drogas: la tolerancia es dependiente


delcontexto. Esto tiene dramáticas consecuencias para los individuos.

Se hizo un experimento donde había tres grupos de ratas. El primer grupo no era pre-
expuesto a la droga, mientras que los otros dos sí tuvieron una experiencia previa con la
droga (exposición a una pequeña cantidad de heroína, la cual iban aumentando
progresivamente, por lo que se iban habituando a la droga, desarrollándose algo de
tolerancia). Al grupo dos, posteriormente, le dieron una sobredosis (una dosis que era
letal para su peso) en un contexto diferente al cual fueron pre-expuestos, mientras que el
grupo tres lo hizo todo en el mismo contexto. Los resultados mostraron que el
primer grupomostró una tasa de mortalidad del 96 %, lo que demostraba que estas ratas
no tenían ninguna tolerancia. La mortalidad en el grupo dos, era de un 64 %, lo que
significaba que aunque el contexto hubiese cambiado cierta tolerancia se había
mantenido, estodemuestra que la tolerancia está asociada al contexto en el que dicha pre-
exposición se realiza. Por último la mortalidad en el grupo tres, fue un 32 %, cuando los
contextos de la pre-exposición y el test son los mismos, podemos ver que la tolerancia

2
que muestran las ratas es mucho mayor, haciendo así que la sobredosis fuera mucho
menos letal.

- Sobredosis condicionada: una dosis de sustancia bien tolerada puede volverse letal si es
administrada en ausencia de EC pre-expuestas. Muchos drogadictos mueren cuando se
drogan en contextos donde no suelen drogarse, por ejemplo, cuando están de vacaciones,
y esto ocurre porque no se encuentran presentes en el contexto habitual. Por ejemplo,
enel estudio anterior, podríamos afirmar que si el grupo dos hubiera estado en el mismo
contexto en la prueba de test, y no se lo hubiera cambiado, la tolerancia ante dicha
cantidad de droga hubiera sido mucho mayor, pero sin embargo al cambiar de contexto
dicha tolerancia ante la droga desapareció en cierta manera.
- Síndrome de abstinencia condicionada: La exposición a EC asociada a sustancias
psicoactivas pueden provocar RC compensatorias a estas sustancias. Si estás en el contexto
que te drogas y no te drogas, tu cuerpo activa las respuestas compensatorias igualmente,
por lo que se desarrolla el síndrome de abstinencia, porque estás en desequilibrio.
Esdecir, imaginemos que estamos acostumbrados a fumar en una calle con alguien, si
vamos a esta calle con esa persona, aunque no tengamos la intención de fumar, se
generará loque conocemos como el “síndrome de abstinencia”, que es el hecho de que
al encontrarnos en dicho contexto, nuestro cuerpo esperará dicha sustancia y es por ello
que las RC compensatorias se iniciarán aunque la droga no este presente, y en ese
momento sufrimos dicho síndrome de abstinencia.

3.- CONTROL INTENCIONAL Y DE ESTÍMULO DE LA CONDUCTA:

Control intencional: R-C. Respuesta dirigida a objetivos.

3
Respuesta de búsqueda hacia las propiedades de valencia e incentivo del reforzador. La
respuestaes emitida, hay un control intencional. Se realiza la conducta porque tiene
expectativas del premio que va a recibir, esas expectativas son representadas en el dibujo
como la asociación R-C. Por lo que es esa asociación R-C lo que representa esas
expectativas intencionales.

CONTROL DE ESTÍMULO: E-R. HÁBITO AUTOMÁTICO.

Cuando repites la respuesta anterior se pasa a esta fase adictiva. Los estímulos
discriminativos se asocian con la respuesta y con las consecuencias. No es algo
intencional, es un hábito automático.

La respuesta instrumental se activa (automáticamente) por estímulos asociados a esa


respuesta instrumental.

• S: Estimulación donde la respuesta de tomar la droga tiene lugar. Contexto dónde sueles
tomar la droga, los amigos… los EC asociados a la droga. (estímulo discriminativo)
• R: Respuesta adictiva.
• C: Consecuencias, podemos distinguir entre dos tipos de consecuencias, por un lado la
valencia o el valor emocional del reforzador, y por otro lado las propiedades incentivas
del mismo, es decir, las propiedades físicas relacionadas con dicho reforzador.

La relación entre la respuesta y las consecuencias no es diferente de otra forma de


condicionamiento instrumental. Es una respuesta dirigida a un objetivo, estas interesado
en las consecuencias que da tomar la droga, pero puedes decidir no tomar la droga, es
decir, tienes control sobre tu respuesta, por eso es condicionamiento instrumental. Cuando
tiene control intencional, hay una respuesta de búsqueda hacia las propiedades de valencia

4
e incentivo del reforzador (R-C. Respuesta dirigida a un objetivo). (Esto sería la fase
inicial)

Por la mera repetición de esa respuesta, vas a cambiar el control de tu


comportamiento, demanera que ya no va a ser intencional, sino que ese control va a ser
por la estimulación (S). La merapresencia de estar con esos estímulos, vas a sentir un gran
impulso de hacer la respuesta de tomar la droga. A partir de este momento, ya es un hábito
automático (S-R. Hábito automático) Por lo que seproduce una transición desde la
intención hacia la estimulación. (Esto sería la fase de dependencia).

Hay otros estímulos asociados con la consecuencia de tomar la droga, que pueden
desembocar la respuesta adictiva. No solo afectan esos estímulos originalmente asociados
a la droga. (S-C-R Transfer). Por ejemplo, si eres alcohólico y estas acostumbrado a beber
en el bar de abajo de tu casa y, un día, viendo la tele, empiezan a hablar de bares, eso también
desembocará el impulso de beber.

La transición de un control de comportamiento intencional a un estímulo marca el


comienzo de un comportamiento adictivo. Pasamos de una goal-direction response,
donde haces la respuesta porque el reforzador es un premio para ti, a un hábito
automático, donde lo haces automáticamente, yendo más allá de tu control intencional.
Dicha transición entre la etapa inicial y la etapa dependiente está relacionada
directamente con el condicionamiento instrumental.

4.- FACTORES QUE FAVORECEN AUTOMÁTICAMENTE HÁBITOS:

Entrenamiento excesivo: Había estudiantes universitarios que participaron en un


experimento. Ungrupo pasa un día en el laboratorio y otro grupo pasaba tres días
consecutivos; el entrenamientofue igual, solo había esta variación.

Tenían que hacer una tarea de aprendizaje, donde tenían que elegir entre dos respuestas,
y cada 10 segundos tenían la consecuencia disponible, con una de las respuestas podían
obtener M&Ms ycon la otra podían obtener Fritos. Había una fase de saciación, donde le
daban tanto chocolate o Fritos (algunos eran saciados con una cosa y otros con otra) que
ya no querían más.

Luego le volvían a hacer el test que realmente era de extinción, pero ellos no lo sabían,
por lo que creían que iban a obtener los mismos premios. Por tanto, si fueron saciados

5
con chocolate,pulsarían la respuesta 2 para obtener Fritos, y viceversa. Los resultados
después del último test mostraron que el grupo que solo estuvo un día en el laboratorio,
si fueron saciados con chocolate, elegían la respuesta dos (no elegían la respuesta
devaluada). Los resultados también mostraron que el grupo que estuvo tres días en el
laboratorio, no mostraban diferencia entre elegir la respuesta 1 o 2, por lo que no eran
sensibles a la devaluación. Esto nos indica que si eres sobre- entrenado, obtienes una
diferencia en tus respuestas, de manera que no tienes una preferencia entre respuestas,
incluso si una no tiene valor para ti; pierden su control intencional. Esto muestra que se
ha desarrollado un hábito automático; el putamen está muy activo en este último grupo,
el cual está relacionado con hábitos automáticos.

Si fueron saciados con fritos, la respuesta devaluada era la dos, y si fueron saciados con
chocolate,la respuesta devaluada era la uno.

En las drogas, las personas dejarían de tener control para elegir drogarse o no, en
función de loque quieran, sino que se drogarían de manera automática porque ya
estarían acostumbradas, yano podrían elegir no drogarse.

Diferencias individuales en rasgos de la personalidad: La impulsividad, el control


cognitivo o inhibitorio son factores que favorecen las actuaciones automáticas

5.- EFECTOS DE TRANSFERENCIA:

Hay elementos no asociados directamente con la droga que pueden desencadenar la


respuesta automática de drogarse.

Por ejemplo, imagínate que alguien es adicto a palomitas. El estímulo que normalmente
está asociado es la entrada del cine, ya que normalmente las come cuando va allí por lo
que, incluso sino tiene hambre, pero va al cine, nada más ver las entradas, compra las
palomitas, aunque no sea una buena idea porque está lleno y sin nada de hambre. Este
efecto de transferencia significa que no solo estos estímulos directamente relacionados
van a desencadenar la respuesta de comprar palomitas, también lo harán esos estímulos
que te recuerdan a la recompensa, en este caso, palomitas. Ver el nombre o la tienda de
“Belros” desencadenaría también la respuesta de tomar palomitas.

6
Incluso en situaciones en las que el reforzador no tiene ningún valor, como en este caso,
que no tenía hambre, por lo que comer palomitas no tenía ningún valor, pero aun así lo
hace.

6.- SUSTRATOS CEREBRALES:

- Drogas opioides (heroína, morfina): actúan en el nivel de las dendritas de neuronas


dopaminérgicas. Estimulan el efecto de los opioides endógenos. Las neuronas
dopaminérgicas en el VTA tienen receptores opiáceos en sus dendritas, emulando elefecto
de los opioides endógenos y afectando su tendencia normal a liberar dopamina.

- Drogas no opioides (cocaína, anfetaminas): Actúan en el espacio sináptico,


produciendo más dopamina. La cocaína tiene un efecto diferente, trabaja interfiriendo con
la recaptación normal de dopamina, por lo que inhiben dicha recaptación, prologando los
efectos de este neurotransmisor.

7.- PERSPECTIVA CLÍNICA:

EL TRATAMIENTO PARA LOS PROBLEMAS DE ADICCIÓN DEBE


SUPERAR DOS DESAFÍOS PRINCIPALES:

• Dolor debido a la abstinencia (síntomas de abstinencia): Hay dolor físico asociado a los
síntomas de abstinencia, los cuales están desencadenados de los efectos compensatorios
de nuestro organismo. Los adictos se drogan para evitar estos efectos, por lo que es
un reto para ello superarlos.
• Deseo irresistible (más allá del control intencional): la tendencia de drogarse va más allá
de tu control intencional. No está en la voluntad del individuo controlar las respuestas de
drogarse.

Desde el punto de vista del condicionamiento instrumental (rompiendo las asociaciones


S-R-C): todas las cosas capaces de romper estas asociaciones podrían ayudar para superar
los retos anteriores.

Principios relacionados con el condicionamiento instrumental que pueden ayudar a dejar


las adicciones:

7
- Extinción: Disminución de las consecuencias de las drogas; naltrexone (medicamento
paralos drogadictos) bloquea los receptores opioides cerebrales. Estos medicamentos
pueden disminuir la eficiencia de la droga, haciendo que no pueda actuar en los
receptores. Esto puede ser entendido como una extinción de la respuesta, porque cuando
hacen la respuesta, no hay recompensa, porque no consiguen el efecto de la droga.

- Evitar los estímulos discriminativos asociados con el comportamiento adictivo: Si vemos


que la conducta de drogarse está relacionada con diferentes estímulos discriminativos,
evitarlos podría ayudar. Por esta razón, muchos que van a tratarse, son retirados de sus
contextos, que ocurre, que tras el tratamiento el adicto vuelve a su entorno o vida normal
existen grandes posibilidades de que haya una recaída. Las primeras fases del tratamiento
incluyen evitar estos ED.
- Refuerzo del comportamiento alternativo: Para reducir un comportamiento
podemosconsiderar reforzar otro comportamiento alternativo. Por ejemplo, en los grupos
de apoyo como anónimos alcohólicos, existe un reforzamiento social para la respuesta de
abstinenciadel adicto.
- Refuerzo retrasado: Retrasos temporales autoimpuestos para recompensar cuando
comienza el impulso. Por ejemplo, si no puedes dejar de fumar, cuando tengas el deseo
de fumarte un cigarro, sería bueno que pusieras un retraso temporal para hacerlo. Por
ejemplo, si te quieres fumar un cigarro, decir, vale, voy a esperar 15 minutos. El hecho
de autoimponerse retrasos temporales, hace que la contigüidad temporal aumente y por
lo tanto, que el comportamiento poco a poco se vea reducido. cuántas veces quisiera el
pulsador, en este caso para obtener comida.

También podría gustarte