Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1.1.- Thorndike:
El fue el primero en describir la “Ley del Efecto”, según esta ley, la repetición de una
respuesta depende de la consecuencia de esa respuesta, es decir, si las consecuencias son
positivas se daráun aumento en la repetición de la conducta y viceversa.
En este ejemplo, podemos ver como el gato a través de muchos ensayos requiere cada
vez de menos tiempo, aunque es cierto que podemos ver algunos picos como en el
intento 10, pero eso es normal ya que se debe a la variabilidad que existe al hacer los
experimentos, pero de manera general, podemos observar una disminución en el tiempo
requerido y esto demuestra que el gato aprende a salir de la caja.
1.2.- Skinner:
Es otra de las figuras mas importantes del condicionamiento instrumental, este autor
estaba completamente disconforme con lo que había establecido Thorndike, una de las
razones era que Skinner pensaba que la manera en la que las respuestas habían sido
estudiadas no era una manera natural de estudiar estas respuestas. Por ejemplo, en el
caso de la caja y el gato, la respuesta instrumental de darle a la palanca para así poder
salir de la caja solo podía ser realizada por el gato una vez por ensayo, aquí podemos ver
como es una manera muy poco natural de responder, ya que por ejemplo en el
mundo real, en cualquier situación, nosotros podemos responder cuantas veces
queramos o podamos, pero no solo una, no existen restricciones en la manera que
nosotros respondemos.
El desarrolló una manera en la que se registrasen los datos de lo que hacía la rata, sin la
necesidad de estar el presente, y este instrumento es conocido como “el registro
acumulativo”, el cual se encarga de registrar automáticamente las respuesta del animal.
La manera en la que funciona esta máquina es con un rollo de papel que esta
conectado a una máquina y un boli sobre este papel, este boli esta conectado con la
palanca de la caja de manera que cuando el animal pulsa la palanca, este boli se mueve
verticalmente y sube como un escalón, mientras que si la rata no realiza ninguna
respuesta, el boli sigue haciendo una ralla horizontal. Dependiendo de la rapidez de la
respuesta de la rata, la pendiente de esta línea será de una manera o de otra.
Por ejemplo, imagínate que dices una frase muy amorosa y dulce delante de tu novio,
no tendría el mismo sentido decirlo delante de tu padre o de otra persona. Por lo que
3
la consecuencia de una respuesta particular dependerá de cual sea el estímulo
discriminativo ante el que estemos presente, es por ello que es muy importante saber
cuál es el estímulo discriminativo de una respuesta.
En particular, cuando hemos adquirido un hábito (hemos repetido muchas veces esa
respuesta) el estímulo discriminativo es capaz de hacer que el animal realice
automáticamente la respuesta, y esto ocurre incluso si no nos gustan las consecuencias.
Por ejemplo: imagina que una persona tiene un problema con el alcohol, va por la calle
y huele el olor a alcohol al pasar por delante de un bar, el olor (el estímulo
discriminativo) sería capaz por si mismo (si es alcohólica la persona) de hacer que esa
persona vaya a beber, aunque esta no quiera, es por este problema que es muy difícil
eliminar los problemas de adicciones.
2.2.- La respuesta:
La respuesta es definida por su efecto en el ambiente, es por ello que por ejemplo
aunque dos respuestas sean diferentes pueden ser consideradas una misma respuesta si
provocan el mismo efecto en el ambiente. Por ejemplo, tu puedes conseguir una misma
recompensa a través de diferentes respuestas.
Por ejemplo en el caso de la caja de Skinner, si dos ratas utilizan diferentes respuestas
para pulsar la palanca, por ejemplo una utiliza la boca y otra la pata, aunque sean dos
respuestas diferentes, si a través de ambas se consigue la misma recompensa, se
consideran respuestas idénticas.
4
• Encadenamiento: Se trata de un proceso por el que se enlazan comportamientos
empezando por el último de la cadena.
En el ejemplo del video podemos observar a una niña autista, que está siendo entrenada
por su madre para aprender a lavarse las manos. Veremos cómo guía a la niña para
completar toda la secuencia que debemos hacer para lavarnos las manos, coger el jabón,
abrir el grifo, enjabonarse las manos, aclararlas, secarlas… (son muchas respuestas
encadenadas). En este caso como recompensa se le presentan caramelos.
En el primer ensayo, vemos cómo reproduce con ella toda la secuencia, menos la
última, la de secarse las manos, que debe hacerlo la niña por su cuenta. Se le
recompensa. En el segundo ensayo vemos como vuelve a realizar la secuencia con ella,
esta vez, dejándole los dos últimos pasos, aclararse y secarse las manos por su
cuenta, una vez más se le recompensa. En el tercer ensayo, reproducirá toda la
secuencia con la niña, menos las tres últimas acciones, enjabonarse, aclararse, y secarse
las manos. Nuevamente se le recompensará. De esta manera procederemos
sucesivamente hasta que se realice todo el proceso de forma individual.
2.3.- La consecuencia:
Son los estímulos que provocan o conducen a una mayor probabilidad de una respuesta
en el futuro, es decir, estos reforzadores aumentan la probabilidad de que una respuesta
se dé y vuelva a repetirse en el futuro. Estos reforzadores, pueden ser primarios o
secundarios.
• Los primarios: son estímulos relacionados con una necesidad biológica del sujeto
como puede ser la comida o el sexo, todos estos reforzadores primarios, pueden ser
considerados como EI apetitivos.
• Los secundarios: son aquellos que naturalmente no tienen un valor reforzador, pero
cuando estos son asociados (a través de condicionamiento clásico por ejemplo) con
reforzadores primarios, estos adquieren sus propios valores reforzadores, por ejemplo el
dinero, biológicamente no tiene ningún valor, pero cualquiera de nuestras necesidades
biológicas si que pueden ser asociadas con el dinero, por ejemplo la comida, por lo
cuando se produzca esta asociación este adquirirá su propio valor reforzador el cual,
5
antes por si solo no tenía.
CASTIGOS:
Son totalmente lo contrario, son aquellos que conducen a una menor probabilidad
de que serepita una respuesta en el futuro.
En este caso el contraste negativo, hace referencia a que esperas una mayor cantidad
de recompensa, pero, sin embargo, recibes menos.
Tenemos dos formas en las que podemos obtener un reforzamiento. Tenemos una
versión:
6
respuesta y la consecuencia).
Ejemplo: Un padre le da a su hija una galleta cuando guarda sus juguetes; un profesor
elogia a un estudiante cuando éste entrega un buen informe; un empleado recibe un
bono en su cheque cuando se desempeña bien en el trabajo. Todos esos son ejemplos de
reforzamiento positivo. El reforzamiento positivo es un procedimiento en el que la
respuesta instrumental produce un estímulo apetitivo. Si la respuesta ocurre, se
presenta el estímulo apetitivo; en caso contrario no se presenta. Por consiguiente,
existe una contingencia positiva entre la respuesta instrumental y el estímulo apetitivo.
Los procedimientos de reforzamiento positivo producen un incremento en la tasa de
respuestas. Requerir que una rata hambrienta presione una palanca para obtener una
pellaes un ejemplo de reforzamiento positivo que es común en el laboratorio.
probablemente evitaremos ese parque, así que esa respuesta de evitar el parque es un
reforzamiento negativo, porque por hacer eso eliminamos el enfrentamiento a los
perros, y repetiremos ese comportamiento que tiene como consecuencia la eliminación
de algo que es malo para nosotros. (Contingencia negativa entre la respuesta y la
consecuencia).
Ejemplo: Abrir un paraguas para impedir que la lluvia lo moje, subir la ventana del
automóvil para reducir el viento que entra y ponerse los lentes de sol para protegerse
del brillo del sol de verano son ejemplos de reforzamiento negativo. En todos esos
casos, la respuesta instrumental termina un estímulo aversivo. Por lo tanto, existe una
contingencia negativa entre la respuesta instrumental y el estímulo aversivo. Los
procedimientos de reforzamiento negativo incrementan la respuesta instrumental. Es
más probable que se abra el paraguas si eso impide que uno se moje cuando llueve. La
gente tiende a confundir el reforzamiento negativo con el castigo. En ambos
procedimientos se emplea un estímulo aversivo. Sin embargo, la relación de la
respuesta instrumental con el estímulo aversivo es del todo diferente. En los
procedimientos de castigo, la respuesta instrumental produce el estímulo aversivo y la
contingencia entre la respuesta instrumental y el estímulo aversivo es positiva. En
7
contraste, en el reforzamiento negativo la respuesta termina el estímulo aversivo y
existe una contingencia negativa entre respuesta y resultado. Esta diferencia en la
contingencia produce resultados muy diferentes. El castigo disminuye la respuesta
instrumental mientras que el reforzamiento negativo la incrementa.
¿Qué significa castigo? Significa que una vez que se haya producido el
entrenamiento habrá una disminución en la probabilidad de que se dé la respuesta o el
comportamiento en el futuro.
Tenemos dos formas en las que podemos obtener un castigo. Tenemos una versión:
• Castigo positivo: Se refiere a que después de la respuesta, el castigo tendrá lugar, pasará
algo aversivo que no nos gustará. Tiene como objetivo que disminuya la probabilidad
dela respuesta en un futuro.
Una madre regaña a su hijo por correr en la calle; su jefe lo critica por llegar tarde a una
reunión; un maestro le asigna una calificación reprobatoria por dar una respuesta
incorrecta a muchas preguntas del examen. Esos son ejemplos de castigo. En un
procedimiento de castigo, la respuesta instrumental produce un evento desagradable o
aversivo. Existe una contingencia positiva entre la respuesta instrumental y el estímulo
resultante (la respuesta produce el resultado), pero el resultado es un estímulo aversivo.
Los procedimientos eficaces de castigo producen una disminución en la respuesta
instrumental.
8
positivo, como jugar con las amigas o ver televisión. Suspenderle a alguien la licencia
de conducir por hacerlo ebrio también constituye un entrenamiento por omisión (retirar
el placer y el privilegio de conducir).
• Positivo: quiere decir que después de ejecutar la respuesta algo va a aparecer o ocurrir
en tu entorno, es decir, existe una contingencia positiva entre la respuesta y la
consecuencia, si haces uno, aparecerá el otro.
• Negativo: existe una contingencia negativa entre la respuesta y la consecuencia, es
decir, cuando hacemos una cosa, y debido a eso, hacemos que la consecuencia no
ocurra.
EJEMPLO A MODO DE CURIOSIDAD:
9
entrenamiento por omisión o RDO.
El estudio con Bridget ilustra varios principios conductuales que también son evidentes
en otras situaciones. Un principio general es que la atención es un reforzador muy
poderoso para la conducta humana.
Pueden desarrollarse, incluso, respuestas que son nocivas para el individuo si dichas
respuestas son reforzadas positivamente con atención. Desafortunadamente, es difícil
ignorar algunas respuestas, pero al atenderlas se puede estar proporcionando
reforzamiento positivo.
10
Es difícil ignorar a un niño que se porta mal en una tienda o en un restaurante, pero
prestarle atención puede alentar la mala conducta. Muchas formas de conducta
perturbadora se desarrollan por la atención que reciben. Como en el caso de Bridget, la
mejor terapia consiste en ignorar la conducta perturbadora y prestar atención cuando el
niño hace otra cosa, aunque no es sencillo reforzar deliberadamente otra conducta, ya
que se requiere esfuerzo consciente y disciplina por parte del padre o el maestro.
Recordemos que en el condicionamiento clásico debía haber muy poco tiempo entre
el EC y el EI, pero aquí la relación será entre la respuesta y la consecuencia, por lo que
para que el condicionamiento instrumental tenga lugar la consecuencia o
recompensa debe de serpresentada inmediatamente después de la respuesta.
Ahora bien, en este gráfico se muestran tres situaciones diferentes, por un lado la
curva del medio representa los 4 segundos existen entre que la rata pulsa la palanca y
recibe la recompensa, la superior de esta, representa como inmediatamente tras la rata
11
presionar la palanca recibe la recompensa, y por último la línea que se encuentra por
debajo de estas dos representa los 10 segundos que tarda el experimentador en
proporcionarle la recompensa a larata tras esta haber presionado la palanca.
Por otro lado, cabe mencionar, el término autocontrol, que hace referencia a la
disposición de un individuo a renunciar a una pequeña recompensa inmediata (se
controla ante una recompensa inmediata) a favor de una recompensa futura más grande
(espera a una recompensa con mayor retraso).
Para esto se llevó a cabo un experimento con niños, en el que se les ponían un caramelo
delante durante un tiempo determinado y dónde se les decía que podían comérselo en el
momento, pero que si esperaban en vez de uno tendrían dos. El experimentador,
pudo seguirles la pista a los niños con los que se llevó a cabo el experimento y llegó
a la conclusión de que aquellos niños que fueron capaces de controlarse sin comerse el
caramelo tenían mejores resultados académicos además de resultados más exitosos a la
hora de tener un trabajo…
Por lo tanto, necesitamos que el individuo aprenda que es la respuesta la que produce la
recompensa. Por ello necesitamos que esa contingencia sea alta y positiva. (Siendo la
probabilidad de la recompensa sin una previa respuesta cercana a 0)
Para un aprendizaje instrumental adecuado, el sujeto tiene que aprender que la respuesta
es la mejor herramienta para obtener el reforzador.
Así que aquellas recompensas libres (aquellas que se han dado sin que haya una
respuesta previa) son muy perjudiciales para el aprendizaje instrumental adecuado,
12
debido al deterioro contingente, por que de esta manera aumentaría la probabilidad de
que se de la recompensa sinla respuesta.
En otras palabras, ¿qué pasaría si hagas lo que hagas, es decir, hagas o no hagas la
respuesta, recibes un estímulo aversivo?
Pues precisamente esto es lo que se plantearon dos científicos hace ya algunos años y
descubrieron lo que se conoce por “el efecto de indefensión aprendida”, este es un
efecto muy importante en la psicología del aprendizaje.
A continuación, veremos el experimento original que fue llevado a cabo con perros,
pero que ha sido replicado de muchas maneras y todos coinciden con los mismos
resultados.
El experimento fue llevado a cabo con tres grupos de perros (el diseño triádico), en el
que todos fueron sometidos a dos tareas, una primera tarea denominada pre-exposición
y la otra el condicionamiento.
En segundo lugar, tenemos al “Yoked Group”, los animales de estos grupos también
recibían un shock eléctrico al mismo tiempo que los animales del “Escapable Group”
lo recibían, pero para estos animales estos shocks eran inevitables, porque daba igual lo
que hiciesen que no podían evitarlo ni escapar.
13
Por último, tenemos el grupo control, que simplemente estaban expuestos al aparato,
pero no recibían ningún shock ni nada por el estilo. A partir de aquí, todos los grupos
cambiaron de tarea, a una similar, sin embargo, en esta ocasión los tres grupos de
perros recibían un shock eléctrico, pero el cual todos podían evitar.
Los resultados que se obtuvieron hacen referencia a como de bien o cómo de mal
aprendieron esta segunda tarea de condicionamiento.
RESULTADOS:
El primer grupo de perros, fueron capaces de aprender esta segunda tarea muy rápido.
Es decir, adquirieron la respuesta instrumental rápidamente para así evitar el shock. El
grupo control, también adquirieron la respuesta instrumental para evitar el shock
rápidamente.
No pasó lo mismo con el segundo grupo, difícilmente pudieron aprender esta segunda
tarea. Las dificultades de este segundo grupo no estaban basadas únicamente en
dificultades cognitivas, sino que estaba producidas a su vez por un déficit de motivación
y emocional.
Asumieron que los shocks no podían ser evitados de ninguna forma, y por eso los
pobres perritos abandonaron todos sus esfuerzos por evitarlos.
14
Actualmente se ha investigado que existe cierto paralelismo entre los síntomas
asociados a este efecto de indefensión aprendida y los síntomas asociados a un tipo
particular de depresión llamada depresión reactiva, esta depresión aparece después de
una experiencia traumática, como por ejemplo la muerte de un familiar. Estos síntomas
son tanto motivacionales, cognitivos, sociales…
Es por ello por lo que se cree, que detrás de este tipo de depresión podría estar el
aprendizajepor impotencia, al no poder controlar ciertas experiencias.
Intentaron enseñarle a un cerdo una respuesta muy simple, meter una moneda dentro de
una hucha. Pero el animal no pudo aprenderlo, lo intentaron de todas las maneras, con
distintos cerdos… pero ninguno aprendió esa aparente simple respuesta.
Todo esto pareció sorprendente ya que como hemos mencionado anteriormente, los
cerdos por ejemplo son capaces de aprender cosas mucho más complicadas que esta.
Lo que observaron es que los cerdos intentaban morder la moneda o tragársela, y lo que
había detrás de este experimento fallido, es lo que denominaron la interferencia de la
15
“deriva instintiva”, que se basa en la idea de que cuando intentas enseñarle a alguien
una respuesta que es incompatible con el instinto de reacción de los participantes, no
puedes enseñarle esa respuesta instrumental. Porque los experimentadores pretendían
que lanzasen la moneda, pero la moneda estaba previamente asociada con la comida, por
lo que no iban a aprender a tirar la comida, por que existía una contradicción entre la
respuesta instrumental objetivo y el instinto del animal.
16
Este experimento (estudio del laberinto) fue llevado a cabo por ratas bebés, el
reforzamiento era leche, y la respuesta que se registraba era la velocidad a la que corrían
las ratas en un simple corredor recto.
En una de las condiciones las ratas bebes recibían la leche después de cada respuesta.
Cada vez que las ratas iban de una punta del corredor a la otra, recibían la leche. Este
reforzador es continuo.
Pero en la otra condición experimental las ratas bebes recibían leche, pero no en todos
los ensayos. Algunas veces encontraban leche y otras no.
En la parte izquierda del gráfico tenemos la fase de Adquisición para los dos grupos de
ratas. El reforzamiento continuo está representado con círculos negros y los círculos
blancos representan larespuesta de las ratas ante el reforzamiento parcial.
Cómo podemos observar hay un incremento en la velocidad de las ratas en las dos
condiciones alcompletar el entrenamiento completo.
CONCLUSIÓN:
17
5.1.¿Por qué estos efectos paradójicos?:
Cuanto mayor sea la expectativa del reforzador, más frustración producirá su ausencia,
y la extinción será más rápido. De esta manera entendemos el efecto del sobre-
entrenamiento porque tenemos un entrenamiento más largo, una mejor expectativa una
mayor experiencia con el reforzador...
El efecto del reforzamiento parcial también podemos explicarlo por esta teoría porque
si hemos sido entrenados con el reforzamiento parcial, y no hemos sido recompensados
consistentemente después de realizar una respuesta nos habremos acostumbrado a sentir
cierto grado de frustración, porque ha sido lo que hemos estado aprendiendo durante la
fase de adquisición.
Y si ahora no recibimos ningún reforzador, como hemos aprendido que unas veces sí,
unas veces no, estaremos acostumbrados y por tanto la extinción será más lenta.
De acuerdo con esta teoría sobre la memoria, los participantes pueden recordar si fueron
reforzados o no en el pasado reciente. Por lo tanto, en el refuerzo parcial, la memoria de
no recompensa se convierte en una señal para la disponibilidad del reforzador en un
ensayo posterior. Ya que al recordar que a veces recibías recompensa y a veces no,
siempre tienes esa esperanza y por lo tanto persistes en las respuestas. Y es por esto, que
resulta más complicado extinguir una respuesta la cuál ha sido entrenada por un
reforzador parcial.
18
TEMA 4.2: PROGRAMAS DE REFORZAMIENTO, COMPORTAMIENTO
DE ELECCIÓN Y REGULACIÓN DEL COMPORTAMIENTO:
1.- PROGRAMAS DE REFORZAMIENTO:
La idea de los programas de reforzamiento es que para obtener un condicionamiento
instrumental no es necesario reforzar o proporcionar siempre una recompensa después de
cada respuesta, es decir, la recompensa no tiene que ser presentada siempre para que
ocurra el condicionamiento instrumental, y es que así es como ocurre en la vida real,
nosotros no obtenemos una recompensa cada vez que realizamos una determinada
conducta pero aunque esto ocurra así, si que existe un condicionamiento instrumental.
Por otro lado, tenemos el reforzamiento parcial o intermitente, en el cual no todas las
respuestasvendrán acompañadas de una recompensa, si somos ratas, por ejemplo, cuando
presionemos la palanca, habrá veces que recibamos comida y otras que no. Por lo que
para saber cuándo una respuesta recibirá una recompensa o no, necesitaremos establecer
un criterio o una regla.
- Razón Fija: El número de respuestas que debemos de emitir siempre será el mismopara
obtener el reforzamiento. Si tenemos una razón de 3, la recompensa no vendráni con la
primera, ni con la segunda respuesta, sino con la tercera.
1
Pero si obtenemos la media del número de respuestas que se han dado, ese número será
3.
• Programa de intervalo: Este otro criterio no está basado en el número de respuestas que
debe darse, sino en el tiempo, es decir, este criterio establece el periodo de tiempo que se
tendrá que esperar entre la obtención de un reforzador y otro (Criterio temporal). En este
caso la recompensa no se presentará siempre, sino que lo hará en un cierto intervalo de
tiempo desde la última vez que se presentó.
• Intervalo Fijo: Siempre será el mismo tiempo de espera.
• Intervalo Variable: El tiempo va variando, a veces es cada 1 minuto, cada 30
segundos …
Ej: Una rata es recompensada cuando presiona la barra, pero el programa de intervalo
fijo es de 1 minuto, esto significa que cuando presione la barra, tendrá que esperar un
minuto poder obtener la recompensa, por lo que, si durante ese minuto la presiona, no
obtendrá nada. Aunque debemos de recordar que no basta con que haya concluido el
intervalo fijo para que se presente el reforzamiento; una vez que concluye ese intervalo
el reforzamiento está disponible, pero el organismo debe responder para obtenerlo, por
lo que en este casola rata tendrá que volver a presionar la barra para obtener el
reforzador.
RF (programa de razón fija): Una de las propiedades es que la tasa de respuesta puede
ser inestable en este tipo de programas cuando la proporción de respuestas requeridas es
alta, es decir, que ante un número muy alto de respuestas requeridas para obtener el
reforzador, la tasa derespuesta del sujeto no será estable. (se dará lo que se conoce como
pausa posreforzamiento)
Por ejemplo: hubo un experimento donde una paloma tenía que picar x veces en una luz
para obtener el reforzador. En el primer caso el RF es 50, lo que significa que la paloma
teniaque picotear 50 veces la luz para obtener el reforzador, y como podemos ver se puede
considerar que la tasa de respuesta es mas o menos estable y constante, ya que no podemos
ver ninguna parada en el comportamiento de la paloma, porque esas paradas se
representarían como lineas horizontales en la gráfica y no es el caso.
2
¿Qué ocurre si aumentamos la demanda?, por ejemplo, en el segundo caso vemos que se
ha duplicado las respuestas requeridas, siendo 100 RF, en este caso podemos ver cómo
existenpequeñas líneas horizontales, por lo que podemos observar que si aumentamos la
demanda podemos observar pequeñas paradas en el comportamiento de la paloma. Y
ya en el casode que aumentemos la demanda a 150 RF, podemos ver cómo existen
mayores paradas del comportamiento (flechas azules) de la paloma, es decir, de manera
temporal la paloma dejar de picotear.
En el último caso, podemos observar cómo existen lineas verticales (puntitos) muy chicas
antes de cada parada, que representan cuando se le ha entregado el reforzador al animal,
deesta manera justo después de recibir el reforzador, el animal se quedará un rato parado,
esto se conoce como la pausa posreforzamiento. Por esto podemos ver como la tasa de
respuesta es inestable, porque a veces tras haber entregado el reforzador la paloma
empiezade nuevo a picotear rápido y no hay pausa, o pasa todo lo contrario, y la paloma
espera un determinado tiempo antes de volver a picotear de nuevo.
Es como que acaba de obtenerlo y sabe que tendrá que trabajar mucho otra vez para
obtenerlo, por lo que todavía no tiene motivación para empezar, no tiene ganas, no es
queno lo necesite porque por ejemplo en el caso que fuera comida el reforzador, a lo
mejor la paloma si que tiene hambre, pero como no tiene motivación para hacerlo se
tomará una pausa y ya después cuando tenga la motivación necesaria comenzará de
nuevo.
3
Si estamos en un intervalo fijo, por ejemplo los animales tienen que esperar un tiempo X
para obtener un reforzador, por ejemplo comida, los animales aprenden que tienen que
esperar tras la exposición del reforzador un determinado periodo de tiempo para volver a
obtenerlo, por lo que aprenden a hacer esa pausa, y tras esta pausa la tasa de respuesta de
los animales aumentará poco a poco de manera gradual. Si por algún motivo no queremos
estas pausas, deberíamos usar un intervalo variable, ya que así el animal no sabe cuánto
tiempo tiene que esperar, y por lo tantono hará pausas.
Las flechas en la imagen representan cuando se ha recibido el reforzador, que en este caso
se representa cada 10 segundos.
Para poder responder a esta pregunta deberemos preguntarnos antes esta otra, ¿Por qué
estas pausas ocurren?
4
reforzada la siguiente no lo será por lo que no tiene motivación, y de la misma manera en
el IF, si la ultima respuesta ha sido reforzada, esperaremos un determinado periodo de
tiempo, ya que, si la próxima respuesta sehace inmediatamente, sabemos que esta no
será reforzada. Básicamente lo que hemos mencionado previamente.
Podrán evitarse, por lo tanto, cambiando ese radio fijo, por uno variable y el intervalo fijo
por una variable, es decir, ambos pasarán de ser fijos a ser variables, y de esta manera
esas pausas posreforzamiento desaparecerán ya que al ser variable nunca podremos saber
con seguridad cuando la respuesta va a ser reforzada o no.
En la foto de abajo, podemos ver que al ser ambos “variables” no se genera ninguna pausa
del comportamiento, ya que el individuo nunca sabe con exactitud cuándo llegará el
siguiente reforzador. Ambos tipos de programa generan curvas de respuestas estables
sin largos periodosde inactividad, pero sin embargo, cuando comparamos las dos, RV y
IV, veremos que existe una diferencia entre ambas, y es que con los programas de razón
variable se produce una mayor tasa de respuesta que con los programas de intervalo
variable.
Esto ocurre porque en el RV cuanto más respondas, mas reforzadores obtendrás, es decir,
si continuas respondiendo de manera continua obtendrás más recompensas.
5
Entonces podemos concluir que en los programas de intervalo variable, no se esta
recompensando o reforzando directamente la tasa de respuesta, es por ello, que para
entrenar y conseguir una alta tasa de respuesta se debe de entrenar mediante programas
de razónvariable.
En este caso podemos ver que esta situación esta basado en un RV, ya que así sabemos
que obtendremos una mayor tasa de respuesta que si se basa en un IV, como hemos
explicado anteriormente.
En esta caso podemos ver cómo esta basado en el IF, ya que les refuerzo esta disponible
cada media hora.
6
En este caso podemos ver cómo está basado en el RF, ya que les refuerzo está disponible
cada cierto número de respuestas realizadas, este es el ejemplo que hemos puesto antes
sobre el dependiente de la tienda.
La recompensa aquí sería ver algún mensaje nuevo, y la respuesta sería comprobar el
correo, podemos ver que se trata de un IV, ya que no porque tu entres más veces no vas
a tener más correos, por lo que no es de radio, y es variable porque no sabemos seguro
cuando los mensajes van a llegar.
Aquí cuantas más vendas, más dinero tendrás, por lo que sería un RF.
Cada vez que el limpia una planta descansa un rato, por lo que esa es la recompensa, aquí
veríamos que es un RF, ya que cada vez que limpia una planta, el obtendrá la recompensa,
que es descansar un rato.
Programas concurrentes: una paloma está dentro de una caja con dos teclas, la tecla A
y la tecla
B. La paloma obtiene comida por picotear la tecla A a intervalos de dos minutos o por
picotear latecla B a intervalos de un minuto. ¿Qué debe hacer?
7
Si vemos el problema con lógica, en un intervalo de dos minutos la paloma puede obtener
dos bolitas de comida por picotear en B pero sólo una por picotear en A. Por lo que
podrías pensarque la paloma debe concentrarse en la tecla B e ignorar la tecla A. Pero si
el experimento continúa por más de unos cuantos minutos, hay una bolita de comida
a la espera de ser entregada encuanto la paloma picotee en A, y si la paloma ignora por
completo a A nunca obtendrá esta.
Por lo tanto, la conducta óptima es una estrategia que permite a la paloma maximizar
la cantidadde comida que puede obtener de ambas teclas, la cual puede consistir en
asignar la mayor parte del esfuerzo a B y cambiar en ocasiones a A, sólo para revisar.
¿Podemos hacer una predicción másprecisa de cómo distribuirá la paloma su tiempo?
COMPORTAMIENTO HOMEOSTÁTICO:
8
El individuo distribuirá los recursos de una manera que maximice su “valor subjetivo” o
“satisfacción”. Se conoce como punto de éxtasis a la distribución de recursos que
proporciona el máximo valor subjetivo. Para determinar el punto de éxtasis de un
individuo sólo tenemos que registrar lo que éste elige hacer.
Una respuesta que te guste mucho según tu punto de felicidad, pueden servir para reforzar
respuestas que te gusten menos, y básicamente este es el principio de Premack, el hecho
de que una conducta que te guste actúe como reforzador e incremente la probabilidad de
una conducta que en otras condiciones sería poco frecuente.
Por ejemplo: un grupo de niños en una habitación donde había una máquina de juegos y
un tazón con dulces y se registró cuánto tiempo dedicaba cada niño a jugar en la máquina
9
y a comer dulces. Algunos niños pasaron más tiempo jugando. Entonces, Premack
restringió el acceso a la máquina de juegos y sólo les permitía jugar después de que
hubieran comido algunos dulces. La ingesta de dulces se incrementó, lo que demostró que
el acceso a la actividad preferida (jugar) podía reforzar una actividad menos preferida
(comer dulces).
Por ejemplo: si se les da la oportunidad de elegir, la mayoría de los niños dedicarán más
tiempo a ver televisión que a hacer la tarea. De manera que ver televisión es una
actividad preferida ypuede usarse para reforzar la actividad menos preferida de hacer la
tarea. Si los padres restringen el tiempo de televisión y lo condicionan a hacer la tarea, el
niño dedicará más tiempo a hacer la tarea del que dedicaría, con la intención de
posteriormente poder ver la televisión.
10
TEMA 4.3.- EVITACIÓN Y CASTIGO:
1.- INTRODUCCIÓN:
El miedo, el dolor y la decepción son una parte inevitable de la vida, por lo cual no
sorprende nuestro interés en la manera en que la conducta es controlada por estímulos
aversivos. En el estudio del control aversivo se han investigado dos procedimientos: la
evitación y el castigo. En un procedimiento de evitación el individuo realiza una
respuesta específica para impedir lapresentación de un estímulo aversivo. Por ejemplo,
usted puede agarrarse del pasamanos parano resbalarse. El procedimiento de evitación
incluye una contingencia negativa entre una respuesta instrumental y el estímulo
aversivo: si se realiza la respuesta se omite el estímulo aversivo. En contraste, el castigo
involucra una contingencia positiva: la respuesta objetivoproduce el resultado aversivo.
Si toca una estufa caliente se va a quemar.
1
En este caso la consecuencia es un estímulo negativo, y la rata repite esa respuesta porque
aprende que con esa respuesta podrá evitar o escapar de dicho estímulo negativo, por
lo que si la rata realiza la conducta que estamos entrenado, está escapará del estímulo
aversivo.
2
Este ejemplo que hemos explicado, se conoce como “evitación de vaivén en un
sentido”, pero también podemos encontrar lo que se conoce como “evitación de vaivén
en dos sentidos”, en el que los compartimentos son intercambiables, es decir, no son fijos
por lo tanto el animal se moverá en direcciones diferentes durante los diferentes ensayos.
Debemos de mencionar que la rata no aprenderá los dos procedimientos con la misma
facilidad, ya que para la rata aprender la “evitación de vaivén en dos sentidos” será más
difícil.
También tenemos que ver la diferencia entre los ensayos de escape y los de evitación, ya
que al principio el animal verá la luz verde, no hará nada y por lo tanto recibirá la descarga
eléctrica, e intentará escapar, sin embargo, el aprendizaje se ha producido la rata verá la
luz verde y nada másque ésta se encienda, se cambiará de compartimento para evitar
la descarga eléctrica. Por lotanto en este ensayo de evitación la rata no llegará a recibir
la descarga porque se anticipa, mientras que en el ensayo de escape si que la recibe.
3
Tras explicar esto, intentaremos responder a la pregunta que establecimos antes. En esta
teoría existen dos procesos, como se puede deducir por su propio nombre, el primero de
ellos es condicionamiento clásico, lo que quiere decir que aunque los hayamos estudiado
de maneras separadas, a veces podemos encontrar que en una situación de
condicionamiento instrumental, también se puede dar condicionamiento clásico.
Pero podemos preguntar ¿por qué de todas las respuestas que son motivadas por el miedo,
es la de cambiarse de compartimento la respuesta que más se repite?, para entender
esto tenemos que hablar del segundo proceso de la teoría, que es el proceso de
condicionamiento instrumental.
El animal salta por el miedo que siente ante el estímulo discriminativo, ya que
previamente ha asociado dicho estímulo a la descarga eléctrica, y por lo tanto selecciona
y realiza esa respuesta ya que es la única capaz de eliminar la fuente de miedo del animal,
que es la luz verde, ya que cambiándose de compartimento la luz verde se apagará.
Nos podemos hacer la siguiente pregunta, y es ¿sirve solo esta teoría para explicar el
aprendizaje de evitación?, es decir, sirve esta teoría de los dos procesos para explicar
cualquier tipo de respuesta instrumental o solo para explicar el aprendizaje de evitación.
4
Podemos poner un ejemplo en el que una rata pulsa un botón para obtener comida, que
puedeser considerada como la recompensa pero también como el EI. Además añadiremos
un estímulo discriminativo, que será una luz, la cual le indicará al animal que si realiza la
respuesta obtendrá comida. Aunque es cierto que no es del todo necesario incluir la luz,
ya que la misma caja de Skinner podría actuar como estímulo discriminativo, ya que
también solo en este contexto la rata podrá pulsar el botón.
Podemos decir que sea cual sea el ED, este será asociado a la recompensa o al reforzador
que en este caso es la comida y esto se realizará a través de condicionamiento clásico,
obviamente en este caso no será miedo lo que se condicione, pero será esperanza
por ejemplo, entonces cuando la rata vea la luz sabrá que podrá obtener comida. El
segundo proceso sería cuando el animal está motivado por esa emoción, esa esperanza, y
ello le llevará a pulsar el botón, es decir, le llevará a realizar la respuesta instrumental.
En conclusión, podemos decir que existen dos asociaciones en la mente de la rata, por un
lado, la asociación del condicionamiento clásico entre el estímulo discriminativo o el
EC y la comida, y por otra parte la asociación producida por el condicionamiento
instrumentalentre la respuesta instrumental y la consecuencia, que es obtener la comida.
5
Este experimento está compuesto por un total de tres fases: la fase 1, la fase 2 y la
tercer fase
En base a la teoría de los dos procesos, la conducta de pulsar el botón debería de estar
motivada debido a la emoción que se ha condicionado, la esperanza de que van obtener
comida. De la misma manera, que en la segunda fase también podemos pensar que los
animales han adquirido ese estado emocional. Por ello en esta tercera fase, en la primera
condición los animales tienen la capacidad de pulsar el botón al mismo tiempo que
escuchan el tono, por lo tanto asumimos que pulsar el botón está motivado por la emoción
que sienten los animales, además también tienen la misma emoción debido a que también
está presente el tono, es por ello que los animales en esta condición pulsarán el botón más
veces y más fuerte que en cualquiera de las dos fases anteriores, mientras que aquellos
que estén en la situación en la que no existe el tono, solo tendrán la motivación asociada
al pulsador y no existirá ninguna emoción añadida.
6
Por lo que, para concluir, podemos decir que el tono facilita la pulsación del botón en
comparación con el grupo control, en el que no existe o que no se encuentra presente el
tono durante el transfer test.
Así, la teoría de dos procesos asume que la respuesta instrumental es motivada en parte
por: respuestas emocionales condicionadas + expectativas sobre el refuerzo específico.
OTRO EXPERIMENTO:
Si el tono está asociado con el shock, ¿qué pasará con la respuesta instrumental?
El tono inducirá una respuesta emocional condicionada (miedo) que interferirá con la
esperanza (respuestas subyacentes durante la prueba) y, como consecuencia, las
respuestas instrumentalesdisminuirán e incluso pueden congelarse completamente si el
miedo es lo suficientemente fuerte (supresión condicionada).
De acuerdo con la hipótesis, las señales de seguridad que acompañan a las respuestas de
evitación pueden proporcionar reforzamiento positivo para la conducta de evitación.
7
De acuerdo a esta hipótesis, imaginemos que somos la rata en la caja de vaivén y
imaginemos que ya hemos sido expuestos al estímulo discriminativo, por lo que nada
más verlo intentamos huir del yendo hacia el otro compartimento de dicha caja, al
compartimento seguro. En ese momento, asociaremos ese compartimento o esa parte de
la caja con “seguridad”, porque en esa parte de la caja nunca hemos recibido la descarga,
es por ello que los estímulos espaciales, táctiles y propioceptivos que acompañan de
manera inevitable a la respuesta de evitación se convierten en señales de seguridad.
Es lo que dice esta hipótesis, que las señales asociadas al compartiendo seguro, se
convertirán también en una recompensa o en un refuerzo de la respuesta de la evitación.
Incluso se ha comprobado que, si se incluye en ese compartimento seguro estímulos
condicionados específicos como ruidos o luces después de la respuesta de evitación, no
solo el estímulo discriminativo desaparece, sino que también aparecen estas señales de
seguridad, serán estas señales las que faciliten el aprendizaje de evitación. Es decir, si
después de realizar la conducta correcta de cambiarte de compartimento para evitar la
descarga, el animal es expuesto a estas señales específicas, estas acelerarán el proceso de
aprendizaje asociado con la evitación.
En resumen, podemos decir que existen diferentes maneras que nos ayudan a
aprender larespuesta de evitación, por un lado, encontramos la reducción del miedo (la
explicación asociadaa la teoría de los dos procesos) y por otro lado encontramos la
adquisición de seguridad (asociado a la hipótesis de la señal de seguridad).
Las respuestas de evitación son muy relevantes desde una perspectiva clínica, ya que una
gran variedad de trastornos mentales incluye este tipo de respuestas por parte del
paciente. Por loque estas respuestas son una forma muy disfuncional de responder,
8
característica de muchas patologías como pueden ser los trastornos de ansiedad, los
trastornos obsesivos compulsivos, lasadicciones…
Imagínate que tienes una fobia a viajar, y tienes que ir a Barcelona por temas de trabajo
por loque tendrás que coger un avión, en este caso seguro que lo evitaras, y cogerás un
tren para ir a Barcelona en vez de coger un avión.
En este caso podemos ver cómo se evitaría dicha fobia, y a corto plazo obtendríamos
unatranquilidad, porque sabemos que no vamos a tener que estar expuestos a ese
miedo quesentimos cuando estamos en un avión.
Pero ¿que ocurre a largo plazo?, pues ocurre que esa evitación de coger el avión, es lo
que esta haciendo que mantengamos esa fobia y no la superemos, es por ello que estas
respuestas de evitación que son disfuncionales deberían de ser completamente
eliminadas.
Pongamos el ejemplo que pongamos, lo que queremos decir que estas respuestas de
evitación pueden ser la solución a corto plazo, ya que a través de ellas evitamos algo que
no nos gusta, pero sin embargo estas respuestas son muy disfuncionales a largo plazo, ya
que son las encargadas de mantener la fobia, la adicción, el TOC o lo que sea que
tengamos.
9
¿POR QUÉ ES TAN DISFUNCIONAL?:
Entonces estas respuestas de evitación son tan disfuncionales porque no nos dejan darnos
cuentaque estas consecuencias aversivas que esperamos no van a ocurrir, y lo único que
hacen es mantener e incluso incrementar el TOC, la fobia o de lo que se trate. Otro
ejemplo sería el de las manos que hemos puesto antes, aunque pensemos que por no
lavarnos las manos vamos a cogerun virus, si no nos las lavásemos nos daríamos cuenta
de que no nos pasaría nada.
Las respuestas de evitación son posibles de extinguir, aunque este proceso es muy
complicado, ya que aunque tras varios ensayos nos demos cuenta de que la respuesta de
evitación no tenia sentido y veamos que no ocurre nada negativo, los efectos de esta
evitación son muy duraderos por lo tanto son muy difíciles de eliminar.
• Por ejemplo: imagínate que tenemos fobia a los perros y sabemos que una calle
determinadasiempre esta llena de perros por lo que la evitamos, y cogeremos otra
nueva ruta en la que sabremos que no nos encontraremos a ningún perro. De esta
manera, aunque la respuesta deevitación se haya adquirido únicamente en varios
ensayos, esta respuesta tendrá efectos muy duraderos a largo plazo, aunque con
esfuerzo podremos eliminarlos.
Para hacerlo tendremos que prestar atención a la teoría de los dos procesos, ya que
sabemos queesta respuesta de evitación era causada por el primer proceso, que era el
condicionamiento del miedo. Por lo que si exponemos al paciente al estímulo
discriminativo y le hacemos ver que no ocurre nada tras la exposición del mismo,
10
conseguiremos extinguir la respuesta emocional condicionada y por lo tanto la
motivación (el miedo) para realizar la respuesta de evitación no existirá.
Pero debemos de tener en cuenta, que no solo tenemos que exponer al paciente al estímulo
discriminativo, sino que también el paciente tendrá que ser prevenido de realizar la
respuesta es evitación, es decir, tenemos que asegurarnos de que el paciente no realice
dicha respuesta de evitación.
3.- EL CASTIGO:
En este tema, también vamos a ver cómo los castigos pueden controlar y afectar a nuestro
comportamiento. En los ejemplos anteriores podemos ver cómo el castigo (la
consecuencia a la que tememos) puede controlar nuestra conducta, produciendo una
respuesta de evitación con la intención de evitar dicho castigo.
En el caso anterior existía una contingencia negativa, es decir, nosotros hacíamos X para
evitar Y,pero en este apartado vamos a ver cómo muchas veces nuestra conducta X puede
generar ciertasconsecuencias aversivas, es por ello que podemos decir que vamos a hablar
de castigo positivo.
Aquí veremos que una respuesta instrumental provoca un estímulo aversivo, y nuestra
intención es suprimir o disminuir la probabilidad de que se genere dicha respuesta.
Sabemos que laestimulación aversiva es inevitable en la vida real, pero ¿cómo de efectivo
puede llegar a ser usar este tipo de estimulación aversiva para controlar nuestro
comportamiento?.
La respuesta a esta pregunta es que, hay ciertos momentos o condiciones en los que usar
este tipo de estimulación puede ser efectiva para controlar o modificar nuestro
comportamiento, aunque desde el punto de vista de Thorndike y Skinner era todo lo
contrario, ellos pensaban que este tipo de estimulación era un mal camino para controlar
nuestra conducta, aunque esto se ha descubierto que no es del todo cierto, ya que si que
existe condiciones en las que este tipo de estimulación se puede emplear para controlar
algún tipo de comportamiento que no es deseado.
Una cosa muy importante a destacar es que en la psicología del aprendizaje no se castigan
a las personas, se castigan a determinadas respuestas.
11
3.1.1.- INTENSIDAD Y EL MÉTODO DE INTRODUCCIÓN:
El primer factor que vamos a ver va a ser la intensidad y el método de introducción o
de presentación del castigo. Si desde el inicio del castigo se emplea una descarga de alta
intensidad,la supresión de la respuesta será considerable. Sin embargo, si el castigo sólo
alcanza una intensidad elevada después de un aumento gradual, la supresión de la
respuesta será mucho menor. Este es un hallazgo muy importante, pues demuestra que la
exposición a un castigo de baja intensidad genera resistencia e inmuniza al sujeto contra
los efectos del castigo más severo.
• Por ejemplo: pasar dos semanas en la cárcel no es una experiencia tan perturbadora
paraalguien que se ha acostumbrado a periodos más cortos de encarcelamiento.
3.1.2.- LA CONTIGÜIDAD:
El segundo factor que vamos a considerar es la contigüidad. Debe de existir una muy
buena contigüidad entre la respuesta que queremos castigar y la estimulación aversiva, es
decir, esta estimulación negativa tiene que ser inmediatamente aplicada tras la
ejecución de la respuestaque queremos castigar. Cuanta menos contigüidad exista,
menos efectiva será la estimulación aversiva.
3.1.3.- LA CONTINGENCIA:
El tercer factor que vamos a considerar es la contingencia. Para que el proceso del castigo
sea efectivo, debemos de asegurarnos que únicamente esa respuesta sea la que provoque
esecastigo, es decir, ese castigo no debería de ocurrir con ninguna otra respuesta.
Otro factor a tener en cuenta son los programas de castigo. En los casos de castigo un
programade razón fija de 1, es el programa más efectivo, ya que se castiga todo el rato,
después de cada respuesta instrumental se presenta el castigo. Por lo que podemos deducir
que cuanto mayor sea el programa de razón, menor será la efectividad en la supresión de
la conducta, sin embargo, aunque el programa de razón tenga un valor de 1000, siempre
se producirá una disminución en la respuesta, por muy mínima que sea.
12
Aunque debemos de decir que si esa respuesta que ahora queremos reducir
castigándola, ha sido previamente reforzada positivamente con un reforzador muy
poderoso, el castigo no será efectivo para reducir esa respuesta instrumental, es decir, si
una respuesta ha sido muy bien reforzada positivamente, será imposible después reducir
su probabilidad de ejecución castigándola. Esto ocurre porque dicha respuesta se ha
convertido en un hábito y por lo tanto el sujeto tiene dicha respuesta bajo su control,
aunque esto lo veremos un poco más adelante.
Por ejemplo: tú eres un profesor y tienes un alumno que esta todo el rato pinchando a
los compañeros con un lápiz, y quieres que eso deje de pasar por ello le castigas cada
vez que lo hace. Para que el niño dejara de pinchar con el lápiz no solo deberíamos de
castigar esa respuesta, sino que deberíamos de premiarle que haga otras alternativas, de
esta manera la probabilidad de que realice esa conducta, que no queremos, será mucho
menor.
Por ejemplo: en el caso anterior del niño y el lápiz, castigamos la conducta de que el
niño utilice el lápiz para pinchar, pero premiamos la conducta de que el niño utilice el
lápiz para dibujar, esto es un ejemplo de una respuesta alternativa incompatible, ya
que el niño nopuede hacer las dos cosas a la vez.
13
discriminativo a menudo representa un problema en la aplicación del castigo. En muchas
situaciones, la persona que aplica el castigo también funciona como estímulo
discriminativo del mismo, lo que tiene el resultado de que la conducta indeseable sólo se
suprime en tanto que el monitor esté presente.
Por ejemplo: los niños aprenden qué maestros son estrictos en relación a la disciplina y
a suprimir su conducta bravucona con esos maestros más que con otros. Una patrulla en
la carretera es un estímulo discriminativo que indica el castigo por exceso de velocidad.
Otro ejemplo sería: es más probable que los conductores se mantengan dentro o por
debajo del límite de velocidad en los tramos de la carretera donde ven patrullas que en
los tramos donde no.
Por ejemplo: imaginemos que tengo un niño que es muy pequeño, y yo y mi mujer
estamos todo el día fuera de casa trabajando, y el niño esta todo el día con un canguro, y
el niño solo tiene la opción de llamar nuestra atención cuando llegamos por la noche del
trabajo, y por lo tanto todas las noches se pone a llorar. Entonces por mucho que
nosotros intentemos hacer algo o castigarle para que esa respuesta desaparezca, no
funcionara, ya que es la única manera que tiene el niño de obtener nuestra atención
(reforzador), por lo que dará igual si le regañemos o le castiguemos, ya que al fin y al
cabo le prestaremos esa atención que el busca y por lo tanto el castigo no será efectivo,
y seguirá actuando de la misma manera.
Aquí hablaremos del castigo corporal en la crianza de los hijos. Este tipo de castigo esta
prohibido en varios países (por ejemplo, Austria, Dinamarca, Alemania, Israel, Italia o
Noruega), y existen países dónde no esta prohibido pero solo puede considerarse
justificado para situaciones muy excepcionales en las que el comportamiento debe ser
suprimido de inmediato.
14
En la situación en la que este tipo de castigo tenga que usarse, tenemos que tener en cuenta
que existen efectos secundarios asociados a su uso como puede ser que los niños muestren
un comportamiento agresivo, o si se usa sistemáticamente, estos niños cuando sean
adultos podría mostrar un comportamiento antisocial o un comportamiento agresivo, es
decir, ocurriría lo que se conoce como moldeamiento, ya que en el niño se produciría un
aprendizaje social del comportamiento de sus padres, y este lo repetiría en el futuro.
De la misma manera, otros efectos secundarios sería que las personas que administran
castigos corporales podrían convertirse en estímulos condicionados aversivos, de manera
que podrían surgir o desarrollarse respuestas de evitación hacia ellos.
15
TEMA 4.4: CONDUCTA ADICTIVA
1.- SUSTANCIAS Y ADICCIONES CONDUCTUALES:
1
compensatorios, para tratar de volver al equilibrio, compensando los efectos que las
sustancias han provocado.
Imagina que eres adicto a la heroína y usas determinados elementos para metértela, en
uncontexto determinado, con unas personas concretas… estos elementos, las personas y
el contexto se vuelven asociados a la droga (EI) debido al condicionamiento clásico,
convirtiéndose en EC asociados a la droga, pudiendo desembocar las respuestas
fisiológicas compensatorias a losefectos de la droga, por lo que el efecto de la droga ya
no es igual de fuerte de lo que era al principio, ya que esos estímulos ya preparan a tu
cuerpo para compensar el efecto de la droga,por lo que cuando de verdad te la metes,
ya no hace el mismo efecto, porque tu cuerpo había anticipado el desequilibrio que iba a
haber. Así se desarrolla la tolerancia, donde necesitas una dosis mayor para obtener el
efecto de antes.
Es decir, la tolerancia hacia una droga se desarrolla porque en la presencia de los ECs
compensamos la acción primaria de la droga, es por ello que el efecto neto es decir, la
respuesta observable, va a ser más suave que la inicial.
Se hizo un experimento donde había tres grupos de ratas. El primer grupo no era pre-
expuesto a la droga, mientras que los otros dos sí tuvieron una experiencia previa con la
droga (exposición a una pequeña cantidad de heroína, la cual iban aumentando
progresivamente, por lo que se iban habituando a la droga, desarrollándose algo de
tolerancia). Al grupo dos, posteriormente, le dieron una sobredosis (una dosis que era
letal para su peso) en un contexto diferente al cual fueron pre-expuestos, mientras que el
grupo tres lo hizo todo en el mismo contexto. Los resultados mostraron que el
primer grupomostró una tasa de mortalidad del 96 %, lo que demostraba que estas ratas
no tenían ninguna tolerancia. La mortalidad en el grupo dos, era de un 64 %, lo que
significaba que aunque el contexto hubiese cambiado cierta tolerancia se había
mantenido, estodemuestra que la tolerancia está asociada al contexto en el que dicha pre-
exposición se realiza. Por último la mortalidad en el grupo tres, fue un 32 %, cuando los
contextos de la pre-exposición y el test son los mismos, podemos ver que la tolerancia
2
que muestran las ratas es mucho mayor, haciendo así que la sobredosis fuera mucho
menos letal.
- Sobredosis condicionada: una dosis de sustancia bien tolerada puede volverse letal si es
administrada en ausencia de EC pre-expuestas. Muchos drogadictos mueren cuando se
drogan en contextos donde no suelen drogarse, por ejemplo, cuando están de vacaciones,
y esto ocurre porque no se encuentran presentes en el contexto habitual. Por ejemplo,
enel estudio anterior, podríamos afirmar que si el grupo dos hubiera estado en el mismo
contexto en la prueba de test, y no se lo hubiera cambiado, la tolerancia ante dicha
cantidad de droga hubiera sido mucho mayor, pero sin embargo al cambiar de contexto
dicha tolerancia ante la droga desapareció en cierta manera.
- Síndrome de abstinencia condicionada: La exposición a EC asociada a sustancias
psicoactivas pueden provocar RC compensatorias a estas sustancias. Si estás en el contexto
que te drogas y no te drogas, tu cuerpo activa las respuestas compensatorias igualmente,
por lo que se desarrolla el síndrome de abstinencia, porque estás en desequilibrio.
Esdecir, imaginemos que estamos acostumbrados a fumar en una calle con alguien, si
vamos a esta calle con esa persona, aunque no tengamos la intención de fumar, se
generará loque conocemos como el “síndrome de abstinencia”, que es el hecho de que
al encontrarnos en dicho contexto, nuestro cuerpo esperará dicha sustancia y es por ello
que las RC compensatorias se iniciarán aunque la droga no este presente, y en ese
momento sufrimos dicho síndrome de abstinencia.
3
Respuesta de búsqueda hacia las propiedades de valencia e incentivo del reforzador. La
respuestaes emitida, hay un control intencional. Se realiza la conducta porque tiene
expectativas del premio que va a recibir, esas expectativas son representadas en el dibujo
como la asociación R-C. Por lo que es esa asociación R-C lo que representa esas
expectativas intencionales.
Cuando repites la respuesta anterior se pasa a esta fase adictiva. Los estímulos
discriminativos se asocian con la respuesta y con las consecuencias. No es algo
intencional, es un hábito automático.
• S: Estimulación donde la respuesta de tomar la droga tiene lugar. Contexto dónde sueles
tomar la droga, los amigos… los EC asociados a la droga. (estímulo discriminativo)
• R: Respuesta adictiva.
• C: Consecuencias, podemos distinguir entre dos tipos de consecuencias, por un lado la
valencia o el valor emocional del reforzador, y por otro lado las propiedades incentivas
del mismo, es decir, las propiedades físicas relacionadas con dicho reforzador.
4
e incentivo del reforzador (R-C. Respuesta dirigida a un objetivo). (Esto sería la fase
inicial)
Hay otros estímulos asociados con la consecuencia de tomar la droga, que pueden
desembocar la respuesta adictiva. No solo afectan esos estímulos originalmente asociados
a la droga. (S-C-R Transfer). Por ejemplo, si eres alcohólico y estas acostumbrado a beber
en el bar de abajo de tu casa y, un día, viendo la tele, empiezan a hablar de bares, eso también
desembocará el impulso de beber.
Tenían que hacer una tarea de aprendizaje, donde tenían que elegir entre dos respuestas,
y cada 10 segundos tenían la consecuencia disponible, con una de las respuestas podían
obtener M&Ms ycon la otra podían obtener Fritos. Había una fase de saciación, donde le
daban tanto chocolate o Fritos (algunos eran saciados con una cosa y otros con otra) que
ya no querían más.
Luego le volvían a hacer el test que realmente era de extinción, pero ellos no lo sabían,
por lo que creían que iban a obtener los mismos premios. Por tanto, si fueron saciados
5
con chocolate,pulsarían la respuesta 2 para obtener Fritos, y viceversa. Los resultados
después del último test mostraron que el grupo que solo estuvo un día en el laboratorio,
si fueron saciados con chocolate, elegían la respuesta dos (no elegían la respuesta
devaluada). Los resultados también mostraron que el grupo que estuvo tres días en el
laboratorio, no mostraban diferencia entre elegir la respuesta 1 o 2, por lo que no eran
sensibles a la devaluación. Esto nos indica que si eres sobre- entrenado, obtienes una
diferencia en tus respuestas, de manera que no tienes una preferencia entre respuestas,
incluso si una no tiene valor para ti; pierden su control intencional. Esto muestra que se
ha desarrollado un hábito automático; el putamen está muy activo en este último grupo,
el cual está relacionado con hábitos automáticos.
Si fueron saciados con fritos, la respuesta devaluada era la dos, y si fueron saciados con
chocolate,la respuesta devaluada era la uno.
En las drogas, las personas dejarían de tener control para elegir drogarse o no, en
función de loque quieran, sino que se drogarían de manera automática porque ya
estarían acostumbradas, yano podrían elegir no drogarse.
Por ejemplo, imagínate que alguien es adicto a palomitas. El estímulo que normalmente
está asociado es la entrada del cine, ya que normalmente las come cuando va allí por lo
que, incluso sino tiene hambre, pero va al cine, nada más ver las entradas, compra las
palomitas, aunque no sea una buena idea porque está lleno y sin nada de hambre. Este
efecto de transferencia significa que no solo estos estímulos directamente relacionados
van a desencadenar la respuesta de comprar palomitas, también lo harán esos estímulos
que te recuerdan a la recompensa, en este caso, palomitas. Ver el nombre o la tienda de
“Belros” desencadenaría también la respuesta de tomar palomitas.
6
Incluso en situaciones en las que el reforzador no tiene ningún valor, como en este caso,
que no tenía hambre, por lo que comer palomitas no tenía ningún valor, pero aun así lo
hace.
• Dolor debido a la abstinencia (síntomas de abstinencia): Hay dolor físico asociado a los
síntomas de abstinencia, los cuales están desencadenados de los efectos compensatorios
de nuestro organismo. Los adictos se drogan para evitar estos efectos, por lo que es
un reto para ello superarlos.
• Deseo irresistible (más allá del control intencional): la tendencia de drogarse va más allá
de tu control intencional. No está en la voluntad del individuo controlar las respuestas de
drogarse.
7
- Extinción: Disminución de las consecuencias de las drogas; naltrexone (medicamento
paralos drogadictos) bloquea los receptores opioides cerebrales. Estos medicamentos
pueden disminuir la eficiencia de la droga, haciendo que no pueda actuar en los
receptores. Esto puede ser entendido como una extinción de la respuesta, porque cuando
hacen la respuesta, no hay recompensa, porque no consiguen el efecto de la droga.