Documentos de Académico
Documentos de Profesional
Documentos de Cultura
APETITIVO AVERSIVO
El CC es independiente a la conducta
Estímulo condicionado (EC) -> predice el suceso
La respuestas condicionada (RC) suele ser de menor magnitud que la RI
APETITIVO AVERSIVO
La conducta La conducta
En condicionamiento con drogas el EI es la droga, la RI son sus efectos fisiológicos; el EC es el lugar donde te drogas,
y la RC es contraria a la RI (si la droga te sube los latidos, la RC sería bajarlos). Es una respuesta condicionada
compensatoria para mantener el equilibrio y que no te de un chungo. Si cambiamos el contexto, como no está tu EC,
te puede dar una sobredosis.
Saliencia de un estímulo: es lo que destaca o lo significativo que es un estímulo. Los EI son salientes por naturaleza,
más que los EC. Podemos aumentar la saliencia aumentando la intensidad (un ruido fuerte es más saliente que un
ruido flojo).
Preexposición al EC o inhibición latente: si ponemos el EC antes del condicionamiento, hay un retraso en la
adquisición.
*Diferenciarlo de la extinción, que es el EC solo pero después del condicionamiento, cuando ya tenemos RC y hacemos
que baje, aquí no hay RC.
Preexposición al EI: pasa lo mismo, un retraso en la adquisición, porque pierde novedad.
La relevancia de un EC es su pertinencia respecto al EI, es decir su relación en el mundo natural. A más relación
tengan, se condicionaran mejor:
EC audiovisual condiciona mejor con una descarga
EC gástrico condiciona mejor con un malestar estomacal
Condicionamiento de dos estímulos con DISTINTA fuerza biológica = condicionamiento de segundo orden
Condicionamiento de dos estímulos CON fuerza biológica = contracondicionamiento
Condicionamiento de dos estímulos SIN fuerza biológica = precondicionamiento sensorial
FASE 1 FASE 2 PRUEBA RC
MODELO RESCORLA: (como hay un pdf completo de esto, aquí solo voy a poner algunas cosillas teóricas)
SI EXPLICA NO EXPLICA
- El condicionamiento excitatorio - El contrabloqueo
- La extinción - La inhibición latente (preexposición al EC)
- El bloqueo - Precondicionamiento sensorial
- La inhibición condicionada - Habituación
Recordad que en la extinción y la inhibición condicionada, lamda=0, porque no hay EI
HIPOTESIS DEL COMPARADOR
Aprendo todas las asociaciones excitatorias que puedo (con el EC y con el contexto) durante el entrenamiento
No aprendo asociaciones inhibitorias
En la fase de prueba, es decir una vez terminado el entrenamiento, las comparo a ver cuál es la mejor para predecir
el EI. Si la mejor es la asociación EC-EI daré la RC, si no lo es, no la daré
Aprendo todas, luego comparo y decido a cuál responder. Es una teoría de ejecución más que de aprendizaje.
ignoran predictores redundantes; la atención que se le presta a ese EC también depende del resto de los ECs presentes (pg 141)
MODELO ATENCIONAL MACKINTOSH: más atención al EC cuanto mejor predice el EI, cuanto más lo conozco.
MODELO ATENCIONAL PEARCE-HALL: más atención al EC cuanto más nuevo es el EI, cuanto más sorprende
MODELO SOP: ampliación del modelo Rescorla teniendo en cuenta la memoria. Nodos y redes neuronales. Para que
el EC y el EI se asocien, se deben activar al mismo tiempo en el nivel A1 (memoria corto plazo) y así pasan juntos
asociados a la memoria a largo plazo. El nodo del EI se activa en A1 sólo con EI
Prestaremos menos atención al EC en la medida en que con cada ensayo se convierta en mejor predictor de EI;
es la aparición de EI trás EC lo que se vuelve menos sorprendente, no el EI en sí mismo (pg 142)
CONCEPTOS CLAVE TEMA 5
Reforzamiento continuo: te doy el premio cada vez que ejecutas la respuesta. Es menos resistente a la extinción por
el efecto de sobreentrenamiento: como te dan el reforzador cada vez, te das cuenta enseguida cuando empieza la
extinción porque dejan de dártelo.
Razon fija RF: siempre es el mismo número de Razon variable RV: el número que te piden varía en
respuestas torno a un promedio
Intervalo fijo IF: siempre es el mismo tiempo el que Intervalo variable IV: el tiempo que pasa varía en torno
tiene que pasar a un promedio.
Los programas parciales son los más resistentes a la extinción, sigues haciendo las respuestas más tiempo, por si en
la siguiente te toca el premio. (como en las tragaperras)
Ejecución típica en los programas parciales:
RV: tasas de respuesta altas y estables. En los programas VARIABLES las tasas de respuesta son
IV: tasas de respuesta estables, aunque más bajas que muy estables, como cada vez te piden un requisito
en RV diferente, mantienes un ritmo constante.
RF: pausa postreforzamiento, y después un aumento Los programas fijos se caracterizan por una pausa
alto y estable de las respuestas (carrera de razón)postreforzamiento: el animal para justo despues de
conseguir el premio. Cuanto mayor es el requisito que
IF: pausa postreforzamiento y despues un aumento
piden, mayor es la pausa. Además viene determinada
progresivo de la tasa de respuesta según avanza el
por el programa que vás a empezar, no por el que has
tiempo (festoneado)
terminado (es como si descansas para prepararte)
TER es el tiempo entre respuestas. Puede ser largo, si las doy separadas, o corto si las doy seguidas.
Si quiero que tu des pocas respuestas puedo marcarte un tiempo determiando y reforzar solo las respuestas que
estén por encima de ese limíte, así consigo que las separes. A esto se le llama reforzamiento tasas bajas (RDB)
En cambio si quiero que des muchas respuestas, marco el tiempo y refuerzo solo las respuestas que se den antes de
ese limite, asi consigo que lo hagas seguido. Se llama reforzamiento tasas altas (RDA).
TER LARGO = RDB = pocas repuestas = relacionado con programas IV
TER CORTO = RDA = muchas respuestas = relacionado con programas de razón (sobre todo RV)
PROGRAMAS COMPUESTOS: pueden ser secuenciales o simultáneos.
CONDUCTA DE ELECCIÓN
LEY DE IGUALACIÓN
(ATENCIÓN: estos con conceptos clave para recordad a la hora de resolver las preguntas. Si no has estudiado la ley
de igualación, lo más probable es que todo esto te suene a chino. Aquí no hay explicaciones, pero hay otro pdf
maravilloso que explica todo esto. Cuando ya se ha estudiado esto son solo cosillas trampa que recordar)
La ley de igualación dice que se iguala la tasa relativa de respuestas (es decir, el porcentaje de respuestas que das)
en función de la tasa relativa de reforzamiento (es decir, el porcentaje de reforzadores que te da cada una) de cada
palanca. Si una palanca te da el 0’70 (70%) del premio, quiere decir que la otra te da el 0’30 (30%). Según la ley de
igualación, a la primera palanca le responderé un 0’70 y a la segunda un 0’30
En programas de razon, solo nos quedamos con la palanca más beneficiosa. La tasa de respuestas sería 1 (el 100%)
en esa, y 0 en la perjudicial.
En programas de intervalo es realmente dónde repartimos las respuestas. Si no nos dan la tasa de reforzamiento:
Si los intervalos son uno el triple del otro (30-90; 20-60; 5-15 etc.) las tasas son 0’75 (el más beneficioso) y 0’25.
Como el beneficioso me da el triple de reforzadores, se espera que le de el triple de respuestas que al otro.
Si los intervalos son uno el doble del otro (30-60;10-20; 5-10 etc.) las tasas son 0’66 (el más beneficioso) y 0’33.
Como el beneficioso me da el doble de reforzadores, se espera que le de el doble de respuestas que al otro.
Estos ejemplos, dónde las tasas de respuesta son iguales que las de reforzamiento, son de igualación
Se puede dar sobreigualación si se responde más tasa de respuesta que de reforamiento en la beneficiosa.
Se puede dar infraigualación si se responde menos tasa de respuesta que de reforamiento en la beneficiosa.
TRAMPA: en los datos del enunciado, pueden darnos la menos beneficiosa!!! Cuidado!!!!
Ejemplo:
Dar más respuestas a una palanca es necesariamente dar menos a otra, para saber cómo se llama lo que pasa
igualmente solo nos tenemos que fijar en la beneficiosa.
El término igualación temporal se refiere a lo mismo, pero con el concepto de que igualas el tiempo que pasas en
una de las opciones a los premios que consigues de ellas. Funciona igual, cuánta más tasa de reforzamiento más
tiempo dedicaras.
IMPULSIVIDAD Y AUTOCONTROL:
El comportamiento impulsivo es la preferencia por la elección del premio pequeño y inmediato. Es el
comportamiento típico en elecciones directas.
El comportamiento autocontrolado es la preferencia por la elección del premio grande y demorado. Es tipico en
elecciones de programas encadenados, dónde para conseguir ambos premios hay que esperar un poco. “ya que voy
a esperar, al menos es por el premio grande”
El valor del reforzador, viene determinado tanto por su magnitud como por su demora. Si aumenta la magnitud
aumenta su valor; pero si aumenta la demora disminuye su valor.
En un caso de programa concurrente en el que lo beneficioso es en principio una elección impulsiva, el añadir una
demora constante a la entrega de ambos reforzadores, hace que el comportamiento impulsivo se vuelva
autocontrolado.
NATURALEZA DE ASOCIACIÓN INSTRUMENTAL:
HULL Y THORNDIKE: son defensores del esquema E-R, en el que el estímulo ambiental elicita la respuesta.
Hull introduce el concepto de motivación, imprescindible para que se ejecute una conducta. La motivación viene
dada por una necesidad biológica, y dicha necesidad se verá reducida al conseguir el reforzador
TOLMAN: Defiende la asociación E-E. Lo relevante es que distingue aprendizaje de ejecución: tu puedes saber algo
pero no querer o tener que hacerlo. Los reforzadores no son necesarios para el aprendizaje pero si para la ejecución.
SKINNER: Le da un poco igual la asociación que se de, lo que importa es que el estímulo ambiental es una señal para
hacer la conducta, siendo moduladores entre respuestas y reforzadores.
Ra y Rb son las tasas de respuesta relativas en a y b; y Fa y Fb son las tasas (frecuencia) de reforzamiento.
Ra va a ser numéricamente igual a Fa, y Rb igual a Fb.
Si de la palanca “a” obtenemos una tasa de reforzamiento (Fa) de, por ejemplo, 0,80 (siendo 1 el total), la
ley de igualación formula que nuestra tasa de respuesta (Ra) también será de 0,80. Y como el total sería 1,
sabiendo la tasa de reforzamiento en a (Fa) sabemos también la de reforzamiento en la palanca b (Fb) que
sería 0,20, y de la misma manera Rb, sería 0,20. (esto más adelante lo vais a entender mejor que se explica
cómo sacar estas tasas)
Hay una pequeña diferencia según sean programas de razón o de intervalo. En los programas de razón lo
que se nos requiere es un número de respuestas determinado. Imaginaos que tenemos dos palancas, la
palanca A sujeta a un programa de RF5 y otra, la B, a un programa de RF 10.
Si comparamos los reforzadores que podemos obtener de las dos palancas dando, por ejemplo, 20
respuestas vemos que en la palanca A con ese esfuerzo de mis 20 respuestas obtengo 4 reforzadores
(porque me da uno cada vez que hago 5 respuestas) mientras que en la B obtengo solo 2 (un reforzador
por cada 10 respuestas). En esta situación, de dos programas de razón, lo que ocurre es que una opción se
descarta del todo. ¿Para qué voy a gastar energía en responder a la palanca B si con esas mismas
respuestas en la palanca A obtengo más reforzadores? Por tanto en A va a ser 1 (porque es el 100%, sólo
nos vamos a dedicar a responder a ella) y la tasa en B va a ser 0 (porque vamos a ignorarla completamente,
no nos es rentable). Entonces la tasa relativa de respuestas según la fórmula se queda así: 1/ 1+0. (esto es
lo que se explica en el punto 2.2, es la llamada maximización: ante dos programas de razón diferentes los
sujetos eligen la alternativa de respuesta de razón más baja)
En cambio en los programas de intervalo lo que nos refuerzan es la primera respuesta según transcurra un
tiempo. Asi que en este caso, vamos a dar un mayor número de respuestas a la opción más ventajosa para
nosotros, en función de los reforzadores que podemos conseguir, pero no vamos a obviar por completo la
otra. Imaginemos la palanca A con un programa de IF 5 minutos, y la palanca B con un programa de
intervalo fijo 10 minutos. En 30 minutos, conseguiría 3 reforzadores de la palanca B (uno con cada
respuesta que de después de ese tiempo de 10 minutos) y 6 en la palanca A, lo que nos deja claro que la
palanca A es la más ventajosa. Y eso es lo primero que tenemos que tener claro, que opción es más
ventajosa. Ayuda mucho representarlo así:
A B En 30’ en A conseguimos 6 ref. En B 3 reforzadores. En total
IF5’ IF10’ tenemos 9. La tasa de reforzamiento se calcula dividiendo los que
consigo de cada opción sobre el total.
Fa=6/9= 0,66; Ra= 0,66
Fb=3/9=0,33; Rb = 0,33
Para calcular las tasas relativas, tanto de reforzamiento como de respuesta, si no nos indican el tiempo
total, podemos poner nosotros el que queramos. Yo he puesto 30 porque era fácil hacer las cuentas, pero
al ser tasas relativas va a darnos la misma proporción pongamos el que pongamos, podéis hacer la prueba
calculando con otros tiempos:
Por ejemplo en 10’ tendríamos en A dos reforzadores y en B uno, así que Fa= 2/3= 0,66 y Fb= 1/3= 0,33
Como ya hemos visto la palanca A es más ventajosa, asi que nos vamos a dedicar en un 66% a ella. Aquí no
tenemos el problema de la razón de que nuestro esfuerzo sea desperdiciado, porque mientras estamos
respondiendo dos veces a la palanca A se cumplen los 10’ de la B y tenemos un reforzador disponible, que
con responder una vez cuando haya pasado nos lo dan. Por eso no lo eliminamos del todo, y vamos
alternando entre las dos opciones.
Hay que tener en cuenta que el valor del reforzador no depende sólo de la frecuencia con el que nos lo
den, también hay parámetros como su magnitud o su demora/inmediatez que afectan a su valor y se ha
demostrado que los animales también igualan su respuesta en base a ellos. La fórmula quedaría asi:
Ma y Mb es la magnitud del reforzador, y Da y Db la demora. Pero estas variables no son tan importantes
como la frecuencia, asi que no nos van a poner a calcular con ellas, solo hay que saberlo a nivel teórico por
si nos preguntan con qué otros parámetros del reforzador se iguala la tasa de respuesta.
Vais a ver que hay varias teorías sobre igualación para explicar cómo se distribuyen las respuestas entre las
alternativas disponibles
Teoría molecular: se basa en que el cambio de una alternativa a otra se basa en conseguir el máximo “aquí
y ahora”, es decir, se busca una probabilidad de reforzamiento mayor en ese momento
Teoría molar: lo contrario, afirma que se distribuyen las respuestas buscando una probabilidad mayor de
reforzamiento en general, a largo plazo, es como calcular lo que va a obtener en total no solo ahora.
Teoría del mejoramiento: síntesis de las dos, es como una cosa intermedia, se busca la tasa de reforzamiento de
la opción más beneficiosa dependiendo del momento, pero sin perder de vista los efectos a largo plazo.
Con lo que hemos visto hasta aquí, si nos ponen una pregunta en el examen para que calculemos la tasa de
reforzamiento o de respuesta, hay que tener muy muy claro dos cosas para hacerlo bien:
- Cuál de las dos opciones es la más ventajosa (tenemos que sacar la tasa de reforzamiento de ambas)
- Qué tipo de programa es, porque si es de razón ya sabemos que se descarta la menos ventajosa
Tomando siempre como referencia la opción más ventajosa, hay veces en las que el animal no actua
conforme a la ley de igualación, y le dedica más respuestas o menos respuestas de las que la ley formula.
Son los casos de sobreigualación cuándo la mejor alternativa se valora por encima de la preferencia
establecida en la ley; e infraigualación cuando la mejor alternativa se valora por debajo de lo que la ley
establece. En el ejemplo de IF que hemos visto arriba, tenemos un Fa=0,66 si por ejemplo nos dicen que la
Ra (tasa de respuesta) del animal en A es 0,75 estaremos ante una sobre igualación. Si nos dicen que es de
0,50 sería infraigualación. Ra= 0,66 sería igualación perfecta.
Esto es fácil de entender porque estamos hablando de A que es la opción ventajosa. La trampa que nos
pueden poner en el examen, es que nos den los datos de la opción menos ventajosa para que piquemos. Si
nos ponen que Fb= 0,40 y Rb= 0,50, y que digamos si es igualación, sobre igualación, o infraigualación,
antes de decidir ante qué situación estamos, tenemos lo primero de todo que apuntarnos en el papel los
datos de A para tener claro cuál es la más ventajosa. Como el tope es 1; Fa sería 0,60 y Ra sería 0,50.
Entonces sabemos que aunque no nos hayan dado los datos, la opción B es la menos ventajosa, asi que no
es la que tenemos que tomar de referencia para saber si estamos ante igualación, sobre igualación o
infraigualación. Entonces tenemos:
A B
Fa= 0’60 Fb= 0’40
Ra= 0’50 Rb= 0’50
Representado así yo lo veo mucho más sencillo, porque se ve claramente que A es la más ventajosa y esta
valorada por debajo de lo que debería, así que estamos ante un caso de infraigualación. La trampa es que
en la pregunta nos ponen una tasa de respuesta mayor a la de reforzamiento y si no te paras a pensar si es
o no la opción ventajosa, picas y dices sobreigualación.
Claro, hay una fórmula para tener en cuenta esta descompensación de la igualación, y también otros
sesgos que se pueden producir (por ejemplo que la rata prefiera por situación una palanca o otra y no se
ciña a preferirlas por el programa en vigor). Con aprenderse la versión reducida vale, es esta:
( )
ΔV es el incremento de la fuerza asociativa, n el ensayo del que la estamos calculando. Es decir, es lo que
vamos a calcular: cuánto aumenta la asociación en este ensayo.
λ: es la magnitud del EI. Si llega a la perfección, es decir que siempre detrás del EC se presente el EI, estaría
a su máximo nivel, que se denomina asíntota. Este número también lo adjudicamos nosotros, y aunque en
el libro ponen el tope en 1, si ponemos la escala de 0 a 100 es mucho más fácil para los cálculos porque nos
quitamos decimales. Ojo: si nos dicen que es un “ensayo sin reforzar” o estamos hablando de procesos
como extinción, o inhibición condicionada (procesos donde no hay EI) su valor será 0, precisamente porque
no tenemos EI.
Vn-1: es la fuerza asociativa que se tiene en el ensayo anterior al que estamos calculando, la fuerza total
que tenemos hasta este momento. En el primer ensayo es 0, claro, en el segundo ensayo es el valor de V
(fuerza asociativa neta) del primero, y así. Este dato nos lo tienen que dar (salvo que nos digan que es el
primer ensayo). Nos lo pueden indicar diciendo directamente “ V= “ o frases como “teniendo una fuerza
asociativa de X; habiendo alcanzado el nivel X; partiendo de una fuerza asociativa de X; se ha alcanzado
una fuerza de X…” cosas así, es decir cualquier forma que haga referencia a de dónde salimos para este
cálculo.
Sabiendo esto podemos hacer los cálculos y la gráfica. Una vez que tenemos el incremento de la fuerza
asociativa (formula de arriba) del ensayo dos, hay que tener en cuenta que el resultado es el incremento.
Por tanto para saber en qué nivel de fuerza asociativa se está en ese ensayo, hay que usar esta fórmula:
Que viene a ser sumar la fuerza asociativa que teníamos en el ensayo anterior (que nos lo han tenido que
decir), al incremento que hemos encontrado en este ensayo (que es realmente lo que hemos calculado).
(Abajo se ve desde el ensayo 2)
Para el caso de bloqueo, como se trata de introducir un segundo EC, las fórmulas son las mismas, solo que,
en el cálculo referente a ese segundo EC, Vn-1 será igual a 0, porque al ser nuevo no hay fuerza asociativa
alguna en el ensayo anterior.
En la extinción, como no hay EI alguno, λ va a ser igual a 0. La fórmula del incremento nos va a dar un
resultado negativo, es decir que tenemos que restarle a la fuerza asociativa que teníamos en el ensayo
anterior, y en la gráfica se va a ver una caída. Cuánto más se sabe en el ensayo anterior, más rápida es la
extinción, y numéricamente más tendremos que restarle.
Cristina Gil Psicología del aprendizaje
Nota antes de las explicaciones: si dos elementos aparecen entre paréntesis, significa que se
presentan a la vez. Si aparecen separados por un guion como este – es que van seguidos. Si
aparecen entre interrogaciones es que están comprobando qué efecto da. No toméis muy en serio
si los elementos se llaman 1 y 2, alfa y beta, o pepa y pepe, se trata de que sepamos que son
diferentes, es igual si les llaman EC1 y EC2 o EC39 y EC93. Lo digo porque, en el primer ejemplo del
libro han puesto los huevos como EC1 y en el segundo como EC2, es igual vale? Lo importante es
que son dos elementos diferentes.
ENSOMBRECIMIENTO
En el ensombrecimiento, al aparecer los dos ECs juntos, compiten por ser el mejor predictor del EI
(malestar). Realmente no puedes saber 100% cual de los dos ECs (huevos o patatas) te ha causado malestar,
así que, si alguien te dice que ha sido uno, tu puedes pensar que ha sido el otro.
¿Qué pasa si después de ese proceso, como HUEVOS SOLOS (EC1) y NO me sientan mal? Pues que ahora sí,
por descarte, voy a saber que el problema eran las patatas. Esto se llama recuperación del
ensombrecimiento. La primera fase es exactamente igual que la fase de entrenamiento que vimos antes,
pero se añade una segunda fase en el que te dicen el que NO tenía la culpa del EI (en el ejemplo de la
comida, te dicen el que NO te provoca malestar):
Como veis, lo importante para identificar que es una recuperación de ensombrecimiento es que me van a
avisar del que NO me produce malestar (el EC que va seguido de NO EI)
Cristina Gil Psicología del aprendizaje
BLOQUEO
En este caso, también vamos a tener dos ECs puestos a la vez, dos alimentos que comes juntos, pero ya vas a
saber CON ANTERIORIDAD cual es el que SI te provoca malestar (el que SI predice el EI). De esta forma,
cuándo aparezcan dos a la vez, seguidos del EI, no dudas y sabes cual es el culpable:
Si yo ya se de antemano que hay un alimento que me sienta mal, cuando lo como junto a otro, le voy a
“echar la culpa” al que siempre me sienta mal, lógicamente. Este efecto se puede dar intercambiando el
orden de la fase 1 y 2, y entonces se llama bloqueo hacia atrás.
Fíjate en la diferencia, en un bloqueo normal sabes que los huevos te sientan mal DE ANTEMANO, en el
bloqueo hacia atrás te das cuenta que los huevos te sientan mal DESPUÉS de comerlos con las patatas.
En el examen pueden preguntar estos procesos de distintas maneras: o bien poner el cuadro con las siglas de
ECs EIs, o con ejemplos. Os dejo algunas preguntas a ver si sabéis identificar cual de los 4 procesos es cada
uno (al final las respuestas)
1. He tomado de postre natillas con canela y me ha sentado fatal; después a la hora de la cena, tomo
canela sola y me da malestar, asi que ya se que las natillas no tenían la culpa.
2. Tengo una luz roja y una verde puestas a la vez, seguidamente le doy una descarga a la ratita.
Cuándo pruebo si la luz roja le da miedo, hay poca RC
3. Siempre que tomo fresas me da malestar. Hoy me he hecho un batido de fresas con plátano y me ha
sentado mal.
4. Tenemos una luz naranja y un ruido que se presentan a la vez, seguidos de una descarga. En la
siguiente fase, a la ratita le pongo la luz verde sin ir seguido de la descarga. Entonces la ratita va a
tener miedo, dando mucha RC, solo al ruido.
Cristina Gil Psicología del aprendizaje
RESPUESTAS
En estos ejemplos voy a usar luces como EC y descargas como EI; por tanto todos serán aversivos, pero los procesos
son los mismos que si usáramos algo apetitivo como un EI de comida.
CONDICIONAMIENTO DE HUELLA
Se deja un tiempo entre la desaparición del EC y el EI
CC excitatorio: la ratita aprende que al apagarse la luz,
viene un tiempo, y cuando el intervalo acaba, llega la
descarga.
CONDICIONAMIENTO SIMULTÁNEO
El EC y el EI se ponen a la vez y con la misma duración
CC excitatorio: este condicionamiento es sólo excitatorio,
+
pero provoca una respuesta escasa, pues hay poco poder
de predicción al presentarse a la vez
DESEMPAREJAMIENTO EXPLICITO
Consiste en presentaciones aleatorias del EC y del EI. Ponemos luz y descargas de manera aleatoria en periodo
amplio de tiempo, y se da una correlación negativa, porque es poco probable que después de la luz venga la
descarga, de ahí el aprendizaje inhibitorio. La rata sabe que hay poca probabilidad de que venga una descarga
después de la luz.
CONCEPTOS
EI: estimulo incondicional, es el que da respuesta en un sujeto por sí solo. Esa respuesta se llama RI, no es
aprendida y puede ser muy variada. El EI puede ser aversivo (como una descarga, un ruido fuerte, un
enemigo…) o apetitivo (como comida, sexo…). Hay algunos como la comida que es universal porque es una
necesidad básica, y otros que pueden funcionar o no según el sujeto (lo que a ti te da miedo, puede que a
mí no). También puede ocurrir que un ruido, si es flojito sea un estímulo neutro, porque no produce nada,
pero si lo ponemos muy fuerte pase a ser un EI que me asusta.
EC: estimulo condicionado, es el que nosotros vamos a hacer que provoque una respuesta que en inicio no
la da. En nuestro ejemplo hemos usado luces, a una ratita yo la pongo una luz de color y básicamente le da
igual… hasta que la condicionamos. Por eso, antes de los ensayos, es un estímulo neutro que no da
respuesta, pasa a ser EC cuando nos da RC.
RC: respuesta condicionada, es la respuesta que el sujeto da ante el EC una vez se ha condicionado. Tiene
la misma naturaleza que la RI, pero nunca va a ser igual de fuerte. En nuestro ejemplo, la ratita se va a
asustar cuando le ponga la luz naranja porque ha asociado luz+descarga, pero nunca va a asustarse tanto –
no va a tener una respuesta tan fuerte- como ante una descarga de verdad.
CONDICIONAMIENTO CLÁSICO EXCITATORIO: es el procedimiento en el que el EC es señal de que se va a
producir un EI. Puede ser apetitivo o aversivo según sea el EI.
CONDICIONAIMENTO CLÁSICO INHIBITORIO: es el procedimiento en el que el EC es señal de que no va a
producirse un EI. También puede ser apetitivo o aversivo según la naturaleza del EI que no nos dan. Para
poder “aprender” que no van a venir descargas, es necesario antes que yo sepa que existen las descargas,
por eso se necesita un contexto excitatorio previo.
EJEMPLOS:
CC excitatorio aversivo: luz+descarga; o enseñar un objeto+ruido muy fuerte
CC excitatorio apetitivo: luz+comida; ruido+enseñar pareja reproductora
CC inhibitorio aversivo: cuando encienden la luz, es señal de que no vienen descargas.
CC inhibitorio apetitivo: cuando suena la campana, se cierra la trampilla de la comida.
TERMINOS DESTACADOS POR TEMAS
Estímulo condicional o condicionado (EC): Estímulo que inicialmente no provoca una respuesta
más allá de la de orientación pero que después de su presentación junto con el EI provocará una
respuesta particular.
Estímulo incondicional (EI): estímulo que elicita una respuesta particular sin necesidad de
entrenamiento previo.
Intervalo entre estímulos: es el periodo de tiempo que pasa entre la presentación del EC y la
presentación del EI durante un ensayo de condicionamiento clásico.
Intervalo de huella: Intervalo de tiempo entre el final del EC y el comienzo del EI en los ensayos de
condicionamiento de huella.
1
Psicología del aprendizaje. Tema 3
Conocimientos previos
Condicionamiento clásico o pavloviano: Forma básica de aprendizaje descubierta por Pavlov que
se basa en la relación EC-EI y en las respuestas dadas ante estos estímulos por los sujetos (RC y RI).
Estimulo Condicionado (EC): Estimulo inicialmente neutro que no provoca una respuesta en el
sujeto por si mismo, pero adquiere la capacidad de hacerlo al ser asociado con un estimulo
incondicionado.
Estimulo Incondicionado (EI): Estimulo que provoca una respuesta en el sujeto por si mismo, sin
necesidad de asociación con otro estimulo ni entrenamiento previo.
Respuesta Condicionada (RC): Respuesta que provoca un EC tras ser asociado a un EI y que
generalmente es similar a la RI.
Respuesta Incondicionada (RI): Respuesta que provoca un EI, sin necesidad de un entrenamiento
previo.
Términos destacados
Bloqueo: Efecto de interferencia que se produce sobre el aprendizaje de una asociación EC-EI
debido a un aprendizaje previo.
2
Saliencia: Perceptibilidad de un estimulo para un animal o especie concretos.
Conducta elicitada: Conducta que es provocada por estímulos específicos del entorno. Este tipo de
conductas pueden ser innatas o aprendidas como sucede en el condicionamiento clásico.
Términos destacados
Clase de estímulos: Estímulos que varían en distintas características físicas pero que tienen el
mismo efecto sobre la conducta.
Clase de respuestas: Cualquier forma de ejecución de una conducta que tiene una función similar.
Conducta supersticiosa: Conducta que es reforzada por la aparición azarosa de un reforzador. Fue
explicada por Skinner mediante la idea del reforzamiento accidental o adventicio.
Contraste conductual negativo: Disminución de la respuesta que tiene lugar cuando se presenta
una recompensa desfavorable con respecto a una experiencia anterior con una consecuencia más
favorable.
3
Contraste conductual positivo: Aumento de la respuesta debido a una recompensa favorable como
resultado de la experiencia anterior con una recompensa menos favorable.
Control por el estímulo: Termino que se refiere a como los estímulos que preceden una conducta
pueden controlar la ocurrencia de esa conducta.
Deriva instintiva: Tendencia de algunos animales a mostrar respuestas instintivas que compiten
con la respuesta requerida cuando son entrenados mediante procedimientos de condicionamiento
operante.
Devaluación del reforzador: Procedimiento que consiste en asociar al reforzador que se está
utilizando un estimulo o evento de naturaleza contraria.
El efecto resultante de este procedimiento es una disminución de la respuesta operante que ha
sido reforzada con el reforzador devaluado, aunque esta respuesta nunca haya sido contingente al
estimulo aversivo.
Efecto de indefensión aprendida: Consiste en que cuando los animales son sometidos a situaciones
en las que tienen poco o ningún control desarrollan una reacción emocional en la que manifiestan
un comportamiento pasivo ante dichas circunstancias o circunstancias parecidas.
Extinción: Procedimiento mediante el cual una respuesta que previamente se reforzaba se deja de
reforzar, es decir, se deja de presentar la consecuencia que se presentaba anteriormente cuando la
respuesta operante era emitida.
Ley del Efecto: Principio de Aprendizaje enunciado por Thorndike «De las muchas respuestas dadas
en la misma situación, las que vayan acompañadas o inmediatamente seguidas de satisfacción para
el animal, en igualdad de condiciones, se conectaran más firmemente con la situación; de manera
que cuando esta vuelva a presentarse, volverán a presentarse con gran probabilidad».
Procedimiento de marcado: Es una forma de evitar los efectos de la demora en la entrega del
reforzador. Este procedimiento consiste en marcar la respuesta haciendo que esta pueda
diferenciarse de otros eventos que ocurren durante el periodo de demora.
4
Reforzamiento secundario: Proceso por el que un estimulo o evento que originalmente no es
reforzante puede adquirir capacidad de reforzamiento mediante la asociación repetida con otro
que era previamente reforzante.
Conocimientos previos
Castigo: Procedimiento del condicionamiento operante por el que las consecuencias de la conducta
tienen como resultado la disminución de la probabilidad de emisión de dicha conducta, bien sea a
través de la presentación contingente de consecuencias aversivas o de la retirada de consecuencias
de naturaleza apetitiva.
Conducta supersticiosa: Conducta que es reforzada por la aparición azarosa de un reforzador. Fue
explicada por B. F. Skinner mediante la idea del reforzamiento accidental o adventicio. Otros
autores la atribuyen a factores filogenéticos.
Conductismo: Término que hace referencia a la teoría psicológica por la que se considera a la
conducta como objeto de estudio en sí misma y que ha tomado diferentes interpretaciones
(conductismos) a lo largo de la historia, destacando la distinción clásica entre neoconductismo
(como en C. L. Hull) y conductismo radical (B. F. Skinner), o la más actual entre conductismo
molar y molecular.
Constructo hipotético: Entidad hipotética que se refiere a un concepto no observacional pues por
definición los constructos no se pueden demostrar, no son directamente manipulables y se infieren
de la observación de la conducta.
Estímulos discriminativos: Estímulos que han adquirido cierto grado de control sobre la emisión de
la conducta en virtud de que en su presencia la conducta ha sido seguida de consecuencias
reforzantes o castigadoras.
Reforzador: Evento ambiental (que puede ser un estímulo o la realización de una actividad) que
programado de forma contingente a una respuesta incrementa su probabilidad futura.
Reforzador (demora del): Manipulación experimental por la que se altera el intervalo temporal
entre la emisión de la respuesta y la consecución del reforzador, resultando en una menor
efectividad de los reforzadores cuanto más demorados (principio de contigüidad temporal).
Reforzador (magnitud del): Manipulación experimental por la que se altera la cantidad de
reforzador que se entrega como consecuencia de la respuesta, de manera que normalmente
resultan preferidos los reforzadores que sean más grandes.
5
Reforzamiento condicionado: Proceso por el que un estímulo o evento que originalmente no es
reforzante puede adquirir capacidad de reforzamiento mediante la asociación repetida con otro
que era previamente reforzante.
Respuesta operante: Acción que lleva aparejada una consecuencia, que puede ser apetitiva o
aversiva, y que se define por su función más que por su topografía.
Variable interviniente o intermedia: Es una variable que no se refiere a factores de causa o efecto
pero que modifica (interviene) en las relaciones de otras variables, lo que aplicado a la teoría
psicológica sería suponer la intervención de procesos no directamente observables pero que se
pueden hacer operacionales con el fin de ser manipulados experimentalmente.
Términos destacados
Asociaciones E-R vs. E-E: Para explicar la adquisición de fuerza de una respuesta tradicionalmente
se ha pensado que se forman asociaciones entre los estímulos y las respuestas. Este tipo de
explicación no se adecúa a todos los resultados experimentales, habiendo sido necesario postular la
co-ocurrencia de asociaciones estímulo-estímulo. La explicación E-R ha sido importante para
establecer reglas de aprendizaje, pero también para determinar reglas de ejecución de lo ya
aprendido.
Ley de igualación: Es una relación matemática que establece una equiparación entre la tasa relativa
de respuesta entre las alternativas existentes en un programa concurrente y la tasa relativa de
6
reforzamiento que acompaña la elección de dichas alternativas de respuesta. La conducta de
elección predicha por la ley de igualación se ha visto influida por factores como los sesgos de
respuesta y la sensibilidad a las consecuencias de reforzamiento, lo que ha llevado a su
reformulación matemática dando lugar a la ley generalizada de la igualación.
Programas básicos de reforzamiento: Son reglas que determinan cómo se reforzarán las
respuestas, destacando cuatro programas fundamentales: razón fija, razón variable, intervalo fijo e
intervalo variable. La diferencia entre ellos se basa en el criterio de si se reforzará la respuesta que
completa un número determinado de respuestas o la respuesta dada después de haber pasado un
tiempo especificado, criterio que tanto en un caso como en otro puede ser fijo o puede variar de
una ocasión a la siguiente. Los programas de razón mantienen por lo general tasas de respuesta
más altas que los de intervalo, y los programas fijos, a diferencia de los variables, generan pausas
post-reforzamiento.
7
preferencias en pruebas de elección como las de los programas concurrentes. Un parámetro de
sensibilidad es incorporado a la ley generalizada de la igualación para poder explicar por qué en
ocasiones la mejor alternativa es preferida por encima de lo que objetivamente vale
(sobreigualación) y en muchas otras es preferida por debajo de lo que vale (infraigualación).
Teoría de la privación de respuesta: Propuesta teórica que matiza el principio del reforzamiento de
Premack al postular que lo único necesario para que una actividad pueda funcionar como
reforzadora es restringir su ocurrencia con respecto a su óptimo (ahora denominado punto de
bienestar), pero que no es necesario establecer ninguna jerarquía de preferencias para saber si las
actividades instrumental y reforzadora son diferencialmente preferidas.
Teoría de la probabilidad diferencial: También conocida como principio de Premack, y por la que
se propone que para que una actividad pueda funcionar como reforzadora debe ser preferida sobre
la actividad que se quiere reforzar y hacerla posible sólo de forma contingente a la realización
previa de la conducta instrumental, para lo cual habrá que restringir su ocurrencia en relación a los
niveles óptimos de preferencia (pues si no estuviese restringida dicha actividad no podría funcionar
como reforzadora).
Conocimientos previos
Conducta de elección. Se considera que un individuo ha tomado una decisión o ha elegido una
opción cuando emite una respuesta en una situación en la que existían mas de una alternativa de
respuesta disponible. Aunque podría considerarse que cualquier conducta es una elección
(responder vs. no responder) este fenómeno suele estudiarse mediante la aplicación de
programas de reforzamiento concurrentes.
Extinción y Castigo. Las dos maneras más usuales de disminuir la probabilidad futura de una
operante que está siendo sometida a reforzamiento son la aplicación o bien de Castigo o bien de
Extinción. En un procedimiento de Castigo positivo, o castigo simplemente, la emisión de la
respuesta tiene como consecuencia la aparición de un evento aversivo. En el Castigo negativo,
o entrenamiento de Omisión, la consecuencia tras la respuesta es la no presentación de un
reforzador cuya probabilidad de aparición era alta.
En ambos se establece algún tipo de contingencia (positiva o negativa) con la consecuencia. Sin
embargo, la aplicación de Extinción a una respuesta reforzada positivamente implica romper la
contingencia que mantenían la respuesta y el reforzador, es decir, que cuando se emita la conducta
no aparezca el reforzador.
8
Reforzamiento positivo y Reforzamiento negativo. En una contingencia operante, aquellos
procedimientos que producen un aumento de la probabilidad futura de que la conducta se emita
(en un contexto similar) se denominan Reforzamiento. Si el procedimiento consiste en hacer
contingente positiva la aparición de un reforzador con la emisión de la respuesta se considera un
Reforzamiento Positivo, o simplemente reforzamiento. Si en el procedimiento la contingencia que
mantienen la respuesta y la consecuencia es negativa, y la consecuencia es de naturaleza aversiva,
ya sea escapando de ella o evitando su aparición, se denomina Reforzamiento Negativo o
entrenamiento de Escape/Evitación.
Términos destacados
Discriminar y Generalizar: se considera que un individuo está discriminando entre dos eventos
cuando su respuesta es diferente en función de cual de los dos esté presente. Un estimulo
demuestra un elevado control sobre una conducta cuando solo aparece en su presencia y no ante
cualquier otro estimulo, aunque se parezca. Se considera entonces que el sujeto discrimina muy
bien ese estimulo. Generalizar seria lo contrario, es decir, comportarse de la misma manera ante
estímulos diferentes, lo que se consideraría un índice de un bajo control por el estimulo.
Errores comunes
Estímulo discriminativo vs. Discriminar / Generalizar: Discriminar o generalizar son dos formas de
describir el grado en el que ciertos estímulos antecedentes ejercen control sobre determinadas
conductas. Un evento ejercerá mayor control sobre una conducta cuanta menos generalización
se observe, es decir, si esa conducta solo aparece ante ese estimulo y no ante otros (aunque se
parezcan mucho) el sujeto está demostrando que una elevada conducta discriminativa. No
obstante, a todos los estímulos que ejercen cierto control directo (no condicional) sobre alguna
operante se les denomina discriminativos (Ed), independientemente de que ese control sea escaso
o muy alto. Por tanto, los estímulos discriminativos pueden discriminarse de la misma forma que
pueden generalizarse, en función de multitud de variables comentadas en este capítulo.
9
¿Qué muestran los gradientes de generalización?: Los gradientes de generalización se forman a
partir de la respuesta observada ante estímulos de prueba que guardan un parecido decreciente
con el E+ o el E- en una dimensión (manteniéndose el resto de rasgos constantes). La forma de este
gradiente (plano o puntiagudo) nos informa sobre el grado de control que ejerce el E+ o el E- sobre
determinada conducta. Por tanto, nos permite determinar tanto el nivel de discriminación como de
generalización.
Conocimientos previos
Ed+ y Ed-. Son estímulos discriminativos (Ed) aquellos que han adquirido cierto control sobre la
emisión de determinada conducta debido a que su presencia ha correlacionado con su refuerzo
(Ed+) o con su castigo/extinción (Ed-).
Elicitar y Emitir. La conducta que es provocada de una manera refleja por un evento antecedente
se considera elicitada, ya sea de manera innata (RI) o aprendida (RC). La conducta emitida
(operante o instrumental) depende de las consecuencias que le han seguido en el pasado.
Ensayos discretos y Operante libre. Se considera que un estudio está utilizando ensayos discretos
cuando sólo se permite que la respuesta aparezca una vez por ensayo. De esta manera el
experimentador puede controlar el momento y la frecuencia de emisión de la operante. El uso de
un método de operante libre implica que el sujeto pueda repetir la respuesta sin restricciones a lo
largo de la sesión, sin que el experimentador intervenga al finalizar cada ensayo.
ISI e ITI. Se define como intervalo entre estímulos (inter stimulus interval, ISI) al tiempo que
transcurre entre la aparición de un determinado estímulo (frecuentemente un EC) y la aparición de
otro (frecuentemente un EI). El intervalo entre ensayos (inter trial interval, ITI) es el tiempo que
transcurre desde la finalización de un ensayo (al cerrarse el comedero, por ejemplo) y el comienzo
del siguiente. Suele ser más largo que el ISI.
10
Términos destacados
Castigo positivo: procedimiento en el que se hace contingente la emisión de una respuesta con la
aparición de un evento aversivo (o reforzador negativo). Tiene como efecto la disminución de la
probabilidad futura de emisión de dicha conducta.
Estímulo aversivo: evento considerado desagradable para el sujeto que puede producir reacciones
como alejamiento, parálisis, agresión, entre otras, en función de su naturaleza e intensidad.
Estímulo reforzador negativo: evento cuya aparición contingente como consecuencia a una
conducta modifica su probabilidad de emisión futura. Cuando la contingencia es positiva suprime la
respuesta mientras que cuando es negativa la refuerza. Puede ser primario (EI aversivo) o
secundario (EC excitatorio aversivo o EC inhibitorio apetitivo).
Errores comunes
Castigo negativo y extinción. Tanto los procedimientos de castigo como los de extinción (de un
comportamiento reforzado positivamente) tienen como resultado un descenso de la frecuencia con
la que aparece la conducta a la que se está aplicando. Distinguir el castigo positivo de la extinción
no parece difícil, mientras que el primero implica la aparición de un evento aversivo tras la emisión
de la respuesta, el segundo consiste en no presentar el reforzador positivo que antes seguía a la
respuesta cuando ésta se emite.
Esta relación (R-no Er+) es la que puede generar cierta confusión entre el castigo negativo y la
extinción, pero esto es porque este esquema resume pero no describe completamente ambos
procedimientos. Vamos a centrarnos en dos diferencias que pueden aclarar esta posible confusión:
a) Una conducta debe estar (o haber estado) siendo reforzada para que se emita con cierta
frecuencia. La extinción detiene la aparición de la consecuencia reforzante específica, el castigo
negativo no. Es decir, podemos aplicar castigo negativo a cierta conducta mientras ésta sigue
siendo reforzada (ya que el reforzador positivo que se omite puede ser otro diferente).
b) El castigo negativo requiere del establecimiento de una contingencia negativa entre la emisión
de la respuesta y a aparición de algún evento apetitivo. Por tanto, la relación debe de describirse de
la siguiente forma R-no Er+/no R-Er+. Cuando extinguimos una conducta reforzada positivamente,
el reforzador positivo no se presenta aunque el sujeto no emita la respuesta (R-no Er+ / no R-no
Er+).
11