AME Tema 4

1
Tema 4: Condicionamiento
instrumental
Bibliografía: Domjan (2006) Cap. 5, 6, 7, 9, 10
2
Condicionamiento instrumental (CI)
Orígenes: Thorndike y Skinner
Situaciones experimentales CI
Procedimientos CI y Programas de reforzamiento
Variables CI: Respuesta-Reforzador
La estructura asociativa del CI
Extinción en CI
Las siguientes dos transparencias se refieren a la descripción de los primeros
experimentos de condicionamiento instrumental realizados por Thorndike, tal y como
se describe en las páginas 62-63 del documento de lecturas.
La gráfica de la segunda transparencia simplemente muestra cómo la latencia en salir

de la caja de los gatos de Thorndike iba disminuyendo a lo largo de los ensayos, es
decir, los animales cada vez conseguían salir antes de la caja.
Podéis encontrar más información en la sección “Primeras investigaciones sobre el condicionamiento

instrumental” del capítulo 5 del manual Domjan (2006).
3
Thorndike (1874 – 1949)

4
Thorndike (1874 – 1949)
700
Tiempo en salir (segundos)

600
R 500
400
300
200
100
0
1 3 5 7 9 11 13 15 17 19
Ensayos
Thorndike registraba la latencia de

escape en la caja problema.
En las siguientes dos transparencias se muestra la ley del efecto que planteó Thorndike
como consecuencia de estas investigaciones.
Tal y como se indica en las lecturas (página 63), esta ley del efecto plantea que “quan
un animal executa una conducta que va seguida d’un esdeveniment agradable llavors
els estímuls presents en el moment de la resposta i la resposta quedaven connectats
de manera que en el futur la presència dels estímuls activava directament la resposta a
ells connectada. Si la conseqüència era aversiva, llavors la connexió es debilitava.”
Es decir, de los tres elementos implicados en el condicionamiento instrumental (ver

transparencia nº 7), la ley del efecto plantea que las asociaciones que se forman son E-
R (se volverá a estos tres elementos al final del tema, al hablar de la estructura
asociativa del condicionamiento instrumental).
Podéis encontrar más información en la sección “Primeras investigaciones sobre el condicionamiento

5
Ley del efecto de Thorndike
“Of several responses made to the same situation, those

which are accompanied or closely followed by satisfaction
to the animal will, other things being equal, be more firmly
connected with the situation, so that, when it recurs, they
will be more likely to recur; those which are accompanied or
closely followed by discomfort to the animal will, other
things being equal, have their connections with that
situation weakened, so that, when it recurs, they will be less
likely to occur. The greater the satisfaction or discomfort,
the greater the strengthening or weakening of the bond”
(Thorndike, 1898)
6
“Of several responses made to the same situation, those

which are accompanied or closely followed by satisfaction
to the animal will, other things being equal, be more firmly
connected with the situation, so that, when it recurs, they
Si una R ejecutada en presencia de
will be more likely to recur; those which are accompanied or
un E va
closely followed byseguida de untohecho
discomfort the animal will, other
things beingsatisfactorio,
equal, havelatheir
asociación entre E with
connections y that
R se fortalece.
situation weakened, Si R when
so that, va seguida de they will be less
it recurs,
un hecho
likely to occur. molesto,
The greater thela satisfaction
asociación seor discomfort,
debilita.
the greater the strengthening or weakening of the bond”
(Thorndike, 1898)
7
Elementos del CI
- E (Ed: estímulo discriminativo): El contexto (el aparato
experimental), o cualquier estímulo discreto (p.ej. una
luz) o varios presente/s cuando se obtiene la
consecuencia.
- R: Respuesta
- C: consecuencia
Para Thorndike, la asociación es E → R
8
Extinción en CI
En esta sección (transparencias 9-14) se describen las dos grandes modalidades de
situaciones experimentales en el condicionamiento instrumental: las de ensayos
discretos (en las que se permite una única respuesta por ensayo, y de las que los
experimentos iniciales de Thorndike formarían parte) y las de operante libre (en las
que se puede realizar la conducta instrumental tantas veces como se quiera una vez se
está en la situación experimental). Podéis encontrar una descripción de ambas
modalidades en el documento de lecturas, páginas 63-67.
Podéis encontrar más información en la sección “Aproximaciones modernas al estudio del condicionamiento
9
Situaciones experimentales de ensayos

discretos
-Sólo se permite una respuesta por ensayo (un ensayo consiste en
introducir el animal en un aparato y una vez realiza la respuesta
instrumental se retira).
-Habitualmente se utiliza algún tipo de laberinto: El uso del

laberinto fue introducido por Small (psicólogo norteamericano) a
principios del XX. Investigó el sistema de madrigueras que las
ratas canguro construyen en su ambiente natural.
-En función de la situación experimental se mide la latencia de

respuesta, el porcentaje de respuestas correctas, el tiempo en
alcanzar la meta, la velocidad de carrera, etc…
En la gráfica de la siguiente transparencia puede observarse cómo, a medida que
avanza el aprendizaje, el animal tardaría menos tiempo en recorrer el corredor recto
hasta llegar a la caja de meta donde encontraría el reforzador (ej. alimento).
En las lecturas, podéis revisar la descripción que se hace en la página 63-64.

10

discretos
Caja de meta
CORREDOR RECTO: Se registra el tiempo, o
la velocidad, que el animal emplea en
recorrer el corredor.
60
50
Tiempo en segundos
40
30
20
10
0 Caja de salida
1 2 3 4 5 6 7 8 9 10
Ensayos
En la gráfica de la siguiente transparencia puede observarse cómo, a medida que
avanza el aprendizaje, el animal aumentaría el número de elecciones del brazo
correcto que le permitiría llegar a la caja de meta donde encontraría el reforzador (ej.
alimento).
En las lecturas, podéis revisar la descripción que se hace en la página 63-64.

11

discretos
LABERINTO en T: En el punto de decisión
debe elegir entre girar derecha o izquierda. Punto de decisión
Se registra el porcentaje de elecciones
correctas.
Caja de meta
% de respuestas correctas
95
85
75
65
55
45
1 2 3 4 5 6 7 8 9 10 Caja de salida
Sesiones
12
Situaciones experimentales de operante libre
Su característica principal es que se puede realizar la

conducta instrumental tantas veces como se quiera.
Se mide la tasa de respuesta, es decir, la frecuencia

de respuesta durante un tiempo determinado (por
minuto, hora etc.)
En la siguiente transparencia se describe la caja de Skinner. En el condicionamiento
clásico, y concretamente en el paradigma de la respuesta emocional condicionada o
supresión condicionada (ver tema 2 en el campus) hablábamos de experimentos de
condicionamiento del miedo utilizando esta caja (algunas personas también tuvisteis la
ocasión de trabajar con ella en las prácticas de Sniffy). Para llevar a cabo aquellos
experimentos de condicionamiento clásico, decíamos que un paso preliminar era
enseñar a los animales a presionar la palanca a cambio de comida, y que este
aprendizaje se refería a un condicionamiento instrumental. Por tanto esta conducta de
presión de palanca es relevante en este tema 4. Fijaos que es un ejemplo de operante
libre porque, mientras el anima está en la caja, puede dedicarse a presionar la palanca
tantas veces como quiera.
En las lecturas, podéis revisar la descripción de la caja que se hace en la página 65.
13
Skinner (1904-1990)
-Los métodos de operante libre fueron ideados por Skinner (1938)

para estudiar la conducta de una forma más continua de la que es
posible con los laberintos.
-La respuesta instrumental habitual es la de presionar una palanca
o picotear una tecla, para ratas y palomas respectivamente
(respuesta seguida de reforzador, normalmente comida).
En la siguiente transparencia se muestra un registro de respuesta acumulada,
típicamente utilizado en cajas de Skinner. Podéis imaginar este registro como un
bolígrafo sobre un rollo de papel de cocina. El papel de cocina se va desenroscando a
una velocidad constante. Si no hay ninguna respuesta de presión de palanca la línea
que se va dibujando es horizontal. Cada vez que el animal realiza una presión de
palanca, el bolígrafo sube un pequeño tramo. Por ello, si el animal responde con una
alta tasa de respuesta (mucha frecuencia de respuesta por unidad de tiempo), el
bolígrafo irá “escalando” tramos muy rápido, y la pendiente que se dibujará será muy
acusada. Si por el contrario la tasa de respuesta es baja, la pendiente que se dibuja
será más suave.
Cuando se llega a la parte superior del papel, el bolígrafo baja en vertical y comienza
un nuevo registro acumulado, tal y como podéis ver en las lecturas (podéis revisar la
descripción de esta medida que se hace en la página 65-66).
14
Registro de la conducta en situaciones de Operante libre

Registro acumulativo: registro continuo donde para cada
respuesta que emite el sujeto el registro se desplaza hacia arriba.
La pendiente de la respuesta acumulada indica la frecuencia o tasa de la

respuesta. Entre A y B el sujeto no emite respuesta (línea plana). Entre los
puntos B y C se muestra una tasa relativa de respuesta. Entre C y D se
observa un incremento de la tasa de respuesta.
(analizaremos esta medida en las prácticas de condicionamiento instrumental con Sniffy)

15
Extinción en CI
Esta sección (transparencias 16-28) presenta los cuatro procedimientos básicos de
condicionamiento instrumental. Comprender estos cuatro procedimientos es muy
relevante, y los tenéis descritos en el documento de lecturas (páginas 68-70). Además,
disponéis de ejercicios de autoevaluación para practicarlos (en el campus virtual).
Los cuatro procedimientos surgen de combinar dos niveles posibles de dos variables
relevantes:
-Tipo de estímulo o consecuencia: puede ser apetitiva lo aversiva

-Contingencia respuesta-consecuencia: puede ser positiva o negativa
Podéis encontrar más información en la sección “Procedimientos de condicionamiento instrumental” del

capítulo 5 del manual Domjan (2006).
Images: https://openclipart.org/
16
Procedimientos de condicionamiento
instrumental
Contingencia Contingencia
positiva negativa
Consecuencia: Consecuencia:
apetitivo
Estímulo
Castigo negativo
Reforzamiento (entrenamiento
positivo por omisión)
Reforzamiento
negativo
Castigo positivo
aversivo
Estímulo
(evitación,
escapada)
17
instrumental
Estímulo apetitivo: estímulo agradable, que produce

consecuencias agradables en el sujeto.
Estímulo aversivo: estímulo desagradable, que produce

consecuencias desagradables en el sujeto.
18
instrumental
Contingencia positiva respuesta-consecuencia: la ejecución de

la conducta provoca que aparezca el estímulo (o al menos
aumenta la probabilidad de que aparezca).
Contingencia negativa respuesta-consecuencia: la ejecución

de la conducta provoca que desaparezca el estímulo (o al
menos disminuye la probabilidad de que aparezca).
19
Reforzamiento positivo
La ejecución de la respuesta instrumental

conlleva la aparición de un estímulo agradable.
La contingencia positiva entre respuesta y

estímulo apetitivo aumenta la probabilidad de la
respuesta.
En la siguiente transparencia se presentan ejemplos de reforzamiento positivo:
Ejemplo 1: La conducta instrumental de estudiar de una niña o niño, que es reforzada

por la obtención de una buena nota (estímulo apetitivo). O imaginemos que, si esta
persona estudia, su familia le permite después jugar a su videojuego favorito
(estímulo apetitivo).
Ejemplo 2: La conducta de introducir monedas en una máquina expendedora nos

permite obtener el refresco que queremos (estímulo apetitivo).
Ambos son ejemplos de reforzamiento positivo porque la realización de la conducta

provoca la aparición del estímulo apetitivo (o al menos aumenta la probabilidad de
que este estímulo aparezca, si pensamos por ejemplo en que el estímulo es la
obtención de una buena nota en el ejemplo 1). Es decir, existe una contingencia
positiva entre respuesta y estímulo apetitivo.
20
Reforzamiento positivo
21
Castigo positivo
La ejecución de la respuesta
instrumental conlleva la aparición de
un estímulo desagradable.
La contingencia positiva entre

respuesta y estímulo aversivo
disminuye la probabilidad de aparición
de la respuesta.
En la siguiente transparencia se presentan ejemplos de castigo positivo:
Ejemplo 1: la conducta de hablar mal o insultar a alguien puede ir seguida de una

respuesta del mismo tipo por parte de la otra persona (los gritos o palabras
desagradables que recibimos de vuelta funcionarían en este ejemplo como estímulo
aversivo).
Ejemplo 2: La conducta de conducir excesivamente rápido puede ir seguida de un

accidente de tráfico (heridas, dolor etc, que funcionarían como estímulos aversivos)
Ambos son ejemplos de castigo positivo porque la realización de la conducta provoca

la aparición del estímulo aversivo (o al menos aumenta la probabilidad de que este
estímulo aparezca). Es decir, existe una contingencia positiva entre respuesta y
estímulo aversivo.
22
200Km/h
Castigo positivo
23
Castigo negativo
La ejecución de la respuesta
instrumental conlleva la desaparición
de un estímulo agradable.
La contingencia negativa entre

respuesta y estímulo apetitivo
disminuye la probabilidad de aparición
de la respuesta.
En la siguiente transparencia se presenta un ejemplo de castigo negativo:
Ejemplo: la conducta de un niño de pegar a otras personas, que va seguida de la

prohibición por parte de su familia de poder jugar a algún videojuego que le gusta al
niño o de ver su programa de televisión favorito (el videojuego y el programa de
televisión serían en este ejemplo estímulos apetitivos).
Se trata de un ejemplo de castigo negativo porque la realización de la conducta de

pegar provoca la desaparición de un estímulo apetitivo. Es decir, existe una
contingencia negativa entre respuesta y estímulo apetitivo.
24
Castigo negativo
25
Reforzamiento negativo
La ejecución de la respuesta conlleva la

desaparición (escape), o impide que aparezca
(evitación), un estímulo desagradable
La contingencia negativa entre respuesta y

estímulo aversivo aumenta la probabilidad de la
respuesta.
En la siguiente transparencia se presenta un ejemplo de reforzamiento negativo:
Ejemplo: la conducta de lavarnos las manos va unida a la no aparición de una infección (la
infección sería un estímulo aversivo).
Se trata de un ejemplo de reforzamiento negativo porque la realización de la conducta provoca la

no aparición de la infección, o al menos disminuye la probabilidad de infección. Es decir, existe
una contingencia negativa entre respuesta y estímulo aversivo.
En realidad dentro del reforzamiento negativo distinguimos entre las conductas de evitación y las
de escape. En las de evitación la respuesta se realiza antes de que aparezca el estímulo aversivo
(anticipamos que podría aparecer y realizamos la conducta para evitarlo). En el escape el
estímulo aversivo ya ha aparecido y realizamos la conducta para escapar de él (véase el ejemplo
de las lecturas de la persona con miedo a los perros que escapa al encontrarse con uno).
NOTA: He detectado un error en las lecturas. Al final de la página 68 se indica “Una persona que té fòbia als
gossos pot sortir corrent si de cop i volta es troba en front d’un gos. Un conductor pot portar el cotxe al
mecànic per fer una revisió abans d’un viatge llarg per evitar una averia. Aquests són dos exemples del
procediment de reforçament positiu”. En realidad no son ejemplos de reforzamiento POSITIVO sino ejemplos
de reforzamiento NEGATIVO.
26
27
La ejecución de la respuesta conlleva la

desaparición (escape), o impide que aparezca
(evitación), un estímulo desagradable
La contingencia negativa entre respuesta y

estímulo aversivo aumenta la probabilidad de la
respuesta.
En la situación de evitación, el animal lleva a cabo la conducta

antes de que se presente el estímulo aversivo… ¿Cómo se puede
explicar?
La siguiente transparencia resume la teoría de los dos procesos, que trata de explicar
la conducta de evitación, pero ya que esta teoría no se describe en las lecturas no
entrará en el examen.
28
Evitación: Teoría de los dos procesos (Mowrer, 1942) : CC + CI
EI (descarga) provoca RI (miedo).

EC (señal de aviso) asociada al EI (descarga) también termina
generando RC (miedo)
La evitación entendida como conducta de escape del estímulo

aversivo (miedo) que ya está presente debido al EC.
En la siguiente transparencia se hace un recordatorio de en qué se diferencia el condicionamiento
clásico del instrumental. Tal y como se describe al inicio del capítulo de condicionamiento instrumental
del documento de lecturas (página 62), en el condicionamiento clásico los dos elementos que quedan
asociados son dos estímulos externos, que el individuo no puede manipular. Por ejemplo, yo puedo
aprender que el cielo nublado anuncia lluvia, pero no puedo alterar la probabilidad de que llueva,
simplemente anticiparla. De la misma forma, un perro puede aprender que un determinado sonido
(EC) anuncia comida (EI) y puede mostrar respuestas condicionadas (salivar ante el sonido), pero con
estas respuestas no cambia la probabilidad de que aparezca la comida. O una rata que aprende que un
tono (EC) anuncia una descarga (EI) en el paradigma de respuesta emocional condicionada (ver tema
2), puede mostrar respuestas condicionadas (paralizarse ante el tono), pero con estas respuestas no
consigue cambiar la probabilidad de que aparezca la descarga. Así, en el condicionamiento clásico
hablamos de la asociación entre dos estímulos que el organismo no puede manipular, sobre los que no
tiene control.
En el condicionamiento instrumental sin embargo uno de los elementos de la asociación es la propia

conducta del individuo, y esta conducta altera la probabilidad con la que ocurre un estímulo o
consecuencia. Así, siguiendo el ejemplo de las lecturas, la conducta instrumental de abrir el paraguas
cuando comienza a llover altera la probabilidad con la que nos mojamos, haciendo menos probable o
impidiendo que nos mojemos. O la conducta instrumental de estudiar aumenta la probabilidad de que
obtengamos una buena nota en un examen. De la misma forma, la conducta instrumental de presionar
la palanca en la caja de Skinner provoca la aparición del estímulo comida. Por tanto, en el
condicionamiento instrumental se habla de “conductas dirigidas a una meta”, ya que mediante estas
conductas el individuo altera las probabilidades con las que determinados estímulos o situaciones
ocurren a su alrededor.
Podéis encontrar más información en la introducción del capítulo 5 del manual Domjan (2006).
29
Diferencias entre condicionamiento clásico e

instrumental
En el condicionamiento clásico, el individuo no puede

manipular los estímulos que quedan asociados.
En el condicionamiento instrumental, conductas dirigidas a

una meta.
Las siguientes transparencias (transparencias 30-33) describen el moldeamiento, que
aparece explicado en en las páginas 66-67 de las lecturas (sección ”Emmotllament”).
Concretamente se describe el procedimiento de moldeamiento que podríamos utilizar

para instaurar la conducta de presión de palanca en ratas en una caja de Skinner. Una
de las prácticas de las asignatura (segundo parcial, práctica 3B) se basa en utilizar
Sniffy para poner en práctica este procedimiento.
Podéis encontrar más información en la sección “Aproximaciones modernas al estudio del condicionamiento
30
Hasta ahora hemos hablado de reforzar o castigar
conductas que el sujeto emite
espontáneamente…
Moldeamiento: procedimiento para instaurar una conducta nueva, (no

presente en el repertorio de conductas del animal).
Ej., presión de palanca de una rata en la caja de Skinner.
¿Hasta qué punto es nueva esta conducta? Componentes de la

conducta de presión de palanca: encontrarse cerca de la palanca,
ponerse sobre sus dos patas…
No le enseñamos componentes nuevos de la conducta, sino una forma

concreta de combinar estos componentes.
(llevaremos a cabo un moldeamiento en las prácticas de condicionamiento instrumental con Sniffy)

La siguiente transparencia describe un paso previo necesario antes de comenzar el
moldeamiento de la conducta de presión de palanca en la caja de Skinner, y es el que
se conoce como “entrenamiento al comedero”. El entrenamiento al comedero se
describe en el primer párrafo de la sección ”Emmotllament” de las lecturas (final de la
página 66 e inicio de la 67). Permite convertir el sonido del dispensador en un
reforzador secundario (mediante un proceso de condicionamiento clásico).
Fijaos que una ventaja de utilizar el sonido del dispensador como reforzador
secundario en el moldeamiento es que, si queremos reforzar cualquier conducta que
realice el animal en cualquier lugar de la caja, y para ello liberamos una bolita de
comida cuando la realiza, el animal escuchará el sonido del dispensador y el sonido le
hará acercarse inmediatamente al comedero.
31
Moldeamiento en la caja de Skinner
Antes de comenzar el moldeamiento propiamente dicho, debemos

realizar un entrenamiento al comedero.
¿La comida como reforzador? Problema: normalmente para que un

reforzador sea efectivo, debe aparecer inmediatamente después de
que ocurra la conducta operante, pero puede que la rata no encuentre
la comida inmediatamente después de presionar la palanca.
Solución: Utilizar un reforzador secundario que podamos controlar

(i.e. el sonido del dispensador).
Alloway, T.; Wilson, G. Graham, J. (2005). Sniffy la rata virtual, pro version 2.0. Thomson Paraninfo.
32
Moldeamiento
Es necesario detallar los componentes de la conducta

final que deseamos.
Posteriormente, se refuerzan los componentes más

sencillos y con más probabilidad de aparecer
espontáneamente.
Cuando un componente de la conducta ya aparece

con una alta frecuencia, se deja de reforzar y se pasa
a reforzar el componente siguiente.
En la siguiente transparencia aparecen representados visualmente mediante capturas
de Sniffy los pasos que se detallan en la sección “Emmotllament” de las lecturas
(páginas 66-67):
1. “…podríem començar per reforçar cada vegada que l’animal es posa dret sobre les
potes posteriors i amb independència d’en quin lloc de la cambra ho faci”
2. “El següent pas consistirà en restringir el reforçador a quan es posa dret però en
una ubicació propera a la palanca però no el reforçarem per posar-se dret si es troba
lluny de la palanca”
3. “podrem passar a reforçar només quan l’animal es posi dret just davant la palanca”
4. Finalmente, únicamente se reforzará al animal cuando presione la palanca.
33
Moldeamiento en la caja de Skinner
1) 2)
LO EXPLORAREMOS EN MÁS DETALLE EN LAS

PRÁCTICAS DE SNIFFY
3) 4) 5)
Alloway, T.; Wilson, G. Graham, J. (2005). Sniffy la rata virtual, pro version 2.0. Thomson Paraninfo.
En las siguientes transparencias (de la 34 a la 40) se introducen los principales
programas de reforzamiento positivo. Esta sección es fundamental y disponéis en las
lecturas de una explicación en detalle de cada tipo de programa (páginas 83-89).
También disponéis en el campus virtual de un cuaderno de ejercicios de
autoevaluación sobre estos programas.
Podéis encontrar más información en la sección “Programas simples de reforzamiento intermitente” del
34
Programas de reforzamiento positivo
1. Programas de reforzamiento continuo
2. Intermitentes o de reforzamiento parcial

(no todas las respuestas instrumentales son
reforzadas)
a) de razón
b) de intervalo
35
Programas de razón
Se obtiene el reforzador con esfuerzo:
Después de emitir un número FIJO de respuestas

Programa de razón fija
p.ej. RF-10 (cada 10 respuestas, reforzador)
Después de emitir un número VARIABLE de respuestas

Programa de razón variable
p.ej. RV-10 (10 respuestas promedio para obtener el
reforzador)
La siguiente transparencia muestra gráficamente los registros acumulativos
característicos de los distintos programas de reforzamiento que aparecen descritos en
las lecturas.
36
Registro acumulativo característico de los distintos programas
de reforzamiento parcial
Pausa post-reforzamiento y carrera de la razón
5 min 5 min 5 min

37
Programas de reforzamiento positivo
1. Programas de reforzamiento continuo
2. Intermitentes o de reforzamiento parcial

(no todas las respuestas instrumentales son
reforzadas)
a) de razón
b) de intervalo
38
Programas de intervalo
Transcurrido un tiempo de restricción se obtiene el reforzador

cuando se ejecuta la respuesta:
Tras una cantidad de tiempo FIJA

Programa de intervalo fijo
p.ej. IF-10’’ (cada 10 segundos puede conseguir el reforzador,
siempre que dé la respuesta)
Tras una cantidad de tiempo VARIABLE

Programa de intervalo variable
p.ej. IV-10’’ (cada 10 segundos de promedio puede conseguir el
reforzador, siempre que dé la respuesta)
NOTA: diferencia entre programas de intervalo simples y de espera

limitada
La siguiente transparencia muestra gráficamente los registros acumulativos
característicos de los distintos programas de reforzamiento que aparecen descritos en
las lecturas.
39
Registro acumulativo característico de los distintos programas
de reforzamiento parcial
Festón del intervalo fijo
5 min 5 min 5 min

40
Los programas de razón

dan lugar a tasas más
altas de respuesta.
FIJO
RF IF
Los programas
VARIABLE variables dan
RV IV lugar a tasas
estables de
respuesta.
RAZÓN INTERVALO
41
Extinción en CI
Esta sección describe las distintas variables relativas a la respuesta y a la consecuencia
que pueden influir en el condicionamiento instrumental.
La siguiente transparencia muestra gráficamente los resultados del experimento de

Hutt (1954) que se describe en las lecturas (página 77), y que muestra que la cantidad
y calidad del reforzador influirán en la respuesta instrumental que se desarrolle (en el
experimento de Hutt, a más cantidad o calidad de reforzador se observaba una tasa
de respuesta mayor).
Podéis encontrar más información en la sección “Elementos fundamentales del condicionamiento

42
Variables del CI: El reforzador instrumental
Hutt (1954) demostró que la cantidad y naturaleza del
reforzador influyen en la tasa de respuesta
Hutt (1954)
60
50
Respuetas por minuto
40
30
20
10
0
Pequeña Mediana Grande
Ácido Normal Dulce
(respuesta instrumental: presión de palanca)

Las siguientes dos transparencias muestran gráficamente el diseño y los resultados del experimento de
Crespi (1942) que se describe en las lecturas (página 77). Ese apartado concreto se refiere a cómo
nuestra historia previa de reforzadores puede influir en la eficacia de un reforzador en un momento
dado. Es decir, en el experimento de Crespi se observa cómo, en función de la experiencia previa de los
animales (es decir, en función de si los animales obtuvieron recompensas peores o mejores
anteriormente), una misma recompensa de 16 bolitas de alimento puede resultar más o menos efectiva
provocando una respuesta instrumental más o menos intensa. Fijaos que en la primera fase (línea base,
LB en las transparencias) del experimento de Crespi los animales recibían 4, 16 o 64 bolitas por realizar
la conducta instrumental. En una segunda fase, se igualaba la cantidad de bolitas que obtenían por
realizar esa misma conducta. Lo que muestran los resultados que se pueden ver en la gráfica es que,
aunque en la segunda fase todos los animales recibiesen 16 bolitas de comida, aquellos animales que en
el pasado habían obtenido una recompensa peor (4 bolitas en el grupo 4-16) corrían más que el grupo
de control para el que siempre se habían administrado 16 bolitas (grupo 16-16), lo que indicaría que se
observa un efecto de contraste positivo. Por el contrario, los animales que en la fase anterior habían
recibido una recompensa especialmente buena (64 bolitas en el grupo 64-16) corrían menos que el
mismo grupo de control para el que siempre se habían administrado 16 bolitas, mostrando así un efecto
de contraste negativo. Es decir, la misma cantidad de 16 bolitas parecía resultar más o menos atractiva y
por tanto eficaz provocando la respuesta instrumental en función de qué cantidad de bolitas se
hubiesen obtenido en la fase anterior.
Si pensamos en la vida diaria, por ejemplo una misma cantidad de dinero por realizar determinado
trabajo podría resultar más o menos atractiva para diferentes personas en función de qué cantidades de
dinero hayan recibido por trabajos similares en el pasado.
Podéis encontrar más información en la sección “Elementos fundamentales del condicionamiento instrumental” del
43
Variables del CI: Cambios en el reforzador
Crespi (1942)
Velocidad media (pies/segondo)

Grupos F1 F2
3
LB prueba
4-16 4 16 2
16-16 16 16 1
64-16 64 16 0
LB 1 2 3 4 5 6 7 8
Bloques de ensayos de prueba
4-16 16-16 64-16
(respuesta instrumental: velocidad en la

que se recorre un corredor recto)
44
Variables del CI: Cambios en el reforzador
Los efectos de contraste señalan
que la efectividad de un
reforzador está determinada, al Crespi (1942)
menos en parte, por las
expectativas de los individuos en 4
Velocidad media (pies/segondo)

base a sus experiencias previas.
3
El efecto en el primer grupo (4-

16), en comparación con el grupo 2
de control (16-16) se denomina

1
contraste positivo.
0
El efecto en el tercer grupo (64- LB 1 2 3 4 5 6 7 8
16), en comparación con el grupo Bloques de ensayos de prueba
de control (16-16) se denomina 4-16 16-16 64-16

contraste negativo.
Amsel (1992)
En las siguientes transparencias se introduce el concepto de pertinencia, que se
explica en las páginas 72-73 de las lecturas.

45
Variables del CI: Relevancia o pertinencia
Respuesta-Reforzador
Shettleworth (1975) demostró (con hámster) que la privación de
comida disminuía la frecuencia de ciertas actividades
(autocuidado: lavarse la cara, rascarse…) y aumentaba las
actividades preparatorias relacionadas con la comida (cavar,
rascar…).
Cuando un animal está privado de comida, su sistema de

respuestas relacionado con la alimentación se activa.
Son estas conductas las que serán más susceptibles al

condicionamiento instrumental. Las respuestas relacionadas
(preparatorias) con la obtención del reforzador son más fáciles
de condicionar.
46
Breland y Breland (1961)
Entrenaban mapaches etc para zoos y

parques de atracciones.
Ej., introducir una moneda en una
hucha. Al principio lo aprendía (aunque
con dificultades para soltarla), pero
cuando le dieron dos monedas y le
reforzaban por meter ambas, el
mapache tenía muchos problemas y se
quedaba frotándolas entre ellas cada vez
más tiempo.
Concepto de deriva instintiva (los

mapaches frotan y lavan objetos
relacionados con el alimento)
En las siguientes transparencias (transparencias 47-53) se introduce la importancia de
la contigüidad temporal y la contingencia respuesta-consecuencia para el
condicionamiento instrumental, que aparece explicada en las lecturas (páginas 78-83).
En la transparencia que aparece a continuación podéis ver gráficamente los resultados

del experimento de Dickinson y colaboradores (1992) que se describe en la página 79
de las lecturas y que muestra cómo la calidad del condicionamiento instrumental
disminuye a medida que aumenta la demora con la que se obtiene el reforzador una
vez se ha realizado la conducta instrumental.

47
Variables del CI: Contigüidad temporal
Respuesta-Reforzador
Dickinson, Watt y Griffiths

(1992) La demora en la
administración del
20 reforzador produce
Presión de palanca por
15 un deteriodo del
aprendizaje
minuto
10
5
(Dickinson, Watt y
Griffiths, 1992).
0
0 20 40 60
Demora (segundos)
(respuesta instrumental: presión de palanca)

48
El CI es sensible a la demora debido a la interferencia de

otras respuestas.
Dos formas de controlar la interferencia:
- La utilización de reforzadores secundarios:

En humanos: dinero, reforzamiento verbal, economía de
fichas... señalan la demora del reforzador primario.
- El procedimiento de marcado: mantiene la atención

del sujeto sobre la respuesta precedente.
49
El CI es sensible a la demora debido a la interferencia de

otras respuestas.
Dos formas de controlar la interferencia:
- La utilización de reforzadores secundarios:

En humanos: dinero, reforzamiento verbal, economía de
fichas... señalan la demora del reforzador primario.
- El procedimiento de marcado: mantiene la atención

del sujeto sobre la respuesta precedente.
En las siguientes dos transparencias se describe y refleja de manera gráfica el
experimento de Lieberman, McIntosh i Thomas (1979) que se describe en la página 80
de las lecturas.

50
Hipótesis del marcado
-Consiste en marcar la respuesta instrumental criterio para

hacerla distinguible de otras conductas.
-Se demostró por primera vez por Lieberman, McIntosh y
Thomas (1979). En el experimento la respuesta de elección era
señalada por un estímulo (manipulación) en el grupo
experimental.
Negro
Salida Elección Demora Meta
Blanco
51
Hipótesis del marcado
Negro
Salida Elección Demora Meta
Blanco
Lieberman, McIntosh y Thomas

Los sujetos del (1979)
grupo “marcado” 100

Porcentaje de respuestas
aprendieron la R 80
mucho mejor que

correctas
60
Marcado
los sujetos del 40

No marcado
grupo no marcado 20
(demora de 60’’) 0
1 2 3 4 5
Bloques de 10 ensayos
En las siguientes transparencias se introduce el concepto de contingencia, que tenéis
descrito en las páginas 81-83 de las lecturas.
El concepto de contingencia es el mismo que se describió en el módulo de

condicionamiento clásico pero, en este caso, en lugar de tratarse de la contingencia
entre el estímulo condicionado y el estímulo incondicionado, se trata de la
contingencia entre la conducta (o respuesta) y el estímulo (que puede ser apetitivo o
aversivo, y que también recibe el nombre de "consecuencia"). De esta manera, la
contingencia respuesta-consecuencia se refiere a la capacidad predictiva de la
conducta sobre las consecuencias, es decir, describe hasta qué punto el hecho de
realizar una conducta altera la probabilidad de que un determinado estímulo o
consecuencia aparezca. Para calcular esta contingencia necesitamos conocer dos
probabilidades: por un lado, la probabilidad con la que aparece el estímulo o
consecuencia cuando se realiza la respuesta y por otro lado la probabilidad con la cual
aparece el estímulo o consecuencia cuando la respuesta no se ha realizado.
52
Contingencia respuesta-reforzador
De manera análoga a lo que ocurría en el condicionamiento clásico,

no sólo es importante la contigüidad, sino también la contingencia
(en este caso entre la respuesta instrumental y la consecuencia).
En este caso, la contingencia se calcula…
P(Consecuencia/Respuesta)-P(Consecuencia/No_Respuesta)
Siguiendo con el comentario anterior, si quisiésemos hacer el cálculo numérico del
valor de contingencia, podríamos utilizar la estrategia de generar tablas de
contingencia, tal como hacíamos en el condicionamiento clásico pero, tal y como os
decía en el comentario anterior, en este caso en lugar de tratarse de la contingencia
entre el estímulo condicionado y el estímulo incondicionado, se trata de la
contingencia entre la respuesta y el estímulo consecuente y por lo tanto debéis aplicar
los mismos cálculos a estos nuevos elementos. Así obtendréis la
P(Consecuencia/Respuesta) y la P(Consecuencia /no_Respuesta) y a partir de la resta
de estas probabilidades podéis obtener el valor de la contingencia.
[Nota: en el documento de lecturas se habla de p(Rf/Rs) en lugar de

P(Consecuencia/Respuesta) y de p(Rf/no Rs) en lugar de P(Consecuencia
/no_Respuesta), pero se refiere a las mismas probabilidades condicionadas].
53
Contingencia respuesta-reforzador
Condicionamiento clásico Condicionamiento instrumental
a b a b
c d c d
ΔP = P(EI/EC) – P(EI/noEC) ΔP = P(Comida/presión
ΔP = [a/(a+b)]– [c/(c+d)] palanca) – P(comida/no
presión palanca)
ΔP = [a/(a+b)]– [c/(c+d)]
54
Extinción en CI
La siguiente sección (transparencias 55-60) se corresponde con la sección de las
lecturas que va desde la página 98 hasta la 103.
Ya que en el condicionamiento instrumental existen tres elementos que

potencialmente pueden asociarse entre ellos, en esta sección se muestra hasta qué
punto existe evidencia para cada tipo de asociación.
55
Recordemos los elementos involucrados

en el CI
Elementos del CI
E o Ed (estímulo discriminativo): las claves contextuales (el

aparato experimental), o cualquier estímulo discreto (p.ej. una
luz) o varios presente/s cuando se obtiene la consecuencia.
R: Respuesta (instrumental)
C: consecuencia (estímulo apetitivo o aversivo)

56
Asociaciones Ed-R, Ed-C, R-C
Ed
Ley del efecto
(Thorndike)
Ed-R
R C
La siguiente transparencia muestra esquemáticamente el diseño y resultados de
Colwill y Rescorla (1985) que se describe en el documento de lecturas (páginas 100-
102)
57
Asociaciones R-C
Asociación R-C
Entrenamiento Devaluación Prueba
R1-C1 y R2-C2 R1 o R2
C1-ClLi
(días alternos) (20 min)
R1: presionar palanca, R2: tirar de una cadena

colgada en el techo de la caja, C1: bolita de
comida, C2: sacarosa líquida
Para explicar que sigan

presionando, aunque
menos, pensaríamos en
asociaciones E-R
La siguiente transparencia muestra esquemáticamente el diseño y resultados de
Colwill y Rescorla (1988) que se describe en el documento de lecturas (páginas 102-
103)
58
Asociaciones E-C
(asociación por condicionamiento clásico)
Entrenamiento Entrenamiento
Prueba
Ed de respuesta
Ed1-R1-C1 R3-C1 Ed1-R3/R4

Ed1: Luz; Ed2: ruido (sólo se refuerza la R si

ésta se realiza en presencia del Ed
correspondiente)
R1: apretar un botón

R2: tirar de una manilla
R3: apretar una palanca
R4: estirar una cadena
C1: bolita de alimento; C2: sacarosa líquida

59
Asociaciones E-C
(asociación por condicionamiento clásico)
Entrenamiento Entrenamiento
Prueba
Ed de respuesta

Ed1: Luz; Ed2: ruido (sólo se refuerza la R si

Las R3 y R4 nunca se presentaron en la
ésta se realiza en presencia del Ed
primera fase y por tanto no están asociadas
correspondiente)
con Ed1 ni Ed2 (no puede haber
asociaciones E-R en este sentido). Pero si
R1: apretar un botón con el morro
el Ed1 activa la asociación Ed1-C1,
R2: tirar de una manilla
entonces es de esperar que en presencia
R3: apretar una palanca
del Ed1 los animales realicen la respuesta
R4: estirar de una cadena
que les permitirá obtener ese reforzador, R3
(lo mismo es aplicable al Ed2 y R4)
C1: bolita de alimento; C2: sacarosa líquida
La siguiente transparencia refleja esquemáticamente la idea de que también se han
planteado asociaciones más complejas, jerárquicas, en las que, tal y como se explica
en las lecturas (página 103), el Ed no se asociaría directamente con ninguno de los
otros elementos sino que evocaría una representación de la relación entre R y C.
60
Asociaciones jerárquicas: Ed (R®C)
Ed Expectativa de
reforzamiento
(R C)
Ed activa la expectativa de reforzamiento: Expectativa que
activa asociaciones R-C aprendidas; Se realiza la respuesta
posible.
61
Extinción en CI
La siguiente transparencia describe el efecto del reforzamiento parcial en la extinción
que aparece descrito en las páginas 97-98 de las lecturas.
62
Extinción: Efectos “paradójicos” de la

recompensa
Efecto del reforzamiento parcial en la extinción (ERPE):

esperamos que las respuestas instrumentales que se hayan
reforzado bajo programas de reforzamiento continuo se
extingan más fácilmente que las reforzadas con programas de
reforzamiento parcial.

AME Tema 4

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

AME Tema 4

Cargado por

Copyright:

Formatos disponibles

1

Condicionamiento instrumental (CI)

Orígenes: Thorndike y Skinner

Procedimientos CI y Programas de reforzamiento

Variables CI: Respuesta-Reforzador

La estructura asociativa del CI

La gráfica de la segunda transparencia simplemente muestra cómo la latencia en salir

Podéis encontrar más información en la sección “Primeras investigaciones sobre el condicionamiento

Thorndike (1874 – 1949)

Thorndike (1874 – 1949)

Tiempo en salir (segundos)

Thorndike registraba la latencia de

Es decir, de los tres elementos implicados en el condicionamiento instrumental (ver

Podéis encontrar más información en la sección “Primeras investigaciones sobre el condicionamiento

Ley del efecto de Thorndike

“Of several responses made to the same situation, those

Ley del efecto de Thorndike

“Of several responses made to the same situation, those

Ley del efecto de Thorndike

Condicionamiento instrumental (CI)

Orígenes: Thorndike y Skinner

Procedimientos CI y Programas de reforzamiento

Variables CI: Respuesta-Reforzador

La estructura asociativa del CI

Situaciones experimentales de ensayos

-Habitualmente se utiliza algún tipo de laberinto: El uso del

-En función de la situación experimental se mide la latencia de

En las lecturas, podéis revisar la descripción que se hace en la página 63-64.

Situaciones experimentales de ensayos

En las lecturas, podéis revisar la descripción que se hace en la página 63-64.

Situaciones experimentales de ensayos

Situaciones experimentales de operante libre

Su característica principal es que se puede realizar la

Se mide la tasa de respuesta, es decir, la frecuencia

-Los métodos de operante libre fueron ideados por Skinner (1938)

Registro de la conducta en situaciones de Operante libre

La pendiente de la respuesta acumulada indica la frecuencia o tasa de la

(analizaremos esta medida en las prácticas de condicionamiento instrumental con Sniffy)

Condicionamiento instrumental (CI)

Orígenes: Thorndike y Skinner

Procedimientos CI y Programas de reforzamiento

Variables CI: Respuesta-Reforzador

La estructura asociativa del CI

-Tipo de estímulo o consecuencia: puede ser apetitiva lo aversiva

Podéis encontrar más información en la sección “Procedimientos de condicionamiento instrumental” del

Estímulo apetitivo: estímulo agradable, que produce

Estímulo aversivo: estímulo desagradable, que produce

Contingencia positiva respuesta-consecuencia: la ejecución de

Contingencia negativa respuesta-consecuencia: la ejecución

La ejecución de la respuesta instrumental

La contingencia positiva entre respuesta y

Ejemplo 1: La conducta instrumental de estudiar de una niña o niño, que es reforzada

Ejemplo 2: La conducta de introducir monedas en una máquina expendedora nos

Ambos son ejemplos de reforzamiento positivo porque la realización de la conducta

La contingencia positiva entre

Ejemplo 1: la conducta de hablar mal o insultar a alguien puede ir seguida de una

Ejemplo 2: La conducta de conducir excesivamente rápido puede ir seguida de un

Ambos son ejemplos de castigo positivo porque la realización de la conducta provoca

La contingencia negativa entre

Ejemplo: la conducta de un niño de pegar a otras personas, que va seguida de la

Se trata de un ejemplo de castigo negativo porque la realización de la conducta de

La ejecución de la respuesta conlleva la

La contingencia negativa entre respuesta y

Se trata de un ejemplo de reforzamiento negativo porque la realización de la conducta provoca la