Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ISSN: 0120-0534
direccion.rlp@konradlorenz.edu.co
Fundacin Universitaria Konrad Lorenz
Colombia
REVISTA
1999
LATINOAMERICANA
VOLUMEN
31
DE PSICOLOGIA
N I
49-64
RAL AVILA
y
CARLOS
A. BRUNER *
ABSTRACT
The acquisition of behavior with delayed reinforcement. has been studied in trial by
trial and free-operant situations, Different rnethods and dependent variables. however,
have hitherto prevented their comparison. In the present study, a modified trial by trial
procedure was used for the acquisition of leverpressing by rats, to assess the viability of
a system of variables comrnon to both types of situations, With a constant 8 sec
opportunity to leverpress in each trial, the effect of 8- or 24 sec delays of reinforcernent
and of 32- or M-sec intertrial intervals were explored, using a 2 x 2 factorial design, with
3 naive rats per cell. For most subjects, the overall and running rate of leverpressing were
higher under 8- that under 24 sec delays, regardless of intertrial interval duration. These
two variables were also higher under the 32- than under the M-sec intertrial interval.
regardless of del ay duration. The proportion of trials with responding and the latency of
the first leverpress, were significantly related to the overall and running rares. lt was
El experimento se realiz con el apoyo del subsidio nmero 4677-H otorgado por
a Carlos A. Bruner y Kennon A. Lattal, Los autores agradecen a Ayme Pacheco, Luis M.
Gallardo y Rogelio Escobar por su valiosa ayuda en la conduccin del experimento y la preparacin
del reporte final.
*
Correspondencia: Carlos A. Bruner, Laboratorio de Condicionamiento Operante, Facultad
de Psicologa, UNAM, Ave. Universidad 3004, Col. Copilco Universidad, Mxico, D. F. 04510.
CONACYT
50
AVILA y BRUNER
concluded that trial by trial and free-operant procedures can be viewed as different cases
of the same continuum of independent variables.
RESUMEN
La adquisicin de conducta bajo reforzarniento demorado se ha estudiado en
situaciones de ensayo por ensayo y de operante libre. Sin embargo, sus diferencias de mtodo y de variables dependientes han evitado su comparacin. Para
evaluar la viabilidad de un sistema de variables comunes a ambos tipos de
situaciones, en el presente estudio se us un procedimiento modificado de
ensayo por ensayo para la adquisicin del palanqueo en ratas. Manteniendo
constante en 8 segundos la oportunidad de presionar la palanca en cada ensayo,
se emple un diseo factorial 2 x 2, con 3 ratas ingenuas por celda, para explorar
los efectos de demoras de reforzamiento de 8 y 24 segundos y de intervalos entre
ensayos de 32 y 64 segundos. Para la mayora de los sujetos, la tasa global y la
tasa de carrera de la respuesta de presin a la palanca fueron mayores bajo las
demoras de 8 segundos que bajo las demoras de 24 segundos, independienternente de la duracin del intervalo entre ensayos. Estas dos variables dependientes
tambin fueron ms altas bajo el intervalo entre ensayos de 32 segundos que bajo
el intervalo entre ensayos de 64 segundos, independientemente de la duracin de
la demora. La proporcin de ensayos con respuesta y la latencia de la primera
presin a la palanca se relacionaron significat vamente con la tasa global y la tasa
de carrera. Se concluy que los procedimientos de ensayo por ensayo y de
operante libre se pueden ver como diferentes casos del mismo continuo de
variables independientes.
Palabras clave: Adquisicin de respuestas, procedimiento de ensayo por
ensayo, procedimiento de operante libre, demora de reforzamiento, ciclo de
reforzamiento, presin de palanca, ratas.
INTRODUCCION
La adquisicin de nuevas conductas fue uno de los principales tpicos de
investigacin de las teoras clsicas del aprendizaje (por ejemplo, Hull, 1943;
Tolman, 1932). Paradigrnticamente,
en estos estudios se empleaban procedimientos de ensayo discreto, donde la conducta especificada slo poda ocurrir
unayez en cada ensayo, antes de que se presentara el reforzador. Tambin, se
usaban diferentes aparatos; por ejemplo, laberintos, corredores, cajas de salto y
cmaras de condicionamiento con palancas retrctiles. Las variables dependientes que se registraban eran la velocidad, la precisin, la latencia o el porcentaje
51
de respuestas correctas (vase Renner, 1964 y Tarpy y Sawabini, 1974, para una
revisin del rea). A pesar de las ostensibles diferencias entre los aparatos y las
variables dependientes que se empleaban en esta clase de investigaciones, el
demorar la entrega del reforzador consistentemente resultaba en el deterioro de
la adquisicin de la nueva conducta (por ejemplo, Wolfe, 1934; Perin, 1943 a y
b; Logan, 1952).
Recientemente, en la literatura del condicionamiento operante, se renov el
inters por estudiar la adquisicin de nuevas respuestas bajo reforzamiento
demorado; empleando el ms moderno procedimiento de operante libre, donde
la respuesta puede ocurrir en cualquier momento de la sesin experimental.
Lattal y Gleeson (1990) mostraron la adquisicin del picoteo a una tecla en
palomas y la presin de una palanca en ratas, sin entrenamiento explcito
(moldeamiento de la respuesta) y bajo demoras no sealadas de reforzamiento
tan largas como 30 s. En estudios posteriores se mostr la generalidad de este
procedimiento a travs de una serie de respuestas, especies y procedimientos
diferentes (Critchfield y Lattal, 1993; Dickinson, Watt y Griffiths, 1992; Lattal
y Metzger, 1994; Lattal y Williams, 1997; Van Haaren, 1992; Wilkenfield,
Nickel, Blakely y Poling, 1992).
Una caracterstica comn de los procedimientos de los estudios sobre
adquisicin de operantes libres con reforzamiento demorado, es que han empleado programas tipo tndem de dos componentes. En el primer componente de
estos programas se identifica la respuesta por reforzar y en el segundo componente, se programa una demora de reforzamiento. En la mayora de los estudios
iniciados por Lattal y Gleeson, se ha empleado un programa de reforzamiento
continuo para identificar la respuesta por reforzar. En el laboratorio de los
autores tambin se han usado programas tndem de dos componentes para
estudiar la adquisicin de respuestas, pero empleando principalmente programas de reforzamiento demorado intermitente; especficamente, programas
tndem del tipo Intervalo al Azar (lA) x s Tiempo Fijo (TF) x s.
En una primera investigacin Bruner, A vila y Gallardo (1994) estudiaron el
efecto de programas tndem lA 30 s TF 6, 12 o 24 s durante la adquisicin de la
respuesta de presin a la palanca en ratas. Encontraron que la tasa de respuesta
fue ms alta bajo las demoras ms cortas (a la manera de un gradiente de demora
de reforzamiento).
En un segundo estudio, Bruner, Lattal y Acua (1994) evaluaron los efectos
del reforzamiento independiente de la respuesta sobre el mantenimiento de la
respuesta adquirida bajo reforzamiento dependiente pero demorado. En un
primer experimento, expusieron a palomas a un programa tndem intervalo
variable 30 s reforzamiento diferencial de otras conductas (RDO) 10 s. En la
52
AVILA y BRUNER
REFORZAMIENTO
DEMORADO
53
MEODO
Sujetos
Doce ratas Wistar machos, de seis meses de edad y sin experiencia experimental, sirvieron como sujetos. Todos los sujetos se mantuvieron al 80% de su
peso en alimentacin libre y se les aloj en cajas habitacin individuales, con
acceso continuo al agua.
Aparatos
Se us una caja experimental estndar para ratas (BRS/LVE, Mod. No. 14304). La caja estaba equipada con un dispensador de pellas (BRS/LVE, Mod. No.
54
A VILA y BRUNER
Procedimiento
Se expuso a todas las ratas a una sesin de entrenamiento en comer que
consisti en la presentacin de pellas de comida, independientemente de la
conducta de los sujetos, hasta que estos se aproximaron confiablemente al
comedero y consumieron 50 pellas. En esta sesin-la palanca estaba ausente en
la caja experimental.
Se us un diseo factorial 2 x 2, donde una variable independiente fue la
demora de reforzamiento, de 8 o 24 s. La otra variable independiente fue la
duracin de un ciclo de tiempo fijo entre reforzadores sucesivos, que se
estableci en 32 o 64 s. Se asignaron al azar tres ratas a cada una de las
combinaciones de las dos variables independientes. Para todas las condiciones,
el ensayo consisti en introducir la palanca en la caja experimental durante 8 s.
Dependiendo de la duracin de la demora programada la palanca se present 8
o 24 s antes del final de cada ciclo. As, la duracin de los dos ciclos de
reforzamiento se convirtieron en anlogos de dos diferentes intervalos entre
ensayos. La primera respuesta a la palanca result en la entrega de una pella de
comida al final del ciclo; se registraron las respuestas adicionales pero no
tuvieron consecuencias. Para todas las condiciones se condujeron 40 sesiones de
una hora o 30 reforzadores, lo que ocurriera primero.
RESULTADOS
Las variables dependientes que se calcularon en el presente estudio fueron
las siguientes: una tasa de respuestas durante el ensayo (nmero de respuestas a
la palanca entre el tiempo total que la palanca estuvo disponible en la sesin), la
proporcin de ensayos con respuesta y la latencia promedio, durante cada sesin,
de la primera respuesta en cada ensayo (slo las presentaciones de la palanca
REFORZAMIENTO
DEMORADO
55
56
AVILA y BRUNER
CICLO DE REFORZAMIENTO
= 32 S
DEMORA =8 s
40
30
DEMORA =24s
Al
- A 7
+ A ~
.: A 2
Al)
A.1
20
10
0 ......
""--
100
80
60
40
20
O
+
8'
6
+~
+.
a ~
0..1...-
'
'...
+ +++
++++ ....
+~ aa
".,.,. a
~+
:
.. + ; ..... +.
+
+++++ + ...+++++
_ ++
+~-.:
l'
.) .+ "..
11I .~
...
+ a....,.
1.+:"-:-.
+
a +
+. + ....
80
a
60
40"
_.a.:-
a ++.+'
+ '
..
20
+' t.;.
.t-..
+
++'
+
.. +.. +~.' .++.+it+ t' ++1
.....
+ a~ ~
+
....
+.."
.*
...
10
20
30
40
a + a
++ .. ~
+ "'a'. aa a + a.
+ +
+ + +..
:...
+
a a .-I'
.. ++
a a a
+
.... aa.. a
+'
++t t
.
+
++++
10
20
30
40
SESIONES CONSECUTIV AS
Figura 1. Variables dependientes (hileras) para los sujetos individuales durante las 40
sesiones de exposicin a cada duracin de la demora (columnas) con el ciclo de
reforzamiento constante en 32 s.
REFORZAMIENro
57
DEMORADO
CICLO DE REFORZAMIENTO
= 64 S
DEMORA = 8 s
40,
.)\
DEMORA=24s
1:1
,1
+ A 14
30,
A 16
'.. + A 17
A 18
A 15
20
10
0 ........
100
80
60
40
20
O
!.
+ ..
~.
..... + + +..
+.+
+ .....
r'.~ + + ++ + +++
..... ;lt
+"+.
..
'1.
'.
',,
++
+
+1++
+' +
+
t,
+
.+
+
.. ' 1,+ .+
++*
+
.~. +
..
... + +..
+,
.+. *:
.,
I'
'2
'El
:s
<
I:>:l
UJ
:::
:::
<r:
u
UJ
el
<r:
<r:
'"f-
80
+
+
+
,+
+ ... +++++ l' ..... '+.;..... .
+ +
+ +.. , ~.+
~"T __
60
+ ~ .".
++ -,
40
.,
20
.'
++*l..
+'
+
++
+ :++..,t. +
.. +
+
+ + ++
.' : + " ",
+ ....
+
w:+
'
...
.... ... ..
O
O
10
20
30
40
10
20
II
..
,+
30
40
SESIONES CONSECUTlV AS
Figura 2. Variables dependientes (hileras) para los sujetos individuales durante las 40
sesiones de exposicin a cada duracin de la demora (columnas) con el ciclo de
reforzamiento constante en 64 s.
58
AVILA y BRUNER
40
o
f-
Demora 8 s
Demom24
30
::J
Z
s
Q<:;
~
-e
CIl
20
f-
fl
::J
e,
CIl
~
10
64
32
REFORZAMIENTO
DEMORADO
59
60
AVILA y BRUNER
TABLA 1
Correlaciones entre las variables dependientes registradas
en el presente estudio. Para cada correlacin' se muestra entreparntesis
el nmero de sesiones consideradas
CICLO DE REFORZAMIENTO
DEMORA Ss
SUJETO
TASA-R>
TASA-LA TENClA
= 32 s
DEMORA24s
A7
A8
A9
Al
A2
0:95* (40)
0.92* (40)
0.94* (40)
0.86* (40)
0.94* (40)
0.97* (40)
-0.33* (38)
-0.81 * (38)
(14)
0.41 * (38)
0.27 (40)
0.76* (38)
0.77' (38)
0.69* (14)
0.81* (38)
0.96* (40)
-0.36* (38)
-0.73* (38)
0.6,7* (38)
0.72* (38)
-0.19
(39)
-0.22
A3
TASA-TASA
DE CARRERA
R>O-LATENCIA
0.69* (39)
(39)
-0.15
(14)
0.46* (38)
0.30 (4()
0.64* (39)
0.33
(14)
0.72* (38)
0.92*(40)
-0.03
(14)
0.80* (38)
0.37* (40)
-0.02
R>O-TASA
DECARRERA
LATENCIA-TASA
DE CARRERA
0.26
(38)
-0.36* (38)
0.27
(39)
TASA-R>O
TASA-LA TENCA
A 13
A 14
0.82* (40)
0.75* (40)
-0.69* (40)
-0:78* (40)
0.67* (40)
-0.72* (40)
DEMORA24s
AI5
A 16
0.90* (40)
0.9S* (40)
0.99* (40)
0.96*(40)
A 17
A 18
(39)
-0.17
(32)
-0.28* (36)
0.25 (13)
0.36* (40)
0.59* (39)
-0.12
(32)
0.45* (36)
0.35 (13)
-0.50* (40)
-0.37* (39)
-0.14
(32)
0.27
(36)
0.39 (13)
-0.14
(32)
0.43* (36)
0.20 (13)
0.75* (32)
0.61* (36)
0.81*(13)
-0.58
TASA-TASA
DE CARRERA
R>O-LATENCIA
R>O-TASA
DECARRERA
0.27
(40)
-0.08
(40)
0.52* (39)
-0.01
(40)
0.05
(40)
or
LATENCIA-TASA
DE CARRERA
* p <0.05
(39)
REFORZAMIENTO
DEMORADO
61
DISCUSION
Los resultados del presente estudio muestran la adquisicin del palanqueo
en todos los sujetos bajo reforzamiento demorado y empleando un procedimiento comparable, tanto a los de ensayo discreto como a los de operante libre. A
continuacin se discutir la pertinencia de estos resultados a la literatura de
ensayo discreto y posteriormente a la literatura de operante libre.
Para las dos duraciones del ciclo de reforzamiento (32 o 64 s) la proporcin
de ensayos con respuesta fue mayor para los sujetos expuestos a la demora de 8
s que para los sujetos expuestos a la demora de 24 s. La latencia pareci ser
ligeramente ms corta y con menor variabilidad bajo la demora de 8 s que bajo
la demora de 24 s. Estos resultados son congruentes con los reportados en
estudios sobre la adquisicin de la respuesta bajo reforzamiento demorado en los
procedimientos de ensayo discreto. Por ejemplo, Wolfe (1934) expuso a ratas a
un laberinto en T, donde al principio de cada ensayo se vari el color de la caja
de salida, de blanco a negro o viceversa. Un giro a la caja meta correcta (la que
tena el mismo color que la caja de salida en ese ensayo) fue seguido por la
entrega demorada de comida.
Especficamente, una vez los sujetos llegaban a la caja meta la comida se
presentaba con una demora que se vari de 5 a 60 s. Wolfe encontr que el
porcentaje de giros correctos disminuy conforme se alarg la demora de
reforzamiento.
Perin (1943 b) expuso a ratas a un procedimiento donde los sujetos tenan
que mover una barra a la derecha o a la izquierda y despus de cada respuesta se
retraa la barra y se entregaba el reforzador despus de una demora de
reforzamiento. El nmero de respuestas correctas (movimientos laterales) fue
una funcin decreciente de alargar la demora de reforzamiento de O a 2, 5, 10,
20 y 30 s. El porcentaje y el nmero de respuestas correctas reportadas en los
estudios de Wolfe y de Perin son equivalentes al nmero de ensayos con
respuesta registrado en el presente estudio. En los estudios de Wolfe y de Perin
as como en el presente estudio se encontr que las respuestas correctas
disminuyeron conforme se alarg la demora de reforzamiento.
En otro estudio, Perin (1943 a) expuso a ratas a un procedimiento de ensayo
discreto donde despus de una presin a la palanca, esta ltima se retraa y se
entregaba comida despus de una demora de O, 2, 5, 10 y 30 s. La latencia se
prolong conforme se aument la duracin de la demora de reforzamiento.
Logan (1952) entren a ratas a responder a dos palancas donde una respuesta a
una de las palancas era seguida por una demora de I s y una respuesta a la otra
palanca era seguido por una demora de 5 s. Los sujetos respondieron con una
62
A VILA y BRUNER
REFORZAMIENTO
DEMORADO
63
REFERENCIAS
Avila, S. R. y Bruner, C. A. (1995). Adquisicin de la respuesta bajo demoras largas de reforzarniento
sealado y no sealado. Revista Mexicana de Anlisis de la Conducta. 21. 117-127.
Avila, S. R. y Bruner, C. A. (1997). Efectos de historia en gradientes obtenidos alargando y acortando
la demora de reforzarniento. Revista Mexicana de Anlisis de la Conducta. 23. 8596.
Bruner, C. A., Avila, S. R. y Gallardo, L. M. (1994). La adquisicin del palenqueo en ratas bajo un
programa intermitente de reforzarniento demorado. Revista Mexicana de Anlisis de la
Conducla.20.119129.
Bruner, C. A., Avila, S. R. y Gallardo; L. M. (1996). Acquisition with delayed reinforcement under
combinarions 01' response dependent reinforcernent. Revista Mexicana de Anlisis de la
Conducta, 22. 2939.
64
AVILA y BRUNER
Bruner, C. A., Avila, S. R., Acua, L. y Gallardo, L. M. (1998). Effects of reinforcement rate and
delay on the acquisition of lever pressing by rats, Journal of the Experimental Analysis of
Behavior, 69. 59-75.
Bruner, C. A., Lattal, K .A. Y Acua, L. (1994). Los efectos del reforzamiento independiente de la
respuesta sobre el responder adquirido con reforzamiento demorado. Acta Comportamentala.
2, 172-191.
Critchfield, T. S. y Laual, K. A. (1993). Acquisition of a spatially defined operant with delayed
reinforcement. Journal of the Experimental Analysis of Behavior, 59. 373-387.
Dickinson, A., Watt, A. y Griffiths, W. J. H. (1992). Free-operant acquisition with delayed
reinforcement. The Quarterly Journul of Experimental Psychology, 3, 241-258.
Hull, C. L. (1943). Principlesofbehavior: An introductionto behavior theory. New York: Appleton-
Century-Crofts.
Lattal, K. A. Y Gleeson, S. (1990). Response acquisition with delayed reinforcement. Journa/ of
Experimenta/ Psychology: Animal Behavior Processes, /6.27-39.
Lanal, K. A. Y Metzger, B. (1994). Response acquisition by siamese fighting fish (Betasplendens)
with delayed visual reinforcement. Journal of the Experimenta/ Analysis of Behavior. 6/. 35c
44.
Lattal, K. A. Y Williams, A. M. (1997). Body weight and response acquisition with delayed
reinforcernent. Joumal of the Experimental Analysis of Behavior, 67. 131-143.
Logan, F. A. (1952). The role of delay of reinforcement in determning reaction poten tial. Journal
of Experimental Prychoiog, 43. 393-399.
Logan, F. A. Y Ferraro, D. P. (1970). From free responding to discrete trials. En W. N. Schoenfeld
(Ed.), The theory of reinforcement schedules (pp. I 11-138). New York: Appleton-CenturyCrofts.
Perin, C. T. (1943 a). A quantitative investigation of the delay-of-reinforcement
gradient. Journa/
of Experimental Psychology, 32. 37-51.
Perin, C. T. (1943 b), The effect ofdelay reinforcernent upon the diferentiation ofbar responses in
white rats, Jouma/ of Experimental Psychology. 32. 95-109.
Renner, K. E. (1964). Delay of reinforcement: A historical review. Psychological Bulletin, 6/. 341361.
Tarpy, R. M. Y Sawabini, F. L. (1974). Reinforcement delay: A selective review ofthe last decade ..
Psychological Bulletin, 81. 984-997.
Tolman, E. C. (1932). Purposive behavior in animals and meno New York: Appleton-Century-
Crofts.