Está en la página 1de 17

Revista Latinoamericana de Psicologa

ISSN: 0120-0534
direccion.rlp@konradlorenz.edu.co
Fundacin Universitaria Konrad Lorenz
Colombia

Avila, Ral; Bruner, Carlos A.


Adquisicion del palanqueo en ratas con reforzamiento demorado en un procedimiento de ensayo
discreto
Revista Latinoamericana de Psicologa, vol. 31, nm. 1, 1999, pp. 49-64
Fundacin Universitaria Konrad Lorenz
Bogot, Colombia

Disponible en: http://www.redalyc.org/articulo.oa?id=80531104

Cmo citar el artculo


Nmero completo
Ms informacin del artculo
Pgina de la revista en redalyc.org

Sistema de Informacin Cientfica


Red de Revistas Cientficas de Amrica Latina, el Caribe, Espaa y Portugal
Proyecto acadmico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto

REVISTA
1999

LATINOAMERICANA
VOLUMEN
31

DE PSICOLOGIA
N I
49-64

ADQUISICION DEL PALANQUEO


EN RATASCON REFORZAMIENTO
DEMORADO EN UN PROCEDIMIENTO
DE ENSAYO DISCRETO1

RAL AVILA
y
CARLOS

A. BRUNER *

Laboratorio de Condicionamiento Operante


Facultad de Psicologia
Universidad Nacional Autonoma de Mxico

ABSTRACT

The acquisition of behavior with delayed reinforcement. has been studied in trial by
trial and free-operant situations, Different rnethods and dependent variables. however,
have hitherto prevented their comparison. In the present study, a modified trial by trial
procedure was used for the acquisition of leverpressing by rats, to assess the viability of
a system of variables comrnon to both types of situations, With a constant 8 sec
opportunity to leverpress in each trial, the effect of 8- or 24 sec delays of reinforcernent
and of 32- or M-sec intertrial intervals were explored, using a 2 x 2 factorial design, with
3 naive rats per cell. For most subjects, the overall and running rate of leverpressing were
higher under 8- that under 24 sec delays, regardless of intertrial interval duration. These
two variables were also higher under the 32- than under the M-sec intertrial interval.
regardless of del ay duration. The proportion of trials with responding and the latency of
the first leverpress, were significantly related to the overall and running rares. lt was

El experimento se realiz con el apoyo del subsidio nmero 4677-H otorgado por
a Carlos A. Bruner y Kennon A. Lattal, Los autores agradecen a Ayme Pacheco, Luis M.
Gallardo y Rogelio Escobar por su valiosa ayuda en la conduccin del experimento y la preparacin
del reporte final.
*
Correspondencia: Carlos A. Bruner, Laboratorio de Condicionamiento Operante, Facultad
de Psicologa, UNAM, Ave. Universidad 3004, Col. Copilco Universidad, Mxico, D. F. 04510.
CONACYT

50

AVILA y BRUNER

concluded that trial by trial and free-operant procedures can be viewed as different cases
of the same continuum of independent variables.

Key words: Response acquisition, trial by trial procedure, free-operant procedure,


delayed reinforcement. reinforcement cycle, leverpressing, rats.

RESUMEN
La adquisicin de conducta bajo reforzarniento demorado se ha estudiado en
situaciones de ensayo por ensayo y de operante libre. Sin embargo, sus diferencias de mtodo y de variables dependientes han evitado su comparacin. Para
evaluar la viabilidad de un sistema de variables comunes a ambos tipos de
situaciones, en el presente estudio se us un procedimiento modificado de
ensayo por ensayo para la adquisicin del palanqueo en ratas. Manteniendo
constante en 8 segundos la oportunidad de presionar la palanca en cada ensayo,
se emple un diseo factorial 2 x 2, con 3 ratas ingenuas por celda, para explorar
los efectos de demoras de reforzamiento de 8 y 24 segundos y de intervalos entre
ensayos de 32 y 64 segundos. Para la mayora de los sujetos, la tasa global y la
tasa de carrera de la respuesta de presin a la palanca fueron mayores bajo las
demoras de 8 segundos que bajo las demoras de 24 segundos, independienternente de la duracin del intervalo entre ensayos. Estas dos variables dependientes
tambin fueron ms altas bajo el intervalo entre ensayos de 32 segundos que bajo
el intervalo entre ensayos de 64 segundos, independientemente de la duracin de
la demora. La proporcin de ensayos con respuesta y la latencia de la primera
presin a la palanca se relacionaron significat vamente con la tasa global y la tasa
de carrera. Se concluy que los procedimientos de ensayo por ensayo y de
operante libre se pueden ver como diferentes casos del mismo continuo de
variables independientes.
Palabras clave: Adquisicin de respuestas, procedimiento de ensayo por
ensayo, procedimiento de operante libre, demora de reforzamiento, ciclo de
reforzamiento, presin de palanca, ratas.

INTRODUCCION
La adquisicin de nuevas conductas fue uno de los principales tpicos de
investigacin de las teoras clsicas del aprendizaje (por ejemplo, Hull, 1943;
Tolman, 1932). Paradigrnticamente,
en estos estudios se empleaban procedimientos de ensayo discreto, donde la conducta especificada slo poda ocurrir
unayez en cada ensayo, antes de que se presentara el reforzador. Tambin, se
usaban diferentes aparatos; por ejemplo, laberintos, corredores, cajas de salto y
cmaras de condicionamiento con palancas retrctiles. Las variables dependientes que se registraban eran la velocidad, la precisin, la latencia o el porcentaje

REFORZAM lENTO DEMORADO

51

de respuestas correctas (vase Renner, 1964 y Tarpy y Sawabini, 1974, para una
revisin del rea). A pesar de las ostensibles diferencias entre los aparatos y las
variables dependientes que se empleaban en esta clase de investigaciones, el
demorar la entrega del reforzador consistentemente resultaba en el deterioro de
la adquisicin de la nueva conducta (por ejemplo, Wolfe, 1934; Perin, 1943 a y
b; Logan, 1952).
Recientemente, en la literatura del condicionamiento operante, se renov el
inters por estudiar la adquisicin de nuevas respuestas bajo reforzamiento
demorado; empleando el ms moderno procedimiento de operante libre, donde
la respuesta puede ocurrir en cualquier momento de la sesin experimental.
Lattal y Gleeson (1990) mostraron la adquisicin del picoteo a una tecla en
palomas y la presin de una palanca en ratas, sin entrenamiento explcito
(moldeamiento de la respuesta) y bajo demoras no sealadas de reforzamiento
tan largas como 30 s. En estudios posteriores se mostr la generalidad de este
procedimiento a travs de una serie de respuestas, especies y procedimientos
diferentes (Critchfield y Lattal, 1993; Dickinson, Watt y Griffiths, 1992; Lattal
y Metzger, 1994; Lattal y Williams, 1997; Van Haaren, 1992; Wilkenfield,
Nickel, Blakely y Poling, 1992).
Una caracterstica comn de los procedimientos de los estudios sobre
adquisicin de operantes libres con reforzamiento demorado, es que han empleado programas tipo tndem de dos componentes. En el primer componente de
estos programas se identifica la respuesta por reforzar y en el segundo componente, se programa una demora de reforzamiento. En la mayora de los estudios
iniciados por Lattal y Gleeson, se ha empleado un programa de reforzamiento
continuo para identificar la respuesta por reforzar. En el laboratorio de los
autores tambin se han usado programas tndem de dos componentes para
estudiar la adquisicin de respuestas, pero empleando principalmente programas de reforzamiento demorado intermitente; especficamente, programas
tndem del tipo Intervalo al Azar (lA) x s Tiempo Fijo (TF) x s.
En una primera investigacin Bruner, A vila y Gallardo (1994) estudiaron el
efecto de programas tndem lA 30 s TF 6, 12 o 24 s durante la adquisicin de la
respuesta de presin a la palanca en ratas. Encontraron que la tasa de respuesta
fue ms alta bajo las demoras ms cortas (a la manera de un gradiente de demora
de reforzamiento).
En un segundo estudio, Bruner, Lattal y Acua (1994) evaluaron los efectos
del reforzamiento independiente de la respuesta sobre el mantenimiento de la
respuesta adquirida bajo reforzamiento dependiente pero demorado. En un
primer experimento, expusieron a palomas a un programa tndem intervalo
variable 30 s reforzamiento diferencial de otras conductas (RDO) 10 s. En la

52

AVILA y BRUNER

segunda fase de este experimento, se expuso a las palomas a un programa tndem


de Tiempo Variable (TV) 30 ROO lOs. En el segundo experimento se expuso a
dos grupos de ratas a un programa tndem lA 30 s Tiempo Fijo (TF) 12 o 24 s y
en la segunda fase los programas cambiaron a un Tiempo al Azar (TA) TA 42 s
o un TA 54 s, respectivamente. En el tercer experimento, durante la primera fase,
se expuso a cuatro grupos de ratas a un programa tndem lA 60 s TF O, 6, 12 Y
24 s. En la segunda fase se expuso a los mismos cuatro grupos a un programa de
TA 60, 66, 72 o 84 s, respectivamente. En los tres experimentos se adquiri el
picoteo a la tecla en las palomas y el palanqueo en las ratas expuestas a los
diferentes programas de reforzamiento demorado. Tambin, en los tres experimentos se encontr que al cambiar el programa de reforzamiento independiente
de la respuesta result en el mantenimiento prolongado de la respuesta para todos
los sujetos.
En un siguiente estudio, A vila y Bruner (1995) mostraron la adquisicin del
palanqueo en ratas bajo un programa tndem lA 30 s TF 60 s; i.e., usando una
demora de reforzamiento ms larga que en cualquier otro estudio anterior. En
otra investigacin, Bruner, Avila y Gallardo (1996) expusieron a ratas a un
programa tndem lA 30 s TF x s, donde para cada una de tres duraciones de la
demora (TF 6, 12 o 24 s) se vari la proporcin de reforzamiento independiente
de la respuesta (25, 50 o 75%), mezclado con el reforzamiento demorado pero
dependiente que proporcion el programa de lA. Encontraron que el aumentar la
proporcin de reforzamiento independiente (y concomitanternente, disminuir la
proporcin de reforzamiento dependiente de la respuesta) en los diferentes
grupos de ratas, caus disminuciones correspondientes en la tasa de respuesta.
Tambin, Avila y Bruner (1997) compararon la adquisicin de la respuesta
bajo reforzamiento intermitente inmediato en tres ratas (Tndem lA 30 s TF Os),
con la adquisicin de la respuesta bajo reforzamiento intermitente demorado en
otras 3 ratas (Tndem lA 30 s TF 24 s). En una segunda fase, manteniendo
constante el programa lA 30 s en el primer componente de los programas tndem
para los sujetos inicialmente expuestos a reforzamiento inmediato, se alarg la
duracin del TF a 3, 6, 12 Y24 s y para los sujetos expuestos por primera vez al
TF 24 s, la demora se acort a 12,6,3 y Os. Encontraron para ambos grupos que
la tasa de respuesta fue ms alta bajo las demoras ms cortas, como un gradiente
de demora de reforzamiento. Sin embargo. ante cualquier duracin de la demora,
la tasa de respuesta fue ms alta para los sujetos con los que se adquiri la
respuesta bajo reforzarniento inmediato que para los sujetos inicialmente expuestos a reforzamiento demorado, a la manera de un efecto de historia.
En otro estudio, Burner, Avila, Acua y Gallardo (1998) estudiaron la
adquisicin del palanqueo en diferentes grupos de ratas (3 ratas en cada grupo),
expuestos a programas tndem que diferan en la tasa o en la demora de
reforzamiento. El programa que se us en el primer componente de los progra-

REFORZAMIENTO

DEMORADO

53

mas tndem fue RF I o lA 15,30,600 120 s. El programa del segundo componente


de los programas tndem fue un TF O, 1, 3, 6, 12 o 24 s. Se encontr que la tasa
de respuesta fue ms baja conforme se alarg la demora, tanto en las condiciones
de reforzamiento continuo como de reforzamiento intermitente. Mientras que la
tasa de respuesta fue una funcin decreciente de disminuir la frecuencia del
reforzamiento inmediato, la tasa de respuesta no vari sistemticamente con la
frecuencia de reforzamiento demorado.
Aun cuando se han explorado los efectos de la demora de reforzamiento
sobre el establecimiento de nuevas conductas tanto usando procedimientos de
ensayo discreto como de operante libre, las diferencias ostensibles entre ambos
tipos de procedimientos han dificultado una comparacin entre sus hallazgos.
Logan y Ferraro (1970) sugirieron que es posible integrar los procedimientos de
ensayo discreto y de operante libre a un mismo continuo de variables independientes, manteniendo constante la duracin del intervalo entre ensayos y
alargando o acortando la duracin del ensayo y viceversa. En el presente estudio
se conceptual iz al perodo de disponibilidad de una palanca como equivalente
a la duracin del ensayo y manteniendo este perodo constante en una duracin
corta, se intent la adquisicin de la respuesta de presin a la palanca en ratas bajo
reforzamiento demorado, empleando diferentes intervalos entre ensayos. Se
exploraron los efectos de estas dos variables independientes porque son tpicas
de los estudios tradicionales de ensayo discreto (por ejemplo, Hull, 1943).
Adems, se registraron variables dependientes comunes, tanto a procedimientos
de ensayo discreto como a procedimientos de operante libre. Mientras que la
situacin de ensayo por ensayo permite el registro de una latencia de la primera
respuesta y de una proporcin de ensayos con respuesta, la terminacin del
ensayo contingente a la ocurrencia de la respuesta, no permite registrar una tasa
de respuesta. En el presente estudio, este problema se resolvi permitiendo que
la palanca permaneciera presente durante un breve perodo de tiempo despus de
ocurrir la respuesta procuradora del reforzamiento.

MEODO
Sujetos
Doce ratas Wistar machos, de seis meses de edad y sin experiencia experimental, sirvieron como sujetos. Todos los sujetos se mantuvieron al 80% de su
peso en alimentacin libre y se les aloj en cajas habitacin individuales, con
acceso continuo al agua.
Aparatos
Se us una caja experimental estndar para ratas (BRS/LVE, Mod. No. 14304). La caja estaba equipada con un dispensador de pellas (BRS/LVE, Mod. No.

54

A VILA y BRUNER

un comedero y una palanca de respuesta retrctil (BRS/LVE Mod. No.


La palanca se coloc en el centro de la pared frontal de la caja, a 4 cm
a la derecha del comedero y a 3 cm del piso de la caja; era de 2.5 cm de ancho
y sobresala 2 cm hacia el interior de la caja. Una presin de aproximadamente
0.10 N activaba el interruptor de respuestas. Un foco de 24 voltios, colocado al
centro de la pared frontal de lacaja ya 10 cm del piso, proporcion la iluminacin
general. Como reforzador se emplearon pellas de comida de 25 miligramos. Las
pellas se manufacturaron en este laboratorio remoldeando comida molida para
ratas (Nutricubos de Purina). La caja experimental se encontraba dentro de un
cubculo sonoamortiguado, hecho de madera y en un cuarto separado del
laboratorio principal. El experimento se control automticamente mediante
una microcomputadora 18M, acoplada a la caja experimental mediante una
interfase Advantech (Mod. No. PCL-725).
PDH-020),
RRL-015).

Procedimiento
Se expuso a todas las ratas a una sesin de entrenamiento en comer que
consisti en la presentacin de pellas de comida, independientemente de la
conducta de los sujetos, hasta que estos se aproximaron confiablemente al
comedero y consumieron 50 pellas. En esta sesin-la palanca estaba ausente en
la caja experimental.
Se us un diseo factorial 2 x 2, donde una variable independiente fue la
demora de reforzamiento, de 8 o 24 s. La otra variable independiente fue la
duracin de un ciclo de tiempo fijo entre reforzadores sucesivos, que se
estableci en 32 o 64 s. Se asignaron al azar tres ratas a cada una de las
combinaciones de las dos variables independientes. Para todas las condiciones,
el ensayo consisti en introducir la palanca en la caja experimental durante 8 s.
Dependiendo de la duracin de la demora programada la palanca se present 8
o 24 s antes del final de cada ciclo. As, la duracin de los dos ciclos de
reforzamiento se convirtieron en anlogos de dos diferentes intervalos entre
ensayos. La primera respuesta a la palanca result en la entrega de una pella de
comida al final del ciclo; se registraron las respuestas adicionales pero no
tuvieron consecuencias. Para todas las condiciones se condujeron 40 sesiones de
una hora o 30 reforzadores, lo que ocurriera primero.

RESULTADOS
Las variables dependientes que se calcularon en el presente estudio fueron
las siguientes: una tasa de respuestas durante el ensayo (nmero de respuestas a
la palanca entre el tiempo total que la palanca estuvo disponible en la sesin), la
proporcin de ensayos con respuesta y la latencia promedio, durante cada sesin,
de la primera respuesta en cada ensayo (slo las presentaciones de la palanca

REFORZAMIENTO

DEMORADO

55

donde ocurri una respuesta se consideraron para calcular la latencia). Tambin


se calcul una tasa de carrera por ensayo, que se defini como el nmero de
respuestas a la palanca dividido entre el tiempo de disponibilidad de la palanca,
restndole las latencias de la primera respuesta (slo las presentaciones de la
palanca donde ocurrieron respuestas se consideraron para calcular esta variable
dependien te).
En la Figura l se muestran las cuatro variables dependientes, sesin por
sesin, para cada sujeto en la condicin de demora 8 s (columna izquierda) y de
demora 24 s (columna derecha), con un ciclo de reforzamiento constante en 32
s. Para las tres ratas expuestas a la demora de 8 s, la tasa de respuesta y la
proporcin de ensayos con respuesta fueron muy bajas durante las primeras 5
sesiones y posteriormente aumentaron gradualmente conforme trascurrieron
las sesiones. Para las ratas A7 Y A91a latencia de la primera respuesta fue muy
variable en las primeras 10 sesiones y posteriormente se estabiliz entre 3 y 4
s de duracin. Para el sujeto A8 la latencia se acort conforme progres la
exposicin a esta condicin. Para estas tres ratas, la tasa de carrera aument
durante las 40 sesiones. Para los sujetos expuestos a la demora de 24 s se
encontr lo siguiente: para la rata AI la tasa de respuesta y la proprocin de
ensayos con respuesta fueron muy bajas durante las 40 sesiones de la condicin.
Para los sujetos A2 y A3 la tasa de respuesta y la proporcin de ensayos con
respuesta fueron muy bajas en las primeras 20 sesiones y posteriormente
incrementaron gradualmente. Para las tres ratas expuestas a la demora de 24 s,
la latencia fue muy variable pero se alarg ligeramente en las ltimas 20
sesiones. Para los sujetos A2 y A3 la tasa de carrera fue relativamente baja en
las primeras 10 sesiones e increment en las siguientes 30 sesiones. La tasa de
carrera de la rata A1 fue muy variable y sin tendencia aparente.
En la Figura 2 se muestran las mismas cuatro variables dependientes para las
ratas expuestas a la demora de 8 s (columna izquierda) y a la demora de 24 s
(columna derecha), con el ciclo de reforzamiento constante en 64 s, para las 40
sesiones del procedimiento. Para los sujetos AI4 y AI5 la tasa de respuesta
aument en las primeras 15 sesiones y disminuy ligeramente en las siguientes
25 sesiones. La tasa de respuesta de la rata A13 fue muy variable pero aument
del principio al final del experimento. Para estos tres sujetos, la proporcin de
ensayos con respuesta increment de cero a niveles entre 80 y 100% en las
primeras 5 sesiones y se mantuvo en este nivel en las siguientes 35 sesiones. La
latencia de la primera respuesta para A13 se acort en las 40 sesiones. Para A14
YA151a latencia se acort en las primeras 10 sesiones y posteriormente se alarg
hasta el final del experimento. Para las tres ratas, la tasa de carrera aument en
las primeras 10 sesiones y permaneci en un nivel estable durante las siguientes
30 sesiones de la condicin. En el caso de los tres sujetos expuestos a la demora
de 24 s se encontr lo siguiente:

56

AVILA y BRUNER

CICLO DE REFORZAMIENTO

= 32 S

DEMORA =8 s

40
30

DEMORA =24s
Al

- A 7
+ A ~

.: A 2

Al)

A.1

20
10

0 ......
""--

100

80
60
40
20
O
+

8'

6
+~

+.
a ~

0..1...-

'

'...

+ +++
++++ ....

+~ aa
".,.,. a
~+

:
.. + ; ..... +.
+
+++++ + ...+++++
_ ++

+~-.:

l'
.) .+ "..

11I .~

...

+ a....,.

1.+:"-:-.

+
a +
+. + ....

80
a

60

40"

_.a.:-

a ++.+'
+ '

..

20

+' t.;.
.t-..

+
++'
+
.. +.. +~.' .++.+it+ t' ++1
.....
+ a~ ~
+
....

+.."

.*

...

10

20

30

40

a + a
++ .. ~
+ "'a'. aa a + a.
+ +
+ + +..
:...
+
a a .-I'
.. ++
a a a
+
.... aa.. a
+'
++t t
.
+

++++
10

20

30

40

SESIONES CONSECUTIV AS
Figura 1. Variables dependientes (hileras) para los sujetos individuales durante las 40
sesiones de exposicin a cada duracin de la demora (columnas) con el ciclo de
reforzamiento constante en 32 s.

REFORZAMIENro

57

DEMORADO

CICLO DE REFORZAMIENTO

= 64 S

DEMORA = 8 s
40,

.)\

DEMORA=24s

1:1

,1

+ A 14

30,

A 16

'.. + A 17
A 18

A 15

20
10
0 ........

100
80
60
40

20
O

!.
+ ..
~.
..... + + +..
+.+
+ .....
r'.~ + + ++ + +++
..... ;lt
+"+.
..

'1.

'.

',,

++
+
+1++
+' +
+
t,
+
.+
+
.. ' 1,+ .+
++*
+
.~. +

..

... + +..
+,

.+. *:

.,

I'

'2

'El

:s
<

I:>:l
UJ
:::
:::

<r:
u
UJ

el

<r:
<r:

'"f-

80
+

+
+
,+
+ ... +++++ l' ..... '+.;..... .
+ +
+ +.. , ~.+
~"T __

60

+ ~ .".
++ -,

40

.,

20

.'

++*l..
+'

+
++
+ :++..,t. +
.. +
+

+ + ++
.' : + " ",
+ ....
+

w:+

'
...

.... ... ..

O
O

10

20

30

40

10

20

II

..

,+

30

40

SESIONES CONSECUTlV AS
Figura 2. Variables dependientes (hileras) para los sujetos individuales durante las 40
sesiones de exposicin a cada duracin de la demora (columnas) con el ciclo de
reforzamiento constante en 64 s.

58

AVILA y BRUNER

Para el sujeto A 18 la tasa de respuesta y la proporcin de ensayos con


respuesta fueron muy bajas durante las 40 sesiones de la condicin. Para las
ratas A 16 YA 171a tasa de respuesta y el nmero de ensayos con respuesta fueron
muy bajas en las primeras 25 sesiones y aumentaron en las ltimas 15 sesiones.
para los tres sujetos la latencia de la primera respuesta y la tasa de carrera fueron
muy variables y sin tendencia.
Con el propsito de resumir los resultados pertinentes al estado estable,
posterior a la adquisicin de la respuesta de palanqueo, en la Figura 3 se muestra
la tasa de respuesta promedio de los 3 sujetos expuestos a cada combinacin de
la demora y del ciclo de reforzamiento durante las ltimas cinco sesiones de
cada condicin.

40

o
f-

Demora 8 s
Demom24

30

::J
Z

s
Q<:;

~
-e
CIl

20

f-

fl
::J
e,
CIl

~
10

64

32

CICLO DE TIEMPO (s)

Figura 3. Promedio de la tasa de respuesta y la desviacin estndar (lnea vertical) para


cada grupo de tres ratas que se expusieron a la demora de 8 s o 24 s, con el ciclo de
reforzamiento constante en 32 s o 64 s. Estos promedios estn basados en las ltimas cinco
sesiones de exposicin a la condicin.

REFORZAMIENTO

DEMORADO

59

Para las dos duraciones del ciclo de reforzamiento, la tasa promedio de


repuesta fue ms alta bajo la demora de 8 s que bajo la demora de 24 s.
Independientemente
de la duracin de la demora, la tasa promedio de
respuesta fue mas alta bajo el ciclo de 32 s que bajo el ciclo de 64 s. Se
realiz un anlisis de varianza de dos factores para efectos fijos 2x2 (dos
demoras: 8 y 24 s x dos duraciones del ciclo: 32 y 64 s) sobre las tasas
promedio de respuesta presentadas en la figura 3. Se encontr un efecto
principal por demora significativo (F (1,56)= 40. 58, p<0.05). Es decir,
independientemente'
de la duracin del ciclo de reforzamiento la tasa de
respuesta fue confiablemente ms alta en la demora de 8 s que en la demora
de 24 s. Tambin se encontr un efecto principal por la duracin del ciclo
(F (1,56)= 11.21, p<0.05). bajo las dos duraciones de la demora de
reforzamiento, la tasa de respuesta fue confiablemente ms alta bajo el ciclo
de 64 s. No se encontr interaccin entre las dos variables.
En la tabla l se presentan las correlaciones entre las cuatro variables
dependientes del experimento. Como se mencion antes, la latencia y la tasa
de carrera solo se pueden calcular para las presentaciones de la palanca
donde ocurri al menos una respuesta. Por lo tanto, en las correlaciones
entre estas variables dependientes y la tasa de respuesta y con la proporcin
de ensayos con respuesta nicamente se consideraron las sesiones donde
ocurri al menos una respuesta. Para los sujetos expuestos a las demoras de
8 y 24 s, con el ciclo de reforzamiento constante en 32 s, la correlacin entre
la tasa de respuesta y la proporcin de ensayos con respuesta fue mayor a
.86. Tambin para todos estos sujetos, la correlacin entre la tasa de
respuesta y la tasa de carrera vari entre .69 y .96. La relacin entre la
proporcin de ensayos con respuesta y la tasa de carrera fue confiable para
los tres sujetos expuestos a la demora de 8 s y para dos sujetos expuestos a
la demora de 24 s. La relacin entre las otras combinaciones de las variables
dependientes fue inconsistente. Para las ratas expuestas a la demora de 8 y
24 s con un ciclo de reforzamiento constante en 64 s, la correlacin entre la
tasa de respuesta y la proporcin de ensayos con respuesta vari entre .82
y .99. Para los tres sujetos expuestos a la demora 8 s, la tasa de respuesta
correlacion negativamente con la latencia y positivamente con la tasa de
carrera. Tambin para las tres ratas expuestas a la demora de 8 s la
proporcin de ensayos con respuesta y la latencia correlacionaron negativamente. Para las otras combinaciones de las variables dependientes no se
encontraron relaciones consistentes.

60

AVILA y BRUNER

TABLA 1
Correlaciones entre las variables dependientes registradas
en el presente estudio. Para cada correlacin' se muestra entreparntesis
el nmero de sesiones consideradas

CICLO DE REFORZAMIENTO
DEMORA Ss
SUJETO

TASA-R>
TASA-LA TENClA

= 32 s
DEMORA24s

A7

A8

A9

Al

A2

0:95* (40)

0.92* (40)

0.94* (40)

0.86* (40)

0.94* (40)

0.97* (40)

-0.33* (38)

-0.81 * (38)

(14)

0.41 * (38)

0.27 (40)

0.76* (38)

0.77' (38)

0.69* (14)

0.81* (38)

0.96* (40)

-0.36* (38)

-0.73* (38)

0.6,7* (38)

0.72* (38)

-0.19

(39)

-0.22

A3

TASA-TASA
DE CARRERA
R>O-LATENCIA

0.69* (39)
(39)

-0.15

(14)

0.46* (38)

0.30 (4()

0.64* (39)

0.33

(14)

0.72* (38)

0.92*(40)

-0.03

(14)

0.80* (38)

0.37* (40)

-0.02

R>O-TASA
DECARRERA
LATENCIA-TASA
DE CARRERA

0.26

(38)

-0.36* (38)

0.27

(39)

CICLO DE REFORZA MIENTO = 64 s


DEMORA8s
SUJETO

TASA-R>O
TASA-LA TENCA

A 13

A 14

0.82* (40)

0.75* (40)

-0.69* (40)

-0:78* (40)

0.67* (40)
-0.72* (40)

DEMORA24s
AI5

A 16

0.90* (40)

0.9S* (40)

0.99* (40)

0.96*(40)

A 17

A 18

(39)

-0.17

(32)

-0.28* (36)

0.25 (13)

0.36* (40)

0.59* (39)

-0.12

(32)

0.45* (36)

0.35 (13)

-0.50* (40)

-0.37* (39)

-0.14

(32)

0.27

(36)

0.39 (13)

-0.14

(32)

0.43* (36)

0.20 (13)

0.75* (32)

0.61* (36)

0.81*(13)

-0.58

TASA-TASA
DE CARRERA
R>O-LATENCIA
R>O-TASA
DECARRERA

0.27

(40)

-0.08

(40)

0.52* (39)

-0.01

(40)

0.05

(40)

or

LATENCIA-TASA
DE CARRERA

* p <0.05

(39)

REFORZAMIENTO

DEMORADO

61

DISCUSION
Los resultados del presente estudio muestran la adquisicin del palanqueo
en todos los sujetos bajo reforzamiento demorado y empleando un procedimiento comparable, tanto a los de ensayo discreto como a los de operante libre. A
continuacin se discutir la pertinencia de estos resultados a la literatura de
ensayo discreto y posteriormente a la literatura de operante libre.
Para las dos duraciones del ciclo de reforzamiento (32 o 64 s) la proporcin
de ensayos con respuesta fue mayor para los sujetos expuestos a la demora de 8
s que para los sujetos expuestos a la demora de 24 s. La latencia pareci ser
ligeramente ms corta y con menor variabilidad bajo la demora de 8 s que bajo
la demora de 24 s. Estos resultados son congruentes con los reportados en
estudios sobre la adquisicin de la respuesta bajo reforzamiento demorado en los
procedimientos de ensayo discreto. Por ejemplo, Wolfe (1934) expuso a ratas a
un laberinto en T, donde al principio de cada ensayo se vari el color de la caja
de salida, de blanco a negro o viceversa. Un giro a la caja meta correcta (la que
tena el mismo color que la caja de salida en ese ensayo) fue seguido por la
entrega demorada de comida.
Especficamente, una vez los sujetos llegaban a la caja meta la comida se
presentaba con una demora que se vari de 5 a 60 s. Wolfe encontr que el
porcentaje de giros correctos disminuy conforme se alarg la demora de
reforzamiento.
Perin (1943 b) expuso a ratas a un procedimiento donde los sujetos tenan
que mover una barra a la derecha o a la izquierda y despus de cada respuesta se
retraa la barra y se entregaba el reforzador despus de una demora de
reforzamiento. El nmero de respuestas correctas (movimientos laterales) fue
una funcin decreciente de alargar la demora de reforzamiento de O a 2, 5, 10,
20 y 30 s. El porcentaje y el nmero de respuestas correctas reportadas en los
estudios de Wolfe y de Perin son equivalentes al nmero de ensayos con
respuesta registrado en el presente estudio. En los estudios de Wolfe y de Perin
as como en el presente estudio se encontr que las respuestas correctas
disminuyeron conforme se alarg la demora de reforzamiento.
En otro estudio, Perin (1943 a) expuso a ratas a un procedimiento de ensayo
discreto donde despus de una presin a la palanca, esta ltima se retraa y se
entregaba comida despus de una demora de O, 2, 5, 10 y 30 s. La latencia se
prolong conforme se aument la duracin de la demora de reforzamiento.
Logan (1952) entren a ratas a responder a dos palancas donde una respuesta a
una de las palancas era seguida por una demora de I s y una respuesta a la otra
palanca era seguido por una demora de 5 s. Los sujetos respondieron con una

62

A VILA y BRUNER

latencia ms corta a la palanca con una demora de reforzamiento de 1 s que a la


palanca con una demora de 5 s. Tombaugh y Tombaugh (1969) encontraron que
la latencia de la respuesta de presin a la palanca fue ms corta para sujetos
expuestos a una condicin de reforzamiento inmediato que en sujetos expuestos
a reforzamiento demorado lOs. En estos tres estudios, como en el presente
trabajo, la latencia fue ms corta bajo demoras de reforzamiento ms cortas.
En relacin con la literatura de operante libre, en el presente estudio se
encontr que la tasa de respuesta fue ms alta para los sujetos expuestos a la
demora de 8 que para los sujetos expuestos a la demora de 24 s. Este resultado
es congruente con los hallazgos reportados en otros experimentos sobre la
adquisicin de la respuesta bajo reforzamiento demorado, en situaciones de
operante libre. Por ejemplo, Bruner et al. (1994) estudiaron la adquisicin del
palanqueo en ratas bajo un programa Tndem lA 30 s TF 6, 12o 24 s. Encontraron
que la tasa de respuesta fue ms baja conforme se alarg la duracin de la demora
de reforzamiento. Bruner eral. (1998) expusieron a diferentes grupos de ratas a
programas Tndem RF 1 TF x s y Tndem lA 60 TF x s, donde el TF se estableci
en O, 1, 3, 6, 12 Y24 s. Encontraron, como en el estudio de Bruner et al. (1994)
que la tasa de respuesta fue ms alta bajo las demoras de reforzamiento ms
cortas. Por lo tanto, los resultados del presente estudio son congruentes con los
reportados en procedimientos de operante libre.
En el presente estudio se encontr que independientemente de la duracin
de las demoras (8 o 24 segundos), la tasa de respuesta fue ms alta para los sujetos
expuestos al ciclo de 32 s que para los sujetos expuestos al ciclo de 64 s. En
contraste, en unade las condiciones del estudio de Bruner et al. (1998), se expuso
a diferentes grupos de ratas a un programa Tndem RF 1 TF 12 s o a prograf!1as
Tndem lA x s TF 12 s, donde el intervalo al azar se estableci en 15, 30, 60 o
1~0 s. Encontraron que la tasa de respuesta fue similar bajo las diferentes
frecuencias de reforzamiento demorado' 12 s. Esta diferencia entre los resultados
de ambos estudios puede deberse a que el programa tndem de reforzamiento
intermitente del estudio anterior ejerce un menor control sobre la frecuencia de
reforzamiento que el procedimiento empleado en el presente estudio. Al aadir
una demora de reforzamiento, necesariamente se altera la frecuencia de
reforzamiento que se prescribe en el primer componente de cualquier programa
tndem. Por ejemplo, en un programa tndem lA 30 s TF lOs y en un tndem lA
30s, la frecuencia de reforzamiento programada por el lA es la misma, pero por
la duracin de la demora de reforzamiento, el intervalo entre reforzadores
promedio es diferente en cada caso, de 40 y 60 s, respectivamente. En contraste,
en el presente estudio la duracin del ciclo de reforzamiento mantuvo constante
la frecuencia de reforzamiento programada, independientemente de la duracin
de la demora aadida al programa. Por lo tanto, el ltimo procedimiento es
preferible al uso de programas tndem, para determinar los efectos de la
frecuencia de reforzamiento.

REFORZAMIENTO

DEMORADO

63

Como se mencion en la introduccin, en los procedimientos de ensayo


discreto y los de operante libre se registran variables dependientes diferentes. En
contraste, en el presente estudio se registraron variables dependientes comunes
a ambos tipos de procedimiento. Por lo tanto, se pudo establecer algunas
relaciones que hasta ahora no se haban documentado. Por ejemplo, para los dos
grupos de ratas expuestos a la demora de 8 s, la variable dependiente que mejor
correlacion con la tasa de respuesta fue la proporcin de ensayos con respuesta.
Las correlaciones entre la tasa de respuesta y la latencia y entre la tasa de
respuesta y la tasa de carrera tambin fueron significativas, aunque menores que
T el caso anterior. Para los dos grupos de sujetos expuestos a la demora de 24
s, slo la proporcin de ensayos con respuesta correlacion con la tasa de
respuesta. La tasa de carrera correlacion con la tasa de respuestas slo en los tres
sujetos expuestos a la demora de 24 s, con un ciclo de reforzamiento de 32 s.
Las covariaciones entre la tasa de respuesta (la variable dependiente tpica
de los procedimientos de operante libre), y la proporcin de ensayos con
respuesta y la latencia (las variables dependientes tpicas de las situaciones de
ensayo discreto), muestran la viabilidad de integrar estos dos tipos de procedimiento en trminos de sus variables independientes y dependientes comunes.
Por ejemplo, en trminos de las variables independientes, el procedimiento
empleado en el presente estudio hubiera podido convertirse en un prototipo de
procedimiento de operante libre, extendiendo el perodo de disponibilidad de la
palanca para que fuera accesible durante todo el ciclo de reforzamiento. En
trminos de la variable dependiente, es innegable que la conducta est ocurriendo continuamente, independientemente de que un experimentador permita que
la respuesta ocurra solamente una vez en cada ensayo y evite su ocurrencia en
cualquier otro momento del ciclo de reforzamiento (por ejemplo, retirando el
operando o removiendo al sujeto de la caja meta de un laberinto). Por lo tanto,
parece apropiado concluir que, como lo sugieren Logan y Ferraro (1970), los
procedimientos de ensayo discreto y de operante libre representan los extremos
de un continuo de variables independientes comunes a ambos.

REFERENCIAS
Avila, S. R. y Bruner, C. A. (1995). Adquisicin de la respuesta bajo demoras largas de reforzarniento
sealado y no sealado. Revista Mexicana de Anlisis de la Conducta. 21. 117-127.
Avila, S. R. y Bruner, C. A. (1997). Efectos de historia en gradientes obtenidos alargando y acortando
la demora de reforzarniento. Revista Mexicana de Anlisis de la Conducta. 23. 8596.
Bruner, C. A., Avila, S. R. y Gallardo, L. M. (1994). La adquisicin del palenqueo en ratas bajo un
programa intermitente de reforzarniento demorado. Revista Mexicana de Anlisis de la
Conducla.20.119129.
Bruner, C. A., Avila, S. R. y Gallardo; L. M. (1996). Acquisition with delayed reinforcement under
combinarions 01' response dependent reinforcernent. Revista Mexicana de Anlisis de la
Conducta, 22. 2939.

64

AVILA y BRUNER

Bruner, C. A., Avila, S. R., Acua, L. y Gallardo, L. M. (1998). Effects of reinforcement rate and
delay on the acquisition of lever pressing by rats, Journal of the Experimental Analysis of
Behavior, 69. 59-75.
Bruner, C. A., Lattal, K .A. Y Acua, L. (1994). Los efectos del reforzamiento independiente de la
respuesta sobre el responder adquirido con reforzamiento demorado. Acta Comportamentala.
2, 172-191.
Critchfield, T. S. y Laual, K. A. (1993). Acquisition of a spatially defined operant with delayed
reinforcement. Journal of the Experimental Analysis of Behavior, 59. 373-387.
Dickinson, A., Watt, A. y Griffiths, W. J. H. (1992). Free-operant acquisition with delayed
reinforcement. The Quarterly Journul of Experimental Psychology, 3, 241-258.
Hull, C. L. (1943). Principlesofbehavior: An introductionto behavior theory. New York: Appleton-

Century-Crofts.
Lattal, K. A. Y Gleeson, S. (1990). Response acquisition with delayed reinforcement. Journa/ of
Experimenta/ Psychology: Animal Behavior Processes, /6.27-39.
Lanal, K. A. Y Metzger, B. (1994). Response acquisition by siamese fighting fish (Betasplendens)
with delayed visual reinforcement. Journal of the Experimenta/ Analysis of Behavior. 6/. 35c
44.
Lattal, K. A. Y Williams, A. M. (1997). Body weight and response acquisition with delayed
reinforcernent. Joumal of the Experimental Analysis of Behavior, 67. 131-143.
Logan, F. A. (1952). The role of delay of reinforcement in determning reaction poten tial. Journal
of Experimental Prychoiog, 43. 393-399.
Logan, F. A. Y Ferraro, D. P. (1970). From free responding to discrete trials. En W. N. Schoenfeld
(Ed.), The theory of reinforcement schedules (pp. I 11-138). New York: Appleton-CenturyCrofts.
Perin, C. T. (1943 a). A quantitative investigation of the delay-of-reinforcement
gradient. Journa/
of Experimental Psychology, 32. 37-51.
Perin, C. T. (1943 b), The effect ofdelay reinforcernent upon the diferentiation ofbar responses in
white rats, Jouma/ of Experimental Psychology. 32. 95-109.
Renner, K. E. (1964). Delay of reinforcement: A historical review. Psychological Bulletin, 6/. 341361.
Tarpy, R. M. Y Sawabini, F. L. (1974). Reinforcement delay: A selective review ofthe last decade ..
Psychological Bulletin, 81. 984-997.
Tolman, E. C. (1932). Purposive behavior in animals and meno New York: Appleton-Century-

Crofts.

Tombaugh, T. N. Y Tombaug, J. W. (1969). Effects of delay of reinforcement and cues upon


acquisition and extinction performance. Psychological Reports. 25. 931-934.
Van Haaren, F. (1992). Response acquisitioo with fixed and variable resetting delays ofreinforcement
in male and female wistar rats, Physiology and Behavior, 52. 767-772.
Wilkenfield, J.. Nickel, M., Blakely, E. y Poling, A. (1992). Acquisition of lever-press responding
in rats with delayed reinforcement. A cornparison of three procedures. Journal of the
Experimenta/ Analysis of Behavior, 58. 431-443.
Wolfe.J. B. (1934). Theeffectofdelay
reward upon learningin the white rat.Jouma/ ofCompurative
Psychology, /7, 1-2L

También podría gustarte