Está en la página 1de 11

Programas de reforzamiento

Introducción
Ya hemos visto en el ABC del condicionamiento operante como una conducta seguida de
un refuerzo se estabiliza o se hace más frecuente. Si en cierto momento se deja de
reforzar, la conducta tiende a extinguirse. ¿Cómo debo programar los refuerzos, en
cantidad y frecuencia, para que cuando deje de reforzar la conducta se siga repitiendo la
mayor cantidad de veces posible? Esa es la pregunta de los programas de reforzamiento,
es decir, cómo aumentar la resistencia a la extinción de las conductas cuando se dejan de
reforzar.

Skinner investigó cinco programas de reforzamiento, que se desarrollan a continuación,


cada uno con su respectiva resistencia a la extinción. Skinner utilizó una máquina, donde
la conducta de picotear de la paloma era recompensada por comida y el número de
respuestas eran registradas en función del tiempo y quedaban registrados en gráficos de
papel. Los gráficos de este apunte están inspirados en eso gráficos.

Refuerzo continuo
Eneste programa cada vez que la conducta se emite, una conducta se refuerza.
Picoteo, comida, picoteo, comida, picoteo, comida.

Te explico el grafico que sigue, vamos a usarlo para este y el resto de los programas. En el
eje vertical están la cantidad de conductas emitidas (que llamamos razón); en el
horizontal, el tiempo en minutos. Con un círculo rojo te marco donde están los refuerzos.
Con la flecha verde te indico el lugar de la conducta para la cual el refuerzo deja de
aplicarse.

Suponé que la paloma picotea 40 veces y 40 veces la reforzás. En la vez 41 que picotea no
le das comida. ¿Cuántas veces más pensás que siguió picoteando la paloma? La respuesta
es… una o dos y ya.

Por eso se dice que el refuerzo continuo tiene muy baja resistencia a la extinción. Es decir,
si una conducta se refuerza cada vez que se emite, cuando se deja de reforzar, se extingue
rápidamente.

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 1


50

40

(Cantidad acumulada)
Razón
30

20

10

10 20 30
Intervalo (tiempo en minutos)

Cuadro 1. Refuerzo continuo

Vas a un restaurante al que casi siempre que vas, te atienden bien. Una vez que te
atienden mal, ¡no vas más! O sino, siempre que prendés el interruptor de luz de la cocina,
se prende. Después de miles de veces de usarlo, lo movés y no prendé, probás dos, tres
veces más y ¡zás! a cambiar el foco, no seguís intentando muchas veces más. O venís
tomando mate por la bombilla sin ningún problema y, de pronto, de la nada se tapa.
Intentas tomar una o dos veces y si sigue tapado, entonces, dejas de tratar y a sacar la
bombilla y a ver qué pasa.

Razón fija
El siguiente programa de reforzamiento que te voy a explicar es la razón fija. Es igual que
el refuerzo continuo salvo que, en vez de reforzarse la conducta cada vez que se emite, se
refuerza cada cierto número fijo de conductas emitidas (“razón” significa “proporción” y
se refiere aquí a que cada cierto número de conductas se da cierto número de refuerzos.
Es decir, en este contexto, podemos entender a la palabra “razón” como “número de
conducta”).

Imaginemos que cada 10 veces que la paloma picotea, la refuerzo. Supongamos que lo
hago cuatro veces (en realidad, cuando Skinner investigaba con la ratas y las palomas,
usaba más cantidades de veces). ¿Qué ocurre cuando la dejo de reforzar? Gráfico:

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 2


50

40
(Cantidad acumulada)
Razón

30

20

10

10 20 30
Intervalo (tiempo en minutos)

Cuadro 2. Razón fija

¿Qué sucede desde el último refuerzo hasta la flechita? La conducta continua 10 veces o
un poco más y luego se extingue. Comparado con el refuerzo continuo, que cuando se
dejaba de reforzar la conducta seguía una o dos veces más, ahora, con la razón fija, ¡10
veces más! Por eso se dice que la razón fija tiene una baja resistencia a la extinción, no
muy baja como el continuo, solo baja.

Es decir, que si a tu hijo le das 50 pesos cada 10 veces que hace su cama, cuando le dejes
de pagar te va a hacer la cama 10 o 11 veces más ¡gratis! Si a una empleada doméstica le
pago cada vez que la llamo y viene y limpia, cuando le deje de pagar dejaría de venir
(refuerzo continuo). Pero si le paga cada 5 veces que viene, viene 5 veces desde la última
vez que le pagué, ¡negocio para un explotador!(Claro que las personas piensan que la
empleada venía porque tenía la expectativa que cumpliera con mi compromiso, pero
estamos en el conductismo y todos los contenidos mentales son epifenoménicos, no
tienen relación de causalidad. Para un conductista, no hay diferencia entre una paloma
que no piensa y un ser humano que sí, ya que se comportan exactamente igual. Hay que
esperar a la psicología cognitiva para que la conciencia juegue un rol en la psicología
empirista).

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 3


Algo interesante que ocurre en la etapa de entrenamiento: a medida que se acerca el
número de conductas totales emitidas para el refuerzo (en el caso de la paloma, 10),
aumenta la frecuencia de la emisión de la conducta:

Picoteo…………………………picoteo……………..picoteo…….picoteo…picoteo

Y luego inmediatamente hay una pausa.

Si alguno trabajó en un call center, donde cada 10 clientes que le vendés un producto te
dan un bono, habrá notado que a medida que los tres primeros los haces tranquilo, un
poco más de pilas hasta el sexto, pero a los tres últimos le ponés todo el esfuerzo y
después, descanso, no hago nada. ¿No te pasó leyendo las hojas de un apunte largo, que
no te gusta, que a medida que te acercás al final del capítulo (refuerzo negativo, dejar de
leer lo que no me gusta) vas más rápido y al final del capítulo hacés una pausa?

Intervalo fijo
El intervalo fijo es parecido a la razón fija, la diferencia es que en vez de ser cada cierto
número fijo de conductas que se emite que se da un refuerzo, es cada cierto intervalo…
fijo.

Esto es, no cuento la cantidad de veces que la paloma picotea, sino con tal de que picotee
al menos una vez durante el intervalo, le doy el refuerzo, digamos, cada 5 minutos. El
gráfico es muy parecido, pero lo fijo ahora es el tiempo, en el eje horizontal, lo que
determina cuando le doy el refuerzo. Y la cantidad de conductas que se emitan entre cada
refuerzo no se tiene en cuenta.

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 4


50

40

(Cantidad acumulada)
Razón
30

20

10

10 20 30
Intervalo (tiempo en minutos)

Cuadro 3. Intervalo fijo

Muy parecido a la razón fija, cuando se deja de reforzar sigue picoteando, y no un número
de veces, sino hasta que se cumpla el momento del refuerzo, que te indico con la flechita
verde. Picotea un poco más y la conducta se extingue. Es decir, picotea en este ejemplo
unos 5 minutos más, o poco más, y luego no picotea más. Además, inmediatamente
después del refuerzo hay una pausa en emisión de la conducta.

Así, los políticos que renuevan su banca cada 4 años, cuando renuevan su banca se relajan
y limitan sus acciones. Después del cierre contable de diciembre de una empresa, los
empleados no hacen nada. ¿A vos no te pasó que luego de entregar un TP frenaste de
estudiar un rato? En fin, diría el conductismo entre nosotros y las palomas no hay tanta
diferencia.

Intervalo variable
Sigamos con el intervalo variable. Es parecido al intervalo fijo, pero el intervalo es…
variable. En vez de ser como en el fijo, exactamente cada cierto intervalo varía.

Por ejemplo, consideremos que en vez de reforzar a la paloma una vez cada 5 minutos
exactos, se la refuerza a los 2 minutos o a los 7, tal vez a los 10 minutos, pero en torno de

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 5


los 5 minutos. No son cinco horas ni tres centésimas de segundo, no es al azar, es variable.
Varía en torno a 5 minutos.

50

(Cantidad acumulada) 40
Razón

30

20

10

10 20 30
Intervalo (tiempo en minutos)

Cuadro 4. Intervalo variable

La resistencia a la extinción es alta. Es decir, cuando se termina de poner refuerzos, la


conducta sigue emitiéndose por varios minutos más que 5, antes de extinguirse del todo.
Se eliminó la flecha verde del cuadro porque el momento exacto del refuerzo es
impredecible, y las líneas son punteadas porque no se puede predecir exactamente
cuándo la conducta deja de emitirse del todo. Puede tirar un picotazo bastante tiempo
después.

Imaginate dos empresas: una, Relojería Suiza, paga a sus empleados por intervalo fijo, el 5
de cada mes. Otra, Prendas Milito, paga la quincena, luego pasa un mes y saldan media
deuda y luego a los 3 meses, y luego saldan un algo de la deuda a los 10 días… Nunca
podes predecir cuándo van a pagar. Después de que sus empleados trabajan dos años,
ambas empresas quiebran y dejan de pagar el 5 de enero. ¿Los empleados de cuál
empresa siguen trabajando por más tiempo? ¡Prendas Milito que los reforzó por intervalo
variable, y con el fijo, como la Relojería Suiza! El intervalo variable tiene alta resistencia a
la extinción, y la tasa de emisión de conducta es constante entre los refuerzos, por eso la
línea es recta, y no con curvas o escalonada.

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 6


Razón variable
El programa de reforzamiento con mayor resistencia a la extinción, es decir, con muy alta
resistencia a la extinción, es la razón variable. Al igual que en la razón fija, se refuerza cada
cierto número de conductas emitidas, pero a diferencia, en vez de exactamente 10, es un
número de conductas variable en torno de 10. Pueden ser 3 o pueden ser 14, nunca mil.
No es al azar, solamente variable. Nuevamente, la tasa de emisión de conducta es
constante, por eso la línea se la ve recta y, nuevamente, cuando se deja de reforzar la
conducta sigue por muchas veces más sin refuerzo y puede haber algún picoteo
esporádico mucho después que se dejó de reforzar. Te puse una flecha punteada porque
nunca se sabe cuándo la conducta se extinguirá completamente.

50

40
(Cantidad acumulada)
Razón

30

20

10

10 20 30
Intervalo (tiempo en minutos)

Cuadro 5. Razón variable

Ese mecanismo lo usan las máquinas del casino o los juegos de azar, que generan tanta
adicción: no ganas siempre, solo a veces y solo sabes que si seguís jugando algún premio
va a llegar. Y si ganás, seguís jugando por el próximo premio. Y seguís y seguís. También

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 7


ocurre con los juegos de PC: ¡nunca sabés si la próxima vez pasás de nivel, solo que tenés
que seguir emitiendo conductas! Por eso no podés soltar la PlayStation.

Cuando estás aburrido y haces scroll una aplicación del celular, Instagram o Reddit o
Facebook, de nuevo es razón variable: no sabés cuántas veces tenés que mirar lo que sale,
pero si seguís, cada cierto número variable de pantallas, aparece algo que te divierte… y
en parte el celular es tan altamente adictivo por eso. Algunas drogas funcionan así: no
siempre que las fumás (o tomás o inyectás) te producen un buen resultado, pero cuantas
más veces lo intentes, más chances de que sea así. Que las máquinas de los casinos y la
tecnología refuercen por razón variable, me parece, no es al azar, sino que fue
cuidadosamente diseñado por quienes las crearon.

Fijate que los programas de intervalo y razón variables, los impredecibles, generan
conductas más resistentes a la extinción que los predecibles. Será por eso que algunas
personas son adictas al riesgo.

Árbol de toma de decisiones de programas de reforzamiento


Cuando en las autoevaluaciones, en el final o el parcial te encuentres con una situación y
te pida que definas cuál es el programa de reforzamiento, podés usar el siguiente árbol de
decisión para darte cuenta cuál es.

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 8


Cuadro 6. Árbol de decisión de programas de reforzamiento.

Otro parámetro es fijarse en como una conducta se resiste a la extinción basado en el


refuerzo o también fijarse en la tasa de emisión de respuestas. Asimismo, estar atento a
las indicaciones de razón o intervalo.
Programa de Resistencia a la Indicadores de razón o
Tasa de emisión
reforzamiento extinción intervalo
Muy baja (se
Refuerzo continuo extingue Constante Indiferente
rápidamente)
Aumenta a medida que se acerca
Indicadores de tiempo:
Intervalo fijo Baja el refuerzo. Baja inmediatamente
“minutos” “hora” “día”
después
“semana”
Intervalo variable Alta Constante
Pausa en la emisión de conducta
Razón fija Baja Indicadores de cantidad
luego del refuerzo
“veces” “número de
Razón variable Muy alta Constante conductas”

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 9


Veamos esto en un ejemplo similar al que aparecerá en el parcial:
1. Nadia trabaja en negro en un comercio de venta de ropas en un barrio comercial, de lunes
a sábados, salvo feriados, desde las 9 hasta las 20, cuando terminan de ordenar y hacer el
cierre de caja. La dueña le paga en efectivo todos los sábados a última hora. Después de
once meses ir a trabajar, un sábado la dueña le dijo que no le podía pagar, que le iba a
pagar el sábado siguiente lo que le debía y la semana correspondiente. Nadia trabajó toda
la semana pero el sábado de nuevo la dueña le dijo que le tuviera paciencia. Nadia la miró
con mala cara y le dijo que le tenía que pagar sí o sí, o se iba. La dueña le pidió otra
semana más, pero Nadia el martes fue a un negocio que estaba enfrente, habló con el
dueño, y dejó su trabajo anterior. Para el conductismo, Nadia fue reforzada mediante un
programa de reforzamiento de :
a. Refuerzo continuo
b. Razón fija
c. Intervalo fijo
d. Intervalo variable

Primero determino cuál es la conducta y cuál es el refuerzo: la conducta es la de ir a


trabajar y el refuerzo es el salario. Luego, determinar si se refuerza cada vez que se emite
la conducta. No, no le pagan todos los días.

Luego se debe determinar si se refuerza la conducta cada cierto número de conductas o


cada cierto periodo de tiempo. Ya que se le paga los sábados, es por tiempo: se trata de
un intervalo. Aquí hay que leer atentamente el texto. No dice que se le paga cada 6 veces
que va (en ese caso sería razón), sino que dice “sábado”. Estos indicadores de tiempo son
importantes. Finalmente, se le paga un día exacto o es variable. Es exacto: intervalo fijo. Si
hubiese dicho que le pagaban “cuatro veces por mes, cuando había plata en caja”, hubiese
sido intervalo variable.

Otro parámetro, como para verificar si se trata de intervalo fijo o variable, es la resistencia
da la extinción. Observá que la conducta se extinguió rápidamente, lo que indica una
resistencia de extinción baja o muy baja. Si hubiese sido variable, la resistencia a la
extinción hubiese sido alta y el texto hubiese dicho “Nadia siguió trabajando un par de
meses más, dudando si dejar de trabajar o no, esperando la respuesta de la dueña” o algo
así.

Sí, ¡ya sé! En el conductismo lo que la gente piensa o deja de pensar no es importante,
pero a los fines de redactar los ejercicios pongo sus pensamientos. El conductismo no dice
que la gente no piense, solo que lo que piensa no tiene importancia alguna, que lo que

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 10


determina la conducta es la ley del efecto: “La conducta se mantiene y se regula de
acuerdo a sus consecuencias” y no de acuerdo a lo que vos crees decidir. Palomas somos.

Referencias bibliográfica
Myers, D. G. (1998).“El aprendizaje”. En Psicología. Buenos Aires: Med. Panamericana.

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 11

También podría gustarte