Está en la página 1de 41

Aprendizaje y Conducta Adaptativa II

Programas de reforzamiento y conducta de


elección
Dra. María Elena Ortiz
APRENDIZAJE Y CONDUCTA ADAPTATIVA II:
PROGRAMAS DE REFORZAMIENTO Y CONDUCTA DE
ELECCIÓN

Aunque la descripción de los procedimientos de


condicionamiento instrumental podrían implicar
que la conducta es reforzada (o castigada) cada
vez que ocurre, lo cierto es que en el medio
natural, sólo tiene esas consecuencias de
manera intermitente o parcial.
APRENDIZAJE Y CONDUCTA ADAPTATIVA II:
PROGRAMAS DE REFORZAMIENTO Y CONDUCTA DE
ELECCIÓN

El estudio de este tema tiene que ver con las


características de los programas de
reforzamiento y su impacto en la conducta.

Un programa de reforzamiento es la regla o


criterio que se sigue para la entrega de los
reforzadores.
Los programas de reforzamiento pueden ser

 a) Contingentes: la entrega del reforzador depende de


que el sujeto realice una conducta que obedezca cierto
criterio.

 b) No contingentes: la entrega del reforzador NO


depende de lo que haga el sujeto, se entrega
“gratuitamente” cada cierto tiempo (que puede ser fijo
TF o variable TV)
Los programas contingentes se dividen en

1. Programa de (reforzamiento continuo o RFC) en que


el reforzador se entrega a cada respuesta de la clase
requerida

2. Programas de reforzamiento intermitente o parcial


(sólo se refuerzan algunas de las respuestas de la
clase.
Registro automático

 Skinner construyó un dispositivo para hacer un


registro automático de las respuestas
generadas por cada programa.

 El registro automático no sólo muestra el


número total de respuestas, sino que permite
apreciar de un vistazo el patrón de conducta,
momento a momento, de un sujeto
Registro automático
Registro automático
Los programas básicos de reforzamiento intermitente
incluyen criterios de razón y de intervalo

En los programas de razón el criterio para obtener el


reforzamiento es la realización de cierto número de
respuestas de la clase requerida. En este caso no
importa el tiempo que tarde el sujeto en completar la
razón requerida.

El criterio (la razón) puede mantenerse fijo o variar de un


reforzador a otro, lo cual genera dos programas de este
tipo.
Programas de razón

Razón fija (RF): se exige un RV se exige un número


número constante de variable (o promedio) de
respuestas por cada respuestas por cada
reforzador. Por ejemplo, reforzador, en una RV 5,
en una RF 5, el sujeto el sujeto obtiene un
obtiene un reforzador por reforzador en promedio
cada cinco respuestas cada 5 respuestas
Características de los programas de intervalo

Los programas de intervalo requieren que


transcurra un tiempo especificado (que puede
ser fijo o variable) antes de que el reforzador
esté disponible, para obtenerlo el sujeto debe
dar la respuesta requerida.
En los programas de intervalo

 No importan las respuestas que dé el sujeto


antes de que transcurra el tiempo requerido, se
refuerza únicamente la primera respuesta
emitida cuando ha transcurrido el tiempo
especificado.
Programas de Intervalo

En IF el tiempo que debe  En IV el tiempo debe


transcurrir antes de que transcurrir un tiempo
un reforzador esté promedio antes de que
disponible se mantiene un reforzador esté
constante entre disponible.Por ejemplo,
reforzadores. Por en un IV 5’, en promedio
ejemplo, en un IF 5’ cada cada cinco minutos está
cinco minutos está disponible un reforzador
disponible un reforzador que el sujeto puede
que el sujeto puede obtener si da la respuesta
obtener si da la respuesta requerida.
requerida
Los programas de intervalo pueden incluir

 Una contingencia de disponibilidad


limitada, la cual especifica que una vez
que ha transcurrido el tiempo
especificado, el reforzador estará
disponible por cierto tiempo y no más
Comparación de los patrones de respuesta generados por
los cuatro programas simples de reforzamiento
Descripción de los patrones de respuesta generados por
cada programa simple

Los programas RF generan


un patrón de “pausa y
carrera”, después de
cada reforzador se hace
una pausa cuyo tamaño
depende del tamaño de
la razón. Si las razones
son muy grandes el
sujeto empieza a exhibir
pausas en momentos
distintos (tensión de la
razón)
Descripción de los patrones de respuesta
generados por cada programa simple

Los programas RV generan


un patrón de respuestas
rápido y estable. También
se observan pausas post-
reforzamiento, pero son
mucho menores a las de
una RF ya que en un RV
existe al menos cierta
probabilidad de que la
siguiente respuesta
obtenga otro reforzador.
Descripción de los patrones de respuesta generados por
cada programa simple

Los programas IF también


generan una pausa post-
reforzamiento después
de la cual el sujeto
empieza a responder
muy lentamente. A
medida que avanza el
intervalo el sujeto
responde cada vez más
rápidamente, un patrón
conocido como festoneo
Descripción de los patrones de respuesta generados por
cada programa simple

 Los programas IV
producen una tasa de
respuestas moderada
y estable
Comparación de los programas de razón e
intervalo

Reynolds (1975) entrenó a dos palomas para que


picotearan una tecla por comida. Una de las
palomas trabajó con un RV, cada vez que
completaba la razón requerida, se hacía
disponible el reforzador del segundo animal, lo
que implica un programa de IV.
Comparación de los programas de razón e
intervalo

Aunque el reforzamiento recibido por ambas tuvo


la misma frecuencia y distribución, el animal
reforzado con el programa RV generó una tasa
de respuestas mucho mayor que el reforzado
con el programa de IV.
RESULTADOS DEL EXPERIMENTO DE REYNOLDS
(1975)
Las diferencias en los patrones generados por los
programas de razón e intervalo tratan de
explicarse como función de

En los programas de razón existe una función de


retroalimentación entre tasa de respuestas y tasa de
recompensas. Dicha función no existe en los programas
de intervalo.

Los programas de intervalo refuerzan tiempos entre


respuestas (TER) largos, los programas de razón
refuerzan (indirectamente) TER cortos.
Extinción en los programas simples de
reforzamiento

El programa RFC genera menos resistencia a la


extinción que los programas intermitentes
(conocido inicialmente como paradoja de
Humphrey y luego como efecto del
reforzamiento parcial). Para explicar este efecto
se proponen diferentes hipótesis
Hipótesis de discriminación (Mowrer y Jones,
1945):

Para que cambie la conducta del sujeto una vez


que empieza la extinción, éste debe ser capaz
de distinguir el cambio en las contingencias de
reforzamiento, cosa que es más sencilla luego
de un RFC que de un programa intermitente.
Hipótesis del decremento de la generalización
(Capaldi, 1966)

Propone que la respuesta en extinción será débil


si los estímulos presentes son muy diferentes a
los que se encontraban durante el
reforzamiento, pero será fuerte si los estímulos
son similares.
Según Capaldi, hay una disminución considerable
en la generalización cuando se pasa de RFC a
extinción, pero la disminución es mucho menor
cuando se pasa de un programa intermitente a
extinción
Otros programas de reforzamiento

En un programa de reforzamiento diferencial de


tasas bajas (RDB) una respuesta es reforzada
si y sólo si se deja transcurrir cierto tiempo entre
respuestas. Si se responde antes de transcurrir
la pausa estipulada, no sólo se pierde el
reforzador sino que vuelve a empezar el
intervalo
Otros programas de reforzamiento

En un programa de reforzamiento diferencial de


tasas altas debe ocurrir un número especificado
de respuestas en cierto tiempo (por ejemplo, 10
respuestas en tres segundos)
Otros programas de reforzamiento

En los programas encadenados el sujeto debe


completar los requisitos de dos o más
programas simples en una secuencia fija, cada
programa es señalado por un estímulo diferente.
Otros programas de reforzamiento

 Los programas
múltiples en que se
alternan dos o más
programas simples (cada
uno con su estímulo
discriminativo y su
reforzador). La conducta
del sujeto en cada
componente corresponde
al programa vigente.
Otros programas de reforzamiento

En los programas
concurrentes dos o más
programas simples (cada
uno con su estímulo
discriminativo y su
reforzador) están
vigentes al mismo
tiempo. Este rasgo
permite estudiar la
conducta de elección.
Factores que influyen en el desempeño en los
programas de reforzamiento

Además de características del reforzador (como


su calidad, cantidad, tasa de presentación y
demora), también influye el nivel de motivación
del sujeto
¿Conducta moldeada por la contingencia o
gobernada por reglas?

Dado que cada programa especifica una relación


única entre estímulo discriminativo, respuesta
operante y reforzador (contingencia de tres
términos), parecía lógico concluir que los
patrones generados por cada programa eran
resultado de las contingencias especificadas
(conducta moldeada por la contingencia)
¿Conducta moldeada por la contingencia o
gobernada por reglas?

El problema con la conclusión anterior es que


algunos experimentos (en especial con
humanos) han arrojado patrones conductuales
muy diferentes a los observados en animales.
Para explicar esta discrepancia se propone que
las personas pueden mostrar tanto conducta
moldeada por contingencias como conducta
gobernada por reglas.
¿Conducta moldeada por la contingencia o
gobernada por reglas?

Skinner (1969) propuso que el lenguaje permite


que la gente siga reglas o instrucciones
verbales, las cuales pueden estar o no
relacionadas con las contingencias de
reforzamiento prevalecientes.
Dichas reglas pueden ser derivadas de las
instrucciones dadas al sujeto o éste puede
formar sus propias reglas
¿Conducta moldeada por la contingencia o
gobernada por reglas?

Wearden (1988) encontró una correspondencia


estrecha entre la descripción verbal que hacían
los sujetos de su comportamiento y el patrón
conductual que exhibían

Lowe et al (1983) encontraron que el patrón


exhibido por bebés y niños pequeños se
asemeja más al de los animales que al de niños
mayores y adultos, lo que fue atribuido a las
diferencias en las habilidades de lenguaje
¿Conducta moldeada por la contingencia o
gobernada por reglas?

Sin embargo, dado que los sujetos no siempre


pueden identificar la regla que siguen o la que
dan no describe su conducta (Matthews et al.,
1985), parece probable la participación de otras
variables (por ejemplo, la privación y el uso de
reforzadores primarios en animales, el uso de
reforzadores condicionados en humanos y la
historia de reforzamiento)
¿Conducta moldeada por la contingencia o
gobernada por reglas?

Una variable que podría explicar las diferencias en


los patrones exhibidos por animales y humanos
es la historia mayor y más compleja de éstos
últimos a diferentes programas de
reforzamiento.
De ser así, debería ser posible cambiar dichos
patrones de conducta proporcionando
experiencia con diferentes patrones de
reforzamiento.
Para evaluar el papel de la historia de reforzamiento,
Weiner (1964) trabajó con humanos en las siguientes
condiciones:

Grupo Fase 1 Fase 2 Resultado

Grupo A RF 40 IF 10” Los sujetos


seguían
respondiendo
rápidamente al
pasar al IF

Grupo B RDB 20” IF 20” Seguían


respondiendo
muy lentamente al
pasar al IF
Wanchisen et al (1989) evaluaron en ratas el
efecto de la historia de reforzamiento
Grupo Fase 1 Fase 2 Resultado

Grupo 1 IF 30” IF 30” Todos los


animales
desarrollaron el
festoneo típico del
IF

Grupo 2 RV 20 IF 30” Ningún animal


desarrolló el
festoneo típico del
IF
Papel de la historia de reforzamiento

Wanchisen y sus colegas concluyeron que la


experiencia previa con un programa de
reforzamiento puede afectar la manera en que
los sujetos (animales y humanos) responden
luego en otro programa.
Para disminuir los efectos de la historia de
reforzamiento se requiere entonces mayor
experiencia con el nuevo programa (Cole, 2001)

También podría gustarte