Está en la página 1de 40

Esta presentación está concebida como material de apoyo

para el estudio de la asignatura y en ningún caso sustituye


al libro de texto. En caso de que existiese información
contradictoria, de cara al examen siempre prevalecerá lo
indicado en el texto básico de la asignatura:
Pellón, R., Miguens, M., Orgaz, C., Ortega, N., Pérez, V
(2014). Psicología del Aprendizaje. Madrid: UNED.

Equipo Docente de Psicología del Aprendizaje


Tema 5. Programas y teorías
del reforzamiento
OBJETIVOS
• Conocer los principales programas de reforzamiento, tanto básicos como
compuestos.
• Distinguir los programas de razón y de intervalo, teniendo en cuenta si son fijos o
variables.
• Conocer los patrones conductuales que generan los distintos programas de
reforzamiento.
• Conocer los programas de reforzamiento diferencial de tasas de respuesta y la
teoría del reforzamiento diferencial de los tiempos entre respuestas.
• Conocer los fundamentos de la ley de igualación, las variables que relaciona y cómo
predice la conducta en diferentes circunstancias de elección.
• Conocer los principales estudios sobre “autocontrol” y el uso de programas
concurrentes encadenados.
• Conocer las relaciones asociativas estímulo-respuesta y estímulo-consecuencia
como potencialmente responsables del aprendizaje instrumental.
• Conocer el principio de Premack y los principales conceptos relacionados con la
regulación conductual, como el punto de bienestar y la distribución de la respuesta.
Programas básicos de reforzamiento
• Reforzamiento continuo
• Reforzamiento parcial
– No se refuerzan todas las respuestas, tan sólo algunas
de ellas
– Programas de reforzamiento: Especifican una regla
que determina las condiciones en las que una
respuesta puede ser reforzada
– produce un aprendizaje más duradero, que
posteriormente resulta más difícil de extinguir.
Programas básicos de reforzamiento
• Programas de Razón: estipulan que se debe
emitir un determinado número de respuestas antes de
que la última de ellas sea reforzada
– Razón Fija (RF)
– Razón variable (RV)
• Programas de Intervalo: debe pasar un
determinado tiempo desde la consecución del reforzador
anterior antes de que la respuesta requerida sea de nuevo
reforzada
– Intervalo fijo (IF)
– Intervalo variable (IV)
Programas de Razón
• Razón Fija (RF): El número de respuestas requerido
para que se administre el reforzador siempre es el
mismo
– Ejemplo, RF-50 (un reforzador cada 50 respuestas)

• Razón variable: Requiere un número de respuestas


que varía de una ocasión a la siguiente de manera
irregular alrededor de un número promedio
– Ejemplo, RV-100 (un reforzador cada 100 respuestas
en promedio)
Programas de Intervalo
• Intervalo fijo (IF): Reforzarán la primera respuesta
que ocurra después de que haya transcurrido un
tiempo siempre igual desde que se dispensó el
anterior reforzador
– Ejemplo: IF 60-seg, se reforzará una respuesta transcurridos
60 segundos desde el anterior reforzador.
• Intervalo Variable (IV): Reforzarán la primera
respuesta que ocurra después de que haya
transcurrido un tiempo variable promedio desde que
se dispensó el anterior reforzador
– Ejemplo: IV 60-seg se reforzará una respuesta después
transcurridos 60 segundos en promedio desde el anterior
reforzador.
Distribución de las respuestas:
registrador acumulativo
Se puede medir:
• Nº de respuestas
• Nº de pausas
• TER: tiempo entre respuestas
• Tiempo total empleado en
responder o en estar sin responder
• Perseverancia: relación entre el
tiempo empleado en estar
respondiendo dividido por el
tiempo que se ha estado sin
responder).
• Tasa de respuesta:
Tasa alta registro inclinado
Tasa baja registro plano

Reforzadores
Estímulos discriminativos
RV RF: tasa elevada de respuesta,
RV-100
que se mantiene desde la
primera respuesta
después de haber obtenido el
reforzador hasta la siguiente
respuesta reforzada
Pausa post-reforzamiento
Carrera de la razón
IF-60 Tensión de la razón
RV: Tasa alta y constante
IF: Tasa más alta cerca del final
del intervalo
Aceleración gradual
Festoneado
IV: Tasa alta y constante, pero
menos que RV
Programas de razón frente a programas de intervalo:
Funciones de retroalimentación
Cuando se igualan las tasas y patrones de reforzamiento, la tasa de respuesta
suele ser mayor en los programas de razón que en los de intervalo

Explicación Molecular: Los programas


de intervalo refuerzan TER largos
Explicación molar: Correlación entre la
tasa de respuesta y reforzamiento en los
programas de razón (maximización)

• Función de retroalimentación: Correlación entre la tasa de respuesta y la tasa


de reforzamiento. Descripción de la forma en que actúa el ambiente, como la
frecuencia de reforzamiento, la magnitud del reforzador, o la demora del
reforzador, en función de algún aspecto de la ejecución conductual
– No asumen que la conducta esté bajo el control de una variable independiente, simplemente que
la conducta afectará a algún aspecto del ambiente
Función de retroalimentación
Correlación entre la tasa de respuesta y la tasa de reforzamiento
Programa de Razón
R = B/N
R = tasa de reforzamiento obtenido.
B = tasa de respuesta emitida.
N= Número de respuestas por reforzador
La tasa de reforzamiento es proporcional
a la tasa de respuesta

Programa de Intervalo
Programa de IV corto: pequeños incrementos
en las tasa respuesta producirán incrementos
sustanciales en la tasa de reforzamiento.
Las funciones se aplanan a partir de una tasa de
respuesta.

Se encuentran más diferencias individuales en la tasa de respuesta entre unos animales y


otros bajo programas de intervalo que de razón.
Programas de reforzamiento diferencial
de tiempos entre respuestas
• Reforzamiento Diferencial de tasas Bajas de
respuesta (RDB).
– Reforzamiento de TER largos
– Se refuerza la respuesta si ocurre después de un tiempo especificado
desde la anterior respuesta (un TER), mientras que en los programas de IF
la respuesta es reforzada si ha transcurrido un tiempo determinado desde
el anterior reforzador.
– Una respuesta prematura reinicia el intervalo
• Reforzamiento Diferencial de tasas Altas de
respuesta (RDA).
– Reforzamiento de TER cortos
– Se refuerza la respuesta si ocurre antes de un tiempo especificado desde
la anterior respuesta
Teoría del reforzamiento diferencial de
los tiempos entre respuestas
• Se debería reforzar el TER que ocurre precisamente antes de la administración del
reforzador
– Explica bien la Ejecución IV y RV, muy similar cuando se igualan los TER con
procedimientos de acoplamiento
– Programas RF e IF NO se explican bien por el reforzamiento de los TER: No
explican las pausas post-reforzamiento
• Tanno y Silberberg (2012): Modelo por el que el peso de cada TER cuenta
en una función exponencial con respecto a la distancia a la ocurrencia del
reforzador. Los TER más alejados pesarán (aportarán) menos que los más
cercanos, lo que en su conjunto determinará la tasa de respuesta.
Programas compuestos

• Programas secuenciales
• Programas simultáneos
Programas compuestos: Programas
alternantes y secuenciales
Programas alterantes
• Programa mixto:
– se presentan dos o más programas básicos alternándose al azar.
– El cambio de uno a otro de los programas es independiente de la
conducta del sujeto en experimentación.
– Depende de la duración de un tiempo establecido con anterioridad
por el experimentador.
IF 60-s (10 minutos) - RF-50 (10 minutos)

• Programa múltiple: exactamente igual que el mixto con la


diferencia de que cada componente se señala con una clave
discriminativa distinta
IF 60-s (10 minutos) - RF-50 (10 minutos)
LUZ LUZ APAGADA
Se emplean en investigación en control estimular
RF-5 (10 minutos) – No reforzamiento (10 minutos)
Ed E∆
Programas secuenciales
• Programa tándem:
– Consta al menos de dos programas simples que se presentan siempre
en el mismo orden.
– Los sujetos experimentales deben completar el primer programa para
poder iniciar el segundo, al final del cual consiguen la administración
del reforzador.
– sólo es posible conseguir el reforzador si se cumplen en sucesión los
programas componentes.
– El reforzador sólo se conseguirá al terminar de completar todos.

IF 60-seg RF-50
La primera respuesta después de 60 seg inicia el RF 50 y cuando se
completan 50 respuestas se dispensa el reforzador
Programas secuenciales
• Programa encadenado:
– es exactamente igual que el tándem, pero en este caso cada uno de
los dos programas simples está señalado de manera diferente.
– el sujeto experimental conoce en qué componente del programa se
encuentra en cada momento.

IF 60-seg RF-50

La primera respuesta después de 60 seg


enciende una luz e inicia el RF 50 y cuando se
completan 50 respuestas se entrega el reforzador

El Ed (la luz) puede adquirir capacidades de


reforzador condicionado
Programas simultáneos
• Programas concurrentes:
– se caracterizan por disponer simultáneamente de al menos
dos programas básicos de reforzamiento
– se puede cambiar de un programa a otro sin que haya sido
necesario haber completado un tiempo o un número de
respuestas en cada uno de los programas
– Dos palancas: DER IV60seg ---- IZQ IV30seg
– Se mide el número de respuestas en cada una de las palancas
y se calcula la proporción por la que se distribuyen las
respuestas entre una y otra
Programas simultáneos
Programas combinados
• Programa alternativo:
– se refuerza una respuesta cada vez que se cumple con el
requisito del programa de razón o el del intervalo (existen dos
formas de conseguir el reforzador)
• Programa conjuntivo:
– se refuerza una respuesta cada vez que se cumple al mismo
tiempo con el requisito de la razón y del intervalo
• Programa entrelazado
– la respuesta que se refuerza viene determinada por dos
programas, pero la disposición de uno de ellos se altera por el
desarrollo del otro.
– que algún valor recogido en un programa de razón determine
las características de un programa de intervalo
• Si da 10 respuestas en 10 segundos IV 10-s, si no RF-50
CONDUCTA DE ELECCIÓN

Elección o preferencia entre las alternativas de respuesta


Programa concurrente con dos alternativas de respuestas (a y b)
Tasa relativa de respuesta la respuesta a:

Ra y Rb representan, respectivamente, la tasa de respuesta en la


alternativa a y la tasa de respuesta en la alternativa b.
La ley de igualación
• La tasa relativa de respuesta entre dos alternativas de respuestas
concurrentes es igual a la tasa (frecuencia) relativa de
reforzamiento asociada con cada una de dichas alternativas de
respuesta

Ra y Rb representan las tasas de respuesta en las alternativas a y b;


y Fa y Fb representan la tasa (frecuencia) de reforzamiento asociada a
las alternativas a y b respectivamente.
Alternativa A: 20 respuestas/min
Alternativa B: 10 respuestas/min
Tasa relativa de respuesta en Tasa relativa de respuesta en
alternativa A: alternativa B:

20 /(20+10)= 0.66 10 /(20+10)= 0.33

Frecuencia de reforzamiento en Frecuencia de reforzamiento en


alternativa A: 2 reforzadores/min alternativa B: 1 reforzador/min

2 /(2+1)= 0.66 1 /(2+1)= 0.33

=
Figura 5.5. Frecuencia relativa de respuesta a la Tecla A en función de la
frecuencia relativa de reforzamiento a dicha tecla para tres palomas (con
DPC de 1,5 seg – véase posteriormente). (Herrnstein, 1961)
• los animales igualan la tasa relativa de
respuesta con otros parámetros que definen al
reforzador, como pueden ser la magnitud del
reforzador o su inmediatez

Ma y Mb (magnitudes de reforzamiento de las alternativas a y b)


Da y Db (demoras al reforzador en las alternativas a y b)
Maximización: elección entre
programas concurrentes de razón
• dos alternativas de respuesta que
proporcionan reforzadores de acuerdo a
programas de razón diferentes (un programa
concurrente RF-RF o uno RV-RV)
• los sujetos tienden a elegir la alternativa de
respuesta que tiene una razón más baja
Igualación temporal

• siendo Ta y Tb los tiempos de permanencia en


las alternativas a y b; y Fa y Fb las tasas de
reforzamiento de dichas alternativas de
respuesta
Alternancia y Demora por el cambio (DPC)

• Alternancia: Cambio intermitente de una alternativa


de respuesta a otra sin que guarde relación con los
reforzadores asociados a cada una de las alternativas
de respuesta
• Demora por el cambio: Consiste en introducir un
periodo temporal breve, de aproximadamente 2 ó 3
segundos, después de la primera respuesta a una de
las alternativas para que pueda entrar en
funcionamiento el programa de reforzamiento
asociado a dicha alternativa de respuesta.
Sesgos
• Fuentes potenciales de influencias no deseables en los
experimentos de elección:
– Disposición espacial de las alternativas de respuesta, iluminación de
las alternativas, color, fuerza de la presión de la palanca
• Ley generalizada de la igualación

donde Ra y Rb son las tasas de respuesta en las


alternativas a y b respectivamente; Fa y Fb son las
frecuencias (tasas) de reforzamiento en las
alternativas a y b respectivamente; y Sa y Sb son los
sesgos en las alternativas a y b respectivamente.
Efectos de los sesgos
• Sobreigualación: cuando la mejor alternativa es
valorada por encima de la preferencia establecida por
la igualación perfecta
• Infraigualación: cuando la mejor alternativa es
valorada por debajo de la preferencia establecida por
la igualación perfecta
– Es más común encontrar infraigualación que
sobreigualación (Baum, 1974), debido principalmente a la
tendencia a cambiar de alternativa cuando se ha obtenido
reforzamiento en una de ellas (el comportamiento de
alternancia descrito anteriormente), lo que disminuye el
ajuste perfecto a la igualación.
Alternativa A: 20 respuestas/min
Alternativa B: 10 respuestas/min
Tasa relativa de respuesta en alternativa A: Tasa relativa de respuesta en alternativa B:

20 /(20+10)= 0.66 10 /(20+10)= 0.33

Frecuencia reforzamiento en Frecuencia de reforzamiento en


alternativa A: 2 reforzadores/min alternativa B: 1 reforzador/min
1 /(2+1)= 0,33
2 /(2+1)= 0,66

Sobreigualación: cuando la mejor alternativa es valorada por encima de la


preferencia establecida por la igualación perfecta (Ej. Ra >0,66; Rb< 0,33)
Infraigualación: cuando la mejor alternativa es valorada por debajo de la
preferencia establecida por la igualación perfecta (Ej. Ra < 0,66; Rb > 0,33)
Explicación de la igualación
• Maximización molecular: el cambio de una alternativa de respuesta a
otra se realiza en el momento en que la probabilidad momentánea de
reforzamiento sea mayor en la otra alternativa.
• Maximización molar: los animales distribuyen sus respuestas de acuerdo a
un cálculo global de las tasas relativas de reforzamiento entre las dos alternativas
de respuesta, eligiendo más aquella alternativa que proporciona una mayor tasa
de reforzamiento.
• Mejoramiento: eligen entre dos fuentes de premio de manera que se igualen
las tasas locales de reforzamiento, respondiendo a la alternativa que en un
momento dado presenta una mejor tasa local de reforzamiento. La mejora se
establece en términos de tasa local de reforzamiento, más que en términos de
probabilidad momentánea de reforzamiento (como hacía la aproximación
molecular).
Ejemplo
- Un organismo da 60 respuestas en 20 minutos en la alternativa A
- La tasa global en A será de 60 respuestas/hora (puede que el resto del
tiempo se haya dedicado a responder en B)
- Sin embargo la tasa local en A será de 180 respuestas/hora (60 cada 20
minutos)
Impulsividad y autocontrol: la
elección con compromiso
• Cadenas concurrentes de respuesta: no se mide la elección entre
premios de forma directa, ni tampoco se mide directamente la elección entre
respuestas instrumentales concurrentes, sino que se mide la elección entre
diferentes fuentes de premio.

La preferencia por una recompensa pequeña inmediata se denomina impulsividad


La preferencia por una recompensa mayor demorada se denomina autocontrol.
Valor de los reforzadores
• Valor de la alternativa:
– El valor de una alternativa aumenta con la magnitud
y disminuye con la demora
• IV30seg (2bolitas)-IV20seg (1 bolita)
– Valor IV 30 (2/30=0,07); Valor IV20 (1/20=0,05) Elección autocontrolada
• IV40seg (2bolitas)-IV15 seg (1 bolita)
– Valor IV40seg (2/40=0,05); Valor IV15 (1/15=0,07) Impulsividad

– Si añadimos 40 seg a las dos alternativas


» 2/80=0,025; 1/55= 0,018
• Convertimos una elección impulsiva en autocontrolada
• cuando un reforzador grande y otro pequeño
son demorados, aunque el primero lo sea más
que el segundo, el valor del reforzador grande
será superior al del pequeño (autocontrol).
• El valor del reforzador pequeño será mayor
que el del grande, por el contrario, cuando la
espera para el primero sea relativamente
pequeña (impulsividad).
Principio del reforzamiento de
Premack
• las respuestas que acompañan a los estímulos reforzadores son actividades
altamente probables, mientras que las actividades instrumentales son menos
probables
• cualquier evento, sea un estímulo o una respuesta, potencialmente puede
convertirse en un reforzador eficaz
• dos supuestos fundamentales para que una actividad pueda convertirse en un
reforzador:

– Dicha actividad debe ser preferida en la línea de base


– la probabilidad de ocurrencia de la actividad preferida debe restringirse y ocurrir de
forma contingente con la realización de una actividad menos preferida, fruto de lo
cual la actividad menos preferida se convierte en instrumental
Línea de base Contingencia instrumental
Experimento 1: acceso limitado al agua

tiempo 2!i Beber refuerza Correr no refuerza


dedicado 21 correr beber
a cada
actividad 1!ii Correr Beber
11
!ii

liempo
liempo
Experimento 2: acceso ilimitado a la rueda

25
Beber no refuerza Correr
correr refuerza
20 beber

tiempo Correr Beber


dedicado
a cada
actividad

comr liempo
liempo
Hipótesis de privación de la respuesta
• Para que una actividad pueda funcionar como un reforzador
eficaz sólo es necesario restringir la realización de dicha
actividad en relación con su ocurrencia en el punto de
bienestar
• NO es necesario que dicha actividad tenga que ser más
preferida que la que se va a convertir en actividad
instrumental
– I/R > Oi/Or
• I = Respuesta Instrumental, R = Respuesta Reforzadora, Oi = Conducta Observada
en la línea de base (la que luego será instrumental), Or = Conducta Observada en la
línea de base (la que luego será reforzadora)
• la proporción entre una actividad instrumental y una reforzadora debe ser
mayor que la proporción observada entre estas dos actividades en el punto de
bienestar
B

A: se restringe beber; B: se restringe correr.


La contingencia que se desvía en dirección opuesta a uno de los ejes desde
el punto de bienestar, la actividad representada en dicho eje se restringe y
por lo tanto constituye la actividad reforzadora.

También podría gustarte