Llanos Tema 5

Psicología del Aprendizaje 2015/2016 Llanos Merín
TEMA 5: PROGRAMAS Y TEORÍAS DEL REFORZAMIENTO
PROGRAMAS BÁSICOS DE REFORZAMIENTO: son la forma en que se programan los reforzadores en contingencia con la emisión de una respuesta
operante. Cada uno de ellos especifica una regla que determina las condiciones en las que una respuesta puede ser reforzada.
Programas de reforzamiento continuo: en ellos, Programas de reforzamiento intermitente o parcial:

cada respuesta correcta es reforzada (Ej.: sólo se refuerzan algunas respuestas que emite el
interruptor de la luz). sujeto, no todas. Producen un aprendizaje más
duradero y son más difíciles de extinguir.
Programas de razón: el reforzador Programas de intervalo: la respuesta se

depende sólo del número de respuestas refuerza sólo si ocurre cuando ha transcurrido
efectuadas por el sujeto. Es decir, se un cierto periodo de tiempo. Es decir, debe
debe emitir un número concreto de pasar un determinado tiempo desde la
respuestas antes de que la última de consecución del reforzador anterior antes de
ellas sea reforzada. que la respuesta sea reforzada de nuevo.
Programa de razón fija (RF): el Programa de razón variable (RV): Programa de intervalo fijo (IF): son Programa de intervalo variable
número de respuestas requerido requiere un número de respuestas aquellos que reforzarán la primera (IV): son aquellos donde varía la
para que se administre el que varía de una ocasión a la respuesta que ocurra una vez haya cantidad de tiempo a transcurrir
reforzador es siempre el mismo. Se siguiente, de manera irregular, transcurrido un tiempo siempre entre un reforzador y el
abrevia RF seguido del número de alrededor de un número promedio igual desde que se dispensó el siguientes antes de que la
respuestas requeridas (Ej.: RF-50). de respuestas por cada reforzador. último reforzador. Es decir, el respuesta sea reforzada, dando
El programa RF-1 sería un Ej.: en un programa RV-100 se intervalo de tiempo es constante. lugar a un valor promedio de
reforzamiento continuo, puesto que conseguirá el reforzador si en intervalo entre reforzadores. Es
sería reforzada cada respuesta. promedio se han emitido 100 decir, el periodo de tiempo varía
respuestas, pudiendo ser en unas de una recompensa a otra.
ocasiones más y en otras menos (el
valor medio es 100).
PROGRAMAS BÁSICOS DE REFORZAMIENTO  REGISTRO ACUMULATIVO. Cada una de los 4 programas básicos produce una ejecución conductual característica
que se puede observar en la forma en la que se distribuyen las respuestas, por medio de un registrador acumulativo. Este tipo de registro permite medir tanto el
número de respuestas como el número de pausas, el tiempo transcurrido entre ellas (TER: tiempo entre respuestas) o el tiempo total sin responder, siendo el
resultado una curva acumulativa continua que refleja las tasas de respuesta. Veamos el registro acumulativo de cada uno de los 4 programas:
Programa de razón fija (RF): Programa de razón variable (RV): Programa de intervalo fijo (IF): Programa de intervalo variable (IV):
 Tasas elevadas de respuesta, que se  Tasas de respuesta muy altas y  El intervalo de tiempo establecido  Ejecución con una tasa de
mantienen desde la primera respuesta constantes. solo indica cuándo está disponible el respuesta constante y estable, sin
después de haber obtenido el reforzador  Las pausas post-reforzamiento son reforzador, no cuándo se entrega. pausas (Ej.: la pesca).
hasta la siguiente respuesta reforzada. mucho menos probables que en los  Se caracteriza por una pausa post-  Tanto en los programas de IV como
Esta ejecución alta y estable ocurre programas RF, ya que el programa reforzamiento más o menos en los de IF el reforzador está
cuando la razón es relativamente impide que el sujeto adquiera una prolongada en función de la duración disponible hasta que se realice la
pequeña. impresión exacta del número de del intervalo, y por una progresiva respuesta, sin importar el tiempo que
 Cuando la razón es mayor (RF-50), se respuestas requeridas para obtener el aceleración posterior de la tasa de esto lleve. Sin embargo, hay ocasiones
observa una pausa post-reforzamiento reforzador (Ej.: máquinas respuesta en cada uno de los en las que se restringe el tiempo que
que se sigue de la transición casi tragaperras). intervalos, de manera que la tasa está disponible el reforzador, es decir,
instantánea de una tasa alta de respuesta mayor de respuesta se produce cerca se estipula un tiempo límite para
posterior (carrera de razón). del final del intervalo. Esta pauta de conseguirlo: esta clase de restricción
 Tensión de la razón: si se aumenta conducta se conoce como festoneado se llama duración limitada.
demasiado el valor de la razón, las pausas (Ej.: pautas de estudio en exámenes).
son más largas o, en casos extremos, el  La ejecución en un programa IF
sujeto puede dejar de responder. refleja la precisión del sujeto para
contar el tiempo.
PROGRAMAS DE RAZÓN VS PROGRAMAS DE

INTERVALO  FUNCIONES DE RETROALIMENTACIÓN.
Programas de razón vs Funciones de

programas de intervalo retroalimentación
 Semejanzas: los programas de RF e IF producen pausas post-reforzamiento  Funciones de retroalimentación: Son descripciones de las posibles relaciones
y tasas altas de respuesta tras la pausa; los programas de RV e IV mantienen existentes entre aspectos ambientales relacionados con la ocurrencia del
tasas estables de respuesta y no presentan pausas. reforzador (por ejemplo, su frecuencia de ocurrencia) y aspectos de ejecución
Diferencias: conductual (como puede ser, por ejemplo, la frecuencia de ocurrencia de la
 Cuando se igualan las tasas y patrones de reforzamiento, la tasa de respuesta). Por lo general en los programas de razón se encuentran funciones
respuesta suele ser mayor en los programas de razón que en los de intervalo. lineales, mientras que en los programas de intervalo se encuentran funciones
 En los programas de intervalo, la tasa de respuesta no influye directamente hiperbólicas. Las funciones de retroalimentación se corresponden con una
sobre la frecuencia de administración de los reforzadores (la tasa de explicación molar de las relaciones del ambiente con la conducta.
reforzamiento), mientras que la tasa de reforzamiento varía de manera directa
con los cambios en la tasa de respuesta en los programas de razón. En los programas de razón, la tasa de
 Posibles explicaciones a estas diferencias (Baum): reforzamiento que obtiene el sujeto es
1. Explicación molecular: los programas de intervalo (particularmente IV) proporcional a la tasa de respuesta
tienden a reforzar TER largos, porque el mero paso del tiempo lleva a un realizada. Cuando más rápido se
incremento en la probabilidad de reforzamiento. Dado que los programas IV se responda (menor requisito de razón),
generan TER largos, éstos se reforzarán y llegarán a predominar, reduciendo mayor tasa de reforzamiento. Como
así la tasa de respuesta. En los programas de razón (particularmente RV) es resultado se obtiene una función lineal.
más probable que el reforzador actúe sobre TER cortos, dada la tendencia de En los programas de intervalo, cuanto
los sujetos a responder en ráfagas. más corto es el programa, mayor
2. Explicación molar: en los programas de RV existe una correlación directa margen para que pequeños incrementos
entre la tasa de respuesta y la tasa de reforzamiento, por lo que la tasa de en tasas bajas de respuesta produzcan
respuesta tenderá a aumentar para maximizar la tasa de reforzamiento. En los incrementos importantes en la tasa de
programas IV, sin embargo, no existe ninguna relación entre la tasa de reforzamiento. Las funciones se aplanan
respuesta y la tasa de reforzamiento: por mucho que se incremente la primera a partir de una tasa de respuesta,
no variará la segunda. porque la tasa máxima de reforzamiento
viene establecida por el programa
TEORÍA Y PROGRAMAS DE REFORZAMIENTO

DIFERENCIAL DE LOS TIEMPOS ENTRE RESPUESTAS (TER).
Teoría del reforzamiento Programas de reforzamiento

diferencia de los TER diferencial de los TER
La teoría del reforzamiento diferencial de los TER se basa en que Este tipo de programas se diseñaron para probar que el reforzamiento diferencial de
los reforzadores no sólo refuerzan ejecutar una determinada los TER es posible, para lo que se refuerzan específicamente TER cortos y TER largos.
respuesta, sino que también refuerzan el hacerlo a un Se requiere que el sujeto responda a una tasa particular para obtener el reforzador. El
determinado ritmo, con un determinado espaciamiento entre reforzamiento de una determinada respuesta vendrá determinado en función del
respuestas. En todos los programas de CO se refuerzan tiempo transcurrido entre dicha respuesta y la respuesta anterior. El diseño básico de
específicamente TER de una duración determinada. estos programas es elegir un tiempo determinado y reforzar únicamente los TER que
 En los programas de razón los tiempos entre respuesta largos sean más largos o más cortos que ese tiempo.
posponen el reforzamiento. De hecho, cuanto más rápido  Reforzamiento Diferencial de tasas Bajas de respuesta (RDB): se refuerza una
complete el sujeto el requerimiento de la razón, más rápido respuesta sólo si ocurre después de que haya transcurrido cierta cantidad de tiempo
recibirá el reforzador. Por tanto, un programa de razón favorece desde la respuesta anterior. Así, el sujeto tiene que refrenar su respuesta hasta que
tiempos entre respuestas cortos y por consiguiente una tasa de ha pasado un cierto periodo de tiempo y, si no se consigue, se reinicia nuevamente el
respuestas alta. intervalo de tiempo especificado por el programa. Se refuerzan los TER largos.
 En los programas de intervalo la probabilidad de recompensa Ej.: estos programas se pueden encontrar en la coordinación de los pasos de baile o de
aumenta con tiempos entre respuestas más largos y esto implica los instrumentos musicales, donde cualquier aceleración en la conducta lleva a un
tasas de respuestas más bajas. resultado no reforzado (sino castigado).
 Reforzamiento Diferencial de tasas Altas de respuesta (RDA): se refuerza una
respuesta sólo si ocurre antes de que haya transcurrido cierta cantidad de tiempo
tras la respuesta precedente. Se refuerzan los TER cortos. Este procedimiento
fomenta, por tanto, tasas altas de respuesta.
Ej.: contestar un cuestionario con tiempo límite para cada pregunta, de manera que si
no se respondiese a una pregunta en el tiempo especificado se saltaría a la siguiente,
forzándose a responder antes de que venza el tiempo estipulado.
PROGRAMAS COMPUESTOS DE REFORZAMIENTO  PROGRAMAS ALTERNANTES Y SECUENCIALES. Los programas compuestos resultan de la aplicación de dos o
más programas básicos de reforzamiento y pueden dividirse en dos bloques: aquellos donde la presentación de los programas componentes es secuencial y
aquellos donde los componentes se presentan de forma simultánea. En primer lugar, veremos los programas secuenciales.
Programas compuestos secuenciales de reforzamiento: Hace referencia a la

Sin Ed Con Ed presentación en sucesión de al menos dos programas básicos de
reforzamiento, destacando los programas mixto, múltiple, tándem y
Alternantes Mixto Múltiple
encadenado, cuya diferencia radica en cómo se pasa de uno a otro de los
Secuenciales Tándem Encadenado
programas componentes (de forma alternante o estrictamente secuencial) y
si existe señal discriminativa para los mismos.
Programa mixto: se presentan dos o más programas básicos alternándose al azar. El cambio de un programa a otro de los
programas es independiente de la conducta del sujeto, ya que depende de la duración de un tiempo establecido con anterioridad
por el experimentador. Ej.: si cada componente dura 10 minutos, durante los 10 primeros puede estar funcionando un programa IF-
60 y en los 10 minutos siguientes va a funcionar el segundo programa, por ejemplo, RF-50 y al terminar su tiempo, volverá a
Programas empezar el programa IF-60 (así sucesivamente).
alternantes Programa múltiple: es igual que el mixto con la diferencia de que cada componente se señala con una clave discriminativa distinta
(luz, sonido…) y el sujeto es informado en todo momento de en qué parte del programa se encuentra. Si un Ed indica que las
respuestas pueden ser reforzadas de acuerdo a reforzamiento positivo, y un Ed diferente señala la imposibilidad de reforzamiento,
nos encontramos ante un programa donde se establece una discriminación entre n Ed positivo y un Ed negativo (E∆). El aprendizaje
consiste en emitir la respuesta en presencia del E+ y omitirla en presencia del E-.
Programa tándem: consta de al menos dos programas simples que se presentan siempre en el mismo orden. Los sujetos
experimentales deben completar el primer programa para poder iniciar el segundo, al final del cual consiguen la administración del
reforzador. En este programa, al contrario que en los anteriores, solo es posible conseguir el reforzador si se cumplen en sucesión
Programas todos los programas componentes. Completar uno de ellos sólo da lugar a la posibilidad de realizar el siguiente.
secuenciales
Programa encadenado: es igual que el tándem, pero en este caso cada uno de los programas simples está señalado de manera
diferente. Habitualmente la terminación del primer programa se acompaña del encendido de una luz o la presentación de un
sonido, que permanece en funcionamiento durante el segundo programa hasta el momento de la consecución del reforzador.
PROGRAMAS COMPUESTOS DE REFORZAMIENTO

 PROGRAMAS SIMULTÁNEOS
Programas Programas
concurrentes combinados
Son los más importantes y conocidos. Se caracterizan por disponer Consisten en combinaciones de un programa de razón y otro de intervalo, y
simultáneamente de al menos dos programas básicos de reforzamiento. En los existen al menos tres tipos:
programas concurrentes se puede cambiar de un programa a otro sin que  Programa alternativo: se refuerza una respuesta cada vez que se cumple con
normalmente haya sido necesario haber completado un tiempo o un número de el requisito del programa de razón o el de intervalo, existiendo así dos formas
respuestas en cada uno de los programas. Los sujetos experimentales, como de conseguir el reforzamiento.
consecuencia, deben elegir entre responder a uno u otro de los programas que  Programa conjunto: se refuerza una respuesta cada vez que se cumple al
componen el programa concurrente. De esta forma, los programas concurrentes mismo tiempo con el requisito de razón y del intervalo.
estudian los mecanismos de la conducta de elección (para ello, se mide el  Programa entrelazado: la respuesta que se refuerza viene determinado por
número de respuestas en cada uno de los componentes del programa y se dos programas, pero la disposición de uno de ellos se altera por el desarrollo del
calcula la proporción en que se distribuyen las respuestas en cada uno de ellos). otro. Una posibilidad es que cierta suma de respuestas y de tiempo debe darse
antes de que la respuesta sea reforzada.
RESUMEN: CLASIFICACIÓN GENERAL DE LOS PROGRAMAS COMPUESTOS.

MIXTO
ALTERNANTES
PROGRAMAS MÚLTIPLE
COMPUESTOS
SECUENCIALES TÁNDEM
SECUENCIALES
PROGRAMAS ENCADENADO
COMPUESTOS
PROGRAMAS CONCURRENTES
COMPUESTOS
SIMULTÁNEOS COMBINADOS  ALTERNATIVO, CONJUNTIVO Y ENTRELAZADO.
CONCUTA DE
ELECCIÓN
Estudio y medida de la La ley de igualación

conducta de elección (Herrnstein)
La conducta de elección se ha estudiado:  Esta teoría formula que la tasa relativa de respuesta relativa entre dos
 Tradicionalmente, utilizando un procedimiento de premios concurrentes: alternativas concurrentes (disponibles al mismo tiempo) es igual a la tasa (o
- Se daba a elegir entre dos actividades diferentes. frecuencia) relativa de reforzamiento en cada una de ellas. Dicho de otro modo:
- Se medía el tiempo que el animal empleaba en cada una de las opciones. si tenemos dos posibilidades de respuesta, cada una con un programa de
- Se inferían las preferencias relativas de los sujetos, en base a los resultados que reforzamiento diferente, hay que elegir cómo responder a ellas. Por tanto, voy a
se obtenían. repartir mi tiempo y esfuerzo en proporción a lo que pueda conseguir de cada
- Este tipo de procedimiento no es adecuado porque se están comparando entre una de ellas: esto implica que, si de uno de los programas podemos sacar más
sí actividades que requieren dos respuestas distintas. reforzamiento que del otro, lógicamente, nos dedicaremos más a él.
 Actualmente, se utilizan los programas concurrentes: en ellos, se aplican dos  Matemáticamente, esto se representa con la siguiente fórmula:
programas de reforzamiento a la vez y el sujeto debe elegir entre las distintas
alternativas, que requieren una respuesta operante idéntica. La conducta de
elección se refleja en la distribución de las respuestas en las dos opciones
alternativas, de forma que el sujeto distribuirá sus respuestas entre las dos Ra/Rb = tasas relativas de respuesta en las alternativas a y b respectivamente.
opciones en función del programa de reforzamiento de cada una de ellas. Fa/Fb = tasas relativas de reforzamiento en las alternativas a y b.
 La medida de la conducta de elección se realiza mediante la tasa relativa de
respuesta en cada una de las alternativas (se puede realizar del mismo modo con  Si en la alternativa a se ofrece una mayor frecuencia de reforzamiento que en la
la tasa relativa de reforzamiento). b también se dará un mayor número de respuestas en esta alternativa y viceversa.
 Si los reforzadores se distribuyen por igual en las dos alternativas, las
Ra = tasa relativa de respuesta en la alternativa a. respuestas también se distribuirán al 50% entre las dos alternativas.
Rb = tasa relativa de respuesta en la alternativa b.  Existen también otros parámetros del reforzador que se pueden igualar
(frecuencia, magnitud, demora…).
La razón será R=0,5  Si el sujeto elige igualmente entre las dos opciones.  Maximización: comportamiento adaptativo que implica elegir en exclusiva la
La razón será R>0,5  si la tasa de respuesta en a es mayor que en b. alternativa más favorable, para ahorrar tiempo y esfuerzo (entre dos programas
La razón será R<0,5  si la tasa de respuesta en b es mayor que en a. de razón diferentes, siempre se elige la alternativa que tiene la razón más baja).
CONCUTA DE ELECCIÓN  LEY

GENERALIZADA DE LA IGUALACIÓN
Sesgos en el estudio de la Ley generalizada de

igualación la igualación (Baum)
 Cuando se tiene que elegir entre dos alternativas de respuesta, se suele  Baum amplió la ley de igualación para corregir los sesgos e incorporar las
producir un comportamiento de alternancia, caracterizado por el cambio desviaciones por sobreigualación e ingraigualación, de forma que la fórmula
intermitente de una alternativa de respuesta a otra sin que guarde relación quedó de la siguiente forma:
con los reforzadores asociados a cada una de dichas alternativas. Para evitar
esta influencia no deseable en los laboratorios de psicología del aprendizaje,
donde se pretende estudiar el comportamiento de elección guiado
simplemente por las consecuencias del reforzamiento en las diferentes K = sesgo de respuesta. Si no existe sesgo k=0, si hay sesgo k>1 o k<1
alternativas, se ha recurrido a un procedimiento denominado demora por el dependiendo del sesgo del que se trate.
cambio (DPC). Este procedimiento consiste en introducir un periodo S = sensibilidad a las tasas relativas de reforzamiento.
temporal breve (2 o 3 segundos), después de la primera respuesta a una de
las alternativas, antes de que pueda entrar en funcionamiento el programa Si s y k fueran 1, la fórmula se reduciría a la de Herrnstein (no hay influencia de
de reforzamiento asociado a dicha alternativa. Si los sujetos persisten en su sesgos). Hay veces en las que el animal no actúa conforme a la ley de igualación
comportamiento de alternancia, y se ha introducido la contingencia de DPC, y le dedica más o menos respuestas a una alternativa (siempre la MÁS
no podrían obtener ningún reforzador en ninguna de las alternativas de VENTAJOSA) de las que la ley formula: fenómenos de infraigualación y
respuesta. La consecuencia normal en estos casos es que los sujetos sobreigualación.
abandonen su comportamiento de alternancia.  Igualación perfecta: s=1.
 Otros de los sesgos más frecuentes en los experimentos de elección  Infraigualación: s<1. Cuando el animal responde menos de lo previsto por la
realizados en laboratorio son: la disposición espacial de las alternativas de igualación en el programa más ventajoso (sensibilidad reducida a las tasas
respuesta, el color y la iluminación de dichas alternativas o la fuerza relativas de reforzamiento).
requerida para responder en cada una de ellas. En un programa concurrente  Sobreigualación: s>1. Cuando la mejor alternativa es valorada por encima
de reforzamiento se requiere que las alternativas de respuesta difieran de lo que predice la igualación (responden más) (mayor sensibilidad a la tasa
exclusivamente en las características de reforzamiento. relativa de reforzamiento).
CONCUTA DE
ELECCIÓN
¿Cómo realizamos los cálculos?: Deducir las

tasas relativas de respuesta y reforzamiento y
cuándo hay infraigualación o sobreigualación.
 Cuando el programa concurrente está compuesto exclusivamente por programas de razón. En este caso, lo que ocurre es que al elegir la opción más ventajosa la otra
se descarta del todo (maximización). Por ejemplo, imaginemos que tenemos 2 palancas, la palanca A con un programa de RF5 y la otra, la B, con un programa de RF10. Si
damos, por ejemplo, 20 respuestas: en la palanca A obtendría 4 reforzadores (un reforzador cada 5 respuestas), mientras que en la B obtendríamos solamente 2
reforzadores (un reforzador cada 10 respuestas). Así, sin con el mismo número de respuestas voy a obtener más recompensa en la palanca A, paso totalmente de la B (no
me interesa gastar tiempo o energía en ella). Por tanto, la tasa relativa de respuesta y/o reforzamiento sería 1 para la palanca A y 0 para la palanca B.
 En el caso de programas concurrentes formados por programas de intervalo, el sujeto dará un mayor número de respuesta a la opción más ventajosa, en función de
los reforzadores que puede conseguir, pero no obvia por completo la otra opción. Imaginemos la palanca A con un programa IF5, y la palanca B con un programa IF10: lo
primero que tenemos que hacer es deducir qué opción es la más ventajosa, en este caso sería la A (obtendríamos 6 reforzadores  uno cada 5 min), mientras que en la
palanca B solo obtendríamos 3 reforzadores (1 cada 10 min). Así, la tasa de reforzamiento se calcula dividiendo los reforzadores que consigo en cada opción sobre el total
de reforzadores (9 para este caso). Por lo tanto:
Fa = 6/9= 0,66; Ra= 0,66 (la tasa de respuesta es igual que la de reforzamiento, de acuerdo a la ley de igualación) y Fb= 3/9=0,33; Ra=0,33. En caso de que en el problema
no nos diesen el tiempo total, podemos poner el que queramos pues el resultado será siempre el mismo. En este ejemplo, por tanto, nos dedicaríamos en un 66% a la
palanca A que es la más ventajosa, y en un 33% a la palanca B.
 Para saber si existe sobreigualación o infraigualación. Para el ejemplo anterior de IF, tenemos un Fa=0,66, si por ejemplo nos dicen que la Ra de un animal en A es
0,75 estaremos ante una sobreigualación (el animal responde más de lo esperado); si nos dicen que la Ra es de 0,50 sería infraigualación (el animal responde menos de lo
esperado). OJO: para hacernos picar, pueden darnos los datos de la opción menos ventajosa (esto no nos sirve, SIEMPRE necesitamos los de la más ventajosa). Así, si nos
diesen los datos Fb=0,40 y Rb=0,50 lo primero que tenemos que hacer es apuntarnos los datos de A: como el tope 1, sería Fa=0,60 y Ra=0,50. Visto de la siguiente
manera es más claro:
Palanca B:
Fb=0’40
Rb=0’50
TEORÍAS DE LA LEY DE
IGUALACIÓN
Aproximación Aproximación Mejoramiento

molecular molar
 Los sujetos eligen cualquier alternativa de respuesta  Los sujetos distribuyen sus respuestas entre  La teoría del mejoramiento puede considerarse una
con mejores probabilidades de obtener un reforzamiento las diferentes alternativas con el fin de síntesis entre las aproximaciones molecular y molar.
en ese momento (probabilidad momentánea). maximizar la cantidad de reforzamiento total.  Esta teoría asume que los sujetos cambian de una
 Afirma que el cambio de una alternativa de respuesta a  Los animales distribuyen sus respuestas de alternativa a otra para mejorar la tasa local de
otra se realiza en el momento en que la probabilidad acuerdo a un cálculo global de las tasas reforzamiento. Así, eligen la alternativa que en cada
momentánea de reforzamiento sea mayor en la otra relativas de reforzamiento entre las dos momento presenta mejor tasa local de reforzamiento (nº
alternativa. alternativas de respuesta, eligiendo más la que de respuestas o reforzadores/tiempo dedicado a
 Explica bastante bien la distribución de respuestas en proporciona una mayor tasa de reforzamiento. responder).
programas concurrentes de intervalo, donde los animales  Esta teoría se formuló para explicar la  Intrínseco a la teoría del mejoramiento es la igualación
podrían responder de muchas maneras, pero lo hacen de elección en programas concurrentes de razón. temporal:
forma muy aproximada a como predice la teoría.  Dificultades: no puede explicar la conducta - Al elegir la alternativa que proporciona un mejor
de elección en los programas RV-IV; dificultad reforzamiento: darán una mayor tasa de respuesta,
para explicar por qué los animales prefieren obtendrán una mayor tasa de reforzamiento y
reforzadores variables a fijos, aunque se permanecerán más tiempo en esa alternativa.
ofrezca igual tasa de reforzamiento. - Responderán menor a la alternativa menos favorable, se
obtendrán menos reforzadores, pero también
permanecerán menos tiempo en esa alternativa.
 Por lo tanto, las tasas locales de respuesta y de
reforzamiento serán iguales en las diferentes alternativas
de respuesta
IMPULSIVIDAD Y AUTOCONTROL: PROGRAMAS CONCURRENTES ENCADENADOS. Procedimiento de reforzamiento complejo, en el que se permite
al participante elegir cuál de varios programas simples de reforzamiento funcionará. Una vez realizada la elección, las alternativas rechazadas no
estarán disponibles durante algún tiempo. Constan de, al menos, dos fases.
 1ª fase: eslabón de elección. El sujeto elige entre dos opciones de

respuesta idénticas.
 2ª fase: eslabón terminal. Programa de reforzamiento.
 Características: la oportunidad de obtener el reforzamiento se da sólo en el
eslabón terminal; estos programas implican una elección con compromiso
(una vez realizada una elección, el sujeto está comprometido con esa elección
hasta el final del eslabón terminal); la consecuencia de responder en el
eslabón inicial es un estímulo asociado con el eslabón terminal que se
convierte en reforzador condicionado; los sujetos igualan la tasa relativa de
respuesta con la tasa relativa de reforzamiento en los eslabones terminales;
también igualan la tasa relativa de respuesta en el eslabón inicial con la tasa
relativa de reforzamiento en el eslabón terminal.
 El autocontrol se trata de elegir una recompensa grande pero demorada sobre

una recompensa pequeña e inmediata (impulsividad).
 Los procedimientos usados en los estudios de autocontrol han sido:
1. Procedimiento de elección directa (programa concurrente simple): se prefiere
la recompensa pequeña inmediata. No se muestra autocontrol. La inmediatez del
reforzador influye más en la elección del sujeto que la magnitud del mismo.
2. Programa concurrente encadenado: si se impone un tiempo de demora
suficiente antes del componente terminal se muestra autocontrol, es decir, se
prefiere la recompensa grande demorada.
 Si se impone una demora constante a la entrega de ambas recompensas, es
más probable que los sujetos muestren autocontrol y prefieran la recompensa
grande demorada. Esto es porque demorar un poco la entrega del reforzador
pequeño hace que su fuerza se debilite y se prefiere esperar a uno de mayor
magnitud. El valor de un reforzador se reduce en función del tiempo que se tiene
que esperar para obtenerlo (Rachlin y Green).
TEORÍAS E-E TOLMAN.
TEORÍA DE LA PRIVACIÓN DE RESPUESTA
TEORÍAS DEL APRENDIZAJE INSTRUMENTAL

 TEORÍAS ASOCIACIONISTAS
Teorías E-R Teorías E-E
 Thorndike: su aportación fue la formulación de la Ley del efecto. Postula que la  Tolman: para Tolman los reforzadores no actúan directamente sobre la
asociación entre la situación ambiental (E) y la respuesta (R) depende de la propia asociación E-R, sino que la conducta está mediada por eventos internos como las
consecuencia de la acción, por tanto, el papel del reforzador es crear la asociación expectativas de recompensa.
E-R. Si la consecuencia es positiva para el sujeto, la respuesta tenderá a repetirse, Distinguió entre aprendizaje y ejecución. El reforzador no es necesario para el
pero si no lo es, tenderá a desaparecer. aprendizaje, pero sí para la ejecución.
 Guthier: la función del reforzador es facilitar la formación de una asociación
entre E-R. Fue el primero en diferenciar entre actos y movimientos.
 Hull: la consecución del reforzador refuerza la formación de una asociación E-R
debido a una reducción del impulso (necesidad biológica), al tiempo que incita a la
acción (incentivo). La ejecución conductual va a depender de la fuerza del hábito,
del nivel del impulso y del valor del incentivo.
TEORÍAS DEL APRENDIZAJE INSTRUMENTAL

 TEORÍAS DE SELECCIÓN DE RESPUESTAS
Teoría de la probabilidad Teoría de la privación

diferencial (Premarck) de respuesta
 Premarck: “Dadas dos respuestas en un procedimiento de condicionamiento  La restricción de la respuesta reforzadora es el factor crítico para el
instrumental, la respuesta más probable reforzará a la menos probable y la reforzamiento instrumental.
respuesta menos probable no reforzará a la más probable”.  Los programas de reforzamiento incrementarán la ocurrencia de una respuesta
 Principio de Premarck: el efecto del reforzamiento se basa en la probabilidad operante por encima de su línea base, si y solo si dichos programas privan al
diferencial de 2 actividades y tiene un gran poder predictivo: individuo de realizar la respuesta reforzadora.
- Primero se observa la probabilidad o preferencia de dos actividades cuando el  Para que una actividad pueda funcionar como reforzador hay que restringir la
sujeto no está limitado (establecimiento de la línea base). realización de dicha actividad en relación con su punto de bienestar (línea base),
- Segundo se establece una relación de reforzamiento en la que la actividad pero no es necesario que tenga que ser la más preferida.
preferida (A) se limita, y debe ocurrir solo de forma contingente con la realización  Predice que la tasa de respuesta y la tasa de reforzamiento deben relacionarse
de la actividad menos preferida (B) (Actividad preferida: reforzador/ actividad en forma de U invertida en vez de forma lineal: a medida que disminuye la
menos preferida: instrumental). frecuencia de reforzamiento, la tasa de respuesta instrumental aumenta (porque
- Resultado: la actividad reforzada ocurre a menor probabilidad que en el beneficio de obtener el reforzador compensa el hecho de responder más) pero
condiciones de libre acceso y la actividad instrumental aumenta su probabilidad de si posteriormente aumenta el requisito del programa y baja más la frecuencia de
ocurrencia. reforzamiento, el coste de responder no compensa, por tanto, disminuyen las
- Ej.: podrás ver la tele (A), cuando hayas recogido los platos (B). respuestas.

Llanos Tema 5

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Llanos Tema 5

Cargado por

Copyright:

Formatos disponibles

Psicología del Aprendizaje 2015/2016 Llanos Merín

TEMA 5: PROGRAMAS Y TEORÍAS DEL REFORZAMIENTO

Programas de reforzamiento continuo: en ellos, Programas de reforzamiento intermitente o parcial:

Programas de razón: el reforzador Programas de intervalo: la respuesta se

PROGRAMAS DE RAZÓN VS PROGRAMAS DE

Programas de razón vs Funciones de

TEORÍA Y PROGRAMAS DE REFORZAMIENTO

Teoría del reforzamiento Programas de reforzamiento

Programas compuestos secuenciales de reforzamiento: Hace referencia a la

PROGRAMAS COMPUESTOS DE REFORZAMIENTO

RESUMEN: CLASIFICACIÓN GENERAL DE LOS PROGRAMAS COMPUESTOS.

Estudio y medida de la La ley de igualación

CONCUTA DE ELECCIÓN  LEY

Sesgos en el estudio de la Ley generalizada de

¿Cómo realizamos los cálculos?: Deducir las

Aproximación Aproximación Mejoramiento

 1ª fase: eslabón de elección. El sujeto elige entre dos opciones de

 El autocontrol se trata de elegir una recompensa grande pero demorada sobre

TEORÍAS E-E TOLMAN.

TEORÍA DE LA PRIVACIÓN DE RESPUESTA

TEORÍAS DEL APRENDIZAJE INSTRUMENTAL

Teorías E-R Teorías E-E

TEORÍAS DEL APRENDIZAJE INSTRUMENTAL

Teoría de la probabilidad Teoría de la privación

También podría gustarte