Programas de reforzamiento y teorías del condicionamiento operante

CAPÍTULO 5
PROGRAMAS Y TEORÍAS DEL REFORZAMIENTO
1.- PROGRAMAS DE REFORZAMIENTO
1.- Programas básicos de reforzamiento
àCada uno de los programas de reforzamiento especifica una regla que

determina las condiciones en las que una respuesta puede ser reforzada.
• Programa de reforzamiento continuo (RFC) (la aparición de la RI

da lugar al reforzador (EI). Rara vez ocurre fuera del laboratorio.
(RF1àreforzamiento continuo: cada respuesta es reforzada.
• Programa de reforzamiento parcial o intermitente (RP) (las

respuestas sólo se refuerzan algunas veces, hecho frecuente en el
entorno natural).
Criterio del programa. Cuatro tipos básicos de P. Reforzamiento
Fijo IF RF
Variable IV RV
El número que lleva el programa: en Intervalo (tiempo Razón (número

los F (nº de respuestas o tiempo RF5 transcurrido) de respuestas)
/IV3), en los V (RV2/IV4 la media)
Base para la recompensa (a partir
de la ocurrencia del reforzador
anterior)
àProgramas de razón: El reforzamiento depende sólo del número de

respuestas que da el sujeto (debe emitir un determinado número de
respuestas antes de que la última de ellas sea reforzada).
• Razón Fija (RF): El sujeto recibe una recompensa por realizar un

número determinado de respuestas. Este número nunca varía de una
recompensa a otra.
- Tasa de respuesta estable y moderada (carrera de razón).

Pausas breves e impredecibles.
- Característica: Las pausa post-reforzamiento (pausa pre-razón)
está determinada por la duración del intervalo entre recompensas.
Ejemplo: trabajo a destajo (RF).
1

• Razón Variable (RV): Similar al de RF, excepto que el número
específico de respuestas requeridas para obtener el reforzamiento
varía de una recompensa a otra. Un programa de RV viene definido
por el número medio de respuestas requeridas.
- Características:
1) Da lugar a una tasa media global de respuestas superior a la
de los otros programas básicos, aunque algunas veces son
comparables a los de RF.
2) La tasa de respuestas suele ser muy estable (no sabe las
respuestas que ha de dar, reduciendo así las pausas post-
reforzamiento). Ejemplo: juegos de azar.
àProgramas de intervalo: Una respuesta se refuerza sólo si se realiza

transcurrida una determinada cantidad de tiempo a partir de la última
presentación del reforzador. Cuando la comida está disponible tenemos un
tiempo limitado para conseguirla (duración limitada)
• Intervalo Fijo (IF): Se recompensa al animal por responder una

vez transcurrido un periodo de tiempo fijo (estrategia esperar el
final del tiempo y emitir la respuesta, gasta una cantidad mínima de
energía). Ejemplo: tiempo de estudio en base a fechas programadas
para el examen.
- Es necesario que el animal responda para recibir el refuerzo.

Los animales discriminan el paso del tiempo y dejan de responder
durante un breve periodo de tiempo, porque no esperan recibir
recompensa inmediata. Sólo después comienzan a responder
anticipando la siguiente recompensa, acelera la respuesta al final
del intervalo (efecto festoneado). Evidencias:
2

1) la aceleración de la tasa es más acusada cuando reciben
entrenamiento prolongado (su impresión de la longitud del intervalo
mejora su experiencia)
2) Si reciben señales externas que les ayudan a determinar el
paso del tiempo (una luz que aumenta de intensidad a lo largo del
periodo de IF), muestran una aceleración aún más pronunciada
de la tasa durante el intervalo).
Intervalo Variable (IV): Similar al de IF, con una diferencia importante. El

intervalo de tiempo entre los periodos en los que el reforzador se halla
disponible varía. Se define según el tiempo medio transcurrido entre
reforzamientos sucesivos. Ejemplo: chequear repetidamente el correo
electrónico mientras se está usando internet.
- El estilo característico es tasa estable pero baja: La tasa de
respuestas, aunque es bastante estable de un reforzamiento a
otro, aumenta ligeramente justo antes de la siguiente recompensa
(al igual que en programas de IF), esta aceleración es bastante
escasa porque los sujetos no pueden servirse del intervalo
temporal para ver cuándo estará disponible la recompensa.
àRegistros acumulativos característicos de los programas básicos de

condicionamiento operante. RF: Razón Fija; RV: Razón Variable; IF:
Intervalo Fijo; IV: Intervalo Variable.
àPatrones de registro acumulativo de presión de palanca en distintos
programas de reforzamiento simple. En estos registro, el desplazamiento
horizontal indica el paso del tiempo, y el desplazamiento en vertical la
respuesta acumulativa, las marcas oblicuas cuando se libera el reforzador.
3

àProgramas de intervalo y espera limitada: En los programas normales de
intervalo, una vez que el reforzador está disponible, permanece disponible
hasta que se realice la primera respuesta, no importa cuánto tiempo lleve.
En los programas de intervalo fuera de laboratorio los reforzadores están
disponibles sólo durante periodos limitados (comida restaurante se dispone
de un tiempo límite para encargarla-espera limitada).
-Comparación de los programas de razón con los de intervalo: semejanzas

notables entre los patrones de respuesta mantenidos por los programas de
razón y de intervalo (RF-IF, producen unas pausas predecibles en la
respuesta después de cada reforzamiento. RV-IV, mantienen tasas
estables de respuesta, sin pausas predecibles).
* Diferencias: Los programas de razón nivel de respuesta muy

superior a los de intervalo (en los de razón: cuanto más rápida es la
tasa de respuesta, más frecuentes son los reforzadores / en los de
intervalo los reforzadores no dependen de la rapidez de respuesta, sino
que están disponibles pasado un determinado periodo de tiempo).
1.1.1. Programas de razón frente a programas de intervalo: funciones de

retroalimentación (explicación de la tasa de respuestas): 1)
Procedimientos que exigen específicamente que los sujetos respondan
con una tasa concreta para ser reforzados. Tiempo enter-respuestas
(TER): intervalo entre una respuesta y la siguiente.
* Si se refuerzan TERs cortos/largos será más probable que el

sujeto realice TERs cortos/largos.
* Con TERs cortos: responderá a una tasa alta. Los programas de

razón favorecen estos TERs (a + rápida respuesta + reforzadores).
* Con TERs largos: responderá a una tasa baja. Los programas de

intervalo favorecen estos TERs (refuerzo disponible a intervalos de
tiempo, no necesario responder rápido).
4

2) En los programas de RV: correlación directa entre la tasa de respuestas y
la tasa de reforzamientos. En los programas de IV: no existe ninguna relación
entre la tasa de respuestas y la tasa de reforzamientos (Baum 1989 explicación
molar).
à Las correlaciones entre la tasa de respuesta y la tasa de reforzamiento

han sido denominadas funciones de retroalimentación: La ejecución en los
programas de reforzamiento se puede explicar a nivel general por funciones de
retroalimentación que relacionan la conducta con el reforzador (aproximación
molar) o a través de mecanismos específicos como el reforzamiento diferencial
de los tiempos entre respuestas (aproximación molecular).
• La función de retroalimentación de la tasa de reforzamiento para la

tasa de respuesta en un programa de RF que requiera N respuestas
por reforzador es R = B/N, donde R es la tasa de reforzamiento
obtenido y B es la tasa de respuesta emitida.
- Programas de razón: Cuanto más rápido se responda, mayor

será la tasa de reforzamiento, y el número de respuestas
requeridas para producir incrementos en la tasa de reforzamiento
debe aumentar conforme se incrementa el requisito de la razón.
- Programas de intervalo: más difíciles de calcular (función

hiperbólica). Cuanto más corto es el programa de IV existe un
mayor margen para que pequeños incrementos en las tasas bajas
de respuesta produzcan incrementos sustanciales en la tasa de
reforzamiento. Las funciones se aplanan a partir de una tasa de
respuesta, porque por mucho que se responda la tasa máxima de
reforzamiento no puede aumentar más que el valor especificado
por el programa de intervalo
1.2.- Programas de reforzamiento diferencial de tiempos entre respuestas
àReforzamiento diferencial de tasas altas (RDA): El sujeto no será

reforzado si no aparece dentro de un periodo determinado de tiempo marcado
5

posterior a la última respuesta. Fomenta la respuesta rápida (ejemplo 12
respuestas/minuto). La ejecución de este programa es más fácil que RDB.
àReforzamiento diferencial de tasas bajas (RDB): refuerzo si la respuesta

se presenta pasado un determinado periodo de tiempo (fomentan la
respuesta lenta).
1.2.1. Teoría del reforzamiento diferencial de los tiempos
àSe ha visto que dependiendo de si los reforzadores se administran de

acuerdo a programas de razón o intervalo, cambiaba la ejecución de los sujetos
experimentales, de la misma manera que la ejecución de los sujetos también
depende de si estos programas son fijos o variables.
• Los programas RV e IV consiguen una tasa de respuesta muy

constante, esto es, sin pausas post-reforzamiento, con lo que la
duración de los TER es muy homogénea y es fácil atribuir dicha
ejecución al reforzamiento diferencial de los TER de una duración
determinada (más largos en los programas de intervalo que en los de
razón). Peele y cols. (1984)
• La ejecución en los programas de RF e IF, sin embargo, no es tan

homogénea como en los programas variables y normalmente se
obtienen acusadas pausas post-reforzamiento. Se puede añadir
un mecanismo de discriminación temporal para explicar que las
pausas post-reforzamiento obedecen a que los sujetos
experimentales son capaces de discriminar con bastante eficacia el
momento de entrega del reforzador.
1.3. Programas compuestos de reforzamiento
àLos programas compuestos resultan de la aplicación de dos o más

programas básicos de reforzamiento y pueden dividirse en dos grandes
bloques, aquellos donde la presentación de los programas componentes
es secuencial y aquellos donde los componentes se presentan de forma
simultánea:
1.3.1. Programas alternantes y secuenciales: el control por el estímulo y

el reforzamiento condicionado:
6

àPrograma mixto: se presentan dos o más programas básicos alternándose
al azar. El cambio de uno a otro de los programas es independiente de la
conducta del sujeto en experimentación. Depende, sin embargo, de la duración
de un tiempo establecido con anterioridad (ejemplo: cada programa 10 m-
primero- IF 60-seg (bola de comida-presión palanca), segundo-RF y así
sucesivamente).
• Programa múltiple: igual que el mixto con la diferencia de que cada

componente se señala con una clave discriminativa distinta, por
ejemplo con una luz, con un sonido, o con cualquier otra estimulación
ambiental, y el sujeto es informado en todo momento de en qué parte
del programa múltiple se encuentra.
à Programa tándem: consta al menos de dos programas simples que se

presentan siempre en el mismo orden. Los sujetos experimentales deben
completar el primer programa para poder iniciar el segundo, al final del cual
consiguen la administración del reforzador.
• Programa encadenado: es igual que el tándem, pero en este caso

cada uno de los dos programas simples está señalado de
manera diferente, de forma que el sujeto experimental conoce en
qué componente del programa se encuentra en cada momento (el
cambio adquiere propiedades de reforzador de segundo orden).
1.3.2. Programas simultáneos: programas concurrentes y programas

combinados.
àProgramas concurrentes: se caracterizan por disponer simultáneamente de

al menos dos programas básicos de reforzamiento (se puede cambiar de un
programa a otro sin que normalmente haya sido necesario haber completado
un tiempo o un número de respuestas en cada uno de los programas).
àOtros programas compuestos simultáneos consisten en combinaciones de un

programa de razón y otro de intervalo, y existen al menos tres combinaciones
que deben distinguirse:
• Programa alternativo se refuerza una respuesta cada vez que se

cumple con el requisito del programa de razón o el del intervalo,
existiendo así dos formas de conseguir el reforzador.
• Programa conjuntivo: se refuerza una respuesta cada vez que se

cumple al mismo tiempo con el requisito de la razón y del intervalo.
• Programa entrelazado: la respuesta que se refuerza viene

determinada por dos programas, pero la disposición de uno de ellos
se altera por el desarrollo del otro.
7

2. CONDUCTA DE ELECCIÓN
à Volviendo a los programas concurrentes: la elección o preferencia entre

las alternativas de respuesta se calcula por la tasa relativa de respuesta y se
representa por el cociente:
Ra/ Ra +Rb Ra y Rbàtasa de respuestas en la alternativa a y b
àEstamos constantemente eligiendo y las elecciones son complejas. Si te

dejan elegir, ¿qué prefieres hacer?. En los programas concurrentes se deja
elegir al animal entre dos programas de reforzamiento
Figura 6.3: Diagrama de un programa concurrente. Los picotazos en la tecla

A son reforzados de acuerdo a un programa de reforzamiento IV de 60”. Los
picotazos en la tecla B son reforzados de acuerdo a un programa de
reforzamiento RF10
2.1.- La ley de igualación: afirma que la tasa relativa de respuesta entre dos
alternativas de respuestas concurrentes es igual a la tasa (frecuencia) relativa
de reforzamiento asociada con cada una de dichas alternativas de respuesta, y
quedó expresada matemáticamente por la Ecuación:
Ra y Rb tasa de respuestas a la alternativa a y b
Fa y Fb: frecuencia reforzamientos asociados a y b
Se puede extender la ley de igualación para: la magnitud y la demora
Ma y Mb magnitudes de reforzamiento de las alternativas a y b.
Da y Db demoras al reforzador en las alternativas a y b.
8

à Nótese que En el caso de la demora del reforzador los valores se
corresponden con la inversa del valor de la demora, pues los reforzadores son
más preferidos cuanto más inmediatos (menos demorados)
àFrecuencia relativa de respuesta a la Tecla A en función de la frecuencia

relativa de reforzamiento a dicha tecla para tres palomas (con DPC de 1,5 seg
véase posteriormente).
àLo esencial de la ley de igualación es que establece una igualdad entre la

tasa relativa de respuesta y la tasa relativa de reforzamiento (o cantidad
relativa de reforzamiento, o demora relativa al reforzador), de manera que
la proporción entre las respuestas emitidas en las alternativas debe ser igual a
la proporción de los reforzadores obtenidos en dichas alternativas.
2.2. Maximización: elección entre programas concurrentes de razón
àCuando se tiene que elegir con programas de razón diferentes (un programa
concurrente RF-RF o uno RV-RV), los sujetos tienden a elegir la alternativa de
respuesta que tiene una razón más baja (maximización: elegir en exclusiva
la alternativa más favorable). Cumple la ley de igualación (el único en
programas concurrentes que la cumple).
àNo sucedía en los programas concurrentes de intervalo pues probando de

vez en cuando en la alternativa menos favorable se podían recoger los
reforzadores disponibles por haber superado el tiempo estipulado en el
programa, sin perder realmente reforzadores en la alternativa más ventajosa).
àCombinando programas de razón e intervalo (RV-IV): lo óptimo sería que

los animales se dedicasen a responder casi en exclusiva en el programa de
razón, probando esporádicamente en el de intervalo para recoger los
reforzadores que estuviesen allí disponibles.
9

2.3. Igualación temporal: también igualan el tiempo de estancia en las
alternativas de respuesta con la tasa relativa de reforzamiento en dichas
alternativas de respuesta.
- Findley (1958): utilizó una variante del programa concurrente que

consiste en presentar en una única tecla de respuesta los dos
programas de IV en sucesión, cada uno señalado por una clave
discriminativa distinta, como en un programa múltiple (los sujetos
pueden cambiar de programa de reforzamiento respondiendo en una
segunda tecla, denominada de cambioàpermite que se pueda comparar
entre diversas respuestas instrumentales, e incluso permite que algunas
de ellas puedan eliminarse. La igualación temporal se puede formalizar
(Baum y Rachlin 1969)
- Ta y Tb: tiempo de permanencia en a y b
- Fa y Fb: tasa de reforzamiento en a y b
2.4. Ley generalizada de la igualación: hay que considerar algunas

influencias no deseables que intervienen en la elección de los sujetos entre
respuestas instrumentales concurrentes:
- Cuando se tiene que elegir entre dos o más alternativas de respuesta
se suele producir un tipo de comportamiento denominado de
alternancia, cambio intermitente de una alternativa de respuesta a otra
sin que guarde relación con los reforzadoresà demora por el cambio
(DPC) para evitar el reforzamiento accidental debido a la alternancia (la
paloma no puede ser reforzada por el primer picotazo que da al pasar de
una tecla a otra).
- Método para corregir los sesgos (influencias no deseables en los

experimentos de elección) (Baum 1974): Sesgos influyen de manera
multiplicativa, para corregir los sesgos tres pasos:
- Ra y Rb tasa respuestas a y b
- Fa y Fb tasa reforzamiento a-b
- Sa y Sb sesgos alternativ. a-b
1) Equiparar los factores de reforzamiento entre las alternativas de

respuesta (frecuencia, magnitud y demora del reforzador deben ser
iguales).
2) Medir las preferencias relativas de los sujetos (si existe una
desviación hacia una preferencia mayor por una de las alternativas-
sesgo).
10

3) Una vez conocido el valor de los sesgos relativos, se deben variar
los factores de reforzamiento asociados con las alternativas de
respuesta (doble reforzamiento en una alternativa y comprobar si la
eligen el doble).
- Ejemplo de corrección de sesgo en la igualación. Los círculos

negros señalan los datos antes de corregir los sesgos. Los
círculos blancos señalan lo que sucede cuando cada valor de la
abscisa se multiplica por el sesgo.
- Sobreigualación: cuando la mejor alternativa es valorada por encima

de la preferencia establecida por la igualación perfecta (mayor tasa de
respuestas para el mejor de los dos programas, respecto a lo que
predice la igualación).
- Infraigualación: cuando la mejor alternativa es valorada por debajo de

la preferencia establecida por la igualación perfecta (responder menos
de lo previsto en el programa preferido o ventajoso).
- La diagonal representa la igualación, la curva a puntos la

sobreigualación y la curva a guiones la infraigualación.
- Para acomodar estos errores sistemáticos Baum desarrolló la ley

general de la igualación (similar a la de Herrnstein, pero con términos
matemáticos que corrigen los sesgos):
s > 1 (supraigualación)
s = 1 (igualación)
s < 1 (infraigualación)
11

* (R y F, respuestas y frecuencias de reforzamiento; K constante,
sesgos de las respuestas; s: exponente que regula la sensibilidad
del sujeto hacia los dos programas a y b). Es más frecuente la
infraigualación (s<1)
* La igualación no se produce en programas concurrentes RV-RV.

Responden exclusivamente en el mejor programa.
2.5 Teorías de la igualación
à Hay dos enfoques principales, la aproximación molecular y la

aproximación de corte más molar, que tienen que explicar cómo se
distribuyen las respuestas entre las alternativas disponibles así como el
momento en que se produce el cambio de una a otra alternativa:
• Teorías moleculares: para optimizar escogen la alternativa de

respuesta que tiene más probabilidad de ser reforzada en ese
momento (Shimp 1966): Ejemplo: IV 60-seg e IV 45-seg, en un
primer momento elegirán el programa de IV 45-seg porque es el que
ofrece una mayor probabilidad de ser reforzado, pero cuando se
obtenga aquí el reforzamiento cambiarán al programa de IV 60-seg
porque la probabilidad de conseguir el reforzador será entonces
mayor en ese programa).
• Teorías molares: para optimizar distribuyen sus respuestas entre
varias alternativas de forma que, a la larga, la cantidad de
reforzamiento que obtienen sea máxima (Rachlin y otros 1981).
• Una tercera teoría mejoramiento (síntesis de molecular y molar). Los

organismos eligen entre dos fuentes de premio de manera que se
igualen las tasas locales de reforzamiento, respondiendo a la
alternativa que en un momento dado presenta una mejor tasa local
de reforzamiento (Herrnstein y Vaughan, 1990). El sujeto está
escogiendo continuamente la opción más prometedora
12

2.6. impulsividad y autocontrol: la elección con compromiso
à Cadenas concurrentes de respuesta: se mide la elección entre diferentes

fuentes de premio. El encadenado se compone como mínimo de dos pasos
- Al picotear la tecla A en el dispositivo de elección, se pone en marcha el

programa A en el dispositivo terminal. Al picotear la tecla B en el dispositivo de
elección, se pone en marcha el programa B en el dispositivo terminal.
(Programa A RF10 //Programa B IV 60”).
- La paloma mostrará preferencias por el programa terminal que le

proporcione más reforzamiento o que se lo entregue con más frecuencia.
-Autocontrol: La igualación se ha aplicado a la cuestión del autocontrol en la

que los sujetos eligen de forma impulsiva una recompensa pequeña
administrada de forma inmediata en lugar de una recompensa más grande
administrada posteriormente.
- Impulsividad: Preferencia por una recompensa pequeña inmediata.
- Autocontrol: Preferencia por una recompensa mayor demorada.
13

- Entrenamiento en autocontrol (Rachlin y Green 1972): autocontrol con
palomas. Varios procedimientos minimizan la conducta impulsiva:1)
Utilizar una recompensa con demora señalada no se devalúa tanto como una
recompensa no señalada. 2) Desarrollar autoinstrucciones relativas a las
estrategias de respuesta. 3) Efectuar conductas de distracción durante el
periodo de demora. 4) Cambiar los valores de la demora de forma gradual. 5)
Realizar respuestas esforzadas antes de la prueba autocontrol. 6) Establecer
compromisos al comienzo de la secuencia para evitar una elección.
- Una forma de explicar los resultados de los estudios de autocontrol a través

de la ley de igualación es aceptar una extensión de la ley generalizada de la
igualación que incorpore los parámetros de frecuencia (inmediatez) y
magnitud del reforzador (Elliffe, Davison y Landon, 2008):
- Los exponentes de la sensibilidad (s)

a las características de los reforzadores
se hacen diferentes para la frecuencia
(sf) y para la magnitud (sm).
• Los estudios han mostrado que la proporción de la magnitud del

reforzador en realidad controla menos la distribución de conducta que
la proporción de frecuencia de reforzamiento (Cording y otros 2011).
2.7. La noción de valor de los reforzadores
à El valor de una alternativa de respuesta aumentará con la magnitud del

reforzador y disminuirá con la demora para la entrega del reforzador.
Matemáticamente el valor del reforzador vendrá determinado, en este caso, por
el cociente magnitud/demora.
Ej: Programa concurrente: IV 5-seg IV 10-seg (1,5 veces más cantidad de

reforzador en el segundo componente) y demora de 20 seg: vuelve un
comportamiento “impulsivo en autocontrolado” Rachlin y Green (1972).
Sin demora (impulsivo) Con demora (autocontrolado)

àIV 5-seg (1/5 = 0,2): más elegido. à IV 5-seg sería 1/25 = 0,04
àIV 10-seg (1,5/10 = 0,15) à IV 10-seg sería 1,5/30 = 0,05
à Mazur (1984) ha propuesto que el cambio de un comportamiento impulsivo

a uno autocontrolado: El valor del reforzador sería mayor a medida que su
magnitud fuese mayor y la demora para su obtención menor, pero la relación
no sería lineal sino hiperbólica.
14

- Va (valor de un reforzador a que tuviese
una magnitud Ma y una demora Da; K
constante-tasa de descuento de la demora)
• Cuando un reforzador grande y otro pequeño son demorados,

aunque el primero lo sea más que el segundo, el valor del reforzador
grande será superior al del pequeño (autocontrol). El valor del
reforzador pequeño será mayor que el del grande, por el contrario,
cuando la espera para el primero sea relativamente pequeña
(impulsividad).
2.8. La tasa de respuesta en relación a la ley de igualación

àEl reforzamiento total de la situación comprende los reforzadores
programados (presionar palanca, picar tecla…) y los reforzadores no
explícitamente programados (asearse, dar vueltas, picotear...).
Matemáticamente se puede describir esta conducta de elección:
Ra tasa de respuestas programa

Ro tasa otras actividades del animal
Fa frecuencia de reforzamiento programado
Fo frecuencia de reforzamiento otras actividades
à Herrnstein (1970) teorizó que la tasa total de conducta (Ra + Ro)

debería ser una constante (los organismos siempre están desarrollando
alguna actividad (aunque sea descansar). La adquisición de una respuesta
particular implica una redistribución de respuestas entre las alternativas
disponibles. Si se representa la constante del total de la tasa de respuesta por
el parámetro k (Ra + Ro = k), despejando Ra quedaría:
La tasa absoluta de una conducta (Ra) está en

función de la tasa relativa de reforzamiento de
esa conducta en relación con otras
• Una forma de aumentar la tasa de la respuesta sería aumentar la

tasa de reforzamiento asociada a esa conducta (haciendo que Fa
fuese mayor), y otra sería disminuir la tasa de reforzamiento
alternativo (haciendo que Fo disminuyese). A menudo, referida como
la cuantificación de la ley del efecto de Thorndike (de Villiers, 1977).
15

3. LA NATURALEZA DE LA ASOCIACIÓN EN EL APRENDIZAJE
INSTRUMENTAL
àSiguiendo a Skinner (1938) y a Hull (1943), la formulación de la ley de

igualación y de la teoría de la igualación por Herrnstein se basaron en el
constructo de fuerza de la respuesta
à¿Cómo se desarrolla la fuerza de la respuesta?
• Respuesta tradicional: a partir de la formación de asociaciones

entre los estímulos y las respuestas:
- Thornedike-ley teórica del efecto: postula que la fuerza de la

asociación E-R no depende de los principios asociacionistas clásicos,
más bien dichas asociaciones dependen de la propia
consecuencia de la acción.
- Guthrie: primero que distinguió entre actos y movimientos,

argumentando que todo comportamiento está formado de
movimientos musculares discretos. El acto de escapar de la caja-
problema se podía efectuar con movimientos diferentes, y, en su
experimento con Horton, cada gato había aprendido una cosa
diferente si los movimientos para escapar de la caja eran también
distintos.
- Hull es fruto de la formación de asociaciones (E-R): La ejecución

conductual va a depender de la fuerza del hábito (H), del nivel de
impulso (D=drive) y del valor del incentivo (I), (tanto la ejecución
como la fuerza del hábito están en función de la conexión E-R):
- Tolman: el defensor de un esquema estímulo-estímulo (E-E).

Experimento: ratas y pasillo-agua-nadar-metaàprueba pasillo sin
agua podían ir corriendo meta-comidaà las ratas aprendieron un
«mapa cognitivo» del pasillo y podían trasladarse de un extremo al
otro del mismo de la forma física adecuada para cada momento (las
ratas aprendieron dónde ir y no movimientos musculares). Intentó
demostrar que los cambios en la conducta atribuidos al aprendizaje
son el resultado de la intervención de procesos como la expectativa
de recompensa, sino que al mismo tiempo para Tolman es
necesario distinguir entre el aprendizaje y la ejecución:
+ Aprendizaje latente (Blodgett, 1929): GE (sujetos y recorrer

laberinto sin recompensa. Después laberinto y comida ante la
16

respuesta correcta)à GE aprenden a efectuar la respuesta correcta
más rápidamente que otros animales de control que no habían tenido
la oportunidad de recorrer el laberinto en primera instancia. El
reforzador no es necesario para el aprendizaje, pero es
imprescindible para que posteriormente se ejecute la respuesta
aprendida (estampa la conexión entre el estímulo y la respuesta, pero
la ejecución de la respuesta es provocada por la mera
presentación del estímulo ambiental antecedente (E-E).
- Seguramente los mecanismos asociativos E-R y E-E puedan

estar ambos implicados en el aprendizaje instrumental, siendo el
mecanismo E-R más específico en cuanto que establece formas
precisas para producir las respuestas, y no sólo la adquisición de la
asociación.
4. REGLAS DE EJECUCIÓN OPERANTE
à Para explicar el desarrollo de la fuerza de la respuesta no todas las

soluciones han sido de tipo asociativo, se han propuesto aproximaciones
conductuales (Skinner): los estímulos ambientales son señalizadores al
disponer la oportunidad de que las respuestas se vieran recompensadas
(moduladores de una asociación respuesta-reforzador).
àEstímulo Condicionado (EC) en el condicionamiento clásico

àEstímulo discriminativo (Ed),en el condicionamiento operante
4.1. Teoría de la probabilidad diferencial
à Premack (1965): señaló que las respuestas que acompañan a los estímulos
reforzadores son actividades altamente probables, mientras que las actividades
instrumentales son menos probables: «Dadas dos respuestas en un
procedimiento de condicionamiento instrumental, la respuesta más
probable reforzará a la menos probable y la respuesta menos probable no
reforzará a la más probable» (Premack, 1959, 1965).
• El principio de Premack tiene dos supuestos fundamentales para

que una actividad pueda convertirse en un reforzado: Primero, dicha
actividad debe ser preferida en la línea de base, y segundo, la
probabilidad de ocurrencia de la actividad preferida debe
restringirse y ocurrir de forma contingente con la realización de
una actividad menos preferida, fruto de lo cual la actividad menos
preferida se convierte en instrumental.
17

-Experimento cambiando las condiciones de privación: correr y beber podían
usarse indistintamente como respuestas reforzadoras e instrumentales,
dependiendo del estado de privación de agua del animal.
à La posición teórica de Premack es plenamente conductual y se deriva de

la tradición skinneriana, cuyo eje central es la ley empírica del efecto en
oposición a la ley teórica del efecto defendida por Thorndike.
à La teoría de la probabilidad diferencial es simple a la vez que compleja:
• Es simple y tiene un gran poder predictivo (No importa si la

conducta provoca placer, reduce una necesidad, provoca una
activación fisiológica, o simplemente es característica de la especie,
lo único importante es que sea más probable que la otra
conducta en condiciones de libre acceso).
• Es compleja en cuanto a la medida de la probabilidad de la

respuesta (la respuesta más apropiada es la probabilidad
momentánea, dimensión temporal).
4.2. Teoría de la privación de respuesta
à Premack se dio cuenta de que no basta con la probabilidad diferencial, la

eficacia del reforzador depende de que estén limitadas las posibilidades de
ejecutar esa respuesta.
à Hipótesis de privación de respuesta (Allison, 1989; Timberlake y

Allison, 1974): para que una actividad pueda funcionar como un reforzador
eficaz sólo es necesario restringir la realización de dicha actividad en relación
con su ocurrencia en el punto de bienestar (o línea de base con acceso
ilimitado a todas las actividades), pero no es necesario que dicha actividad
tenga que ser más preferida que la que se va a convertir en actividad
instrumental.
18

-Rata y libre acceso a dos actividades (beber botella y correr rueda): punto de
bienestar 400 lametones y 200 giros de rueda (beber sería una actividad
preferida a correr).
+ Se restringe la posibilidad de beber (RF-1): cada giro de rueda un

lametón. Línea A porque es el que minimiza la distancia al punto de
bienestar cumpliendo con la contingencia de reforzamiento (Staddon,
1979). Como se puede apreciar, en este punto la actividad
instrumental ha aumentado en probabilidad de ocurrencia, al
tiempo que la actividad contingente ha disminuido su probabilidad,
en relación con el punto de bienestar, de acuerdo también con el
principio de Premack.
+ Se restringe la posibilidad de correr (RF-4): línea B, Los animales

distribuirán sus comportamientos de acuerdo al punto representado
sobre la línea B porque es el que minimiza la distancia al punto de
bienestar, de manera que la actividad instrumental (beber, la que era en
principio más probable) aumenta, y la actividad contingente (correr)
disminuye, su frecuencia de ocurrencia en relación a la línea de base.
à La hipótesis de privación de respuesta, predice que la tasa de respuesta y

la tasa de reforzamiento deben relacionarse en forma de U-invertida y no
de manera lineal: a medida que disminuya la frecuencia de reforzamiento, la
tasa de respuesta instrumental debe aumentar, para posteriormente disminuir a
intervalos entre reforzadores aún mayores.
• La función debe ser bitónica es que a medida que el requerimiento

del programa sea mayor (una longitud mayor del programa de razón
o de intervalo), el número de respuestas debe aumentar
inicialmente porque el beneficio de obtener el reforzador compensa
el coste de responder más frecuentemente. Si el requisito del
programa aumentara demasiado, el coste de responder en exceso
no compensaría más la baja frecuencia de reforzamiento obtenido
19

• Cómo sería la gráfica para los programas de RF: rata con hambre
(comida y palanca de respuestas libre accesoàconsumirá más
bolitas de comida que presionará la palanca). Punto de bienestar 100
bolitas-10 presiones.
- Cuando las sesiones experimentales sean relativamente cortas,

como en la mayoría de los experimentos, la función que relaciona
la tasa de respuesta con la tasa de reforzamiento debería tender
hacia la linealidad, lo que reconcilia esta posición teórica con los
resultados generalmente encontrados en investigaciones previas.
• Punto de bienestar y restricciones impuestas por diferentes

programas de razón fija, según la hipótesis de la privación de
respuesta.
20

Programas de reforzamiento y teorías del condicionamiento operante

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Programas de reforzamiento y teorías del condicionamiento operante

Cargado por

Copyright:

Formatos disponibles

CAPÍTULO 5

PROGRAMAS Y TEORÍAS DEL REFORZAMIENTO

1.- PROGRAMAS DE REFORZAMIENTO

1.- Programas básicos de reforzamiento

àCada uno de los programas de reforzamiento especifica una regla que

• Programa de reforzamiento continuo (RFC) (la aparición de la RI

• Programa de reforzamiento parcial o intermitente (RP) (las

Criterio del programa. Cuatro tipos básicos de P. Reforzamiento

El número que lleva el programa: en Intervalo (tiempo Razón (número

àProgramas de razón: El reforzamiento depende sólo del número de

• Razón Fija (RF): El sujeto recibe una recompensa por realizar un

- Tasa de respuesta estable y moderada (carrera de razón).

àProgramas de intervalo: Una respuesta se refuerza sólo si se realiza

• Intervalo Fijo (IF): Se recompensa al animal por responder una

- Es necesario que el animal responda para recibir el refuerzo.

Intervalo Variable (IV): Similar al de IF, con una diferencia importante. El

àRegistros acumulativos característicos de los programas básicos de

-Comparación de los programas de razón con los de intervalo: semejanzas

* Diferencias: Los programas de razón nivel de respuesta muy

1.1.1. Programas de razón frente a programas de intervalo: funciones de

* Si se refuerzan TERs cortos/largos será más probable que el

* Con TERs cortos: responderá a una tasa alta. Los programas de

* Con TERs largos: responderá a una tasa baja. Los programas de

à Las correlaciones entre la tasa de respuesta y la tasa de reforzamiento

• La función de retroalimentación de la tasa de reforzamiento para la

- Programas de razón: Cuanto más rápido se responda, mayor

- Programas de intervalo: más difíciles de calcular (función

1.2.- Programas de reforzamiento diferencial de tiempos entre respuestas

àReforzamiento diferencial de tasas altas (RDA): El sujeto no será

àReforzamiento diferencial de tasas bajas (RDB): refuerzo si la respuesta

1.2.1. Teoría del reforzamiento diferencial de los tiempos

àSe ha visto que dependiendo de si los reforzadores se administran de

• Los programas RV e IV consiguen una tasa de respuesta muy

• La ejecución en los programas de RF e IF, sin embargo, no es tan

1.3. Programas compuestos de reforzamiento

àLos programas compuestos resultan de la aplicación de dos o más

1.3.1. Programas alternantes y secuenciales: el control por el estímulo y

• Programa múltiple: igual que el mixto con la diferencia de que cada

à Programa tándem: consta al menos de dos programas simples que se

• Programa encadenado: es igual que el tándem, pero en este caso

1.3.2. Programas simultáneos: programas concurrentes y programas

àProgramas concurrentes: se caracterizan por disponer simultáneamente de

àOtros programas compuestos simultáneos consisten en combinaciones de un

• Programa alternativo se refuerza una respuesta cada vez que se

• Programa conjuntivo: se refuerza una respuesta cada vez que se

• Programa entrelazado: la respuesta que se refuerza viene

à Volviendo a los programas concurrentes: la elección o preferencia entre

Ra/ Ra +Rb Ra y Rbàtasa de respuestas en la alternativa a y b

àEstamos constantemente eligiendo y las elecciones son complejas. Si te

Figura 6.3: Diagrama de un programa concurrente. Los picotazos en la tecla

Ra y Rb tasa de respuestas a la alternativa a y b

Fa y Fb: frecuencia reforzamientos asociados a y b

Se puede extender la ley de igualación para: la magnitud y la demora

Ma y Mb magnitudes de reforzamiento de las alternativas a y b.

Da y Db demoras al reforzador en las alternativas a y b.

àFrecuencia relativa de respuesta a la Tecla A en función de la frecuencia

àLo esencial de la ley de igualación es que establece una igualdad entre la

2.2. Maximización: elección entre programas concurrentes de razón

àNo sucedía en los programas concurrentes de intervalo pues probando de

àCombinando programas de razón e intervalo (RV-IV): lo óptimo sería que

- Findley (1958): utilizó una variante del programa concurrente que

- Ta y Tb: tiempo de permanencia en a y b

- Fa y Fb: tasa de reforzamiento en a y b