Condicionamiento 3

TEMA 3: CONDICIONAMIENTO INSTRUMENTAL: EL ENTRENAMIENTO DE
RECOMPENSA
3.1 Concepto y tipos de reforzadores positivos
Como ya se ha visto, un reforzador es un suceso que cuando sigue

sistemáticamente a una respuesta, aumenta su fuerza, su probabilidad o su
frecuencia futura. A estas alturas ya debe quedar claro que un refuerzo es un
concepto definido a posteriori: lo es porque funciona como tal. Si probamos a
reforzar una conducta con un determinado suceso y la conducta no aumenta,
entonces ese suceso NO ha actuado como reforzador para ese organismo. Un
refuerzo es un refuerzo porque refuerza.
Los refuerzos, o reforzadores, pueden ser:
 Estímulos concretos (p.e., un trocito de comida, una sonrisa)

 Configuraciones estimulares complejas (p.e. un amplio conjunto de signos
de aprobación que incluya gestos, palabras y tonos de voz)
 Posibilidades conductuales: p.e., permiso para usar la consola durante un
tiempo, jugar con el perro un rato a su juego favorito).
Principio de Premack: de forma general, el reforzamiento se produce cuando

una conducta de baja probabilidad va seguida sistemáticamente por la
posibilidad de realizar una conducta de alta probabilidad.
Asimismo, podemos distinguir entre reforzadores primarios y secundarios.
3.1.1. Reforzadores primarios
Aquellos que actúan como reforzadores de manera general para todos los miembros
normales de una especie, y lo hacen de forma esencialmente innata.
 Comida, bebida, sueño, sexo, etc. No son muchos ni muy fáciles de manejar.
 En nuestra especie están muy matizados por el aprendizaje individual, cultural,
etc.
3.1.2. Reforzadores secundarios
Aquellos cuya capacidad de reforzar no se deben a razones innatas, sino a

aprendizajes previos
 Algunos son reforzadores condicionados: han adquirido sus propiedades

reforzadoras por condicionamiento clásico. Por ejemplo, el sonido de la palanca
que presagia la comida, o el clicker utilizado en el adiestramiento de animales.
 Otros son secundarios pero no han sido aprendidos por condicionamiento. Por
ejemplo, el dinero, la victoria en un juego o deporte, etc.
Reforzadores particulares en Homo sapiens:
Algunos reforzadores actúan especialmente bien en los seres humanos por

combinación de nuestras características etológicas (somos hipersociables,
jerárquicos, etc.) y el influjo de la cultura y el contexto concreto en que nos
desarrollemos. Por ejemplo:
 Atención por parte de otros. Gestos de comprensión, interés, etc.

 Signos de aprecio, valoración, prestigio, jerarquía.
 Logro, victoria, triunfo, éxito…
3.2 Entrenamiento de recompensa: Principales factores
3.2.1. Magnitud del reforzador
 Aumentos en la cantidad de la recompensa mejoran la actuación.

 Aumentos en la calidad producen el mismo efecto. Por ejemplo, usando como
reforzador agua azucarada se mejora el nivel de ejecución respecto al uso de
agua pura. Caso extremo: los experimentos de Olds con estimulación directa del
hipotálamo.
Sin embargo, en el caso general, las recompensas cuantiosas y/o de alta calidad
suelen dar lugar a conductas que se extinguen más fácilmente.
Para implantar conductas sólidamente, es preferible utilizar recompensas escasas,

sobrias.
3.2.2. Demora de la recompensa
 Es el intervalo respuesta-recompensa. Afecta drásticamente al aprendizaje, en

el sentido de que a mayor demora, menos aprendizaje. A partir de un
determinado punto, el organismo no aprende.
 Demoras superiores a unos 30 sg. parecen no producir ya CI, aunque hay
variaciones entre especies y sistemas de respuesta. Por ejemplo: con ratas,
laberintos y comida, la demora tolerada por los organismos para lograr un nivel
alto de aprendizaje se sitúa entre 2 sg. y 5 sg.
 Sin embargo, se obtienen buenos niveles de aprendizaje con demoras mayores,
debido a la acción de estímulos (e.g., el 'clic' de la palanca) que actúan como
reforzadores secundarios.
3.2.3 . Impulso
 Se refiere al estado motivacional del organismo respecto a aquello que vamos a

usar como recompensa.
 Se define en términos de porcentaje del peso perdido, nº de horas de privación
de agua, etc.
 El resultado general es que la actuación es tanto mejor cuanto mayor es el
impulso (más peso perdido, más horas de privación, etc.), salvo en casos
extremos.
3.3. Programas de refuerzo
Hasta ahora hemos considerado sólo el caso en que la realización por parte del
organismo de la conducta elegida va siempre seguida de la consecuencia
establecida (la probabilidad del estímulo reforzador dada la respuesta operante es
igual a 1). Esto (que constituye una contingencia total) es lo que se denomina
refuerzo continuo
El refuerzo continuo no es la única (ni la más eficaz) alternativa para el aprendizaje

por CO; por el contrario, constituye sólo un caso muy particular.
Los casos en que la contingencia de refuerzo (la relación respuesta-consecuente) no

es completa (es decir, no toda emisión de la respuesta va seguida del consecuente)
se denominan situaciones de refuerzo parcial o intermitente.
Es fácil ver que el refuerzo parcial es lo más común en situaciones naturales

(ajenas al laboratorio o la clínica).
Un programa de refuerzo es una regla que especifica exactamente bajo qué

condiciones la emisión de la respuesta va a ser seguida del reforzador.
El programa de refuerzo es, según muchos autores, una de las variables

independientes más poderosas de la psicología, en el sentido de que conociendo el
programa concreto administrado a un organismo, se pueden predecir
confiablemente muchas cosas respecto a la conducta adquirida.
3.3.1. Programas básicos.
Los programas básicos (también llamados "simples") pueden ser
 De razón: se recibe la recompensa sólo tras la emisión de un número

determinado de respuestas.
 De intervalo: se obtiene la recompensa tras la primera respuesta que se
produce una vez transcurrido un intervalo de tiempo establecido, contado desde
el último reforzador.
A su vez, la razón o el intervalo pueden ser

 Fijos : con el mismo valor a lo largo de toda la adquisición
 Variables: con distintos valores a lo largo de la sesión, que oscilan en torno a
un promedio.
Esto da lugar a los cuatro tipos de programas básicos: RF-n, IF-n, RV-n e IV-n,
donde n es el valor de la razón o del intervalo (o su promedio, si es un programa
variable).
En la aplicación de un programa de reforzamiento a un organismo que no ha sido

objeto de aprendizaje previo, normalmente se comienza por un proceso de
moldeado, luego se sigue con refuerzo contínuo y finalmente se va
progresivamente aumentando las exigencias hasta llegar al programa deseado.
3.3.1.1. Razón fija
Se administra una recompensa por cada n respuestas. En un programa RF-10, cada

décima emisión de la R va seguida de reforzador.
Este programa produce una tasa de respuesta típicamente alta y estable. Si la

razón es alta, sin embargo, esa estabilidad no es perfecta: el organismo se toma
sistemáticamente pausas justo a continuación de la administración del reforzador,
llamadas pausas post-reforzamiento.
RF-10 RF-90
Respuestas Pa usa s
emitidas
acumuladas
Tiempo -->
Registro acumulativo típico de una rata sometida a entrenamiento de recompensa mediante un
programa RF-10 (izda.) y un programa RF-90 (dcha). Los trazos gruesos y cortos indican los puntos en
que se administró recompensa
3.3.1.2. Razón variable
Los programas de razón variable son especialmente importantes, ya que (dentro de

los simples) son los que más se aproximan a las situaciones naturales.
Un programa RV especifica que el reforzador se administra tras un número de
respuestas que varía a cada vez. Así, por ejemplo, en un RV-5 la recompensa se
puede administrar tras 7, 3, 11, 2, 3, 5... respuestas, de forma que el promedio
total sea 5 respuestas a lo largo de la sesión.
Los programas RV son los que generan la tasa de respuesta más alta (lo que se
manifiesta en el registro acumulativo por una gran pendiente) y constante (no
aparecen pausas sistemáticas).
Respuestas
RV-10
emitidas RV-90
acumuladas
Tie mpo -->

Registro acumulativo típico de una rata sometida a entrenamiento de recompensa mediante un
programa RV-10 (izda.) y un programa RV-90 (dcha). Los trazos gruesos y cortos indican los puntos en
que se administró recompensa
3.3.1.3. Intervalo fijo
En los programas IF se administra el reforzador a la primera emisión de la

respuesta una vez transcurrido un intervalo desde la anterior emisión del
reforzador, el cual intervalo tiene siempre la misma duración. Cada reforzador, por
tanto, inicia un intervalo (siempre igual) en el cual las Rs no son recompensadas.
El organismo aprende a anticipar cuándo va a estar disponible el siguiente

reforzador, y progresivamente disminuye su tasa de respuestas al principio del
intervalo y la aumenta hacia el final del mismo. Por ello, estos programas terminan
por producir un carácterístico efecto de festoneado en el registro acumulativo :

Condicionamiento 3

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Condicionamiento 3

Cargado por

Copyright:

Formatos disponibles

TEMA 3: CONDICIONAMIENTO INSTRUMENTAL: EL ENTRENAMIENTO DE

3.1 Concepto y tipos de reforzadores positivos

Como ya se ha visto, un reforzador es un suceso que cuando sigue

Los refuerzos, o reforzadores, pueden ser:

 Estímulos concretos (p.e., un trocito de comida, una sonrisa)

Principio de Premack: de forma general, el reforzamiento se produce cuando

Asimismo, podemos distinguir entre reforzadores primarios y secundarios.

3.1.1. Reforzadores primarios

3.1.2. Reforzadores secundarios

Aquellos cuya capacidad de reforzar no se deben a razones innatas, sino a

 Algunos son reforzadores condicionados: han adquirido sus propiedades

Reforzadores particulares en Homo sapiens:

Algunos reforzadores actúan especialmente bien en los seres humanos por

 Atención por parte de otros. Gestos de comprensión, interés, etc.

3.2 Entrenamiento de recompensa: Principales factores

3.2.1. Magnitud del reforzador

 Aumentos en la cantidad de la recompensa mejoran la actuación.

Para implantar conductas sólidamente, es preferible utilizar recompensas escasas,

3.2.2. Demora de la recompensa

 Es el intervalo respuesta-recompensa. Afecta drásticamente al aprendizaje, en

 Se refiere al estado motivacional del organismo respecto a aquello que vamos a

3.3. Programas de refuerzo

El refuerzo continuo no es la única (ni la más eficaz) alternativa para el aprendizaje

Los casos en que la contingencia de refuerzo (la relación respuesta-consecuente) no

Es fácil ver que el refuerzo parcial es lo más común en situaciones naturales

Un programa de refuerzo es una regla que especifica exactamente bajo qué

El programa de refuerzo es, según muchos autores, una de las variables

3.3.1. Programas básicos.

Los programas básicos (también llamados "simples") pueden ser

 De razón: se recibe la recompensa sólo tras la emisión de un número

A su vez, la razón o el intervalo pueden ser

En la aplicación de un programa de reforzamiento a un organismo que no ha sido

3.3.1.1. Razón fija

Se administra una recompensa por cada n respuestas. En un programa RF-10, cada

Este programa produce una tasa de respuesta típicamente alta y estable. Si la

3.3.1.2. Razón variable

Los programas de razón variable son especialmente importantes, ya que (dentro de

Tie mpo -->

3.3.1.3. Intervalo fijo

En los programas IF se administra el reforzador a la primera emisión de la

El organismo aprende a anticipar cuándo va a estar disponible el siguiente

También podría gustarte