Está en la página 1de 5

TEMA 3: CONDICIONAMIENTO INSTRUMENTAL: EL ENTRENAMIENTO DE

RECOMPENSA

3.1 Concepto y tipos de reforzadores positivos

Como ya se ha visto, un reforzador es un suceso que cuando sigue


sistemáticamente a una respuesta, aumenta su fuerza, su probabilidad o su
frecuencia futura. A estas alturas ya debe quedar claro que un refuerzo es un
concepto definido a posteriori: lo es porque funciona como tal. Si probamos a
reforzar una conducta con un determinado suceso y la conducta no aumenta,
entonces ese suceso NO ha actuado como reforzador para ese organismo. Un
refuerzo es un refuerzo porque refuerza.

Los refuerzos, o reforzadores, pueden ser:

 Estímulos concretos (p.e., un trocito de comida, una sonrisa)


 Configuraciones estimulares complejas (p.e. un amplio conjunto de signos
de aprobación que incluya gestos, palabras y tonos de voz)
 Posibilidades conductuales: p.e., permiso para usar la consola durante un
tiempo, jugar con el perro un rato a su juego favorito).

Principio de Premack: de forma general, el reforzamiento se produce cuando


una conducta de baja probabilidad va seguida sistemáticamente por la
posibilidad de realizar una conducta de alta probabilidad.

Asimismo, podemos distinguir entre reforzadores primarios y secundarios.

3.1.1. Reforzadores primarios

Aquellos que actúan como reforzadores de manera general para todos los miembros
normales de una especie, y lo hacen de forma esencialmente innata.

 Comida, bebida, sueño, sexo, etc. No son muchos ni muy fáciles de manejar.
 En nuestra especie están muy matizados por el aprendizaje individual, cultural,
etc.

3.1.2. Reforzadores secundarios

Aquellos cuya capacidad de reforzar no se deben a razones innatas, sino a


aprendizajes previos

 Algunos son reforzadores condicionados: han adquirido sus propiedades


reforzadoras por condicionamiento clásico. Por ejemplo, el sonido de la palanca
que presagia la comida, o el clicker utilizado en el adiestramiento de animales.
 Otros son secundarios pero no han sido aprendidos por condicionamiento. Por
ejemplo, el dinero, la victoria en un juego o deporte, etc.

Reforzadores particulares en Homo sapiens:

Algunos reforzadores actúan especialmente bien en los seres humanos por


combinación de nuestras características etológicas (somos hipersociables,
jerárquicos, etc.) y el influjo de la cultura y el contexto concreto en que nos
desarrollemos. Por ejemplo:

 Atención por parte de otros. Gestos de comprensión, interés, etc.


 Signos de aprecio, valoración, prestigio, jerarquía.
 Logro, victoria, triunfo, éxito…

3.2 Entrenamiento de recompensa: Principales factores

3.2.1. Magnitud del reforzador

 Aumentos en la cantidad de la recompensa mejoran la actuación.


 Aumentos en la calidad producen el mismo efecto. Por ejemplo, usando como
reforzador agua azucarada se mejora el nivel de ejecución respecto al uso de
agua pura. Caso extremo: los experimentos de Olds con estimulación directa del
hipotálamo.

Sin embargo, en el caso general, las recompensas cuantiosas y/o de alta calidad
suelen dar lugar a conductas que se extinguen más fácilmente.

Para implantar conductas sólidamente, es preferible utilizar recompensas escasas,


sobrias.

3.2.2. Demora de la recompensa

 Es el intervalo respuesta-recompensa. Afecta drásticamente al aprendizaje, en


el sentido de que a mayor demora, menos aprendizaje. A partir de un
determinado punto, el organismo no aprende.
 Demoras superiores a unos 30 sg. parecen no producir ya CI, aunque hay
variaciones entre especies y sistemas de respuesta. Por ejemplo: con ratas,
laberintos y comida, la demora tolerada por los organismos para lograr un nivel
alto de aprendizaje se sitúa entre 2 sg. y 5 sg.
 Sin embargo, se obtienen buenos niveles de aprendizaje con demoras mayores,
debido a la acción de estímulos (e.g., el 'clic' de la palanca) que actúan como
reforzadores secundarios.
3.2.3 . Impulso

 Se refiere al estado motivacional del organismo respecto a aquello que vamos a


usar como recompensa.
 Se define en términos de porcentaje del peso perdido, nº de horas de privación
de agua, etc.
 El resultado general es que la actuación es tanto mejor cuanto mayor es el
impulso (más peso perdido, más horas de privación, etc.), salvo en casos
extremos.

3.3. Programas de refuerzo

Hasta ahora hemos considerado sólo el caso en que la realización por parte del
organismo de la conducta elegida va siempre seguida de la consecuencia
establecida (la probabilidad del estímulo reforzador dada la respuesta operante es
igual a 1). Esto (que constituye una contingencia total) es lo que se denomina
refuerzo continuo

El refuerzo continuo no es la única (ni la más eficaz) alternativa para el aprendizaje


por CO; por el contrario, constituye sólo un caso muy particular.

Los casos en que la contingencia de refuerzo (la relación respuesta-consecuente) no


es completa (es decir, no toda emisión de la respuesta va seguida del consecuente)
se denominan situaciones de refuerzo parcial o intermitente.

Es fácil ver que el refuerzo parcial es lo más común en situaciones naturales


(ajenas al laboratorio o la clínica).

Un programa de refuerzo es una regla que especifica exactamente bajo qué


condiciones la emisión de la respuesta va a ser seguida del reforzador.

El programa de refuerzo es, según muchos autores, una de las variables


independientes más poderosas de la psicología, en el sentido de que conociendo el
programa concreto administrado a un organismo, se pueden predecir
confiablemente muchas cosas respecto a la conducta adquirida.

3.3.1. Programas básicos.

Los programas básicos (también llamados "simples") pueden ser

 De razón: se recibe la recompensa sólo tras la emisión de un número


determinado de respuestas.
 De intervalo: se obtiene la recompensa tras la primera respuesta que se
produce una vez transcurrido un intervalo de tiempo establecido, contado desde
el último reforzador.

A su vez, la razón o el intervalo pueden ser


 Fijos : con el mismo valor a lo largo de toda la adquisición
 Variables: con distintos valores a lo largo de la sesión, que oscilan en torno a
un promedio.

Esto da lugar a los cuatro tipos de programas básicos: RF-n, IF-n, RV-n e IV-n,
donde n es el valor de la razón o del intervalo (o su promedio, si es un programa
variable).

En la aplicación de un programa de reforzamiento a un organismo que no ha sido


objeto de aprendizaje previo, normalmente se comienza por un proceso de
moldeado, luego se sigue con refuerzo contínuo y finalmente se va
progresivamente aumentando las exigencias hasta llegar al programa deseado.

3.3.1.1. Razón fija

Se administra una recompensa por cada n respuestas. En un programa RF-10, cada


décima emisión de la R va seguida de reforzador.

Este programa produce una tasa de respuesta típicamente alta y estable. Si la


razón es alta, sin embargo, esa estabilidad no es perfecta: el organismo se toma
sistemáticamente pausas justo a continuación de la administración del reforzador,
llamadas pausas post-reforzamiento.

RF-10 RF-90

Respuestas Pa usa s
emitidas
acumuladas

Tiempo -->
Registro acumulativo típico de una rata sometida a entrenamiento de recompensa mediante un
programa RF-10 (izda.) y un programa RF-90 (dcha). Los trazos gruesos y cortos indican los puntos en
que se administró recompensa

3.3.1.2. Razón variable

Los programas de razón variable son especialmente importantes, ya que (dentro de


los simples) son los que más se aproximan a las situaciones naturales.
Un programa RV especifica que el reforzador se administra tras un número de
respuestas que varía a cada vez. Así, por ejemplo, en un RV-5 la recompensa se
puede administrar tras 7, 3, 11, 2, 3, 5... respuestas, de forma que el promedio
total sea 5 respuestas a lo largo de la sesión.

Los programas RV son los que generan la tasa de respuesta más alta (lo que se
manifiesta en el registro acumulativo por una gran pendiente) y constante (no
aparecen pausas sistemáticas).

Respuestas
RV-10
emitidas RV-90
acumuladas

Tie mpo -->


Registro acumulativo típico de una rata sometida a entrenamiento de recompensa mediante un
programa RV-10 (izda.) y un programa RV-90 (dcha). Los trazos gruesos y cortos indican los puntos en
que se administró recompensa

3.3.1.3. Intervalo fijo

En los programas IF se administra el reforzador a la primera emisión de la


respuesta una vez transcurrido un intervalo desde la anterior emisión del
reforzador, el cual intervalo tiene siempre la misma duración. Cada reforzador, por
tanto, inicia un intervalo (siempre igual) en el cual las Rs no son recompensadas.

El organismo aprende a anticipar cuándo va a estar disponible el siguiente


reforzador, y progresivamente disminuye su tasa de respuestas al principio del
intervalo y la aumenta hacia el final del mismo. Por ello, estos programas terminan
por producir un carácterístico efecto de festoneado en el registro acumulativo :

También podría gustarte