Está en la página 1de 3

Condicionamiento Instrumental: ¿Qué es y cómo funciona?

El condicionamiento instrumental o condicionamiento operante es un tipo de aprendizaje


que sucede cuando los hechos son un resultado directo de la conducta del individuo. Es decir,
mediante el condicionamiento instrumental, las acciones o conductas de un individuo pueden
ser modificadas por sus consecuencias.

Según el condicionamiento instrumental, para que tenga lugar el aprendizaje de


una respuesta (R), esta respuesta tiene que predecir un reforzador, es decir una consecuencia
positiva.

La relación entre la conducta y sus consecuencias es uno de los factores más importantes en el
control de la conducta instrumental. En el condicionamiento instrumental es muy importante
la contigüidad temporal y la contingencia que se establece entre la respuesta y el reforzador
reforzador, es decir, la relación que se creará entre ambos factores.

Thorndike y el condicionamiento instrumental

Uno de los antecedentes históricos del condicionamiento instrumental son los trabajos de
Edward Thorndike acerca del aprendizaje. La intención inicial de Thorndike fue estudiar la
inteligencia animal, y creó su teoría del aprendizaje que se basaba en la observación
con modelos de aprendizaje animal.

Thorndike llegó a la conclusión que las respuestas animales que eran recompensadas, es decir
que recibían una recompensa (reforzador positivo), tenían más tendencia a repetirse en el
futuro. Por el contrario, las respuestas que eran castigadas, es decir no recibían recompensa
y/o recibían un castigo (reforzador negativo), tenían tendencia a no repetirse en el futuro.

Por ejemplo, uno de sus famosos experimentos consistió en encerrar a un gato en una caja, y
que por ensayo-error, aprendiera que cada vez que pisa una manecilla, la puerta se abre. La
primera vez que lo probó, el gato se movía de un lado a otro desordenadamente. Realizaba
acciones sin sentido como dar con el pestillo y abrir la jaula para tener acceso a un poco de
comida. Con el tiempo, aprendió que cada vez le costaba menos abrir la jaula y la abría en
menos tiempo.

Por lo tanto, su teoría de “law of effect” (ley del efecto) propone que las recompensas
motivan el aprendizaje, es decir: si una respuesta (R) ejecutada en presencia de un estímulo (E)
va seguida de una consecuencia satisfactoria (Reforzador positivo), la asociación entre la E-R se
fortalecerá. Por el contrario, si la R va seguida de una consecuencia no deseada (Reforzador
negativo), la asociación E-R no se fortalecerá, sino que se debilitará.

Skinner y el condicionamiento operante o condicionamiento instrumental

B.F.Skinner propone que los animales adquieren conductas en función de las consecuencias.
Es decir, que dependiendo de las consecuencias (positivas o negativas) de cada acción, estas
serán repetidas en un futuro o no.

Por ejemplo, Skinner demuestra que una rata aprende a darle a una palanca cuando dicha
acción tiene la consecuencia de obtener alimento. Según este autor, el condicionamiento
operante o condicionamiento instrumental ocurre cuando una respuesta en seguida por un
reforzador. Contra más número de veces se repita la relación entre respuesta-reforzador, más
probabilidad habrá de que se repita la respuesta premiada.
Por lo tanto, para Skinner un reforzador es cualquier “cosa” que aumente la frecuencia de una
respuesta. Y que cualquier reforzador, incluso el mismo en cada caso (ej: caramelos) puede
aumentar cualquier tipo de conducta (ej: lavarse los dientes, hacer los deberes, u ordenar la
habitación).

Programas de reforzamiento

Un programa de reforzamiento es una pauta o una regla que determina cuando y cómo se va
a entregar un reforzador tras realizar una respuesta determinada. Hay cuatro tipos de
programas de reforzamiento.

 Programa de razón fija: este programa consiste en la administración de una


recompensa tras un número determinado de respuestas.

 Programa de intervalo fijo: es programa consiste en que la respuesta es


recompensada después de haber transcurrido un determinado intervalo fijo de tiempo
(que no varía, es siempre el mismo).

 Programa de razón variable: este programa consiste en que la recompensa está


determinada por el número de respuestas emitidas. Pero este número de respuestas
emitidas puede variar de un momento a otro (por ejemplo: unas veces se puede dar la
recompensa tras haber emitido la conducta dos veces, y otras se dará al haber emitido
la conducto cuatro veces. Pero nunca se dará la recompensa sin haber emitido la
respuesta).

 Programa de intervalo variable: este programa consiste en que la respuesta es


reforzada después de haber transcurrido un cierto periodo de tiempo. Este período de
tiempo es variable, por lo que puede variar de un momento a otro (por ejemplo: en
algunos casos se dará tras 10 segundos, en otros tras 5 segundos, etc).

Condicionamiento instrumental y aplicaciones

Para aplicar bien el condicionamiento instrumental hay que tener en cuenta varias cosas. El
reforzador tiene que darse justo después de la conducta (contingencia temporal). Los
refuerzos inmediatos son especialmente importantes cuando se trabaja con niños pequeños.
También es importante, sobre todo al principio, que cada vez que aparece la conducta, se siga
del reforzador. Hay reforzadores primarios, como la comida, y reforzadores secundarios como
el dinero.

Procedimientos de ensayo discreto

Similar al método de Thorndike, W.S. Small (1899, 1900), introdujo el laberinto en las
investigaciones sobre aprendizaje inspirado en las madrigueras bajo tierra.

Otro laberinto muy utilizado es el de forma de T, diseñado para estudiar la conducta de


elección.

La conducta en el laberinto puede cuantificarse midiendo la velocidad de carrera, que


normalmente aumenta con ensayos de entrenamiento repetidos. Otra medida común es la
latencia, tiempo que tarda el animal en abandonar la caja salida y empezar a desplazarse por el
pasadizo, las latencias se hacen más cortas a medida que progresa el entrenamiento.
Procedimientos de operante libre

Permiten al animal que repita la respuesta instrumental una y otra vez sin restricciones, ideado
por Skinner para estudiar la conducta de una manera más continua. Estaba interesado en
analizar en el laboratorio una forma de conducta que fuese representativa de toda la actividad
en curso que ocurría de forma natural. La conducta no se divide como si fueran moléculas, por
eso propuso el concepto de operante como la forma de dividir la conducta en unidades
medibles con significado.

Una respuesta operante se defina a partir del efecto que produce en el ambiente. Las
actividades que provocan el mismo efecto ambiental se consideran ejemplos de la misma
operante.

Entrenamiento y moldeamiento al comedero: Hay algunos pasos preliminares para establecer


la conducta de presión de la palanca, primero los animales tienen que aprender cuando está
disponible la comida en el comedero, esto comprende un condicionamiento clásico, tras
suficientes emparejamientos del sonido del dispensador con la entrega de comida, el sonido
llega a elicitar una respuesta de seguimiento del signo, esta fase preliminar se llama
entrenamiento al comedero. Después, el organismo está preparado para aprender la
respuesta instrumental requerida. Si la respuesta no es algo que el animal ya realiza, nunca
sucederá por si mima, para facilitar la adquisición de una nueva respuesta operante, al
principio la comida se entrega si el animal hace cualquier cosa remotamente relacionada con la
respuesta deseada. Una vez que la respuesta de alzamiento ha sido establecida la comida solo
entrega si la rata realiza la respuesta de alzamiento sobre la palanca de respuesta. Una vez que
el alzamiento sobre la palanca ha sido establecido, la bolita de comida puede entregarse solo si
realmente la rata presiona la palanca, esta secuencia de pasos se denomina moldeamiento,
este incluye dos tácticas complementarias: reforzamiento de aproximaciones sucesivas a la
respuesta requerida y no reforzamiento de las formas de respuesta más tempranas.

Moldeamiento y nueva conducta

El condicionamiento instrumental incluye a menudo la construcción o síntesis de una nueva


unidad conductual a partir de componentes de respuesta preexistentes que ya se encuentran
en el repertorio del sujeto. El condicionamiento instrumental puede también utilizarse para
producir respuestas que no se parecen en nada a lo que el individuo es probable que haga sin
entrenamiento. El moldeamiento aprovecha la variabilidad inherente de la conducta. Sin esta
variabilidad, los procedimientos de moldeamiento no tendrían éxito. El moldeamiento puede
producir nuevas formas de respuesta nunca antes realizadas por el organismo.

La tasa de respuesta como medida de la conducta operante: los métodos de operante libre
permiten una observación continua durante largos periodos, proporcionan una ocasión
especial para observar cambios en la probabilidad de la conducta a lo largo del tiempo.

Las medidas de la latencia de la respuesta y de la velocidad que se emplea normalmente en


procedimientos de ensayo discreto no permiten que se repita la respuesta. Skinner propuso
que la tasa de ocurrencia de una conducta operante (frecuencia por minuto por ej.) se utilizase
como medida de la probabilidad de respuesta.

También podría gustarte