Está en la página 1de 8

TEMA 4: CONDICIONAMIENTO OPERANTE Introduccin El condicionamiento operante constituye uno de los mecanismos de aprendizaje de mayor importancia terica y prctica:

: por una parte, es seguramente el ms investigado y mejor comprendido, y por otra es fuente de algunas de las ms significativas aplicaciones de la psicologa a problemas concretos. En una primera aproximacin, se diferencia del CC en un aspecto esencial: En el CO, la secuencia de sucesos depende de la conducta del organismo. En el CC, lo que sucede a lo largo de una sesin est prefijado por el psiclogo, y la secuencia de estmulos que se administran es independiente de que el organismo responda o no. Los mecanismos que hemos estudiado hasta ahora permiten a un organismo aprender acerca de aspectos de su entorno que no resultan controlables. El CO permite a un organismo aprender a controlar ciertos aspectos del medio mediante su conducta. En sentido estricto, el C. Operante es un caso particular de C. Instrumental. El C. Instrumental se refiere a los mecanismos por los cuales un organismo aprende a dar una respuesta ms frecuentemente (o menos) en virtud de los eventos(o consecuencias) que siguen sistemticamente a dicha respuesta. El C. Operante se refiere a los casos en los que dicha respuesta se define como un operante, es decir, en virtud de sus propiedades funcionales. Sin embargo, la importancia relativa del C.operante es tan grande que a menudo ambos trminos (operante e instrumental) se emplean como sinnimos. Antecedentes Thorndike: Interesado en la inteligencia animal, a partir de presupuestos darwinianos, presenta en su tesis doctoral (1898) un estudio sobre el comportamiento de animales en situacionesproblema muy simples. Utilizando estas situaciones (mediante las llamadas "cajasproblema") comprueba que los animales aprenden a solucionar el problema por ensayo y error: al principio, su conducta es catica y dan con la solucin (accionar el mecanismo de apertura de la caja de forma que puedan salir y alcanzar la comida) por pura casualidad, pero en sucesivos ensayos el tiempo que tarda el animal en dar la respuesta relevante disminuye de forma progresiva y sistemtica, y las respuestas errticas se reducen hasta casi desaparecer. A partir de esta clase de estudios, Thorndike formula en 1911 la Ley del Efecto: Si una respuesta en una situacin estimular dada es seguida por un suceso satisfactorio o placentero, la relacin entre la situacin y la respuesta se fortalece, de forma que el organismo tendr ms tendencia a dar esa respuesta en esa situacin. Si por el contrario va seguida de un suceso nocivo o desagradable, la respuesta tender a no darse. Primeros conductistas Desde el punto de vista del conductismo watsoniano, la anterior formulacin resultaba muy inadecuada, ya que se basa en estados internos del organismo ("satisfactorio", "desagradable", etc.) inobservables y dudosos. Por otra parte, el intento de Thorndike de definir los estados satisfactorios como aquellos que el organismo no haca nada por evitar, etc., incurra en circularidades que los crticos sealaron en repetidas ocasiones. Skinner 1

En los aos 3040, Skinner, adoptando un marco terico ms amplio, consistente y operativo, reformula la ley del efecto como "ley de refuerzo": Ciertos sucesos (refuerzos), cuando siguen consistentemente a una respuesta de un organismo, aumentan su probabilidad Desentendindose de las interpretaciones asociacionistas y, en gran medida, de los antecedentes estimulares de la conducta, pone el nfasis en la relacin entre la respuesta y los eventos que la siguen consistentemente. Una de las aportaciones tericas ms significativas de Skinner es la reconceptualizacin de la respuesta como "operante", es decir, definida exclusivamente por sus propiedades funcionales (en contraposicin a otros aspectos, como la topografa o la intensidad ver Tema 1) Desde el punto de vista de la metodologa de investigacin, Skinner se decanta por los procedimientos de operante libre, en contraposicin a los de ensayo discreto. Procedimientos de ensayo discreto: El organismo es sometido a sucesivos ensayos, entre los cuales normalmente es necesario manipularlo fsicamente (por ejemplo, volver a meter el gato en la caja problema). Son ventajosos para estudiar bastantes cuestiones, pero presentan dos inconvenientes: la manipulacin del organismo puede interferir con el proceso natural de aprendizaje (por ejemplo, si le resulta estresante); y no nos da ninguna informacin sobre lo que hara el organismo si pudiera emitir la respuesta tan a menudo como quisiera (es decir, no podemos utilizar la tasa de R como variable dependiente). Ejemplos de dispositivos: laberintos, corredores, las cajasproblema de Thorndike, etc. Procedimientos de operante libre: Las sesiones no se dividen en ensayos, sino que el O. est en una situacin en la que puede emitir la respuesta en cualquier momento y con cualquier frecuencia. Se han mostrado ptimos para el estudio de muchos aspectos generales del C.O. El dispositivo ms tpico es la Caja de Skinner, junto con el registro acumulativo, que permiten estudiar detalladamente la evolucin de la tasa de respuesta bajo las situaciones de aprendizaje. El fenmeno/procedimiento bsico El fenmeno nuclear del CO consiste en la implantacin de una contingencia entre una respuesta emitida por un organismo y un suceso ambiental (consecuente o consecuencia) que sigue consistentemente a esa respuesta. Como resultado, la probabilidad de la respuesta se ve sistemticamente modificada a medida que la situacin se repite. [ R. Op. Consecuencia ambiental ] P(R) En el caso ms sencillo, se sita a un organimo en una determinada situacin controlada (e.g., en una caja de Skinner y con cierto grado de privacin previa de alimento), y se le suministra como consecuente (reforzador) una cierta cantidad de comida cada vez que emite una respuesta concreta y predeterminada por el psiclogo (apretar una palanca, picotear un disco, etc.). Se comprueba que la frecuencia de la respuesta elegida aumenta sistemticamente a medida que transcurre el tiempo (recurdese que en esta clase de experimentos, de "operante libre", no cabe hablar de ensayos propiamente dichos, sino que se trata de una situacin contnua en la que el organismo lleva la iniciativa).

Conceptos principales Respuesta Puede ser cualquier respuesta incluida en el repertorio conductual del organismo, seleccionada arbitrariamente por el psiclogo. Operante o respuesta operante: es el caso ms frecuente. Se define por los efectos que opera en el ambiente (de ah su nombre). As, por ejemplo, cualquiera de las formas en que un organismo puede accionar una palanca se consideran como casos de una misma respuesta u operante. Es decir, puede hacerse abstraccin de la topografa concreta de la respuesta (que se ejecute con un miembro u otro, con movimientos diferentes, etc.), aunque sto va a depender en cada caso de lo que al psiclogo le interese que el organismo aprenda. Tpicamente, es una respuesta motora voluntaria, aunque puede tratarse tambin de una respuesta autonmica o visceral (e.g., aumento de la tasa cardiaca), e incluso de una accin de carcter lingstico o cognitivo. Consecuente, consecuencia Suceso que afecta sistemticamente a la probabilidad de la respuesta a la que sigue consistentemente. Reforzador o refuerzo: es un consecuente que aumenta la frecuencia de R a la que sigue. Un refuerzo puede ser positivo (p.ej. aparicin de un E apetitivo) o negativo (noaparicin o retirada de un E aversivo). Castigo: es un consecuente que reduce la frecuencia de R a la que sigue. Un castigo puede tambin ser positivo (p.ej. aparicin de un suceso aversivo) o negativo (noaparicin o retirada de un suceso apetitivo). Es muy importante no confundir un reforzador con un estmulo o suceso agradable. Un estmulo es un reforzador, por definicin, en virtud de su efecto en el aumento de la respuesta a la que sigue, y no por su supuesta induccin de un estado subjetivo en un organismo Asimismo, es importante observar que el refuerzo o el castigo no tienen por qu ser necesariamente estmulos en sentido estricto. Por ejemplo, el permitir o impedir al organismo realizar determinadas conductas pueden actuar como refuerzos o castigos respectivamente. Contingencia Es la relacin estadstica entre la emisin de un operante y la administracin de una consecuencia. A menudo se emplea la expresin "contingencias de refuerzo" o "contingencias de reforzamiento" para referirse al proceso por el cual un organismo ha adquirido una determinada respuesta (e.g. "la presencia de patrones de retraimiento social que llamamos timidez depende de las contingencias de refuerzo" significa que se atribuye la frecuencia diferencial de un conjunto de respuestas al vnculo estadstico que han tenido en el historial del sujeto con cierto tipo de consecuencias). Por lo tanto, contingencia significa aqu lo mismo que en CC, slo que ahora se establece entre una respuesta y un suceso ambiental, en vez de entre dos sucesos ambientales. Estmulo discriminativo Estmulo cuya presencia es informativa sobre la disponibilidad de un consecuente. 3

Es opcional: no tiene por qu haber un E discriminativo explcito. Se suele denotar ED o E+ a los estmulos que indican la disponibilidad de un consecuente, y E o E a los que informan de su nodisponibilidad. Respuesta incondicionada Es la respuesta natural del organismo al reforzador (por ejemplo, la salivacin, deglucin,etc. en el caso en que el reforzador es un trozo de alimento). En general, no juega ningn papel en el condicionamiento operante. Adquisicin Procedimiento y proceso en el cual se establece una contingencia entre un operante y un reforzador, de forma que la frecuencia de aqul aumenta. Significado anlogo al del CC Extincin Procedimiento y proceso en el cual se elimina una contingencia entre un operante y un reforzador, de forma que la frecuencia de aqul decae. Significado anlogo al del CC Moldeado o moldeamiento (shaping) Consecucin gradual de una R que no estaba presente en el repertorio conductual del organismo (o lo estaba con una probabilidad muy baja) mediante reforzamiento de respuestas que suponen aproximaciones sucesivas a la R deseada. Tiene gran importancia prctica, ya que es el principal procedimiento de aprendizaje de Rs nuevas. Tipos bsicos de condicionamiento operante Los cuatro tipos bsicos de condicionamiento operante se producen como resultado del entrenamiento de un organismo mediante el establecimiento de una contingencia entre una R. operante y uno de los cuatro consecuentes bsicos. Reforzamiento positivo: Administracin de un evento siguiendo contingentemente a una R dada, que tiene como efecto un aumento en la fuerza, la probabilidad o la tasa de sta. Normalmente se trata de un estmulo apetitivo o de la posibilidad de realizar una conducta de alta probabilidad.. Ejemplo: cada vez que una rata presiona una palanca (R), se le administra como consecuente un trozo de comida; se puede observar que la rata cada vez presiona ms frecuentemente la palanca El tipo de CO que resulta de aplicar sistemticamente reforzadores positivos a una respuesta se conoce como entrenamiento de recompensa. Reforzamiento negativo: Omisin o interrupcin de un suceso (tpicamente, un E aversivo) de forma contingente con la emisin de una R, a resultas de lo cual se produce un aumento en la fuerza, la 4

probabilidad o la tasa de sta. Ejemplo: cada vez que una rata se desplaza al lado opuesto de la jaula (R), como consecuente se interrumpe una descarga elctrica que se le estaba aplicando; se puede observar que la rata cada vez cambia de lado ms frecuentemente. La aplicacin sistemtica de reforzadores negativos a una R se conoce como entrenamiento de evitacin o entrenamiento de escape, dependiendo de si el organismo puede mediante la R llegar a prevenir la aparicin del E. aversivo (evitacin) o slo puede interrumpirlo, acortando su duracin, una vez administrado (escape) Castigo positivo: Administracin de un suceso (en el caso tpico, un E aversivo) siguiendo contingentemente a una R dada, que tiene como efecto una disminucin en la fuerza, la probabilidad o la tasa de sta. Ejemplo: cada vez que una oveja entra en contacto con la cerca en la que est encerrada (R), como consecuente se le administra una descarga elctrica; se puede observar que la oveja cada vez toca menos frecuentemente la cerca. La aplicacin sistemtica de castigos positivos a una R se conoce como entrenamiento de castigo. Castigo negativo: Omisin o interrupcin de un estmulo de forma contingente con la emisin de una R, a resultas de lo cual se produce una disminucin en la fuerza, la probabilidad o la tasa de sta. Ejemplo: cada vez que una rata que est recibiendo pequeos fragmentos de comida cada 15 segundos toca la pared del fondo de la jaula, se le elimina la siguiente administracin de comida que correspondiera; se puede observar que cada vez se acerca menos a dicha pared. La aplicacin sistemtica de castigos negativos a una R se conoce como entrenamiento de omisin. CASTIGO : REFORZADOR : Tiende a aumentar la fuerza de la Tiende a disminuir la fuerza de la R a la que R a la que sigue sigue Reforzamiento positivo Castigo positivo Entrenamiento de recompensa. Ej. : Administrar comida POSITIVO : Se administra tras la respuesta. un estmulo R aumenta. Entrenamiento de castigo. Ej. : Administrar descarga tras la respuesta. R disminuye.

Se usa una recompensa Se usa un estmulo (estmulo o suceso aversivo apetitivo). NEGATIVO :Se omite un Reforzamiento negativo Castigo negativo estmulo Entrenamiento de escape Entrenamiento de omisin

Ej. : Detener una descarga Ej. : Se deja de dar comida elctrica tras la respuesta al organismo cada vez que da R. Entrenamiento de evitacin Disminuye Ej. : Si se da R, omitir una Se usa estmulo apetitivo descarga que se hubiera dado en caso contrario. R aumenta. Se usa un estmulo aversivo Entrenamiento de recompensa: Principales factores Magnitud del reforzador Aumentos en la cantidad de la recompensa mejoran la actuacin. Aumentos en la calidad producen el mismo efecto. Por ejemplo, usando como reforzador agua azucarada se mejora el nivel de ejecucin respecto al uso de agua pura. Caso extremo: los experimentos de Olds con estimulacin directa de los centros cerebrales del placer. Demora de la recompensa Es el intervalo respuestarecompensa. Afecta drsticamente al aprendizaje, en el sentido de que a mayor demora, menos RC. A partir de un determinado punto, el organismo no aprende. Demoras superiores a unos 30 sg. parecen no producir ya CO, aunque hay variaciones entre especies y sistemas de respuesta. Por ejemplo: con ratas, laberintos y comida, la demora tolerada por los organismos para lograr un nivel alto de aprendizaje se sita entre 2 sg. y 5 sg. Sin embargo, en la mayora de las situaciones se consiguen incluso niveles altos de aprendizaje con demoras mayores, debido a la accin de claves estimulares (e.g., el 'clic' de la palanca) que actan como reforzadores secundarios o reforzadores condicionados (ver ms adelante). Impulso Es un constructo terico que se refiere al estado motivacional del organismo respecto a aquello que vamos a usar como recompensa. Se mide en trminos de porcentaje del peso perdido, n de horas de privacin de agua, etc. El resultado general es que la actuacin es tanto mejor cuanto mayor es el impulso (ms peso perdido, ms horas de privacin, etc.), salvo en casos extremos. Programas de refuerzo Hasta ahora hemos considerado slo el caso en que la realizacin por parte del organismo de la conducta elegida va siempre seguida de la consecuencia establecida (la probabilidad del estmulo reforzador dada la respuesta operante es igual a 1). Esto (que constituye una contingencia total) es lo que se denomina refuerzo 6

continuo El refuerzo contnuo no es la nica (ni la ms eficaz) alternativa para el aprendizaje por CO; por el contrario, constituye slo un caso muy particular. Los casos en que la relacin respuestaconsecuente no es completa (es decir, no cualquier emisin de la respuesta va seguida del consecuente) se denominan situaciones de refuerzo parcial (. Es fcil ver que el refuerzo parcial es lo ms comn en situaciones naturales (ajenas al laboratorio o la clnica). Un programa de refuerzo es una regla que especifica exactamente bajo qu condiciones la emisin de la respuesta va a ser seguida del reforzador. Los programas de reforzamiento son, segn muchos autores, una de las variables independientes ms poderosas de la psicologa, en el sentido de que conociendo el programa concreto administrado a un organismo, se pueden predecir confiablemente muchas cosas respecto a la conducta adquirida. Programas bsicos. Los programas bsicos (tambin llamados "simples") pueden ser De razn: se administra el reforzador slo tras la emisin de un nmero determinado de respuestas. De intervalo: se administra el reforzador a la primera respuesta que se produce una vez transcurrido un intervalo de tiempo establecido, contado desde el ltimo reforzador. A su vez, la razn o el intervalo pueden ser Fijos : con el mismo valor a lo largo de toda la adquisicin Variables: con distintos valores a lo largo de la sesin, que oscilan en torno a un promedio. Esto da lugar a los cuatro tipos de programas bsicos: RFn, IFn, RVn e IVn, donde n es el valor de la razn o el intervalo (o su promedio, si es un programa variable). En la aplicacin de un programa de reforzamiento a un organismo que no ha sido objeto de aprendizaje previo, normalmente se comienza por un proceso de moldeado, luego se sigue con reforzamiento contnuo y finalmente se va progresivamente aumentando las exigencias hasta llegar al programa deseado. Razn fija Se administra un estmulo reforzador por cada n respuestas. En un programa RF10, cada dcima emisin de la R va seguida de una recompensa. Este programa produce una tasa de respuesta tpicamente alta y estable. Si la razn es alta, a menudo el organismo se toma pausas inmediatamente a continuacin de la administracin del reforzador. Razn variable Los programas de razn variable son especialmente importantes, ya que (dentro de los simples) son los que ms se aproximan a las situaciones naturales. Un programa RV especifica que el reforzador se administra tras un nmero de respuestas que vara a cada vez. As, por ejemplo, en un RV5 la recompensa se puede administrar tras 7, 3, 11, 2, 3, 5... respuestas, de forma 7

que el promedio total sea 5 respuestas a lo largo de la sesin. Los programas RV generan la tasa de respuestas ms alta (lo que se manifiesta en el registro acumulativo por una gran pendiente) y constante (no aparecen pausas, excepto en el caso de razones muy grandes). Intervalo fijo En los programas IF se administra el reforzador a la primera emisin de la respuesta una vez transcurrido un intervalo desde la anterior emisin del reforzador. Es decir, cada reforzador inicia un intervalo en el cual las Rs no son recompensadas. El organismo aprende a anticipar cundo va a estar disponible el siguiente reforzador, y progresivamente disminuye su tasa de respuestas al principio del intervalo y la aumenta hacia el final del mismo. Por ello, estos programas terminan por producir un carcterstico registro acumulativo festoneado: Los programas IF producen una tasa de respuesta global ms baja que los de razn, y menos estable debido a las variaciones dentro de cada intervalo. Intervalo variable Los programas de intervalo variable son como los anteriores, slo que el intervalo oscila en torno a un valor promedio. Dan lugar a una tasa de respuesta moderada que, globalmente, es ms o menos igual que la de IF, pero mucho ms estable. Al no ser predecible por el organismo la duracin del intervalo, no hay diferencias locales de tasa de respuesta (el organismo responde a un ritmo sostenido). Por este motivo, es un programa idneo para establecer Rs que se van a emplear como lnea base de ulteriores tratamientos o experimentos (en particular, se emplean muy a menudo como punto de partida para el estudio de condicionamiento clsico mediante supresin condicionada ver tema 3). En lneas generales, cabe formular las siguientes conclusiones sobre los cuatro programas bsicos: 1) Los programas de razn dan lugar a tasas de respuesta ms altas. 2) Los programas variables dan lugar a tasas de respuestas ms estables (contnuas). 3) En general, los resultados de la investigacin con los distintos programas son bastante consistentes de unas especies a otras. Esquema Tema 4 10 1

También podría gustarte