Está en la página 1de 8
Proceaimientos operantes: Reforzamiento m 125 Io mismo ocurre fuera del Laboratorio: el depredador puede comer la presa que ha cazado, acosado, perseguido y matado, y uno tene la oportunidad de comerse el pastel en el que se ha puesto tanto esfuerzo. No obstante, este ditimo reforzador externo es crucial, pues sin él, es poco probable que se ejecute la tarea, Incluso una cadena bien establecida por lo comtin se rompe si se suprime el reforzamiento final. El reforzamiento opcrante es, cn términos basicos, muy sencillo. Pero aunque los procedimientos basicos son simples, sus efectos dependen de las interacciones complejas de muchas variables. A continuacién se consideran algunas de las més importantes. Variables que afectan al reforzamiento m Contingencia E-R En lo que respecta al aprendizaje operante, la palabra contingencia quiere decir que una consecuencia en particular depende de la ejecucién de una conducta en particular. La tasa ala cual cambia una conducta varfa segin el grado en que un reforzador es contingente a la misma, En el laboratorio, los investigadores crean por lo general una contingencia confiable entre una respuesta particular y una consecuencia cspecifica. Pueden arreglar el ambiente de una rata de modo gue cada vez que ésta oprima una palanca, reciba un poco de comida, pero de otra manera no obtiene nada. En esie caso, existe una contingencia clara entre la presién de una palanca y la comida; si, por otra parte, la presién de la palanca y la llegada de 1a comida son independientes entre s{, no existe contingencia. Si no intervienen otros factores, entre mayor sea el grado de contingencia entre una respuesta y un reforzador, més rapido es el cambio en la conducta. Lynn Hammond (1980) Ilevé a cabo un experimento reminiscente del estudio de Rescorla (1968) sobre las contingencias en el condicionamiento pavloviano (capitulo 3). Hammond manipulé la probabilidad de que la comida salicra después de la presién de palanca 0 en su ausencia, Encontr6 que si existia la misma probabilidad de que las ratas abtuvieran comida al oprimir la palanca que cuando no lo hactan, éstas dejaban de hacer- lo (figura 5-7). Era esencial una contingencia entre la respuesta y el reforzador. Es f4cil ver por qué el reforzamiento contingente es importante para el aprendizaje. Supéngase que alguien esta aprendiendo a utilizar un nuevo programa de procesamiento de textos. Tiene una lista de comandos para controlar diversas caracteristicas tipogrfi- cas, por ejemplo, para subrayar una palabra debe presionar las teclas ALT, OPT y S de manera simulténea; para poner cursivas oprimir ALT/OPT/V; y asi sucesivamente. Cada vez que se oprime ALT/OPT/S, se obtienc cl subrayado. No lo obtiene si oprime ALT/S. u OPT/S, como tampoco si escribe POR FAVOR COMPUTADORA SUBRAYA, 0 cual- quier otra cosa. Bajo estas circunstancias, el aprendizaje ocurre de manera répida. Ahora, imagfnese que existe un error en el programa. Algunas veces cuando se opri- me ALT/OPT/S obtiene el subrayado y en otras no; a veces, al oprimir ALT/OPT/V se obtienen cursivas y otras no. En estas circunstancias, es probable que el aprendizaje ocu- rra con mucha més tentitud. El mismo término reforzamiento implica una contingencia entre una respuesta y una consecuencia reforzante. De hecho, aunque el término reforzamiento no contingente apa- rece en la literatura, en realidad es erréneo (Carr, 1996). No obstante, es posible que in- ctuso un alto nivel de contingencia R-E no produzca mucho cambio si el intervalo entre la respuesta y la consecuencia es demasiado amplio, como se vera a continuacion. 126 m= Aprendizaje y conducta Capituto 5) Contingencia Cero Contingencia Cero moderada contingencia moderada contingencia 5,000 4,000 3,000 2,000 Respuestas por hora 1,000 ' 5 10 25 20 25 30 35 40 45 50 55 60 65 Sesiones i i i i Figura 5-7. Contingencia E-R y reforzamiento. La tasa promedio de respuesta para 10 ralas cuando el alimento fue contingente y no contingente a lareepuesta, Fuente: Adaptadi de "The Effect of contingency pon the appotitive conditioning of free-operant benavior’, Joumal of Exparimental Analysis of Behavior, 1980, Vol. 34, No. 3, de L. Hammond, p. 300. Copyright @” 1980 por la Society for the Experimental Analysis of Behavior, Inc. Reimpreso con autorizacién. w Contigiiidad E-R La brecha entre una respuesta y sus consecuencias reforzantes tiene un poderoso efecto sobre la tasa de aprendizaje operante. En general, entre mas corto sea este intervalo, mas rdpido ocurriré el aprendizaje (Dickinson ef al., 1992; Hunter, 1913; Schlinger y Blakely, 1994; figura 5-8). Un estudio de Kennon Lattal (1995) jJustrard esta cuestién. Este autor intentd mol- dear ¢l picotco de un disco en un pich6n, pero con una demora automatica de 10 segundos para el reforzador. En otras palabras, cuando el ave avanzaba hacia el disco, Lattal opri- mia un interruptor que controlaba el depésito de alimento, pero el aparato no proporcio- naba la comida durante 10 segundos. Latta] pasé una hora diaria intentando moldear la conducta de picoteo en el disco, pero inclusive después de 40 dfas no habia tenida éxito. El ave iba de un lado a otro frente al disco, pero nunca lo picoteaba. Cuando Lattal cam- bid la demora de 10 segundos a sélo un segundo, pudo moldear el picoteo en el disco en aproximadamente 15 a 20 minutos (Lattal, comunicacién personal, 1996). Algunos estudios sobre contigiiidad han hecho surgir dudas sobre su importancia en el aprendizaje (p. ej., Azzi ef al., 1964; Arbuckle y Lattal, 1998). Parte de la confusién surge debido a que, en ocasiones, la contigitidad se mezcla con otras variables. Por ejem- plo, Jeffrey Weil.(1984) sefiala ue la mayor parte de los estudios sobre reforzamiento demorado se confunden por la cantidad de ocasiones en que se refuerza la respuesta. Para ilustrar esto, puede establecerse una comparacién entre dos experimentos: en uno, se refuer- za de inmediato la respuesta de presién de palanca; en el segunda, la respuesta se refuerza después de una demora de cinco segundos. Si se coloca a los animales durante una hora Procedimientos operantes: Reforzamiento = 127 200 Demora de 0 seg 100 Demora de 4 seg Demora de 10 seg 0 Behe 10 20 30 Poriodos de des minutes Media ce respuestas acumulativas: is catalina mec r rn Figura 5-8. Contigiidad E-R y reforzamiento, Media de respuesias acumulativas cuando el retorzamien- to fue inmadiato, con demoras de 4 y de 10 segundos. Adaptado de The Psychological Record, 1994, 4d de H. D. Schiinger, Jr. y &. Blakely, p. 396, figura 1. Copyrigth @ 199d The Psychological Record Impreso con autorizacién. bajo ambas condiciones, es probable que se encuentre que el reforzamiento inmediato da por resultado un aprendizaje mas rapido. Pero surge un problema con la interpretacion de resultados, porque el reforzamiento inmediato implica que la respuesta se retuerza con mayor frecuencia en el curso de una hora que en el reforzamiento demorado. Weil mane- 6 este problema al hacer que la cantidad de reforzamientos fuera la misma. El resultado mostré que la demora en el reforzamiento sé representa una diferencia: entre mas corto fuera el intervalo entre respuesta y reforzador, ms rapido ocurria el aprendizaje. Pregunta 5-8: {Cual es e! punto importante en el estudio de Weill? Las resefias de La literatura sobre contigtidad han encontrado que el aprendizaje operante varfa de manera bastante consistente con la contigiiidad. Por ejemplo, Susan Schneider (1990) encontré en un examen de un subconjunto de investigaciones que “hasta ahora, no existen excepciones claras para la sustentacién de la contigtidad” (p, 247), Una razén por la que las consecuencias inmediatas producen mejores resultados es que una demora da tiempo para que se presente otra conducta. Entonces lo que se refuerza es esta conducta y no la respuesta apropiada. Imaginese; por ejemplo, que alguien esta aprendiendo a pilotear un barco tanque de petréleo. Los grandes barcos cambian de direc- cién en forma lenta, de modo que existe una demora entre girar el timén del barco y un cambio en la direccién del mismo. Es posible que dicha persona gire el timén de manera apropiada, pero para el momento en que el barca finalmente responde,.es posible que haya ejecutado alguna otra respuesta inadecuada; entonces esa respuesta se refuerza por el cam- bio deseado en direccién, Sin duda, esta demora es algo que hace que aprender a navegar grandes barcos sea algo dificil. Aunque es claro que el reforzamiento inmediato produce aprendizaje ms répido, varios estudios han mostrado que el aprendizaje puede ocurrir a pesar de las demoras en 128 w Aprendizaje y conducta (Capitulo 5) el reforzamiento (Dickinson ¢¢ al., 1992; Lattal y Gleeson, 1990; Wilkenfield ef al., 1992). Se pueden eliminar los efectos de la demora en el reforzamiento si ésta es precedida de manera regular por un estimulo particular. Henry Schiinger, Jr. y Elbert Blakely (1994) llevaron a cabo un experimento que compuré los efectos de la demora sefializada y no sefializada del reforzamicnto. Estos experimentadores coloceron un rayo fotoeléctrico cerca del techo de una cdmara experimental. Cuando una rata bloqueaba el haz de luz al levantarse sobre sus patas traseras, cafa comida en un plato. En el caso de algunas ratas, el bloqueo del rayo daba por resultado Ia presentacién inmediata del alimento; en el caso de otras, el alimento se presentaba después de una demora de 4 0 10 segundos. Con alg nas de las ratas que recibfan el reforzamiento demorado, se hacfa sonar un tono inmedi: tamente después de que la rata alcanzaba el haz de luz. Como se esperaba, los resultados mostraron de modo muy evidente la superioridad del reforzamiento inmediato por encima del demorado. También mostraron que la demo- ra de cuatro segundos era menos dafina que la de 10 segundos, no obstante, su efecto no fue tan notable cuando el tono la precedia (figura 5-9). Una explicacién de los efectos de las sefales se denomina hipétesis de marcaje (Lieberman, Mclntosh y Thomas, 1979), Esta es la idea de que la sefial atrac 1a atencién hacia la respuesta que la precedié. Sin embargo, como sefialan Schlinger y Blakely, esta explicacién tan sdlo “describe el efecto y utiliza la descripcién como explicacién” (1994, p. 405). En otras palabras, la explicacidn es circular. Para explicar por qué las sefiales aumentan el poder de Ios reforzadores demorados, es necesario identificar las variables que producen ese aumento. Quizé le explicacién més probable sea que la sefial se volvi6 un reforzador condicionado porque por Jo regular le segufa la presentacién de comida. Asf, el reforzamiento demorade sefializado obtiene mejores resultados porque implica un mayor reforzamiento: el alimento y el estimulo que precede al alimento. Sin embargo, la explicacién del reforzamiento condicionado no esta libre de criticas (Schlinger y Bla- kely, 1994), 10 20 30 Periodos de dos minutos 200 3 8 = a z 5 8 g : g 100 NT I 2 i 3 : g | © i 3 a 8 : o ee eS i Figura 5~9, Efectos de reforzamiento demorado sefializado. Media de respuestas acumulativas cuan- doa la demora en el reforzamiento le precedié un tono (T) y cuando ne hubo tono (NT). Elreforzamiento se demoré cuatro segundos en todos los casos, Adaptado do The Psychological Record, 1994, 44, do H. D. Schiinger, Jr-y E. Blakely, p. 396, figura 1. Copyright© 1994 The Psychological Record. Reimpreso con autorizacién. Procedimtentos operantes: Reforzamiento = 129 @ Caracteristicas del reforzador La intensidad, cantidad y tipo del reforzador también desempefian una funcidn en la de- terminacién del poder del reforzamiento. Karen Pryor (1984), una muy conocida entrenadora de animales, cree que proporcionar de manera ocasional cantidades de reforzamiento mayores a las usuales puede ser muy itil en el entrenamiento. Pryor des- cribe a un entrenador de caballos que otorga dichas “recompensas espectaculares”, Cuan- do un caballo lleva a cabo una maniobsa dificil por primera vez, 6] inmediatamente se baja del caballo, le quita la silla y las bridas, y lo deja suelta dentro del ruedo de entrenamicn- to, La técnica es similar a la del maestro que de manera repentina anuncia: “Todos han trabajado mucho, de modo que tomemos un descanso y juguemos a algo”. En ocasiones, Ios jefes en un empleo hacen el mismo tipo de cosas cuando les dicen 2 un empleado a quizé a todo un departamento que se tome la tarde libre. Pryor dice haber trabajado para una agencia de publicidad en la que el jefe ocasionalmente y sin advertencia previa les decia a todos los empleados que dejaran de trabajar. Entonces aparecian de manera re- pentina meseros de un servicio de comidas y musicos, y el lugar de trabajo se convertia en una fiesta. “Era un premio inesperado para 50 personas”, escribe Pryor (1984), “consi- dero que contribufa en gran medida a la elevada moral de la compaiifa’” (p. 31). En cierto grado, la evidencia de investigacién sustenta cl punto de vista de que los grandes reforzadores son més eficaces que los pequeiios (Christopher, 1988). Sin embargo, otros estudios muestran que, en general, muchos reforzadores pequefios son més efectivos que unos cuantos mas grandes (Schneider, 1973; Todorov et al.. 1984). ‘Tambign existen diferencias cualitativas en los reforzadores. Se podsfa pensar que para una rata, la comida es simplemente comida, pero de hecho estos animales tienen un gusto bastante exigente, R. Simmons (1924) hizo que ratas corrieran de manera repetida por un Jaberinto. Algunas encontraron un trozo de pan y leche al fina} del laberinto; otras halla- ron una semilla de girasol. Las ratas que recibieron pan y leche tuvieron un desempeao superior al de aquellas que obtuvieron la semilla de girasol. M. H. Elliott (1928) levé a cabo un experimento similar en el que comparé las semillas de girasol con puré de salva- do. De nuevo, el grupo alimentado con semillas de girasol llegé en segundo lugar. Pare- cerfa que, para la rata, la semilla de girasol es un reforzador bastante inferior. En otros estudio, animales y personas que han recibido 1a oportunidad de desempefiar una tarea a cambio de uno de dos reforzadores, a menudo muestran fuertes preferencias (Parsons y Reid, 1990; Simmons, 1924). @ Caracteristicas de la respuesta Ciertas cualidades de la conducta que se refuerza afectan la facilidad con la que puede fortalecerse. Es obvio que aprender a caminar sobre una viga de equilibrio es mas facil que hacerlo en la cuerda floja. Algo menos obvio es que la conducta que depende de Ja musculatura lisa y las glandulas es més dificil de modificar a través de procedimientos operantes que aquella que depende de fa musculatura esquelética, ‘Los investigadores solfan creer que la conducta refleja pod{a altesarse s6lo a través de procedimientos pavlovianos, Por ejemplo, parecerfa absurdo pensar que Jos animales © personas podrian aprender a regular su frecuencia cardiaca a través de reforzamiento, pero en el decenio de 1960-69, Neal Miller y Leo DiCara (1967) intentaron lograr justo eso, Para garantizar que los cambios en frecuencia cardiaca no se debieran a que los ani- males aprendicran a tensar y relajar ciertos misculos voluntarios (lo cual cambiaria de manera indirecte su frecuencia cardiaca), aplicaron un derivado del curare a las ratas. 10 cual paralizé en forma temporal sus mtisculos voluntarias. Después, estos autores aplica- 130 w Aprendizaje y conducta Capitulo 53 con estimulucion eléctrica al “centro del placer” en el cerebro de la rata, contingente con un cambio en frecuencia cardiaca, (Se ha mostrado que Ja estimulacidn de esta parte del cerebro es reforzante.) Al principio, los investigadores reforzaron los pequefios cambios en frecuencia cardiaca que estuvieran en lu direccién deseada; después requirieron des- viaciones cada vez mayores con respecto a la frecuencia normal. Durante un periodo de entrenamiento de 90 minutos, las ratas aumentaron o disminuyeron sus frecuencias cardiacas en un promedio de aproximadamente 20%. Estos sorprendentes resultados condujeron a las personas a pronosticar el tratamien- to de problemas médicos como presién sanguinea elevada y ritmo cardiaco irregular a través de procedimientos operantes. Por desgracia, los investigadores no siempre han podido reproducir estos orimeros descubrimientos. Miller (1978) mismo comenzé a ex- presar dudas, y él y su colaborador Barry Dworkin (Dworkin y Miller, 1986) concluyeron finalmente que “sigue sin probarse la existencia de aprendizaje visceral” (p. 299). E! grado en que puede modificarse la conducta refleja a través de procedimientos operantes contintia siendo incierto. Lo que si es seguro es que el reforzamiento procede de manera mucho més r4pida y facil de predecir cuando se aplica a la condueta “volunta- ria” (la cual se media a través de los musculas esqueléticos) que a la “involuntaria” (la cual es mediada a través de los muisculos lisos y gléndulas). Incluso con el mejor de los reforzadores, aprender a bajar la presion sanguinea es més diffcil, que a bajar la voz. @ Nivel de privacién La eficacia de la comida, agua y calor como reforzadorés varia segin ol grado on el que se ha privado a un organismo de éstos. Por ejemplo, E. C. Tolman y C. H. Honzik (1930) 5 210 Sin hambre 3 i g 170 & 150 2 430 Hambrientas 5 = 410. 20 70 Da Moon fel sof = Tg 50 123 4 5 6 7 BY 1011 1213 14 15 1617 Dias Figura 5-10. Privacion de alimento y aprendizaje. Ratas a las que se privé de alimento aprendieron de_ manera més éficaz a correr por un laberinto (el fina! del cual encontraban comida) que aquellas alas que: no s@ habia privado de allmento. Adaptado de Tolman y Honzik, 1930. Procedimientos operantes: Reforzamiento w 131 compararon los efectos de Ja privacién de comida en un reforzador alimenticio. Las ratas recibieron comida al Iegar al final de un laberinto; a algunas se les habfa privado de ali- mento y a otras no. Como muestra la figura 5-10, las ratas a Jas que se habfa privado de alimento mostraron un progreso mucho mayor que las otras. En general, entre mayor es el grado de privacién (p. ej., entre mds largo es al interva- io desde 1a ultima comida), mAs eficaz es el reforzador (Cotton, 1953; Reynolds y Pavlik, 1960), Al menos éste es el caso con los reforzadores primarios {aquellos que se acaban de mencionar) que satisfacen una necesidad fisioldgica. Por ejemplo, el agua es mucho mas reforzante si una rata no ha bebide durante ocho horas que si han transcurtido dos. Esto implica que dichos reforzadores se volverdn menos efectivos a través del curso def entre namiento y esto es, de hecho, lo que sucede. La privacién es menos importante cuando se trata de reforzadores secundarios. El dineco no siempre es menos reforzante para aquellos que son ricos que para los que se han visto “privados de dinero” (p. ej., estudiantes universitarios). De manera similar, el clogio es un reforzador, pero éste no necesariamente se vuelve menos reforzante con cada ocasin en que se recibe una felicitacién, Por tanto, el nivel de privacidn es importante principalmente cuando el reforzador altera alguna condicién fisiolégica. Peter Dews (1959) descubrié que las diferencias individuales en \os aorendices afectan el curso del aprendizaje, incluso cuando éstes son pulpos. Dews deseaba observar si se podia moldear la conducta de tirar de una palanca en tres pulpos, Albert, Bartram y Charles. Cada uno vivia en un tanque de agua salada, con un mecanismo de palanca sujetado al tanque durante las sosiones de entrena- Miento. El procedimiento basico consistia en moldear la conducta al proporcionarle alimento al pulpo cuando se acercara a la palanca, después cuando la tocara y, finalmente, sélo cuando tirara de ella. El aprerdizaje procedié de manera muy adecuada con Albert y Bertram. Charles jambién aprencié a tirar de la palanca, pero las cosas no fueron tan bien con él; en vez de tirar de la palanca mientras flotaba, Charles anclaba varios tentaculos a los lados de su tanque, enredaba !os otros alrededor de la palanca y tiraba con gran fuerza; doblo varias veces la palanea y finalmento la rompi6, io cual condujo a una terminacion no Planeada del experimento. Charles también presentaba un inusual interés en una luz suspendida sobre el agua. De manera repetida la tomaba con sus tentdculos y la jalaba hacia el agua. Esto, como observé Dews, era incompatible con la conducta de tirar de la palanca, Quizé la conducia mas interesante de Charles era la tendencia a lanzar chorros de agua fuera del langue, en general en direccién al experimentador. Dews informé que Charles “pasaba gran cantidad de tiempo con los ojos por encima ce la superficie. dirigiendo un chorro de agua a cualquier individuo que se acercara al tanque. Esta conducta interfirié matoriaimente con la conduccién uniforme de los experimentos y, de nuevo, 9s claramente incompatible con la conducta de tirar de la palanca® {p. 62). La conducta de Charles demuestra que existen diferencias individuales, incluso entre los pulpos. Estas pueden deberse al aprendizaje anterior, la herencia u otros factores. Pero, cualquiera que sea la fuente, dichas diferencias individuales desern- pefian una funcién importante en el curso del aprendizaje operante | a 132 « Aprendizaje y conducta (Capitulo 5) @ Otras variables Las variables que se revisaron en los parrafos anteriores se encuentran entre las més im- portantes para determinar la eficacia de los procedimientos operantes, pero hay otras va- riables que también desempefian una funcién (apartado 5~3). Las experiencias previas de aprendizaje tienen una importancia particular. (Incluso existe evidencia de que, por ejem- plo, gran parte de la diferencia entre escolares con aprendizaje rapido y lento desapare- ce cuando los nifios tienen historiales similares de aprendizaje; Greenwood, 1991.) Una variable importante que ha recibido muy poca atencién es la competencia entre contin- gencias (Herrnstein, 1970). Los efectos del reforzamiento de una conducta serén muy diferentes si ésta también produce consecuencias de castigo o si de manera simulténea los reforzadores estan disponibles para otras conductas. Y existen otras variables. La cues- tién es que cl reforzamiento es bastante més complicado de lo que por lo general suponen aquellos que incorrectamente lo denominan aprendizaje por ensayo y error. Extinci6n de conducta reforzada Se recordar que en el caso del condicionamiento clasico, la extinci6n significa presentar de manera repetida el EC sin el El. En cl aprendizaje operante, la extinci6n significa re- tener las consecuencias que refuerzan una conducta, En uno de los primeros estudios sobre extincién, Skinner (1938) entrené a ratas a oprimir una palanca y después, luego de que se habfan reforzado aproximadamente 100 respuestas, desconect6 el mecanismo de alimentacién. Todo seguia igual que durante el entrenamiento, excepto que ahora la conducta de presién de palanca ya no producia ali- mento, Como podria esperarse, el resultado fuc una disminucién gradual en la frecuencia de presién de palanca (figura 5-11), 8 B g$ a s < -—<—<$<—_— for ——_—_—___—_—] RT Figura 5-11. Curva de extincién. La curva muestra la disminucién en la tasa de respuesta de una rata cuando la presién de palanca ya no producia alimento (comparese con|a figura 5-4). Fuente: Adaptado de The Behavior of Organisms: An Experimental Analysis de B. F. Skinner, p. 75. Copyright © 1938, renovado en 1986. Reimpreso con autorizacién de B. F. Skinner.

También podría gustarte