Está en la página 1de 37
Reforzamiento y aprendizaje Algunos conceptos y principios basicos La idea de que los organismos buscan lo bueno y evitan lo malo es tan vieja co- mo la antigiedad (y los argumentos filoséficos acerca de lo”bueno” y lo“malo” son igual de vetustos). No obstante, en psicologia, lo evidente es que las contin- gencias de reforzamiento asociadas con un comportamiento tienen una relacién directa con el hecho de que el organismo sf ejecute dicho comportamiento. Una pregunta antigua es: zcudl es la relacién entre aprendizaje y reforza- miento? Thorndike (véase el capitulo 1) propuso una relacién particularmente intima en su ley del efecto: el aprendizaje slo ocurriria si habia reforzamiento. Esta idea fue sostenida por muchos de los conductistas y result6 ser una cues- tin que a Hull y Tolman. Con el tiempo, ha sido claro en numerosos ca~ sos, que el aprendizaje tiene lugar sin ningtin reforzamiento, lo cual ha dejado sin sustento a la ley del efecto. Sin embargo, todavia continiia la discusién acer- ca de la relacién del reforzamiento con el aprendizaje. La respuesta fue delinea- da de un modo general en el capitulo 1: el aprendizaje proporciona el conocimiento, y los reforzadores las metas que guian alos organismos a actuar con base en ese conocimiento. Este capitulo trata acerca de la forma en que los reforzadores pro- porcionan esas metas, La tesis basica de este capitulo consiste en que los organismos tienden a com- portarse en forma racional. Usan las contingencias aprendidas en el ambiente y seleccionan el comportamiento que posibilita el mejor estado de cosas para ellos. Suponga que un organismo puede elegir entre cuatro posibles respuestas: RI, la cual inerementa la cantidad de comida disponible; R2, que aumenta el nimero de veces en que el organismo recibe choques eléctricos; R3, disminuye el niime- ro de veces en que consigue alimentos; y R4, disminuye el nimero de veces en que recibe choques. E] organismo no seleccionaria R2 0 R3, porque nada de ellas le beneficia; elegird entre RI y R4 en funcién de cuén importante sea para él ob- tener comida con relacién a evitar el choque eléctrico. Este es un comportamien- to racional. En este capitulo se define con mas detalle dicho comportamiento y se presentan evidencias relevantes para evaluar qué tan racionales son los orga- nismos. En el principio de este capitulo se hace una aclaracién repetida en otras 127 128 Cartruio 4 Reforzamiento y aprendizaje i riencia racional u.dptimo no impli, del libro: el comportamiento en apai eee “Mfberacion consciente de parte del organismo. Mecans. mente una Laing, Mi a ova den producira menudo un comportamient© Ms adap, ‘mos asociativos simples pue tat 0. Por lo regular los organismos tienden a hacer lo correct; no obstant, ml este capitulo se revisan algunos de sus comportamientos que al tse i ‘un vaso medi - Gptimos. Esta situacién puede verse como un Tesde el punto de vista histico, la psicologia ha optado por TS PotPecta medio vacia y ha destacac leeviaciones de lo dptimo. Sin embargo, en aij i I ‘iones 4 f tacado las d : . di los psicélogos han sido sorpren com Seti do pues ia, casos no Optimos pueden en, ) i frecuenci si Optimo de organismos simples. Con ; fenderse como tendencis conductuales, por lo general adaptativas, QWs erro, fl camino hacia situaciones por las cuales no evolucionaron. For ejemplo, la in. clinacién humana por los alimentos dulces refleja una tendencia a seleccionar Comida de alto valor nutritivo en algtin momento de nuestra historia evolutvg Sin embargo, en la sociedad moderna, con su capacidad para crear cas abit Famente productos comesibles, esta tendencia se nulifica cuando selecciong mos las menos nutritivas de las opciones en alimentos. El aprendizaje proporciona un conocimiento de las contingencias de reforzamiento de las acciones, y los organismos por lo general seleccionan Ia accién mais benéfica dado su conocimiento. Comportamiento racional {Qué significa comportamiento racional? Considere una situacién que podria en Contrar una rata en un experimento de laboratorio. Suponga que dispone de tes ‘acciones significativas: puede presionar una palanca, jugar en una rueda girato- ria o no hacer nada (0, al menos, ninguna de las dos primeras actividades). Sx ponga que hay cuatro consecuencias posibles de sus acciones: recibir comida, recibird un choque eléctrico, hard ejercicio, 0 no sucederd nada. El experimentador ha dispuesto contingencias entre cada actividad y cadt resultado, como se muestra en el cuadro 4.1. Si la rata presiona la palanca, exs te 67% de probabilidad de recibir comida y 33% de probabilidad de recibir w choque eléctrico. Si entra en la rueda giratoria, hay una certeza de ejercicio; no hace cosa alguna, hay 90% de probabilidad de que no suceda nada y 10% de que consiga comida, La rata ha aprendido estas contingencias conductuales @ explorar la situacién experimental. Los resultados en el cuadro 4.1 reflejan el pro ducto de su aprendizaje El simple hecho de conocer las contingencias conductuales del cuadro 4! 1no nos dice cual es el comportamiento dptimo para la rata; también necesitam: saber el valor que le da a los diversos resultados. Supongamos que el resultad? de nada tiene un valor de 0, la comida tiene un valor positivo grande de 10,¢ choque eléetrico tiene un valor negativo grande de ~25 y el ejercicio tiene un Algunos conceptos y principios bisicos 129 Cuanro 4. ili 1 Probabilidades de resultados dados los comportamientos Resultados Comportamientos Presionar Ejercicio en la la patanca | rueda giratoria Noda Alimento 7 oo 10 Choque eléctrico 3 00 00 Bjercicio is oo 10 0 Nada 0 00 90 —————— lor positivo moderado de 1. Ahora es posible predecir lo que haré la rata si se comporta en forma racional, La teoria racional plantea que la rata deberia selec- cionar el comportamiento con el més alto valor esperado. El valor esperado de tuna accién se calcula al multiplicar la probabilidad de cada resultado posible por su valor y efectuar la suma de esos productos. Este resultado refleja el valor pro- medio que puede esperarse de tal accién. En el caso de presionar la palanca, hay dos resultados posibles: comida y choque eléctrico. Realizar el célculo para esas dos variables produce Probabilidad (comida) x Valor(comida) + Probabilidad(choque eléctrico) x Valor(choque eléctrico) = 67 X 10.0 + .33 x -25.0= -1.55 En el caso de entrar a la rueda giratoria, sélo hay un resultado posible. Su valor se calcula como: Probabilidad ejercicio) x Valor(ejercicio) = 1x 1.0 = 1.00 Por tiltimo, en el caso de hacer nada, hay dos resultados posibles: Probabilidad(nada) x Valor(nada) + Probabilidad(comida) x Valor(comida) = 90x 0.0 + .10 x 10.0 = 1.00 Por tanto, el ejercicio en la rueda y hacer nada tienen igual valor, por lo que se puede predecir que la rata alternara entre ambas. Sila rata queda saciada en for~ ma tal que la comida pierda su valor, entonces se puede predecir que la rata se- leccionaré exclusivamente el ejercicio en la rueda giratoria. Sila rata tuviera mas hambre y la comida aumentara su valor, la rata seleccionaria no hacer nada; si tuviera suficiente hambre (y la comida se aproximara a un valor de 15 0 més), la rata seleccionaria presionar la palanca a pesar de los choques. Si se manipulara el hambre de la rata, es probable que alternaria entre la rueda giratoria, hacer nada y presionar la palanca, como lo plantea este anélisis racional. Este comportamiento no significaria que el animal estaba representan- do en forma explicita probabilidades, valores y calculando valores esperados, lo 130 Cartruro 4 Reforzamiento y aprendizaje rata, Mas bie cual es extremadamente poco plausible en el case = bo mie pa — & bo able que la rata estuviera haciendo algo mucho ma Ste eotaine com, ae ae aaj eatuviera enfrascada en célculs raciondies TT TPE expen, PoraTe cmos mecanismos simples para seleccionar él comps nto apre piado. ‘acional implica la combinacién de las Itados de las acciones con sus valores ‘on el valor mds alto esperado. El comportamiento probabilidades de los rest y la selecci6n de la acci6n ci © Efectos del reforzamiento sobre el aprendizaje nel andl dro 4.1 esté implicito que aprender las contingencias o pro seidteae Gis wpe Pro no depende del reforzamiento. Por ot babilidades que aparecen en el mismo fe create actia el animal dado el conocimient, parte, el reforzamiento determina com ui Fe esas probabilidades. Entonces, la afirmacién de que el aprendizaje no depen. de del meforzamiento es bastante notable. Ciertas cosas son més utiles para un organismo, y por tanto es ventajoso para éste aprender esas cosas en lugar de otras. La evidente ventaja adaptativa de hacer que el aprendizaje sea contingen. te con la recompensa fue parte de la intuicién de los primeros tedricos del apren. dlizaje, quienes infirieron la conexién entre reforzamiento y aprendizaje. Sin embargo, parece que tal conexién no existe. En el capitulo 1 revisamos la inves. tigacién de Tolman sobre el aprendizaje latente en la rata, pero algunas de las mejores investigaciones sobre la funcién del reforzamiento en el aprendizaje se han realizado en sujetos humanos. Estas investigaciones no sélo indican que el aprendizaje no depende de la recompensa, ademas muestran cémo, no obstan- te, las contingencias de reforzamiento pueden influir en lo que se aprende. En el caso de numerosos experimentos, se dice a los sujetos que obtendrin mas recompensa por aprender algunos elementos que otros. Tales experimentos consisten en hacer que los sujetos aprendan listas de palabras u otros estimulos verbales. Entonces, los sujetos responden aprendiendo més rapido los elemen- tos de mayor valor. Por otro lado, si la manipulacidn entre sujetos se hace de modo que a algunos se les dice que todos los elementos son mas valiosos de lo que se les dijo a otros sujetos, la recompensa no tiene efecto (por ejemplo, Har- ley, 1965). Por tanto, una linea de investigacién (cuando la recompensa es ma- nipulada intrasujetos) parece indicar que el aprendizaje depende del reforzamiento, mientras que otra linea de investigacién (cuando la recompensa es manipulada entre sujetos) parece indicar que no es asi. La explicacién de estos resultados aparentemente contradictorios proviene de estudios relativos a la forma en que los sujetos asignan su tiempo como und funcién del reforzamiento. Un experimento tipico es el de G.R. Loftus (1972). £1 presenté a sus sujetos pares de pinturas naturalistas para que las estudiaran dk rante tres segundos, Al elemento de la izquierda de un par se le asignaban 1,5 09 puntos, y-al elemento de la derecha del otro par se le asignaban 1, 5.0.9 pun- tos. Mas tarde, estas imagenes se mezclaron con otras que no se habian presen Algunos conceptos y principios baésicos 131 Voor de oa pinura teins 2 5 puntos on tL tome aol rae tain £10 : swum i i) ; so 5 pnts jo $50 i i 240 1 20) 9 r 3 9 Valor de pinta (nts) a » FIGURA 41 4) Probabilidad de reconocimiento yb) mimero iedio de fijaciones pa- 12.Pinturas que valen 1, 5 y 9 puntos, Se trazan curvas separadas para cada uno de los tres valores de la pintura con la que formaba par. (Tomado de G.R. Loftus, 1972.) 5 oor de a pinta (puntes) tado, antes ¥.se pedia a los sujetos que identificaran_las pinturas que habjan es- tudiado. Los sujetos recibieron puntos adicionales en proporcién al valor de las Pinturas que pudieron reconocer. La figura 4.1n muestra la probabilidad de re- conocer la pintura objetivo como una funcién de su valor y el valor de la pintu- ra con la que formaba un par. Los sujetos mostraron mejor memoria de 4s puntos se le hubieran asignado a 6 reconocimiento para una pintura entre fa y menos puntos se Je hubicran asignado.a la otra pintura del par. Dicho ex Perimento es similar a Jos estudios mencionados antes, que muestran los efectos de la recompensa cuando ésta varia dentro de un conjunto de elementos Loftus también observ cudn a menudo se fijaban los sujetos en cada pi tura durante los tes segundos de exposicidn. Ess datos se presentan en leh gura 4.1b. Los sujetos se fijaban mas en la pintura si era de mas valor que la otra Este resultado plantea la cuestién de si el desempefio de la memoria es una fun cidn del valor de la pintura 0 del ntimero de fijaciones. Loftus hizo el andlisis re- levante de la figura 4.2, donde el desempeio de la memoria se traza como una funcién del niimero de fijaciones para pinturas de diferentes valores. Como pue- de verse, el desempeiio de la memoria fue una funcidn de cusn a menudo fija- ron la vista los sujetos.en.la pintura y.no.de cudnto.era su valor. Como ilustra la figura 4.1, los sujetos tendieron a mirar mas las pinturas de mayor valor y, por tanto, muestran una mejor memoria para esas pinturas. Sin embargo, como con firma la figura 4.2, cuando Loftus control6 el mimero de fiaciones recibidas por una pintura, el valor no tuvo efecto. Estos resultados reflejan la comprension ge= neral de la influencia de la recompensa sobre la memoria, La gente (y presumi~ blemente otros animales) tiende a dedicar més tiempo a poner atencién en el 132 Cartruro 4. Reforzamiento y aprendizaje FIGURA 42 Probabilidad de e-tpats —_miento como una funcin del ng Timm folder ijaciones. Se az una ct cosine paraa para is pinta que vai BPS puntos Fuente: CR. Lotta fixations and recognition memory (t fate, Cgnie Polo, ae Bena), Retmpreso con auorass del autor 5 03} pen or 1 mero de tyciones material que vale més para ella, pero la recompensa no afecta lo bien que apre, et al material . cbr neetee Cuando diferentes elementos de una lista tienen més Vator, ass jetos tienden a asignaries mds tiempo a ells y a recordarlos mejor. Si todos y Jets eae una lista tuviran el mismo valor, ls sujetos ro podran asi, Tee repo en forma difeencial como una funcin dela recompensa, En esieg ee efor asignado a los elementos no tendria efecto sobre el aprendizae material asociado con Los organismos ponen més atencién al Ia Ia atencién, no hay una recompensa mayor, pero si se control efecto de la cantidad de recompensa en el aprendizaje. Recompensa y castigo Los resultados o estimulos que se hacen contingentes con el comportamieni pueden ser deseables o aversivos. Cuando son deseables es normal refers Ios estimulos como recompensas, y cuando son aversivos es mas convenienter ferirse a ellos como castigos. Cuando los organismos producen la respuesta « cuestién, la contingencia puede ser tal que el estimulo sea dado o no sea dais El cuadro 4.2 ilustra las cuatro posibilidades ldgicas obtenidas al cruzar los ® timulos deseables o aversivos con diferentes contingencias entre el estimuloy! respuesta. En el primer caso, la recompensa se hace contingente con un «o® portamiento. Por ejemplo, a un nifio puede darsele una suma de dinero por Algunos concepts y principios bisicos 138 CuapRo 4.2 “ ; lo y contingencia sobre la respuesta sjecuta Estima eliminado si se ejecula No el comportamiento ne Reforzamiento positive i (entrenamiento de fcompons) Ercan Estimulo oe oman Castigo Reforzamiento negativo Eee dar el césped, situacis To deseable se hace corp amiem Eel segundo caso, la prdida de un estimu- dle muchos padies oan nget® eon el comportamiento. Eta a respuesta favorita noce como entre arena Comportamiento:”;No vasa salir!” SituaciOn que se co- imiento, La tercere pesgit® POF omision y que debera disminuir el comport pitti lao ide hacer contingente un estimulo aversivo con la otra wan ate tna fespuesta, Este es el castigo clésico, como una nalgada, que deberia disminuir el comportamiento. La posibilidad final es que la de- saparicion de un estimulo aversivo sea contingente con el comportamiento, si- tuacion que se conoce como reforzamiento negativo, y que deberfa hacer més probable el comportamiento. Cuando el comportamiento evita que ocurra el es~ timulo aversivo se llama evitacién, y cuando elimina el estimulo aversivo se lla- ma escape. El supuesto fundamental es que estas contingencias controlan de cerca el comportamiento. Durante un largo tiempo, los tedricos del aprendizaje fueron renuentes a aceptar semejante proposicién porque parecia implicar que algo en cl futuro (el reforzamiento) causaba la respuesta. Las causas solo funcionan ha cia adelante en el tiempo, y asi el reforzamiento futuro no puede causar el com- portamiento presente. Como se revisé en el capitulo 1, Tolman fue criticado por su propuesta de que los animales ejecutaban ciertos comportamientos debido a que esperaban que éstos conducirian a ciertos resultados deseables. En el capi- tulo 1 también se revisé la contribucién importante de los modelos de simula- cidn, como el SGP (Solucionador general de problemas) de Newell y Simon, los cuales mostraron cémo el conocimiento de las contingencias, aprendido de la experiencia, podria dar como resultado el comportamiento dirigido a una meta. Es el conocimiento o expectativa de reforzamiento, basado en la experiencia pa- sada, lo que causa que el animal se comporte como si sus acciones estuvieran determinadas por el futuro. No todos los organismos que exhiben aprendizaje instrumental se comportan como SGP, pero el SGP demuestra que hay formas ‘mecénicas en las cuales el conocimiento de las contingencias puede controlar el comportamiento. Se han propuesto muchos otros mecanismos desde entonces, algunos de los cuales pueden ser més plausibles para los organismos inferiores. En muchos casos, el conocimiento de las contingencias no es explicito o cons- ciente; més bien, es conocimiento implicito en el procesamiento de! organismo. 134 CAPETULO 4 Reforzamiento y aprendizaje Un chimpancé entrenado para intercambjg, fichas por alimento, 1 en los experimentos de condiciona- rma que obtienen estimulos deseables Los organismos se comportai miento instrumental de tal fo xy evitan estimulos aversivos. norm} ejesibiratye ob eiptiis! Sonn a TN Control aversivo del comportamiento Los cuadros 4.1 4.2 sefialan que los estimulos aversivos, como un choque elée trico, son efectivos para controlar el comportamiento y sus efectos son simétr cos con los efectos de estimulos deseables, como la comida. Como se sefialé en el capitulo 1, respecto a las actitudes de Thorndike acerca del castigo, ha habi- do una larga tradiciGn en la psicologia popular en creer que el castigo no es efec- tivo. En resumen, estas creencias son desacertadas. Esta seccién revisa la evidencia de que los estimulos aversivos son bastante efectivos, y expone cémo maximi- zar su eficacia. Los estimulos aversivos pueden usarse en el castigo para dismi- nuir la tasa de alguna respuesta o en el reforzamiento negativo para incrementat Ja tasa de.alguna respuesta que sitve para eliminar el estimulo aversivo (véase el cuadro 4.2). Castigo En ocasiones el castigo puede ser tan efectivo que una sola experiencia de apren- dizaje elimina un comportamiento. Es poco probable que si un nifio toca una es Control aversivo del comportamiento 135 3 8 FIGURA 43. Porcent, uestas como una fun Porcentsie medio de respuestas aje medio de res- cidn de las sesiones Po control de choque no contingente. (To. a mado de Camp y cols., 1967.) erates Demora del castigo, segundos ; {ufa caliente lo vuelva a hacer. En un paradigma experimental (Jarvik y Essman, 1960), una rata es colocada sobre-una plataforma si s0-de raja Cuando pisa fuera de la plataforma recibe un choque eléctrico doloroso. Des- pués de una Sola experiencia,ta-rata-no pisard.abajo otra vez, Aprendi6 a supri- mir por completo una.tespuesta natural en.un solo ensayo. Varios factores influyen en la efectividad del castigo. Uno de los més impor- tantes es la der ‘ste entre la respuesta y el castigo (del mismo modo eit que Tz demora dal telatzamienle postive aescon heehee) Eo perimento que ilustra los efectos de la demora, Camp, Raymond y Church (1967) contrastaron varios grupos de ratas. Primero cada grupo era entrenado para pre- sionar una palanca en respuesta a un chasquido, luego de lo cual las ratas eran reforzadas con comida. Después de este entrenamiento, la mitad de las ocasio- nes que presionaban Ia palanca resultaba en un choque con demoras variables. Para un grupo, el chogue eléctrico venia inmediatamente después de presionar la palanea, y para otros grupos venia 7.5 0 30 segundos después. Un grupo con- trol de ratas recibié igual nimero de choques eléctricos, pero los choques no se relacionaban con el momento en que presionaban la palanca. La figura 4.3 mues- tra el porcentaje de chasquidos ante los cuales las ratas presionaron la palanca. Notese que el grupo en el que operd una demora de 30 segundos muestra sélo un poco mas de supresién de la presidn de la palanca, que el grupo control pa- ra el que no habia contingencia. (Es decir, los choques se presentaban segiin un programa que no se relacionaba en absoluto con el momento en que era presio- nada la palanca,) Ocurrié mucha mds supresién de la presidn de la palanca en las ratas que recibfan el choque inmediato. Es facil extrapolar este resultado obtenido con ratas y llegar a la conclusién de que el castigo debe ser inmediato con los humanos, en particular con los ni- a 136 Captruro 4 Reforzamient y aprendizale o8 06 * i Hoa s i 4 Mediana de la prop ( AA le a proporcisn, Z ucian como una fancion dea inj Supra chogue eléctico No contingeny es valors nfrioes refean un fen la supresion de las res FL? Sere a irae fo de Chih, 1969) Intensad del choge, mA ¢ les puede informar la contingencia gx ios 5 it dos mine castige, es probable que la inmediater dy ios, Sin embargo, como a to y el ca existe entre el comportamient castigo no sea tan importante. se aes a del eatigo también puede tener una fuerte influencia en la, resign de la respuesta. La figura 44 muestra datos de Church (1965) sobre pantidad de supresi6n (véase la exposicién de la supres Oo de respuesta en |g fexpuesta emocionalcondiionada [REC] con respecto 2 Figura 2.9) en la pe. ‘ion dela palanca para diferentes niveles de severidad del choque (incluyends siieeneia de choque) Selo hubo una pequefa supresién con 15 mA (iliamp ves) de descarga, una buena cantidad mas con .50 mA, y todavia més con 2) mA. Extrapolar este resultado a los seres humanos plantea algunas de ls cus tiones étices en el uso del castigo, ya que ciertos grados de castigo simplemen te son excesivos para ser usados. Para que el castigo sea efectvo, deberia ser aplicado en forma consists con un nivel tan severo como sea aceptable. N.E, Miller (1960) encontré ques se introdujeran castigos moderados y enseguida se incrementara su severidad,¢ organismo se volveria menos sensible al castigo y aun en su nivel més severo serfa tan efectivo como habria sido si fuese introducido de inmediato (un ejer- plo de la habituacién descrta en el capitulo 2). Azrin, Holz y Hake (1963) en contraron que la efectividad del castigo se reducia si solamente algunas respuests eran seguidas por el castigo. Church (1969) examind el efecto del castigo no contingente sobre el casi: contingente posterior. A las ratas se les entrené durante diez sesiones de 30 rnutos, en las que aprendieron a presionar una palanca a cambio de comida. las sesiones 11 a 15, un grupo experimental recibié al azar descargas eléctrcs de 105 voltios, independientes de las respuestas, mientras un grupo contro tinué recibiendo sélo reforzamiento durante esas sesiones. Ambos grupos fit Control aversivo del comportamiento 137 a Cipocim ] Reever [Ss | mone? T FIGURA 4.5 Mediana de la tasa de res- Puesta ante un castigo de 145 voltios co mo una funci6n de Ta exposicién previa a un chogue elgetrice no\contingente de 105 voltios. (Tomado de Church, 1969,) Sesion 8 T Tata 6 respuesta come porcentaje del nes base 8 T ron entrenados de nuevo pero sin choques durante las sesiones 16 a 20, Por uil- timo, durante las sesiones 21 a 25, ambos grupos recibieron choques de 145 vol- tios contingentes con la presién de la palanca. La figura 4.5 muestra los resultados en funcidn de tasas de respuesta relativas a las tasas durante las diez sesiones iniciales. Durante la descarga no contingente inicial, las ratas del grupo experi- mental presionaron un poco menos, mostrando una REC (véanse los capitulos 1 ¥ 2), Se recuperaron durante el reentrenamiento y continuaron con un nivel al- to de respuesta durante la fase final, cuando la descarga se hizo contingente a la respuesta. En contraste, las ratas del grupo control mostraron una supresion casi completa en la fase final, cuando la descarga se hizo contingente con su res puesta. Las implicaciones de este experimento son claras: si el castigo ha de ser efectivo, debe ser contingente tinicamente con la respuesta que se intenta supri- mir. stige eden hacer ineficaz su uso po El castigo es mucho mas efectivo si al organismo se le ofrecen respuestas al ternativas. Con frecuencia, el comportamiento que deseamos eliminar ocurre por- que ef organismo de alguna manera lo encuentra reforzante: si se ponen a disposicién del organism6 otras respuestas que proporcionen estos reforzadores, serd mas facil eliminar el comportamiento indeseable. Por ejemplo, si las perso- nas son capaces de trabajar para ganar dinero, de modo que no tengan que ro- bar, los castigos por robar (por ejemplo, el encarcelamiento) seran mas efectivos para disuadir el comportamiento. Un experimento realizado por Azrin y Holz (1966) muestra la importancia de ofrecer un comportamiento alternativo a fin de que sea efectivo el castigo. Primero se entrenaron palomas para picotear en una tecla y recibir alimento. Lue- go recibieron una descarga eléctrica por picotear en la tecla. Habia dos condi- ciones: en una habia una tecla més que podian picotear y en la otra sélo habia una tecla. La figura 4.6 muestra la respuesta a Ja tecla con la que recibian des- carga eléctrica como una funcién de la intensidad del choque eléctrico, hasta al- 138 Cartruro 4 Reforzamiento y aprendizaje ena ‘sponte \ 1 sinrespueste 1 staratia ‘sponse i \ \ cor ah ton ol Intensidad de! castigo, voitios i 1a funcién de la inte plication, Honig (ed.). Derechos reservados © 1966, P 405. Reimpreso con autorizag, fe Prentice-Hall, Englewood Cliffs, Nueva Jersey: | rededor de 40 voltios, Sin embargo, la intensidad de la descarga no era lo tante severa para afecar la respuesta a la tecla. No obstante, a 50 voltios tao suficiente intensidad para producir un cese completo de la respuesta y un cay 4 la tecla alternativa, en la condicién en que habia otra tecla. En la cond cién sin la tecla opcional, las palomas persistieron en picotear cuando la descag era mucho més intensa. Testa revision del castigo no debe entenderse como tina exhortacin aus Jo como un mecanismo importante para controlar el comportamiento de es ios o de otros. El castigo puede tener diversos efectos secundarios negatives seis ‘Aarin'y Hole (1966) afitmaron que el castigo puede conducir a una supresinge neral de todos los comportamientos, buenos y malos; puede conducir tanto enojo en la persona castigada como motivar el engaito para evitar el castigo. Le nifios algunas veces mienten a sus padres como respuesta a castigos pasads) asi evitan los castigos futuros. Ademés, existe evidencia de que el castigo cr duce a comportamientos més agresivos en la persona castigada (Ulich y Az 1962). Por iiltimo, los niios pueden usar el castigo en forma inapropiada en s* interacciones con sus compafieros, copiando el comportamiento de sus pas hacia ellos. (Eron, Walder, Toigo y Lefkowitz, 1963). El castigo es efectivo cuando se administra de inmediato, con | | severidad y en forma consistente y en la medida en que se ofrecen al organismo comportamientos alternativos. Control aversivo del comportamiento 139 Reforzamiento negativo Frerisime modo en que el comportamiento puede mantenerse porque lograes- * leseables, también logra mantenerse en cuanto evita estimulos aversi- vos. Solomon y Wynne (1953) colocaron un perro en un compartimiento con un Piso enrejado de acero. Al principio de un ensayo, la luz se apagaba; 10 segun- dos después se enviaba una severa descarga eléctrica por la eeilla, esto causaba que el perro coztiera por todos lados tratando de eseapar: para hacerlo podia sal- tar sobre una barrera y asi evitar el choque eléctrico, y con el tiempo brincaba la barrera para caer dentro de otro compartimiento libre de corriente eléctrica, En lunos cuantos ensayos aprendié a saltar la barrea al presentarse la sefal y de es te modo evitaba por completo el choque eléctrico. Una caracteristica curiosa de dicho comportamiento de evitacién es que pue- "er mucho mas dificil de extinguir que el comportamiento mantenido por re- ‘amiento positivo. Si ya no recibe comida por algtin comportamiento, como brincar por encima de una barrera en respuesta a un estimilo, un perro cesa pron- to su comportamiento. Por otto lado, si se elimina el choque eléctrico, el perro continuard respondiendo sin ninguna sefial de extincién durante 200 ensayos, escapando incluso més rapido (Solomon, Kamin y Wynne, 1953). El comporta- miento de evitacién del perro le niega la oportunidad de aprender que la con- tingencia del tono y el chogue ya no est en funcionamiento. Hay dos maneras de extinguir un comportamiento de evitacién. Si el choque es administrado aun- que ocurra el comportamiento (Davenport y Olson, 1968), el animal aprende que no hay contingencia entre el comportamiento y la evitacién del choque eléctri- co. El comportamiento de evitacién también puede extinguirse impidiendo que el animal lo ejecute. Baum (1969), en un estudio de evitacidn en ratas, introdu- jo una barrera del piso al techo que impedia que escaparan las ratas. Después de aproximadamente cinco minutos de exposicién forzada a la situacisn aversi- ‘va anterior, las ratas parecian aprender que ya no habia una contingencia entre el tono y el choque La prevencién del comportamiento de evitacién puede usarse en la terapia para ayudar a los pacientes a deshacerse de sus fobias. For ejemplo, un nifio de 11 afos al que aterraban los ruidos estrepitosos fue persuadido a pinchar una serie de globos (Yule, Sacks y Hersov, 1974). Después de unas cuantas sesiones de pinchar globos, el nifio perdié la fobia y pudo disfrutar reventando los glo- bos como lo hace la mayoria de los nifios. Esta terapia funcioné porque se logrs que el nifio se percatara de que no pasaba nada terrible tan sélo porque habia un ruido fuerte. La teoria clasica del aprendizaje de evitacidn es la teoria de los dos proce- s0s, propuesta por Mowrer (1947) y ampliada por Miler (1951). De acuerdo con Ia teoria de los dos pracesos, hay dos pasos en el aprendizaje de evitacién. Pri- mero, existe una fase de candicionamiento clisico producida por la presentacién conjunta del EC (por ejemplo, el tono) con el El (por ejemplo, el choque eléctri- co). De acuerdo con la teoria de los dos procesos, el EC llega a producir el mie- do como una respuesta condicionada. El segundo paso implica el condicionamiento instrumental de la respuesta de escape porque eliminé el EC que habia adquiri do propiedades aversivas. de s forz: 140 Cartruio 4 Reforzamiento y aprendizaje izaje de evitacion en UP omponetiside condicion te de condicionamiento ins al sigue i gee teora de 18 dos PFOCOS €5 SU Cong recionariento instrumental. Lag pe? nto csico y del instrumental parce 1 la respuesta condicionada de teng, Ja que se aprende como Et ios en el epiiog sobre COndicig 1a ue oe area, ands bien es el Bl el que $© cOndlCOns Ce ee Ee decir, el animal llega a esperar que el FS A acd con frecue de eg, tacién se da en anticipacién del EL ‘Aunque el EC prove STE yan Cia mie Ulovelonimal dard la respuesta de evtacio incluso CHP YT 38 90 prov swe. Por ejemplo, Kamin, Brimet y Black (1962) moet) gut os anima continuaron evitando la respuesta incluso después de ae dl : ‘bia perdide su capacidad de provocar una respuesta emocional condicionada (supresién 4 Ja presién de la palanca; véanse Jos capitulos ly 2). ara Segundo, al parecer la eliminacion del EC no es neces ra ra aprender jy respuesta de evitacidn. Kamin (1956) mostro que los animales aprendian up, respuesta de evitacién incluso cuando el EC permancci® después de la respuey. te or tanto, los animales aprendieron aun cuando no estuvicran climinang, tT EC Otra demostracin de que la eliminacién del EC no es necesaria par aprendizaje es proporcionada por el procedimiento de posposicin del chose eléctrico de Sidman (Sidman, 1966) en el cual no hay un EC evidente. Este pro. cedimiento implica presentar un estimulo aversivo, como un choque eléctrcy, Sin advertencia cada cierto tiempo. Sin embargo, el animal puede evitar el timulo si ejecuta alguna respuesta. Por ejemplo, al presionar una palanca,e animal podria posponer el choque por 30 segundos. Si presiona la palanca ey ese periodo de 30 segundos, consigue una suspensidn temporal de otros 30se- gundos desde el instante de esa nueva presién. Si el animal presiona la pala ca al menos una vez cada 30 segundos, evita el choque en forma permanente LLos perros dominan bien esta tarea, responden sélo unas cuantas veces per minuto y evitan casi todos los choques. El contexto experimental sirve como! EC para este comportamiento, pero la respuesta no se libra de este EC, sil del El. En el capitulo 3 expusimos la evidencia de que en el reforzamiento posi el organismo ha aprendido una asociacién entre el EC, la respuesta y dicho forzamiento. El anélisis correspondiente en el caso del reforzamiento negative (por ejemplo, Seligman y Johnson, 1973) es que los animales han aprendido us asociacién entre el EC, la respuesta y la evitacién del estimulo aversivo. Del mis mo modo en que los organismos aplican su aprendizaje para seleccionar el co™ portamiento en el caso del reforzamiento positivo, también usan el conocimien® de esta asociacién en el caso del reforzamiento negativo. Esta division del aprendi miento clésico y un component aceptada. Lo que es problematico of ‘cin del condicionamiento clasico y 4° pectivas mas modesnas del condicionsi™! A 2 mas apropiadas. Primero, no parece (Ue S :C. Como sefialam« Pueden mantenerse patrones estables de comporta éstos evitan consecuencias aversivas, La naturateza del reforzamiento 141 pa GN La naturaleza del teforzamiento qeoria de la reduccién de la pulsién ¢Qué hace reforzante a reforzadores po ‘vos son malos, tivos de sobre descendientes. El problema co qué es bueno para él en térmi Puesto varias pulsiones: cons dolor, las cuales, perfecta, un reforzado Vos son buenos los coneeptos”b encia del oy ? Una idea obvia de la biologfa es que los Para el organismo y los reforzadores negati- "ueno” y"malo” son definidos en términos evolu- rganismo y de maximizacién del mimero de n esta perspectiva es que un organismo no sabe iNos tan abstractos. Por consiguiente, se han pro- tumir alimentos, beber agua, copular y escapar del conte oe estan correlacionadas, aunque de manera im- reducen osatistacen cons tas 2 més largo plazo. Los comportamientos que Pectiva se conoce con Pulsiones son reforzantes para el organismo. Esta pers- mmiento, y ha teniden eng (Cor ae la reduccién de las pulsiones del reforza- ” ¥ ha tenido una larga historia en la psicologia, Una pulsion se entiende como un estimulo aversivo que puede volverse més extremo a medida que el organismo bajo privacin. Para cittas pulsiones, como el hambre y la sed, esta proposicisn es intuitiva. Casi todos nosotros hemos sen tido hambre, encontréndolo aversivo, y mas atin si continta la privacion.! El mayor problema con la teoria de la reduccién de la pulsidn del reforza- imiento e5 que los organismos pueden ser reforzados por acontecimientos que no tienen valor biol6gico obvio y para los cuales es extrafio proponer un estimu- lo de pulsién cada vez més aversivo, Por ejemplo, Butler (1953) encontrd que los monos aprenden a ejecutar un comportamiento tan sélo por la oportunidad de echar una mirada al laboratorio por unos cuantos instantes. Las ratas aprenden comportamientos por la oportunidad de correr en una rueda giratoria. Se po- drian postular pulsiones de cutiosidad y pulsiones de ejercicio (quiz con el abu- trimiento el estado aversivo) y especular acerca de su valor biol6gico potencial (por ejemplo, los valores del aprendizaje acerca del ambiente y mantenerse en forma), pero a mucha gente le parece que equivale a crear una teoria bastante hueca. Cualquier comportamiento pudiera explicarse al postular una pulsién pa- ra él y proponer alguna funcién biolégica caprichosa. Ademés, tales pulsiones hipotéticas no encajan bien con las experiencias de privacién de necesidades bio- légicas mas basicas. Mucha gente pasa toda su vida sin un fuerte deseo de ejer- citarse, similar al deseo que tienen de comer después de un dia sin-alimento.> Un problema todavia mas serio para la teoria es que el comportamiento puede ser reforzado por cosas que no reducen las pulsiones o que incluso las incremen tan. Por ejemplo, ratas macho recorrieron un laberinto por la oportunidad de copu- Jar con una rata hembra, aun cuando no se les permitio eyacular (Sheffield, Wulff y 7 Sin embargo, con frecuencia parece haber un limite a incremento de la avesividad si contnda el period de pivacién. 2 Algunos atletas y otras personas, sin embargo, reportan tales deseos, 142° Cariru to y aprendizaje 10.4. Reforzamiento y 4?! ij ‘s las por un co; pan siendo reforzadi tas macho esta . : "hn Backer, 1951). Las 1 estat Se a pulsion aume™ a de miembros atractivos det gen! yba con une i que las deja te la compa jembros aati dl manos encuentran reforz: ren simple compan a eel omens mane pons a8 SP gi pln bales My ’ que la : puede ser reforzante, més i ie as pulsiones propuso que el pie ccién de varias pulsiones i dt La teoria de la ree all reforzamiento consist bioldgicas. Teoria del reforzamiento de Premack ; Estas dificultades condujeron a ona cone a infuido en muchas rack (1959, 1965). La propuesta de Prenne Fon los que refuerzay ® subsecuentes, es que las respuestas N91 TT mento, som reforzantes pe* tsi esque los reforzamintos tics, 2m? ee rn que implican comportamientos muy val0rad0s, ore cue un ee tos tienen valor para el organism ¥ que Un cop, que todos los comportamiento: ortamiento de menos valor portamento més valorado refuerza aun comportaminve ©” LI vier. tanto, comer refuerza el hecho de correr en una rueda gieton Pata una ry hambrienta, debido @ que comer es mis valioso que cores FI Valor relatvog las dos actividades puede determinarse de varias maneras. Un metodo es obs, var la frecuencia de cada actividad cuando el organismo tiene la oportunidad ¢, efectuar ambas. Una rata hambrienta pasa més tiempo comiendo que corrieng, en una rueda giratoria, Otro método es ensefar al animal un modo de conse, guir cualquiera de los dos reforzamientos; por ejemplo, presionar una palancs produce comida y presionar otra permite el acceso a la rueda gitatoria; el resu) tado escogido mas a menudo es el preferido. Las predicciones basicas de la teoria de Premack han recibido mucho apo. yo. Por ejemplo, una rata sedienta puede mostrar que prefiere beber en vez de correr en una rueda giratoria, y se incrementard su tasa de correr en la rueda g} ratoria si ese comportamiento le da acceso al agua. Por otra parte, una rata que no esté sedienta puede mostrar que prefiere correr en la rueda giratoria en lu. gar de beber, e incrementaré su comportamiento de beber si eso le da acceso a una rueda giratoria (Premack, 1962). Premack (1959) encontré resultados simi: Jares con nifios, Algunos nifios prefirieron comer dulces en vez de jugar en una maquina de billar automatico. Si el acceso a los dulces se hacia contingente con jugar en la méquina, su tasa de jugar en la maquina aumentaba. Sin embargo, si jugar en la maquina se hacia contingente con comer dulees, su tasarde come dulces no cambiaba o disminuia. Se observaron las relaciones inversas en los nifios que preferian jugar en la maquina que comer dulces. De acuerdo con Pre mack, el castigo ocurre cuando un organismo es forzado a realizar un compor tamiento menos valorado con la consecuencia de realizar un comportamiento de més valor. Por tanto, forzar a los nios que prefiieron los dulces a jugar en la maquina para poder comer dulces reducirfa su tasa de comer dulces alternativa desarrollada pop La naturateza del reforzamiento 143 400 ae } 4 coh one FIGURA 4.7, Comparacién de las tasas = base de correr y lamer para ratas pri vadas de agen ral Gaya Privadas de agua. Finda sebik Premack (1971) describié un experimento de Weisman y Premack (1966) que ilustra la relatividad en los conceptos de reforzamiento y castigo. Compararon Tatas que fueron privadas de agua y otras que no lo fueron. Cuando les ofrecie- Ton accesos simulténeos a una rueda giratoria y a un bebedero, las ratas sin agua pasaron mds tiempo lamiendo el bebedero que corriendo, mientras que las ra- tas no privadas pasaron mas tiempo corriendo. La figura 4.7 muestra la cantidad de tiempo invertido en las dos actividades en las dos condiciones, cuando las ra- tas podian elegir realizar cualquiera de las dos. Premack us6 esta informacién de leccién libre para establecer el valor relativo de las dos actividades. Para las ra- tas privadas de agua era més valioso beber, mientras que para las otras correr en la rueda giratoria era més valioso. Luego Weisman y Premack introdujeron una contingencia tal que si una ra ta lamia 15 veces el bebedero tenia que correr por cinco segundos y no podia correr mas de cinco segundos. ¢Qué haria esta contingencia a su comportamien- to de lamer? Para las ratas no privadas, la rueda giratoria era més valiosa, y es- ta contingencia reforzaria el comportamiento de lamer. Para las ratas privadas, la rueda era menos valiosa, y por tanto tener que correr en ella deberia castigar el comportamiento de lamer. La figura 4.8 compara las tasas de lamer antes y después de la introduccién de la contingencia. Como predijeron, la contingen- cia reforz6 el comportamiento de lamer para las ratas no privadas y aumenté su tasa de lamidas. Por otra parte, castigé el comportamiento de lamer para las ra~ tas privadas y disminuy6 su tasa de respuesta. Premack propuso que hacer contingente un comportamiento A con un comportamiento B reforzaria B si A era més valioso y castigaria B si A era menos valioso, miento Y aprendizaje 144 Cartruto 4 Reforzat ats prada a8 tas pads FIGURA48 Impacto de ung cine lamer y corer eng, midas para rata privadas cod ae ee ‘que no estaban privadas, yi catingenca Bases nerviosas del reforzamiento Los conocimientos sobre el reforzamiento (y las ile a : a de}, reduccién de la pulsién y la teoria de Premack) pueden obter ; a los esty. dios de los mecanismos cerebrales implcados en el reforzamiento. Mucha 4 estas investigacones indican que una estructura paticularmente importante ¥2 el reforeamiento es el hipotlamo, una estructura subcortical del cerebro (ee se la figura 1.15), Desde el punto de ita flogentico, el hipotélamo es una par, ‘muy vila del cerebro. Sis expan diferentes partes del hipotlamo, los ay imales commen con exceso, dejan de comer o bebe, o muestran pérdida del con Epulmento sexual. La estimulacin elétca de dieentsregiones puede acting ‘t apetito y ol comportamiento sexual (para una resin, vase Stein, 1998) rae, Milne (0954) encontraron que la esimulacén elética del dress Petalica del cerebro de las ratas también pod servi como un reforsede, agettas aprendieron a presionarpalancas o realizar ote atvidades @ de blemas neurol6gicos severos, como la epilepsia, ry {08 asociados con la autoestimulacién, incluyendo sensne excitacién sexual (por ejemplo, Heath, 1963) Stein (1978) alizmé que los neurotransmisores especies en estas regiones del cerebro son distintos de otros neurotransmisores dese g Punto de vista bio- uimico, Hay evidencia de que los efectos de farmacos con® los opisceos y la sera enn lugar en alguna de ts des nero aaa SY 2 de transmisién sinaptica La administracién de farmacos que Atenian los efec- | tos de los opliceos y la cocaina tambien atenan los efectos den Stinuiscios cerebral (véase Vaccearino, Schill y Glickman, 1989, pasa ung Tevisién). La naturaleza del reforzamiento 145 La estimulacién eléctrica di gel lel cerebro y los farmacos son categorias intere- s de reforzadores porque no tienen una funcidn biolégica obvia, no redu- cen ninguna pulsién natural y no implican comportamientos en ningiin sentido Significativo, Por tanto, contradicen muchas teorias del reforzamiento, incluyen- do la teoria de la reduccién de la pulsidn (no reducen pulsiones) y la teoria del comportamiento de Premack (no implican comportamientos). EI hipotélamo parece estar intimamente asociado con el reforzamiento, y los animales encuentran placentera tanto la estimulacion eléctrica como la farmacolégica del hipotélamo. Teoria del equilibrio y puntos preferidos de satisfaccién Aunque la teoria de Premack fue un avance conceptual importante, tenia ciertas, ificultades. Primera, concebir el reforzamiento sélo en funcién de comportamien- tos es demasiado restrictivo para algunos castigos y reforzamientos. Por ejem- plo, Staddon y Ettinger (1989) sefialaron que el choque eléctrico es un castigo y la estimulaci6n eléctrica cerebral es una recompensa, y ninguna puede concebir~ se en realidad como un comportamiento. Los animales pueden ser reforzados Por muchas cosas, incluyendo estimulos reductores de pulsiones (el alimento), Por comportamientos (correr en una rueda giratoria) y por cosas que no son nin- guna de las dos (la estimulacién cerebral) Una dificultad mayor es que nada es absoluto en su capacidad para reforzar otra cosa. Allison y Timberlake (1974) encontraron que las ratas, ante la opcisn entre dos soluciones con sacarina, pasaron mas tiempo en la mas dulce de las, dos cuando bebian con libertad. Premack habria predicho que beber la solucién ‘menos dulce castigaria el beber la solucién mas dulce. Por ejemplo, suponga que las ratas debian lamer la solucién menos dulce una vez después de cada ocasién que lamieran la solucién més dulce (una proporcién de respuesta de uno a uno) Las ratas deberian disminuir su tasa de lamidas de la solucién dulce debido a que segufa una solucién menos deseable. Es probable que esto es lo que hubie- ran encontrado Allison y Timberlake con una proporcidn de uno a uno, pero en su estudio la rata tenia que lamer la solucién mas dulce 10 veces para tener ac- ceso a la solucién menos dulce, En vista de que una proporcién de 10 a 1 era mayor que la distribucién natural entre las soluciones, si las ratas lamian la so- lucidn més dulce tanto como lo hacian en la situacién en que bebjan con liber- tad, obtendrian menos de la solucién menos dulce que en la situacién libre. En este experimento, las ratas incrementaron su tasa de respuesta de beber la solu cidn mas dulce a fin de obtener més acceso a la solucién menos dulce, La opor- tunidad para beber la solucién menos preferida habia adquirido la propiedad de reforzar el beber de la solucién més preferida Para dar cuenta de estos resultados, Allison (1983) y Timberlake (1980) pro- pusieron una reformulacién importante de la teoria de Premack. Afirmaron que los organismos tienen una tasa de linea base deseada para toda clase de acon- tecimientos; es decir, los organismos tienen una cierta frecuencia deseada para Cartruto 4 Reforzamiento y aprendizaje unt rele ests <0 : as EI comportamient RA 4.9 amiento B I HOURA $9 comportamients§ yh, é wine ean el a ontfomportamientos La flecha apuny, ss dre tugar en f corva més cencano 9 fot preted de satiscci6n. (Tomagt® Karonipa ame ‘Allison, 1989.) ae ‘omgertariente 8 slamada punto preferido de satisfaccisy tran como recompernss2 cUalquier cosy 4” fi igo cualquier cosa quett rece base y como cas! ui an wueve en direccion de esta linea f ‘ : Tos mueve en eta Esa toi ame feo 2 ult nei perimento descito, el programa de efit a6 Bs las & moving i isfaccién para distri s dos vunto preferido de satisfaccién para dis eber en é an cv que incrementar su ingesti6n ef i glucans a Por a4 ‘ 's dulee fy reducir su ingestion de a ima de vel de. rn ext par a uN COPOMISO Que el Y api debajo de 1 ne posible de su punto peteride de satistaccion ideal dado g programa de reforzamiento. 7 eco 0980) dea pc ‘La figura 4.9 ilustra la demostracior Be cién de les puntos peferdos de satisfacin. Representa las diversas cantidade se nctvidad que son posible para los comportamientos A y B. Ademés, muy tra el punto prefrido de satisfaccon del animal para la combinacién Optima de tstos Hos comportamients, El animal podria desear pasar 150 min/ala en lac, tivided A (quizd comer) y 50 min/da en la actividad B (quiza correr en una rue {da pratoi). Se Introduce un programa en el que el animal debe pasar un ninuto en la actividad A por cada minuto en la actividad B. La linea recta dia- {onal relleja este programa. El animal encuentra el punto en este programa qu etd mas cerca de su punto preferido de satisfaccin; en este caso el punto en el {ue pasa 100 minutos en cada actividad. Enel ejemplo en el que la actividad A es comer y la actividad B es corte, el alimento podria verse como reforzador del correr en la rueda debido a que incrementa la accién de correr. (De manera a: ternativa, correr en la rueda podria verse como un castigo para comer, debido que disminuye la ingestion de alimento.) Suponga que se crea un programa en el cual el animal debe pasar 10 minutos en la actividad A por cada minuto en la actividad B. Entonces e] animal incrementaria la actividad A para obtener més B, En el ejemplo de la comida y el ejerccio, corre reforzaria al comer. Konarski (1979) y Konarski, Johnson, Crowell y Whitman (1980), ambos re- sefiados en Timberlake (1980), proporcionan una demostracién interesante de a bpeber, comer, copula, corer ete 1AM ra ese evento, Los organismos enc Estudios del comportamiento de eleccién 147 aplicacién de la teori: Se que la mayorig de [ee librioen la educacién de los nifos. Puede lograr: ce contingente con ésta git°® PEQUEROS practiquen més mateméticas si se ha- esto sucede debido a ees rottunidad para colorear. De acuerdo con Timberlake, Ta que desean para cot ios normalmente tienen menos oportunidad de Jas matemiticas. Sy ree Y ™As oportunidad de la que desean para practicar matematicas, puede arate. Si se les priva de la oportunidad de practicar las cima de lo normal ee 1° M08 incrementen la cantidad de colorear por en- mal si esta activida dad de practicar matensgieee ad 2 como resultado el acceso ala oportun: La teorfa d Li lel equilibrio « mistas ven a los hat librio considera a todas las criaturas igual que los econo- a umanos: como deseosos de alj zcl l de bienes en lu a lguna mezcla general Te as creer lo ms posible a ese punto preferido de satsfaccién crito son demostranon’s dl ambiente. Aunque ls experimentos como el des- libro, a tears eaten mPresionantes del poder predkctivo de ateoria del equ- determing 1 ouaM® est incompleta pues no expica en forma plena cm se ne gute caractert ints Prefers de saisfaccién, La teora del equiibrio propo- de i conids 05 COMO el estado de privacidn de un organism y la calidad satisfac srl comedero se combinan para determinar el punto preferido de ‘Ta on distibuctén dptima de respuestas como comer y hacer ejerci- Joe resalta fee onoeido este punto preferido de satisfactin, es posible predecir resultados de restringir estos comportamientos y hacer un comportamiento contingente con el otro. La teorfa no proporciona un anélisis de la forma en que se establece este Punto preferido de satisfaccién en primer lugar; a final de cuen- {as, se necesitan explicaciones biolégicas para el establecimiento de estos pun- tos preferidos de satisfaccién. Los organismos eligen su comportamiento de modo que los acerque lo mas posible a algiin punto preferido de satisfaccién general de los comportamientos y experiencias. Estudios del comportamiento de eleccién Segtin la concepcién actual del reforzamiento, un organismo equilibra necesida- des 0 metas competidoras a fin de lograr la combinacién més cercana a su pun- to preferido de satisfaccién. La investigacién sobre el reforzamiento busca determinar la forma en que los organismos hacen elecciones, dada su experiencia con las res- tricciones de su ambiente. Investigaciones recientes se han centrado en el com- portamento de eleccidn de los animales. Antes de comentar estas investigaciones, es importante revisar algunos de los efectos basicos de diferentes programas de reforzamiento, en vista de que muchos de estos estudios recientes ofrecen a los, animales elecciones entre programas de reforzamiento. Resulta que la compren- sién del comportamiento, aun bajo un solo programa, también requiere concebir al organismo como elector entre comportamientos alternativos. 148 Cartmuro 4 Reforzamiento y aprenztlt Programas de reforzamiento ner, sheds of Reinforcement en skin i La publicacién de la obra de Ps ite el programa con st gue Se alican nf ii 6 é relacior an estudiado ¢ reforzamientos y el cot variaciones tama J yy muchas vari cierta cantidad de reer’. de ai hay . gramas basics, aunque tt : Fee rp RD se da un en reform aS ta como un programa RF 4 qo (F = Por ejemplo, tas que emite el oan Pore = fore, después de cada cuatro se (RV) ef nimero de respuestas para un y Programa de razin variablt OT dedor de algin valor. Por ejemplo, un lento Vara, PEO Se Pro en rforzamiento después de cage rama en el que un organ como un programa RV 10. En un progeay! respuestas en promedio se den ibe un ceforzamiento después de quent de intervalo fijo (IF) el organi emplo, en uN programa IF ys transcurnido una ead fh deHempo. "puesta después qe éT organism reibe un foramen Po een scours han pasado 15 segundos; el organismo esp a5 an. P 8 vjuzea un reforzamiento y asi en forma. tes de que su siguiente respuesta pro Tawariable UV) varia crn cesiva, Por tltimo, en un programa de intervalo v2 liaise alredenee” ue debe transcurris entre reforzamientos. pero debe promediarse. alrededor gy sign valor Foe np, en an programa lV 30 sel exganismo vere que perar un promedio de 30 segundos antes de que una respuesta produzca tun re for nt i Es importante apreciar una sutileza en los programas de intervalo En un pro. sgrama IF 15, por ejemplo, la demora entre seforzamientos no es de 15 segundos: ‘es mayor. Deben pasar 15 segundos antes de que una respuesta del organism produzca la recompensa; el tiempo total entre recompensas es de 15 segundos, més lo que el organismo espere luego para responder. Cada programa de reforzamiento produce su propio comportamiento carac- teristico. El comportamiento se mide con registros acumulativos de respuestas, ‘como se expuso en el capitulo T (véase la figura 1.9), los cuales son graficas que sefialan cémo se incrementa el nero total de respuestas con el paso del tiem po. La figura 4.10 muestra los registros dé respuesta-tipicos mantenidos err fos diferentes programas. Los programas variables producen tasas relativamente fi jas-de-respuestas, mientras que los fijos producen tasas variables. En el progr ‘ma de intervalo fijo, el organismo parece estar cerca de saber cul es el intervalo y responde cerca del final de ese intervalo, En el programa de razon fija, el of ganismo hace Pausa después de cada reforzamiento, como si tomara un des canso antes de comenzar la siguiente serie de respuestas. Por fo general las tasas de respuesta son mas altas en los programas de 1 26n que en los.programas de intervalo, un comportamiento adaptativo, en vist de.que Ia tasa de recompensa en tales programas se relaciona en forma directa con la tasa de respuesta. Los animales fesponderan con cantidades extremas, ta" forzamiento; sin embargo, tienen que S* con cantidades mucho menores y aumer™ esta se relaciona poco con la tasa de refot altas como 1 000 respuestas por un re moldeados para hacerlo, empezando tando poco a poco, La tasa de respui ee

También podría gustarte