Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje
Resumen: Cuando los humanos compran un boleto de lotería o juegan en un casino, están
participando en una actividad que, en promedio, conduce a una pérdida de dinero. Aunque los
animales suelen tener un comportamiento óptimo de búsqueda de alimento (forrajeo), en
palomas se puede encontrar un comportamiento subóptimo similar al de la apuesta en
humanos. Ellas muestran preferencia por una alternativa asociada con una baja probabilidad
de refuerzo (e.g., una alternativa que va seguida de un tono rojo en 20% de los ensayos y
luego se refuerza, o bien, seguida por un tono verde en el 80% de los ensayos en ausencia de
refuerzo) versus una alternativa que está asociada con una mayor probabilidad de refuerzo
(e.g., las alternativas azul o amarillas, cada una de las cuales va seguida de refuerzo el 50%
del tiempo). Este efecto parece ser el resultado del fuerte refuerzo condicionado asociado con
el estímulo que siempre va seguido del refuerzo. Sorprendentemente, aunque se experimenta
cuatro veces más, el estímulo que nunca es seguido por refuerzo no parece resultar en una
inhibición condicionada significativa (quizás debido a la ausencia de un comportamiento de
observación). De forma similar, los apostadores humanos tienden a sobrevalorar las
ganancias y a infravalorar las pérdidas. Por lo tanto, este modelo animal puede proporcionar
un análogo útil al comportamiento de juego humano, uno libre de la influencia de la cultura
humana, el lenguaje, el refuerzo social y otros sesgos experienciales que pueden influir en el
comportamiento de juego humano.
1
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje
probabilidades. Por ejemplo, el valor que los humanos dan a 1:100, 1:1000 y 1:1,000,000 son
relativamente similares, sin embargo las probabilidades de su recompensa son bastante
diferentes. Esto podría considerarse el resultado de una experiencia inadecuada. Una segunda
explicación tiene que ver con el hecho de que en la mayoría de los juegos de azar públicos,
cuando alguien gana, se destaca más que cuando alguien pierde (las campanas suenan y las
luces parpadean en los casinos cuando alguien gana premios grandes y los grandes ganadores
de loterías a menudo se mencionan en las noticias). A esto se le llama heurística de
disponibilidad (Tversky y Kahneman, 1974). Una tercera posibilidad es que los humanos son
animales sociales y existe un refuerzo social adicional que a menudo acompaña a ganar (por
ejemplo, en los casinos). Por último, las personas que se involucran en conductas de juego a
menudo describen la actividad como agradable independientemente de las ganancias o
pérdidas. Presumiblemente, la vida que llevan estas personas no es lo suficientemente
interesante y el juego la hace más atractiva.
Recientemente, se ha sugerido un enfoque más analítico de la toma de decisiones
humanas que podría ayudar a separar los procesos conductuales más básicos de los
mecanismos superiores (Evans, 2003; Klaczynski, 2005). Se ha propuesto que la toma de
decisiones humana depende de dos diferentes fuentes de input, los procesos primarios y los
secundarios. Los procesos primarios son aquellos gobernados por procesos de aprendizaje
asociativo relativamente simples, que a menudo existen sin conciencia (Klaczynski, 2005) y
que a menudo toman la forma de una reacción a nivel "visceral", una emoción o un impulso
(e.g., Haidt, 2001; Loewenstein, Weber , Hsee y Welch, 2001; Slovic, Finucane, Peters y
MacGregor, 2007). Los procesos secundarios comprenden lo que normalmente consideramos
procesos de pensamiento, el esfuerzo consciente de sopesar opciones, considerar
posibilidades e intentar resolver dilemas. Consisten en aquello de lo que los humanos son
conscientes, pero relativamente limitados en su capacidad (Dijksterhuis, 2004; Evans, 2003),
porque los humanos están limitados en el número de factores que conscientemente pueden
tener en cuenta.
Según esta teoría, la evaluación del riesgo puede resultar de procesos de decisión
primarios o secundarios. Los procesos primarios siempre están en juego, pero los procesos
secundarios pueden reclutarse cuando el tiempo para tomar una decisión no está limitado y
cuando las decisiones pueden basarse en relativamente pocas fuentes de información
(Dijksterhuis, 2004; Greene, Morelli, Lowenberg, Nystrom y Cohen, 2008). Además, ocurre
a menudo que los procesos secundarios son retrospectivos y entran en juego después de que
se toma la decisión. Es decir, luego de que se toman decisiones utilizando procesos primarios,
los individuos pueden considerar las razones por las que han tomado esas decisiones (a veces
denominado racionalización, Smith & Mackie, 2007). Esto conduce a un fenómeno curioso.
Una puede creer que una decisión se tomó de manera racional (basada en procesos
secundarios) con el propósito de justificar cómo se tomó, cuando en realidad se tomó en gran
medida bajo el control de procesos primarios. Por tanto, puede ser que muchos de los
procesos que gobiernan la toma de decisiones humanas sean del tipo primario. Si este análisis
2
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje
es correcto, es posible que se puedan estudiar estos procesos de toma de decisiones de manera
más directa en los animales porque es probable que sus decisiones también estén en gran
medida bajo el control de los procesos de decisión primarios.
Sin embargo, el examen de la literatura sobre ecología del comportamiento sugiere
que no se debería encontrar evidencia de apuesta desadaptativa en animales no humanos
(elección de una alternativa que proporcione menos recompensa) mientras se les de
experiencia adecuada con las alternativas. Según la teoría del forrajeo óptimo, los animales
deberían ser menos susceptibles a la atracción de una mala apuesta porque es probable que su
supervivencia esté en juego (Stephens & Krebs, 1986). Es decir, los animales deberían tomar
decisiones óptimas porque la evolución debería haber favorecido la supervivencia de los
animales que lo hacen (MacArthur y Pianka, 1966). Con la experiencia adecuada, se presume
que los animales no-humanos son sensibles a las cantidades relativas de alimento obtenidas
de diferentes alternativas o parches (ver Fantino y Abarca, 1985).
3
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje
resultaba en sólo el 20% de la cantidad de comida posible por unidad de tiempo. Aunque la
mayoría de las ratas eligieron de manera óptima y eligieron la alternativa que proporcionaba
una pequeña cantidad de comida y corta penalización, un número sustancial de las ratas
prefirió la alternativa que proporcionaba una mayor cantidad de comida y penalización más
larga. Estos resultados sugieren que algunas ratas pueden ser relativamente insensibles a la
duración de la sanción y, por lo tanto, actúan de manera subóptima en términos de comida
por unidad de tiempo.
Investigaciones que hemos realizado con palomas utilizando una tarea más simple que
puede ser más análoga al juego humano sugiere que ellas, así como los humanos, pueden ser
susceptibles a elecciones desadaptativas. Los orígenes de esta investigación se remontan a
una línea de investigación que evaluó el grado en que los animales trabajan para obtener
información, independientemente del reforzamiento diferencial. Es decir, la investigación que
se realizó para preguntar si los animales optarían por obtener una señal de refuerzo o una
señal de su ausencia incluso cuando esas señales no tuvieran efecto sobre la probabilidad de
refuerzo asociado con esas elecciones.
4
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje
Figura 1. Diseño de experimento de Roper y Zentall (1999). Las palomas eligieron entre dos
alternativas. La elección de una alternativa fue seguida ya sea por un estímulo (rojo) que
siempre era seguido por un refuerzo o por un estímulo diferente (verde) que nunca era seguido
por un refuerzo. La elección de la otra alternativa era seguida de dos estímulos (azul o amarillo),
ambos seguidos de un refuerzo el 50% del tiempo. Se contrabalanceó la ubicación espacial y los
colores.
Roper y Zentall (1999) encontraron que las palomas mostraban una fuerte preferencia
por la primera alternativa, la cual era seguida por la presentación de estímulos
discriminativos. Este resultado se ha tomado como evidencia de que los animales prefieren
información por sobre la ausencia de esta. Según la teoría de la información (Shannon &
Weaver, 1949) la información máxima (reducción de la incertidumbre) debería ocurrir
cuando exista la mayor discrepancia entre la información disponible antes de la elección y la
información proporcionada después de la elección. Específicamente, antes de la elección, la
entrega del refuerzo era más incierta (50%). Así, la aparición del estímulo discriminativo
proporcionó la mayor reducción de la incertidumbre (ya sea 100% de refuerzo o 0%).
Para probar esta teoría, Roper y Zentall manipularon la probabilidad general de
refuerzo (manteniendo igual la probabilidad de refuerzo asociada con ambas alternativas). De
acuerdo con la teoría de la información, cuando la probabilidad general de refuerzo asociada
con ambas alternativas fue alta, 87,5%, aunque aún se mantuvo la preferencia por la
alternativa que fue seguida por estímulos discriminativos, la preferencia fue mucho más
débil; se esperaba refuerzo en la mayoría de los ensayos y se obtuvo. Sin embargo, sin
coincidir con la teoría de la información, cuando la probabilidad general de refuerzo era baja
(cuando la probabilidad de aparición del estímulo que predecía el refuerzo fue sólo el 12,5%
y la probabilidad de refuerzo asociada con la otra alternativa fue también 12,5%) la
preferencia por el estímulo que predecía el refuerzo (o su ausencia) fue incluso más fuerte de
lo que era cuando la probabilidad general de refuerzo era del 50%. De acuerdo a la teoría de
la información, la preferencia también debería haber sido más débil porque el refuerzo no
5
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje
La pregunta de interés más reciente para nosotros fue si las palomas estarían
dispuestas a renunciar a la comida para obtener estímulos discriminativos (estímulos
predictivos del refuerzo y de su ausencia). Hay razones para creer que lo harían.
Investigaciones anteriores habían encontrado que, en las condiciones adecuadas, algunas
palomas preferían una alternativa asociada con un 50% de refuerzo que producía estímulos
discriminativos (la mitad de las veces un estímulo que predecía de manera confiable el
refuerzo, la mitad de las veces un estímulo diferente que predecía de manera confiable la
ausencia de refuerzo) sobre una alternativa que siempre predecía reforzamiento (Belke y
Spetch, 1994; Fantino, Dunn y Meck, 1979; Mazur, 1996; Spetch, Belke, Barnet, Dunn y
Pierce, 1990; Spetch, Mondloch, Belke y Dunn, 1994). Aparentemente, en estas condiciones,
cuando se les dio a elegir entre un 50% de refuerzo y un 100% de refuerzo, algunas palomas
se comportaron “irracionalmente” y eligieron la opción de 50% de refuerzo, aunque otras no.
Propusimos que si reducíamos la diferencia en la probabilidad de refuerzo entre las
dos alternativas, podríamos encontrar resultados más consistentes. En nuestro diseño
(Gipson, Alessandri, Miller y Zentall, 2009) enfrentamos el 50% de refuerzo con estímulos
discriminativos contra el 75% de refuerzo con estímulos no discriminativos (ver el diseño en
la Figura 2). A estas palomas se les dio a elegir entre dos luces blancas, una a la izquierda y
otra a la derecha. Un solo picotazo a una luz resultaba en la presentación de una de dos luces
de colores (S1 o S2) durante 30s. Si era S1, siempre era seguida por un refuerzo. Si hubiera
sido S2, nunca era seguida por refuerzo. Así, la elección de esa alternativa resultaba en la
aparición de un estímulo discriminativo y la probabilidad global de refuerzo era de 0.50. Un
solo toque a la otra luz blanca resultaba en la presentación de una de dos luces de colores
diferentes (S3 o S4) durante 30 segundos y, en cualquier caso, era seguida por un refuerzo
con una probabilidad de 0.75. Por lo tanto, la elección de la segunda alternativa resultaba en
6
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje
una mayor probabilidad de refuerzo que la elección de la primera alternativa. Para asegurar
que las palomas tuvieran la experiencia adecuada con las contingencias de refuerzo asociadas
con las dos alternativas, en cada sesión de entrenamiento las palomas recibieron 24 pruebas
forzadas con cada alternativa, así como 12 pruebas de elección. De esta forma, recibieron 12
ensayos forzados con cada estímulo terminal discriminativo y no discriminativo. En apoyo de
nuestra hipótesis, encontramos una preferencia "desadaptativa" confiable del 69% para la
alternativa asociada con el 50% de refuerzo (ver Figura 3).
Figura 2. Diseño de experimento de Gipson et al. (2009). Las palomas eligieron entre dos
alternativas. La elección de una alternativa era seguida ya sea por un estímulo (rojo) que
siempre era seguido por un refuerzo, en la mitad de las pruebas o un estímulo diferente (verde)
que nunca era seguido por un refuerzo, en las pruebas restantes. La elección de la otra
alternativa era seguida por dos estímulos (azul o amarillo), ambos seguidos de un refuerzo el
75% del tiempo. Se contrabalanceó la ubicación espacial y los colores.
7
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje
Figura 3. Los resultados de Gipson et al. (2009). La mayoría de las palomas (13 de 16)
mostraron una preferencia por los estímulos discriminativos con probabilidad de refuerzo del
50% sobre los estímulos no discriminativos con una probabilidad del 75% de refuerzo.
8
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje
Figura 4. Diseño de experimento de Stagner y Zentall (2010). Las palomas eligieron entre dos
alternativas. La elección de una alternativa fue seguida por un estímulo (rojo) en el 20% de los
ensayos que siempre fue seguido de refuerzo o un estímulo diferente (verde) en el 80% de los
ensayos que nunca fue seguido por refuerzo. La elección de la otra alternativa fue seguida por
alguno de los dos estímulos (azul o amarillo), cada uno de los cuales fue seguido por un
refuerzo el 50% del tiempo. Se contrabalanceó la ubicación espacial y los colores.
9
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje
Un medio alternativo de evaluar el grado de preferencia por una alternativa sobre otra
es preguntarse qué reducción en el retraso del refuerzo asociado con la alternativa menos
preferida sería necesaria para que el sujeto se mostrara indiferente entre las dos alternativas.
Por ejemplo, existe buena evidencia de que una reducción en el retraso del reforzamiento
puede ser sustituto a una magnitud menor de reforzamiento, un procedimiento que se utiliza a
menudo en los experimentos de autocontrol (Mazur, 1987).
En un experimento no publicado (Zentall & Stagner, datos no publicados) entrenamos
palomas usando el procedimiento de Stagner y Zentall (2010) (20% de refuerzo con
estímulos discriminativos vs 50% de refuerzo con estímulos no discriminativos) usando un
estímulo terminal fijo de 10s (se presentó el estímulo coloreado que siguió a cada enlace
inicial, independiente de la respuesta, durante un período fijo de 10s). Después del
entrenamiento, utilizando una modificación del procedimiento de Mazur (1996), la duración
del estímulo terminal después de la elección de la alternativa asociada con una mayor
probabilidad de refuerzo y los estímulos no discriminatorios se redujo gradualmente de 10s a
0s y luego se incrementó gradualmente hasta que volvió a 10s. Cuando se promediaron los
datos de elección de los procedimientos descendentes y ascendentes, encontramos que las
palomas eran indiferentes entre las dos alternativas cuando el retraso del refuerzo asociado
con la elección de los estímulos no discriminatorios estaba entre 2s y 4s en comparación con
un retraso de 10s del refuerzo asociado con elección de la alternativa de estímulo
discriminativo. Así, una forma de describir la preferencia por los estímulos discriminativos
sobre los no discriminativos sería decir que para estas palomas, los estímulos discriminativos
valían aproximadamente tres veces el retraso del refuerzo junto con el 40% de la cantidad
total de refuerzo.
Aunque los resultados de los experimentos de Gipson et al. (2009) y Stagner y Zentall
(2010) demostraron claramente un comportamiento de elección desadaptativo por parte de las
10
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje
palomas, cuando los humanos apuestan, las alternativas generalmente involucran diferentes
magnitudes de refuerzo (típicamente dinero) en lugar de diferentes probabilidades de
refuerzo. Por lo tanto, uno puede comprar un billete de lotería por $1 con la esperanza de
ganar una gran cantidad de dinero. Es posible que el efecto que hemos estado observando con
la manipulación de la probabilidad de refuerzo se produzca porque las palomas están
evitando una alternativa que resulte en estímulos asociados con un resultado incierto (0.75
probabilidad de refuerzo en Gipson et al., 2009, y 0.50 probabilidad de refuerzo en Stagner &
Zentall 2010). Si el efecto que hemos estado estudiando con las palomas fuese un buen
análogo del comportamiento humano de juego, debería ser posible encontrar un efecto similar
manipulando la magnitud del refuerzo, en lugar de la probabilidad de refuerzo, y eliminando
la incertidumbre del resultado asociado con los estímulos no discriminatorios.
Zentall y Stagner (en prensa) le dieron a las palomas la posibilidad de elegir entre dos
alternativas. La elección de una alternativa en el 20% de los ensayos producía un estímulo
que siempre predecía la entrega de 10 pellet de comida y en el 80% restante de los ensayos
producía un estímulo que siempre predecía la entrega de 0 pellet. Por lo tanto, esta alternativa
se asoció con un promedio de 2 pellet por ensayo (ver el diseño en la Figura 6). La elección
de la otra alternativa siempre produjo uno de dos estímulos, cada uno de los cuales siempre
predecía la entrega de 3 pellet. Por lo tanto, la segunda alternativa se asoció con 3 gránulos
consistentes por ensayo. Una vez más, si las palomas son sensibles a la cantidad de alimento
que obtienen con el tiempo, deben seleccionar la opción de 3 pellets. Sin embargo,
contrariamente a esta predicción, las palomas mostraron una fuerte preferencia de 87%, por la
alternativa variable de 2 pellet sobre la alternativa fija de 3 pellet.
Figura 6. Las palomas eligieron entre dos alternativas. La elección de una alternativa era
seguida por un estímulo (rojo) en el 20% de los ensayos que siempre entregaba 10 pellet de
refuerzo o un estímulo diferente (verde) en el 80% de los ensayos que nunca era entregaba
11
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje
refuerzo. La elección de la otra alternativa era seguida por dos estímulos (azul o amarillo), los
cuales siempre entregaban 3 pellet de refuerzo. Se contrabalanceó la ubicación espacial y los
colores.
¿Por qué las palomas prefieren los estímulos discriminativos asociados con una menor
probabilidad general de refuerzo sobre los estímulos no discriminativos asociados con una
mayor probabilidad de refuerzo? Dinsmoor (1983) argumentó que el refuerzo condicionado
junto con la conducta de observación reforzada eran responsables. Cualquier estímulo que
prediga un refuerzo con una alta probabilidad (en este caso el 100%) se convertirá en un
reforzador condicionado y provocará un comportamiento de observación. Aunque está claro
que tal estímulo debería preferirse sobre un estímulo que predice el refuerzo solo el 50% del
tiempo (Stagner & Zentall, 2010) o incluso el 75% de las veces (Gipson et al., 2009), la
pregunta que queda es por qué el estímulo que nunca se asoció con el refuerzo (el S−) mostró
poca evidencia de desarrollar inhibición condicionada, especialmente dado que en el estudio
de Stagner y Zentall, el S− se presentó cuatro veces más a menudo que el estímulo que
siempre fue seguido por el refuerzo (ver figura 4).
Si el S− no se convirtió en un inhibidor condicionado, pudo haber sido porque, en un
ensayo dado, una vez que fue identificado como el S− es posible que la paloma lo ignorara,
reduciendo así su efecto inhibidor (es decir, mantuvo poca conducta de observación; véase
Dinsmoor, 1985). De acuerdo con esta posibilidad, las palomas de Gipson et al., 2009,
Stagner y Zentall (2010), y Zentall y Stagner (en prensa) rara vez picoteaban el S−, mientras
que en cada uno de esos experimentos picoteaban todos los estímulos que eran seguidos por
el refuerzo. Sin embargo, es interesante que Dinsmoor encontró que cuando a las palomas se
les presentó un S− y pudieron apagarlo (pero apagarlo no cambiaba el programa de refuerzo
que estaba en efecto), lo hicieron. Por tanto, el estímulo S- parecía tener algunas propiedades
inhibitorias.
12
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje
13
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje
encontrar una correlación negativa entre el grado de preferencia por los estímulos
discriminativos y la disminución en la respuesta al compuesto S + / S− .
Curiosamente, también se ha propuesto una teoría basada en la ausencia de inhibición
condicionada a las pérdidas para explicar el comportamiento de apuesta de los humanos.
Breen y Zuckerman (1999) informaron que se ha descubierto que los humanos que apuestan
regularmente prestan más atención a sus ganancias y menos a sus pérdidas considerablemente
más frecuentes que los jugadores ocasionales.
Una segunda explicación de la preferencia por un refuerzo del 20% sobre el refuerzo
del 50% es que la elección de la alternativa de refuerzo al 50% - pero no la alternativa de
refuerzo al 20% - da como resultado una cantidad considerable de respuestas no reforzadas.
La elección de la alternativa de refuerzo al 20% da como resultado muy poco picoteo no
reforzado porque el picoteo al S + siempre está reforzado, mientras que generalmente hay
muy poco picoteo al S−. Por otro lado, en la mitad de los ensayos que involucran la
alternativa de refuerzo al 50% hay picoteo no reforzado. Aunque esta hipótesis proporciona
una explicación razonable de los datos de Gipson et al. (2009) y Stagner y Zentall (2010)
tiene más dificultades para dar cuenta de los datos de Zentall y Stagner (en prensa) porque el
refuerzo siguió a todas las elecciones de la alternativa asociada con los estímulos no
discriminativos. Sin embargo, esos datos también podrían explicarse en términos del costo de
picoteo por unidad de alimento (pellet) (G. Madden, comunicación personal, 15 de diciembre
de 2010). Si se asume que picotear es algo aversivo y que las palomas picotean casi tanto en
los estímulos que predicen 3 bolitas de comida como los que predicen 10 bolitas de comida,
el coste por unidad de alimento de picotear por 3 bolitas de comida sería mayor que el coste
por unidad de alimento de picotear por 10 bolitas de comida.
Aunque asumir que el picoteo es algo aversivo parece bastante razonable, de hecho, el
picoteo suele confundirse con el retraso del reforzamiento. Es decir, las palomas preferirán
menos picoteo que más picoteo si menos picoteo les da refuerzo más rápido. Pero ¿qué pasa
si el tiempo de refuerzo se mantiene constante? La teoría de la reducción del retraso (Fantino
y Abarca, 1983) se basa en la noción de que el retraso en el refuerzo más que en el picoteo (o
el esfuerzo) determina la preferencia. En apoyo de la teoría de la reducción del retraso, hemos
descubierto recientemente que, en ausencia de un retraso diferencial en el refuerzo, las
palomas no necesariamente prefieren no picotear antes que picotear (Singer, Berry y Zentall,
2007). Cuando se les dio a las palomas a elegir entre picotear y abstenerse de picotear y el
tiempo de refuerzo se controló cuidadosamente, la mayoría de las palomas se mostraron
indiferentes entre los dos programas, y de las palomas que sí mostraron una preferencia, no
siempre fue una preferencia abstenerse de picotear.
De esta forma, la respuesta al estímulo terminal no reforzada (o la respuesta que lleva
a una menor magnitud de refuerzo) probablemente no sea responsable por la elección del
estímulo inicial que conduce a la menor probabilidad de refuerzo.
14
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje
15
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje
Conclusión
16