Está en la página 1de 16

UNIVERSIDAD DE CHILE

DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

“Apuestas” desadaptativas en palomas


Thomas R. Zentall (2011)
Traducido por Pilar Herrera Aroca (2020)

Zentall, T. R. (2011). Maladaptive “Gambling” by pigeons. ​Behavioural Processes, 87​(1), 50-56.


doi:10.1016/j.beproc.2010.12.017.

Resumen: ​Cuando los humanos compran un boleto de lotería o juegan en un casino, están
participando en una actividad que, en promedio, conduce a una pérdida de dinero. Aunque los
animales suelen tener un comportamiento óptimo de búsqueda de alimento (forrajeo), en
palomas se puede encontrar un comportamiento subóptimo similar al de la apuesta en
humanos. Ellas muestran preferencia por una alternativa asociada con una baja probabilidad
de refuerzo (e.g., una alternativa que va seguida de un tono rojo en 20% de los ensayos y
luego se refuerza, o bien, seguida por un tono verde en el 80% de los ensayos en ausencia de
refuerzo) versus una alternativa que está asociada con una mayor probabilidad de refuerzo
(e.g., las alternativas azul o amarillas, cada una de las cuales va seguida de refuerzo el 50%
del tiempo). Este efecto parece ser el resultado del fuerte refuerzo condicionado asociado con
el estímulo que siempre va seguido del refuerzo. Sorprendentemente, aunque se experimenta
cuatro veces más, el estímulo que nunca es seguido por refuerzo no parece resultar en una
inhibición condicionada significativa (quizás debido a la ausencia de un comportamiento de
observación). De forma similar, los apostadores humanos tienden a sobrevalorar las
ganancias y a infravalorar las pérdidas. Por lo tanto, este modelo animal puede proporcionar
un análogo útil al comportamiento de juego humano, uno libre de la influencia de la cultura
humana, el lenguaje, el refuerzo social y otros sesgos experienciales que pueden influir en el
comportamiento de juego humano.

Palabras clave: apuesta, conducta de elección, reforzador condicionado, estímulos


discriminativos, inhibición, palomas, humanos​.

El juego desadaptativo en humanos se puede definir como tomar la decisión de elegir


una alternativa de baja probabilidad pero alta recompensa, en lugar de una alternativa de alta
probabilidad y baja recompensa (no-apostar), tal que el rendimiento neto a ganar sea menor
de lo que se ha apostado. Es decir, elecciones que a largo plazo probablemente resulten en
perder más que en ganar. Tales apuestas son típicas de los juegos de casino como las
máquinas tragamonedas, la ruleta y el blackjack, y son especialmente ciertas en las loterías.
Se han dado varias explicaciones populares para lo que parece ser un comportamiento
desadaptativo. Una opinión es que las personas a menudo desconocen las probabilidades de
ganar y, si las conocen, tienen dificultades para interpretar el significado de esas

1
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

probabilidades. Por ejemplo, el valor que los humanos dan a 1:100, 1:1000 y 1:1,000,000 son
relativamente similares, sin embargo las probabilidades de su recompensa son bastante
diferentes. Esto podría considerarse el resultado de una experiencia inadecuada. Una segunda
explicación tiene que ver con el hecho de que en la mayoría de los juegos de azar públicos,
cuando alguien gana, se destaca más que cuando alguien pierde (las campanas suenan y las
luces parpadean en los casinos cuando alguien gana premios grandes y los grandes ganadores
de loterías a menudo se mencionan en las noticias). A esto se le llama heurística de
disponibilidad (Tversky y Kahneman, 1974). Una tercera posibilidad es que los humanos son
animales sociales y existe un refuerzo social adicional que a menudo acompaña a ganar (por
ejemplo, en los casinos). Por último, las personas que se involucran en conductas de juego a
menudo describen la actividad como agradable independientemente de las ganancias o
pérdidas. Presumiblemente, la vida que llevan estas personas no es lo suficientemente
interesante y el juego la hace más atractiva.
Recientemente, se ha sugerido un enfoque más analítico de la toma de decisiones
humanas que podría ayudar a separar los procesos conductuales más básicos de los
mecanismos superiores (Evans, 2003; Klaczynski, 2005). Se ha propuesto que la toma de
decisiones humana depende de dos diferentes fuentes de input, los procesos primarios y los
secundarios. Los procesos primarios son aquellos gobernados por procesos de aprendizaje
asociativo relativamente simples, que a menudo existen sin conciencia (Klaczynski, 2005) y
que a menudo toman la forma de una reacción a nivel "visceral", una emoción o un impulso
(e.g., Haidt, 2001; Loewenstein, Weber , Hsee y Welch, 2001; Slovic, Finucane, Peters y
MacGregor, 2007). Los procesos secundarios comprenden lo que normalmente consideramos
procesos de pensamiento, el esfuerzo consciente de sopesar opciones, considerar
posibilidades e intentar resolver dilemas. Consisten en aquello de lo que los humanos son
conscientes, pero relativamente limitados en su capacidad (Dijksterhuis, 2004; Evans, 2003),
porque los humanos están limitados en el número de factores que conscientemente pueden
tener en cuenta.
Según esta teoría, la evaluación del riesgo puede resultar de procesos de decisión
primarios o secundarios. Los procesos primarios siempre están en juego, pero los procesos
secundarios pueden reclutarse cuando el tiempo para tomar una decisión no está limitado y
cuando las decisiones pueden basarse en relativamente pocas fuentes de información
(Dijksterhuis, 2004; Greene, Morelli, Lowenberg, Nystrom y Cohen, 2008). Además, ocurre
a menudo que los procesos secundarios son retrospectivos y entran en juego después de que
se toma la decisión. Es decir, luego de que se toman decisiones utilizando procesos primarios,
los individuos pueden considerar las razones por las que han tomado esas decisiones (a veces
denominado racionalización, Smith & Mackie, 2007). Esto conduce a un fenómeno curioso.
Una puede creer que una decisión se tomó de manera racional (basada en procesos
secundarios) con el propósito de justificar cómo se tomó, cuando en realidad se tomó en gran
medida bajo el control de procesos primarios. Por tanto, puede ser que muchos de los
procesos que gobiernan la toma de decisiones humanas sean del tipo primario. Si este análisis

2
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

es correcto, es posible que se puedan estudiar estos procesos de toma de decisiones de manera
más directa en los animales porque es probable que sus decisiones también estén en gran
medida bajo el control de los procesos de decisión primarios.
Sin embargo, el examen de la literatura sobre ecología del comportamiento sugiere
que no se debería encontrar evidencia de apuesta desadaptativa en animales no humanos
(elección de una alternativa que proporcione menos recompensa) mientras se les de
experiencia adecuada con las alternativas. Según la teoría del forrajeo óptimo, los animales
deberían ser menos susceptibles a la atracción de una mala apuesta porque es probable que su
supervivencia esté en juego (Stephens & Krebs, 1986). Es decir, los animales deberían tomar
decisiones óptimas porque la evolución debería haber favorecido la supervivencia de los
animales que lo hacen (MacArthur y Pianka, 1966). Con la experiencia adecuada, se presume
que los animales no-humanos son sensibles a las cantidades relativas de alimento obtenidas
de diferentes alternativas o parches (ver Fantino y Abarca, 1985).

Modelos Animales de Apuesta Humana

Por lo tanto, es razonable preguntarse si los animales no-humanos muestran un


comportamiento de elección análogo al comportamiento subóptimo mostrado por los
humanos cuando compran un boleto de lotería o participan en juegos de azar de casino. Una
tarea que se ha modificado para su uso con animales (ratas) es el Juego de azar de Iowa
(Rivalan, Ahmed, Dellu-Hagedorn, 2009; Zeeb, Robbins y Winstanley, 2009). En el estudio
de Zeeb et al., las ratas elegían entre cuatro opciones que variaban entre ellas en la
probabilidad de refuerzo (0.4 a 0.9), cantidad de refuerzo (1-4 pellets), probabilidad de un
“tiempo fuera” de castigo después de una prueba (0.1 a 0.6), y la duración del “tiempo fuera”
(5s a 40s). Usando esta tarea, Zeeb et al. encontraron que las ratas eligieron adaptativamente,
maximizando los pellet ganados por unidad de tiempo. Curiosamente, las ratas continuaron
eligiendo de manera óptima cuando la duración del tiempo fuera se equiparó en condiciones
(la duración del tiempo fuera pareció tener poco efecto en la elección de las ratas) pero
fallaron en elegir de manera óptima cuando la probabilidad del tiempo fuera se equiparó (la
probabilidad del tiempo fuera y, por lo tanto, la probabilidad de refuerzo mejoró el valor del
reforzador grande aunque un tiempo fuera más largo significara que el refuerzo ocurría con
menos frecuencia por unidad de tiempo). En esas condiciones, infravaloraron los efectos
negativos de los tiempos fuera prolongados y, en cambio, se sintieron atraídos por la mayor
magnitud de refuerzo, y al hacerlo recibieron solo la mitad del número máximo de pellet por
unidad de tiempo.
Rivalan et al. (2009) también dieron a las ratas la posibilidad de elegir entre una
alternativa que proporcionaba una pequeña cantidad de comida en algunos ensayos y una
pequeña penalización en otros ensayos y una alternativa que proporcionó una mayor cantidad
de comida pero una penalización muy larga en otros ensayos. Sin embargo, a causa de
penalizaciones largas, la alternativa asociada con la mayor cantidad de comida en realidad

3
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

resultaba en sólo el 20% de la cantidad de comida posible por unidad de tiempo. Aunque la
mayoría de las ratas eligieron de manera óptima y eligieron la alternativa que proporcionaba
una pequeña cantidad de comida y corta penalización, un número sustancial de las ratas
prefirió la alternativa que proporcionaba una mayor cantidad de comida y penalización más
larga. Estos resultados sugieren que algunas ratas pueden ser relativamente insensibles a la
duración de la sanción y, por lo tanto, actúan de manera subóptima en términos de comida
por unidad de tiempo.
Investigaciones que hemos realizado con palomas utilizando una tarea más simple que
puede ser más análoga al juego humano sugiere que ellas, así como los humanos, pueden ser
susceptibles a elecciones desadaptativas. Los orígenes de esta investigación se remontan a
una línea de investigación que evaluó el grado en que los animales trabajan para obtener
información, independientemente del reforzamiento diferencial. Es decir, la investigación que
se realizó para preguntar si los animales optarían por obtener una señal de refuerzo o una
señal de su ausencia incluso cuando esas señales no tuvieran efecto sobre la probabilidad de
refuerzo asociado con esas elecciones.

¿Información o refuerzo condicionado?

Nosotros (y otros) hemos demostrado, de hecho, que cuando se equipara la


probabilidad de refuerzo, las palomas prefieren obtener estímulos que señalen el refuerzo o la
ausencia de este sobre estímulos que señalen de forma ambigua el refuerzo (Dinsmoor, 1983;
Roper y Zentall, 1999). En el procedimiento de Roper y Zentall, en la mitad de los ensayos,
la elección de una alternativa resultaba en la presentación de un estímulo que predecía de
manera confiable el refuerzo y en la otra mitad de los ensayos daban como resultado la
presentación de un estímulo que predecía de manera confiable la ausencia de reforzamiento.
Técnicamente, estos estímulos deben denominarse estímulo condicionado excitatorio y
estímulo condicionado inhibitorio, respectivamente, si no se requiere responder a la señal
para el refuerzo, pero en el presente artículo me referiré a ellos como estímulos
discriminativos porque las palomas generalmente picotean los estímulos que predicen el
reforzamiento ya sea si se requiere o no, y se abstienen de picotear los estímulos que predicen
la ausencia de reforzamiento. Por lo tanto, la elección de la primera alternativa se asoció con
un 50% de refuerzo (vea el lado izquierdo de la Figura 1). La elección de la otra alternativa
resultó en la presentación de uno de los dos estímulos, cada uno de los cuales fue seguido por
un refuerzo el 50% del tiempo (ver el lado derecho de la Figura 1).

4
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Figura 1. Diseño de experimento de Roper y Zentall (1999). Las palomas eligieron entre dos
alternativas. La elección de una alternativa fue seguida ya sea por un estímulo (rojo) que
siempre era seguido por un refuerzo o por un estímulo diferente (verde) que nunca era seguido
por un refuerzo. La elección de la otra alternativa era seguida de dos estímulos (azul o amarillo),
ambos seguidos de un refuerzo el 50% del tiempo. Se contrabalanceó la ubicación espacial y los
colores.

Roper y Zentall (1999) encontraron que las palomas mostraban una fuerte preferencia
por la primera alternativa, la cual era seguida por la presentación de estímulos
discriminativos. Este resultado se ha tomado como evidencia de que los animales prefieren
información por sobre la ausencia de esta. Según la teoría de la información (Shannon &
Weaver, 1949) la información máxima (reducción de la incertidumbre) debería ocurrir
cuando exista la mayor discrepancia entre la información disponible antes de la elección y la
información proporcionada después de la elección. Específicamente, antes de la elección, la
entrega del refuerzo era más incierta (50%). Así, la aparición del estímulo discriminativo
proporcionó la mayor reducción de la incertidumbre (ya sea 100% de refuerzo o 0%).
Para probar esta teoría, Roper y Zentall manipularon la probabilidad general de
refuerzo (manteniendo igual la probabilidad de refuerzo asociada con ambas alternativas). De
acuerdo con la teoría de la información, cuando la probabilidad general de refuerzo asociada
con ambas alternativas fue alta, 87,5%, aunque aún se mantuvo la preferencia por la
alternativa que fue seguida por estímulos discriminativos, la preferencia fue mucho más
débil; se esperaba refuerzo en la mayoría de los ensayos y se obtuvo. Sin embargo, sin
coincidir con la teoría de la información, cuando la probabilidad general de refuerzo era baja
(cuando la probabilidad de aparición del estímulo que predecía el refuerzo fue sólo el 12,5%
y la probabilidad de refuerzo asociada con la otra alternativa fue también 12,5%) la
preferencia por el estímulo que predecía el refuerzo (o su ausencia) fue incluso más fuerte de
lo que era cuando la probabilidad general de refuerzo era del 50%. De acuerdo a la teoría de
la información, la preferencia también debería haber sido más débil porque el refuerzo no

5
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

debería haberse esperado y generalmente no se obtuvo. Resultados similares han sido


reportados por otros (ver Fantino, 1977).
Roper y Zentall (1999) sugirieron que el contraste positivo entre el refuerzo esperado
y el refuerzo obtenido proporciona una mejor explicación de sus resultados que la teoría de la
información. Cuando la probabilidad del refuerzo esperado era baja y era obtenido, el
contraste hubiera sido grande (un cambio de 12,5% a 100%) mientras que cuando el refuerzo
esperado era alto y se obtenía, el contraste hubiera sido pequeño (un cambio de 87,5% a
100%).
Roper y Zentall también encontraron que en ausencia de refuerzo diferencial, las
palomas están dispuestas a trabajar más duro (picotear más veces y, así, aceptar un aumento
de demora en el refuerzo) para recibir estímulos predictivos del refuerzo y de su ausencia. Por
lo tanto, las palomas preferían la alternativa que proporcionaba estímulos discriminativos
incluso cuando había algunos costos adicionales en demora para obtenerlos.

Un modelo en palomas para la apuesta humana

La pregunta de interés más reciente para nosotros fue si las palomas estarían
dispuestas a renunciar a la comida para obtener estímulos discriminativos (estímulos
predictivos del refuerzo y de su ausencia). Hay razones para creer que lo harían.
Investigaciones anteriores habían encontrado que, en las condiciones adecuadas, algunas
palomas preferían una alternativa asociada con un 50% de refuerzo que producía estímulos
discriminativos (la mitad de las veces un estímulo que predecía de manera confiable el
refuerzo, la mitad de las veces un estímulo diferente que predecía de manera confiable la
ausencia de refuerzo) sobre una alternativa que siempre predecía reforzamiento (Belke y
Spetch, 1994; Fantino, Dunn y Meck, 1979; Mazur, 1996; Spetch, Belke, Barnet, Dunn y
Pierce, 1990; Spetch, Mondloch, Belke y Dunn, 1994). Aparentemente, en estas condiciones,
cuando se les dio a elegir entre un 50% de refuerzo y un 100% de refuerzo, algunas palomas
se comportaron “irracionalmente” y eligieron la opción de 50% de refuerzo, aunque otras no.
Propusimos que si reducíamos la diferencia en la probabilidad de refuerzo entre las
dos alternativas, podríamos encontrar resultados más consistentes. En nuestro diseño
(Gipson, Alessandri, Miller y Zentall, 2009) enfrentamos el 50% de refuerzo con estímulos
discriminativos contra el 75% de refuerzo con estímulos no discriminativos (ver el diseño en
la Figura 2). A estas palomas se les dio a elegir entre dos luces blancas, una a la izquierda y
otra a la derecha. Un solo picotazo a una luz resultaba en la presentación de una de dos luces
de colores (S1 o S2) durante 30s. Si era S1, siempre era seguida por un refuerzo. Si hubiera
sido S2, nunca era seguida por refuerzo. Así, la elección de esa alternativa resultaba en la
aparición de un estímulo discriminativo y la probabilidad global de refuerzo era de 0.50. Un
solo toque a la otra luz blanca resultaba en la presentación de una de dos luces de colores
diferentes (S3 o S4) durante 30 segundos y, en cualquier caso, era seguida por un refuerzo
con una probabilidad de 0.75. Por lo tanto, la elección de la segunda alternativa resultaba en

6
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

una mayor probabilidad de refuerzo que la elección de la primera alternativa. Para asegurar
que las palomas tuvieran la experiencia adecuada con las contingencias de refuerzo asociadas
con las dos alternativas, en cada sesión de entrenamiento las palomas recibieron 24 pruebas
forzadas con cada alternativa, así como 12 pruebas de elección. De esta forma, recibieron 12
ensayos forzados con cada estímulo terminal discriminativo y no discriminativo. En apoyo de
nuestra hipótesis, encontramos una preferencia "desadaptativa" confiable del 69% para la
alternativa asociada con el 50% de refuerzo (ver Figura 3).

Figura 2. ​Diseño de experimento de Gipson et al. (2009). Las palomas eligieron entre dos
alternativas. La elección de una alternativa era seguida ya sea por un estímulo (rojo) que
siempre era seguido por un refuerzo, en la mitad de las pruebas o un estímulo diferente (verde)
que nunca era seguido por un refuerzo, en las pruebas restantes. La elección de la otra
alternativa era seguida por dos estímulos (azul o amarillo), ambos seguidos de un refuerzo el
75% del tiempo. Se contrabalanceó la ubicación espacial y los colores.

7
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Figura 3. Los resultados de Gipson et al. (2009). La mayoría de las palomas (13 de 16)
mostraron una preferencia por los estímulos discriminativos con probabilidad de refuerzo del
50% sobre los estímulos no discriminativos con una probabilidad del 75% de refuerzo.

En un estudio de seguimiento, encontramos que si reducíamos la probabilidad de


refuerzo asociada con la alternativa de estímulo discriminativo, podíamos obtener una
preferencia aún mayor por esa alternativa (Stagner & Zentall, 2010). Específicamente, la
probabilidad de refuerzo asociada con la alternativa de estímulo discriminativo fue solo 0.20
(el estímulo que predecía de manera confiable el refuerzo ocurría solo en el 20% de los
ensayos), mientras que la probabilidad de refuerzo asociada con la alternativa de estímulo no
discriminativo fue de 0.50 (2.5 veces la probabilidad de refuerzo asociado con la alternativa
de estímulo discriminativo, ver Figura 4). En estas condiciones, las palomas mostraron una
preferencia aún más fuerte (97%) por la alternativa de estímulo discriminativo. La
adquisición de esta preferencia se muestra en el panel izquierdo de la Figura 5. En la Fase 2
de ese experimento, las contingencias asociadas con las dos alternativas se invirtieron y las
palomas rápidamente revirtieron sus preferencias (ver el panel central izquierdo de la Figura
5). En las Fases 1 y 2 de ese experimento, las dos alternativas asociadas con las diferentes
contingencias fueron señaladas por ubicaciones espaciales. En la Fase 3, las formas que
variaban en su ubicación espacial de una prueba a otra se convirtieron en las señales para las
alternativas asociadas con las diferentes contingencias y una vez más, las palomas
aprendieron rápidamente a elegir el estímulo que fue seguido por los estímulos
discriminativos y la probabilidad general más baja de refuerzo (ver el panel central derecho
de la Figura 5). Finalmente, para determinar el papel de los estímulos discriminativos en la
preferencia por la alternativa asociada con la menor probabilidad global de refuerzo, la
probabilidad de refuerzo asociada con esos dos estímulos se equiparó a 0.20. Es decir, el
estímulo que se presentó en el 20% de los ensayos y que originalmente se asoció con el 100%

8
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

de refuerzo se redujo al 20% de refuerzo y el estímulo que se presentó en el 80% de los


ensayos y originalmente se asoció con el 0% de refuerzo fue aumentado al 20% de refuerzo.
Este cambio dejó la probabilidad general de refuerzo asociada con las dos alternativas como
estaba en las fases anteriores del experimento, sin embargo, ahora las palomas mostraron una
fuerte preferencia por la alternativa asociada con la mayor probabilidad de refuerzo (ver el
panel derecho de la Figura 5). Por lo tanto, fueron los estímulos discriminativos los que
señalaban el refuerzo y su ausencia los responsables de la elección subóptima de las palomas.

Figura 4. Diseño de experimento de Stagner y Zentall (2010). Las palomas eligieron entre dos
alternativas. La elección de una alternativa fue seguida por un estímulo (rojo) en el 20% de los
ensayos que siempre fue seguido de refuerzo o un estímulo diferente (verde) en el 80% de los
ensayos que nunca fue seguido por refuerzo. La elección de la otra alternativa fue seguida por
alguno de los dos estímulos (azul o amarillo), cada uno de los cuales fue seguido por un
refuerzo el 50% del tiempo. Se contrabalanceó la ubicación espacial y los colores.

9
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Figura 5. Resultados de Stagner y Zentall (2010). Panel izquierdo: Adquisición de la


preferencia por estímulos discriminativos con una probabilidad de refuerzo del 20% sobre
estímulos no discriminativos con una probabilidad de refuerzo del 50%. Panel medio izquierdo:
Adquisición de la preferencia por estímulos discriminativos con una probabilidad de refuerzo
del 20% sobre los estímulos no discriminativos con una probabilidad de refuerzo del 50%
cuando se invierten las contingencias asociadas a la elección espacial. Panel medio derecho:
Adquisición de la preferencia por estímulos discriminativos con una probabilidad de refuerzo
del 20% sobre estímulos no discriminativos con una probabilidad de refuerzo del 50% cuando
las alternativas se señalizaron con estímulos de forma. Panel derecho: Adquisición de la
preferencia por estímulos no discriminativos con una probabilidad de refuerzo del 50% sobre
estímulos no discriminativos con una probabilidad de refuerzo del 20%.

Un medio alternativo de evaluar el grado de preferencia por una alternativa sobre otra
es preguntarse qué reducción en el retraso del refuerzo asociado con la alternativa menos
preferida sería necesaria para que el sujeto se mostrara indiferente entre las dos alternativas.
Por ejemplo, existe buena evidencia de que una reducción en el retraso del reforzamiento
puede ser sustituto a una magnitud menor de reforzamiento, un procedimiento que se utiliza a
menudo en los experimentos de autocontrol (Mazur, 1987).
En un experimento no publicado (Zentall & Stagner, datos no publicados) entrenamos
palomas usando el procedimiento de Stagner y Zentall (2010) (20% de refuerzo con
estímulos discriminativos vs 50% de refuerzo con estímulos no discriminativos) usando un
estímulo terminal fijo de 10s (se presentó el estímulo coloreado que siguió a cada enlace
inicial, independiente de la respuesta, durante un período fijo de 10s). Después del
entrenamiento, utilizando una modificación del procedimiento de Mazur (1996), la duración
del estímulo terminal después de la elección de la alternativa asociada con una mayor
probabilidad de refuerzo y los estímulos no discriminatorios se redujo gradualmente de 10s a
0s y luego se incrementó gradualmente hasta que volvió a 10s. Cuando se promediaron los
datos de elección de los procedimientos descendentes y ascendentes, encontramos que las
palomas eran indiferentes entre las dos alternativas cuando el retraso del refuerzo asociado
con la elección de los estímulos no discriminatorios estaba entre 2s y 4s en comparación con
un retraso de 10s del refuerzo asociado con elección de la alternativa de estímulo
discriminativo. Así, una forma de describir la preferencia por los estímulos discriminativos
sobre los no discriminativos sería decir que para estas palomas, los estímulos discriminativos
valían aproximadamente tres veces el retraso del refuerzo junto con el 40% de la cantidad
total de refuerzo.

Un mejor modelo en palomas del comportamiento humano de juego

Aunque los resultados de los experimentos de Gipson et al. (2009) y Stagner y Zentall
(2010) demostraron claramente un comportamiento de elección desadaptativo por parte de las

10
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

palomas, cuando los humanos apuestan, las alternativas generalmente involucran diferentes
magnitudes de refuerzo (típicamente dinero) en lugar de diferentes probabilidades de
refuerzo. Por lo tanto, uno puede comprar un billete de lotería por $1 con la esperanza de
ganar una gran cantidad de dinero. Es posible que el efecto que hemos estado observando con
la manipulación de la probabilidad de refuerzo se produzca porque las palomas están
evitando una alternativa que resulte en estímulos asociados con un resultado incierto (0.75
probabilidad de refuerzo en Gipson et al., 2009, y 0.50 probabilidad de refuerzo en Stagner &
Zentall 2010). Si el efecto que hemos estado estudiando con las palomas fuese un buen
análogo del comportamiento humano de juego, debería ser posible encontrar un efecto similar
manipulando la magnitud del refuerzo, en lugar de la probabilidad de refuerzo, y eliminando
la incertidumbre del resultado asociado con los estímulos no discriminatorios.
Zentall y Stagner (en prensa) le dieron a las palomas la posibilidad de elegir entre dos
alternativas. La elección de una alternativa en el 20% de los ensayos producía un estímulo
que siempre predecía la entrega de 10 pellet de comida y en el 80% restante de los ensayos
producía un estímulo que siempre predecía la entrega de 0 pellet. Por lo tanto, esta alternativa
se asoció con un promedio de 2 pellet por ensayo (ver el diseño en la Figura 6). La elección
de la otra alternativa siempre produjo uno de dos estímulos, cada uno de los cuales siempre
predecía la entrega de 3 pellet. Por lo tanto, la segunda alternativa se asoció con 3 gránulos
consistentes por ensayo. Una vez más, si las palomas son sensibles a la cantidad de alimento
que obtienen con el tiempo, deben seleccionar la opción de 3 pellets. Sin embargo,
contrariamente a esta predicción, las palomas mostraron una fuerte preferencia de 87%, por la
alternativa variable de 2 pellet sobre la alternativa fija de 3 pellet.

Figura 6. Las palomas eligieron entre dos alternativas. La elección de una alternativa era
seguida por un estímulo (rojo) en el 20% de los ensayos que siempre entregaba 10 pellet de
refuerzo o un estímulo diferente (verde) en el 80% de los ensayos que nunca era entregaba

11
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

refuerzo. La elección de la otra alternativa era seguida por dos estímulos (azul o amarillo), los
cuales siempre entregaban 3 pellet de refuerzo. Se contrabalanceó la ubicación espacial y los
colores.

Para asegurarnos de que esta preferencia no resultara simplemente de la preferencia


de las palomas por el refuerzo variable sobre el refuerzo fijo, repetimos el experimento y
convertimos los estímulos discriminativos en no discriminativos. Es decir, la elección de la
alternativa que proporcionó un promedio de 2 pellet por ensayo ahora produjo uno de dos
estímulos, cada uno de los cuales se asoció con una probabilidad de 0.20 de proporcionar 10
pellet. La alternativa que proporcionó 3 pellet consistentemente por prueba continuó
haciéndolo. En estas condiciones, las palomas aprendieron rápidamente a comportarse
"racionalmente". Es decir, mostraron una preferencia del 80% por la alternativa asociada con
3 pellet por ensayo. Por lo tanto, no fue la variabilidad del refuerzo asociada con la
alternativa de refuerzo del 20% la responsable de la preferencia por esa alternativa, sino los
estímulos discriminativos que siguieron a esa elección.

Mecanismo responsable de la elección subóptima de las palomas

¿Por qué las palomas prefieren los estímulos discriminativos asociados con una menor
probabilidad general de refuerzo sobre los estímulos no discriminativos asociados con una
mayor probabilidad de refuerzo? Dinsmoor (1983) argumentó que el refuerzo condicionado
junto con la conducta de observación reforzada eran responsables. Cualquier estímulo que
prediga un refuerzo con una alta probabilidad (en este caso el 100%) se convertirá en un
reforzador condicionado y provocará un comportamiento de observación. Aunque está claro
que tal estímulo debería preferirse sobre un estímulo que predice el refuerzo solo el 50% del
tiempo (Stagner & Zentall, 2010) o incluso el 75% de las veces (Gipson et al., 2009), la
pregunta que queda es por qué el estímulo que nunca se asoció con el refuerzo (el S−) mostró
poca evidencia de desarrollar inhibición condicionada, especialmente dado que en el estudio
de Stagner y Zentall, el S− se presentó cuatro veces más a menudo que el estímulo que
siempre fue seguido por el refuerzo (ver figura 4).
Si el S− no se convirtió en un inhibidor condicionado, pudo haber sido porque, en un
ensayo dado, una vez que fue identificado como el S− es posible que la paloma lo ignorara,
reduciendo así su efecto inhibidor (es decir, mantuvo poca conducta de observación; véase
Dinsmoor, 1985). De acuerdo con esta posibilidad, las palomas de Gipson et al., 2009,
Stagner y Zentall (2010), y Zentall y Stagner (en prensa) rara vez picoteaban el S−, mientras
que en cada uno de esos experimentos picoteaban todos los estímulos que eran seguidos por
el refuerzo. Sin embargo, es interesante que Dinsmoor encontró que cuando a las palomas se
les presentó un S− y pudieron apagarlo (pero apagarlo no cambiaba el programa de refuerzo
que estaba en efecto), lo hicieron. Por tanto, el estímulo S- parecía tener algunas propiedades
inhibitorias.

12
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Se podría probar la hipótesis de que el S− no se convirtió en un inhibidor


condicionado debido a una reducción en la conducta de observación del estímulo S− al usar
un estímulo difuso, tal como una luz de casa como estímulo S−. Si la falta de observación o
permanencia en presencia del estímulo fue responsable de la preferencia por la alternativa
que proporcionaba menos refuerzo, las palomas que estuvieron expuestas a un estímulo
difuso que señalaba la ausencia de refuerzo deberían desarrollar más inhibición en el S− y,
por lo tanto, deberían mostrar una preferencia por la alternativa asociada con la mayor
probabilidad de refuerzo. Recientemente, realizamos un estudio de este tipo y descubrimos
que la mayoría de las palomas seguían prefiriendo la alternativa de estímulo discriminativo
asociada con una probabilidad general de refuerzo más baja (Stagner y Zentall, datos no
publicados).
Un enfoque alternativo para estudiar el papel de la ausencia relativa de inhibición
condicionada en la preferencia por la alternativa asociada con la probabilidad más baja de
refuerzo sería intentar medir realmente sus propiedades inhibitorias. Se han sugerido varios
procedimientos para evaluar la inhibición condicionada (Hearst, Besley y Farthing, 1970).
Uno de ellos implica la presentación de un compuesto que consiste en un reforzador
condicionado conocido (S +), junto con el presunto inhibidor condicionado. La evidencia de
inhibición condicionada se encuentra cuando la respuesta al S + disminuye cuando el S− se
presenta en conjunto con el S +. Para idear una prueba de este tipo con el diseño de Stagner y
Zentall (2010) (20% frente a 50% de refuerzo), se tendría que usar un estímulo de forma S−
en lugar de un estímulo de color S- que utilizó Stagner y Zentall. Entonces, asumiendo que
después del entrenamiento las palomas mostraran una preferencia por los estímulos
discriminativos sobre los estímulos no discriminativos, se presentaría un compuesto de S+ y
S− y se compararía la respuesta ante este compuesto versus la respuesta ante el S+ por sí
mismo. Para asegurarse de que una reducción en la respuesta al compuesto no sea atribuible a
la presentación de un estímulo novedoso (el compuesto S + / S−), también se debería
comparar la respuesta al compuesto S + / S− con un compuesto novedoso alternativo que
consista en el S+ junto con otro reforzador condicionado conocido (por ejemplo, un estímulo
de forma entrenado como uno de los estímulos que era seguido de un 50% de refuerzo
asociado con la otra alternativa). Si la elección de la alternativa asociada con la presentación
de estímulos discriminativos resultara de la ausencia de inhibición condicionada al S−, se
debería ver una pequeña disminución en la respuesta al compuesto S + / S−, en relación con
la respuesta al compuesto control.
Si la poca inhibición condicionada al S− es responsable del comportamiento de
elección subóptimo mostrado por las palomas, se podría encontrar más evidencia de una
inhibición reducida en las diferencias individuales en la magnitud de la preferencia. Es decir,
uno podría preguntarse si el grado de preferencia por la alternativa asociada con la
presentación de estímulos discriminativos predeciría la disminución en la respuesta al
compuesto S + / S−. Si la elección de la alternativa asociada con la presentación de estímulos
discriminativos resultara de la ausencia de inhibición condicionada al S−, se debería

13
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

encontrar una correlación negativa entre el grado de preferencia por los estímulos
discriminativos y la disminución en la respuesta al compuesto S + / S− .
Curiosamente, también se ha propuesto una teoría basada en la ausencia de inhibición
condicionada a las pérdidas para explicar el comportamiento de apuesta de los humanos.
Breen y Zuckerman (1999) informaron que se ha descubierto que los humanos que apuestan
regularmente prestan más atención a sus ganancias y menos a sus pérdidas considerablemente
más frecuentes que los jugadores ocasionales.
Una segunda explicación de la preferencia por un refuerzo del 20% sobre el refuerzo
del 50% es que la elección de la alternativa de refuerzo al 50% - pero no la alternativa de
refuerzo al 20% - da como resultado una cantidad considerable de respuestas no reforzadas.
La elección de la alternativa de refuerzo al 20% da como resultado muy poco picoteo no
reforzado porque el picoteo al S + siempre está reforzado, mientras que generalmente hay
muy poco picoteo al S−. Por otro lado, en la mitad de los ensayos que involucran la
alternativa de refuerzo al 50% hay picoteo no reforzado. Aunque esta hipótesis proporciona
una explicación razonable de los datos de Gipson et al. (2009) y Stagner y Zentall (2010)
tiene más dificultades para dar cuenta de los datos de Zentall y Stagner (en prensa) porque el
refuerzo siguió a todas las elecciones de la alternativa asociada con los estímulos no
discriminativos. Sin embargo, esos datos también podrían explicarse en términos del costo de
picoteo por unidad de alimento (pellet) (G. Madden, comunicación personal, 15 de diciembre
de 2010). Si se asume que picotear es algo aversivo y que las palomas picotean casi tanto en
los estímulos que predicen 3 bolitas de comida como los que predicen 10 bolitas de comida,
el coste por unidad de alimento de picotear por 3 bolitas de comida sería mayor que el coste
por unidad de alimento de picotear por 10 bolitas de comida.

Aunque asumir que el picoteo es algo aversivo parece bastante razonable, de hecho, el
picoteo suele confundirse con el retraso del reforzamiento. Es decir, las palomas preferirán
menos picoteo que más picoteo si menos picoteo les da refuerzo más rápido. Pero ¿qué pasa
si el tiempo de refuerzo se mantiene constante? La teoría de la reducción del retraso (Fantino
y Abarca, 1983) se basa en la noción de que el retraso en el refuerzo más que en el picoteo (o
el esfuerzo) determina la preferencia. En apoyo de la teoría de la reducción del retraso, hemos
descubierto recientemente que, en ausencia de un retraso diferencial en el refuerzo, las
palomas no necesariamente prefieren no picotear antes que picotear (Singer, Berry y Zentall,
2007). Cuando se les dio a las palomas a elegir entre picotear y abstenerse de picotear y el
tiempo de refuerzo se controló cuidadosamente, la mayoría de las palomas se mostraron
indiferentes entre los dos programas, y de las palomas que sí mostraron una preferencia, no
siempre fue una preferencia abstenerse de picotear.
De esta forma, la respuesta al estímulo terminal no reforzada (o la respuesta que lleva
a una menor magnitud de refuerzo) probablemente no sea responsable por la elección del
estímulo inicial que conduce a la menor probabilidad de refuerzo.

14
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

La base evolutiva para una elección subóptima

Un ecologista del comportamiento podría argumentar que las palomas muestran un


comportamiento de elección desadaptativo en estos experimentos solo porque las condiciones
de laboratorio bajo las cuales son entrenadas son artificiales. Podrían argumentar que tales
condiciones no ocurrirían en la naturaleza y, por lo tanto, no se esperaría que los animales
hayan desarrollado la capacidad de detectar las probabilidades diferenciales de refuerzo en
tales condiciones. De hecho, puede ser que las condiciones naturales tiendan a favorecer tal
comportamiento. Por ejemplo, uno podría imaginar que en la naturaleza, la elección de una
alternativa de baja probabilidad pero alta recompensa podría aumentar la probabilidad de
encontrar el resultado de alta recompensa (por ejemplo, acercando al animal a un terreno que
contenga una mayor densidad de alta recompensa). De esta forma, aunque en el laboratorio la
elección de la alternativa que proporciona estímulos discriminativos no produce el mejor
resultado, se podría argumentar que en la naturaleza, lo más probable es que lo haga. Este
análisis (o especulación) sobre los orígenes del comportamiento de juego desadaptativo
puede proporcionar una idea de por qué los humanos y otros animales se desempeñan de
manera subóptima en estas condiciones. Si es así, deja sin respuesta la pregunta de por qué
los humanos y otros animales no aprenden que tal comportamiento es desadaptativo. Después
de todo, los ensayos forzados garantizan una experiencia extendida con las contingencias de
refuerzo asociadas con las dos alternativas, y en nuestra investigación (así como con los
apostadores habituales) no hay indicios de que la preferencia por la menor probabilidad de
refuerzo asociada con el estímulo discriminativo disminuya con experiencia adicional con las
contingencias de refuerzo.
Aunque las condiciones de laboratorio bajo las cuales hemos encontrado un
comportamiento de elección desadaptativo en las palomas pueden no reflejar las condiciones
que se encuentran en la naturaleza, sí pueden ser bastante similares a las condiciones en las
que los humanos muestran apuestas monetarias. Una diferencia entre las tareas de los
humanos y las palomas es que las palomas se enfrentan a una elección forzada de dos
alternativas, mientras que a los humanos generalmente se les presenta una decisión de ir/no ir
(apostar o abstenerse de apostar). Pero esta diferencia hace que sea incluso más sorprendente
que los humanos elijan apostar, porque la opción de abstenerse de apostar generalmente no
solo se asocia con una mayor magnitud de refuerzo (porque el rendimiento esperado de
apostar normalmente es menos de 1.0) sino que elegir apostar generalmente incurre en un
costo adicional en demora del refuerzo (para apostar hay que comprar un boleto de lotería y
esperar el sorteo o viajar a un casino).

15
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Conclusión

La demostración de que las palomas muestran un comportamiento de apuestas


desadaptativas en condiciones similares a aquellas bajos las cuales los humanos apuestan,
sugiere que el comportamiento de juego puede ser un proceso psicológico básico que se
puede estudiar más fácilmente con un modelo animal porque reduce la probabilidad de que el
comportamiento social, experiencial y otros prejuicios exclusivamente humanos interactúen
con los procesos conductuales básicos que se presume subyacen a esta conducta paradójica.
Más aún, en la medida en que las palomas muestren un comportamiento de elección
subóptimo en condiciones que imiten el comportamiento de juego humano, un modelo animal
puede ser útil para estudiar variables que contribuyen (o desalientan) el comportamiento de
juego habitual de los humanos.

16

También podría gustarte