Tema 4 - Aprendizaje

TEMA 4: CONDUCTA DE ELECCIÓN Y TOMA DE DECISIONES
1. INTRODUCCIÓN
Fischhoff y Broomell destacan los siguientes elementos en la toma de decisiones como esenciales:
 Juicio: Permite predecir los resultados de cada una de las opciones disponibles (probabilidad).
 Preferencia: Valorar la importancia de esos resultados (utilidad).
 Elección: Combinar los juicios y las preferencias para tomar decisiones.
Para poder realizar decisiones sensatas tenemos que predecir qué pasará si se hacen distintas elecciones
(buen juicio, calidad del juicio). La calidad del juicio depende de la correspondencia y consistencia (criterios
independientes el uno del otro).
En temas anteriores hemos visto el contexto predictivo (relación entre eventos, condicionamiento
pavloviano), donde hemos visto juicios de probabilidad/frecuencia de ocurrencia de un solo evento,
probabilidad simple: p (A) (por ej, lluvia). También hemos visto juicios de probabilidad de la ocurrencia de un
evento en función de otro: probabilidad condicional: p (H/E); p (E/C), que se basan en el cómputo de
frecuencias de distintos tipos de ensayos/eventos. Por último, también vimos juicios de contingencia entre
dos eventos: Δp = (E/C) - p (E/noC).
En este tema veremos dentro del contexto predictivo e instrumental el juicio de contingencia conducta-
consecuencia, donde Δp = (consecuencia/conducta) - p (consecuencia/ no conducta). La probabilidad de
ocurrencia de un evento es contingente a nuestra conducta (recompensa, castigo, omisión, evitación, escape).
Dickinson propone dos contenidos del aprendizaje de instrumental:
 Conducta en función de consecuencias (acción dirigida a meta, procesamiento tipo 2). Tiene un doble
criterio: la creencia (relación de contingencia cdta-deseo) y deseo (valor de consecuencia).
 Conducta en respuesta a claves (hábito, craving, compulsión, procesamiento tipo 1).
2. CONDUCTA DE ELECCIÓN
 APRENDIZAJE Y CONTROL: CONDICIONAMIENTO INSTRUMENTAL
Una de las diferencias entre condicionamiento clásico y operante es el control que ejerce el individuo.
 Caja problema gatos: Thorndike
Thorndike, mediante las cajas problema, pretende estudiar la inteligencia, si bien realmente termina
estudiando el aprendizaje. Coloca a un gato hambriento dentro de una caja y pone un pedazo de pescado en
la parte exterior. Para escapar, el gato tiene que aprender a abrir el pestillo desde dentro de la caja. Al
principio, da respuestas ineficaces: araña o muerde los barrotes o saca sus garras por las aberturas.
Eventualmente, el gato se para accidentalmente en el pedal que liberaba el pestillo de la puerta. Colocado en
la caja, realiza la misma actividad al azar hasta que se paraba nuevamente en el pestillo.
En ensayos posteriores, el gato realiza cada vez menos movimientos aleatorios, hasta que presiona el pestillo
de inmediato. Esto se conoce como ley del efecto: Fuerza de la conexión E-R (hábito, en términos de Hull)
aumenta cuando le sigue una consecuencia agradable (recompensa), y se debilita si sigue una consecuencia
desagradable (castigo). Aprende a hacer una acción automática, el papel de la comida aquí será fortalecer el
hábito, no está en el contenido del aprendizaje. El papel del reforzador no está representado en la ley del
efecto, pero es importante.
En una situación de c. instrumental se pueden aprender múltiples acciones, también pavlovianas (c.c).
Thorndike utilizaba estas caja-problema como un procedimiento de aprendizaje instrumental que llamamos
“procedimiento de ensayo discreto”. Se llama ensayo discreto porque cada vez que introducimos al animal
estamos en un ensayo, y dura todo el tiempo o bien hasta que el animal sale de la caja, o hasta que nosotros
vemos que ha pasado un tiempo máximo sin conseguirlo (que nosotros estimemos) y lo sacamos.
Para Thorndike el aprendizaje consiste en una a asociación entre los estímulos presentes en la situación y la
respuesta instrumental. Se basaba en una asociación estímulo-respuesta (aprendizaje instrumental). El vínculo
E-R se fortalece por el reforzamiento: si en presencia de determinados estímulos se produce una respuesta y
le sigue un reforzamiento, se fortalece el vínculo entre estímulo y respuesta (para él sería el hábito, porque
así se instauran progresivamente).
 Caja Skinner
Se basa en el ensayo o procedimiento continuo. Es mucho más sofisticada que la caja de Thorndike. Utiliza
procedimientos estandarizados. Presenta estímulos (luminosos, auditivos…), hay un comedero por el que se
puede presentar un reforzador (comida) y también hay una barra electrificada en el suelo, que permite
administrar descargas eléctricas con intensidad limitada (reforzadores aversivos), con las que queremos que
el animal aprenda miedo con determinada descarga.
Permite estudiar la respuesta instrumental de forma continua, presionando una palanca, tirando de una
cadena, etc. Así estudiamos las miles de respuestas que pueda generar un animal en un tiempo determinado.
El programa de reforzamiento que utilicemos determinará la tasa de respuestas, en función de lo motivante
que sea.
En una situación de condicionamiento instrumental se pueden aprender múltiples asociaciones, también
pavlovianas (condicionamiento clásico). Por ejemplo: le ordenamos al perro que se siente, le ayudamos un
poco para que lo haga, y le damos un reforzamiento mediante un reforzador (comida).
¿Cuál es la utilidad de introducir el click? Al
establecer una asociación entre el click y la
recompensa (comida), nos permite que el click se
convierta en un EC, es decir, en un reforzador
condicionado. Nos permite (de forma
intermitente) sustituir la recompensa por el click,
porque es un reforzador condicionado. En
ocasiones se refuerza la respuesta de sentarse
con el click.
3. ACCIONES DIRIGIDAS A META Y HÁBITOS

 TEORÍA DUAL DE CONDICIONAMIENTO INSTRUMENTAL: ACCIONES DIRIGIDAS A METAS (TIPO 2) VS.
HÁBITOS (TIPO 1)
Algunos autores consideran que el procesamiento tipo 2 es exclusivamente humano. Dickinson, en los años
30, propone esta teoría dual, en la que se considera que el aprendizaje puede estar controlado por 2 sistemas
en función de ciertas condiciones, tanto durante la adquisición como durante la ejecución:
 Hábitos:
Hace referencia a una respuesta automática en presencia de un estímulo. Aquí la conducta está controlada
por la situación, no por el sujeto. Se basa en una asociación entre estímulo-respuesta. Se considera una
asociación de tipo pavloviano, ya que la contingencia de la asociación no es instrumental.
 ¿Cuáles son las condiciones para que se establezca un hábito? La relación de contigüidad temporal
entre e-r (positiva).
 Proceso de devaluación del reforzador: A pesar de que se devalúe el valor del reforzador una vez ya
está establecido, la respuesta se va a ejecutar igual ya que no depende de este. La devaluación del
reforzador no afecta a las asociaciones tipo E-R.
 Acciones dirigidas a meta
Hace referencia a una acción con propósito (conseguir el reforzador). La acción está controlada por el sujeto.
Aquí hay una asociación entre respuesta instrumental y consecuencia (E-C).
 ¿Cuáles son las condiciones para que se establezca una acción dirigida a meta?: Es la relación de
contingencia entre la respuesta instrumental y la consecuencia. Esta relación establece una cierta
dependencia, es decir, (aplicando la regla delta p) diríamos que existe una relación de contingencia
positiva cuando la probabilidad de conseguir la consecuencia es mayor si se ha realizado la respuesta
instrumental que si no se ha realizado. En este caso tendríamos la diferencia entre dos probabilidades:
que se dé la consecuencia cuando se ha ejecutado la respuesta (menos) que se dé la consecuencia
cuando no se ha ejecutado la respuesta. También depende del valor del incentivo de la consecuencia..
 Proceso de devaluación del reforzador: Si la meta se devalúa, la frecuencia de ejecución va a
disminuir. La devaluación del reforzador afecta a las asociaciones de tipo R-C.
 ¿CÓMO DISTINGUIMOS CUÁL DE LOS DOS SISTEMAS CONTROLA LA CONDUCTA?

En el aprendizaje animal y humano: la acción dirigida a meta es sensible a los cambios en el valor de incentivo
de la consecuencia, es decir, es sensible a aquellos procedimientos que cambien el valor de la consecuencia,
también podríamos hablar de revaluación, es decir, de un cambio del valor del incentivo.
 En el caso del hábito, una vez establecido, devaluar la consecuencia no va a tener un impacto sobre la
conducta.
 En el caso de la acción dirigida a meta, después de la evaluación, la acción es la que disminuye en su
frecuencia o intensidad.
Es importante recordar que siempre que vamos a evaluar el impacto de la devaluación presentemos de nuevo
la respuesta pero en extinción, así observamos qué impacto tiene sobre la ejecución de la respuesta sin
introducir ningún nuevo aprendizaje instrumental. Si yo devalúo la consecuencia, y una vez devaluada espero
a que se ejecute la respuesta y vuelvo a presentar la consecuencia en contigüidad temporal voy a contemplar
un efecto, un efecto de castigo, y por la ley del efecto, la respuesta va a disminuir.
Para saber cuál de los dos tiene más peso en el equilibrio de conductas instrumentales, se hace mediante a
devaluación del reforzador, y siempre haciendo los test en extinción. Otra forma, podría ser degradando la
relación de contingencia: si devaluamos la relación de contingencia también va a afectar a la frecuencia con la
que se produce la respuesta. En el caso de un hábito esta forma no tendría impacto.
 ¿CÓMO LLEVAR A CABO EL PROCEDIMIENTO DE DEVALUACIÓN DEL REFORZADOR?

Los diseños que mejor controlan el efecto de devaluación son aquellos que incorporan dos respuestas
instrumentales, y cada una con una consecuencia distinta. Por ejemplo: Tenemos la R1 y R2, que son
respuestas instrumentales diferentes y/o arbitrarias que se entrenan por separado. En el caso de los animales
se entrena 1º una, luego otra, y después las dos de forma concurrente.
R1: pulsar la tecla b (C1 devaluada: comida en malas condiciones)
R2: pulsar la tecla n (C2 no devaluada: comida en buen estado)
Una vez que se ha entrenado, y se han asociado las respuestas con sus respectivas consecuencias, tenemos
una conducta de elección en la que los animales pueden elegir libremente entre las dos respuestas. La cuestión
es que si devaluamos uno de los reforzadores, tenemos dos posibles patrones que podemos observar:
 R1<R2: Si la respuesta cuya consecuencia ha sido devaluada se produce a una tasa menor que la
respuesta cuya consecuencia no ha sido devaluada tendríamos un efecto de devaluación, es decir un
descenso significativo en una de las respuestas que anteriormente estuvo asociada a la consecuencia
devaluada. Por tanto hablaríamos de una respuesta que es una acción dirigida a meta. El proceso es
flexible y hay elección de la respuesta de acuerdo al valor de la consecuencia.
 R1=R2. Si las respuestas no se diferencian significativamente en su tasa, es decir, que el efecto de
devaluación no se va a observar, hablamos de que la respuesta es un hábito, un proceso
automatizado. A pesar de que la consecuencia haya perdido su valor no tiene impacto en la conducta
de elección, en la toma de decisiones. Se siguen eligiendo las dos respuestas, de forma que las tasas
son muy parecidas. Hay un comportamiento disparado por los estímulos con independencia de la
deseabilidad de la consecuencia.
 DEVALUACIÓN DE LA CONSECUENCIA O REFORZADOR

Experimento de Bernard Balleine y Dickinson (1998). Utilizan un procedimiento de devaluación de la
consecuencia llamado ‘’saciación sensorial específica’’. Es un procedimiento apetitivo, el valor hedónico del
alimento disminuye, se devalúa un sabor específico, y además es temporal (no es como el condicionamiento
aversivo gustativo, donde introducimos un nuevo aprendizaje de forma que un sabor deja de ser atractivo, e
incluso lo convertimos en aversivo).
En primer lugar, damos por sentado que hemos entrenado dos respuestas instrumentales cada una con su
consecuencia específica, de forma que el animal distribuye su tiempo y su conducta ejecutando las dos
respuestas, las cuales son reforzadas/motivantes.
R1: pulsar la tecla b (C1 devaluada: comida en malas condiciones -> pellets)
R2: pulsar la tecla n (C2 no devaluada: comida en buen estado -> agua con sacarosa)
Antes del test, se permite a la rata comer todos los pellets que quiera para devaluar el valor hedónico de la
consecuencia mediante saciación.
Nos encontramos un test de extinción, es decir, los animales tienen la
oportunidad de ejecutar las dos respuestas pero no va a tener consecuencia.
Se pretende ver el efecto que tiene la devaluación sobre las dos respuestas,
pero no se presenta de nuevo.
2 condiciones experimentales:
 Tasa de respuestas para R2 (respuesta que no ha sido devaluada)
 Tasa de respuestas para R1 (respuesta que ha sido devaluada)
En la gráfica se observa como en los primeros ensayos ya se nota la
devaluación en la respuesta 1, mientras que la tarea 2 se ejecuta con una tasa
alta, pero esta va disminuyendo al no obtener recompensa.
Esta diferencia entre respuesta devaluada y no devaluada refleja el efecto de devaluación.
 ¿QUÉ FACTORES FACILITAN QUE LA CONDUCTA INSTRUMENTAL (ACCIÓN DIRIGIDA A META) PIERDA
FLEXIBILIDAD Y SE VUELVA INSENSIBLE AL CAMBIO EN EL VALOR DE LA CONSECUENCIA? (HÁBITOS).
DICHO DE OTRA FORMA, ¿QUÉ FACTORES FACILITAN QUE UN PROCESAMIENTO TIPO 2 SE
CONVIERTA EN UN PROCESAMIENTO TIPO 1?
 Procesamiento tipo 1: no utiliza la memoria de trabajo, se realiza de forma automática, suele ser
rápido, asociativo, menos consciente y lo asociamos con un procesamiento implícito.
 Procesamiento tipo 2: requiere memoria de trabajo, requiere más esfuerzo y control y lo asociamos
con un procesamiento explícito. Para algunos autores este procesamiento es exclusivamente humano,
pero no es del todo correcto, puesto que en este tema también vemos como animales son capaces de
controlar sus conductas (conducta dirigida a meta).
Estos factores son:
 Sobrepráctica: produce una automatización, es adaptativo.
 Estrés: ya sea agudo o crónico, facilita que sea el sistema de hábitos el que se encargue del control de
la conducta. Con un estado de estrés el efecto de devaluación va a ser menor o prácticamente
inexistente.
 Rasgos de personalidad (ej. Impulsividad): las personas que puntúan alto en rasgos de impulsividad
también muestran un menor efecto de devaluación o incluso totalmente ausente. La impulsividad
emocional nos hace menos sensibles al valor de incentivo de nuestras metas, por tanto menos
flexibles y más propensos a funcionar de forma automática, y así perdemos la capacidad de modificar
la conducta de acuerdo a sus consecuencias.
 Trastorno obsesivo-compulsivo (TOC): estas personas diagnosticadas de TOC presentan un menor
efecto de devaluación.
 Alta reactividad al valor de incentivo del reforzador (ej. Obesidad, claves asociadas a alimentos altos
en calorías y con sabor palatable): aquellas personas que son más sensibles a la saliencia de incentivo
de las claves asociadas a los reforzadores, como puede ser la obesidad, observamos que hay una falta
de control. Los cambios en el valor de incentivo de la meta producen poco efecto sobre la conducta.
 Adicciones: en personas con adicciones (fumadores) se observa esa falta del efecto de devaluación,
de forma que podemos inferir que su conducta en cuanto a respuestas instrumentales está poco
controlada por sus consecuencias y otros factores automáticos por el cual los sujetos tienen poco o
ningún control.
4. ELECCIÓN CONTINUA: PROGRAMAS DE REFORZAMIENTO CONCURRENTES Y CONDUCTA DE

ELECCIÓN
Los programas de reforzamiento se definen como pautas o reglas que determinan cómo y cuándo se va a
reforzar la respuesta instrumental.
Pueden ser simples o complejos, donde hay varias elecciones disponibles, cada una con su propio programa
de reforzamiento y condiciones.
En los programas de reforzamiento simple solo vamos a considerar 1 respuesta instrumental que va seguida
de un reforzador. Hay 2 tipos:
 Programas de reforzamiento continuo: es el más sencillo. Todas las respuestas son reforzadas.
 Programas de reforzamiento intermitente: son más comunes. No todas las respuestas emitidas son
reforzadas. Dentro de este tipo de programas tenemos 2 grandes grupos:
o Programas de razón: el reforzador se entrega dependiendo del nº de respuestas emitidas.
 Programas de razón fija: (línea azul) se pide un nº exacto de respuestas para que se
produzca el reforzador. Es menos estable (hay una pausa después de cada
reforzamiento, luego un incremento de la tasa de respuestas). Carrera de la razón:
cuando se acerca el reforzador, aumenta la velocidad de las respuestas.
 Programas de razón variable: (línea verde) no exige nº exacto de respuestas para ser
reforzador. Es relativamente más estable (sin muchas pausas predecibles). *Por
ejemplo, las máquinas tragaperras.
 Programas de razón aleatoria: cada cierto tiempo existe una probabilidad de
conseguir un reforzador pero es totalmente independiente de la historia
pasada de refuerzos.
o Programas de intervalo: el reforzador depende de que la respuesta se ejecute en un periodo
de tiempo determinado desde la última respuesta que ha sido reforzada. Transcurrido un
intervalo la respuesta se va a reforzar.
Cuando queremos estudiar de forma general la conducta, se utilizan programas de intervalo
variable. Nos interesa que la conducta sea estable y que no dependa demasiado del
reforzador.
 Programas de intervalo fijo: (línea roja). Los reforzadores se entregan cuando ha
pasado un tiempo fijo desde la última respuesta reforzada. Se observa lo que se
llama “el festón del intervalo fijo”, donde cada vez que se consigue el reforzador
incrementan las respuestas. Es como si se anticipa que después del reforzador va
a haber un intervalo donde no hay reforzador, y que transcurrido un tiempo las
probabilidades de obtener ese reforzador es mayor.
 Programas de intervalo variable: (línea morada). Los intervalos mediantes los que
se refuerzan no son fijos, sino que son aproximados a un promedio, es decir, p.e.,
cada 10 segundos, 20, 30… Si queremos estudiar la conducta general y cuestiones
más complejas utilizamos un programa de intervalo variable, es el más estable y
produce una conducta a lo largo del tiempo. También es más resistible a la
extinción y es más difícil que se produzcan efectos de saciación o habituación.
La propensión al hábito es mayor en los programas de razón, ya que es necesario entregar muchos
reforzadores y pueden ser los que produzcan una mayor saciación o habituación.
El registro acumulativo nos permite presentar a lo largo del tiempo cada una de las respuestas, y también
cuando se había presentado un reforzador. Las líneas de colores serían el registro acumulado de respuestas
para cada uno de los parámetros de reforzamiento, y las líneas negras indican cuando se presenta el
reforzador.
Las líneas azul y verde representan un programa
de reforzamiento intermitente de razón. Las
respuestas se acumulan de forma rápida. Hay
más respuestas en general, estos programas
son más reforzantes. El reforzador se tiene que
producir a la vez que las respuestas.
Las líneas roja y morada representan un
programa de reforzamiento intermitente de
intervalo. La tasa de respuestas no es tan alta.
Son mucho más estables que los programas de
razón, también son más resistentes a la
extinción pero son menos motivantes.
 PROGRAMAS CONCURRENTES DE REFORZAMIENTO

Hay varias opciones de respuesta disponibles simultáneamente y cada una de ellas está sometida a un
programa de reforzamiento distinto. Este es un programa concurrente de reforzamiento. Los programas son
independientes el uno del otro, y permiten estudiar la conducta de elección y los factores de los que depende.
El interés es determinar cómo se distribuye el tiempo/esfuerzo entre
las opciones, en función de las características de cada uno de los
programas de reforzamiento. Normalmente se usan programas de
intervalo variable: La opción con más reforzamiento recibirá más
respuestas (en el caso de la paloma, el programa de razón fija). Lasa de respuestas se iguala a la de
reforzamiento del mismo tipo (p.e., intervalo variable) lo que cambiaría sería el tiempo que tiene que esperar
hasta que se ve recompensada.
En el caso paradigmático las dos respuestas se
encuentran sometidas a un programa de intervalo
variable (IV). En este caso la tasa relativa de
respuestas (RA/RB ) tiende a igualarse con la tasa
relativa de reforzamiento (rA/rB ) [Ley de igualación,
Herrstein]: RA/RB = rA/rB
También, los tiempos relativos empleados en cada
opción se igualan a las tasas de reforzamiento: TA/TB
= rA/rB. Implicaciones en la terapia de conducta: no
solo es necesario tener en cuenta la tasa de
reforzamiento de una actividad para predecir su tasa
de respuesta, sino la de las actividades alternativas
que pueden competir con ella.
 LEY DE IGUALACIÓN
La elección viene determinada por la naturaleza del reforzador, la dificultad asociada a cada una de las
respuestas que conducen al mismo, y la facilidad de pasar de una a otra. “Cuando los reforzadores son
idénticos, las respuestas tienen dificultad equivalente, el cambio de una respuesta a otra es fácil y rápido, y
las dos alternativas de respuesta son independientes, la tasa relativa de respuesta en cada alternativa iguala
a la tasa relativa de reforzamiento en dicha alternativa de respuesta (Herrnstein, 1970)” Si no hay igualación,
alguno de los factores no se ha dado. Entonces tendríamos que indagar sobre el porqué (igual no tienen la
misma dificultad, no son idénticos…). Aquí veremos ejemplos en los que
la ley de igualación no se cumple:
 Igualación: la pendiente está a 45º. Se igualan la tasa relativa de
respuesta con la tasa relativa de reforzamiento.
 Infraigualación: la pendiente esta por debajo de 45º. la tasa
relativa de respuesta es menor que la de refozamiento.
 Supraigualación/sobreigualación: la pendiente está por encima
de 45º. La tasa relativa de respuesta es mayor que la de
reforzamiento.
 Sesgo de respuesta: hay una respuesta por la que hay
preferencia. Ocurre a veces cuando la topografía de respuestas
son distintas.
Tenemos que modificar la ley de igualación para poder explicar lo que
se observa cuando nos movemos de las condiciones de laboratorio, para
las ocasiones en las que la ley no siempre se cumple.
La fórmula es: RA/RB = b (rA/rB)s donde “s” es la sensibilidad al
reforzamiento (sensibilidad de la conducta de elección a las tasas
relativas de reforzamiento, puede obtenerse p.e., por un fallo en
discriminación entre las opciones o al que cambio de una alternativa a
otra sea costoso). Si S = 1; igualación, si S < 1; infraigualación, si S >
supraigualación / sobreigualación.
“b” es el sesgo de respuesta, que influye cuando hay una situación de elección asimétrica; p.e., las alternativas
de respuesta tienen una topografía distinta y existe una preferencia por una de ellas (ya sea porque es más
accesible, cómodo…), o cuando los reforzadores son distintos y uno tiene mayor valor de incentivo (refleja el
hecho de que las alternativas de respuesta/reforzadores no son igualmente valorados).
 Cuando b > 1, mayor es la preferencia de la opción A sobre la B.
 Cuando b < 1, mayor es la preferencia de la opción B sobre A.
5. TOMA DE DECISIONES Y AUTOCONTROL

Uno de los factores más estudiados en relación al valor subjetivo del reforzador es la demora, que es el tiempo
que hay entre la ejecución de una respuesta y la aparición del reforzador. Los reforzadores y recompensa
pierden valor cuando existe una demora en el reforzamiento. Por lo que para que se pueda producir el
aprendizaje necesitamos una relación de contingencia entre la conducta y el reforzador, en la cual debe haber
también contigüidad temporal.
Cuando la demora es 0 segundos, la rata realiza la conducta. Cuando desde el principio la demora es 10, la
rata no aprende a presionar la palanca. Por ello, el primer día de aprendizaje por reforzamiento hacemos
reforzamiento continuo con tiempo variable, y a medida que pasa el tiempo iremos introduciendo demoras.
Es importante saber que la demora afecta al valor subjetivo de la recompensa. Cualquier recompensa vale
más de forma inmediata que si es una recompensa de forma demorada.
Tanto en SSHH como en animales, la relación entre valor y demora obedece a una función hiperbólica donde:
 La magnitud (M), es el valor objetivo o utilidad que le damos de forma
inmediata, es decir, con demora 0, a la recompensa.
 La utilidad (V), es el valor subjetivo del reforzador
 La demora (d) es el tiempo entre ejecución y aparición del reforzador.
Depende de la situación concreta. Retrasar la recompensa siempre va a
disminuir el valor objetivo de la recompensa.
 El parámetro de descuento (k): sirve para diferenciar el grado en el que nos afecta a los individuos la
demora ya que para algunos las recompensas van a perder el valor muy rápido con la demora. Cuanto
mayor sea k, más rápido disminuye el valor del reforzador con la demora. Es decir, es la velocidad con
la que va a perder valor la recompensa. Varía enormemente en función del tipo de reforzador, de la
situación y de la persona. Puede estimarse en personas a través de medidas directas (conductuales)
como indirectas (autoinformes).
El autocontrol es la capacidad para inhibir una conducta que lleva una consecuencia inmediata en favor de
otra opción de respuesta que daría lugar a una recompensa mayor pero más demorada en el tiempo; un fallo
en el autocontrol lleva a la impulsividad. Una persona impulsiva en la elección elegirá la recompensa más
inmediata, aunque la demorada le pueda interesar más a largo plazo; esto se llama función de descuento
hiperbólica. Esta relaciona el valor de recompensa y tiempo de espera para la administración de una
recompensa pequeña y otra grande que se presenta tiempo después.
En la gráfica se relaciona el valor de la recompensa y el tiempo de espera para la administración de una
recompensa pequeña y otra grande que se presenta tiempo después. Si no
dispongo de suficientes recursos para ejercer el autocontrol, cuando estamos
lejos de la situación es fácil tomar buenas decisiones, pero cuando estamos
cansados, tenemos hambre, etc. es más difícil. También se puede dar por
variables de personalidad ya que hay personas más impulsivas que otras.
A continuación hay unas graficas donde se presentan 2 opciones para dos
posibles situaciones:
En ambas el eje de ordenadas (y) se presenta el valor V (valor del reforzador) y en el eje de abscisas (x) se
representa la demora en el tiempo. ¿En cuál de las dos opciones se muestra más impulsividad? ¿En cuál el
parámetro K es mayor? El parámetro de descuento (K) es mayor en A que en B, porque pierde valor mucho
más rápido en función de la demora. La curva de A llega muy pronto a un valor muy bajo. (Importante examen,
pregunta semejante). En este caso, el eje de ordenadas (y) se presenta el parámetro k de descuento y en el
eje de abscisas (x) se presentan distintos valores de la recompensa. Tenemos 2 grupos:
 Pacientes adictos a la heroína (grupo experimental).
 Participantes sanos (grupo control)
Se estima a través de una serie de pruebas el parámetro k. Los pacientes (grupo experimental) tienen un mayor
valor del parámetro de descuento k, por tanto son más impulsivos.
6. MODELOS NORMATIVOS Y DESCRIPTIVOS

Entenderemos la toma de decisiones como decisiones excluyentes: ¿Prefieres A o B?. ¿Cuál será la forma
racional de decidirme? Lo veremos a continuación.
6.1. MODELO NORMATIVO: TEORÍA DEL VALOR ESPERADO

Cuando tengo una situación de incertidumbre de riesgo y
varias opciones, ¿cuál es la forma racional de elegirlo?
Según Pascal, tendríamos que calcular la esperanza
matemática de cada opción y escoger la que tenga mayor
valor esperado.
La economía conductual o behavioral economics cuestiona si somos tan racionales en nuestras decisiones
económicas. Ante la pregunta de si preferimos 80 euros en mano o jugárnosla y tener un 80% de posibilidades
de ganar 100 euros y un 20% de ganar 10, a pesar de que el valor esperado para la segunda es mayor (82, pues
0,8 x 100 + 0,2 x 100 versus 80, que es 1 x 80), la mayoría de las personas suele elegir la primera.
 Desde una perspectiva normativa (teoría del valor esperado) deberíamos, si queremos ser racionales,
elegir la opción B, porque tenemos un valor esperado mayor que en el caso de la opción segura, que
maximizaría los beneficios.
 Desde una perspectiva clásica o económica, se elegiría la opción segura, es decir, la opción A.
Por ello, si bien nos sirve como un modelo normativo, el valor esperado no sirve como descriptivo. ¿Por qué
no seguimos el valor esperado? Ponderamos también los efectos aversivos, y por ejemplo, tenemos aversión
al riesgo, que podemos entender como la preferencia por la opción segura. La mayoría elige la opción segura
al juego con riesgo: no valoramos las perspectivas inciertas de acuerdo al valor monetario esperado, sino en
función de su valor psicológico, su utilidad.
6.2. MODELO NORMATIVO: UTILIDAD ESPERADA

La propuesta es la misma, pero en vez de v hay una u, una utilidad estimada. La función de utilidad no es lineal,
sino logarítmica: la respuesta psicológica a un cambio en los ingresos es inversamente proporcional a los
ingresos iniciales. Esto explica por qué a veces los incrementos monetarios no se corresponden con
incrementos iguales en utilidad, y así, como la utilidad va cambiando más lentamente que el valor monetario,
tengo una curva negativamente acelerada. Esta función explica la aversión al riesgo.
Si parto de que no tengo nada y me encuentro 100 euros, el incremento en la utilidad es grande, pero si tengo
mucho dinero el billete de 100 no es un incremento tan grande. Así, el
incremento de utilidad es menor porque depende del dinero que ya
tengas. Lo monetario lo puedo ordenar, pero la utilidad es el valor
psicológico, el valor que tiene para mí en una situación determinada.
Además, hay una disminución en la sensibilidad: Para producir el
mismo incremento en la utilidad, debemos incrementar la ganancia
mucho más si ya partimos de una cierta cantidad; incrementos iguales
en capital tienen menos utilidad cuantos más ingresos tengamos.
Línea azul: función logarítmica

Línea roja: función lineal. Representa que cuantos más
millones tenemos, el cambio de utilidad sigue siendo
progresivo y equivalente.
6.3. MODELO DESCRIPTIVO. PROSPECT THEORY

Además de tener en cuenta el punto de referencia para las ganancias, también tiene en cuenta la diferencia
entre ganancias y pérdidas. La prospect theory se acerca más a un planteamiento descriptivo, que describe lo
que realmente hacemos las personas (y no como deberíamos hacerlo) cuando nos ponen ante una opción de
elección.
¿Siempre mostramos aversión al riesgo? No. Un factor importante es si estoy considerando la opción segura
versus la arriesgada en función de las ganancias o las pérdidas.
*Ejemplo de juego económico:
Si pregunto a una persona si pregunto a una persona si prefiere recibir 900 euros o tener un 90% de posibilidad
de recibir 1000, elige la opción segura (900). Sin embargo, si pregunto a la persona si prefiere perder 900 euros
o tener un 90% de posibilidad de perder 1000, elige la opción de riesgo. Las personas que en la primera opción
eligen 900, prefieren la ganancia segura a la posición arriesgada, esto se llama aversión al riesgo. Las personas
que en la segunda opción eligen 90% de posibilidades de perder 1000, prefieren perdida probable a perder de
forma segura 900, esto se llama búsqueda de riesgo.
Entonces, sabemos que en términos de pérdidas, preferimos buscar el riesgo, mientras que la aversión al
riesgo se suele dar en términos de ganancias.
*Otro ejemplo:
Vemos que la mayoría de la gente busca el riesgo cuando se trata de pérdidas.
Aunque dos proposiciones tengan el mismo significado lógico en términos de valor esperados la elección
lógica, por el procesamiento tipo 2, normativo, no favorecería una frente a otra. La formulación en términos
de pérdidas tiene un mayor impacto psicológico
(es decir, afectivo: el procesamiento tipo 1 elegirá
una formulación en términos de ganancia o menor
pérdida, a una relativa a pérdidas, aunque el valor
esperado sea el mismo). Desde esta perspectiva, se constata que los agentes decisores no son racionales, no
eligen de acuerdo a lo que establece la norma: valor o utilidad esperada en términos absolutos. ¿Preferimos
entonces siempre jugar, el riesgo, a la opción segura? Preferimos el riesgo en la pérdida a la pérdida segura:
búsqueda del riesgo en el marco de pérdidas.
*Otro ejemplo:
Vemos que la mayoría de la gente elige la ganancia
segura en la opción de las ganancias. Preferimos la
ganancia segura al riesgo en la ganancia: aversión al
riesgo en el marco de ganancias.
*Otro ejemplo:
La mayoría de la gente prefiere el riesgo en la pérdida en el marco de pérdidas Es decir, debido al fenómeno
de aversión a la pérdida, evitamos el riesgo cuando se
trata de ganancias pero lo buscamos cuando se trata
de pérdidas. Buscamos la ganancia segura, al contrario
que la pérdida segura. Esta asimetría en cuanto a la
tendencia al riesgo u opción segura, la incorpora el
modelo de la propect theory de Kahneman & Tversky.
Por tanto, esta teoría de la utilidad esperada proporciona una visión incompleta. Es necesario tener en cuenta
si estamos considerando ganancias o pérdidas, porque la decisión que tomemos varía en función de ese marco
de referencia, y también considerar el punto de referencia desde el cual partimos. Sin embargo, sí que tiene
en cuenta como los cambios o incrementos en capital producen cambios menores en utilidad, es decir, utilizan
una versión de la función logarítmica, pero sigue siendo una versión incompleta.
Kahneman y Tversky lo que hacen en su teoría es incluir alguno de esos
puntos de la utilidad esperada, van a tener en cuenta el ámbito de las
pérdidas, y el punto de referencia para considerar si algo es una ganancia
o una pérdida.
La teoría de la utilidad esperada no estudia la diferencia entre ganancias y
pérdidas, ni tampoco tiene en cuenta el punto de referencia ni aspectos
emocionales ligados a ganancia y pérdidas. La prospect theory sí lo hace,
adopta esta forma. Con esta gráfica podemos ver que para las personas
son mucho más significativas las pérdidas que las ganancias. Además, los
cambios en utilidad en las ganancias son más lentos que en las perdidas.
Tenemos aversión a la perdida, y por ello quiero asegurarme una ganancia
segura y evitar una perdida segura.
Los principios de la teoría son los siguientes: Hacemos una evaluación relativa a un punto de referencia. Los
mejores resultados son ganancias y los peores, pérdidas. Hay una disminución en la sensibilidad y una aversión
a la pérdida: Las pérdidas pesan más que las ganancias. La asimetría tiene un valor adaptativo: responder más
rápidamente y con más intensidad a las amenazas que a oportunidades.

Tema 4 - Aprendizaje

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 4 - Aprendizaje

Cargado por

Copyright:

Formatos disponibles

TEMA 4: CONDUCTA DE ELECCIÓN Y TOMA DE DECISIONES

3. ACCIONES DIRIGIDAS A META Y HÁBITOS

 ¿CÓMO DISTINGUIMOS CUÁL DE LOS DOS SISTEMAS CONTROLA LA CONDUCTA?

 ¿CÓMO LLEVAR A CABO EL PROCEDIMIENTO DE DEVALUACIÓN DEL REFORZADOR?

 DEVALUACIÓN DE LA CONSECUENCIA O REFORZADOR

4. ELECCIÓN CONTINUA: PROGRAMAS DE REFORZAMIENTO CONCURRENTES Y CONDUCTA DE

 PROGRAMAS CONCURRENTES DE REFORZAMIENTO

5. TOMA DE DECISIONES Y AUTOCONTROL

6. MODELOS NORMATIVOS Y DESCRIPTIVOS

6.1. MODELO NORMATIVO: TEORÍA DEL VALOR ESPERADO

6.2. MODELO NORMATIVO: UTILIDAD ESPERADA

Línea azul: función logarítmica

6.3. MODELO DESCRIPTIVO. PROSPECT THEORY

También podría gustarte