Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. INTRODUCCIÓN
Fischhoff y Broomell destacan los siguientes elementos en la toma de decisiones como esenciales:
Juicio: Permite predecir los resultados de cada una de las opciones disponibles (probabilidad).
Preferencia: Valorar la importancia de esos resultados (utilidad).
Elección: Combinar los juicios y las preferencias para tomar decisiones.
Para poder realizar decisiones sensatas tenemos que predecir qué pasará si se hacen distintas elecciones
(buen juicio, calidad del juicio). La calidad del juicio depende de la correspondencia y consistencia (criterios
independientes el uno del otro).
En temas anteriores hemos visto el contexto predictivo (relación entre eventos, condicionamiento
pavloviano), donde hemos visto juicios de probabilidad/frecuencia de ocurrencia de un solo evento,
probabilidad simple: p (A) (por ej, lluvia). También hemos visto juicios de probabilidad de la ocurrencia de un
evento en función de otro: probabilidad condicional: p (H/E); p (E/C), que se basan en el cómputo de
frecuencias de distintos tipos de ensayos/eventos. Por último, también vimos juicios de contingencia entre
dos eventos: Δp = (E/C) - p (E/noC).
En este tema veremos dentro del contexto predictivo e instrumental el juicio de contingencia conducta-
consecuencia, donde Δp = (consecuencia/conducta) - p (consecuencia/ no conducta). La probabilidad de
ocurrencia de un evento es contingente a nuestra conducta (recompensa, castigo, omisión, evitación, escape).
Dickinson propone dos contenidos del aprendizaje de instrumental:
Conducta en función de consecuencias (acción dirigida a meta, procesamiento tipo 2). Tiene un doble
criterio: la creencia (relación de contingencia cdta-deseo) y deseo (valor de consecuencia).
Conducta en respuesta a claves (hábito, craving, compulsión, procesamiento tipo 1).
2. CONDUCTA DE ELECCIÓN
APRENDIZAJE Y CONTROL: CONDICIONAMIENTO INSTRUMENTAL
Una de las diferencias entre condicionamiento clásico y operante es el control que ejerce el individuo.
Caja problema gatos: Thorndike
Thorndike, mediante las cajas problema, pretende estudiar la inteligencia, si bien realmente termina
estudiando el aprendizaje. Coloca a un gato hambriento dentro de una caja y pone un pedazo de pescado en
la parte exterior. Para escapar, el gato tiene que aprender a abrir el pestillo desde dentro de la caja. Al
principio, da respuestas ineficaces: araña o muerde los barrotes o saca sus garras por las aberturas.
Eventualmente, el gato se para accidentalmente en el pedal que liberaba el pestillo de la puerta. Colocado en
la caja, realiza la misma actividad al azar hasta que se paraba nuevamente en el pestillo.
En ensayos posteriores, el gato realiza cada vez menos movimientos aleatorios, hasta que presiona el pestillo
de inmediato. Esto se conoce como ley del efecto: Fuerza de la conexión E-R (hábito, en términos de Hull)
aumenta cuando le sigue una consecuencia agradable (recompensa), y se debilita si sigue una consecuencia
desagradable (castigo). Aprende a hacer una acción automática, el papel de la comida aquí será fortalecer el
hábito, no está en el contenido del aprendizaje. El papel del reforzador no está representado en la ley del
efecto, pero es importante.
En una situación de c. instrumental se pueden aprender múltiples acciones, también pavlovianas (c.c).
Thorndike utilizaba estas caja-problema como un procedimiento de aprendizaje instrumental que llamamos
“procedimiento de ensayo discreto”. Se llama ensayo discreto porque cada vez que introducimos al animal
estamos en un ensayo, y dura todo el tiempo o bien hasta que el animal sale de la caja, o hasta que nosotros
vemos que ha pasado un tiempo máximo sin conseguirlo (que nosotros estimemos) y lo sacamos.
Para Thorndike el aprendizaje consiste en una a asociación entre los estímulos presentes en la situación y la
respuesta instrumental. Se basaba en una asociación estímulo-respuesta (aprendizaje instrumental). El vínculo
E-R se fortalece por el reforzamiento: si en presencia de determinados estímulos se produce una respuesta y
le sigue un reforzamiento, se fortalece el vínculo entre estímulo y respuesta (para él sería el hábito, porque
así se instauran progresivamente).
Caja Skinner
Se basa en el ensayo o procedimiento continuo. Es mucho más sofisticada que la caja de Thorndike. Utiliza
procedimientos estandarizados. Presenta estímulos (luminosos, auditivos…), hay un comedero por el que se
puede presentar un reforzador (comida) y también hay una barra electrificada en el suelo, que permite
administrar descargas eléctricas con intensidad limitada (reforzadores aversivos), con las que queremos que
el animal aprenda miedo con determinada descarga.
Permite estudiar la respuesta instrumental de forma continua, presionando una palanca, tirando de una
cadena, etc. Así estudiamos las miles de respuestas que pueda generar un animal en un tiempo determinado.
El programa de reforzamiento que utilicemos determinará la tasa de respuestas, en función de lo motivante
que sea.
En una situación de condicionamiento instrumental se pueden aprender múltiples asociaciones, también
pavlovianas (condicionamiento clásico). Por ejemplo: le ordenamos al perro que se siente, le ayudamos un
poco para que lo haga, y le damos un reforzamiento mediante un reforzador (comida).
¿Cuál es la utilidad de introducir el click? Al
establecer una asociación entre el click y la
recompensa (comida), nos permite que el click se
convierta en un EC, es decir, en un reforzador
condicionado. Nos permite (de forma
intermitente) sustituir la recompensa por el click,
porque es un reforzador condicionado. En
ocasiones se refuerza la respuesta de sentarse
con el click.
¿QUÉ FACTORES FACILITAN QUE LA CONDUCTA INSTRUMENTAL (ACCIÓN DIRIGIDA A META) PIERDA
FLEXIBILIDAD Y SE VUELVA INSENSIBLE AL CAMBIO EN EL VALOR DE LA CONSECUENCIA? (HÁBITOS).
DICHO DE OTRA FORMA, ¿QUÉ FACTORES FACILITAN QUE UN PROCESAMIENTO TIPO 2 SE
CONVIERTA EN UN PROCESAMIENTO TIPO 1?
Procesamiento tipo 1: no utiliza la memoria de trabajo, se realiza de forma automática, suele ser
rápido, asociativo, menos consciente y lo asociamos con un procesamiento implícito.
Procesamiento tipo 2: requiere memoria de trabajo, requiere más esfuerzo y control y lo asociamos
con un procesamiento explícito. Para algunos autores este procesamiento es exclusivamente humano,
pero no es del todo correcto, puesto que en este tema también vemos como animales son capaces de
controlar sus conductas (conducta dirigida a meta).
Estos factores son:
Sobrepráctica: produce una automatización, es adaptativo.
Estrés: ya sea agudo o crónico, facilita que sea el sistema de hábitos el que se encargue del control de
la conducta. Con un estado de estrés el efecto de devaluación va a ser menor o prácticamente
inexistente.
Rasgos de personalidad (ej. Impulsividad): las personas que puntúan alto en rasgos de impulsividad
también muestran un menor efecto de devaluación o incluso totalmente ausente. La impulsividad
emocional nos hace menos sensibles al valor de incentivo de nuestras metas, por tanto menos
flexibles y más propensos a funcionar de forma automática, y así perdemos la capacidad de modificar
la conducta de acuerdo a sus consecuencias.
Trastorno obsesivo-compulsivo (TOC): estas personas diagnosticadas de TOC presentan un menor
efecto de devaluación.
Alta reactividad al valor de incentivo del reforzador (ej. Obesidad, claves asociadas a alimentos altos
en calorías y con sabor palatable): aquellas personas que son más sensibles a la saliencia de incentivo
de las claves asociadas a los reforzadores, como puede ser la obesidad, observamos que hay una falta
de control. Los cambios en el valor de incentivo de la meta producen poco efecto sobre la conducta.
Adicciones: en personas con adicciones (fumadores) se observa esa falta del efecto de devaluación,
de forma que podemos inferir que su conducta en cuanto a respuestas instrumentales está poco
controlada por sus consecuencias y otros factores automáticos por el cual los sujetos tienen poco o
ningún control.
LEY DE IGUALACIÓN
La elección viene determinada por la naturaleza del reforzador, la dificultad asociada a cada una de las
respuestas que conducen al mismo, y la facilidad de pasar de una a otra. “Cuando los reforzadores son
idénticos, las respuestas tienen dificultad equivalente, el cambio de una respuesta a otra es fácil y rápido, y
las dos alternativas de respuesta son independientes, la tasa relativa de respuesta en cada alternativa iguala
a la tasa relativa de reforzamiento en dicha alternativa de respuesta (Herrnstein, 1970)” Si no hay igualación,
alguno de los factores no se ha dado. Entonces tendríamos que indagar sobre el porqué (igual no tienen la
misma dificultad, no son idénticos…). Aquí veremos ejemplos en los que
la ley de igualación no se cumple:
Igualación: la pendiente está a 45º. Se igualan la tasa relativa de
respuesta con la tasa relativa de reforzamiento.
Infraigualación: la pendiente esta por debajo de 45º. la tasa
relativa de respuesta es menor que la de refozamiento.
Supraigualación/sobreigualación: la pendiente está por encima
de 45º. La tasa relativa de respuesta es mayor que la de
reforzamiento.
Sesgo de respuesta: hay una respuesta por la que hay
preferencia. Ocurre a veces cuando la topografía de respuestas
son distintas.
Tenemos que modificar la ley de igualación para poder explicar lo que
se observa cuando nos movemos de las condiciones de laboratorio, para
las ocasiones en las que la ley no siempre se cumple.
La fórmula es: RA/RB = b (rA/rB)s donde “s” es la sensibilidad al
reforzamiento (sensibilidad de la conducta de elección a las tasas
relativas de reforzamiento, puede obtenerse p.e., por un fallo en
discriminación entre las opciones o al que cambio de una alternativa a
otra sea costoso). Si S = 1; igualación, si S < 1; infraigualación, si S >
supraigualación / sobreigualación.
“b” es el sesgo de respuesta, que influye cuando hay una situación de elección asimétrica; p.e., las alternativas
de respuesta tienen una topografía distinta y existe una preferencia por una de ellas (ya sea porque es más
accesible, cómodo…), o cuando los reforzadores son distintos y uno tiene mayor valor de incentivo (refleja el
hecho de que las alternativas de respuesta/reforzadores no son igualmente valorados).
Cuando b > 1, mayor es la preferencia de la opción A sobre la B.
Cuando b < 1, mayor es la preferencia de la opción B sobre A.
*Otro ejemplo:
Vemos que la mayoría de la gente busca el riesgo cuando se trata de pérdidas.
Aunque dos proposiciones tengan el mismo significado lógico en términos de valor esperados la elección
lógica, por el procesamiento tipo 2, normativo, no favorecería una frente a otra. La formulación en términos
de pérdidas tiene un mayor impacto psicológico
(es decir, afectivo: el procesamiento tipo 1 elegirá
una formulación en términos de ganancia o menor
pérdida, a una relativa a pérdidas, aunque el valor
esperado sea el mismo). Desde esta perspectiva, se constata que los agentes decisores no son racionales, no
eligen de acuerdo a lo que establece la norma: valor o utilidad esperada en términos absolutos. ¿Preferimos
entonces siempre jugar, el riesgo, a la opción segura? Preferimos el riesgo en la pérdida a la pérdida segura:
búsqueda del riesgo en el marco de pérdidas.
*Otro ejemplo:
Vemos que la mayoría de la gente elige la ganancia
segura en la opción de las ganancias. Preferimos la
ganancia segura al riesgo en la ganancia: aversión al
riesgo en el marco de ganancias.
*Otro ejemplo:
La mayoría de la gente prefiere el riesgo en la pérdida en el marco de pérdidas Es decir, debido al fenómeno
de aversión a la pérdida, evitamos el riesgo cuando se
trata de ganancias pero lo buscamos cuando se trata
de pérdidas. Buscamos la ganancia segura, al contrario
que la pérdida segura. Esta asimetría en cuanto a la
tendencia al riesgo u opción segura, la incorpora el
modelo de la propect theory de Kahneman & Tversky.
Por tanto, esta teoría de la utilidad esperada proporciona una visión incompleta. Es necesario tener en cuenta
si estamos considerando ganancias o pérdidas, porque la decisión que tomemos varía en función de ese marco
de referencia, y también considerar el punto de referencia desde el cual partimos. Sin embargo, sí que tiene
en cuenta como los cambios o incrementos en capital producen cambios menores en utilidad, es decir, utilizan
una versión de la función logarítmica, pero sigue siendo una versión incompleta.
Kahneman y Tversky lo que hacen en su teoría es incluir alguno de esos
puntos de la utilidad esperada, van a tener en cuenta el ámbito de las
pérdidas, y el punto de referencia para considerar si algo es una ganancia
o una pérdida.
La teoría de la utilidad esperada no estudia la diferencia entre ganancias y
pérdidas, ni tampoco tiene en cuenta el punto de referencia ni aspectos
emocionales ligados a ganancia y pérdidas. La prospect theory sí lo hace,
adopta esta forma. Con esta gráfica podemos ver que para las personas
son mucho más significativas las pérdidas que las ganancias. Además, los
cambios en utilidad en las ganancias son más lentos que en las perdidas.
Tenemos aversión a la perdida, y por ello quiero asegurarme una ganancia
segura y evitar una perdida segura.
Los principios de la teoría son los siguientes: Hacemos una evaluación relativa a un punto de referencia. Los
mejores resultados son ganancias y los peores, pérdidas. Hay una disminución en la sensibilidad y una aversión
a la pérdida: Las pérdidas pesan más que las ganancias. La asimetría tiene un valor adaptativo: responder más
rápidamente y con más intensidad a las amenazas que a oportunidades.