Está en la página 1de 20

ATENCIÓN, APRENDIZAJE Y EL VALOR DE LA INFORMACIÓN

Jacqueline Gottlieb (2012)

Resumen

A pesar de muchos estudios sobre atención selectiva, quedan preguntas fundamentales sobre
su naturaleza y mecanismos neuronales​. ​Me baso en los campos de aprendizaje de animales y
máquinas que describen la atención como un mecanismo para el aprendizaje activo y la
reducción de la incertidumbre, ​y exploro las implicaciones de esta visión para comprender la
atención visual y el control del movimiento ocular. Una ​integración más cercana de estos
diferentes puntos de vista tiene el potencial de expandir en gran medida nuestra comprensión
del control oculomotor y nuestra capacidad de usar este sistema como una ventana hacia
funciones cognitivas de alto nivel pero poco entendidas, incluyendo curiosidad y exploración e
inferir modelos internos del mundo externo.

Introducción

Hace mucho tiempo, definido por William James como "el enfoque de la mente", la atención
selectiva es simultáneamente una de nuestras funciones cognitivas más penetrantes y
desconcertantes. Por un lado, se recluta la atención para casi todos los comportamientos y se
ha investigado en humanos, monos, ratones y ratas. Por otro lado, a pesar de esta gran
cantidad de investigación, quedan preguntas importantes sobre la naturaleza de la atención,
su propósito y los mecanismos neuronales.

En humanos y primates no humanos, gran parte de nuestro conocimiento ​de los mecanismos
de atención proviene del sistema de control de la visión y el movimiento ocular​. ​La
investigación intensiva en este sistema ​ha demostrado que la atención afecta las
representaciones sensoriales ​en todos los niveles de la jerarquía visual​, comenzando desde
áreas de bajo nivel como el núcleo geniculado lateral, a través de áreas corticales de alto nivel
en el lóbulo temporal inferior (Reynolds y Heeger, 2009; Saalmann y Kastner, 2011). ​Estos
estudios también sugieren que la fuente de las modulaciones atencionales se encuentra, al
menos en parte, en dos áreas sensoriomotoras asociadas con movimientos oculares rápidos
(​sacadas). ​Dos áreas que han sido particularmente bien investigadas son el área intraparietal
lateral y el campo ocular frontal​, que se muestra en la figura 1A para el cerebro del mono
macaco. Las neuronas en estas áreas tienen campos receptivos espaciales y respuestas
relacionadas con la sacada, y responden selectivamente a estímulos que probablemente
atraerán la atención en una variedad de tareas. No específicamente sensoriales o motoras,
estas células parecen codificar el acto específico de selección de objetivos, y pueden
proporcionar retroalimentación con respecto a esta selección tanto a áreas visuales anteriores
como a estructuras de movimiento aguas abajo que generan cambios de mirada.

Sin embargo, quedan preguntas importantes sobre la importancia y los cálculos subyacentes a
esta respuesta de selección de objetivos. Históricamente, se han utilizado dos marcos para
explicar esta respuesta. Una línea de investigación describe la selección de objetivos en
términos de decisión motora, como la integración de la evidencia y el compromiso eventual
con un cambio de mirada (Gold yShadlen, 2007; Kable y Glimcher, 2009). Una interpretación
alternativa lo describe como selección de estímulo: el acto de enfocarse en una señal sensorial
que puede impulsar modulaciones atencionales de la respuesta sensorial (Bisley y Goldberg,
2010; Gottlieb y Balan, 2010).

Si bien los estudios anteriores han intentado diseccionar los componentes visuales frente a los
motores de la selección de objetivos, los estudios más recientes han enfatizado el aspecto de
la respuesta sacádica, de libre elección. Sin embargo, el marco de decisión se ha mantenido en
gran medida separado de una interpretación atencional y no está claro en qué medida los dos
marcos son compatibles o distintos (Maunsell y Treue, 2006). Además, como describiré a
continuación, ambas vistas no logran capturar completamente las observaciones empíricas y
dejan preguntas significativas abiertas sobre el control del movimiento ocular.

Desde esta perspectiva, propongo un enfoque más amplio que integra elementos de ambas
explicaciones y considera los aspectos cognitivos del control del movimiento ocular. De
acuerdo con el marco de decisión, propongo que la respuesta neuronal a la selección de
objetivos se pueda ver como una decisión interna que busca maximizar una función de utilidad
(es decir, aumentar un beneficio y minimizar un costo). Sin embargo, de acuerdo con una
interpretación de atención, enfatizo que, como sistema que controla un órgano sensorial, el
ojo, esta decisión debe ser optimizarse para obtener la información de muestreo. Por lo tanto,
para comprender las decisiones oculomotoras, debemos abordar la cuestión compleja y poco
comprendida de cómo el cerebro atribuye valor a las fuentes de información, y cómo esto
puede diferir del valor determinado por las recompensas primarias.

La cuestión de la selección de información activa rara vez se estudia como un tema distinto (y
aún más raramente en las celdas individuales), pero surge repetidamente en el aprendizaje y la
investigación de la memoria. La evidencia reciente de estudios computacionales y
conductuales deja en claro que los procesos de selección de información aprovechan algunas
de nuestras funciones cognitivas más altas, que implican, entre otras cosas, curiosidad
intrínseca y la capacidad deplanificación anticipada y formación de modelos internos de tareas
complejas (por ejemplo, (Gershman y Niv, 2010; Johnson et al., 2012)). Mi objetivo en esta
perspectiva es considerar estos procesos y su relevancia para la visión y el control del
movimiento ocular. Comienzo con una breve descripción de las respuestas de selección de
objetivos en la corteza frontal y parietal de los monos, y su relación con la atención y el control
del movimiento ocular. Luego considero la posible relación entre la selección de objetivos y la
selección de información, basándose particularmente en tres áreas que tradicionalmente han
estado separadas de la investigación oculomotora, a saber, estudios sobre aprendizaje
asociativo en humanos y ratas (Holland y Maddux, 2010; Le Pelley, 2010; Pearce y Mackintosh,
2010), estudios de control del movimiento ocular en comportamientos naturales (Hayhoe y
Ballard, 2005; Tatler et al., 2011) y estudios computacionales en el campo del aprendizaje
automático (Dayan y Daw, 2008; Dayan et al., 2000; Oudeyer et al., 2007).

Debido a la complejidad e inmensidad del tema, mi discusión será necesariamente incompleta.


Evitaré, por ejemplo, los mecanismos de nivel de circuito (la mayoría de los cuales se
desconocen actualmente) y las consideraciones matemáticas detalladas (para las cuales se
pueden encontrar excelentes descripciones en otros lugares (Dayan y Daw, 2008; Dayan et al.,
2000; Oudeyer et al., 2007)). Sin embargo, a pesar de estas limitaciones, espero que quede
claro en la próxima discusión que ​apreciar las dimensiones cognitivas del control del
movimiento ocular es tanto una necesidad como una fuente de fortaleza. ​Obtener esta
apreciación es necesario para explicar una variedad de observaciones con respecto a las
respuestas neuronales a la selección ​de objetivos, que no tienen una buena explicación en
términos sensoriales o motores. ​Quizás lo más importante es que obtener esta apreciación
fortalecerá el campo de la investigación oculomotora y nos permitirá utilizar todo el poder de
este sistema como una ventana hacia mecanismos cognitivos de alto nivel pero poco
conocidos.

De la visión a los movimientos oculares, y una etapa intermedia

La investigación sobre atención selectiva en humanos y primates no humanos abarca


numerosos estudios utilizando una amplia gama de técnicas psicofísicas y neurofisiológicas. Si
bien estos estudios difieren ampliamente en sus detalles específicos, ​muchos comparten la
característica común de que dirigen a los sujetos a atender un elemento específico, ya sea un
objeto, característica o ubicación, y miden los efectos de la selección atencional en la
percepción o la acción​. Estos estudios han demostrado que la atención produce efectos
generalizados en las áreas visuales tempranas y tardías, que aumentan colectivamente la señal
del elemento atendido y suprimen el ruido de los distractores desatendidos (Reynolds y
Heeger, 2009). Un cambio de atención puede permanecer encubierto, generando solo una
mejora en la discriminación perceptiva, o puede ir acompañado de movimientos sacádicos
rápidos que son generados por una red de estructuras corticales y subcorticales que incluye
porciones de los ganglios basales, el colículo superior y el campo ocular frontal (Schall et al.,
2011; Stanford et al., 2010).

Los estudios neurofisiológicos también han demostrado que, interpuesta entre el


procesamiento visual y la producción saccade, hay una capa intermedia de selección de
objetivos, que se ha investigado más intensamente en el campo ocular frontal y el área
intraparietal lateral (Fig. 1A) y es el foco de esta perspectiva. Una gran fracción de las neuronas
en estas áreas tienen campos receptivos espaciales y responden tanto a estímulos visuales
como a una sacada planificada. Estas celdas no son selectivas para las características visuales,
pero codifican una cantidad más abstracta de selección de objetivos, es decir, discriminan
entre objetivos y distractores en una variedad de tareas (Gottlieb y Balan,

2010; Thompson y Bichot, 2005) .Los experimentos que manipulan la relevancia o relevancia
de las señales visuales muestran que las células de selección objetivo responden de manera
muy selectiva a los estímulos que probablemente serán atendidos, ya sea por su relevancia
física o relevancia conductual (Gottlieb et al., 1998 ; Thompson y Bichot, 2005). Los
experimentos que disocian la selección visual de la salida motora muestran que las respuestas
neuronales a la selección del objetivo se pueden vincular de manera flexible con la acción, por
ejemplo, al combinarse con un cambio de mirada, con una respuesta esquelética o sin acción
motora inmediata (Balan et al., 2008 ; Bisley y Goldberg, 2003; Schall et al., 2011). Los
experimentos que involucran manipulaciones directas (es decir, a través de la
microestimulación o la inactivación reversible) muestran que estas dos áreas producen efectos
de retroalimentación, especificando planes potenciales para una respuesta sacádica e
influencias de retroalimentación, que impulsan los efectos perceptuales de la atención que se
expresan en respuestas neuronales visuales ( Moore y Armstrong, 2003; Noudoost y Moore,
2011) o en informes psicofísicos (Balan y Gottlieb, 2009; Wardak et al., 2006; Wardak et al.,
2004).

El eslabón perdido

Habiendo caracterizado completamente la respuesta de selección del objetivo, estos estudios


prepararon el escenario para comprender la siguiente pregunta: ¿cómo genera el cerebro esta
respuesta selectiva y cómo las células parietales y frontales "saben" dónde asistir (Baluch e Itti,
2011)? Sorprendentemente, a pesar de la gran cantidad de investigación de atención, pocos
estudios han abordado esta cuestión. Para apreciar esta brecha, es útil considerar tres clases
de modelos computacionales que sintetizan hallazgos empíricos sobre varios aspectos de la
atención selectiva.

Los modelos que se centran en las respuestas sensoriales adoptan una postura similar, que
preguntan cómo las señales parietales o frontales de la selección del objetivo pueden producir
efectos atencionales sensoriales. Un reciente modelo de atención de "normalización" ha sido
particularmente exitoso al explicar una gran cantidad de efectos sensoriales utilizando un
circuito biológicamente plausible simple (Reynolds y Heeger, 2009). Como se ilustra en la
figura 1B, el modelo propone que un "campo de atención" espacialmente selectivo se
retroalimente al sistema visual y escale multiplicativamente las entradas visuales de manera
espacialmente específica. Seguido por la normalización divisiva basada en la competencia local
con otras entradas visuales ("impulso supresivo"), esta influencia atencional da como resultado
una representación visual sesgada donde el estímulo asistido está más fuertemente
representado ("respuesta de la población"). El "campo de atención" se ajusta a las propiedades
de la respuesta de selección del objetivo, es decir, es sensible a la ubicación espacial pero no a
las características visuales. Sin embargo, el modelo retrata este campo como un cuadro con
una salida pero sin entradas, y se centra en su efecto sensorial.

Y finalmente, los modelos que describen los vínculos entre Atención y formación de
decisiones. Un tema común en estos modelos es que la atención influye en la acumulación de
evidencia hacia la opción asistida, haciendo que el sujeto sea más propenso a seleccionar esa
opción (Krajbich et al., 2010). Estos modelos comienzan asumiendo que existe la atención,
pero no explican cómo puede llegar a ser, por ejemplo, por qué los sujetos pueden atender a
un objeto específico en primer lugar.

Por lo tanto, estos esfuerzos computacionales, que reflejan el estado del arte en la
investigación empírica, tratan uniformemente la atención como un término de sesgo externo.
Representan la atención como una "fuerza cognitiva" que tiene influencias generalizadas en la
percepción y la acción, pero que es externa a estas últimas funciones, más que emergente de
ellas.

Selección de destino como una representación de valor

Una notable excepción a esta postura teórica proviene de una fuente inesperada: una línea de
estudios que no ha abordado la atención per se pero ha utilizado el sistema de movimiento
ocular como una plataforma experimental para estudiar la formación de decisiones. Estos
estudios parten de la premisa de que el objetivo final de cualquier acto de selección es
maximizar la aptitud biológica de los organismos. Por lo tanto, parece probable que como tipos
específicos de selección, los movimientos oculares y la atención también satisfarían una
función de utilidad, es decir, buscar maximizar un beneficio y minimizar un costo. Guiados por
esta idea, los estudios de decisión han entrenado a los monos para elegir entre objetivos de
movimiento ocular que ofrecen varias cantidades de recompensas de jugo. Al colocar los
objetivos dentro y enfrente del campo receptivo de un objetivo selectcell Estos estudios
evocan la respuesta de selección del objetivo y estudian sus propiedades para obtener
información sobre la formación de decisiones.
Un resultado consistente revelado por estos estudios (que se han llevado a cabo típicamente
en el área intraparietal lateral) es que la señal de selección del objetivo no es estereotipada
sino que aumenta en función de la conveniencia relativa de las opciones alternativas (Kable y
Glimcher, 2009; Sugrue et al., 2005). Un ejemplo de este resultado se muestra en la figura 1C
en una tarea donde los monos tenían que elegir entre dos objetivos alternativos cuyos
beneficios variaron dinámicamente de un ensayo a otro (Sugrue et al., 2004). Los monos
repartieron sus elecciones en proporción a la historia reciente de recompensas, y las neuronas
en el área intraparietal lateral aumentaron sus respuestas selectivas en proporción con la
recompensa esperada del objetivo: disparar para una sacada dirigida hacia el campo receptivo
aumentó monotónicamente (trazas azules, discontinuas a sólidas). ),mientras disparar para
una sacada a una ubicación diferente disminuyó monotónicamente en función de la
expectativa de recompensa (trazas verdes). Se obtienen resultados similares en tareas que
manipulan la conveniencia de un objetivo utilizando diferentes métodos, por ejemplo
controlando la magnitud relativa, la probabilidad o el retraso de su recompensa esperada
(Bernacchia et al., 2011; Louie et al., 2011; Sugrue et al. ., 2004; Yang y Shadlen, 2007).

Tomados en conjunto, estos estudios sugieren la poderosa hipótesis de que las neuronas de
selección objetivo codifican el valor relativo de acciones alternativas, y que integran múltiples
fuentes de evidencia pertinentes a esta estimación.

Esta vista basada en la utilidad de la selección de objetivos es particularmente atractiva no solo


por su parsimonia y elegancia, pero también porque tiene interpretaciones teóricas directas en
términos de aprendizaje económico y de refuerzo. El marco computacional de la armadura de
refuerzo ning, desarrollado originalmente en el campo del aprendizaje automático (Sutton y
Barto, 1998), ha sido particularmente exitoso en explicar los resultados conductuales y
neuronales. La idea central en este marco es que los agentes (ya sean animales o máquinas)
estiman constantemente los valores de las opciones alternativas en función de su experiencia
repetida con estas opciones.

Esta intuición es capturado en la ecuación de Rescorla-Wagner, que describe el actualización


de un valor estimado en el tiempo t (Vt) basado en la estimación del paso anterior (Vt − 1) y un
pequeño término de aprendizaje (β * δ)

Como se describió anteriormente, se cree que las neuronas parietales que codifican la
selección del objetivo informan una representación del valor de acción, el término V en la
ecuación de Rescorla-Wagner, y actualizan esta representación de manera dinámica (Sugrue et
al., 2004). Esta respuesta de valor podría ser utilizada por mecanismos motores aguas abajo,
como los de los ganglios basales o el colículo superior, para seleccionar acciones óptimas
(maximización de la recompensa).

El término de aprendizaje a la derecha en la ecuación a su vez se ha relacionado más


estrechamente con los sistemas moduladores, en particular la noradrenalina y la dopamina, y
se compone de dos cantidades. Una cantidad, β, es una tasa de aprendizaje que toma valores
entre 0 y 1 y determina qué tan rápido el agente actualiza sus predicciones. Esta tasa depende
de las propiedades globales de la tarea, como la volatilidad o la incertidumbre de una tarea
determinada, y se ha sugerido que sea modulada por entradas noradrenérgicas (Cohen et al.,
2007; Nassar et al., 2012).

La segunda cantidad es el término de error de predicción (δ), que describe cuán


"sorprendido" está el agente por un resultado particular, es decir, qué tan bien o mal había
predicho ese resultado. Esta cantidad, definida como la diferencia entre la estimación del
agente y el resultado real en el paso anterior (δ = r − Vt − 1), proporciona un desencadenante
para el aprendizaje (o la actualización de las expectativas) para reducir el error en la
predicción. Una serie clásica de resultados hasta ahora sugiere que el error de predicción de
recompensa está codificado por las células de dopamina del cerebro medio (Glimcher, 2011;
Schultz, 2006; Waelti et al., 2001). Un ejemplo de esta respuesta de error de predicción se
muestra en la Fig. 3B, en un experimento en el que los monos inicialmente no estaban seguros
del tamaño de una recompensa, y en el momento marcado "Cue", recibió una señal visual que
transmitía información sobre la recompensa esperada (Bromberg-Martin y Hikosaka, 2009).Las
células de dopamina tuvieron una respuesta excitadora transitoria a un estímulo que señaló
una recompensa mayor a la esperada ("Información grande") y una inhibición transitoria a un
estímulo que señaló una recompensa menor a la esperada ("Infosmall"), pero casi no tuvieron
respuesta a un estímulo que no proporcionó nueva información ("Rand", rastros azules).
Cuando se entregó la recompensa real ("Recompensa"), las células volvieron a tener
respuestas excitadoras e inhibitorias a, respectivamente, recompensas altas o bajas, pero solo
si estas recompensas fueron inesperadas (condiciones "Rand", pero no "Información")
exactamente como se esperaba de un término de error de predicción. Como lo muestra la
ecuación de Rescorla-Wagner, tal señal de resultados inesperados puede llevar a un agente a
aumentar o disminuir sus estimaciones de valor si el resultado que ha experimentado fue,
respectivamente, mayor o menor de lo esperado. Tomados en conjunto, estos hallazgos
revelan una notable confluencia entre resultados computacionales y empíricos. Sugieren una
explicación integrada del aprendizaje y la formación de decisiones, mediante la cual las
representaciones de valores se mantienen en estructuras corticales y sensoriomotoras y se
actualizan dinámicamente en función de la retroalimentación de las células dopaminérgicas
(Kable y Glimcher, 2009; Sugrue et al., 2005).

Movimientos oculares seleccionar información

Lanzar la selección de objetivos como una estimación de valor interno parecería cerrar la
brecha conceptual en la investigación de la atención. Una implicación directa de esta idea es
que, para decidir dónde cambiar la mirada o dónde asistir, el cerebro simplemente puede
realizar un seguimiento de los valores de las opciones alternativas y tomar decisiones de
acuerdo con esta representación de valores. Sin embargo, un desafío clave para hacer este
enlace se refiere al valor específico que se ha considerado en el campo de decisión. Como
describí en la sección anterior, en todos los estudios actuales de formación de decisiones, el
"valor" se define en términos de recompensas primarias: el valor de un objetivo saccade en
una tarea de laboratorio se define por el jugo que el mono obtiene al hacer el saccade ( Fig.
1C). Sin embargo, en el comportamiento natural, los movimientos oculares rara vez cosechan
recompensas primarias. En cambio, toman muestras de información.

Considere, por ejemplo, los movimientos oculares realizados por un sujeto en dos tareas
cotidianas: preparar un sándwich de mantequilla de maní o llenar una tetera para preparar un
poco de té (Fig. 2A). Al igual que el mono en un experimento de decisión, estos sujetos tienen
un objetivo, es decir, obtener un sándwich o una taza de té. Sin embargo, a diferencia del
mono, el objetivo no se logrará simplemente mirando un punto, sin importar cuán intenso
pueda ser el enfoque de atención. Más bien, un cambio de mirada o atención es solo un paso
intermedio que le permite al sujeto adquirir información, que solo guiará indirectamente sus
acciones futuras.

Los estudios computacionales de los comportamientos naturalistas muestran que el acto de


adquirir información, ya sea abierta o permanece interna para el cerebro, de hecho, puede
tener un valor material, ya que aumenta los cambios de éxito de las acciones futuras del sujeto
(Tatler et al., 2011). Sin embargo, estos estudios también muestran que los procesos
necesarios para calcular el valor de la información difieren notablemente de los que se han
considerado hasta ahora en las tareas de decisión. Una propiedad destacada de este proceso
es que el valor de la información depende de manera crítica de la incertidumbre de los sujetos
y, en la ecuación de Rescorla-Wagner, está más estrechamente relacionado con el lado
derecho de la ecuación:

El acto de aprender o modificar las expectativas. Como una simple ilustración de esta
distinción, considere nuevamente la tarea de hacer té en la figura 2B. El sujeto debe realizar
acciones de brazos y piernas para lograr su objetivo, y en la ecuación de refuerzo a ambas
acciones se les asignará un término de alto valor (V). Sin embargo, la mirada del sujeto se
asigna de manera muy selectiva a los objetivos del brazo y no a las acciones de la pierna. Esta
selectividad no puede explicarse solo en términos de valor de acción, sino que refleja el hecho
de que los movimientos del brazo tienen una mayor incertidumbre y, por lo tanto, más que
ganar con nueva información.

El apoyo independiente para una visión de la atención como mecanismo de aprendizaje


proviene de un área de investigación que ha estado mayormente separada del campo
oculomotor (pero ver (Le Pelley, 2010)), pero que ha abordado directamente los aspectos
cognitivos de la selección de información, a saber, La cuestión de cómo los sujetos aprenden
de y sobre las señales sensoriales (Pearce y Mackintosh, 2010).

Un hallazgo central que surge de estos estudios es que los sujetos estiman la confiabilidad de
un estímulo sensorial basado en su experiencia previa con ese estímulo, y usan este
conocimiento para modular su aprendizaje futuro en base a esa señal. En la ecuación de
Rescorla-Wagner, este proceso se implementa utilizando un parámetro de asociabilidad, α,
que es una tasa de aprendizaje específica del estímulo (Pearce y Mackintosh, 2010):

Mientras que la tasa de aprendizaje β se aplica globalmente en un contexto o tarea, la


asociabilidad es una propiedad de una señal individual y puede ponderar diferencialmente las
señales disponibles. Como se discutió en detalle en las siguientes secciones, esta modificación
aparentemente simple implica un mecanismo de aprendizaje complejo y jerárquico. Implica un
proceso ejecutivo que, aprendiendo previamente la validez predictiva de una señal sensorial,
guía la selección de información momento a momento, es decir, de hecho ha aprendido a
aprender.

Una última línea de evidencia para la naturaleza del control del movimiento ocular vinculada a
la información proviene de estudios de selección de objetivos que disocian los cambios de
atención de los cambios de mirada (Gottlieb y Balan, 2010). Un ejemplo de tal estudio es el
experimento que se muestra en la Fig. 4A, en el que capacitamos a los monos para informar la
orientación de un objetivo periférico (una letra "E" orientada hacia la derecha o hacia la
izquierda) al soltar una barra (Oristaglio et al., 2006) . Los monos tuvieron que realizar la tarea
mientras mantenían la mirada al frente (en el punto de fijación central), de modo que las
sacadas abiertas no tenían valor y habrían sido castigadas con una pérdida de recompensa, y
de hecho, los monos suprimieron activamente las sacadas. Sin embargo, la señal informativa
tenía valor, y las neuronas en el área intraparietal lateral continuaron seleccionando la señal,
mostrando una actividad mucho mayor si la "E" en lugar de un distractor estaba en su campo
receptivo (Balan y Gottlieb, 2009; Balan et al., 2008 ; Oristaglio et al., 2006) (Fig. 4B). Estas
respuestas neurales no son, en cierto sentido, sorprendentes porque la capacidad de atención
encubierta ha sido bien establecida en la investigación psicofísica, y sus correlatos también se
encuentran en el campo del ojo frontal (Schall et al., 2011; Thompson et al., 2005). Sin
embargo, los hallazgos son muy significativos desde una perspectiva de decisión: destacan el
hecho de que la variable de decisión para la selección del objetivo no depende del valor de una
acción motora, sino de las propiedades de una señal sensorial.

En resumen, tres líneas de investigación realizadas en campos muy diferentes: estudios de


control del movimiento ocular en comportamientos naturales, aprendizaje asociativo en
humanos y ratas y selección de objetivos en los lóbulos frontal y parietal, convergen en un
punto común. Todos estos estudios indican que para comprender las decisiones oculomotoras
debemos describir cómo el cerebro asigna valor a las fuentes de información. ¿Qué podría
implicar este proceso?.

Tres tipos de atención

Para organizar la discusión sobre la selección de información, es útil comenzar desde la


propuesta avanzada en el campo del aprendizaje asociativo de que el cerebro tiene varios
tipos de mecanismos de atención. Se cree que estos sistemas tienen diferentes sustratos
neuronales y sirven diferentes roles de comportamiento, y se denominan, respectivamente,
"atención para la acción", "atención para el aprendizaje" y "atención para el gusto".

Para obtener una comprensión intuitiva de los diferentes tipos de atención, considere un
experimento hipotético en el que tiene una probabilidad previa del 50% de recibir una
recompensa, y en cada prueba se muestra una señal sensorial que proporciona información
sobre la recompensa de la prueba (Fig. 2B )

Algunas señales aportan información perfecta, lo que indica que definitivamente recibirá o no
una recompensa (señales del 100% o 0%). Otras señales hacen predicciones inciertas, por
ejemplo, un 50% de posibilidades de recompensa. Este conjunto de señales sensoriales se
puede caracterizar a lo largo de dos dimensiones. Una es la recompensa esperada de la señal,
que se define como el producto de la magnitud y probabilidad de la recompensa, y aumenta
monotónicamente a lo largo del eje x. La segunda dimensión es la varianza de las predicciones
de la señal, que es una función en forma de V invertida con un pico para la señal del 50% (Fig.
2B, centro). El inverso de la varianza (confiabilidad) tiene un perfil vertical en V, con un mínimo
en la señal del 50% y máximos para predictores del 0% o 100% (Fig. 2B, izquierda). La hipótesis
de asociabilidad postula que los sistemas de "atención para la acción" y "atención para el
aprendizaje" asignan peso basado, respectivamente, en la confiabilidad y la varianza de las
predicciones de una señal (Pearce y Mackintosh, 2010). Como se muestra en el panel izquierdo
de la Fig. 2B, se cree que el sistema de "atención para la acción" asigna bajo peso
(asociabilidad) a las señales que predicen una recompensa incierta, pero un alto peso para las
señales que hacen predicciones consistentes.

Este sistema permitiría que un animal atienda una señal familiar que haga predicciones
consistentes, como un semáforo en una intersección.

El sistema de "atención para el aprendizaje", por otro lado (Fig. 2B, centro) tiene la
ponderación opuesta y asigna prioridad a un

señal incierta o variable (Pearce y Mackintosh, 2010). Este sistema permitiría que un animal
atienda estímulos novedosos e inciertos, como un nuevo letrero en una tienda.
Sin embargo, es importante destacar que ambos sistemas tienen un valor neutral en el sentido
de que no dependen de la recompensa esperada: dan el mismo peso a los estímulos que
predicen recompensas bajas o altas, siempre que estos hagan predicciones confiables.

El tercer sistema de "atención al gusto" difiere cualitativamente de los dos primeros porque
asigna prioridad simplemente en proporción a la recompensa asociada, y dirige más recursos a
las "buenas noticias" (100%) en relación con las "malas noticias" (0%) señal (Fig. 2B, derecha).
Aunque no se propuso originalmente en la investigación de aprendizaje asociativo, las
observaciones convergentes conductuales y neuronales aportan pruebas sólidas que respaldan
este sistema (Hogarth et al., 2010; Vuilleumier, 2005).

En las siguientes secciones, analizo cada sistema por turno, considerando preguntas
relacionadas con su implementación y contrastando la explicación basada en asociabilidad con
propuestas relacionadas del campo de aprendizaje de refuerzo.

Atención a la acción: fiabilidad, relevancia y recompensas.

Aunque generalmente no se discute en relación con el control del movimiento ocular, el


sistema de "atención para la acción" que se propone en los estudios de mapas de aprendizaje
asociativo naturalmente sobre los movimientos oculares intencionales y relacionados con la
tarea realizados por los sujetos en las tareas cotidianas (p. Ej., Fig. 2A ) Los estudios
cuantitativos muestran que prácticamente todos los movimientos oculares realizados en
comportamientos naturalistas dirigidos a objetivos pueden interpretarse como la adquisición
de información para guiar una acción futura (Tatler et al., 2011). Según la idea de asociabilidad,
para lograr este tipo de control, el cerebro aprenderá explícitamente (y potencialmente
representará) la fiabilidad de las predicciones generadas por una señal (Pearce y Mackintosh,
2010). Sin embargo, surge una explicación alternativa de los estudios de los movimientos
oculares en los comportamientos naturales, que sugiere que el valor de un movimiento ocular
radica en reducir la incertidumbre y aumentar la recompensa esperada (probabilidad de éxito)
de una acción futura (Ballard y Hayhoe, 2009; Hayhoe et al. al., 2012; Rothkopf et al., 2007;
Tatler et al., 2011). Considero la relación entre estas ideas y su posible implementación
neuronal.

Fiabilidad

Si bien el apoyo a la hipótesis de confiabilidad proviene de estudios conductuales y


neuropsicológicos en humanos y ratas (Holland y Maddux, 2010; Pearce y Mackintosh, 2010),
una pregunta clave abierta en este momento es si (y cómo) la confiabilidad está codificada en
células individuales . Quizás la evidencia neuronal más fuerte que respalda esta idea proviene
de estudios de percepción sensorial, que muestran que la fuerza (señal al ruido) de una
entrada sensorial puede mediar una forma de integración sensorial basada en la confiabilidad.
Por ejemplo, en tareas donde los monos están entrenados para estimar su dirección de rumbo
en base a una combinación de señales de movimiento vestibular y visual, la influencia relativa
de la señal visual aumenta en proporción con la señal al ruido de su señal de movimiento.
Varios estudios han propuesto formas en que la fuerza del estímulo, reflejada en el ancho y la
fuerza de sus respuestas sensoriales, puede mediar la integración óptima de la señal basada en
la confiabilidad (Fetsch et al., 2012; Ma et al., 2008; Vilares y Kording, 2011).

Sin embargo, no está claro si el cerebro codifica el tipo de confiabilidad más cognitiva que
postula el campo de aprendizaje asociativo, que no está integrado en el estímulo en sí, sino
que requiere el aprendizaje de relaciones complejas entre eventos separados. Este es el tipo
de confiabilidad que podemos atribuir, por ejemplo, a un pronóstico del tiempo, al consejo de
una médico de familia o a un indicador económico. Si bien un estudio reciente que utiliza una
"tarea de elección de información" propuso que este tipo de confiabilidad se codifica en las
células dopaminérgicas del cerebro medio (Bromberg-Martin e Hikosaka, 2009), los hallazgos
permanecen abiertos a una interpretación alternativa.

En la "tarea de elección de información" utilizada por Bromberg Martin e Hikosaka,


comenzaron los monos cada prueba con una probabilidad del 50% de obtener una recompensa
grande o pequeña, y se les dio la oportunidad de obtener información anticipada sobre el
tamaño de la recompensa. Como se muestra en la Fig. 3A, si los monos cambiaron la mirada
hacia el objetivo "informativo", este objetivo dio paso a dos señales que predecían de manera
confiable si el ensayo producirá una recompensa grande o pequeña ("Información"). Sin
embargo, si cambiaron la mirada hacia el objetivo poco confiable ("Rand" en la Fig. 3A), este
objetivo produjo un conjunto distinto de señales posteriores que transmitían solo información
incierta (50%) sobre la recompensa futura. En particular, los resultados de las recompensas
fueron en promedio iguales y fijos en todas las condiciones, por lo que los monos no pudieron
aumentar sus recompensas físicas con una elección específica. Sin embargo, los monos
seleccionaron de manera confiable el objetivo informativo sugiriendo que tenían una
preferencia intrínseca por la información.

Las neuronas de dopamina (Fig. 3B) tuvieron dos tipos de respuestas en la tarea. En el
momento de la información real (marcada "Cue") en la Fig. 3B, las neuronas emitieron la
respuesta de error de predicción habitual que, como se describió anteriormente, era
excitadora de una "buena noticia" (gran recompensa) e inhibitoria para una " malas noticias
”(pequeña recompensa). Sin embargo, fue de particular interés una respuesta que precedió a
la señal real y parecía indicar la información esperada. Esta respuesta surgió en el momento de
la selección de los monos (marcada "Objetivo" en la Fig. 3B) y fue ligeramente más fuerte si el
ensayo incluía una señal informativa en lugar de no informativa (trazas rojas vs. azules). Esta
respuesta temprana parece indicar una propiedad extraordinaria de "informatividad" (o
confiabilidad) que es independiente de un mensaje específico y corresponde a la preferencia
de comportamiento de los monos por la señal informativa.

Sin embargo, desafortunadamente, debido a que la información en esta tarea era sobre una
recompensa primaria, los resultados no descartan de manera concluyente explicaciones
alternativas basadas en esta recompensa. Es bien sabido que los monos modulan su lamido
anticipatorio basado en asociaciones de estímulo-recompensa, y dejarán de lamer al observar
una señal de baja recompensa (Fiorillo et al., 2003). Además, como mencioné anteriormente,
los sujetos dirigen la atención en función de las asociaciones de estímulo-recompensa, y
pueden haber mirado durante más tiempo en la señal de alta recompensa versus baja (por
ejemplo, la cruz verde versus la onda verde en la Fig. 3A) (Hogarth et al. al., 2010). Por lo tanto,
sigue siendo posible que al seleccionar la señal informativa, los monos no buscaron
información específicamente, sino que simplemente buscaron minimizar su esfuerzo (evitando
tener que lamer o mirar un patrón de recompensa baja) o tal vez lograr el alto nivel de
motivación. patrón de recompensa (Beierholm y Dayan, 2010). En este momento, por lo tanto,
sigue siendo una pregunta abierta si el cerebro tiene una representación confiable de buena
fe.
Modelos internos, incertidumbre e información.

En lugar de buscar una preferencia "intrínseca" por la información, los estudios de los
movimientos oculares en los comportamientos naturales han adoptado un enfoque más
pragmático e intentan estimar el valor material que puede aportar un movimiento ocular
(Hayhoe y Ballard, 2005; Tatler et al., 2011). Los estudios hacen uso de los llamados métodos
matemáticos de cadenas de decisión de Markov que permiten formular una descripción de la
tarea como una secuencia de pasos, y estiman las recompensas futuras acumulativas que se
pueden esperar al atravesar estos pasos. Al incluir una estimación de la incertidumbre que
surge en cada paso, uno puede calcular aún más los costos de esta incertidumbre y los
beneficios de reducirla al obtener información (Dayan y Daw, 2008; Rothkopf y Ballard, 2010;
Sprague y Ballard, 2005; Tatler et al., 2011). Por ejemplo, en la tarea de preparar el té, uno
puede calcular cuán incierto está uno acerca de la posición y la distancia del grifo, y cuál sería
el beneficio de reducir esa incertidumbre a través de un cambio de mirada. Estos estudios han
demostrado cómo, cuando se aplican a tareas complejas (como un agente que camina por un
entorno evitando obstáculos y recogiendo basura), estos métodos se pueden aplicar para
identificar la incertidumbre y los requisitos informativos de los pasos intermedios (Rothkopf y
Ballard, 2010; Sprague y Ballard, 2005).

Sin embargo, incluso cuando demuestran la viabilidad de este cálculo, los estudios muestran
que la selección de información puede ser notablemente compleja. La mayor parte de la
complejidad se deriva de los beneficios indirectos de la adquisición de información, que solo se
puede calcular mediante la planificación anticipada en una secuencia de pasos. Además, esta
planificación requiere no solo un simple conocimiento del orden de varios pasos, sino un
modelo sofisticado de la estructura de tareas que especifica las relaciones ocultas (causales)
entre los pasos consecutivos. Considere, por ejemplo, el simple acto de dirigir la mirada hacia
el grifo del agua mientras prepara un té (Fig. 2A). Para generar este acto aparentemente trivial,
el cerebro no debe saber solo que el grifo está asociado con la tarea (después de todo,
también lo son el piso de la cocina y las paredes), pero que levantar el mango hará que el agua
fluya, lo que a su vez tendrá una influencia determinante en la preparación del té. En otras
palabras, para determinar qué fuentes de incertidumbre deberían resolverse de manera
óptima, el cerebro debe saber qué pasos son causales o predictivos del resultado futuro
(Gershman y Niv, 2010). En un escenario simple como hacer un té, esta computación puede ser
muy ayudada por una práctica extensa (o en humanos, por instrucción directa), pero en otros
comportamientos requiere inferencias mucho más difíciles en escalas de tiempo más largas.
Puede ser prohibitivamente complejo, por ejemplo, determinar cuál de los estímulos
disponibles es informativo si uno aterriza en Marte, o qué indicador económico es predictivo (y
por lo tanto digno de atención) durante un año a partir de ahora.

La evidencia convergente muestra que los humanos realmente infieren modelos ocultos de
tareas complejas (Acuna y Schrater, 2010; Braun et al., 2010; Daw et al., 2011; Gershman y Niv,
2010; Yakushijin y Jacobs, 2011), y evidencia indirecta de Las tareas que involucran esquemas
o asociaciones contextuales sugieren que los animales inferiores también poseen esta
capacidad (Balan y Gottlieb, 2006; Braun et al., 2010; Johnson et al., 2012). La construcción de
modelos internos que identifiquen los pasos relevantes cumple la función vital de la reducción
de la dimensionalidad: especificar qué subconjunto de un flujo de información de muy alta
dimensión debe considerarse en un momento dado. Como se mencionó anteriormente en
relación con la ecuación de asociabilidad (ec. 2), este proceso implica un mecanismo ejecutivo
que aprende a aprender. Este mecanismo infiere la dimensión relevante, por ejemplo, el uso
de la instrucción directa o el aprendizaje en escalas de tiempo más largas, y restringe el
muestreo de información momento a momento para centrarse en la dimensión relevante. La
necesidad de aprendizaje jerárquico se ha discutido en relación con el control motor y las
tareas cognitivas (Braun et al., 2010; Johnson et al., 2012) y, como queda claro en esta
discusión, también está en el centro del control de la atención.

Dado un modelo apropiado de estructura de tareas, las opciones informativas (estímulos o


acciones) pueden identificarse mediante un mecanismo de error de predicción como aquellas
opciones que, al reducir la incertidumbre, aumentan la recompensa futura esperada. Sin
embargo, es importante tener en cuenta que los errores de predicción de recompensas que
tradicionalmente se han considerado en las células de dopamina son cantidades libres de
modelos que solo registran cambios en el valor entre los pasos de tiempo consecutivos, pero
no la relevancia o importancia de esos pasos (Niv y Schoenbaum, 2008) . Tal mecanismo puede
ser prohibitivamente lento en tareas complejas y puede asignar erróneamente crédito a pasos
irrelevantes (por ejemplo, valorar la decisión anterior de estudiar para un examen final menos
que la decisión más reciente de usar una camisa blanca (Rothkopf et al., 2007 La evidencia
reciente de experimentos de imágenes funcionales en humanos sugiere que las estructuras
receptoras de dopamina también codifican errores de predicción basados ​en modelos que
pueden ser útiles para detectar información relevante (Daw et al., 2011), y estudios de
neuronas individuales en ratas y monos muestran que la dopamina las respuestas dependen
no solo de estímulos sino también de acciones (Morris et al., 2006; Takahashi et al., 2012) lo
que sugiere una posible participación en los mecanismos basados ​en modelos. Como discuto
en la sección final, la distinción entre modelo libre y modelo los cálculos basados ​son
fundamentales y pueden explicar las diferencias clave entre un mecanismo de "atención para
la acción" y "atención para el gusto".

Control ejecutivo y selección de objetivos

Aunque los mecanismos neurales que computan la relevancia son muy poco conocidos, los
estudios de lesiones en monos y ratas sugieren que dependen de los lóbulos frontales. Los
estudios implican la corteza prefrontal dorsolateral, la corteza cingulada anterior y la corteza
frontal orbitaria en este cómputo (a veces denominado cómputo de "asignación de crédito")
(Kolling et al., 2012; Rossi et al., 2009; Rushworth et al. ., 2011; Walton et al., 2011) y sugieren
que estas áreas pueden transmitir los resultados a las células dopaminérgicas (Takahashi et al.,
2012). Curiosamente, la evidencia convergente sugiere que la respuesta de selección de
objetivo parietal, que refleja el despliegue de atención momento a momento, tiene una serie
de propiedades complejas que pueden reflejar una interfaz con mecanismos ejecutivos
(Gottlieb y Snyder).

Una buena ilustración de estas propiedades complejas proviene de un experimento que


mencioné anteriormente, donde entrenamos a los monos para informar la orientación de un
objetivo visual mediante la liberación de una barra (Oristaglio et al., 2006). La tarea requería
que los monos encontraran un objetivo relevante utilizando la atención encubierta como se
describió anteriormente (Fig. 4A) y además de aplicar una asociación de estímulo-acción
aprendida, es decir, liberar una barra sostenida en su pata derecha si la señal instructiva
estaba orientada derecha (una "E") o una barra sostenida en la pata izquierda si estaba
orientada a la izquierda (un "3"). Por lo tanto, la tarea no requería que los monos se orientaran
a la ubicación a la que asistían, sino que informaban la información en esa ubicación mediante
una acción arbitraria (simbólica), de la misma manera que uno pisaría el freno cuando se
encuentra un semáforo en rojo o pisar el acelerador al ver un luz verde.

Una buena ilustración de estas propiedades complejas proviene de un experimento que


mencioné anteriormente, donde entrenamos a los monos para informar la orientación de un
objetivo visual mediante la liberación de una barra (Oristaglio et al., 2006). La tarea requería
que los monos encontraran un objetivo relevante utilizando la atención encubierta como se
describió anteriormente (Fig. 4A) y además de aplicar una asociación de estímulo-acción
aprendida, es decir, liberar una barra sostenida en su pata derecha si la señal instructiva
estaba orientada derecha (una "E") o una barra sostenida en la pata izquierda si estaba
orientada a la izquierda (un "3"). Por lo tanto, la tarea no requería que los monos se orientaran
a la ubicación a la que asistían, sino que informaban la información en esa ubicación mediante
una acción arbitraria (simbólica), de la misma manera que uno pisaría el freno cuando se
encuentra un semáforo en rojo o pisar el acelerador al ver un luz verde.

Como mencioné en la sección anterior, las neuronas parietales codificaron la ubicación de la


señal relevante, y algunas de las células solo tenían una respuesta de selección objetivo,
respondiendo más si la señal en lugar de un distractor estaba en la RF independientemente de
la liberación manual (Fig. 4B). Estas respuestas espaciales simples son consistentes con la
visión tradicional del control de la atención, según la cual la unidad de arriba hacia abajo
contiene solo información espacial y no espacial (por ejemplo, Fig.1B). Sin embargo, una
fracción considerable de células mostró una codificación combinatoria tanto de la ubicación
atendida como de la liberación de la barra. Algunas de las células, como la que se muestra en
la Fig. 4C, respondieron selectivamente si la "E" estaba en su campo receptivo e instruyeron la
liberación de la barra izquierda; otras células tenían la preferencia complementaria,
respondiendo mejor si la "E" estaba en su campo receptivo y ordenaba la liberación de la barra
izquierda (no mostrada). Estas modulaciones manuales no fueron respuestas motoras
independientes de la extremidad sino efectos moduladores en la selección visual (es decir, los
efectos no se vieron si aparecía un distractor en el campo receptivo; Fig. 4C, derecha), una
conclusión consistente con el hallazgo posterior de que reversible la inactivación produjo
defectos visuales pero no esqueléticos motores (Balan y Gottlieb, 2009).

Estos hallazgos son difíciles de explicar en un marco puramente visual que proyecta la
selección de objetivos como un término de sesgo incorpóreo (Fig. 1B). También son
desconcertantes en un marco basado en acciones que pregunta si las áreas parietales están
involucradas en acciones esqueléticas u oculares (Snyder et al., 2000). Sin embargo, las
respuestas neuronales con propiedades combinatorias (mixtas) son características del control
cognitivo dirigido por objetivos (Rigotti et al., 2010), y en el contexto de la selección de
información puede incorporar el banco de conocimiento que es necesario para seleccionar las
señales. Por lo tanto, estos resultados plantean la importante cuestión de cómo la selección de
objetivos interactúa con los procesos frontales de control ejecutivo y con los mecanismos de
aprendizaje visual que asignan significado a las señales visuales (Albright, 2012; Freedman y
Assad, 2011; Mirabella et al., 2007). Una pregunta importante es qué implican estas respuestas
complejas para la naturaleza del control de arriba hacia abajo. ¿La retroalimentación
atencional del lóbulo parietal solo es transportada por neuronas con respuestas espaciales
simples, consistentes con los supuestos actuales de que solo transporta información espacial
(p. Ej., Fig. 1B) o, alternativamente, la retroalimentación de arriba hacia abajo transporta
información de mayor ancho de banda con respecto a ambos estímulos? y acciones
transmitidas por neuronas con respuestas combinadas (Baluch e Itti, 2011)? Una segunda
pregunta se refiere a la sofisticación de la información transmitida por este código
combinatorio: ¿este código refleja solo asociaciones coincidentes entre estímulos y contextos
o acciones, o reflejan modelos internos de tareas de elementos múltiples?

Resumen

En resumen, la discusión de retroceso ha puesto de relieve algunas de las complejidades que


puede conllevar un cambio de mirada.

Lejos de requerir un simple enlace sensorimotor directo o habitual, calcular una ruta de
exploración efectiva para obtener información de muestreo requiere un mecanismo ejecutivo
que infiera los pasos relevantes en una tarea extendida, y utiliza esta inferencia para
determinar puntos de incertidumbre significativa y fuentes de información que pueden reducir
esa incertidumbre.

Atendiendo a lo desconocido

Si bien la discusión anterior se ha centrado en la selección de objetivos en tareas familiares, un


papel igualmente importante y posiblemente más difícil de atención es descubrir nueva
información: aprender sobre nuevos predictores que antes eran desconocidos. Casi
instintivamente nos orientamos hacia un nuevo letrero en el frente de una tienda o hacia un
extraño pájaro posado en un árbol, y en tareas de laboratorio, la mirada se ve atraída por
estímulos nuevos o inciertos en escenas familiares (Brockmole y Henderson, 2005a, b; Yang et
al. ., 2009). Como se describe en la Fig. 2B, los estudios de aprendizaje asociativo proponen
que la atención exploratoria está mediada por un sistema separado de "atención para el
aprendizaje" que, en contraste con la "atención para la acción", asigna recursos a señales
inciertas en lugar de confiables (Fig. 2B , panel central). Sin embargo, las cuentas basadas en
modelos sugieren que esta distinción puede no ser tan clara y que, incluso cuando el cerebro
se orienta hacia señales inciertas, es con el objetivo de aprender o reducir la incertidumbre
con respecto a esa señal.

Se ha observado previamente que para generar una exploración adaptativa, el cerebro debe
distinguir entre al menos dos tipos de incertidumbre (Oudeyer et al., 2007; Payzan-LeNestour y
Bossaerts, 2011; Yu y Dayan, 2005). La incertidumbre reducible se debe al conocimiento
imperfecto del observador y puede eliminarse mediante la adquisición de información, por
ejemplo, cuando escuchamos una sirena de ambulancia y giramos para averiguar dónde está.
La incertidumbre irreducible por contraste está integrada en una tarea y no puede reducirse
mediante el esfuerzo de los observadores, como en el caso de ruido blanco en una pantalla de
televisión. Si la “atención para el aprendizaje” se guía específicamente por la incertidumbre
reducible (como sería de manera óptima), su objetivo no necesita ser fundamentalmente
diferente del de un mecanismo basado en la acción. Ninguna forma de atención valora la
incertidumbre per se.

En cambio, ambos son mecanismos de búsqueda de información que detectan la presencia de


incertidumbre y diseñan estrategias para reducir esa incertidumbre (Dayan y Daw, 2008). Sin
embargo, una pregunta difícil es cómo el cerebro distingue entre incertidumbre reducible e
irreducible, ya que esto no se especifica a priori. Al realizar investigaciones científicas, los
humanos se enfrentan a vastas fuentes de incertidumbre que, a pesar de los significativos
siglos de esfuerzo, aún no hemos resuelto. ¿Qué determina si continuamos nuestra búsqueda
o si concluimos que esta es una tarea infructuosa?

Se han propuesto varias soluciones interesantes para esta pregunta en el campo del
aprendizaje automático. Una solución, que emerge del campo de la robótica del desarrollo, es
que el cerebro genera recompensas intrínsecas cuando detecta el progreso del aprendizaje,
que mide rastreando sus errores de predicción a lo largo del tiempo (Oudeyer et al., 2007).
Este mecanismo puede motivar el aprendizaje incluso en ausencia de una recompensa externa,
y ha sido muy eficaz en la producción de comportamientos similares a la curiosidad, por lo que
los robots siguen espontáneamente interesados ​en actividades de complejidad intermedia en
las que mejoran sus predicciones pero se desconectan de lo aleatorio (no se puede aprender) o
de tareas sobreaprendidas y "aburridas". Una explicación alternativa es que la exploración
dirigida por objetivos no está motivada por el progreso del aprendizaje, sino por las
expectativas de recompensa que se generalizan en función de la experiencia previa (Dayan,
2012). Por ejemplo, al decidir qué experimento seguir, podemos inferir, en base a
conocimientos anteriores, que un enfoque particular será más efectivo. Curiosamente, esta
forma de generalización puede recurrir a los mismos mecanismos ejecutivos de "aprender a
aprender" que discutimos en la sección anterior: para generalizar efectivamente, el cerebro
debe saber cómo generalizar, es decir, comparar los aspectos relevantes de las diferentes
estructuras de tareas (Bavelier et al., 2012).

Además de los procesos que generan búsqueda de información específica, los mecanismos de
exploración también incluyen casi siempre estrategias más simples, basadas en la selección de
acciones aleatorias o heurísticas cableadas. Se ha propuesto que la novedad actúa como un
bono de exploración en las tareas de búsqueda de recompensas (Wittmann et al., 2008), y se
codifica en las células de dopamina como un bono intrínseco para la exploración (Redgrave y
Gurney, 2006). Esto plantea la posibilidad de que otras formas de atención automática
producidas por prominencia o sorpresa (Boehnke et al., 2011; Karacan y Hayhoe 2008;
Wittmann et al., 2008), en lugar de ser meras debilidades de un mecanismo de control, sean
vitales. heurística para asignar recursos en condiciones muy inciertas, cuando el cerebro aún
no ha aprendido a aprender.

Los estudios neuropsicológicos en ratas sugieren que la atención relacionada con la tarea y la
exploración dependen de circuitos neuronales separados que involucran, respectivamente, la
corteza frontal medial (Maddux y Holland, 2011) versus la sustancia negra, la amígdala y el
lóbulo parietal (Maddux et al., 2007 ) Sería de gran interés saber si esta distinción también se
mantiene en el mono y cómo se expresa en las células individuales, es decir, si el campo ocular
frontal media en un sistema de "atención para la acción", mientras que el lóbulo parietal está
más estrechamente relacionado con un mecanismo exploratorio Se han informado respuestas
neuronales a la incertidumbre o la sorpresa en múltiples estructuras (den Ouden et al., 2010;
Fiorillo et al., 2003; Kepecs et al., 2008; McCoy y Platt, 2005; O'Neill y Schultz, 2010; Preuschoff
et al., 2006; Preuschoff et al., 2008; Schultz et al., 2008; So and Stuphorn, 2012; Tobler et al.,
2009) y se han relacionado con variables como excitación, ansiedad, preferencia de riesgo o
global tasas de aprendizaje (Nassar et al., 2012; Preuschoff y Bossaerts, 2007). Una pregunta
importante es cómo estas respuestas están relacionadas con la atención selectiva y con los
procesos que calculan la incertidumbre o el valor de la información de señales específicas.
El sistema final que se muestra en la Fig. 2B es el sistema de "atención por gusto", mediante el
cual los sujetos dirigen preferentemente la atención a señales agradables o de alta
recompensa. Aunque no se guía por la confiabilidad o la información esperada, esta forma de
atención es un mecanismo poderoso que automáticamente extrae recursos para estímulos que
tienen asociaciones emocionales o condicionadas intrínsecas (Damaraju et al., 2009; Flagel et
al., 2011; Hickey et al., 2010a, b; Hogarth et al., 2010; Libera y Chelazzi, 2009; Vuilleumier ,
2005). Estas influencias atencionales son difíciles de superar y pueden ser la base de
reacciones desadaptativas en los trastornos psiquiátricos, como la mayor susceptibilidad de los
pacientes adictos a las señales relacionadas con las drogas (Flagel et al., 2011).

Los sustratos neurales de la atención emocional no se entienden muy bien, pero un


experimento reciente en nuestro laboratorio sugiere que incluyen el lóbulo parietal. El
experimento probó cómo la atención y la actividad parietal están influenciadas por estímulos
que transmiten información de recompensa pero no instruyeron al mono sobre una acción
apropiada (Peck et al., 2009).

Los monos comenzaron cada prueba con una probabilidad previa de recompensa del 50% y, al
inicio de una prueba, se les mostró una señal de recompensa: un estímulo condicionado que
indicaba si la prueba actual terminará en una recompensa (CS +) o una falta de recompensa
(CS− ) (Fig. 5A). Por lo tanto, el CS señaló de manera confiable un aumento del 50% o una
disminución en la recompensa esperada en relación con las expectativas anteriores.

Sin embargo, no indicaron la acción requerida. Esa acción se especificó por medio de un
objetivo independiente que apareció después de la desaparición del CS y se ubicó al azar en el
mismo lugar o en el lugar opuesto. Se requirió que los monos hicieran una sacada a este
objetivo para completar la prueba y avanzar al siguiente; se repitió inmediatamente una
prueba incorrecta hasta que se realizó correctamente terminado. Esto nos permitió distinguir
entre la orientación atencional basada en el objetivo relevante o el CS inicial. Un sistema de
atención que dirija los recursos de manera dirigida a un objetivo asignaría prioridad al objetivo
independientemente de la CS, mientras que un sistema de "atención por gusto" puede
orientarse automáticamente en función del valor de la CS.

Los resultados conductuales y neuronales fueron consistentes con una mezcla de los dos
mecanismos. En la mayoría de los ensayos, los monos dirigieron con precisión la mirada hacia
el objetivo, demostrando que habían aprendido su importancia. Sin embargo, este aprendizaje
no fue perfecto,y las sacádas también fueron sesgadas por el CS precedente. El efecto más
fuerte fue para las sacádas siguiendo una señal de baja recompensa (CS−) (Fig. 5d). Las sacádas
en estos ensayos se vieron notablemente deterioradas, mostrando tiempos de reacción más
largos y una menor precisión en relación con las sacádicas a otros lugares. Notablemente, esta
interferencia no se debió a una menor motivación, sino que fue espacialmente específica para
las sacádas cuyo objetivo estaba en el mismo lugar que el CS, lo que demuestra que la atención
se inhibió específicamente en el lugar del CS.

Este sesgo conductual se correlacionó con las respuestas evocadas por CS en el lóbulo parietal
(Fig. 5B, C). Después de la presentación de un CS + o CS− en su campo receptivo, las neuronas
intraparietales laterales tuvieron una respuesta visual transitoria que fue mayor para una señal
positiva en relación con una negativa, de manera consistente con las modulaciones de
recompensa reportadas previamente (Fig. 5B, trazo azul vs. . Sin embargo,
sorprendentemente, dado que el CS no tenía relevancia de acción, las neuronas mantuvieron
una respuesta sostenida al CS durante el retraso resultante. Además, como se ve por el efecto
conductual, esta respuesta persistente no reflejó cambios globales en la excitación o la
motivación, sino un sesgo espacial hacia o lejos de la ubicación de CS. La actividad sostenida
después de un CS + fue mayor en la ubicación de referencia en relación con la ubicación
opuesta, lo que sugiere que la atención se detuvo en la ubicación de CS + (Fig. 5C, arriba, trazo
negro vs gris). Por el contrario, la actividad sostenida después de un CS-fue menor en la
ubicación de la señal en relación con la ubicación opuesta (Fig. 5C, abajo), consistente con la
supresión de comportamiento en la ubicación de CS-. La inhibición evocada por CS interfirió
con el rendimiento de los monos y redujo su tasa de recompensa. Sin embargo, los efectos
crecieron en lugar de disminuir con el entrenamiento y, tanto en las respuestas neuronales
como en el comportamiento, fueron mayores después de lo familiar en relación con la nueva
CS (Fig. 5D, inferior versus superior). Además, después del entrenamiento prolongado, los
efectos parecían involucrar la plasticidad de la respuesta visual, ya que se volvieron insensibles
al contexto y se transfirieron automáticamente a una tarea diferente en la que el CS pre
entrenado ya no predijo recompensas (Fig. 5E)

Estos hallazgos describen un correlato de los fenómenos de "atención por gusto" descritos en
la investigación conductual, en los que la atención está sesgada automáticamente por las
asociaciones de estímulo de recompensa (condicionadas). Los hallazgos son consistentes con
varios mecanismos, no mutuamente excluyentes. Una posibilidad es que estén relacionados
con el fenómeno de inhibición del retorno, por lo que se inhibe que la atención vuelva a visitar
lugares examinados recientemente (por ejemplo, Mirpour et al., 2009). Una posibilidad
relacionada es que reflejen mecanismos de refuerzo específicos. La orientación dependiente
del valor descrita en la figura 5 puede surgir a través de una modulación de la actividad visual
por una respuesta de error de predicción de recompensa de dopamina (por ejemplo, la figura
3B) que, al igual que las respuestas en el lóbulo parietal, es excitante para un positivo e
inhibidor una señal predictiva de recompensa negativa. Además, esta modulación puede diferir
de ese control dirigido por objetivo subyacente en que actúa de manera libre de modelo en
lugar de basada en el modelo. Como discutí en la sección anterior, una asignación basada en el
modelo asignaría prioridad al objetivo en Peck et al. tarea, ya que este fue el estímulo que fue
informativo para la acción futura. Un mecanismo sin modo, por el contrario, asignaría
prioridad a la CS inicial, ya que este fue el estímulo que señaló un cambio en las expectativas
de recompensa. Independientemente de las respuestas específicas a estas preguntas (que aún
no se han determinado por investigaciones futuras), los hallazgos resaltan el punto crítico de
que la recompensa puede influir en la atención a través de varios mecanismos distintos. Un
mecanismo dirigido por objetivos puede asignar valor a los estímulos en función de su
relevancia para acciones futuras, mientras que un sistema agnóstico simplemente prioriza los
estímulos que indican cambios en la expectativa de recompensa.

Una última pregunta importante es ¿por qué el cerebro posee el último mecanismo si puede
producir efectos desadaptativos? Si bien esta pregunta surge aquí en el contexto de la
atención emocional, se puede aplicar igualmente a otras formas de orientación automática,
como las basadas en la prominencia, la novedad o la sorpresa, que también pueden interferir
con las tareas en curso. La respuesta a esta pregunta no se conoce completamente, pero una
consideración importante puede ser la dificultad de un cálculo óptimo (basado en el modelo).
Como hemos visto en las secciones anteriores, calcular el valor de la información de manera
óptima es una operación costosa y lenta que requiere inferencia y planificación anticipada para
múltiples pasos futuros, y puede ser subóptima en tareas complejas (Wilson y Niv, 2011). Las
formas automáticas de atención, por el contrario, se basan en heurísticas mucho más simples.
El cerebro puede haber retenido estos sistemas como herramientas vitales y útiles para asignar
recursos rápidamente a información potencialmente significativa

Conclusión: ¿quién necesita atención?

Si bien todos los organismos vivos realizan acciones que brindan recompensas biológicas, un
sello distintivo único de mayor inteligencia es una gran capacidad de aprendizaje y predicción
(Friston, 2010). Aquí propuse que la atención selectiva está íntimamente relacionada con estos
mecanismos de predicción. He argumentado que la atención es el sistema cognitivo central
que media nuestra búsqueda activa de información, ya sea que la información se busque para
una acción previsible, bien practicada o de una manera exploratoria más abierta. Si bien este
punto de vista es consistente con la investigación del aprendizaje por refuerzo, no está bien
integrado con los estudios de control oculomotor. Aquí he pedido una integración más
estrecha y he argumentado que esto será muy beneficioso en varios aspectos. Primero, como
describí en las secciones anteriores, esta integración se ha vuelto necesaria para comprender
las preguntas abiertas centrales en el control de la atención, es decir, cómo el cerebro decide
cuándo y a qué asistir. Para comprender esta pregunta, así como las propiedades complejas de
la respuesta de selección del objetivo, necesitaremos comprender los mecanismos de
aprendizaje visual mediante los cuales el cerebro asigna significado a las señales visuales, y los
sistemas cognitivos que asignan valor a estas señales.

En segundo lugar, al apreciar la dimensión cognitiva del control del movimiento ocular,
podemos comenzar a utilizar todo el poder de este sistema como una ventana a la función
cognitiva. Como se mencionó en las secciones iniciales, la investigación existente ha utilizado el
sistema oculomotor para estudiar variables involucradas en la formación de decisiones. Sin
embargo, incluso al utilizar tareas de comportamiento sofisticadas, los estudios han
interpretado los resultados en un marco altamente simplificado de transformación
sensoriomotora. Por ejemplo, en un conocido paradigma de discriminación de movimiento, se
cree que la dirección del movimiento de una señal sensorial es discriminada por las células en
el área temporal media, mientras que las células intraparietales laterales seleccionan la acción
apropiada (por ejemplo, una sacada específica) (Gold y Shadlen, 2007).

Este marco pretende explicar las decisiones oculomotoras como una transferencia sensorial a
motora sin invocar el concepto de atención selectiva.

Sin embargo, la necesidad de atención selectiva se vuelve clara cuando consideramos que,
además de analizar la información visual, el cerebro debe resolver otra tarea altamente
compleja: determinar la importancia y el valor de esa tarea información. Como he discutido
anteriormente, esta forma distinta de selección puede implicar operaciones altamente
sofisticadas que pueden comprometer gran parte de nuestra función cognitiva. Estos incluyen
la construcción de modelos internos de eventos externos, el comportamiento orientador
basado en la curiosidad y la exploración, y la generación (y control) de sesgos emocionales en
el procesamiento de la información. Si bien algunos de estos cálculos se han abordado en
investigaciones con observadores humanos, sus mecanismos celulares siguen siendo en gran
medida desconocidos. Al reconocer sus estrechos vínculos con atención selectiva, podemos
usar el sistema oculomotor para obtener información sobre estos mecanismos.
Atención conjunta y procesamiento autoreferenciado

Como se ilustra en la Figura 2, la atención conjunta implica un despliegue tripartito de atención


entre el yo, otra persona y un objeto o evento. Además del despliegue de atención, también
implica el procesamiento de información triádica. Cuando participamos en la atención
conjunta, atendemos y procesamos a) información sobre un objeto, b) información sobre la
atención y el comportamiento de otra persona relacionada con el objeto, yc) información
autorreferenciada sobre nuestra propia atención y experiencia del objeto y la situación. En
este contexto, el procesamiento autorreferenciado se refiere al procesamiento e integración
implícitos, subjetivos y prerreflexivos de la información interoceptiva y propioceptiva del
propio cuerpo (por ejemplo, frecuencia cardíaca, movimiento muscular volitivo) con
información sobre la actividad perceptiva y cognitiva, incluidas las representaciones en el
trabajo o memoria a largo plazo (Northoff et al., 2006; Zahavi, 2003).

La interocepción describe la sensibilidad a la información fisiológica que se origina en el


cuerpo, como la frecuencia cardíaca, la respiración, la excitación autónoma, la respiración y los
estados emocionales.

La propiocepción implica sensibilidad a la posición, ubicación, orientación y movimiento del


cuerpo. La investigación sugiere que los sistemas neuronales específicos y distribuidos pueden
estar involucrados en el procesamiento de la información interoceptiva (ínsula anterior) e
información propioceptiva sobre el movimiento y la orientación (cingulado anterior y cortezas
parietales). Estos asociativos

Los sistemas corticales también pueden ser primarios en la integración de estas dos
dimensiones de información autorreferenciada (Craig, 2009; Balslev y Miall, 2008; Uddin y
Menon, 2009). En particular, la investigación comparativa sugiere que la interocepción y su
integración con la propiocepción pueden ser más elaboradas en humanos a través de las
neuronas Von Economo del cingulado anterior que en otros primates y mamíferos (Allman et
al., 2005; Craig, 2003).

A diferencia del procesamiento de información autorreferenciado, la exterocepción describe el


procesamiento de información sobre el medio ambiente, incluidos los interlocutores sociales,
que es independiente de cuerpo. Además de la corteza sensorial primaria, se cree que las
redes corticales asociativas en los lóbulos parietal, temporal y frontal soportan un subdominio
específico de exterocepción que implica el procesamiento de información espacial / postural,
conductual, vocal y afectiva que surge de otras personas (Decety y Sommerville, 2003; Emery,
2000; Northoff et al., 2006). Aunque se superponen parcialmente, las redes de procesamiento
de información con referencia propia y de otro tipo son distintas. Una hipótesis es que la
articulación del desarrollo de estos sistemas ayuda a la diferenciación psicológica de uno
mismo de otros en el desarrollo temprano (cf. Decety y Sommerville, 2003; Northoff et al.,
2006). En debates anteriores, centramos principalmente nuestras descripciones del
procesamiento de información autorreferenciada en la atención conjunta sobre las funciones
propioceptivas de las estructuras frontales mediales, incluido el cingulado anterior, con solo
referencia implícita a elementos de interocepción (Mundy, 2003). Por lo tanto, un objetivo de
este documento es elaborar y describir más explícitamente la naturaleza dual del
procesamiento de información autorreferenciada en atención conjunta en términos de a)
propiocepción, como la retroalimentación del control del músculo ocular y el sistema
vestibular relacionado con la dirección espacial de la propia atención visual y la postura de la
cabeza (ver Butterworth y Jarrett, 1991, para una discusión relacionada), yb) interocepción que
incluye información sobre la excitación y lo positivo (gratificante), la valencia neutral o
negativa de las percepciones de cada participante del objeto o evento, así como la valencia
atribuida a compartir la atención con un interlocutor social durante la atención conjunta.
Proponemos que los episodios de atención conjunta involucren al menos tanto el
procesamiento auto-referenciado de experiencias sensoriales y afectivas internas como el
procesamiento de información sobre el comportamiento o el comportamiento de otras
personas

intenciones Con esto en mente, es posible que las deficiencias en la atención conjunta en el
autismo puedan originarse por problemas con el procesamiento auto-referenciado
(interocepción y / o propiocepción) o el procesamiento coordinado y paralelo de
auto-referencia y otros información durante episodios de atención compartida.

También podría gustarte