Biological and Computer Vision Chapter2.en - Es

Traducido del inglés al español - www.onlinedoctranslator.
com
2 Los viajes de un fotón

Estadísticas de imágenes naturales y la retina
Contenido complementario en http://bit.ly/3aeW07Z

Y hubo luz. La visión comienza cuando los fotones vuelvenflected de objetos en el mundo que
inciden en la retina. Aunque esto puede parecernos bastante claro en este momento, la
humanidad tardó varios siglos, si no más, en llegar a esta conclusión. La compartimentación del
estudio de la óptica como rama de la física y la percepción visual como rama de la neurociencia es
un desarrollo reciente. Las ideas sobre la naturaleza de la percepción se entrelazaron con las
ideas sobre la óptica a lo largo de la antigüedad y la Edad Media. Gigantes del calibre de Platón (~
428- ~348 a. C.) y Euclides (~ 300 a. C.) apoyaron un proyección
teoría según la cual los conos de luz que emanan de los ojos o llegan a los objetos mismos o
se encuentran a mitad de camino con otros rayos de luz provenientes de los objetos, dando
lugar al sentido de la visión. La distinción entre luz y visión se remonta a Aristóteles (384-
322 a.C.), pero no alcanzó una aceptación generalizada hasta las investigaciones de las
propiedades del ojo por Johannes Kepler (1571-1630).
La luz es transducida en señales eléctricas por las células fotorreceptoras, una de las
asombrosas hazañas de la evolución, que permite rápidamente al organismo hacer
inferencias sobre objetos distantes y eventos en el medio ambiente. La función del sistema
visual es extraer rápidamente información sobre lo que pueda haber. Por lo tanto, la
estructura del entorno juega un papel fundamental al dictar el patrón de conexiones y
respuestas fisiológicas en todo el sistema visual y marca el comienzo de nuestro viaje.
2.1 Las imágenes naturales son especiales
Consideremos una imagen digital de 100 100 píxeles, y limitemos aún más
a un mundo monocromático donde cada píxel puede tomar 256 tonos de gris (0 = negro,
255 = blanco). Parches de imagen tan pequeños e incoloros constituyen un grito muy lejos
de la complejidad de la entrada visual real. Sin embargo, incluso bajo estas limitaciones,
existe una gran cantidad de imágenes posibles. Hay 256 imágenes de un píxel, 2562
imágenes de dos píxeles, etc. En total, hay 25610,000 posibles 100 imágenes de 100 píxeles.
Este número es mayor que uno seguido de 24.000 ceros: hay más de estos parches de
imagen que la estimación actual del número total de estrellas en el universo.
Ahora tome una cámara digital, una bastante antigua con un sensor que comprende solo
100 100 píxeles, cambie la configuración a imágenes grises con ocho bits (28 = 256) y tome
fotografías aleatorias (Figura 2.1). Si dispara una imagen por segundo, y si
Downloa2D0ed de https://www.cambridge.org/core. Dirección IP: 161.18.139.255, el 7 de julio de 2021 a las 14:16:13, sujeto a los términos de uso de Cambridge Core,
disponible enhttps://www.cambridge.org/core/terms. https://doi.org/10.1017/9781108649995.003
2.1 Las imágenes naturales son especiales 21
10
100 píxeles
Figura 2.1 Las imágenes naturales son especiales. Sesenta y cuatro ejemplos de parches en escala de grises de 100 100 píxeles
extraído de fotografías. Los parches de origen natural constituyen un pequeño subconjunto de todos los posibles 100
100 parches de imagen aleatorios.
si pasa una semana entera recolectando imágenes sin dormir o hacer una pausa para comer, habrá acumulado
menos de un millón de imágenes, una fracción muy pequeña de todos los posibles parches de imágenes. Sin
embargo, incluso con esta pequeña muestra, comenzará a notar patrones regulares bastante curiosos. La
distribución denatural los parches de imagen que recopiló tienden a tener propiedades peculiares que abarcan
un subconjunto interesante de todos los parches de imagen posibles.
En principio, cualquiera de los 25610,000 Los parches de escala de grises podrían aparecer en el mundo natural.
Sin embargo, existen fuertes correlaciones y limitaciones en el aspecto de las imágenes naturales. Un patrón
particularmente llamativo es que tiende a haber una fuerte correlación entre las intensidades de la escala de
grises de dos píxeles adyacentes cualesquiera (Figura 2.2). En otras palabras, las intensidades de escala de grises
en imágenes naturales normalmente cambian suavemente y contienen superficies de intensidad
aproximadamente uniforme. Esas superficies están separadas por bordes que representan discontinuidades,
donde se rompen tales correlaciones entre píxeles adyacentes; estos bordes tienden a ser la excepción más que
la regla. Los bordes juegan un significadofipapel importante en la visión (capítulo 5), sin embargo, constituyen
una pequeña fracción de la imagen.
Una forma de cuantificar estos patrones espaciales es calcular la función de
autocorrelación. Para simplificar, considere una imagen en una sola dimensión. Sif (x)
denota la intensidad de la escala de grises en la posición X, luego la función de
autocorrelación A mide la correlación promedio en las intensidades de píxeles en función de
la separación Δ entre dos puntos:
D
ADΔÞ ¼ F DXÞF DX ΔÞdx, (2,1)
donde la integral pasa por toda la imagen. Este defiLa definición se puede ampliar fácilmente a imágenes
con más dimensiones e imágenes en color. La función de autocorrelación de una imagen natural
normalmente muestra un pico en pequeñas separaciones de píxeles, seguido de una caída gradual.
Descargado de https://www.cambridge.org/core. Dirección IP: 161.18.139.255, el 7 de julio de 2021 a las 14:16:13, sujeto a los términos de uso de Cambridge Core, disponible
enhttps://www.cambridge.org/core/terms. https://doi.org/10.1017/9781108649995.003
22 Los viajes de un fotón: imagen natural Estadística y Retina
A B C
250 250
200 200
150 150
Yo (x + 1, y)
Yo (x, y + 1)
100 100
50 50
0 0
0 50 100 150 200 250 0 50 100 150 200 250
Yo (x, y) Yo (x, y)
Figura 2.2 El mundo es bastante liso. Para el pequeño parche de 100 100 píxeles de la imagen en parte
A (cuadro blanco, ampliado en el recuadro), los diagramas de dispersión muestran la intensidad de la escala de grises en la posición (x, y)
versus la intensidad de la escala de grises en la posición (x + 1,y) (B, píxel adyacente horizontalmente) o posición (x, y + 1) (
C, píxel adyacente verticalmente). Existe una fuerte correlación en las intensidades de los píxeles cercanos en las
imágenes naturales.
Una forma relacionada de evaluar las correlaciones espaciales en una imagen es calcular su espectro
de potencia. Intuitivamente, uno puede convertir correlaciones de ladominio de píxeles en el
dominio de la frecuencia. Tenga en cuenta que aquí cuando decimos frecuencia, nos referimos a espacial
frecuencias - es decir, qué tan rápido cambian las cosas en el espacio. Si hay mucha potencia a
altas frecuencias, eso implica cambios sustanciales en distancias de píxeles pequeños, como se
puede observar cuando hay un borde. Por el contrario, mucha potencia a bajas frecuencias
implica cambios más graduales y suavidad en el dominio de píxeles. SiPAG denota poder y
F denota la frecuencia espacial, las imágenes naturales suelen mostrar que la potencia disminuye con F
aproximadamente como
PAGmi 1 =F 2: (2,2)
Hay signifisignificativamente más potencia a bajas frecuencias que a altas frecuencias en imágenes
naturales. Esta función se llama ley de potencia. Las leyes de poder son omnipresentes a través de
múltiples fenómenos naturales: el tamaño de los cráteres en la luna, la frecuencia del uso de palabras, el
tamaño de los cortes de energía, el número de cargos criminales por convicto y los juicios humanos de
las intensidades de estímulo siguen distribuciones de la ley de poder. . Una propiedad importante de las
leyes de potencia es la invariancia de escala. Specifically, si PAGDF Þ ¼ a 1 =F 2,
dónde a es una constante, y si multiplicamos F por un escalar c, f 0 = cf, luego
PAGD f 'Þ ¼ a 1 =Dcf Þ2 ¼ a = c2 1 =F 2 ¼ a' 1 =F 2, con la nueva constante a'= C.A2. Si
cambiamos la escala de la imagen, su espectro de potencia seguirá teniendo la misma
forma definido por la ecuación anterior.
2.2 EffiCodificación ciente mediante la asignación de más recursos donde se necesitan
Una de las razones por las que nos interesa caracterizar las propiedades de las imágenes naturales es la
conjetura de que el cerebro está especialmente bien adaptado para representar el mundo real.
2.3 El mundo visual es lento 23
Esta idea, conocida en el ficampo como el effiprincipio de codificación cient, postula que el sistema visual
está especializado para representar el tipo de variaciones que ocurren en la naturaleza. Si solo una
fracción de los 25610,000 posibles parches de imagen está presente en cualquier imagen típica, puede ser
inteligente utilizar la mayoría de las neuronas para representar esta fracción de espacio de imagen que
está ocupado. La evolución impone una restricción al tamaño del cerebro, y es tentador suponer que los
cerebros no sonfiLleno de neuronas que codifican características de imágenes que nunca aparecerían en
el mundo natural. Además, los cerebros son costosos desde un punto de vista energético y, por lo tanto,
tiene sentido asignar más recursos donde se necesitan.
Al comprender la estructura y las propiedades de las imágenes naturales, es posible generar
hipótesis comprobables sobre las preferencias de las neuronas que representan información
visual. Volveremos a este tema cuando profundicemos en los circuitos neuronales involucrados en
el procesamiento de información visual (más adelante en este capítulo y también en la Sección
6.12). Tal especialización para representar las propiedades de las imágenes naturales podría surgir como
consecuencia de la evolución (naturaleza) y como consecuencia del aprendizaje a través de la exposición
visual al mundo (nutrir). La cuestión de la naturaleza frente a la crianza aparece repetidamente a lo largo
del estudio de prácticamente todos los aspectos de la función cerebral. Como en otros dominios del
dilema naturaleza versus crianza, parece bastante probable que ambos sean ciertos.
Ciertos aspectos del sistema visual están programados, sin embargo, la experiencia
visual juega un papel central en la configuración de las propiedades de sintonización
neuronal. Por ejemplo, el tipo de moléculas sensibles a la luz en los fotorreceptores están
cableados; no podemos empezar a ver colores fuera del espectro visible, no importa cuánta
exposición tengamos a tales frecuencias. Por otro lado, alterar las estadísticas del régimen
visual puede provocar cambios en la forma en que las neuronas responden a los estímulos
visuales. Volveremos a la cuestión de qué aspectos de los circuitos neuronales están
cableados y cuáles son plásticos cuando analicemos la corteza visual (sección 6.12). Como
pauta inicial, una conjetura razonable es que la plasticidad aumenta a medida que
avanzamos en el sistema visual desde los elementos sensoriales básicos hasta las
respuestas corticales. Según esta conjetura,
2.3 El mundo visual es lento
Las propiedades visuales de lugares cercanos en el mundo natural son similares. Además de esos
espacial correlaciones, también hay fuertes temporal correlaciones en el mundo natural. Ampliando la
colección de fotografías del mundo natural en la Sección 2.1, imagine que regresa a los mismos lugares y
ahora recopila videos cortos de dos segundos de duración mientras mantiene la cámara quieta. Debido a
que no se permite que la cámara se mueva, los únicos cambios en los fotogramas del video serán
dictados por el movimiento de los objetos en el mundo natural. Si usa una cámara que captura 30
cuadros por segundo, en la mayoría de los casos, los cuadros adyacentes en esos videos se verán
notablemente similares. Con algunas excepciones, los objetos del mundo se mueven con bastante
lentitud. Considere un guepardo o un automóvil que se mueve a una velocidad bastante impresionante
de 50 millas por hora. Suponiendo que tenemos una cámara que captura una distancia de
aproximadamente 40 yardas en 2000 píxeles, el guepardo se moverá aproximadamente 30 píxeles de un
cuadro al siguiente. La mayoría de los objetos se mueven a velocidades más lentas. Por lo tanto,
24 Los viajes de un fotón: estadísticas de imágenes naturales y la retina
los temporal El espectro de potencia del mundo natural también muestra un pico a bajas
frecuencias temporales, con grandes cambios que ocurren típicamente en decenas a cientos de
milisegundos. El mundo visual es lento y mayoritariamente continuo.
Varios modelos computacionales han aprovechado la continuidad de la entrada visual en condiciones
de visualización naturales para desarrollar algoritmos que pueden aprender sobre los objetos y sus
transformaciones, un tema que revisaremos cuando analicemos las explicaciones computacionales del
aprendizaje en el sistema visual (Capítulo 8). Debido a que el movimiento es bastante lento y continuo,
podemos suponer que una secuencia de imágenes que llegan a los ojos normalmente contiene el mismo
objeto, generando automáticamente múltiples ejemplos ligeramente transformados del mismo objeto.
Estos múltiples ejemplos pueden usarse para lograr el tipo de tolerancia a las transformaciones que se
destacó en el Capítulo 1. La noción de usar la continuidad temporal como una restricción para el
aprendizaje a menudo se conoce como la
"lentitud" principio.
2.4 Movimos continuamente nuestros ojos
La suposición de que la cámara está perfectamente quieta en la sección anterior no es del todo
correcta cuando se considera cerebros reales. Para empezar, podemos mover la cabeza,
cambiando así la información que incide en los ojos. Sin embargo, los movimientos de la cabeza
también son bastante escasos y relativamente lentos. Incluso con la cabeza perfectamente quieta,
resulta que los humanos y otros primates mueven los ojos todo el tiempo. La observación de que
los ojos están en movimiento casi continuo puede parecer algo contradictorio. A menos que hayas
vueltoflafectado por los movimientos oculares o pasó tiempo escudriñando a otra persona'En los
movimientos oculares, la introspección podría sugerir que el mundo visual que nos rodea no
cambia en absoluto en ausencia de movimientos externos o de la cabeza. Sin embargo, es
peligroso aceptar conceptos derivados de la introspección sin cuestionar nuestras suposiciones y
probarlas mediante mediciones experimentales.
Hoy en día, es relativamente sencillo medir la posición de los ojos con bastante precisión y rapidez en
un laboratorio, pero no siempre fue así, y los físicos construyeron ingeniosos artilugios para capturar
estos rápidos movimientos oculares. La figura 2.3 muestra un ejemplo de una secuencia de movimientos
oculares durante la presentación de una imagen estática. Por lo general, los ojos permanecen más o
menos en una ubicación y luego saltan rápidamente a otra ubicación, explorando la nueva ubicación,
antes de aventurarse una vez más hacia un nuevo objetivo. Estos saltos rápidos se llaman visuales.
sacadas y normalmente tardan unas pocas decenas de milisegundos en ejecutarse desde la posición
inicial hasta fiposición final. Las posiciones aproximadamente constantes entre movimientos sacádicos se
denominanfixations.
Durante la percepción de la escena, los sujetos suelen realizar movimientos sacádicos de
aproximadamente cuatro grados de ángulo visual. Los grados de ángulo visual son la unidad más
relevante y estándar para medir tamaños y posiciones en el campo visual.ficampo y capte el hecho de
que hay muchas combinaciones de tamaños de objetos y distancias al ojo que subtienden el mismo
ángulo (Figura 2.4). Un grado de ángulo visual corresponde aproximadamente al tamaño de su pulgar en
el brazo's longitud. Bajo la percepción de la escena natural, los sujetos tienden a hacer movimientos
sacádicos aproximadamente cada 250-300 milisegundos.
2.4 Movimos continuamente nuestros ojos 25
Figura 2.3 Los humanos mueven con frecuencia los ojos. Patrón defixiones mientras un sujeto observaba la imagen
durante 12 segundos. EstafiLa figura muestra las posiciones de los ojos promediadas cada 33 milisegundos (círculos
rojos) y las líneas amarillas se unen a las posiciones consecutivas de los ojos. Toda la pantalla fue
aproximadamente 20 30 grados de ángulo visual.
α h
Figura 2.4 Los tamaños se miden en grados de ángulo visual. El tamaño del árbol se caracteriza por el
ánguloα subtendido en el ojo. Diferentes combinaciones de alturash y distancias D dan el mismo tamaño
visual en grados de ángulo visual.
La intuición de que la mayoría de nuestros ojos están quietos es simplemente errónea. ¿Por qué el
mundo no parece estar saltando de unafixation a la siguiente varias veces por segundo? Ver una película
en la que la cámara se mueve de forma balística de tres a cuatro veces por segundo puede resultar
bastante molesto. El cerebro toma esas entradas retinianas que cambian un par de veces por segundo y
crea la ilusión de estabilidad. Además, los movimientos sacádicos son uno de los movimientos más
rápidos producidos por el cuerpo humano, alcanzando velocidades máximas de hasta 900 grados de
ángulo visual por segundo. Considerando una sacada típica que abarcafiVe pulgadas en 20 milisegundos,
esto equivale a casi 15 millas por hora; las velocidades máximas pueden ser mucho mayores de 100
millas por hora. Durante las pocas decenas de milisegundos en que
los ojos se mueven de un lugar a otro, las entradas sensoriales cambian tan rápido que es prácticamente
imposible ver nada durante una sacada. Cada vez que hacemos un movimiento sacádico, estamos
prácticamente ciegos a las entradas sensoriales durante unas pocas decenas de milisegundos. Sin
embargo, generalmente no somos conscientes de estos movimientos sacádicos. Nuestros cerebros
tienen un mecanismo de supresión sacádica para que percibamos un mundo estable. Incluso más
rápidos que los movimientos sacádicos son los parpadeos, que suceden unas 15 veces por minuto y
suelen durar unos 100-200 milisegundos. Básicamente, no hay entrada en nuestros ojos durante más de
100 milisegundos, aproximadamente 15 veces por minuto, y sin embargo, en su mayoría, no somos
conscientes de los parpadeos a menos que les prestemos especial atención. La supresión sacádica, la
supresión del parpadeo y la estabilidad del mundo visual cuando los ojos saltan de un lugar a otro
constituyen ejemplos persuasivos que muestran que nuestra percepción subjetiva del mundo es una
construcción. La percepción constituye una interpretación construida por nuestro cerebro basada en la
información sensorial entrante, combinada con las expectativas y con nuestro conocimiento general del
mundo. Lo que vemos no es una mera copia de lo que dictan los ojos.
El patrón de fiLas decisiones dependen de la imagen, la historia temporal y los objetivos actuales. Las
características de la imagen enflinfluir en los movimientos oculares: por ejemplo, las regiones de alto contraste
son más destacadas y tienden a atraer los movimientos oculares. La historia temporal de anteriores
fiLas citas también son relevantes: en promedio, los sujetos tienden a evitar regresar a un lugar donde fi
xado en, un fenmeno conocido como inhibición del retorno. Los objetivos actuales también juegan un
papel fundamental: si está buscando su automóvil en el estacionamiento, probablemente obtendrá más fi
xations en automóviles y objetos cercanos del mismo color que su automóvil.
Ampliando la Figura 2.3, además de los movimientos oculares balísticos que abarcan varios grados de
ángulo visual y ocurren cada 200-300 milisegundos (movimientos sacádicos), también hay muchos otros
movimientos oculares más pequeños y rápidos. Estos movimientos oculares se denominan
microsacadas y normalmente abarcan una fracción de un grado visual. Porque estos movimientos
oculares tienen lugar durante el período más o menos estable.fixations, se les conoce como
fimovimientos oculares nacionales. La mayoría de los movimientos sacádicos son involuntarios (como se señaló anteriormente,
normalmente ni siquiera somos conscientes de que estamos haciendo movimientos sacádicos), pero, por supuesto, podemos
controlar voluntariamente nuestros movimientos sacádicos. Por el contrario, las microsacadas son involuntarias. Junto con otros
fimovimientos oculares nacionales, estos pequeños cambios en la posición de los ojos pueden desempeñar un
papel fundamental en la prevención de la adaptación. Como veremos en la Sección 6.9, en ausencia de cualquier
tipo de movimiento externo, movimiento de la cabeza o movimiento de los ojos, las neuronas se adaptan
rápidamente a las entradas reduciendo su actividad. De hecho, experimentos sorprendentes han demostrado
que si la imagen en la retina está perfectamente estabilizada- a través de un aparato que es capaz de mover
ligeramente la imagen para tener en cuenta los pequeños movimientos oculares - luego, la imagen se desvanece
rápidamente de la percepción. En otras palabras, sin movimientos oculares constantes, no podríamos ver nada
excepto los cambios transitorios debidos a objetos en movimiento o movimientos de la cabeza.
2.5 La retina extrae información de la luz
La aventura del procesamiento visual en el cerebro comienza con la conversión de fotones

en señales eléctricas en el la retinaforma diminuta de la palabra neto, en latín). Debido a su
accesibilidad, la retina es la parte más estudiada del sistema visual. La conversión de
2.5 La retina extrae información de la luz 27
Lente Retina
P.EJ PY
WX V
FZ
LAO
B N UMD
LAO al tálamo
B N UMD P.EJ
PY
WX V
FZ
Figura 2.5 La lente del ojo invierte la imagen. Como en muchos otros tipos de lentes, la imagen se invierte cuando
se enfoca en la retina.
la luz en señales eléctricas, combinada con los circuitos retinianos precisos, bien puede
considerarse uno de los grandes logros de la evolución. La capacidad de convertir patrones de luz
en información y la estructura del ojo hicieron que Charles Darwin (1809-1882) reflexionan sobre
si tal hazaña podría lograrse mediante la selección natural. Un elegante trabajo bioquímico y
electrofisiológico ha caracterizado la cascada de transducción de señales encargada de capturar
fotones y utilizar el fotón.'s energía para desencadenar un conjunto de reacciones químicas que
conducen a cambios de voltaje en las células fotorreceptoras.
La información luminosa llega al ojo a través de una lente. Cuando la luz alcanza el plano
focal, la retina, la imagen se invierte (al revés e izquierda / derecha, Figura 2.5). Este hecho
básico de la óptica a veces desconcierta a quienes estánflect sobre la percepción para el fi
primera vez. Por qué no'¿Vemos todo al revés? Esta pregunta también ha atormentado a
algunas de las mentes más brillantes desde que se descubrieron los principios básicos de la
óptica. Nada menos que el gran Leonardo Da Vinci (1452-1519) asumió erróneamente que
no vemos al revés debido a que una segunda lente en el ojo invierte la imagen nuevamente.
Además, Johannes Kepler (1571-1630), que por lo demás desempeñó un papel central en el
avance de nuestro pensamiento sobre la percepción visual, describió claramente la
inversión del ojo y dejó el problema de la percepción para que lo resolvieran los filósofos
naturales (en ese momento, una mezcla de lo que ahora llamaríamos físicos y filósofos).
Otros filósofos asumieron que los recién nacidos ven los objetos al revés y que esta
percepción eventualmente es"corregido" en virtud de alinear las entradas visuales con el
sentido del tacto. Estas ideas filosóficas son otro ejemplo de interpretaciones erróneas
basadas en modelos introspectivos sin anclaje en experimentos reales: no hay evidencia de
que el sentido del tacto sea necesario para desarrollar un sistema visual capaz de
interpretar lo que hay arriba y abajo en el mundo.
No vemos los objetos al revés porque la percepción constituye nuestro cerebro's construcción
del mundo exterior basada en el patrón de actividad de las neuronas en la retina. Desde el día en
que nacemos, nuestro cerebro aprende que una especificaciónfic patrón de activación en la retina
es la forma en que son las cosas en el mundo. El cerebro no sabe qué está boca arriba; son todas
las señales eléctricas. Incluso es posible enseñar al cerebro a adaptarse a imágenes con diferentes
reglas, por ejemplo, mediante el uso de gafas que inviertan la imagen. No es fácil adaptarse a este
tipo de gafas y requiere dedicación, pero la gente puede aprender a andar en bicicleta.
usar anteojos que contengan lentes que cambien el mundo al revés o anteojos que muevan la imagen de
izquierda a derecha. Después de adaptarse a estas nuevas reglas, quitarse las gafas se vuelve bastante
confuso y los sujetos necesitan aprender nuevamente a interpretar el mundo visual sin las inversiones. Al
quitarse estos desagradables lentes, volver a aprender a adaptarse al mundo natural es mucho más
rápido que el entrenamiento inicial del cerebro con el mundo invertido.
La red de neuronas de la retina es una estructura particularmente hermosa que ha
cautivado a los neurocientíficos durante más de un siglo. La historia de los estudios de
retina está íntimamente ligada a la historia de la neurociencia y comienza con los
dibujos del célebre Santiago Ramón y Cajal (1852-1934). Santiago Ramón y Cajal,
considerado el padre de la neurociencia, tenía habilidad para el dibujo y quería
convertirse en artista. Sin embargo, sus padres tenían otros planes; Ramón y Cajal
acabó siguiendo sus consejos y convirtiéndose en médico. Tras obtener su título de
médico, estudió las técnicas para teñir el tejido neural del gran Camillo Golgi (1843-
1926), con quien entablaría una feroz scientific disputa sobre la estructura
fundamental del tejido cerebral, y con quien compartió el Premio Nobel en 1906.
La retina pronto se convirtió en una pasión persistente para Ramón y Cajal. La retina está ubicada en
la parte posterior de los ojos; en humanos, tiene un espesor de aproximadamente 250μmy abarca el área
de la superficie de aproximadamente media esfera de una pulgada de diámetro. La retina forma parte
del sistema nervioso central: se origina a partir de las mismas estructuras embrionarias que dan lugar al
resto del cerebro, y tiene una barrera sanguínea similar a la del resto del cerebro.
El diagrama esquemático de la retina en la Figura 2.6 ilustra la conectividad estereotipada compuesta

por tres capas celulares principales (fotorreceptores, células bipolares y células ganglionares),
interconectadas a través de dos capas intermedias adicionales (células horizontales y células amacrinas).
En los animales vertebrados, la luz tiene que atravesar todos los demás tipos de células para llegar a los
fotorreceptores, que se muestran en la parte superior de la Figura 2.6. Los fotorreceptores vienen en dos
variedades principales: bastones y conos. Hay alrededor de 108 varillas estas células son muy sensibles a
la luz y están especializadas para capturar fotones en condiciones de poca luz. La visión nocturna
depende de las varillas. Debido a que los conos tienen diferentes sensibilidades espectrales que
permiten la interpretación de los colores, y debido a que los conos son mucho menos sensibles que los
bastones a la poca iluminación, apenas vemos colores por la noche. Las varillas son tan sensibles que
pueden capturar y transmitir un solo fotón, lo que constituye aproximadamente 1019 Julios de energía en
la parte visible del espectro. Experimentos meticulosos sugieren que a veces los humanos pueden
detectar fotones individuales por encima del azar.
Además de las varillas, hay alrededor de 107 conos especializados para la visión en condiciones de luz
brillante. La mayoría de las personas tienen tres tipos de conos: pico sensible a la longitud de onda larga
a ~ 560 nanómetros, pico sensible a la longitud de onda media a ~ 530 nanómetros y al pico sensible a la
longitud de onda corta a ~ 420 nanómetros. La visión del color se basa en la actividad de los conos.
Algunos humanos muestran variaciones de daltonismo- en la mayoría de los casos, debido afideficiencias
o incluso ausencia de uno de estos tipos de conos; en casos raros, hay una ausencia de más de un tipo de
cono. Incluso con solo dos tipos de conos, las personas aún pueden ver diferentes tonos. Por ejemplo, si
a las personas les faltan los conos de longitud de onda corta, aún pueden distinguir la luz de 400
nanómetros frente a la de 500 nanómetros de longitud de onda debido a las respuestas diferenciales
desencadenadas en las longitudes de onda largas y largas.
Figura 2.6 Diagrama esquemático de los tipos de células y la conectividad en la retina de los primates. En este
diagrama, la luz proviene de la parte inferior y atraviesa todas las capas para llegar a los fotorreceptores. R =
fotorreceptores de barra; C = fotorreceptores de cono; FMB =flen las células bipolares enanas;
IMB = células bipolares enanas invaginantes; H = celdas horizontales; BID invaginando células bipolares difusas;
RB = células bipolares de varilla; I = célula plexiforme interna; A = células amacrinas; G = células ganglionares;
MG = células ganglionares enanas. Reproducido con permiso de Dowling 2012
conos sensibles de longitud de onda media. Colorceguera es, por lo tanto, un nombre inapropiado y
debe reservarse solo para personas que ven en escala de grises - es decir, personas que solo son
sensibles a la intensidad sin ninguna sensación de color. Una condición conocida como
acromatopsia - causado por daño en el cerebro, no en el ojo - puede conducir a un
daltonismo completo, como lo relata brillantemente el famoso neurólogo y autor británico
Oliver Sacks (1933-2015) en uno de sus libros (Sección 4.8). Las personas a las que les falta
un tipo de cono tienen especific puntos de confusión - es decir, ciertas combinaciones de
longitudes de onda que no pueden distinguir. Para poder demostrar
estos colores que no pueden diferenciar, es fundamental igualar la intensidad de la luz. En condiciones
naturales, los colores a menudo se correlacionan con diferentes intensidades y, por lo tanto, las personas
con cono defiLas ciencias pueden usar esas señales de intensidad para eludir su resolución reducida en
el espectro de colores. losIshihara prueba es una forma común de evaluar el color deficienciencias, y hay
muchas pruebas de este tipo disponibles en línea. Muchas personas se sorprenden cuando se hacen
estas pruebas yfidescubra que no pueden distinguir ciertas combinaciones de colores. Visión de color defi
La eficiencia es bastante común en los hombres (¡aproximadamente uno de cada 12!), con una
prevalencia mucho menor en las mujeres (aproximadamente una de cada 200). Un chiste políticamente
incorrecto afirma que las mujeres conocen cientos de colores y los hombres solo sabenfive. Esta broma
no es del todo incorrecta para algunos hombres (aunque estrictamente hablando, incluso con solo dos
conos, es posible distinguir muchos colores diferentes).
Los bastones y conos no se distribuyen uniformemente por la retina. En particular, hay
una parte de la retina, llamadafóvea, que está especializado para alta agudeza. Este ~ 300μ
m región no contiene bastones y una alta densidad de conos, con una asombrosa
17.500 conos. Esta alta densidad conduce a unafine muestreo de lo visual ficampo,
proporcionando así sujetos con mayor resolución en el punto de fixation. Por ejemplo, nuestra
capacidad para leer depende estrictamente de la fóvea: intentefixating en la carta "R" en la
segunda línea de la Figura 2.7. A continuación, intente leer una palabra que seaficinco palabras de
distancia y dos líneas debajo del "R," sin mover los ojos. La densidad celular y el grado de
convergencia de los conos a las neuronas descendentes disminuyen con la excentricidad. - es
decir, con distancia de la fóvea. Además, la óptica del cristalino tiene una transferencia de
modulación de contraste mejorada en la fóvea. Debido a la óptica del ojo y al muestreo no
uniforme, solo vemos en alta resolución en la fóvea (Figura 2.8B). Por lo tanto, los movimientos
sacádicos de los ojos traen el centro defixation en un enfoque nítido para obtener información
detallada. Personas condegeneración macular muestran progresivamente más daño en el área
foveal, lo que lleva a un deterioro de la calidad de la información de alta resolución,
eventualmente percibiendo ruido o una versión borrosa de la imagen (Figura 2.8C).
Aunque las ubicaciones que están lejos de la fóvea tienen un muestreo más burdo, tenemos la
ilusión de percibir una resolución aproximadamente igual en todo el campo visual. fivejez. Los
movimientos oculares son en parte responsables de esta ilusión: cada vez que movemos los ojos,
Figura 2.7 Solo podemos leer en la región foveal. Fíjese en la R grande en negrita en la segunda
línea e intente leer palabras en otra línea sin mover los ojos.
A B C
Figura 2.8 Solo el área alrededor fila fijación se ve en alta resolución. (A) Fotografía original. Si estuvieras
en este lugarfifijando en la ubicación indicada por el signo +, tendría la ilusión de que todo el fiEl campo
está lleno de detalles. (B) Sin embargo, la imagen transmitida al cerebro por la retina es más cercana a la
de B, con alta resolución en el fiubicación de fijación y cada vez más borrosa hacia la periferia. Nuestra
percepción parece estar más cerca deA que a B, porque constantemente movemos nuestros ojos,
probando nuevas ubicaciones en alta resolución. (C) Las personas con degeneración macular ven ruido o
una imagen borrosa en el centro, además de la borrosidad regular de la periferia.
fixate en una nueva ubicación, que aparece en alta resolución. Naturalmente, asumimos que toda
la visualficampo tiene la misma resolución. Además, probablemente haya información
almacenada sobrefixations. Cuando movemos nuestros ojos a una nueva ubicación, la vieja
fiLa ubicación de fijación ahora aparece en la periferia, con menor resolución. Sin embargo, la versión de
baja resolución podría combinarse con una versión almacenada en la memoria de trabajo basada en la
versión anterior de alta resolución.fixation.
Hay una región en la parte posterior de cada ojo que no contiene fotorreceptores. Esta región es
donde los axones de las células de salida de la retina, las células ganglionares de la retina (RGC), salen del
ojo. Las personas no pueden detectar la luz que se enfoca precisamente en esta región, que por lo tanto
se denomina elpunto ciego. La forma más sencilla de detectar el punto ciego es cerrar un ojo,
fixate en un punto distante dado y mueva lentamente su índice fidedo del centro a la
periferia hasta que parte del fiEl dedo desaparece de la vista (pero no en su totalidad, lo que
implicaría que movió su fidedo completamente fuera de su visual fivejez). Hay muchas
demostraciones en línea para ayudar a detectar el punto ciego. Cuenta la leyenda que el rey
Carlos II de Inglaterra estaba fascinado con el punto ciego y solía entretenerse colocando la
cabeza de un prisionero en su punto ciego para imaginarlo sin cabeza antes de la
decapitación real.
En circunstancias normales, no somos conscientes del punto ciego. - es decir, tenemos el
sentimiento subjetivo de que podemos ver todo el ficampo frente a nosotros (incluso con un ojo
cerrado). Dado que normalmente no percibimos el punto ciego, se puede suponer que en realidad es
bastante pequeño. Sin embargo, puedesfit la proyección de nueve lunas llenas en el cielo hacia el punto
ciego. ¿Cómo es posible estar tan completamente ajeno a una región tan grande y vacía de lo visual?fi
¿vejez? Generalmente no somos conscientes del punto ciego porque el cerebrofiSe llena y compensa la
falta de receptores en el punto ciego. EstafiEl proceso de llingin enfatiza nuevamente la noción de que
nuestras percepciones visuales no son una referencia literal.flección de la realidad, sino más bien una
reconstrucción elaborada por nuestros cerebros. Volveremos a la
noción de visión como una construcción subjetiva cuando hablamos de ilusiones visuales (Sección
3.1) y conciencia visual (Capítulo 10).
La información de los fotorreceptores se transmite a una segunda capa celular que consta de células
horizontales, células bipolares y células amacrinas, y finalmente a las células ganglionares de la retina (RGC). La
retina humana contiene aproximadamente 6,4 millones de conos, aproximadamente 110 millones de bastones y
aproximadamente un millón de células ganglionares de la retina. Por lo tanto, en promedio, hay una
convergencia de aproximadamente 100 fotorreceptores en una célula ganglionar, pero estos números varían
según la ubicación en la retina. Como se señaló anteriormente, la convergencia es mínima en la fóvea y más
extensa en la periferia distante. En la fóvea, un cono está aguas arriba de un RGC, y en la periferia, hay alrededor
de 15 conos por RGC y cientos de bastones por RGC.
La figura 2.6 muestra un simplified esquema de la conectividad en la retina de los
fotorreceptores a las células horizontales y bipolares, luego a las células amacrinas y las células
ganglionares. Los marcadores moleculares y anatómicos han ayudado afine diferentes tipos de
células horizontales y bipolares e incluso más tipos de células amacrinas y células ganglionares,
cada una de las cuales está involucrada en especific cálculos para capturar diferentes aspectos de
las imágenes entrantes. Además, la microscopía electrónica en serie está empezando a dilucidar la
conectoma retiniano - es decir, el patrón preciso de conexiones sinápticas en la retina. En un
futuro no muy lejano, es concebible que tengamos acceso a un mapa anatómico bastante
completo de la retina.
2.6 Se necesita tiempo para que la información llegue al nervio óptico
A fiA primera vista, la visión puede parecer instantánea. Abrimos los ojos y el mundo emerge
rápidamente en todo su esplendor. Sin embargo, no existe la propagación instantánea de señales.
Se necesita tiempo para la cascada de procesos que convierte los fotones entrantes en la actividad
de picos de las células ganglionares de la retina. La latencia de las respuestas de las células
ganglionares de la retina a un estímuloflla ceniza depende de múltiples factores - incluyendo la
historia previa de estimulación visual, la intensidad del estímulo flceniza, su tamaño y su color,
entre otros.
Los axones de las células ganglionares de la retina que transmiten información al resto del
cerebro se conocen colectivamente como nervio óptico. En promedio, se necesitan 30-50
milisegundos desde el inicio de un estímulo flceniza para que los picos emerjan del nervio óptico y
se propaguen al resto del cerebro. Esta latencia se combina además con el tiempo computacional
requerido para interpretar la información en el cerebro, que se desarrollará en la Sección 5.12.
Debido a estos retrasos, lo que vemos sonflects lo que ocurrió en el mundo en el pasado reciente.
Los retrasos son sufficientemente breves para engañar nuestra percepción y permitirnos obtener
una rápida evaluación de lo que sucede en el mundo.
2,7 Las neuronas visuales responden a una especiefic Región dentro del campo visual
Como la mayoría de las neuronas del cerebro, las células ganglionares de la retina (RGC) transmiten información
mediante la emisión de potenciales de acción, también conocidos como picos. Células antes de RGC en el
2.7 Las neuronas visuales responden a una especiefic Región dentro del campo visual 33
A B
... ... ... ... ... ...
... ... ... ... ... ...
X X
... ... ... ... ... ...
... ... ... ... ... ...
0,5 grados
Figura 2.9 Las neuronas se han localizado receptivas ficampos. (A) Un estímulo de luz (círculo blanco) es fl
incinerado en un lugar circunscrito mientras se registra la actividad de una neurona en un fixating animal"X"
denota el fiubicación de xation). (B) El procedimiento se repite en varios lugares diferentes. Las pequeñas
garrapatas verticales denotan actividad neuronal. La ubicación de máxima actividad (círculo negro) denota la
neurona's receptivo fivejez. El tamaño del estímulo también se cambia para trazar los límites del receptivo.fivejez.
La neurona también muestra una frecuencia espontánea baja en otros lugares.
retina constituye la excepción a esta regla y se comunica mediante señales de voltaje graduado sin emitir
picos. Para comprender cómo los RGC representan la información visual, debemos examinar cómo las
diferentes entradas se asignan a las respuestas de picos. Las propiedades funcionales de las RGC se han
examinado exhaustivamente mediante grabaciones electrofisiológicas que se remontan al trabajo
destacado de Haldan Hartline (1903-1983), Horace Barlow (1921)-2020) y Stephen Kuffler (1913-1980). Las
RGC (así como la mayoría de las neuronas de la corteza visual) responden con más fuerza a una región
circunscrita de laficampo llamado el receptivo
fiel campoFigura 2.9). El receptivofiEl campo puede ser mapeado por flencendiendo un estímulo en
diferentes ubicaciones y diferentes tamaños para localizar las áreas que desencadenan la activación
neuronal. Las neuronas también tienden afide forma espontánea para que haya pequeñas respuestas
neuronales incluso cuando la retina está en completa oscuridad o cuando el estímulo está muy lejos del
receptivo fivejez. En otras palabras, neuronalfiLas tasas de timbre no son necesariamente cero en
ausencia de estimulación visual dentro del receptivo. fivejez. Cabe destacar que la ubicación del receptivo
fiel campo es siempre específicofied con respecto a la fipunto de fijación, no con respecto a un
fiUbicación fija en el espacio. Si los sujetos mueven los ojos, la ubicación del receptáculoficampo
en el medio cambia, pero la posición con respecto a la fiel punto de fijación no lo hace.
Estos receptivos fiCampos en mosaico todo el visual fivejez. Sin mover los ojos, cualquier lugar
en el visualficampo donde se puede ver cualquier cosa implica que hay un RGC con un receptivo fi
campo que abarca esa ubicación. El receptivofiLos campos de los RGC están organizados
topográficamente - es decir, las RGC cercanas en la retina representan ubicaciones cercanas en el
fivejez. Esta topografía se conserva en las proyecciones de las RGC hacia el tálamo y, desde allí,
también hacia la corteza. La distribución no uniforme de neuronas desde la fóvea a la periferia
significa que existe una dependencia constante de excentricidad en
el tamaño del receptivo ficampos. En la fóvea, hay un mapeo uno a uno entre conos y RGC. Receptivofi
Los campos cercanos a la fóvea son más pequeños y receptivos. fiLos tamaños de campo crecen
aproximadamente linealmente con la excentricidad. El gran receptivofiLos campos de la periferia son una
de las principales razones por las que tenemos menos resolución fuera de la fóvea.
El RGC ilustrado esquemáticamente en la Figura 2.9 aumenta su fifrecuencia de anillo con
aumento de luminancia dentro del receptivo fivejez. Este tipo de celda se denomina
en el centro celda. También hay otros RGC,descentrado células, que aumentan su fifrecuencia de anillo
cuando hay una disminución en la luminancia en el centro de su receptivo ficampos.
La actividad de RGC no remite directamenteflect el patrón de fotones que llegan a la retina debido a
las distorsiones introducidas por el cristalino del ojo, debido a los retrasos temporales y al procesamiento
intermedio introducido por las capas celulares anteriores, y debido a las variaciones dependientes de la
excentricidad en la convergencia de los fotorreceptores a los RGC. Sin embargo, todavía es posible hacer
una conjetura sobre los estímulos visuales entrantes examinando las respuestas de RGC. No tenemos las
herramientas para registrar la actividad de cada RGC. Las tecnologías actuales solo permiten registrar
simultáneamente la actividad de algunos cientos de RGC. Incluso con una población tan pequeña, es
posible reconstruir una versión bastante precisa de los patrones de luz que llegan a la retina.
2.8 El operador de diferencia de gaussianos extrae información destacada y

descarta superficies uniformes
Incluso cuando el centro de una celda en el centro es bombardeado con una alta luminancia flceniza, su
respuesta será modulada por lo que está fuera del receptivo ficentro de campo. En particular, para la mayoría de
los RGC, una pared blanca de alta luminancia perfectamente uniformeno desencadenar alta activación. Considere
el siguiente experimento: se muestra un pequeño círculo blanco uniforme en el centro del receptáculoficampo, y
la neurona fires por encima de los niveles de la línea de base (Figura 2.9). A continuación, el círculo se agranda
ligeramente y la neurona muestra una mayorfifrecuencia de llamada. Si seguimos aumentando el tamaño del
círculo, en algún momento, elfila frecuencia del anillo alcanza su valor máximo. Hacer el círculo más grande
conduce a unreducción en fitasa de timbre; este fenómeno se conoce comoinhibición envolvente.
La inhibición del entorno se observa no solo para las RGC; también prevalece en todo el sistema visual. Las
neuronas en el centro están particularmente interesadas en los cambios espaciales.- es decir, aumento de
luminancia dentro del receptivo ficampo combinado con una disminución de la luminancia fuera del receptivo fi
vejez. Lo contrario es cierto para las neuronas descentradas.
Esta forma de patrón de respuesta dependiente del contexto espacial se conoce como receptivo
envolvente central. ficampos y típicamente se modela como una diferencia de dos curvas gaussianas
(Figura 2.10). Considerando una celda en el centro, y asumiendo que el centro del receptivofiel campo
está en la ubicación x = 0, y = 0, la actividad neuronal en respuesta a la iluminación
en un nuevo posición x, y será impulsado por un componente excitador proporcional a
1 = 2πσ2cen mi DX þy Þ =2σ cen, dónde σ cen reflafecta la extensión espacial de la conducción excitadora
2 2 2
fuerza (línea discontinua en la Figura 2.10). La excitación se compensa con un sonido envolvente.
Este componente inhibidor dado por 1 = 2πσ2 mi DX þy Þ =2σ sur, dónde σ reflects el espacial
sur 2 2
sur 2
extensión de la fuerza impulsora inhibitoria (línea de puntos en la Figura 2.10). El operador de diferencia
de gaussianos se utiliza para describir el receptivofiestructura de campo de los RGC:
2.9 Las neuronas visuales muestran respuestas transitorias 35
1 Respuesta del centro
0,5
Magnitud
0
Respuesta envolvente
- 0,5
-5 0 5
X
Figura 2.10 Receptivo de sombrero mexicano fivejez. El receptivoficampo en las células ganglionares de la retina es a menudo
caracterizado como una diferencia entre una respuesta central (línea discontinua) y una respuesta más amplia y más débil
respuesta envolvente (línea de puntos), lo que da como resultado una "Sombrero-mexicano" forma (línea continua).
1 X2þy2
B X2þy2
DDX; yÞ ¼ mi2σ2cen mi2σ2sur , (2,3)

2πσcen
2 2πσsur
2
donde el factor de escala B < 1 controla la fuerza relativa de excitación e inhibición,

dónde σsur> σcen, y donde corresponde a las celdas centradas y descentradas,
respectivamente. La diferencia entre los dos términos produce una"Sombrero-mexicano"
estructura con un pico en el centro y una inmersión inhibitoria en el entorno. La biología está
llena de sorpresas y excepciones. Las respuestas de algunas RGC no se pueden explicar mediante
la Ecuación (2.3).
2.9 Las neuronas visuales muestran respuestas transitorias
De la misma manera que un gran estímulo espacialmente uniforme no provoca una activación fuerte
porque las neuronas están sintonizadas para detectar cambios espaciales, los cambios temporales
también son críticos. Un estímulo constante generalmente no conduce a respuestas neuronales
sostenidas. Algunas RGC responden al inicio del estímulo, otras responden al inicio y otras responden al
inicio y al final. En todos estos casos, las respuestas tienden a adaptarse rápidamente cuando el estímulo
permanece constante y en ausencia de cualquier otro cambio externo (en ausencia de movimientos
oculares o de cabeza). Algunas neuronas mantienen una respuesta constante por encima de la línea de
base durante la duración del estímulo después del transitorio inicial. En contraste, elfila frecuencia de
anillo en otras neuronas disminuye a niveles de línea de base después del transitorio inicial. Por lo tanto,
las RGC son sensibles no solo al contexto espacial sino también al contexto temporal.
La incorporación de información contextual permite a las neuronas effiCodificar de manera

adecuada los cambios espaciales y temporales sin gastar picos abundantes y energéticamente
costosos para indicar que el estímulo es constante en el espacio o en el tiempo. Las regularidades
en la estructura del estímulo visual descritas en las Secciones 2.1 y 2.2 son, por lo tanto, reflected
en el fipropiedades del anillo de los RGC.
La ecuación (2.3) se puede ampliar para proporcionar una descripción cuantitativa de la dinámica
respuestas de las células ganglionares de la retina cuando se les presenta un estímulo que comienza en t = 0
y se queda constante:
D cen
DtÞ X2þy2
BD sur
DtÞ X2þy2
DD
x; y; t Þ ¼ mi2σ2cen mi2σ2sur, (2,4)
2πσcen
2 2πσsur
2
donde D cenDtÞ ¼ αcen

2 te αcent βcen
2 te βcent describir s la dinámica del centro e xcita-
función tory y D DtÞ ¼sur αsur
2 te αsur t β2sur
te βsur t
describe la dinámica de la
función inhibidora envolvente.
La ecuación (2.4) describe la dinámica interna del un RGC tras la presentación de un
estímulo que permanece constante. Además de estos tipo de respuestas, algunos RGC
también son fuertemente activados por un estímulo que se mueve dentro del receptivo fivejez.
Uno de esos tipos de células es elsobre-fuera de RGC selectivo de dirección, que muestra
respuestas mejoradas cuando un estímulo dentro del receptivo fiEl campo se está moviendo en
un especifidirección c. Estas respuestas selectivas de dirección también están moduladas por el
contexto circundante: las neuronas responden con mayor vigor cuando hay undiferencia en la
dirección del movimiento entre el receptivo ficampo y el entorno. Todo un visualfiEl campo que se
mueve en la misma dirección constituye un estímulo débil para este tipo de neuronas. Esta resta
contextual ayuda a las neuronas a distinguir el movimiento de objetos externos del auto-
movimiento. Además, las ubicaciones de los límites de profundidad también conducen a
discontinuidades de movimiento durante el movimiento propio en relación con una escena
estática. Las RGC sensibles al movimiento tienden a tener grandes pérgolas dendríticas y son
particularmente abundantes en la periferia. Debido a esto, detectar un objeto en la periferia es
más fácil cuando se mueve, una observación que puede probar fácilmente confifijándose en
cualquier letra dada aquí, extendiendo su mano en la periferia y comparando su percepción de la
mano cuando está estática versus cuando está en movimiento.
Las velocidades de conducción de los RGC se han utilizado para separar entre células magnocelularesRGC de
tipo M) y parvocelular células (RGC de tipo P, también llamadas células enanas). Las células de tipo M tienen
grandes árboles dendríticos, tienen una velocidad de conducción rápida, responden a estímulos de bajo
contraste, muestran respuestas transitorias y tienen poca sensibilidad a los colores. Por el contrario, las células
de tipo P muestran pequeños árboles dendríticos, tienen sensibilidad al color y tienden a presentar respuestas
más sostenidas y velocidades de conducción bajas.
Sigue habiendo interesantes investigaciones encaminadas a dilucidar todos los diferentes tipos de
especializaciones funcionales y estructurales de las RGC; Las estimaciones actuales sugieren que hay al
menos decenas de tipos distintos de células ganglionares, dependiendo de qué tan exactamente
"escribe" esfined. A excepción de la fóvea, los diferentes tipos de células ganglionares se distribuyen
aproximadamente por todas partes, de modo que las mismas características de estímulo externo se pueden
capturar en todo el campo visual.fivejez.
2.10 Hacia el resto del cerebro
El principal destino de la salida de las células ganglionares de la retina es una parte del
tálamo llamada núcleo geniculado lateral (LGN). La retina también se proyecta hacia el
2.10 Hacia el resto del cerebro 37
núcleo supraquiasmático y colículo superior, entre muchas otras regiones (los estudios
anatómicos han mapeado más de 40 regiones del cerebro que reciben información de la retina).
El núcleo supraquiasmático juega un papel vital en la regulación de los ritmos circadianos,
mientras que el colículo superior constituye el principal centro de procesamiento visual para
muchas especies antes de la expansión de la corteza cerebral. Los primates pueden reconocer
objetos después de lesiones en el colículo superior, pero no después de lesiones en regiones
corticales visuales. Por lo tanto, la vía clave para la percepción visual implica la que va desde las
RGC hasta el LGN y la corteza.
Como veremos en las Secciones 5.17 y 6.11, existen enormes proyecciones posteriores
en todo el sistema visual (Figura 1.5). Si el área A se proyecta hacia el área B, entonces, en la
mayoría de los casos, el área B también se proyecta hacia el área A. Una de las pocas excepciones
a esta regla es la conexión de la retina al LGN. No hay conexiones del LGN a la retina. Por lo tanto,
las vías de los fotorreceptores a los RGC y a los LGN pueden considerarse en su mayor parte de
retroalimentación.
El tálamo a menudo se ha denominado sucintamente la puerta de entrada a la corteza, modulando el
tipo de información sensorial que llega a la corteza. El receptivofiLos campos de las celdas LGN también
muestran la estructura envolvente central que se muestra en la Figura 2.10 y se pueden aproximar
mediante las ecuaciones (2.3) y (2.4). Las células talámicas a menudo se denominan- de una manera
bastante injusta - como celdas de relevo, abogando por la idea de que el tálamo simplemente copia y
pega la salida de RGC y transmite esta salida a la corteza.
Una distinción obvia entre las células RGC y LGN es el patrón de conectividad. Si bien a menudo
pensamos en el LGN predominantemente en términos de la entrada de los RGC, hay una gran
cantidad de retroproyecciones desde diversas áreas corticales, predominantemente desde la
corteza visual primaria, hacia el LGN. No se comprende bien cómo estas conexiones de
retroalimentación modulan la respuesta a los estímulos visuales en el LGN.
Como la gran mayoría de las estructuras cerebrales, hay dos copias del LGN, una en cada hemisferio.
El LGN derecho recibe información de ambos ojos, pero solo del hemisferio izquierdo.ficampo
(principalmente la parte de la visual ficampo a la izquierda del fipunto de fijación) mientras que lo
contrario es válido para el LGN izquierdo. El ojo derecho recibe información de ambos hemisferios
ficampos y envía hemi derechafiinformación de campo al LGN en el hemisferio izquierdo y en el
hemisferio izquierdoficampo de información al LGN en el hemisferio derecho.
Se pueden distinguir seis capas en el LGN. Las capas 2, 3 y 5 recibenipsolateral
entrada (es decir, información del ojo del mismo lado). Las capas 1, 4 y 6 reciben
contralateral entrada (es decir, información del ojo en el lado opuesto). Por lo tanto, un solo punto
en el espacio está representado en seis mapas diferentes a nivel del LGN. La información de los
ojos derecho e izquierdo no se fusiona en el LGN. Las capas 1 y 2 se denominan capas
magnocelulares y reciben información de los RGC de tipo M. Capas 3-6 se denominan capas
parvocelulares y reciben información de los RGC de tipo P. Hay alrededor de 1,5 millones de
células en el LGN humano. Por lo tanto, la densidad general de neuronas LGN asignadas a
diferentes partes del sistema visualfiEl campo es comparable al de las RGC, mientras que hay una
gran expansión en el número de neuronas a medida que avanzamos hacia la corteza.
Debido a que el LGN, y el tálamo en general, está conectado a múltiples áreas corticales,
se encuentra en una posición bastante única para integrar entradas sensoriales con
diferentes formas de información procesada en toda la corteza. La descripción del LGN
como estructura de relés es sólo una gran simplificaciónficatión, y la imagen del LGN
cambiará drásticamente a medida que comprendamos más sobre los circuitos neuronales y
los cálculos en el LGN.
2.11 Cámaras digitales versus el ojo
En los capítulos 7-9, examinaremos modelos computacionales de procesamiento visual. En general, los
modelos informáticos de última generación comienzan con la salida de una cámara digital normal que ha
capturado una imagen y la representa como una matriz bidimensional de píxeles, cada uno de los cuales
está codificado en un formato tridimensional. mundo de color (como intensidades de rojo, verde y azul).
Sin embargo, la sofisticada serie de cálculos de la retina aún no es igualada ni siquiera por las mejores
cámaras digitales que existen.
El ángulo de visión de una cámara digital depende de la distancia focal del objetivo. Para una
distancia focal de 17 mm (distancia aproximada desde el centro óptico de la lente del ojo a la
retina), elficampo de visión es de aproximadamente 90 grados, mientras que el fiEl campo de
visión para los humanos abarca casi 180 grados. Se ha estimado que la resolución del ojo humano
es del orden de 500 megapíxeles, aún mucho más que algunas de las cámaras digitales más
elegantes disponibles en el mercado.
Otra diferencia es que las cámaras digitales son aproximadamente uniformes en su
sensibilidad a la luz. Por el contrario, la retina asigna más recursos que las mejores cámaras
actuales para procesar condiciones con poca iluminación. Si alguna vez ha intentado tomar
fotografías de noche, probablemente haya notado que no es fácil tomar fotografías digitales en
condiciones de poca luz. Para sortear estos desafíos, los fotógrafos pueden usar artilugios como
trípodes para estabilizar la cámara y dejar el obturador de la cámara abierto durante muchos
segundos, si no minutos o más. Por el contrario, el ojo puede transmitir información precisa y
ayudarnos a navegar en el bosque incluso bajo la luz de las estrellas. No querríamos tener que
esperar muchos segundos o minutos antes de poder ver algo por la noche. Uno de los trucos para
lograrlo es que la retina puede adaptarse a condiciones de poca luz y cambiar su ganancia para
lograr una mayor sensibilidad. El ojo tiene que trabajar en condiciones de luz solar intensa hasta
las noches sin luna, una diferencia de aproximadamente nueve órdenes de magnitud en la
intensidad de la luz. Esta adaptación lleva tiempo, como se puede apreciar al pasar de un lugar
oscuro a la luz del sol o viceversa.
Además de esta adaptación a la iluminación promedio, la intensidad de la luz puede variar en tres
unidades de registro dentro de una escena. La retina puede adaptarse a esto debido a los mecanismos
de adaptación que abarcan diferentes escalas espaciales y temporales. Por el contrario, tomar
fotografías digitales en una escena con tal signifiLas variaciones pronunciadas en la iluminación son
complicadas: o una parte de la imagen está completamente oscura o otra parte de la imagen está
completamente sobreexpuesta.
Las cámaras digitales generalmente carecen de muchos de los mecanismos sofisticados de detección
de movimiento y corrección contextual que se describen en este capítulo para los RGC. Las imágenes
rara vez son borrosas para nosotros, mientras que las cámaras digitales necesitan implementar muchos
mecanismos de corrección adicionales para producir imágenes nítidas. Otra diferencia llamativa es la
forma en que compensamos la composición espectral del iluminante: no vemos esos tonos anaranjados
Otras lecturas 39
fotos que nos dan las cámaras digitales. Sin embargo, la diferencia más notable entre la visión
biológica y las cámaras digitales es la presencia de un dispositivo computacional exquisitamente
sofisticado para procesar la salida de RGC, la corteza, que comenzaremos a examinar a
continuación.
2.12 Resumen
Las imágenes naturales son especiales: son espacialmente suaves y cambian lentamente en el tiempo. El
effiLa hipótesis de codificación científica postula que los recursos neuronales se asignan de manera
óptima para representar las estadísticas de las entradas ambientales.
Posiciones y tamaños en lo visual. fiEl campo se mide en grados de ángulo visual. Un grado
corresponde aproximadamente al tamaño de su pulgar en el brazo's longitud. Los
humanos y otros primates realizan frecuentes movimientos oculares denominados
sacadas, abarcando varios grados de ángulo visual y ocurriendo de tres a cuatro veces por
segundo.
Dos tipos de fotorreceptores convierten la luz en señales eléctricas para la percepción visual:
varillas y conos. Los bastones son los principales responsables de la visión nocturna y los conos
de la visión del color.
Las células ganglionares de la retina comunican la salida de la retina al resto del
cerebro.
Las células ganglionares de la retina responden a una región localizada del sistema visual. ficampo
denominado el receptivo fivejez.
El centro de enfoque se proyecta sobre el fóvea, un área poblada por conos, con mayor
densidad celular y menor receptividad fitamaños de campo, proporcionando alta
resolución.
Las células ganglionares de la retina en el centro son excitadas por la luz dentro de sus receptores. fi
campo e inhibido por la luz en la región circundante. Sus respuestas pueden describirse mediante una
función de diferencia de gaussianas.
La información de las células ganglionares de la retina se transmite al núcleo
geniculado lateral del tálamo.
Como una aproximación burda, el ojo puede considerarse una cámara digital
especializada, aunque los ojos son capaces de muchos trucos sofisticados que las cámaras
digitales actuales no pueden realizar.
La percepción es un constructo, una interpretación hecha por el cerebro, inspirada en la formación
sensorial, pero no una interpretación literal.flección del mundo exterior.
Otras lecturas
Ver http://bit.ly/3aeW07Z para más referencias.

Barlow, H. (1972). Unidades únicas y sensación: una doctrina neuronal para la percepción.Percepción
1, 371-394.
40 los Viajes de un fotón: estadísticas de imágenes naturales y la retina
Helmstaedter, M .; Briggman, KL; Turaga, SC; Jain, V .; Seung, HS; y Denk, W.

(2013). Reconstrucción conectómica de la capa plexiforme interna de la retina del ratón.
Naturaleza 500, 168-174. Kuffler, S. (1953). Patrones de descarga y organización funcional de la
retina de mamíferos.
Revista de neurofisiología 16, 37-68.
Simoncelli, E .; y Olshausen, B. (2001). Estadísticas de imágenes naturales y representación
neuronal.Revisión anual de neurociencia 24 de 193-216. Yarbus, A. (1967). Movimientos oculares y
visión. Nueva York: Plenum Press.

Biological and Computer Vision Chapter2.en - Es

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Biological and Computer Vision Chapter2.en - Es

Cargado por

Copyright:

Formatos disponibles

Traducido del inglés al español - www.onlinedoctranslator.

2 Los viajes de un fotón

Contenido complementario en http://bit.ly/3aeW07Z

2.1 Las imágenes naturales son especiales

2.2 EffiCodificación ciente mediante la asignación de más recursos donde se necesitan

2.3 El mundo visual es lento

2.4 Movimos continuamente nuestros ojos

2.5 La retina extrae información de la luz

La aventura del procesamiento visual en el cerebro comienza con la conversión de fotones

El diagrama esquemático de la retina en la Figura 2.6 ilustra la conectividad estereotipada compuesta

2.6 Se necesita tiempo para que la información llegue al nervio óptico

... ... ... ... ... ...

... ... ... ... ... ...

... ... ... ... ... ...

2.8 El operador de diferencia de gaussianos extrae información destacada y

1 Respuesta del centro

DDX; yÞ ¼ mi2σ2cen mi2σ2sur , (2,3)

donde el factor de escala B < 1 controla la fuerza relativa de excitación e inhibición,

2.9 Las neuronas visuales muestran respuestas transitorias

La incorporación de información contextual permite a las neuronas effiCodificar de manera

donde D cenDtÞ ¼ αcen

2.10 Hacia el resto del cerebro

2.11 Cámaras digitales versus el ojo

Ver http://bit.ly/3aeW07Z para más referencias.

Helmstaedter, M .; Briggman, KL; Turaga, SC; Jain, V .; Seung, HS; y Denk, W.

También podría gustarte