Está en la página 1de 15

Resumen

Originalmente inspirados en la neurobiología, los modelos de redes


neuronales profundas se han convertido en una poderosa herramienta de
aprendizaje automático e inteligencia artificial . Pueden aproximar funciones y
dinámicas aprendiendo de ejemplos. Aquí le damos una breve introducción a
los modelos de redes neuronales y el aprendizaje profundo para
los biólogos . Introducimos redes avanzadas y recurrentes y explicamos el
poder expresivo de este marco de modelado y el algoritmo de propagación
hacia atrás para establecer los parámetros. Finalmente, consideramos cómo los
modelos de redes neuronales profundas pueden ayudarnos a entender la
computación cerebral.
 Artículo anterior en cuestión
 Siguiente artículo en cuestión

Texto principal
Modelos de red neuronal de la función cerebral.

La función cerebral se puede modelar en diferentes niveles de abstracción. En


un extremo, los neurocientíficos modelan neuronas individuales y su dinámica
con gran detalle biológico. En el otro extremo, los científicos cognitivos
modelan el procesamiento de información cerebral con algoritmos que no
hacen referencia a componentes biológicos. Entre estos extremos se encuentra
una clase modelo que se ha llamado red neuronal artificial .
Una neurona biológica recibe múltiples señales a través de las sinapsis
que entran en contacto con sus dendritas y envía un único flujo
de potenciales de acción a través de su axón. La conversión de un patrón
complejo de entradas en una decisión simple (aumentar o no aumentar)
sugirió a los primeros teóricos que cada neurona realiza una función cognitiva
elemental: reduce la complejidad al categorizar sus patrones de
entrada. Inspirados por esta intuición , los modelos de redes neuronales
artificiales se componen de unidades que combinan múltiples entradas y
producen una sola salida.
El tipo más común de unidad calcula una suma ponderada de las entradas y
transforma el resultado de forma no lineal. La suma ponderada puede
interpretarse como la comparación del patrón de entradas con un patrón de
referencia de pesos, con los pesos correspondientes a las fortalezas de las
conexiones entrantes. La suma ponderada se llama la preactivación . La
fuerza de la preactivación refleja la fuerza general de las entradas y, lo que es
más importante, la coincidencia entre el patrón de entrada y el patrón de
peso. Para una intensidad de entrada determinada (medida como la suma de
las intensidades al cuadrado), la activación previa será máxima si el patrón de
entrada coincide exactamente con el patrón de peso (hasta un factor de
escala).
La activación previa forma la entrada a la función de activación no lineal de la
unidad. La función de activación puede ser una función de umbral (0 para
negativo, 1 para preactivaciones positivas), que indica si la coincidencia es lo
suficientemente cercana para que la unidad responda. Más típicamente, la
función de activación es una función que aumenta monótonamente, como la
función logística ( Figura 1 ) o una no linealidad rectificadora, que genera la
preactivación si es positiva y cero en caso contrario. Estas últimas funciones
de activación tienen derivadas distintas de cero (al menos en el rango positivo
de preactivaciones). Como veremos a continuación, los derivados distintos de
cero facilitan la optimización de los pesos de una red.

1. Descargar imagen de alta resolución (293KB)


2. Descargar imagen a tamaño completo
Figura 1 . Función de aproximación por una red neuronal de avance .
Una red neuronal avanzada con dos unidades de entrada (parte inferior), tres unidades
ocultas (centro) y dos unidades de salida (parte superior). Los patrones de entrada
forman un espacio bidimensional. Las unidades ocultas y de salida aquí utilizan una
función de activación sigmoide (logística). Los gráficos de superficie a la izquierda
muestran la activación de cada unidad como una función del patrón de entrada (plano
horizontal abarcado por las entradas x 1 y x 2). Para las unidades de salida, las
preactivaciones se muestran debajo de las activaciones de salida. Para cada unidad, los
pesos (grosor de la flecha) y los signos (negro, positivo; rojo, negativo) de las
conexiones entrantes controlan la orientación y la pendiente de la función de
activación. Las unidades de salida combinan las rampas no lineales calculadas por las
unidades ocultas. Dadas suficientes unidades ocultas, una red de este tipo puede
aproximar cualquier función continua a una precisión arbitraria.

Los pesos pueden ser positivos o negativos. La inhibición, por lo tanto, no


necesita ser transmitida a través de un conjunto separado de unidades
inhibitorias, y los modelos de redes neuronales generalmente no respetan la
ley de Dale (que establece que una neurona realiza la misma acción
química en todas sus conexiones sinápticas con otras neuronas,
independientemente de la identidad de la célula diana). Además de los pesos
de las conexiones entrantes, cada unidad tiene un parámetro de sesgo: el sesgo
se agrega a la preactivación, lo que permite a la unidad cambiar su función de
activación no lineal horizontalmente, por ejemplo, mover el umbral hacia la
izquierda o hacia la derecha. El sesgo se puede entender como un peso para
una entrada adicional imaginaria que es constantemente 1.

Las redes neuronales son aproximadores universales.

Las unidades se pueden ensamblar en redes en muchas configuraciones


diferentes. Una sola unidad puede servir como un discriminante lineal de sus
patrones de entrada. Un conjunto de unidades conectadas al mismo conjunto
de entradas puede detectar múltiples clases, y cada unidad implementa un
discriminante lineal diferente. Para que una red discrimine clases que no se
pueden separar linealmente en las señales de entrada, necesitamos una capa
intermedia entre las unidades de entrada y salida, llamada capa oculta ( Figura
1 ).
Si las unidades fueran lineales, emitiendo la suma ponderada directamente, sin
pasarla a través de una función de activación no lineal, entonces las unidades
de salida que leen las unidades ocultas calcularían las sumas ponderadas de las
sumas ponderadas y, por lo tanto, estarían limitadas a las sumas ponderadas de
entradas Con las funciones de activación no lineal, una capa oculta hace que la
red sea más expresiva, lo que le permite aproximarse a las funciones no
lineales de la entrada, como se ilustra en la Figura 1 .
Una red de avance con una sola capa oculta ( Figura 1 ) es un aproximador
flexible de funciones que vinculan las entradas con las salidas
deseadas. Normalmente, cada unidad oculta calcula una rampa no lineal, por
ejemplo sigmoide o lineal rectificada, sobre el espacio de entrada. La rampa se
eleva en la dirección en el espacio de entrada que se define por el vector de
pesos entrantes. Al ajustar los pesos, podemos girar la rampa en la dirección
deseada. Al escalar el vector de pesos, podemos apretar o estirar la rampa para
hacer que suba más o menos abruptamente. Al ajustar el sesgo, podemos
desplazar la rampa hacia adelante o hacia atrás. Cada unidad oculta puede
ajustarse independientemente de esta manera.
Un nivel más arriba, en la capa de salida, podemos combinar linealmente las
salidas de las unidades ocultas. Como se muestra en la Figura 1 , una suma
ponderada de varias rampas no lineales produce una función continua
cualitativamente diferente en el espacio de entrada. Así es como una capa
oculta de unidades lineales no lineales permite la aproximación de funciones
muy diferentes en forma a la función de activación no lineal que proporciona
los bloques de construcción.
Resulta que podemos aproximar cualquier función continua a cualquier nivel
de precisión deseado permitiendo un número suficiente de unidades en una
sola capa oculta. Para obtener una intuición de por qué esto es posible,
considere la unidad de salida izquierda (y 1 ) de la red en la Figura 1. Al
combinar rampas que se superponen en una sola región del espacio de entrada,
esta unidad selecciona efectivamente un solo parche compacto. Podríamos
agrupar todo el espacio de entrada con conjuntos de unidades ocultas que
seleccionan diferentes parches de esta manera. En la capa de salida,
podríamos asignar cada parche a cualquier valor de salida deseado. A medida
que nos movemos de una región de entrada a otra, la red hará una transición
suave entre los diferentes valores de salida. La precisión de tal aproximación
siempre se puede aumentar utilizando más unidades ocultas para organizar el
espacio de entrada con mayor precisión.
Las redes profundas pueden capturar eficientemente funciones complejas

Una red neuronal avanzada se llama " profunda " cuando tiene más de una
capa oculta. El término también se utiliza en un sentido gradual, en el que la
profundidad denota el número de capas. Hemos visto anteriormente que
incluso las redes neuronales poco profundas , con una sola capa oculta, son
aproximadores de funciones universales. ¿Cuál es, entonces, la ventaja de las
redes neuronales profundas ?
Las redes neuronales profundas pueden reutilizar las características
computadas en una capa oculta dada en capas ocultas más altas. Esto permite
que una red neuronal profunda explote la estructura de la composición en una
función y se aproxime a muchas funciones naturales con menos pesos y
unidades. Mientras que una red neuronal superficial debe reconstruir la
función que se aproxima, como una tabla de búsqueda (aunque las piezas se
superponen y suman), una red neuronal profunda puede beneficiarse de su
estructura jerárquica. Una arquitectura más profunda puede aumentar la
precisión con la que se puede aproximar una función a un presupuesto fijo de
parámetros y puede mejorar la generalización después de conocer nuevos
ejemplos.
El aprendizaje profundo se refiere a la determinación automática de
parámetros profundos en una red sobre la base de la experiencia (datos). Las
redes neuronales con múltiples capas ocultas son una idea antigua y fueron un
tema popular en ingeniería y ciencia cognitiva en la década de los
ochenta. Aunque las ventajas de las arquitecturas profundas se entendían en
teoría, el método no se dio cuenta de su potencial en la práctica,
principalmente debido a la insuficiente capacidad de cálculo y los datos para
el aprendizaje. Técnicas de aprendizaje de máquinas poco profundas, como las
máquinas de vectores de soporte, funcionó mejor en la práctica y también se
prestó a un análisis matemático más riguroso. El reciente éxito del aprendizaje
profundo se debe a un aumento en el poder de cómputo, en particular la
llegada de unidades de procesamiento de gráficos, GPUs, hardware
especializado para la rápida matriz-multiplicación de matrices, y conjuntos de
datos a escala web para aprender. Además, las técnicas mejoradas para el
entrenamiento previo, inicialización, regularización y normalización, junto
con la introducción de unidades lineales rectificadas, han ayudado a mejorar el
rendimiento. El trabajo reciente ha explorado una amplia variedad de
arquitecturas de redes avanzadas y recurrentes, mejorando el estado del arte en
varios dominios de inteligencia artificial y estableciendo el aprendizaje
profundo como un elemento central del aprendizaje automático en los últimos
años.
La función para la cual se entrena a las redes neuronales profundas es a
menudo un mapeo de patrones de entrada a patrones de salida, por ejemplo,
clasificar imágenes naturales según categorías, traducir oraciones del inglés al
francés, o predecir el clima del mañana a partir de las mediciones de
hoy. Cuando el costo minimizado por la capacitación es una medida de la falta
de coincidencia entre las salidas de la red y las salidas deseadas (es decir, el
'error'), para un conjunto de capacitación de casos de ejemplo, la capacitación
se denomina supervisada. Cuando el costo minimizado por la capacitación no
implica salidas deseadas previamente especificadas para un conjunto de
entradas de ejemplo, la capacitación se denomina no supervisada.
Dos ejemplos de aprendizaje no supervisado son los autocodificadores y las
redes adversas generativas. Las redes de autocodificador aprenden a
transformar los patrones de entrada en una representación latente comprimida
explotando la estructura estadística inherente. Las redes de confrontación
generativas operan en la dirección opuesta, transformando patrones aleatorios
en una representación latente en ejemplos novedosos, sintéticos de una
categoría, como imágenes falsas de habitaciones. La red de generadores se
entrena simultáneamente con una red discriminadora que aprende a elegir las
falsificaciones del generador entre los ejemplos naturales de la categoría. Las
dos redes adversas aumentan el rendimiento de cada una al plantear desafíos
cada vez más difíciles de falsificación y detección entre sí. Las redes
neuronales profundas también pueden ser entrenadas por refuerzo (aprendizaje
por refuerzo profundo),control robótico .

Aprendizaje profundo por propagación hacia atrás.

Digamos que queremos entrenar un modelo de red neuronal profunda con


supervisión. ¿Cómo pueden aprenderse automáticamente los pesos de
conexión en la red? Los pesos se inicializan aleatoriamente y luego se ajustan
en muchos pasos pequeños para acercar la red al comportamiento deseado. Un
enfoque simple sería considerar las perturbaciones aleatorias de los pesos y
aplicarlos cuando mejoran el comportamiento. Este enfoque evolutivo es
intuitivo y recientemente se ha mostrado prometedor, pero no suele ser la
solución más eficiente. Puede haber millones de pesos, que abarcan un
espacio de búsqueda de igual dimensión. En la práctica, lleva demasiado
tiempo encontrar direcciones para moverse en un espacio que mejore el
rendimiento. Podríamos mover cada peso por separado y determinar si el
comportamiento mejora. Aunque esto nos permitiría avanzar, ajustar cada
peso requeriría correr toda la red muchas veces para evaluar su
comportamiento. De nuevo, el progreso con este enfoque es demasiado lento
para muchas aplicaciones prácticas.
Para permitir un aprendizaje más eficiente, los modelos de redes neuronales se
componen de operaciones diferenciables . La forma en que un pequeño
cambio en un peso en particular afecta el rendimiento puede calcularse como
la derivada parcial del error con respecto al peso. Para diferentes
ponderaciones en el mismo modelo, las expresiones algebraicas
correspondientes a sus derivadas parciales comparten muchos términos, lo que
nos permite calcular de manera eficiente las derivadas parciales para todas las
ponderaciones.
Para cada entrada, primero propagamos la activación hacia adelante a través
de la red, calculando los estados de activación de todas las unidades, incluidas
las salidas. Luego comparamos las salidas de la red con las salidas deseadas y
calculamos la función de costo a minimizar (por ejemplo, la suma de los
errores cuadrados en las unidades de salida). Para cada unidad, calculamos
cuánto bajaría el costo si la activación cambiara ligeramente. Esta es
la sensibilidad del costo a un cambio de activación de cada unidad de
salida. Matemáticamente, es la derivada parcial.del coste con respecto a cada
activación. Luego procedemos hacia atrás a través de la red, propagando las
derivadas de costos (sensibilidades) de las activaciones a las preactivaciones y
de las ponderaciones a las activaciones de la capa de abajo. La sensibilidad del
costo para cada una de estas variables depende de las sensibilidades del costo
para las variables en la red. La propagación inversa de los derivados a través
de la red mediante la aplicación de la regla de la cadena proporciona un
algoritmo eficiente para calcular todos los derivados parciales.
El paso crítico es calcular la derivada parcial del costo con respecto a cada
peso. Considere el peso de una conexión en particular (flecha roja en la Figura
2 ). La conexión vincula una unidad de origen en una capa a una unidad de
destino en la siguiente capa. La influencia del peso en el costo de un patrón de
entrada dado depende de cuán activa sea la unidad fuente. Si la unidad fuente
está apagada para el patrón de entrada actual, entonces la conexión no tiene
señal para transmitir y su peso es irrelevante para la salida que la red produce
para la entrada actual. La activación de la unidad fuente se multiplica.con el
peso para determinar su contribución a la preactivación de la unidad objetivo,
por lo que la activación de la fuente es un factor que determina la influencia
del peso en el costo. El otro factor es la sensibilidad del costo a la
preactivación de la unidad objetivo. Si la preactivación de la unidad objetivo
no tuvo influencia en el costo, el peso tampoco tendría influencia. El derivado
del costo con respecto al peso es el producto de la activación de su unidad
fuente y la influencia de su unidad objetivo en el costo.

1. Descargar imagen de alta resolución (400KB)


2. Descargar imagen a tamaño completo
Figura 2 . El algoritmo de backpropagation.
Backpropagation es un algoritmo eficiente para calcular cómo pequeños ajustes a los
pesos de conexión afectan la función de costo que la red pretende minimizar. Una red de
avance con dos capas ocultas se muestra como ejemplo. Primero, las activaciones se
propagan en la dirección de avance (hacia arriba). La función de activación (sigmoide
gris) se muestra en cada unidad (círculo). En el contexto de un patrón de entrada
particular (no mostrado), la red está en un estado de activación particular, indicado por
los puntos negros en las unidades (eje horizontal: preactivación, eje vertical:
activación). En segundo lugar, los derivados de la función de costo (el costo de error
cuadrado que se muestra a la derecha) se propagan en sentido inverso (hacia abajo). En
el contexto del presente patrón de entrada, la red se puede aproximar como una red
lineal (líneas negras que indican la pendiente de la función de activación). La regla de la
cadena define cómo el costo (el error) se ve afectado por pequeños cambios en las
activaciones, las preactivaciones y los pesos. El objetivo es calcular la derivada parcial
del costo con respecto a cada peso (abajo a la derecha). Luego, cada peso se ajusta en
proporción a cuánto reduce su costo el ajuste. La notación sigue aproximadamente a
Nielsen (2015), pero usamos símbolos en negrita para vectores y matrices.

Ajustamos cada peso en la dirección que reduce el costo (el error) y en una
cantidad proporcional a la derivada del costo con respecto al peso. Este
proceso se denomina descenso de gradiente , porque equivale a moverse en la
dirección del espacio de peso en el que el costo disminuye de manera más
pronunciada. Para ayudar a nuestra intuición, consideremos dos enfoques que
podríamos tomar. Primero, considere el enfoque de dar un paso para reducir el
costo de cada ejemplo de capacitación individual. El descenso de gradiente
hará ajustes mínimos y selectivos para reducir el error, lo cual tiene sentido ya
que no queremos que el aprendizaje del ejemplo actual interfiera con lo que
hemos aprendido de otros ejemplos. Sin embargo, nuestro objetivo es reducir
el error general., que se define como la suma de los errores en todos los
ejemplos. Entonces, en segundo lugar, considere el enfoque de sumar las
superficies de error (o, de manera equivalente, los gradientes) en todos los
ejemplos antes de dar un paso. Aún podemos dar un pequeño paso, porque la
superficie de error no es lineal y, por lo tanto, el gradiente cambiará a medida
que nos alejemos del punto en el que linealizamos la red.
En la práctica, la mejor solución es usar pequeños lotes de ejemplos de
entrenamientopara estimar el gradiente antes de dar un paso. En comparación
con el enfoque de ejemplo único, esto nos da un sentido de dirección más
estable. En comparación con el enfoque de conjunto de entrenamiento
completo, reduce en gran medida los cálculos necesarios para dar un
paso. Aunque el enfoque de conjunto de entrenamiento completo da
gradientes exactos para el error de conjunto de entrenamiento, todavía no nos
permite dar grandes pasos, debido a la no linealidad de la función de error. El
uso de lotes es un buen compromiso entre la estabilidad de la estimación del
gradiente y el costo computacional. Debido a que la estimación del gradiente
depende de la muestra aleatoria de ejemplos en el lote actual, el método se
llama estocásticopendiente de gradiente (SGD). Más allá de la motivación que
se acaba de dar, se piensa que la estocasticidad también contribuye a encontrar
soluciones que generalicen más allá del conjunto de capacitación.
El costo no es una función convexa de los pesos, por lo que podemos estar
preocupados por atascarnos en los mínimos locales. Sin embargo, la alta
dimensionalidad del espacio de peso resulta ser una bendición (no una
maldición) para el descenso del gradiente: hay muchas direcciones para
escapar, por lo que es poco probable que alguna vez nos encontremos
atrapados, con la superficie de error aumentando en todas las direcciones . En
la práctica, son los puntos de silla de montar (donde el gradiente se desvanece)
lo que plantea un desafío mayor que los mínimos locales. Además, la función
de costo generalmente tiene muchas simetrías, y cualquier conjunto de pesos
tiene muchos gemelos computacionalmente equivalentes (es decir, el modelo
calcula la misma función general para diferentes configuraciones de
parámetros). Como resultado, aunque nuestra solución puede ser un mínimo
local entre muchos, puede que no sea un mínimo local deficiente:

Las redes neuronales recurrentes son aproximadores universales de


sistemas dinámicos.

Hasta ahora hemos considerado las redes de feedforward, cuyas conexiones


dirigidas no forman ciclos. Las unidades también pueden configurarse en
redes neuronales recurrentes (RNN), donde la actividad se propaga en ciclos,
como es el caso en los cerebros. Esto permite a una red reciclar sus recursos
computacionales limitados a lo largo del tiempo y realizar una secuencia más
profunda de transformaciones no lineales. Como resultado, los RNN pueden
realizar cálculos más complejos de lo que serían posibles con un solo barrido
hacia adelante a través del mismo número de unidades y conexiones.
Para un espacio de estado dado, un RNN adecuado puede asignar cada estado
a cualquier estado sucesor deseado. Las RNN, por lo tanto, son aproximadores
universales de sistemas dinámicos. Proporcionan un lenguaje universal para
modelar dinámicas, y uno cuyos componentes podrían implementarse
plausiblemente con neuronas biológicas.
Al igual que las redes neuronales de avance, las RNN pueden ser entrenadas
por propagación hacia atrás. Sin embargo, la propagación hacia atrás debe
proceder a través de los ciclos en sentido inverso. Este proceso se llama
backpropagation a través del tiempo. Una forma intuitiva de entender un RNN
y la propagación hacia atrás a través del tiempo es "desplegar" el RNN en una
red de avance hacia adelante equivalente ( Figura 3 ). Cada capa de la red de
feedforward representa un paso de tiempo del RNN. Las unidades y los pesos
del RNN se replican para cada capa de la red de feedforward. La red
feedforward, por lo tanto, comparte el mismo conjunto de pesos en sus capas
(los pesos de la red recurrente).

1. Descargar imagen de alta resolución (136KB)


2. Descargar imagen a tamaño completo
Figura 3 . Redes neuronales recurrentes .
(A) Un modelo de red neuronal recurrente con dos unidades de entrada (en el cuadro
azul), tres unidades ocultas (cuadro verde) y dos unidades de salida (cuadro rosa). Las
unidades ocultas aquí están completamente conectadas de forma recurrente: cada una
envía su salida a las otras dos unidades. Las flechas representan pesos escalares entre
unidades particulares. (B) Red de avance equivalente. Cualquier red neuronal recurrente
puede desplegarse a lo largo del tiempo como una red de avance. Para este fin, las
unidades de la red neuronal recurrente (conjuntos azul, verde, rosa) se replican para
cada paso de tiempo. Las flechas aquí representan matrices de peso entre conjuntos de
unidades en los cuadros de colores. Para que la equivalencia se mantenga, la red de
feedforward debe tener una profundidad que coincida con el número de pasos de tiempo
que la red recurrente debe ejecutar. El despliegue conduce a una representación que es
menos concisa, pero más fácil de entender y, a menudo, útil en implementaciones de
software de redes neuronales recurrentes. El entrenamiento del modelo recurrente por
propagación hacia atrás a través del tiempo es equivalente al entrenamiento del modelo
desplegado por propagación hacia atrás.

Para las tareas que operan en observaciones independientes (por ejemplo, la


clasificación de imágenes fijas), el reciclaje de pesos puede permitir que un
RNN se desempeñe mejor que una red de avance con el mismo número de
parámetros. Sin embargo, los RNN realmente brillan en tareas que operan en
flujos de observaciones dependientes. Debido a que las RNN pueden
mantener un estado interno (memoria) a lo largo del tiempo y producir
dinámicas, se prestan a tareas que requieren el reconocimiento o la generación
de patrones temporales. Estas incluyen la percepción del habla y el video, las
tareas cognitivas que requieren mantener representaciones de los estados
ocultos del agente (como los objetivos) o el entorno (como los objetos
actualmente ocultos), la lingüísticatareas como la traducción de texto de un
idioma a otro, y tareas de control a nivel de planificación y selección de
acciones, así como a nivel de control motor durante la ejecución de una acción
con retroalimentación de los sentidos.

Las redes neuronales profundas proporcionan modelos de procesos


abstractos de redes neuronales biológicas

Los modelos cognitivos capturan aspectos del procesamiento de información


cerebral, pero no hablan de su implementación biológica. Los modelos
biológicosdetallados pueden capturar la dinámica de los potenciales de acción
y la dinámica espaciotemporal de la propagación de señales en dendritas y
axones. Sin embargo, solo han tenido un éxito limitado en la explicación de
cómo estos procesos contribuyen a la cognición. Los modelos de redes
neuronales profundas, como se discutió aquí, logran un equilibrio, explicando
las proezas de percepción, cognición y control motor en términos de redes de
unidades que son altamente abstractas, pero que podrían implementarse con
neuronas biológicas.
Para los ingenieros, las redes neuronales profundas artificiales son una
poderosa herramienta de aprendizaje automático. Para los neurocientíficos,
estos modelos ofrecen una manera de especificar hipótesis mecanicistas sobre
cómo las funciones cognitivas pueden ser llevadas a cabo por los
cerebros. Las redes neuronales profundas proporcionan un lenguaje poderoso
para expresar funciones de procesamiento de información. En ciertos
dominios, ya alcanzan o superan el rendimiento a nivel humano (por ejemplo,
el reconocimiento visual de objetos y los juegos de mesa) a la vez que se
basan exclusivamente en operaciones que son biológicamente plausibles.
Los modelos de redes neuronales en ingeniería se han inspirado en los
cerebros, mucho más allá de la noción general de que los cálculos involucran
una red de unidades, cada una de las cuales combina de forma no lineal
múltiples entradas para calcular una sola salida. Por ejemplo, las redes
neuronales convolucionales, la tecnología dominante en la visión por
computadora, utilizan una jerarquía profunda de capas retinotópicas cuyas
unidades tienen campos receptivos restringidos. Las redes son
convolucionales, ya que las plantillas de peso se comparten automáticamente
en las ubicaciones de la imagen (lo que hace que el cálculo de las
preactivaciones de un mapa de características sea equivalente a una
convolución de la entrada con la plantilla de peso). Aunque el aspecto
convolucional puede no captar una característica innata del sistema visual
de primates , representa una idealización del producto final del desarrollo y
aprendizaje en primates, donde se extraen características cualitativamente
similares en todos los mapas retinotópicos en las primeras etapas del
procesamiento. A través de las capas, estas redes transforman una
representación visuoespacial de la imagen en una representación semántica de
sus contenidos, reduciendo sucesivamente el detalle espacial de los mapas y
aumentando el número de dimensiones semánticas ( Figura 4).

1. Descargar imagen de alta resolución (295KB)


2. Descargar imagen a tamaño completo
Figura 4 . Redes neuronales de alimentación avanzada convolucional profunda .
La estructura general de Alexnet, una arquitectura de red neuronal profunda
convolucional que desempeñó un papel fundamental en la atención de las redes
neuronales profundas. A diferencia de la visualización en el informe original sobre este
modelo, aquí las dimensiones de los tensores se dibujan a escala, por lo que es más fácil
apreciar cómo la red neuronal profunda convolucional transforma gradualmente la
imagen de entrada de una representación espacial a una semántica. Por simplicidad, no
visualizamos las operaciones de agrupación, así como la división de algunas de estas
capas entre dos GPU. El cuadro de la izquierda es la imagen de entrada (un tensor de las
dimensiones 227 × 227 × 3, donde 227 es la longitud de los bordes cuadrados de la
imagen de entrada y tres es el número de componentes de color). Se transforma por
convolución en la primera capa (segunda casilla desde la izquierda), un tensor con
dimensiones espaciales más pequeñas (55x55) pero con un mayor número de mapas de
características (96). Cada mapa de características en este tensor es producido por una
convolución de la imagen original con un filtro particular de 11 × 11 × 3. Por lo tanto, la
preactivación de cada unidad en esta capa es una combinación lineal de un campo
receptivo rectangular en la imagen. Los límites de dicho campo receptivo se visualizan
como una pequeña caja dentro del tensor de imagen. En la segunda capa siguiente, la
representación es aún más espacialmente más pequeña (27 × 27) pero más rica con
respecto al número de mapas de características (256). Tenga en cuenta que de aquí en
adelante, cada entidad no es una combinación lineal de píxeles, sino una combinación
lineal de las características de la capa anterior. La sexta capa (vea el pequeño recuadro
de información general en la parte superior derecha) combina todos los mapas de
características y ubicaciones de la quinta capa para producir 4096 unidades escalares
diferentes, cada una con su propio vector de pesos de entrada sin restricciones. La
octava capa final tiene 1000 unidades, una para cada clase de salida. Las ocho imágenes
en la parte inferior se produjeron modificando gradualmente las imágenes de ruido
aleatorio, de modo que se excitan unidades particulares en cada una de las ocho
capas. La imagen de la derecha se optimizó para activar la neurona de salida relacionada
con la clase 'Mezquita'. Es importante destacar que estas son solo soluciones locales
para el problema de activación-maximización. Se pueden producir imágenes alternativas
que maximizan la activación utilizando diferentes condiciones de inicio u
optimización. Las ocho imágenes en la parte inferior se produjeron modificando
gradualmente las imágenes de ruido aleatorio, de modo que se excitan unidades
particulares en cada una de las ocho capas. La imagen de la derecha se optimizó para
activar la neurona de salida relacionada con la clase 'Mezquita'. Es importante destacar
que estas son solo soluciones locales para el problema de activación-maximización. Se
pueden producir imágenes alternativas que maximizan la activación utilizando
diferentes condiciones de inicio u optimización. Las ocho imágenes en la parte inferior
se produjeron modificando gradualmente las imágenes de ruido aleatorio, de modo que
se excitan unidades particulares en cada una de las ocho capas. La imagen de la derecha
se optimizó para activar la neurona de salida relacionada con la clase 'Mezquita'. Es
importante destacar que estas son solo soluciones locales para el problema de
activación-maximización. Se pueden producir imágenes alternativas que maximizan la
activación utilizando diferentes condiciones de inicio u optimización.heurísticas .

El hecho de que un modelo de red neuronal esté inspirado en algunas


características abstractas de la biología y que se corresponda con el
rendimiento humano o animal en general en una tarea no lo convierte en un
buen modelo de cómo el cerebro humano o animal realiza la tarea. Sin
embargo, podemos comparar modelos de redes neuronales con cerebros en
términos de patrones de comportamiento detallados, como errores y tiempos
de reacción para estímulos particulares. Además, podemos comparar las
representaciones internas de las redes neuronales con las de los cerebros.
En el enfoque de "caja blanca", evaluamos un modelo al observar sus
representaciones internas. Los modelos de redes neuronales forman la base
para predecir representaciones en diferentes regiones del cerebro para un
conjunto particular de estímulos. Un enfoque se llama modelos de
codificación . En los modelos de codificación, el patrón de actividad cerebral
en alguna región funcional se predice utilizando una transformación lineal de
la representación en alguna capa del modelo. En otro enfoque,
llamado análisis de similitud representacional , cada representación en
cerebro y modelo se caracteriza por una matriz de disimilitud
representacional. Los modelos se evalúan de acuerdo con su capacidad para
explicar las diferencias de representación a través de pares de estímulos. Un
tercer enfoque es el modelado de componentes de patrones., donde las
representaciones se caracterizan por el segundo momento de los perfiles de
actividad.
Los resultados recientes del dominio del reconocimiento visual de objetos
indican que las redes neuronales convolucionales profundas son el mejor
modelo disponible de cómo el cerebro de los primates logra un rápido
reconocimiento de un vistazo, aunque no explica toda la varianza explicable
de las respuestas neuronales.
En el enfoque de "caja negra", evaluamos un modelo sobre la base de su
comportamiento. Podemos rechazar modelos por no explicar patrones de
comportamiento detallados. Esto ya ha ayudado a revelar algunas limitaciones
de las redes neuronales convolucionales, que parecen comportarse de manera
diferente a los humanos en condiciones ruidosas y mostrar diferentes patrones
de fallas entre los ejemplares.
Las redes neuronales profundas cierran la brecha entre la neurobiología y la
función cognitiva, proporcionando un marco emocionante para modelar el
procesamiento de información cerebral. Las teorías de cómo se computa el
cerebro ahora pueden someterse a pruebas rigurosas mediante
simulación. Nuestras teorías, y los modelos que las implementan,
evolucionarán a medida que aprendamos a explicar las ricas mediciones de la
actividad cerebral y el comportamiento proporcionado por las tecnologías
modernas en animales y humanos.

También podría gustarte