Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Actas
El zoológico de redes neuronales †
Stefan Leijnen 1,2,* y Fjodor van Veen 1
1 Instituto Asimov, 3526 KS Utrecht, Países Bajos; fjodor@asimovinstitute.org 2 Grupo de
Investigación de Inteligencia Artificial, Universidad de Ciencias Aplicadas de Utrecht,
3584 CS Utrecht, Países Bajos *
Correspondencia: stefan@asimovinstitute.org †
Conferencia de Estudios de Información Teórica (TIS), Berkeley, CA, EE. UU., 2–6 de junio 2019.
Publicado: 12 mayo 2020
Resumen: Se presenta una descripción general de las arquitecturas de redes neuronales. Algunas de estas
arquitecturas se han creado en los últimos años, mientras que otras tienen su origen en muchas décadas atrás.
Además de proporcionar una herramienta práctica para comparar modelos de aprendizaje profundo, Neural Network
Zoo también descubre una taxonomía de arquitecturas de red, su cronología y rastrea linajes e inspiraciones para
estos sistemas de procesamiento de información neuronal.
Palabras clave: inteligencia artificial; conexionismo; procesamiento de información neuronal; Redes neuronales;
aprendizaje profundo; arquitecturas de redes neuronales
1. Introducción
La última década ha sido testigo de un aumento espectacular del interés en la inteligencia artificial, impulsado
por la disponibilidad de grandes volúmenes de datos para el aprendizaje automático, la disminución de los costos de
almacenamiento de datos y unidades de procesamiento de gráficos, y una infraestructura técnica y comercial que
permite la mercantilización de aplicaciones inteligentes. . El aprendizaje profundo, una rama particular de la inteligencia
artificial que involucra el aprendizaje automático utilizando modelos de redes neuronales de múltiples capas,
generalmente se considera una tecnología clave para el reciente éxito de la inteligencia artificial. Para obtener
información sobre las interdependencias entre estos modelos de redes neuronales y para apoyar el descubrimiento de
nuevos tipos, decidimos crear una taxonomía de redes neuronales, descubriendo algunas de las inspiraciones y linajes
subyacentes de las arquitecturas de red. Este esfuerzo ha dado como resultado el zoológico de redes neuronales, que
se muestra en la Figura 1. Para cada uno de los modelos representados, escribimos una breve descripción que incluye
una referencia a la publicación original.
2. Arquitecturas de redes neuronales
2.1. Redes neuronales de avance
Las redes neuronales feedforward, incluidos los perceptrones [1] y las redes de función de base radial [2],
transforman los patrones de entrada a salida. Son la red neuronal arquetípica, que tiene capas que consisten en nodos
de entrada, ocultos o de salida. Los nodos están conectados entre capas adyacentes, que pueden estar completamente
conectadas (cada neurona de una capa a cada neurona en otra capa). La red mínima tiene dos celdas de entrada y
una celda de salida que se pueden usar para modelar puertas lógicas, por ejemplo.
La retropropagación es un algoritmo de aprendizaje común en el que se muestra la entrada de pares de la red y la
salida esperada, y la fuerza de las conexiones entre los nodos se actualiza en función del éxito del modelo en la
predicción. Teóricamente, dadas infinitas neuronas en una sola capa oculta no lineal, se puede aprender cualquier
relación entre los patrones de entrada y salida. Sin embargo, tener múltiples capas ocultas (creando así una red
profunda) puede, en la práctica, conducir a un proceso de aprendizaje más eficiente.
Actas 2020, 47, 9; doi:10.3390/procedimientos2020047009 www.mdpi.com/journal/proceedings
Machine Translated by Google
Actas 2020, 47, 9 2 de 6
Figura 1. Una descripción general de las arquitecturas de redes neuronales [3].
2.2. Redes neuronales recurrentes
Las redes recurrentes son redes feedforward con conexiones dentro de las capas. Por lo tanto, no son apátridas y el
momento y el orden en que se estructura la entrada son importantes. Esto permite que las redes recurrentes encuentren
una estructura en el tiempo [4]. También se pueden usar con modalidades de datos que son independientes del tiempo,
como imágenes, representándolas como una secuencia (por ejemplo, de píxeles). El entrenamiento de estas redes puede
generar gradientes que se desvanecen (o explotan), donde, según las funciones de activación utilizadas, la información se
pierde (o se amplifica) con el tiempo, de manera similar a cómo las redes feedforward muy profundas pueden perder
información en profundidad.
2.3. Memoria a corto plazo largo
Los LSTM [5] proporcionan una resolución para los problemas de gradientes de explosión y desaparición mediante la
introducción de puertas y celdas de memoria explícitamente definidas. Cada nodo tiene una celda de memoria y tres puertas:
Machine Translated by Google
Actas 2020, 47, 9 3 de 6
Entrada, salida y olvido. La función de estas puertas es proteger la pérdida de información deteniendo o permitiendo que fluya.
La puerta de entrada determina la cantidad de información de la capa anterior que se almacena en la celda. La puerta de salida
determina lo que la siguiente capa llega a saber sobre el estado de esta celda. La puerta de olvido evita que se ignore la nueva
información. Las unidades recurrentes cerradas [6] son LSTM con un conjunto diferente de puertas, lo que las hace más
rápidas pero menos expresivas.
2.4. Codificadores automáticos
Los codificadores automáticos [7] comprimen (codifican) y regeneran (decodifican) la información transformándola a
través de una capa oculta más pequeña con capas circundantes simétricas. La similitud entre la entrada y la salida se puede
utilizar como medida del éxito de la compresión. Los codificadores automáticos variacionales [8] comparten una arquitectura
similar, pero en cambio, aprenden una distribución de probabilidad aproximada de los patrones de entrada basados en la
inferencia bayesiana y el modelado de relaciones causales. Los codificadores automáticos de eliminación de ruido [9] son otro
tipo más de codificador automático, donde los datos de entrada se procesan a través de un filtro de ruido aleatorio (por ejemplo,
haciendo que una imagen sea granulada). La salida todavía se compara con la imagen de entrada original, por lo que la red
aprende a ignorar algunas de las características detalladas que no son causalmente relevantes. Finalmente, los codificadores
automáticos dispersos [10] hacen mucho de lo contrario, ya que proyectan información a una capa oculta más grande, en lugar
de más pequeña. Esto permite que la red se centre en características más pequeñas al comprimir y reconstruir los datos de
entrada. Para evitar que la información se copie perfectamente entre capas, se utiliza un filtro para el error que se propaga
hacia atrás.
2.5. Redes de Hopfield y máquinas de Boltzmann
En las redes de Hopfield [11], cada neurona está conectada a todas las demás neuronas, y todas las neuronas son nodos
de entrada y salida. Las máquinas de Boltzmann (restringidas) [12,13] son similares en la medida en que solo algunas neuronas
son neuronas de entrada, mientras que otras están ocultas. Las máquinas de Boltzmann restringidas no tienen una conectividad
total entre las neuronas, lo que las hace típicamente más eficientes para el aprendizaje, particularmente cuando se apilan una
encima de la otra en la llamada red de creencias profundas [14]. Las máquinas Hopfield Networks y Boltzmann se entrenan
sujetando el valor de las neuronas de entrada al patrón deseado, después de lo cual se aprenden los pesos. Una vez entrenada,
la red convergerá a uno de los patrones aprendidos y permanecerá estable en uno de estos estados de atracción, en parte
debido a que la energía total en la red se reduce gradualmente durante el entrenamiento, similar al modelo Ising. Estos tipos
de red también se denominan memorias asociativas porque convergen al estado más similar en comparación con su entrada.
Las cadenas de Markov [15], aunque no son arquitecturas de redes neuronales en sí mismas, también se incluyen en esta
descripción general, ya que pueden considerarse predecesoras.
2.6. Redes Convolucionales
Las redes convolucionales [16] son arquitecturas de aprendizaje profundo que normalmente contienen capas
convolucionales y de agrupación, que se utilizan para el escaneo aproximado de patrones que a menudo están espacialmente
correlacionados. Como tales, son útiles para el procesamiento de imágenes, pero también se pueden aplicar a otras modalidades de datos.
Las capas deconvolucionales [17] producen los resultados inversos y, por lo tanto, pueden utilizarse para la generación de
imágenes. Las redes gráficas inversas convolucionales profundas [18] son otro tipo más que se puede utilizar para generar
(parcialmente) imágenes, siendo similares a los codificadores automáticos variacionales pero equipados con nodos
convolucionales para las capas de codificación y decodificación.
2.7. Redes adversarias generativas
Las redes antagónicas generativas [19] o GAN en realidad consisten en dos redes, una encargada de generar datos (el
generador), la otra de predecir si los datos se han generado o no (el discriminador). El éxito predictivo del discriminador se
utiliza como gradiente de error para el generador. Esta configuración tiene como objetivo que el discriminador mejore su
capacidad para distinguir los datos reales de los datos generados, mientras que el generador aprende a volverse menos
predecible. Esta interacción dinámica puede verse como una especie de prueba de Turing o un correlato neuronal del algoritmo
Minimax. El aprendizaje
Machine Translated by Google
Actas 2020, 47, 9 4 de 6
El proceso es relativamente difícil de equilibrar ya que no convergerá cuando el generador o el discriminador tengan demasiado
éxito en su tarea respectiva.
2.8. Máquinas de estado líquido y máquinas de estado de eco
Las máquinas de estado líquido [20] no están organizadas en capas ordenadas, sino que las conexiones se dibujan
aleatoriamente entre neuronas con funciones de umbral que permiten la acumulación de actividad a lo largo del tiempo, creando
patrones de actividad en picos. En consecuencia, en lugar de utilizar la retropropagación, las neuronas de entrada se activan y
las señales de actividad se propagan hacia delante a través de las neuronas ocultas. La propia propagación resultante de las
señales se utiliza para el aprendizaje por una red de observadores separada que produce la salida. Las máquinas de estado de
eco [21] reemplazan estas neuronas puntiagudas con las neuronas de activación sigmoidea regulares. Extreme Learning
Machines [22] son similares pero no tienen conexiones recurrentes, lo que les permite entrenarse rápidamente utilizando un
algoritmo de aprendizaje basado en el ajuste de mínimos cuadrados.
2.9. Redes residuales profundas
Otro ejemplo de una arquitectura de red que carece de capas estructuradas son las redes residuales profundas [23], redes
feedforward donde las conexiones pueden pasar cualquier número de capas ocultas. Esto las hace similares a las redes
neuronales recurrentes pero sin la estructura de preservación del tiempo.
2.10. Máquinas neuronales de Turing y computadoras neuronales diferenciables
Las máquinas neuronales de Turing [24] pueden entenderse como una abstracción de las LSTM y un intento de hacer que
las redes neuronales sean más explicables. En lugar de codificar una celda de memoria en una neurona, la memoria se separa
como una memoria de contenido direccionable donde la red neuronal puede escribir y leer, lo que los completa. Las computadoras
neuronales diferenciables [25] son una abstracción adicional, con memorias escalables. También cuentan con tres mecanismos
de atención que permiten a la red consultar la similitud de la entrada con las entradas de la memoria, la relación temporal entre
dos entradas de la memoria y si una entrada de la memoria se actualizó recientemente.
2.11. Redes de Alerta
Las redes de atención [26] representan una clase de redes más que una arquitectura particular. Emplean un mecanismo
de atención para evitar que la información desaparezca almacenando por separado estados de red anteriores y cambiando la
atención entre los estados. Este contexto se puede visualizar, proporcionando información interesante sobre las correlaciones
entre las características de entrada y las predicciones.
2.12. Redes Kohonen
Las redes de Kohonen [27], o mapas autoorganizados, utilizan el aprendizaje competitivo para clasificar los datos de
entrada sin conocer el resultado esperado, utilizando una función objetiva estética para una clasificación exitosa. Después de
presentar un patrón de entrada, la red evalúa cuál de sus nodos coincide más con esta entrada y luego los ajusta junto con sus
nodos vecinos para mejorar aún más la coincidencia.
2.13. Redes de cápsulas
Las redes de cápsulas [28] proporcionan una alternativa biológicamente plausible a las capas de agrupación. Las neuronas
están conectadas con un vector de peso en lugar de un valor escalar. Esto permite que las neuronas transfieran simultáneamente
múltiples tipos de información, por ejemplo, no solo qué característica se detecta sino también dónde se detecta en una imagen
y cuál es su color y orientación. Los algoritmos de aprendizaje también están biológicamente inspirados en el aprendizaje de
Hebbian que otorga valor a las predicciones precisas de salida en la siguiente capa.
Machine Translated by Google
Actas 2020, 47, 9 5 de 6
3 Conclusiones
Consideradas cronológicamente, las arquitecturas de red presentadas en este documento generalmente crecen en
complejidad, tanto en términos de cantidad de capas como de tipos de neuronas involucradas. Especulamos que esta tendencia
es causada por el campo de los sistemas de procesamiento de información neuronal cada vez más aceptado por la comunidad
de ingenieros, lo que lleva a un énfasis continuo en la aplicabilidad práctica sobre la inspiración biológica y la plausibilidad. El
tiempo dirá si esta tendencia ha llegado para quedarse.
Esta descripción general de las redes neuronales tiene como objetivo proporcionar una lista de los métodos más populares
utilizados en el aprendizaje profundo, pero está lejos de ser completa. Además, surgirán nuevos modelos. Mientras lo hacen,
daremos la bienvenida a estas extrañas bestias al zoológico de redes neuronales.
Referencias
1. Rosenblatt, F. El perceptrón: un modelo probabilístico para el almacenamiento y la organización de la información en el cerebro.
psicol. Rdo. 1958, 65, 386.
2. Escoba, DS; Lowe, D. Funciones de base radial, interpolación funcional multivariable y redes adaptativas; CSRMEMO4148; Royal Signals
and Radar Establishment Malvern: Farnborough, Reino Unido, 1988.
3. El zoológico de redes neuronales. Disponible en línea: http://www.asimovinstitute.org/neuralnetworkzoo (consultado
el 10 de abril de 2020).
4. Elman, JL Encontrar estructura en el tiempo. cogn. Ciencia. 1990, 14, 179–211.
5. Hochreiter, S.; Schmidhuber, J. Memoria larga a corto plazo. Computación neuronal. 1997, 9, 1735–1780.
6. Chung, J.; Gulcehre, C.; Cho, K.; Bengio, Y. Evaluación empírica de redes neuronales recurrentes cerradas en
modelado de secuencias. arXiv 2014, arXiv:1412.3555.
7. Bourlard, H.; Kamp, Y. Autoasociación por perceptrones multicapa y descomposición de valores singulares.
Biol. cibernético 1988, 59, 291–294.
8. Kingma, DP; Welling, M. Bayes variacional de codificación automática. arXiv 2013, arXiv:1312.6114.
9. Vicente, P.; Larochelle, H.; Bengio, Y.; Manzagol, PA Extracción y composición de características robustas con codificadores automáticos de
eliminación de ruido. En Actas de la 25.ª Conferencia Internacional de Aprendizaje Automático, Helsinki, Finlandia, 5 a 9 de julio de 2008.
10. Ranzato, MA; Poultney, C.; Chopra, S.; Cun, YL Aprendizaje eficiente de representaciones dispersas con un modelo basado en energía. En
Proceedings of the NIPS, Vancouver, BC, Canadá, 3 a 6 de diciembre de 2007.
11. Hopfield, JJ Redes neuronales y sistemas físicos con habilidades computacionales colectivas emergentes.
proceso nacional Academia Ciencia. EE. UU. 1982, 79, 2554–2558.
12. Hinton, GE; Sejnowski, TJ Aprendizaje y reaprendizaje en máquinas de Boltzmann. Distribución paralela Proceso.
Explorar microestructura cogn. 1986.1, 282317.
13. Smolensky, P. Procesamiento de información en sistemas dinámicos: fundamentos de la teoría de la armonía; Nº CUCS321
86; Universidad de Colorado en el Departamento de Informática de Boulder: Boulder, CO, EE. UU., 1986.
14. Bengio, Y.; Lamblin, P.; Popovici, D.; Larochelle, H. Entrenamiento codicioso por capas de redes profundas.
Adv. Información neuronal Proceso. Sistema 2007, 19, 153.
15. Hayes, B. Primeros eslabones de la cadena de Markov. Am.Sci. 2013, 101, 252.
16. Le Cun, Y.; Bottou, L.; Bengio, Y.; Haffner, P. Aprendizaje basado en gradientes aplicado al reconocimiento de documentos.
proceso IEEE 1998, 86, 2278–2324.
17. Zeiler, MD; Krishnan, D.; Taylor, GW; Fergus, R. Redes desconvolucionales. En Actas de la Conferencia de la IEEE Computer Society de
2010 sobre visión por computadora y reconocimiento de patrones, San Francisco, CA, EE. UU., 13 al 15 de junio de 2010.
18. Kulkarni, TD; Whitney, WF; Kohli, P.; Tenenbaum, J. Red de gráficos inversos convolucionales profundos.
En Proceedings of the Advances in Neural Information Processing Systems, Montreal, QC, Canadá, 7–12 de diciembre de 2015.
19. Goodfellow, I.; PougetAbadie, J.; Mirza, M.; Xu, B.; WardeFarley, D.; Ozair, S.; Courville, A.; Bengio, Y.
Redes generativas adversarias. En Proceedings of the Advances in Neural Information Processing Systems, Montreal, QC, Canadá, 7–12
de diciembre de 2014.
20. Maas, W.; Natschlager, T.; Markram, H. Computación en tiempo real sin estados estables: un nuevo marco para la computación neuronal
basada en perturbaciones. Computación neuronal. 2002, 14, 2531–2560.
21. Jaeger, H.; Haas. H. Aprovechamiento de la no linealidad: predicción de sistemas caóticos y ahorro de energía en redes inalámbricas
comunicación. Ciencia 2004, 304, 78–80.
Machine Translated by Google
Actas 2020, 47, 9 6 de 6
22. Huang, Reino Unido; Zhu, QY; Siew, CK Máquina de aprendizaje extremo: Teoría y aplicaciones. neurocomputación
2006, 70, 489–501.
23. Él, K.; Zhang, X.; Ren, S.; Sun, J. Aprendizaje residual profundo para el reconocimiento de imágenes. arXiv 2015, arXiv:1512.03385.
24. Tumbas, A.; Wayne, G.; Danihelke, I. Máquinas neuralturizantes. arXiv 2014, arXiv:1410.5401.
25. Tumbas, A.; Wayne, G.; Reynolds, M.; Harley, T.; Danihelka, I.; GrabskaBarwinska, A.; Colmenarejo, SG; Grefenstette, E.; Ramalho,
T.; Agapiou, J. Computación híbrida utilizando una red neuronal con memoria externa dinámica. Naturaleza 2016, 538, 471–476.
26. Jaderberg, M.; Simonian, K.; Zisserman, A. Red de Transformadores Espaciales. En Proceedings of the Advances in Neural
Information Processing Systems, Montreal, QC, Canadá, 7–12 de diciembre de 2015; páginas 2017–2025.
27. Kohonen, T. Formación autoorganizada de mapas de características topológicamente correctos. Biol. cibernético 1982, 43, 59–69.
28. Sabor, S.; escarcha, N.; Hinton, GE Enrutamiento dinámico entre cápsulas. En Proceedings of the Advances in Neural Information
Processing Systems, Long Beach, CA, EE. UU., 4 a 9 de diciembre de 2017; páginas 3856–3866.
© 2020 por los autores. Licenciatario MDPI, Basilea, Suiza. Este artículo es un artículo de acceso abierto
distribuido bajo los términos y condiciones de Creative Commons Attribution
(CC BY) licencia (http://creativecommons.org/licenses/by/4.0/).