Está en la página 1de 33

Machine Translated by Google

Redes neuronales 61 (2015) 85­117

Listas de contenidos disponibles en ScienceDirect

Redes neuronales
página de inicio de la revista: www.elsevier.com/locate/neunet

Revisar

Aprendizaje profundo en redes neuronales: una descripción general

Jürgen Schmidhuber
The Swiss AI Lab IDSIA, Istituto Dalle Molle di Studi sull'Intelligenza Artificiale, Universidad de Lugano y SUPSI, Galleria 2, 6928 Manno­Lugano, Suiza

información del artículo abstracto

Historia del artículo:


En los últimos años, las redes neuronales artificiales profundas (incluidas las recurrentes) han ganado numerosos concursos en
Recibido el 2 de mayo de 2014
reconocimiento de patrones y aprendizaje automático. Este estudio histórico resume de forma compacta trabajos relevantes, muchos
Recibido en forma revisada el 12 de septiembre de 2014
de ellos del milenio anterior. Los estudiantes superficiales y profundos se distinguen por la profundidad de sus rutas de asignación de

Aceptado el 14 de septiembre de 2014


créditos, que son cadenas de vínculos causales posiblemente aprendibles entre acciones y efectos. Reviso el aprendizaje supervisado
Disponible en línea el 13 de octubre de 2014 profundo (también recapitulando la historia de la retropropagación), el aprendizaje no supervisado, el aprendizaje por refuerzo y la
computación evolutiva, y la búsqueda indirecta de programas cortos que codifiquen redes grandes y profundas.
Palabras clave:
Aprendizaje profundo © 2014 Publicado por Elsevier Ltd.
Aprendizaje supervisado
Aprendizaje sin supervisión
Aprendizaje reforzado
Computación evolutiva

Contenido

1. Introducción al aprendizaje profundo (DL) en redes neuronales (NN)................................. ................................................. ........................................ 86 2. Evento­ notación orientada para la
dispersión de activación en NN 87 3. Profundidad de las rutas de asignación de.................................................
crédito (CAP) y de los problemas ................................................. .......................................................................................... .......
................................. .................................................
88 4. Temas recurrentes del aprendizaje profundo.................... ................................................. ................................................. ........................................ 88 4.1. Programación dinámica para
aprendizaje supervisado/por refuerzo (SL/RL).................... ................................................. ................ 88 4.2. Aprendizaje no supervisado (UL) que facilita SL y RL 89 4.3. Aprendizaje de
representaciones jerárquicas a través de SL, UL, RL profundo 89 4.4. Navaja de Occam: compresión y longitud mínima de descripción
(MDL).................................. ................................................. ................. 89.................................................
4.5. Unidades de procesamiento .................................................
de gráficos rápidos (GPU) para ........................................
DL en
.................................................
NN ......................................... ................................................. ................................................. 89 5. NN supervisadas , algunos .................................................
ayudados por NN no .................
supervisados.................................... ................................................. ................................................. ... 89 5.1. Los primeros NN desde los años 1940 (y
1800)................................. ................................................. ................................................. .......... 90 5.2. Alrededor de 1960: la corteza visual proporciona inspiración para la DL (Secciones
5.4, 5.11) .................... ................................................. .......... 90 5.3. 1965: redes profundas basadas en el método grupal de manejo de datos.................... ................................................. ...................
90 5.4. 1979: convolución + replicación de peso + submuestreo (Neocognitron).................................. ................................................. ............ 90 5.5. 1960­1981 y más allá: desarrollo de
la retropropagación (BP) para NN 90 5.5.1. BP para NN feedforward (FNN) y NN recurrentes (RNN) de reparto de peso................... ................................................ 91 91 5.6.1. Ideas para
hacer frente a retrasos prolongados y CAP profundos.................... ................................................. ........................ 91 5.6.2. Mejor PA a través del descenso de gradiente avanzado
(compárese con la Sección 5.24).................... ................................................. 92 5.6.3. Búsqueda de NN simples, de baja complejidad y que resuelvan problemas (Sección
5.24).... ................................................ 92 5.6. 4. Beneficios potenciales de UL para SL (compárese las .................................................
Secciones 5.7, 5.10, 5.15)..................................................................... .
................................................. ................
92 5.7. 1987: UL a través de jerarquías de Autoencoder (AE) (compárese con la Sección 5.15).................... ................................................. ................. 93 5.8. 1989: BP para NN
5.6. Finales de la década de 1980­2000 y años posteriores: numerosas mejoras de las NN ................................................. ................................................. ..............
convolucionales (CNN, Sección 5.4)................................. ................................................. ................................................ 93 5.9. 1991: Problema fundamental de aprendizaje
profundo del descenso de gradiente 93 5.10. 1991: Compresión del historial basada en UL a través de una pila profunda de RNN................... ................................................. ........................
94 5.11. 1992: Max­Pooling (MP): hacia MPCNN (compárese con las Secciones 5.16, 5.19) ................. ................................................. ................. 94

................................................. ................................................. ..............

Dirección de correo electrónico: juergen@idsia.ch.

http://dx.doi.org/10.1016/j.neunet.2014.09.003 0893­6080/© 2014


Publicado por Elsevier Ltd.
Machine Translated by Google

86 J. Schmidhuber / Redes neuronales 61 (2015) 85–117

5.12. 1994: primeros NN ganadores del concurso................................. ................................................. ................................................. ........................ 95


5.13. 1995: Aprendizaje muy profundo recurrente supervisado (LSTM RNN).................... ................................................. ................................ 95
5.14. 2003: más NN ganadoras de concursos/que establecen récords; NN profundas exitosas .................................. ................................................. ... 96
5.15. 2006/7: UL para redes de creencias profundas/pilas AE ajustadas por BP 96 ................................................. ................................................. ..............
5.16. 2006/7: CNN/GPU­CNN/BP mejorados para pilas MPCNN/LSTM 96 ................................................. ................................................. ............
5.17. 2009: primeras competencias oficiales ganadas por RNN y con MPCNN ................................. ................................................. ........................ 97
5.18. 2010: backprop simple (+ distorsiones) en GPU bate el récord MNIST 97 ................................................. ................................................. .........
5.19. 2011: Los MPCNN en GPU logran un rendimiento de visión sobrehumano ......................... ................................................. ................. 97
5.20. 2011: optimización sin arpillera para RNN 98 ................................................. ................................................. .................................................
5.21. 2012: primeros concursos ganados en ImageNet, detección de objetos, segmentación....................... ................................................. ................ 98
5.22. 2013­: más concursos y récords de referencia 98 ................................................. ................................................. ................................................
5.23. Técnicas exitosas actualmente: LSTM RNN y GPU­MPCNN 99 ................................................. ................................................. ..............
5.24. Trucos recientes para mejorar los NN profundos de SL (compare las Secciones 5.6.2, 5.6.3)................................. ................................................. ................... 99
5.25. Consecuencias para la neurociencia................................................ ................................................. ................................................. ................. 100
5.26. ¿DL con neuronas en aumento? ................................................. ................................................. ................................................. ................................ 100
6. DL en FNN y RNN para aprendizaje por refuerzo (RL) ......................... ................................................. ................................................. ..... 100
6.1. Los modelos mundiales de RL a NN producen RNN con CAP profundos 100 ................................................. ................................................. .........................
6.2. FNN profundos para procesos de decisión (MDP) tradicionales de RL y Markov................... ................................................. ................. 101
6.3. RNN de RL profundas para MDP parcialmente observables (POMDP)................... ................................................. ........................................ 101
6.4. RL facilitada por UL profunda en FNN y RNN ......................................... ................................................. ................................................. ...... 102
6.5. RL jerárquico profundo (HRL) y aprendizaje de subobjetivos con FNN y RNN.................................. ................................................. ................. 102
6.6. RL profunda mediante búsqueda directa de NN/gradientes de políticas/evolución ......................... ................................................. ........................................ 102
6.7. RL profundo mediante búsqueda de políticas indirectas/búsqueda NN comprimida .................................................
103 ................................................. .........................
6.8. RL universal ................................................. ................................................. ................................................. ................................................. .. 103
7. Conclusión y perspectivas ................................................. ................................................. ................................................. ......................................... 103
Agradecimientos ................................................ ................................................. ................................................. ................................................. .. 104
Referencias................................................. ................................................. ................................................. ................................................. ................ 104

Prefacio pesos que hacen que el NN muestre el comportamiento deseado , como conducir
un coche. Dependiendo del problema y de cómo están conectadas las neuronas, tal
Esta es la preimpresión de una descripción general invitada del aprendizaje profundo (DL). comportamiento puede requerir largas cadenas causales de etapas computacionales
Uno de sus objetivos es asignar crédito a quienes contribuyeron a la (Sección 3), donde cada etapa se transforma (a menudo en
estado actual del arte. Reconozco las limitaciones de intentar lograr este objetivo. La propia de forma no lineal) la activación agregada de la red. Profundo
comunidad de investigación de DL puede estar Aprender consiste en asignar créditos con precisión a través de muchos de estos
visto como una red profunda y en continua evolución de científicos que etapas.
se han influenciado mutuamente de maneras complejas. A partir de reciente Han existido modelos superficiales similares a NN con pocas etapas de este tipo.
resultados de DL, traté de rastrear los orígenes de ideas relevantes a través durante muchas décadas, si no siglos (Sección 5.1). Los modelos con varias capas sucesivas
el último medio siglo y más allá, a veces utilizando "búsqueda local" de neuronas no lineales se remontan al menos a
seguir citas de citas hacia atrás en el tiempo. ya que no todos los años 1960 (Sección 5.3) y 1970 (Sección 5.5). Un método eficiente de descenso de
Las publicaciones de DL reconocen adecuadamente trabajos relevantes anteriores, se gradientes para el aprendizaje supervisado (SL) basado en profesores

emplearon estrategias de búsqueda global adicionales, con la ayuda de consultoría. en redes discretas y diferenciables de profundidad arbitraria llamada retropropagación (BP),

Numerosos expertos en redes neuronales. Como resultado, la presente preimpresión se desarrolló en las décadas de 1960 y 1970, y se aplicó a las NN en 1981 (Sección 5.5).

consiste principalmente en referencias. Sin embargo, debido a un sesgo de selección de Entrenamiento basado en BP de NN profundas

expertos, es posible que me haya perdido un trabajo importante. Un sesgo relacionado fue Sin embargo, a finales de la década de 1980 se había descubierto que la práctica con

seguramente introducido por mi especial familiaridad con el trabajo de mi muchas capas era difícil en la práctica (Sección 5.6), y se había convertido en una práctica explícita.
tema de investigación a principios de la década de 1990 (Sección 5.9). DL se volvió
propio grupo de investigación de DL en el último cuarto de siglo. Por estas razones, este
prácticamente factible hasta cierto punto gracias a la ayuda de Unsupervised
trabajo debe verse simplemente como una instantánea de un proceso de asignación de
Aprendizaje (UL), por ejemplo, Sección 5.10 (1991), Sección 5.15 (2006). El
créditos en curso. Para ayudar a mejorarlo, por favor no
En las décadas de 1990 y 2000 también se produjeron muchas mejoras en la DL puramente
No dude en enviar correcciones y sugerencias a juergen@idsia.ch.
supervisada (Sección 5). En el nuevo milenio, las NN profundas finalmente han atraído una
atención generalizada, principalmente por su desempeño superior.
1. Introducción al aprendizaje profundo (DL) en redes neuronales (NN)
Métodos alternativos de aprendizaje automático, como máquinas kernel.
(Schölkopf, Burges y Smola, 1998; Vapnik, 1995) en numerosas aplicaciones importantes.
¿Qué componentes modificables de un sistema de aprendizaje son responsables de su
De hecho, desde 2009, las NN profundas supervisadas han
éxito o fracaso? ¿Qué cambios en ellos mejoran el rendimiento? A esto se le ha llamado la Ganó muchos concursos oficiales internacionales de reconocimiento de patrones.
asignación de crédito fundamental. (p. ej., Secciones 5.17, 5.19, 5.21 y 5.22), lograr el primer reconocimiento de patrones
problema (Minsky, 1963). Existen métodos generales de asignación de créditos para visuales sobrehumanos da como resultado dominios limitados (Sección 5.19, 2011). Las NN
solucionadores de problemas universales que son óptimos en el tiempo en varios profundas también se han vuelto relevantes para los más
sentidos teóricos (Sección 6.8). La presente encuesta, sin embargo, campo general del aprendizaje por refuerzo (RL) donde no hay un maestro supervisor
centrarse en el subcampo más limitado, pero ahora comercialmente importante (Sección 6).
del aprendizaje profundo (DL) en redes neuronales artificiales (NN). Tanto NN anticipados (acíclicos) (FNN) como recurrentes (cíclicos)
Una red neuronal (NN) estándar consta de muchos procesadores simples conectados Los NN (RNN) han ganado concursos (Secciones 5.12, 5.14, 5.17, 5.19, 5.21,
llamados neuronas, cada uno de los cuales produce una secuencia de 5.22). En cierto sentido, las RNN son las más profundas de todas las NN (Sección 3):
activaciones de valor real. Las neuronas de entrada se activan a través de sensores que son computadoras generales más potentes que las FNN y, en
perciben el entorno, otras neuronas se activan principio crear y procesar recuerdos de secuencias arbitrarias de
a través de conexiones ponderadas de neuronas previamente activas (detalles en la Sección patrones de entrada (por ejemplo, Schmidhuber, 1990a; Siegelmann & Sontag,
2). Algunas neuronas pueden influir en el medio ambiente. 1991). A diferencia de los métodos tradicionales para la síntesis automática de programas
desencadenando acciones. El aprendizaje o la asignación de créditos se trata de encontrar secuenciales (por ejemplo, Balzer, 1985; Deville & Lau, 1994; Soloway,
Machine Translated by Google

J. Schmidhuber / Redes neuronales 61 (2015) 85–117 87

1986; Waldinger & Lee, 1969), los RNN pueden aprender programas que combinan
Abreviaturas en orden alfabético Procesamiento secuencial y paralelo de información de forma natural y eficiente,
explotando el paralelismo masivo considerado crucial.
EA: codificador automático
AI: para sostener la rápida disminución del costo de computación observada durante
Inteligencia artificial
ANN: Red neuronal artificial los últimos 75 años.

BFGS: Broyden–Fletcher–Goldfarb–Shanno El resto del artículo se estructura de la siguiente manera. La sección 2 presenta
BNN: red neuronal biológica una notación compacta orientada a eventos que es simple pero general.
BM: Máquina Boltzmann suficiente para acomodar tanto FNN como RNN. La sección 3 presenta
PA: Propagación hacia atrás el concepto de Rutas de Asignación de Crédito (CAP) para medir si
BRNN: red neuronal recurrente bidireccional El aprendizaje en una aplicación NN determinada es del tipo profundo o superficial .
GORRA: Ruta de asignación de crédito La Sección 4 enumera temas recurrentes de DL en SL, UL y RL. La sección 5 se centra
CCA: Carrusel de errores constantes
en SL y UL, y en cómo UL puede facilitar SL, aunque puramente
LFC: Lenguaje libre de contexto
SL se ha vuelto dominante en competiciones recientes (Secciones 5.17–
CMA­ES: Estimación de matriz de covarianza ES
5.23). La sección 5 está organizada en un formato de línea de tiempo histórica con
CNN: red neuronal convolucional
subsecciones sobre inspiraciones y contribuciones técnicas importantes.
CoSyNE: Neuroevolución co­sináptica
CSL: La sección 6 sobre RL profunda analiza la programación dinámica tradicional.
Lenguaje sensible al contexto
CTC: Clasificación temporal conexionista RL basado en (DP) combinado con técnicas de búsqueda basadas en gradientes
DBN: Red de Creencias Profundas para SL o UL en NN profundas, así como métodos generales para directo y
DCT: Transformada de coseno discreta Búsqueda indirecta en el espacio de peso de FNN y RNN profundos, incluido el
DL: Aprendizaje profundo gradiente de políticas exitoso y los métodos evolutivos.
PD: Programación dinámica
DS: Búsqueda directa de políticas
2. Notación orientada a eventos para la propagación de activación en NN
EA: Algoritmo evolutivo
EM: Maximización de expectativas
ES: Estrategia de evolución A lo largo de este artículo, denotemos i, j, k, t, p, q,r positivo
FMS: Búsqueda mínima plana variables enteras asumiendo rangos implícitos en los contextos dados.
FNN: Red neuronal de avance Sean n, m, T constantes enteras positivas.
FSA: Autómata de estados finitos La topología de una NN puede cambiar con el tiempo (por ejemplo, Secciones 5.3,
GMDH: Método grupal de manejo de datos 5.6.3). En cualquier momento dado, puede describirse como un subconjunto finito.
GOFAI: buena IA a la antigua usanza de unidades (o nodos o neuronas) N = {u1, u2, . . . ,} y un conjunto finito
Programación genética
Médico de cabecera:

H N × N de aristas dirigidas o conexiones entre nodos. FNN


GPU: Unidad de procesamiento gráfico son gráficos acíclicos, RNN cíclicos. La primera capa (de entrada) es el conjunto.
GPU­MPCNN: MPCNN basado en GPU
de unidades de entrada, un subconjunto de N. En FNN, la k­ésima capa (k > 1) es la
HMM: modelo oculto de Markov
HRL: conjunto de todos los nodos u N tal que haya un camino de borde de longitud
Aprendizaje por refuerzo jerárquico
k − 1 (pero ya no es el camino) entre alguna unidad de entrada y u. Allá
HTM: Memoria temporal jerárquica
HMAX: Modelo Jerárquico ''y X'' pueden ser conexiones de atajo entre capas distantes. En el procesamiento de
LSTM: memoria larga a corto plazo (RNN) secuencia, RNN completamente conectados, todas las unidades tienen conexiones a todos
MDL: Longitud mínima de descripción unidades sin entrada.
MDP: Proceso de decisión de Markov El comportamiento o programa del NN está determinado por un conjunto de
MNIST: Base de datos del Instituto Nacional Mixto de Estándares y Tecnología parámetros o pesos de valor real, posiblemente modificables, wi (i = 1,
. . . , norte). Ahora nos centramos en un único episodio o época finita de procesamiento
diputado: Agrupación máxima de información y difusión de activación, sin aprender a través de ellos.
MPCNN: CNN de agrupación máxima cambios de peso. La siguiente notación ligeramente poco convencional es
NORDESTE:NeuroEvolución
diseñado para describir de forma compacta lo que sucede durante el tiempo de
NEAT: NE de topologías aumentantes
NES: ejecución del sistema.
Estrategias de evolución natural
Durante un episodio, hay una secuencia parcialmente causal xt (t =
NFQ: Q­Learning adaptado a los nervios
NN: Red neuronal 1, . . . , T ) de valores reales que llamo eventos. Cada xt es una entrada establecida
OCR: Reconocimiento óptico de caracteres por el entorno o la activación de una unidad que puede
PCC: Conexión causal potencial dependen directamente de otros xk(k < t)a través de un conjunto actual NN dependiente
PDCC: posible conexión causal directa de la topología int de índices k que representan conexiones o enlaces causales
PM: Minimización de la previsibilidad entrantes. Deje que la función v codifique información de topología
POMDP: MDP parcialmente observable y asignar dichos pares de índices de eventos (k, t) a índices de ponderación. Por
RAAM: Memoria recursiva autoasociativa ejemplo, en el caso sin insumos podemos tener xt = ft(nett) con
RBM: Máquina Boltzmann restringida
valor real neto = k int xkwv(k,t) (caso aditivo) o nett =
ReLU: Unidad lineal rectificada
RL: Aprendizaje reforzado k int xkwv(k,t) (caso multiplicativo), donde ft es una función de activación de valor
RNN: red neuronal recurrente real típicamente no lineal como tanh. En muchos recientes
R­prop: retropropagación resistente NN ganadoras de la competencia (Secciones 5.19, 5.21, 5.22) también hay
SL: Aprendizaje supervisado eventos del tipo xt = maxk int (xk); algunos tipos de red pueden
SLIM NN: red neuronal autodelimitante También utilice funciones de activación polinomiales complejas (Sección 5.3). xt
SOTA: algoritmo de árbol autoorganizado puede afectar directamente a ciertos xk(k > t)a través de conexiones salientes
SVM: máquina de vectores de soporte o enlaces representados a través de un conjunto actual de índices k con
TDNN: red neuronal con retardo de tiempo
t tinta. Algunos de los eventos que no son de entrada se denominan eventos de salida.
TIMIT: TI/SRI/MIT Habla Continua Acústica­Fonética
Tenga en cuenta que muchos de los xt pueden referirse a diferentes, que varían en el tiempo.
Cuerpo
activaciones de la misma unidad en RNN de procesamiento de secuencias (p. ej.,
UL: Aprendizaje sin supervisión
WTA: El ganador se lo lleva todo Williams, 1989 ''unfolding in time''), o también en FNN secuencialmente
expuesto a patrones de entrada que varían en el tiempo de un gran conjunto de entrenamiento
codificados como eventos de entrada. Durante un episodio, el mismo peso
Machine Translated by Google

88 J. Schmidhuber / Redes neuronales 61 (2015) 85–117

puede reutilizarse una y otra vez en formas dependientes de la topología, por ejemplo, en de pesos usados se llama solución al problema, y la profundidad del CAP más profundo
RNN o en NN convolucionales (Secciones 5.4 y 5.8). A esto lo llamo compartir peso a dentro de la secuencia se llama profundidad de la solución.
través del espacio y/o el tiempo. Compartir el peso puede reducir en gran medida la Puede haber otras soluciones (que produzcan diferentes secuencias de eventos) con
complejidad descriptiva de la NN, que es la cantidad de bits de información necesarios diferentes profundidades. Dada una topología NN fija, la profundidad más pequeña de
para describir la NN (Sección 4.4). cualquier solución se denomina profundidad del problema.
A veces también hablamos de la profundidad de una arquitectura: las SL FNN con
En el aprendizaje supervisado (SL), ciertos eventos de salida de NN xt pueden estar topología fija implican una profundidad máxima del problema independiente del problema
asociados con etiquetas u objetivos de valor real dados por el maestro dt , lo que produce limitada por el número de capas que no son de entrada. Ciertos SL RNN con pesos fijos
2.
errores et , por ejemplo, et = 1/2(xt − dt) Un objetivo típico del para todas las conexiones excepto aquellas a unidades de salida (Jaeger, 2001, 2004;
entrenamiento NN supervisado es encontrar pesos que produzcan episodios con un error Maass, Natschläger y Markram, 2002; Schrauwen, Verstraeten y Van Campenhout, 2007)
total pequeño E, la suma de todos esos et . La esperanza es que el NN se generalice tienen una profundidad de problema máxima de 1, porque sólo los enlaces finales en los
bien en episodios posteriores, provocando sólo pequeños errores en secuencias de CAP correspondientes son modificables. Sin embargo, en general, los RNN pueden
eventos de entrada nunca antes vistas. Son posibles muchas funciones de error alternativas
aprender a resolver problemas de profundidad potencialmente ilimitada.
para SL y UL.
SL supone que los eventos de entrada son independientes de los eventos de salida
Tenga en cuenta que las definiciones anteriores se basan únicamente en la profundidad
anteriores (que pueden afectar el medio ambiente a través de acciones que causan
de las cadenas causales y son independientes de la distancia temporal entre eventos. Por
percepciones posteriores). Esta suposición no se cumple en los campos más amplios de
ejemplo, las FNN superficiales que perciben grandes "ventanas de tiempo" de eventos
la toma de decisiones secuencial y el aprendizaje por refuerzo (RL) (Hutter, 2005; Kaelbling,
de entrada pueden clasificar correctamente secuencias de entrada largas a través de
Littman y Moore, 1996; Sutton y Barto, 1998; Wiering y van Otterlo, 2012) (Sección 6). .
eventos de salida apropiados y, por lo tanto, resolver problemas superficiales que
involucran largos desfases de tiempo entre eventos relevantes.
En RL, algunos de los eventos de entrada pueden codificar señales de recompensa de
¿En qué profundidad del problema termina el aprendizaje superficial y comienza el
valor real proporcionadas por el entorno, y un objetivo típico es encontrar pesos que
aprendizaje profundo ? Las conversaciones con expertos en DL aún no han dado una
produzcan episodios con una suma alta de señales de recompensa, a través de secuencias
respuesta concluyente a esta pregunta. En lugar de comprometerme con una respuesta
de acciones de salida apropiadas.
precisa, permítanme definir para los propósitos de esta descripción general: los problemas
La sección 5.5 utilizará la notación anterior para describir de forma compacta un
de profundidad >10 requieren un aprendizaje muy profundo.
algoritmo central de DL, a saber, la retropropagación (BP) para FNN y RNN supervisados
La dificultad de un problema puede tener poco que ver con su profundidad.
de peso compartido. (Las FNN pueden verse como RNN con ciertas ponderaciones cero
Algunos NN pueden aprender rápidamente a resolver ciertos problemas profundos, por
fijas). La sección 6 abordará el caso más general de RL.
ejemplo, mediante adivinación de peso aleatoria (Sección 5.9) u otros tipos de búsqueda
directa (Sección 6.6) o búsqueda indirecta (Sección 6.7) en el espacio de peso, o
entrenando a un NN primero en un espacio superficial. problemas cuyas soluciones pueden
3. Profundidad de las rutas de asignación de crédito (CAP) y de los problemas
luego generalizarse a problemas profundos, o mediante el colapso de secuencias de

Para medir si la asignación de crédito en una aplicación NN dada es del tipo profundo operaciones (no) lineales en una única operación (no) lineal (pero consulte un análisis de

o superficial , introduzco el concepto de Rutas de Asignación de Crédito o CAP, que son aspectos no triviales de redes lineales profundas, Baldi & Hornik, 1995, Sección B).
cadenas de vínculos posiblemente causales entre los eventos de la Sección 2, por ejemplo,
desde la entrada hasta oculto para generar capas en FNN, o mediante transformaciones a Sin embargo, en general, encontrar un NN que modele con precisión un conjunto de
lo largo del tiempo en RNN. entrenamiento dado es un problema de NP completo (Blum y Rivest, 1992; Judd, 1990),
también en el caso de NN profundos (de Souto, Souto y Oliveira, 1999). ; Síma, 1994;
Centrémonos primero en SL. Considere dos eventos xp y xq (1 ≤ p < q ≤ T ). Windisch, 2005); comparar una encuesta de resultados negativos (Síma, 2002, Sección 1).
Dependiendo de la aplicación, pueden tener una Conexión Causal Directa Potencial
(PDCC) expresada por el predicado booleano pdcc(p, q), que es verdadera si y sólo si p Arriba nos hemos centrado en SL. En el caso más general de RL en entornos
inq. Entonces la lista de 2 elementos (p, q) se define como un CAP (mínimo) de p a q. desconocidos, pcc(p, q) también es cierto si xp es un evento de salida y xq cualquier
Se puede permitir que un algoritmo de aprendizaje cambie wv(p,q) para mejorar el evento de entrada posterior; cualquier acción puede afectar el entorno y, por tanto,
rendimiento en episodios futuros. cualquier percepción posterior. (En el mundo real, el entorno puede incluso influir en
eventos que no son de entrada calculados en un hardware físico entrelazado con el
Las conexiones causales potenciales (PCC) más generales, posiblemente indirectas, universo entero, pero esto se ignora aquí). Es posible modelar y reemplazar tales PCC
se expresan mediante el predicado booleano definido recursivamente pcc(p, q), que en el ambientales no modificables a través de una parte de el NN que ya ha aprendido a
caso SL es verdadero sólo si pdcc(p, q), o si pcc(p, k) . ) para algunos k y pdcc(k, q). En el predecir (a través de algunas de sus unidades) eventos de entrada (incluidas señales de
último caso, agregar q a cualquier CAP desde p hasta k produce un CAP desde p hasta q recompensa) a partir de eventos y acciones de entrada anteriores (Sección 6.1). Sus
(esta también es una definición recursiva). El conjunto de tales CAP puede ser grande ponderaciones están congeladas, pero pueden ayudar a asignar crédito a otras
pero finito. ponderaciones aún modificables utilizadas para calcular acciones (Sección 6.1). Sin
Tenga en cuenta que el mismo peso puede afectar a muchos PDCC diferentes entre embargo, este enfoque puede conducir a PAC muy profundos.
eventos sucesivos enumerados por un CAP determinado, por ejemplo, en el caso de RNN
o FNN de peso compartido.
Algunas investigaciones de DL tratan de reformular automáticamente problemas de
Supongamos que un CAP tiene la forma (. . . , k, t, . . . , q), donde k y t (posiblemente
manera que se reduzca su profundidad (Sección 4). En particular, algunas veces se
t = q) son los primeros elementos sucesivos con modificable , q) se llama profundidad del
utiliza UL para hacer que los problemas de SL sean menos profundos, por ejemplo, Sección 5.10.
wv(k,t) . Entonces la longitud de la lista de sufijos (t, . . . CAP (que es 0 si no hay
A menudo se utiliza la Programación Dinámica (Sección 4.1) para facilitar ciertos
ningún enlace modificable). Esta profundidad limita hasta qué punto la asignación de
problemas tradicionales de RL, por ejemplo, la Sección 6.2. La Sección 5 se centra en los
créditos puede avanzar hacia atrás en la cadena causal para encontrar un peso
CAP para SL, la Sección 6 en el caso más complejo de RL.
modificable.1 Supongamos un episodio y su secuencia
de eventos x1, . . . , xT satisface un criterio computable utilizado para decidir si un
problema determinado ha sido resuelto (por ejemplo, error total E por debajo de cierto 4. Temas recurrentes del aprendizaje profundo

umbral). Entonces el conjunto


4.1. Programación dinámica para aprendizaje supervisado/por refuerzo (SL/RL)

1 Una alternativa sería contar sólo los enlaces modificables al medir la profundidad.
En muchas aplicaciones típicas de NN esto no supondría una diferencia, pero en algunas sí, por Un tema recurrente de DL es la Programación Dinámica (DP) (Bell­man, 1957), que
ejemplo, en la Sección 6.1. puede ayudar a facilitar la asignación de créditos en
Machine Translated by Google

J. Schmidhuber / Redes neuronales 61 (2015) 85–117 89

ciertos supuestos. Por ejemplo, en SL NN, la retropropagación en sí misma puede verse 4.5. Unidades de procesamiento de gráficos rápidos (GPU) para DL en NN
como un método derivado de DP (Sección 5.5). En la RL tradicional basada en fuertes
supuestos markovianos, los métodos derivados de DP pueden ayudar a reducir en gran Mientras que en el milenio anterior se produjeron varios intentos de crear hardware
medida la profundidad del problema (Sección 6.2). rápido específico para NN (por ejemplo, Faggin, 1992; Heemskerk, 1995; Jackel et al.,
Los algoritmos DP también son esenciales para sistemas que combinan conceptos de NN 1990; Korkin, de Garis, Gers y Hemmi, 1997; Ramacher et al. , 1993; Urlbe, 1999; Widrow,
y modelos gráficos, como los Modelos Ocultos de Markov (HMM) (Baum & Petrie, 1966; Rumelhart, & Lehr, 1994), y en la explotación de hardware estándar (por ejemplo, Anguita
Stratonovich, 1960) y Maximización de Expectativas (EM) (Dempster, Laird, & Rubin, & Gomes, 1996; Anguita, Parodi, & Zunino, 1994; Muller, Gunzinger, & Guggenbühl, 1995),
1977; Friedman, Hastie, & Tibshirani, 2001), por ejemplo, Baldi y Chauvin (1996), Bengio El nuevo milenio trajo un gran avance en DL en forma de tarjetas gráficas o GPU
(1991), Bishop (2006), Bottou (1991), Bourlard y Morgan (1994), Dahl, Yu, Deng y Acero multiprocesador y económicas.
(2012), Hastie, Tibshirani y Friedman (2009), Hinton, Deng y otros. (2012), Jordan y
Sejnowski (2001), Poon y Domingos (2011) y Wu y Shao (2014). Las GPU se utilizan ampliamente para videojuegos, un mercado enorme y competitivo que
ha hecho bajar los precios del hardware. Las GPU destacan por las rápidas multiplicaciones
de matrices y vectores necesarias no sólo para convencer a las realidades virtuales sino
también para el entrenamiento de NN, donde pueden acelerar el aprendizaje en un factor
4.2. Aprendizaje no supervisado (UL) que facilita SL y RL
de 50 o más. Algunas de las implementaciones de FNN basadas en GPU (Secciones
Otro tema recurrente es cómo UL puede facilitar tanto SL (Sección 5) como RL 5.16–5.19) han contribuido en gran medida a los éxitos recientes en concursos de
(Sección 6). UL (Sección 5.6.4) normalmente se utiliza para codificar datos entrantes sin reconocimiento de patrones (Secciones 5.19–5.22), segmentación de imágenes (Sección
procesar, como secuencias de video o voz, en una forma que sea más conveniente para el 5.21) y detección de objetos (Secciones 5.21– 5.22).
aprendizaje posterior dirigido a objetivos. En particular, los códigos que describen los
datos originales de una manera menos redundante o más compacta pueden introducirse
en máquinas SL (Secciones 5.10, 5.15) o RL (Sección 6.4), cuyos espacios de búsqueda 5. NN supervisadas, algunas ayudadas por NN no supervisadas
pueden volverse más pequeños (y cuyos CAP son más superficiales). ) que los necesarios
para tratar los datos sin procesar. UL está estrechamente relacionado con los temas de El foco principal de las aplicaciones prácticas actuales está en el Aprendizaje
regularización y compresión (Secciones 4.4, 5.6.3). Supervisado (SL), que ha dominado los recientes concursos de reconocimiento de patrones
(Secciones 5.17 a 5.23). Sin embargo, varios métodos utilizan aprendizaje no supervisado
(UL) adicional para facilitar el SL (Secciones 5.7, 5.10, 5.15). Tiene sentido tratar SL y UL
4.3. Aprendizaje de representaciones jerárquicas a través de SL, UL, RL profundos
en la misma sección: a menudo se utilizan métodos basados en gradientes, como BP

Muchos métodos de la Inteligencia Artificial a la antigua usanza (GO­FAI) (Nilsson, (Sección 5.5.1), para optimizar las funciones objetivo tanto de UL como de SL, y el límite
1980) , así como enfoques más recientes de la IA (Russell, Norvig, Canny, Malik y entre SL y UL puede desenfoque, por ejemplo, cuando se trata de predicción de series
Edwards, 1995) y el aprendizaje automático (Mitchell , 1997) aprenden jerarquías de temporales y clasificación de secuencias, por ejemplo, Secciones 5.10, 5.12.
representaciones de datos cada vez más abstractas. Por ejemplo, ciertos métodos de
reconocimiento de patrones sintácticos (Fu, 1977) , como la inducción gramatical, descubren
jerarquías de reglas formales para modelar observaciones. El matemático automatizado/ Un formato de línea de tiempo histórica ayudará a organizar subsecciones sobre
EURISKO parcialmente (no)supervisado (Lenat, 1983; Lenat y Brown, 1984) aprende inspiraciones y contribuciones técnicas importantes (aunque dicha subsección puede
continuamente conceptos combinando conceptos aprendidos previamente. Este aprendizaje abarcar un intervalo de tiempo de muchos años). La sección 5.1 menciona brevemente los
de representación jerárquica (Bengio, Courville y Vincent, 2013; Deng y Yu, 2014; Ring, primeros modelos NN superficiales desde las décadas de 1940 (y 1800), y la sección 5.2
1994) también es un tema recurrente en las NN de DL para SL (Sección 5), SL asistida es una inspiración neurobiológica temprana adicional relevante para el aprendizaje profundo
por UL (Secciones 5.7, 5.10 , 5.15), y RL jerárquico (Sección 6.5). A menudo, las (DL) moderno. La sección 5.3 trata sobre las redes GMDH (desde 1965), que yo sepa, la
representaciones jerárquicas abstractas son subproductos naturales de la compresión de primera (feedforward)
datos (Sección 4.4), por ejemplo, Sección 5.10. Sistemas DL. La sección 5.4 trata sobre el Neocognitron NN relativamente profundo (1979),
que es muy similar a ciertas arquitecturas FNN profundas modernas, ya que combina NN
convolucionales (CNN), replicación de patrones de peso y mecanismos de submuestreo.
La Sección 5.5 utiliza la notación de la Sección 2 para describir de manera compacta un
4.4. Navaja de Occam: compresión y longitud mínima de descripción (MDL)
algoritmo central de DL, a saber, la retropropagación (BP) para FNN y RNN supervisados
de peso compartido. También resume la historia de BP 1960­1981 y más allá. La sección
5.6 describe los problemas encontrados a finales de la década de 1980 con BP para NN
La navaja de Occam favorece las soluciones simples a las complejas. Dado algún
lenguaje de programación, el principio de longitud mínima de descripción (MDL) se puede profundas y menciona varias ideas del milenio anterior para superarlos.

utilizar para medir la complejidad de una solución candidata por la longitud del programa
más corto que la calcula (p. ej., Blumer, Ehrenfeucht, Haussler y Warmuth). , 1987;
Chaitin, 1966; Grünwald, Myung y Pitt, 2005; Kolmogorov, 1965b; Levin, 1973a; Li y Vitányi, La Sección 5.7 analiza una primera pila jerárquica (1987) de Autoencoders (AE) basados

1997; Rissanen, 1986; Solomonoff, 1964, 1978; Wallace y Boulton, 1968). Algunos métodos en UL acoplados; este concepto resurgió en el nuevo milenio (Sección 5.15). La sección
tienen en cuenta explícitamente el tiempo de ejecución del programa (Allender, 1992; 5.8 trata sobre la aplicación de BP a CNN (1989), lo cual es importante para las aplicaciones
Schmidhuber, 1997, 2002; Watanabe, 1992); muchos consideran sólo programas con DL actuales. La sección 5.9 explica el problema fundamental de DL de BP (de gradientes
tiempo de ejecución constante, escritos en lenguajes de programación no universales (por que desaparecen/explotan) descubierto en 1991. La sección 5.10 explica cómo una pila
ejemplo, Hinton y van Camp, 1993; Rissanen, 1986). En el caso de NN, el principio MDL RNN profunda de 1991 (el compresor de historial) previamente entrenada por UL ayudó a
sugiere que una baja complejidad de ponderación de NN corresponde a una alta resolver puntos de referencia de DL que antes no se podían aprender y que requerían rutas
probabilidad de NN en la visión bayesiana (por ejemplo, Buntine y Weigend, 1991; De de asignación de crédito ( CAPs, Sección 3) de profundidad 1000 y más. La sección 5.11
Freitas, 2003; MacKay, 1992; Neal, 1995), y a Alto rendimiento de generalización (por analiza un método particular en el que el ganador se lo lleva todo (WTA), llamado Max­
ejemplo, Baum y Haussler, 1989), sin sobreajustar los datos de entrenamiento. Se han Pooling (MP, 1992), ampliamente utilizado en las FNN profundas actuales. La sección 5.12
propuesto muchos métodos para regularizar los NN, es decir, buscar cálculos de soluciones menciona un primer concurso importante ganado por SL NN en 1994. La sección 5.13
pero SL NN simples y de baja complejidad (Sección 5.6.3) y RL NN (Sección 6.7). Esto describe una DL RNN (Long Short­Term Memory, LSTM, 1995) puramente supervisada
está estrechamente relacionado con ciertos métodos UL (Secciones 4.2, 5.6.4). para problemas de profundidad 1000 y más. La sección 5.14 menciona un concurso inicial
de 2003 ganado por un conjunto de FNN superficiales, así como buenos resultados de
reconocimiento de patrones con CNN y FNN profundos y RNN de LSTM.
Machine Translated by Google

90 J. Schmidhuber / Redes neuronales 61 (2015) 85–117

(2003). La Sección 5.15 trata principalmente sobre Deep Belief Networks (DBN, 2006) Ha habido numerosas aplicaciones de redes de estilo GMDH, por ejemplo
y pilas relacionadas de Autoencoders (AE, Sección 5.7), ambos previamente Farlow (1984), Ikeda, Ochiai y Sawaragi (1976), Ivakhnenko (1995), Kondo (1998),
entrenados por UL para facilitar el SL posterior basado en BP (compárese con las Kondo y Ueno (2008), Kordík, Náplava, Snorek y Genyk­Berezovskyj (2003), Madala
Secciones 5.6.1, 5.10). La sección 5.16 menciona las primeras GPU­CNN basadas e Ivakhnenko ( 1994) y Witczak, Korbicz, Mrugalski y Patton (2006).
en SL (2006), MPCNN entrenadas por BP (2007) y pilas LSTM (2007). Las secciones
5.17 a 5.22 se centran en competencias oficiales con conjuntos de pruebas secretas
ganadas por NN profundas (en su mayoría puramente supervisadas) desde 2009, en 5.4. 1979: convolución + replicación de peso + submuestreo (Neocog­nitron)
reconocimiento de secuencias, clasificación de imágenes, segmentación de imágenes
y detección de objetos. Muchos resultados de RNN dependían de LSTM (Sección
5.13); Muchos resultados de FNN dependieron del código FNN basado en GPU Aparte de las redes GMDH profundas (Sección 5.3), el Neocogni­tron (Fukushima,
desarrollado desde 2004 (Secciones 5.16 a 5.19), en particular, GPU­MPCNN 1979, 1980, 2013a) fue quizás el primer NN artificial que mereció el atributo de
(Sección 5.19). La Sección 5.24 menciona trucos recientes para mejorar la DL en NN, profundo y el primero en incorporar los conocimientos neurofisiológicos de la Sección
muchos de ellos estrechamente relacionados con trucos anteriores del milenio anterior 5.2. Introdujo NN convolucionales (hoy en día a menudo llamados CNN o convnets),
(por ejemplo, Secciones 5.6.2, 5.6.3). donde el campo receptivo (típicamente rectangular) de una unidad convolucional con
La sección 5.25 analiza cómo las NN artificiales pueden ayudar a comprender las NN un vector de peso dado (un filtro) se desplaza paso a paso a través de una matriz
biológicas; La sección 5.26 aborda la posibilidad de DL en NN con neuronas activas. bidimensional de valores de entrada. como los píxeles de una imagen (normalmente
hay varios filtros de este tipo). La matriz 2D resultante de eventos de activación
posteriores de esta unidad puede proporcionar entradas a unidades de nivel superior,
5.1. Primeros NN desde la década de 1940 (y el siglo XIX) y así sucesivamente. Debido a la replicación masiva de pesos (Sección 2), pueden
ser necesarios relativamente pocos parámetros (Sección 4.4) para describir el
Las primeras arquitecturas NN (McCulloch & Pitts, 1943) no aprendían. comportamiento de dicha capa convolucional.
Las primeras ideas sobre UL se publicaron unos años más tarde (Hebb, 1949). Las
décadas siguientes trajeron NN simples entrenados por SL (por ejemplo, Narendra y Las capas de submuestreo o reducción de resolución constan de unidades cuyas
Thathatchar, 1974; Rosenblatt, 1958, 1962; Widrow y Hoff, 1962) y UL (por ejemplo, conexiones de peso fijo se originan a partir de vecinos físicos en las capas
Grossberg, 1969; Kohonen, 1972; von der Malsburg, 1973; Willshaw ). & von der convolucionales inferiores. Las unidades de submuestreo se vuelven activas si al
Malsburg, 1976), así como memorias asociativas estrechamente relacionadas (por menos una de sus entradas está activa; sus respuestas son insensibles a ciertos
ejemplo, Hop­field, 1982; Palm, 1980). pequeños cambios de imagen (compárese con la Sección 5.2).
El Neocognitron es muy similar a la arquitectura de los Deep Learners modernos,
En cierto sentido, las NN han existido incluso desde antes, ya que las primeras ganadores de concursos, puramente supervisados, de avance y basados en
NN supervisadas eran esencialmente variantes de métodos de regresión lineal que gradientes, con capas alternas de convolución y reducción de resolución (p. ej.,
se remontaban al menos a principios del siglo XIX (p. ej., Gauss, 1809, 1821; Secciones 5.19 a 5.22). Fukushima, sin embargo, no estableció las ponderaciones
Legendre, 1805); Gauss también se refiere a su trabajo de 1795. Los primeros NN mediante retropropagación supervisada (Secciones 5.5, 5.8), sino mediante reglas
tenían una profundidad CAP máxima de 1 (Sección 3). locales de aprendizaje no supervisado basadas en la WTA (por ejemplo, Fukushima,
2013b), o mediante cableado previo. En ese sentido, no le importaba el problema de
5.2. Alrededor de 1960: la corteza visual proporciona inspiración para la DL (Secciones la DL (Sección 5.9), aunque su arquitectura era comparativamente profunda. Para
5.4, 5.11) propósitos de reducción de resolución, utilizó Spatial Averaging (Fukushima, 1980,
2011) en lugar de Max­Pooling (MP, Sección 5.11), actualmente un mecanismo WTA
Se encontraron células simples y complejas en la corteza visual del gato (p. ej., particularmente conveniente y popular. Las combinaciones DL actuales de CNN, MP
Hubel y Wiesel, 1962; Wiesel y Hubel, 1959). Estas células se activan en respuesta a y BP también se benefician mucho de trabajos posteriores (por ejemplo, Secciones
ciertas propiedades de los estímulos sensoriales visuales, como la orientación de los 5.8, 5.16, 5.19).
bordes. Las células complejas exhiben más invariancia espacial que las células
simples. Esto inspiró arquitecturas NN profundas posteriores (Secciones 5.4, 5.11) 5.5. 1960­1981 y más allá: desarrollo de la retropropagación (BP) para NN
utilizadas en ciertos Deep Learners modernos y galardonados (Secciones 5.19 a
5.22).
La minimización de errores a través del descenso de gradiente (Hadamard, 1908)
5.3. 1965: redes profundas basadas en el método grupal de manejo de datos en el espacio de parámetros de sistemas complejos, no lineales, diferenciables
(Leibniz, 1684), de múltiples etapas y relacionados con NN, se ha debatido al menos
desde principios de los años 1960 (por ejemplo, Amari, 1967; Bryson, 1961; Bryson &
Las redes entrenadas por el Método Grupal de Manejo de Datos (GMDH) Denham, 1961; Bryson & Ho, 1969; Director & Rohrer, 1969; Dreyfus, 1962; Kelley,
(Ivakhnenko, 1968, 1971; Ivakhnenko & Lapa, 1965; Ivakhnenko, Lapa, & McDonough, 1960; Pontryagin, Boltyan­skii, Gamrelidze, & Mishchenko, 1961; Wilkinson, 1965 ),
1967) fueron quizás los primeros sistemas DL del tipo Feedforward Multilayer inicialmente en el marco de las ecuaciones de Euler­Lagrange en el Cálculo de
Perceptron , aunque hubo trabajos anteriores sobre NN con una única capa oculta variaciones (p. ej., Euler, 1744).
(por ejemplo, Joseph, 1961; Viglione, 1970). Las unidades de las redes GMDH pueden
tener funciones de activación polinómica que implementan polinomios de Kol­mogorov­ El descenso más pronunciado en el espacio de peso de tales sistemas se puede
Gabor (más generales que otras funciones de activación NN ampliamente utilizadas, realizar (Bryson, 1961; Bryson & Ho, 1969; Kelley, 1960) iterando la regla de la
Sección 2). Dado un conjunto de entrenamiento, las capas crecen y se entrenan cadena (Leibniz, 1676; L'Hôpital, 1696) à la Dynamic Programación (DP) (Bellman,
incrementalmente mediante análisis de regresión (por ejemplo, Gauss, 1809, 1821; 1957). Una derivación simplificada de este método de retropropagación utiliza
Legendre, 1805) (Sección 5.1), luego se podan con la ayuda de un conjunto de únicamente la regla de la cadena (Dreyfus, 1962).
validación separado (usando la terminología actual). ), donde la Regularización de Los sistemas de los años 60 ya eran eficientes en el sentido de DP.
decisiones se utiliza para eliminar unidades superfluas (compárese con la Sección Sin embargo, propagaron hacia atrás información derivada a través de cálculos
5.6.3). El número de capas y unidades por capa se puede aprender en función del matriciales jacobianos estándar desde una "capa" a la anterior, sin abordar
problema. Hasta donde yo sé, este fue el primer ejemplo de aprendizaje de explícitamente ni los enlaces directos entre varias capas ni las posibles ganancias
representación jerárquica y abierto en NN (Sección 4.3). Un artículo de 1971 ya adicionales de eficiencia debido a la escasez de la red (pero tal vez tales mejoras
describía una red GMDH profunda con 8 capas (Ivakhnenko, 1971). parecía obvio a los autores). Dado todo el trabajo previo sobre el aprendizaje en
sistemas tipo NN multicapa (ver también la Sección 5.3 sobre redes no lineales
profundas desde
Machine Translated by Google

J. Schmidhuber / Redes neuronales 61 (2015) 85–117 91

1965), en retrospectiva parece sorprendente que un libro (Minsky y Papert, 1969) sobre hasta 2014 (Secciones 5.12, 5.14, 5.17, 5.19, 5.21, 5.22) no aumentaron la BP supervisada
las limitaciones de los perceptrones lineales simples con una sola capa (Sección 5.1) haya mediante algún tipo de aprendizaje no supervisado como se analiza en las Secciones 5.7,
disuadido a algunos investigadores de seguir estudiando los NN. 5.10, 5.15.

La retropropagación de errores (BP) explícita y eficiente en redes tipo NN arbitrarias, 5.6. Finales de la década de 1980­2000 y años posteriores: numerosas mejoras de las NN
discretas y posiblemente escasamente conectadas aparentemente se describió por primera
vez en una tesis de maestría de 1970 (Linnainmaa, 1970, 1976), aunque sin referencia a A finales de los años 1980 parecía claro que BP por sí solo (Sección 5.5) no era una
las NN. BP también se conoce como el modo inverso de diferenciación automática panacea. La mayoría de las aplicaciones FNN se centraron en FNN con pocas capas
(Griewank, 2012), donde los costos de la activación hacia adelante y la propagación son ocultas. Las capas ocultas adicionales a menudo no parecían ofrecer beneficios empíricos.
esencialmente iguales a los costos del cálculo de la derivada hacia atrás. Véase el código Muchos profesionales encontraron consuelo en un teorema (Hecht­Nielsen, 1989; Hornik,
FORTRAN inicial (Linnainmaa, 1970) y trabajos estrechamente relacionados (Ostrovskii, Stinchcombe y White, 1989; Kolmogorov, 1965a) que afirma que un NN con una sola capa
Volin y Borisov, 1971). de suficientes unidades ocultas puede aproximarse a cualquier función continua multivariada
con precisión arbitraria.
Pronto se utilizó explícitamente la BP eficiente para minimizar las funciones de costos
adaptando los parámetros de control (pesos) (Dreyfus, 1973). Compare algunas discusiones Del mismo modo, la mayoría de las aplicaciones RNN no requerían errores de
preliminares específicas de NN (Werbos, 1974, Sección 5.5.1), un método para umbrales retropropagación. Muchos investigadores ayudaron a sus RNN capacitándolos primero en
de NN de múltiples capas (Bobrowski, 1978) y un programa de computadora para derivar e problemas superficiales (Sección 3) cuyas soluciones luego se generalizaron a problemas
implementar automáticamente BP para sistemas diferenciables dados ( Speelpenning, más profundos. De hecho, algunos algoritmos RNN populares restringieron la asignación
1980). de créditos a un solo paso hacia atrás (El­man, 1990; Jordan, 1986, 1997), también en
estudios más recientes (Jaeger, 2001, 2004; Maass et al., 2002). .
Hasta donde yo sé, la primera aplicación específica de NN de BP eficiente como la
anterior se describió en 1981 (Werbos, 1981, 2006). Un trabajo relacionado se publicó En términos generales, aunque BP permite en principio problemas profundos, parece
varios años después (LeCun, 1985, 1988; Parker, 1985). Un artículo de 1986 contribuyó funcionar sólo para problemas superficiales . A finales de los años 1980 y principios de los
significativamente a la popularización de BP para NN (Rumelhart, Hinton y Williams, 1986), 1990 se vieron algunas ideas con potencial para superar este problema, que no se
demostrando experimentalmente el surgimiento de representaciones internas útiles en comprendió plenamente hasta 1991 (Sección 5.9).
capas ocultas. Véanse las generalizaciones para NN recurrentes de procesamiento de
secuencias (p. ej., Atiya y Parlos, 2000; Baldi, 1995; Gherrity, 1989; Kremer y Kolen, 2001;
Pearlmutter, 1989, 1995; Robinson y Fallside, 1987; Rohwer, 1989; Schmidhuber, 1992a ; 5.6.1. Ideas para afrontar retrasos prolongados y CAP profundos
Werbos, 1988; Williams, 1989; Williams & Peng, 1990; Williams & Zipser, 1988, 1989a,
Para hacer frente a largos retrasos entre eventos relevantes, se propusieron varios
1989b), también para RNN de equilibrio (Almeida, 1987; Pineda, 1987) con entradas
métodos de procesamiento de secuencias, incluido BP focalizado basado en factores de
estacionarias.
desintegración para activaciones de unidades en RNN (Mozer, 1989, 1992), redes
neuronales con retardo de tiempo (TDNN). (Lang, Waibel y Hinton, 1990) y su extensión
adaptativa (Boden­hausen y Waibel, 1991), RNN autorregresivos no lineales con entradas
exógenas (NARX) (Lin, Horne, Tino y Giles, 1996), ciertos RNN (Hihi y Bengio, 1996)
5.5.1. BP para NN anticipados (FNN) y NN recurrentes (RNN) de peso compartido (compárese la Sección 5.10, 1991), economías de RL en RNN con unidades WTA y reglas
de aprendizaje locales (Schmidhuber, 1989b) y otros métodos (p. ej., Bengio, Simard y
Utilizando la notación de la Sección 2 para FNN o RNN de peso compartido, después Frasconi, 1994; de Vries & Principe, 1991; Plate, 1993; Ring, 1993, 1994; Sun, Chen y Lee,
de un episodio de activación que se extiende a través de ft diferenciable , una única 1993). Sin embargo, estos algoritmos funcionaban sólo para CAP superficiales, no podían
iteración del descenso de gradiente a través de BP calcula los cambios ∂nett de todos wi en generalizarse a profundidades de CAP invisibles, tenían problemas con desfases de tiempo
∂E
∂wi t =
proporción a como en Algo­ ∂wi ritmo 5.5.1 (para el caso aditivo),
∂E
donde cada peso wi está
∂neto
muy variables entre eventos relevantes, necesitaban un ajuste fino externo de las constantes
asociado con una variable de valor real ∆i inicializada por 0. de retardo o padecían otros problemas. De hecho, resultó que ciertos problemas de
referencia simples pero profundos utilizados para evaluar tales métodos se resuelven más
rápidamente adivinando aleatoriamente los pesos de RNN hasta que se encuentra una

Algoritmo 5.5.1: Una iteración de BP para FNN o RNN de peso compartido solución (Hochreiter y Schmidhuber, 1996).

para t = T , . . . , 1 hacer
∂E
calcular por 0; ∂nett ,
inicializar la variable de señal de error de valor real δt
Si bien los métodos RNN anteriores se diseñaron para DL de secuencias temporales,
si xt
el intercambiador de calor neuronal (Schmidhuber, 1990c) consta de dos FNN profundos
es un evento de entrada, continúe con la siguiente iteración; si hay un error
paralelos con direcciones de flujo opuestas.
et entonces δt := xt − dt; sumar a δt el valor wv(t,k)δk;
Los patrones de entrada ingresan al primer FNN y se propagan "hacia arriba". Las salidas
(Esta es la aplicación de regla de cadena recursiva elegante y eficiente k outt que
deseadas (objetivos) ingresan al FNN "opuesto" y se propagan "hacia abajo". Usando una
recopila los impactos de nett en eventos futuros)
regla de aprendizaje local, cada capa en cada red intenta ser similar (en contenido de
información) a la capa anterior y a la capa adyacente de la otra red. La entrada que ingresa
multiplica δt por f ′
t (neto); a la primera red se "calienta" lentamente hasta convertirse en el objetivo. El objetivo que
para todo k int suma a wv(k,t) el valor xkδt entra en la red opuesta se "enfría" lentamente para convertirse en la entrada. La máquina
final para
Helmholtz (Dayan y Hinton, 1996; Dayan, Hinton, Neal y Zemel, 1995) puede verse como
cambiar cada wi en proporción a i y una pequeña tasa de aprendizaje de valor real
una variante no supervisada (Sección 5.6.4) de la misma (Peter Dayan, comunicación
personal, 1994).

Los costos computacionales del pase hacia atrás (BP) son esencialmente los del pase Un enfoque híbrido (Shavlik & Towell, 1989; Towell & Shavlik, 1994) inicializa un FNN
hacia adelante (Sección 2). Los pases hacia adelante y hacia atrás se repiten hasta alcanzar potencialmente profundo a través de una teoría de dominio en lógica proposicional, que
un rendimiento suficiente. puede adquirirse a través del aprendizaje basado en explicaciones (DeJong & Mooney,
1986; Minton et al., 1989; Mitchell, Keller y Kedar­Cabelli, 1986). Luego, el NN se ajusta a
A partir de 2014, este método BP simple sigue siendo el algoritmo de aprendizaje través de BP (Sección 5.5). La profundidad del NN refleja la cadena más larga.
central para FNN y RNN. En particular, la mayoría de las NN ganadoras del concurso
Machine Translated by Google

92 J. Schmidhuber / Redes neuronales 61 (2015) 85–117

del razonamiento en el conjunto original de reglas lógicas. Una extensión de este enfoque A menudo, los pesos previos están implícitos en términos de penalización adicionales
(Maclin y Shavlik, 1993; Shavlik, 1994) inicializa un RNN mediante conocimiento de dominio (MacKay, 1992) o en métodos basados en conjuntos de validación (Craven y Wahba, 1979;
expresado como un Autómata de Estado Finito (FSA). Eubank, 1988; Golub, Heath y Wahba, 1979; Hastie y Tibshirani, 1990; Mosteller y Tukey). ,
El ajuste fino basado en BP se ha vuelto importante para sistemas DL posteriores 1968; Stone, 1974), criterio de información de Akaike y error de predicción final (Akaike,
previamente entrenados por UL, por ejemplo, Secciones 5.10, 5.15. 1970, 1973, 1974), o error de predicción generalizado (Moody, 1992; Moody & Utans,
1994). Véanse también Amari y Murata (1993), Guyon, Vapnik, Boser, Bottou y Solla
(1992), Holden (1994), Vapnik (1992), Wang, Venkatesh y Judd (1994) y Wolpert (1994).
5.6.2. Mejor PA mediante descenso de gradiente avanzado (compárese con la Sección
Prioridades similares (o sesgos hacia la simplicidad) están implícitos en los algoritmos
5.24)
constructivos y de poda, por ejemplo, la construcción de redes secuenciales capa por capa
Se han propuesto numerosas mejoras del descenso más pronunciado a través de BP
(por ejemplo, Ash, 1989; Burgess, 1994; Fahlman, 1991; Fritzke, 1994; Gallant, 1988 ;
(Sección 5.5) . Métodos de mínimos cuadrados (Gauss–Newton, Levenberg–Marquardt)
Honavar) . & Uhr, 1988, 1993; Ivakhnenko, 1968, 1971; Moody, 1989; Parekh, Yang, &
(Gauss, 1809; Levenberg, 1944; Marquardt, 1963; Newton, 1687; Schaback & Werner,
Honavar, 2000; Ring, 1991; Utgoff & Stracuzzi, 2002; Weng, Ahuja, & Huang, 1992) (ver
1992) y métodos cuasi­Newton (Broyden–Fletcher–Goldfarb–Shanno, BFGS) (Broyden et
también las Secciones 5.3 , 5.11), poda de insumos (Moody, 1992; Refenes, Zapranis y
al., 1965; Fletcher & Powell, 1963; Goldfarb, 1970; Shanno, 1970) son computacionalmente
Francis, 1994), poda unitaria (p. ej., Ivakhnenko, 1968, 1971; Levin, Leen y Moody, 1994;
demasiado costosos para NN grandes. La BFGS parcial (Battiti, 1992; Saito y Nakano,
Mozer y Smolensky, 1989; White, 1989 ), poda de peso, por ejemplo, daño cerebral óptimo
1997) y el gradiente conjugado (Hestenes y Stiefel, 1952; Møller, 1993) , así como otros
(LeCun, Denker y Solla, 1990) y neurocirujano óptimo (Hassibi y Stork, 1993).
métodos (Cauwenberghs, 1993; Schmidhuber, 1989a; Solla, 1988) , proporcionan
alternativas rápidas a veces útiles. . BP puede tratarse como un problema lineal de mínimos
cuadrados (Biegler­König y Bärmann, 1993), donde la información del gradiente de segundo
orden se devuelve a las capas precedentes.

Un enfoque muy general, pero no siempre práctico, para descubrir búsquedas de SL


NN o RL NN de baja complejidad entre programas de computación matricial de peso
Para acelerar la BP, se introdujo el impulso (Rumelhart et al., 1986), se agregaron
escritos en un lenguaje de programación universal, con un sesgo hacia programas rápidos
constantes ad­hoc a la pendiente de la función de activación linealizada (Fahlman, 1988),
y cortos (Schmidhu­ber, 1997) ( Sección 6.7).
o se exageró la no linealidad de la pendiente (West & Saad, 1995).

La búsqueda mínima plana (FMS) (Hochreiter y Schmidhuber, 1997a, 1999) busca un


Solo los signos de las derivadas del error son tenidos en cuenta por la exitosa y
mínimo "plano" de la función de error: una gran región conectada en el espacio de peso
ampliamente utilizada variante de BP R­prop (Riedmiller & Braun, 1993) y la variación
donde el error es bajo y permanece aproximadamente constante, es decir, unos pocos bits.
robusta iRprop+ (Igel & Hüsken, 2003), que también se aplicó con éxito a los RNN.
Se requiere mucha información para describir pesos de baja precisión con alta variación.

El gradiente local puede normalizarse basándose en la arquitectura NN (Schraudolph


Compare las condiciones de tolerancia a la perturbación (Bishop, 1993; Carter, Rudolph y
& Sejnowski, 1996), a través de un enfoque hessiano diagonalizado (Becker & Le Cun,
Nucci, 1990; Hanson, 1990; Kerlirzin y Vallet, 1993; Matsuoka, 1992; Minai y Williams,
1989), o métodos eficientes relacionados (Schraudolph, 2002).
1994; Murray y Edwards, 1993; Neti, Schneider y Young , 1992). Un argumento bayesiano
basado en MDL sugiere que los mínimos planos corresponden a NN "simples" y a un
Algunos algoritmos para controlar el tamaño del paso de la PA adaptan una tasa de
sobreajuste esperado bajo. Compare la Sección 5.6.4 y los desarrollos más recientes
aprendizaje global (Battiti, 1989; Lapedes y Farber, 1986; LeCun, Simard y Pearlmutter,
mencionados en la Sección 5.24.
1993; Vogl, Mangis, Rigler, Zink y Alkon, 1988; Yu, Chen y Cheng, 1995), mientras que
otros calculan tasas de aprendizaje individuales para cada peso (Jacobs, 1988; Silva y
Almeida, 1990). En el aprendizaje en línea, donde se aplica BP después de cada
5.6.4. Beneficios potenciales de UL para SL (compárese las Secciones 5.7, 5.10, 5.15)
presentación de patrón, el algoritmo vario­η (Neuneier & Zimmermann, 1996) establece la
La notación de la Sección 2 introdujo etiquetas dadas por el maestro dt .
tasa de aprendizaje de cada peso de manera inversamente proporcional a la desviación
Sin embargo, muchos artículos del milenio anterior trataban del aprendizaje no supervisado
estándar empírica de su gradiente local, normalizando así las stochas. ­tic fluctuaciones
(UL) sin profesor (por ejemplo, Atick, Li y Redlich, 1992; Baldi y Hornik, 1989; Barlow,
de peso. Compare un método local de adaptación del tamaño de paso en línea para NN
Kaushal y Mitchison, 1989; Barrow, 1987; Deco y Parra, 1997; Field, 1987; Földiák, 1990;
no lineales (Almeida, Almeida, Langlois, Amaral y Redol, 1997).
Földiák y Young, 1995; Grossberg, 1976a, 1976b; Hebb, 1949; Kohonen, 1972, 1982, 1988;
Kosko, 1990; Martinetz, Ritter y Schulten, 1990 ; Miller, 1994; Mozer, 1991; Oja, 1989;
Palm, 1992; Pearlmutter & Hinton, 1986; Ritter & Kohonen, 1989; Rubner & Schulten, 1990;
Se han descrito muchos trucos adicionales para mejorar las NN (p. ej., Montavon, Orr
Sanger, 1989; Saund, 1994; von der Malsburg, 1973; Watanabe , 1985; Willshaw y von der
y Müller, 2012; Orr y Müller, 1998). Compare la Sección 5.6.3 y los desarrollos recientes
Malsburg, 1976); véase también el trabajo posterior a 2000 (p. ej., Carreira­Perpinan, 2001;
mencionados en la Sección 5.24.
Franzius, Sprekeler y Wiskott, 2007; Waydo y Koch, 2008; Wiskott y Sejnowski, 2002).

5.6.3. Búsqueda de NN simples, de baja complejidad y que resuelvan problemas (Sección


5.24)
Muchos investigadores utilizaron métodos similares a los de BP para buscar NN
"simples" y de baja complejidad (Sección 4.4) con alta capacidad de generalización. La Muchos métodos de UL están diseñados para maximizar objetivos relacionados con la
mayoría de los enfoques abordan el dilema sesgo/varianza (Geman, Bienenstock y Doursat, entropía y la teoría de la información (Boltzmann, 1909; Kullback y Leibler, 1951; Shannon,
1992) mediante supuestos previos sólidos. 1948) (por ejemplo, Amari, Cichocki y Yang, 1996; Barlow et al., 1989; Dayan y Zemel) . ,
Por ejemplo, la disminución del peso (Hanson y Pratt, 1989; Krogh y Hertz, 1992; Weigend, 1995; Deco&Parra, 1997; Field, 1994; Hinton, Dayan, Frey y Neal, 1995; Linsker, 1988;
Rumelhart y Huberman, 1991) fomenta pesos cercanos a cero, al penalizar los pesos MacKay y Miller, 1990; Plumbley, 1991; Redlich, 1993; Schmidhuber, 1992b, 1992c;
grandes. En un marco bayesiano (Bayes, 1763), la caída del peso se puede derivar Schraudolph y Sejnowski, 1993; Zemel, 1993; Zemel y Hinton, 1994).
(Hinton y van Camp, 1993) a partir de valores a priori gaussianos o laplacianos (Gauss,
1809; Laplace, 1774); véase también Murray y Edwards (1993). Una extensión de este
enfoque postula que una distribución de redes con muchos pesos similares generadas Muchos hacen esto para descubrir y desenredar fuentes de señales subyacentes
por mezclas gaussianas es "mejor" a priori (Nowlan y Hinton, 1992). ocultas (por ejemplo, Andrade, Chacón, Merelo y Moran, 1993; Bell y Sejnowski, 1995;
Belouchrani, Abed­Meraim, Cardoso y Moulines, 1997; Cardoso ). , 1994; Comon, 1994;
Hyvärinen,
Machine Translated by Google

J. Schmidhuber / Redes neuronales 61 (2015) 85–117 93

Karhunen y Oja, 2001; Jutten y Hérault, 1991; Karhunen y Joutsensalo, 1995; patrones a sí mismos. Sus códigos de capa oculta luego se introducen en un AE de
Molgedey y Schuster, 1994; Schuster, 1992; Shan y Cottrell, 2014; Shan, Zhang y nivel superior del mismo tipo, y así sucesivamente. La esperanza es que los códigos
Cottrell, 2007; Szabó, Póczos y Lőrincz, 2006). en las capas ocultas de AE tengan propiedades que faciliten el aprendizaje posterior.
En un experimento, se utilizó un algoritmo de aprendizaje específico de AE (diferente
Muchos métodos de UL generan de forma automática y robusta representaciones del BP tradicional de la Sección 5.5.1) para aprender un mapeo en una pila de AE
dispersas y distribuidas de patrones de entrada (Falconbridge, Stamps y Badcock, previamente entrenada por este tipo de UL (Ballard, 1987). Esto fue más rápido que
2006; Földiák, 1990; Hinton y Ghahramani, 1997; Hochreiter y Schmidhuber, 1999; aprender un mapeo equivalente por parte de BP a través de un único AE más profundo
Hyvärinen, Hoyer y Oja, 1999 ; Lewicki & Olshausen, 1998) a través de detectores de sin entrenamiento previo. Por otro lado, la tarea realmente no requirió un AE profundo,
características bien conocidos (p. ej., Olshausen & Field, 1996; Schmidhuber, es decir, los beneficios de UL no fueron tan obvios en este experimento. Compare una
Eldracher, & Foltin, 1996), tales como estructuras de tipo envolvente descentradas , encuesta anterior (Hinton, 1989) y la Memoria autoasociativa recursiva (RAAM), algo
así como detectores de bordes sensibles a la orientación y filtros Gabor (Gabor, 1946). relacionada
Extraen características simples relacionadas con las observadas en las primeras
etapas de preprocesamiento visual de los sistemas biológicos (por ejemplo, De Valois, (Melnik, Levy y Pollack, 2000; Pollack, 1988, 1990), utilizado originalmente para
Albrecht y Thorell, 1982; Jones y Palmer, 1987). codificar estructuras lingüísticas secuenciales de tamaño arbitrario a través de un
número fijo de unidades ocultas. Más recientemente, los RAAM también se utilizaron
UL también puede servir para extraer características invariantes de diferentes como preprocesadores no supervisados para facilitar la asignación de créditos

elementos de datos (por ejemplo, Becker, 1991) a través de NN acoplados que profundos para RL (Gisslen, Luciw, Graziano y Schmidhuber, 2011) (Sección 6.4).

observan dos entradas diferentes (Schmidhuber y Prelinger, 1992), también llamados


NN siameses (por ejemplo, Bromley et al., 1993; Chen y Salman, 2011; Hadsell, En principio, muchos métodos UL (Sección 5.6.4) podrían apilarse como los AE
anteriores, los RNN que comprime el historial de la Sección 5.10, las Máquinas de
Chopra y LeCun, 2006; Taylor, Spiro, Bregler y Fergus, 2011).
Boltzmann restringidas (RBM) de la Sección 5.15 o las redes Kohonen jerárquicas
(Sección 5.6.4). , para facilitar el SL posterior. Compare la generalización apilada (Ting
UL puede ayudar a codificar los datos de entrada en una forma ventajosa para su
y Witten, 1997; Wolpert, 1992) y las FNN que se benefician del entrenamiento previo
posterior procesamiento. En el contexto de DL, un objetivo importante de UL es la
mediante UL competitivos (p. ej., Rumelhart y Zipser, 1986) antes del ajuste fino
reducción de la redundancia. Idealmente, dado un conjunto de patrones de entrada, la
basado en BP (Maclin y Shavlik, 1995) . Véanse también los métodos más recientes
reducción de redundancia a través de una NN profunda creará un código factorial (un
que utilizan UL para mejorar el SL posterior (p. ej., Behnke, 1999, 2003a; Escalante­B
código con componentes estadísticamente independientes) del conjunto (Barlow, 1989;
y Wiskott, 2013).
Barlow et al., 1989), para desenredar los factores desconocidos de variación
(compárese con Bengio et al., 2013).
Dichos códigos pueden ser escasos y pueden resultar ventajosos para (1) la
5.8. 1989: BP para NN convolucionales (CNN, Sección 5.4)
compresión de datos, (2) acelerar la BP posterior (Becker, 1991), (3) trivializar la tarea
de los clasificadores Bayes posteriores, ingenuos pero óptimos (Schmidhuber et al., En 1989, se aplicó la propagación hacia atrás (Sección 5.5) (LeCun et al., 1989;
1996). . LeCun, Boser, et al., 1990; LeCun, Bottou, Bengio y Haffner, 1998) a convoluciones
La mayoría de los primeros UL FNN tenían una sola capa. Los métodos para UL similares a Neocognitron, de peso compartido. capas neuronales funcionales (Sección
FNN más profundos incluyen mapas de Kohonen autoorganizados jerárquicos (Sección 5.4) con conexiones adaptativas. Esta combinación, aumentada por Max­Pooling (MP,
4.3) (p. ej., Dittenbach, Merkl y Rauber, 2000; Koikkalainen y Oja, 1990; Lampinen y Secciones 5.11, 5.16) y acelerada en las tarjetas gráficas (Sección 5.19), se ha
Oja, 1992; Rauber, Merkl y Dittenbach, 2002; Versino & Gambardella, 1996), redes convertido en un ingrediente esencial de muchos Deep Learners visuales, ganadores
jerárquicas de funciones potenciales gaussianas (Lee & Kil, 1991), UL por capas de de competencias y modernos. (Secciones 5.19 a 5.23). Este trabajo también introdujo
jerarquías de características alimentadas en clasificadores SL (Behnke, 1999, 2003a), el conjunto de datos MNIST de dígitos escritos a mano (LeCun et al., 1989), que con
el algoritmo de árbol autoorganizado (SOTA) (Herrero, Valencia, & Dopazo, 2001), y el tiempo se ha convertido quizás en el punto de referencia más famoso del aprendizaje
Autoencoders (AE) no lineales con más de 3 (p. ej., 5) capas (DeMers & Cottrell, 1993; automático. Las CNN ayudaron a lograr un buen rendimiento en MNIST (LeCun,
Kramer, 1991; Oja, 1991). Estos AE NN (Rumelhart et al., 1986) pueden entrenarse Boser, et al., 1990) (profundidad de CAP 5) y en el reconocimiento de huellas
para mapear patrones de entrada a sí mismos, por ejemplo, codificándolos de forma dactilares (Baldi y Chauvin, 1993); En la década de 1990 se utilizaron comercialmente
compacta a través de activaciones de unidades de una capa oculta de cuello de botella CNN similares.
estrecho. Ciertos EA no lineales adolecen de ciertas limitaciones (Baldi, 2012).

5.9. 1991: Problema fundamental de aprendizaje profundo del descenso de gradiente


Lococode (Hochreiter & Schmidhuber, 1999) utiliza FMS (Sección 5.6.3) para
encontrar EA de baja complejidad con pesos de baja precisión que se pueden describir Una tesis de diploma (Hochreiter, 1991) representó un hito en la investigación
con unos pocos bits de información, lo que a menudo produce códigos dispersos o explícita de EAD. Como se mencionó en la Sección 5.6, a fines de la década de 1980,
factoriales. La Minimización de la Previsibilidad (PM) (Schmidhuber, 1992c) busca los experimentos habían indicado que las redes tradicionales de retroalimentación
códigos factoriales a través de detectores de características no lineales que luchan profunda o recurrentes son difíciles de entrenar mediante retropropagación (BP)
contra los predictores no lineales, tratando de volverse lo más informativos e (Sección 5.5). El trabajo de Hochreiter identificó formalmente una razón importante: las
impredecibles posible. El UL basado en PM se aplicó no sólo a las FNN sino también NN profundas típicas sufren el ahora famoso problema de gradientes que desaparecen
a las RNN (por ejemplo, Lindstädt, 1993; Schmidhuber, 1993b). Compare la Sección o explotan. Con las funciones de activación estándar (Sección 1), las señales de error
5.10 sobre pilas de RNN basadas en UL (1991), así como también las RNN de UL acumuladas retropropagadas (Sección 5.5.1) se reducen rápidamente o crecen fuera
posteriores (por ejemplo, Klapper­Rybicka, Schraudolph y Schmidhuber, 2001; Steil, de los límites. De hecho, decaen exponencialmente en el número de capas o en la
2007). profundidad del CAP (Sección 3), o explotan. Esto también se conoce como el
problema del retraso prolongado. Gran parte de las investigaciones posteriores sobre
5.7. 1987: UL a través de jerarquías de Autoencoder (AE) (compárese con la Sección DL de las décadas de 1990 y 2000 estuvieron motivadas por esta idea. Trabajos
5.15) posteriores (Bengio et al., 1994) también estudiaron las cuencas de atracción y su
estabilidad bajo ruido desde el punto de vista de los sistemas dinámicos: o la dinámica
Quizás el primer trabajo para estudiar los beneficios potenciales del no es robusta al ruido o los gradientes desaparecen. Véanse también Hochreiter,
preentrenamiento basado en UL se publicó en 1987. Propuso jerarquías de AE no Bengio, Frasconi y Schmidhuber (2001) y Tiňo y Hammer (2004). A lo largo de los
supervisadas (Ballard, 1987), estrechamente relacionadas con ciertos aprendizajes años, se exploraron varias formas de superar parcialmente el problema fundamental
profundos de avance posterior al 2000 basados en UL (Sección 5.15). El AE NN de del aprendizaje profundo :
nivel más bajo con una única capa oculta está entrenado para mapear la entrada
Machine Translated by Google

94 J. Schmidhuber / Redes neuronales 61 (2015) 85–117

I. Un alumno muy profundo de 1991 (el compresor de historia, previsibilidad local que se puede aprender en la representación de datos en el nivel
Sección 5.10) alivia el problema mediante operaciones no supervisadas. correspondiente de la jerarquía. Comparar una observación similar
entrenamiento previo para una jerarquía de RNN. Esto facilita enormemente la para redes de creencias profundas de avance (DBN, 2006, sección 5.15).
posterior asignación de crédito supervisado a través de BP (Sección 5.5). El sistema pudo aprender muchos datos que antes no se podían aprender.
En el caso de FNN, se pueden lograr efectos similares a través de pilas de AE Tareas de DL. Un antiguo experimento ilustrativo de DL (Schmidhuber,

conceptualmente relacionadas (Secciones 5.7, 5.15) y Creencia Profunda. 1993b) requería CAP (Sección 3) de profundidad 1200. El código de nivel superior

Redes (DBN, Sección 5.15). Sin embargo, la pila RNN inicialmente no supervisada se volvió tan compacta
esa clasificación de secuencia (anteriormente inviable) a través de SL adicional basada
II. Las redes tipo LSTM (Secciones 5.13, 5.16, 5.17, 5.21–5.23) alivian el problema a
en BP se hizo posible. Básicamente, el sistema utilizaba UL.
través de una arquitectura especial que no se ve afectada por
él. para reducir en gran medida la profundidad del problema. Compare el ajuste fino anterior
de NN basado en BP inicializado por reglas de lógica proposicional (Shavlik &
III. Las computadoras actuales basadas en GPU tienen un millón de veces la potencia
Towell, 1989) (Sección 5.6.1).
computacional de las máquinas de escritorio de principios de los años 1990. Este
Hay una manera de comprimir niveles superiores hacia niveles inferiores.
permite propagar errores algunas capas más abajo dentro
niveles, colapsando así total o parcialmente la pila RNN. El truco es
plazo razonable, incluso en las NN tradicionales (Sección 5.18). Eso es
volver a entrenar un RNN de nivel inferior para imitar (predecir) continuamente el
básicamente lo que está ganando muchos de los concursos de reconocimiento de unidades ocultas de un RNN ya entrenado, más lento y de mayor nivel (el
imágenes ahora (Secciones 5.19, 5.21, 5.22). (Aunque esto no fragmentador "consciente" ), a través de neuronas de salida predictivas adicionales
realmente no supera el problema de una manera fundamental.) (Schmidhuber, 1992b). Esto ayuda al RNN inferior (el automatizador) a desarrollar
IV. La optimización sin arpillera (Sección 5.6.2) puede aliviar el recuerdos apropiados, que rara vez cambian y que pueden
problema para las FNN (Martens, 2010; Møller, 1993; Pearlmutter, puente con retrasos muy largos. Nuevamente, este procedimiento puede reducir en gran medida
1994; Schraudolph, 2002) (Sección 5.6.2) y RNN (Martens & la profundidad requerida del proceso BP.
Sutskever, 2011) (Sección 5.20). El sistema de 1991 era un aprendizaje profundo funcional en el mundo moderno.
V. El espacio de matrices de peso NN también se puede buscar sin sentido posterior al 2000, y también una primera Memoria Temporal Jerárquica Neural
confiando en gradientes de error, evitando así el Fundamental Deep (HTM). Es conceptualmente similar a las jerarquías AE anteriores (1987,
Problema de aprendizaje por completo. La estimación aleatoria del peso a veces Sección 5.7) y posteriormente Deep Belief Networks (2006, Sección 5.15),
funciona mejor que métodos más sofisticados (Hochre­iter y Schmidhuber, 1996). pero más general en el sentido de que utiliza procesamiento de secuencias

Ciertos problemas más complejos RNN en lugar de FNN con entradas invariables. Más recientemente, empresarios de
renombre (Hawkins & George, 2006; Kurzweil, 2012)
se resuelven mejor utilizando la búsqueda universal (Levin, 1973b) para
También me interesé en los HTM; comparar también HMM jerárquicos
programas de computación matricial de peso escritos en un lenguaje de
(p. ej., Fine, Singer y Tishby, 1998), así como sistemas posteriores de alquiler recurrente
programación universal (Schmidhuber, 1997). algunos son mejores
basados en UL (Klampfl y Maass, 2013; Klapper­Rybicka et al., 2001;
resuelto utilizando métodos lineales para obtener pesos óptimos para
Steil, 2007; Young, Davis, Mishtal y Arel, 2014). RNN mecánicos
conexiones con eventos de salida (Sección 2) y pesos en evolución
(Koutník, Greff, Gomez y Schmidhuber, 2014) también constan de módulos RNN que
de conexiones con otros eventos: esto se llama Evolino (Schmid­huber, Wierstra,
interactúan con diferentes velocidades de reloj, pero no utilizan
Gagliolo y Gomez, 2007). Compare también los RNN relacionados previamente UL para establecer esas tarifas. Se utilizaron pilas de RNN en trabajos posteriores en SL
entrenados por ciertas reglas de UL (Steil, 2007), también en
con gran éxito, por ejemplo, las Secciones 5.13, 5.16, 5.17, 5.22.
el caso de las neuronas con picos (Klampfl & Maass, 2013; Yin, Meng,
& Jin, 2012) (Sección 5.26). Los métodos de búsqueda directa son relevantes
5.11. 1992: Max­Pooling (MP): hacia MPCNN (comparar Secciones
no sólo para SL sino también para RL más general, y se discuten
5.16, 5.19)
con más detalle en la Sección 6.6.

El Neocognitron (Sección 5.4) inspiró el Cresceptron (Weng


5.10. 1991: compresión del historial basada en UL a través de una pila profunda de et al., 1992), que adapta su topología durante el entrenamiento (Sección 5.6.3); comparar
RNN el crecimiento y la contracción incrementales
Redes GMDH (1965, Sección 5.3).
Un estudiante muy profundo que trabaja (Sección 3) de 1991 (Schmidhuber, En lugar de utilizar métodos alternativos de submuestreo local o WTA (por ejemplo,
1992b, 2013a) podría realizar asignaciones de crédito en cientos Fukushima, 1980, 2013a; Maass, 2000; Schmidhuber,
de operadores no lineales o capas neuronales, mediante el uso de entrenamiento previo 1989b), Cresceptron utiliza capas Max­Pooling (MP). Aquí un 2­
no supervisado para una jerarquía de RNN. La capa dimensional o conjunto de activaciones unitarias se divide en
La idea básica sigue siendo relevante hoy. Cada RNN está capacitado para un conjuntos rectangulares más pequeños. Cada uno se reemplaza en una reducción de resolución.

mientras que de manera no supervisada para predecir su siguiente entrada (por ejemplo, capa por la activación de su unidad máximamente activa. Un después, más
versión compleja del Cresceptron (Weng, Ahuja y Huang, 1997)
Connor, Martin y Atlas, 1994; Dorffner, 1996). A partir de entonces, sólo las entradas
También se incluyeron capas "difuminadas" para mejorar la tolerancia a la ubicación de objetos.
inesperadas (errores) transmiten nueva información y se transmiten a
ance.
el siguiente RNN superior que, por lo tanto, funciona con un sistema más lento y autoorganizado
La topología neurofisiológicamente plausible del feedforward
escala de tiempo. Se puede demostrar fácilmente que no se pierde ninguna información.
El modelo HMAX (Riesenhuber & Poggio, 1999) es muy similar al
Simplemente se comprime (gran parte del aprendizaje automático es esencialmente
uno del Cresceptron de 1992 (y por lo tanto al Neocognitron de 1979).
sobre compresión, por ejemplo, Secciones 4.4, 5.6.3, 6.7). Para cada secuencia de
Sin embargo, HMAX no aprende. Sus unidades cuentan con pesas artesanales;
entrada individual, obtenemos una serie de codificaciones cada vez menos redundantes
Posteriormente se propusieron reglas de aprendizaje biológicamente plausibles para
en niveles cada vez más profundos de este compresor de historial o
modelos (por ejemplo, Serre, Riesenhuber, Louie y Poggio, 2002; Teichmann,
Neural Sequence Chunker, que puede comprimir datos en ambos espacios Wiltschut y Hamker, 2012).
(como NN feedforward) y el tiempo. Este es otro buen ejemplo. Cuando se combinan CNN o convnets (Secciones 5.4, 5.8)
del aprendizaje de representación jerárquica (Sección 4.3). Ahi tambien con MP, se convierten en MPCNN similares a Cresceptron o HMAX
es una variante continua del compresor histórico (Schmidhuber, con capas alternas convolucionales y de agrupación máxima. A diferencia de
Mozer y Prelinger, 1993). Cresceptron y HMAX, sin embargo, los MPCNN están entrenados por BP
La pila RNN es esencialmente un modelo generativo profundo de datos, (Secciones 5.5, 5.16) (Ranzato, Huang, Boureau y LeCun, 2007).
que se puede reconstruir a partir de su forma comprimida. Añadiendo Las ventajas de hacer esto se señalaron posteriormente (Scherer,
otro RNN a la pila mejora un límite en la longitud de descripción de los datos, equivalente Müller y Behnke, 2010). Los MPCNN capacitados por BP se han vuelto centrales
al logaritmo negativo de su probabilidad (Huffman, 1952; Shannon, 1948) , siempre que para muchos modernos, ganadores de competencia, de avance visual y profundos.
quede resto. Estudiantes (Secciones 5.17, 5.19–5.23).
Machine Translated by Google

J. Schmidhuber / Redes neuronales 61 (2015) 85–117 95

5.12. 1994: primeros NN ganadores del concurso (Rodríguez y Wiles, 1998). Aquellos que no lo hicieron (Bodén y Wiles, 2000; Rodríguez
et al., 1999) no lograron extraer las reglas generales y no generalizaron bien en conjuntos
En la década de 1990, algunos NN ya ganaron ciertos concursos controlados de de pruebas sustancialmente más grandes. Similar para los lenguajes sensibles al contexto
reconocimiento de patrones con conjuntos de pruebas secretos. En particular, un NN con (CSL) (p. ej., Chalup y Blair, 2003).
líneas de retardo internas ganó la competencia de series temporales de Santa Fe sobre Sin embargo, LSTM se generalizó bien y requirió solo los 30 ejemplos más cortos (n ≤ 10)
nnc _
pulsaciones de intensidad caótica de un láser NH3 (Wan, 1994; Weigend & Gershenfeld, de CSL a para predecir correctamente las posiblesbcontinuaciones de prefijos de secuencia
norte

1993). Sin embargo, no se necesitaban PAC muy profundos (Sección 3). para n hasta 1000 y más. Una combinación de un filtro de Kalman extendido desacoplado
(Feldkamp, Prokhorov, Eagen y Yuan, 1998; Feldkamp, Prokhorov y Feldkamp, 2003;
Haykin, 2001; Kalman, 1960; Puskorius y Feldkamp, 1994; Williams, 1992b) y un LSTM
5.13. 1995: aprendizaje muy profundo recurrente supervisado (LSTM RNN) RNN (Pérez­Ortiz et al., 2003) aprendió a manejar correctamente valores de n hasta 10
millones y más. Es decir, después del entrenamiento, la red fue capaz de leer secuencias
Los RNN de memoria supervisada a largo plazo y corto plazo (LSTM) (Gers, de 30.000.000 de símbolos y más, un símbolo a la vez, y finalmente detectar las diferencias
Schmidhuber y Cummins, 2000; Hochreiter y Schmidhuber, 1997b; Pérez­Ortiz, Gers, Eck sutiles entre cadenas legales como 10.000.000b 10.000.000c 10.000.000 y cadenas muy
y Schmidhuber, 2003) eventualmente podrían realizar hazañas similares a las de la similares pero ilegales como 10.000.000b 9.999.999c 10.000.000. Compárese también los
jerarquía RNN profunda de 1991 (Sección 5.10), superando el problema fundamental del algoritmos RNN más recientes capaces de lidiar con retrasos prolongados (Koutník et al.,
aprendizaje profundo (Sección 5.9) sin ningún entrenamiento previo no supervisado. LSTM 2014; Martens & Sutskever, 2011; Schäfer, Udluft, & Zimmermann, 2006; Zimmermann,
también podría aprender tareas de DL sin previsibilidad de secuencia local (y, por lo tanto, Tietz, & Grothmann, 2012).
imposibles de aprender por el History Compressor de 1991 parcialmente no supervisado,
Sección 5.10), que se ocupa de problemas muy profundos (Sección 3) (por ejemplo, Gers,
Schraudolph y Schmidhuber, 2002).
Los RNN bidireccionales (BRNN) (Schuster, 1999; Schuster & Paliwal, 1997) están
La idea básica de LSTM es muy simple. Algunas de las unidades se denominan diseñados para secuencias de entrada cuyos inicios y finales se conocen de antemano,
carruseles de errores constantes (CEC). Cada CEC utiliza como función de activación f , como oraciones habladas que se etiquetan por sus fonemas; compárese con Fukada,
la función de identidad, y tiene una conexión consigo misma con un peso fijo de 1,0. Schuster y Sagisaka (1999). Para tener en cuenta el contexto pasado y futuro de cada
Debido a la derivada constante de 1.0 de f , los errores propagados hacia atrás a través elemento de la secuencia, un RNN procesa la secuencia de principio a fin y el otro hacia
de una CEC no pueden desaparecer ni explotar (Sección 5.9) , sino que permanecen atrás, de fin a inicio. En cada paso de tiempo, sus salidas combinadas predicen la etiqueta
como están (a menos que “fluyan fuera” de la CEC a otras partes , típicamente correspondiente (si existe alguna). Los BRNN se aplicaron con éxito a la predicción de la
adaptativas ). de la NN). Los CEC están conectados a varias unidades adaptativas no estructura de proteínas secundarias (Baldi, Brunak, Frasconi, Pollastri y Soda, 1999). Los
lineales (algunas con funciones de activación multiplicativas) necesarias para aprender DAG­RNN (Baldi y Pollastri, 2003; Wu y Baldi, 2008) generalizan los BRNN a múltiples
comportamientos no lineales. Los cambios de peso de estas unidades a menudo se dimensiones. Aprendieron a predecir propiedades de pequeñas moléculas orgánicas
benefician de señales de error propagadas en el tiempo a través de los CEC. Los CEC (Lusci, Pollastri y Baldi, 2013) , así como mapas de contacto de proteínas (Tegge, Wang,
son la razón principal por la que las redes LSTM pueden aprender a descubrir la Eickholt y Cheng, 2009), también en conjunto con un creciente FNN profundo (Di Lena,
importancia de (y memorizar) eventos que ocurrieron hace miles de pasos de tiempo Nagata y Baldi, 2012) (Sección 5.21). Los BRNN y DAG­RNN despliegan todo su potencial
discretos, mientras que los RNN anteriores ya fallaron en caso de retrasos de tiempo cuando se combinan con el concepto LSTM (Graves et al., 2009; Graves & Schmidhuber,
mínimos de 10 pasos. 2005, 2009).
Se permiten muchas variantes y topologías de LSTM diferentes. Es posible desarrollar
buenas topologías específicas para cada problema (Bayer, Wierstra, Togelius y
Schmidhuber, 2009). Algunas variantes de LSTM también utilizan autoconexiones
modificables de CEC (Gers y Schmidhuber, 2001). Particularmente exitosas en competencias recientes son las pilas (Sección 5.10) de
LSTM RNN (Fernández, Graves y Schmidhuber, 2007b; Graves y Schmidhuber, 2009)
Hasta cierto punto, LSTM es biológicamente plausible (O'Reilly, 2003). LSTM aprendió entrenados por la Clasificación Temporal Conexionista (CTC) (Graves, Fernández,
a resolver muchas tareas de DL que antes no se podían aprender y que implicaban: Gómez y Schmidhu­ber, 2006), un método basado en gradientes para encontrar pesos
Reconocimiento del orden temporal de eventos muy separados en flujos de entrada RNN que maximicen la probabilidad de secuencias de etiquetas dadas por el maestro,
ruidosos; Almacenamiento sólido de números reales de alta precisión en intervalos de dados flujos (normalmente mucho más largos y de mayor dimensión) de vectores de
tiempo prolongados; Operaciones aritméticas en flujos de entrada continuos; Extracción entrada de valor real. CTC­LSTM realiza segmentación (alineación) y reconocimiento
de información transmitida por la distancia temporal entre eventos; Reconocimiento de simultáneos (Sección 5.22).
patrones temporalmente extendidos en secuencias de entrada ruidosas (Gers et al., 2000;
Hochreiter & Schmidhuber, 1997b); Generación estable de ritmos sincronizados con A principios de la década de 2000, el reconocimiento de voz estaba dominado por
precisión, así como trayectorias periódicas suaves y no suaves (Gers & Schmidhuber, HMM combinados con FNN (por ejemplo, Bourlard y Morgan, 1994). Sin embargo, cuando
2000). LSTM claramente superó a los RNN anteriores en tareas que requieren aprender se entrenó desde cero con expresiones de la base de datos de voz TIDIGITS, en 2003
las reglas de lenguajes regulares descriptibles por autómatas de estado finito (FSA) LSTM ya obtuvo resultados comparables a los de los sistemas basados en HMM (Beringer,
deterministas (Blair & Pollack, 1997; Casey, 1996; Kalinke & Lehmann, 1998; Manolios & Graves, Schiel y Schmidhuber, 2005; Graves, Eck, Beringer y Schmidhuber, 2003). ;
Fanelli, 1994; Omlin & Giles , 1996; Siegelmann, 1992; Vahed & Omlin, 2004; Watrous & Graves et al., 2006). En 2007, LSTM superó a los HMM en tareas de detección de
Kuhn, 1992; Zeng, Goodman, & Smyth, 1994), tanto en términos de confiabilidad como de palabras clave (Fernández, Graves y Schmidhuber, 2007a); compare las mejoras recientes
velocidad. (Indermuhle, Frinken, Fischer y Bunke, 2011; Wöllmer, Schuller y Rigoll, 2013). En 2013,
LSTM también logró los resultados más conocidos en el famoso punto de referencia de
reconocimiento de fonemas TIMIT (Graves, Mohamed y Hinton, 2013) (Sección 5.22).
Recientemente, los híbridos LSTM RNN/HMM obtuvieron el rendimiento más conocido en
LSTM también trabajó en tareas que involucran lenguajes libres de contexto (CFL) reconocimiento de voz de vocabulario medio (Geiger, Zhang, Weninger, Schuller y Rigoll,
que no pueden ser representados por HMM o FSA similares discutidos en la literatura de 2014) y de vocabulario amplio (Sak, Senior y Beaufays, 2014).
RNN (Andrews, Diederich y Tickle, 1995; Rodríguez y Wiles, 1998; Rodríguez, Wiles y
Elman, 1999 ; Steijvers y Grunwald, 1996; Sun, Giles, Chen y Lee, 1993; Tonkes y Wiles,
1997; Wiles y Elman, 1995). El reconocimiento CFL (Lee, 1996) requiere el equivalente
funcional de una pila de tiempo de ejecución. LSTM también es aplicable a la localización de robots (Förster, Graves y Schmidhuber,
2007), el control de robots (Mayer et al., 2008), la detección de distracciones del conductor
Algunos RNN anteriores no pudieron aprender pequeños conjuntos de entrenamiento CFL en línea (Wöllmer et al., 2011) y muchos
Machine Translated by Google

96 J. Schmidhuber / Redes neuronales 61 (2015) 85–117

otras tareas. Por ejemplo, ayudó a mejorar el estado del arte en diversas aplicaciones Los resultados se han publicado al menos desde 1991 (Secciones 5.9, 5.10), la
como el análisis de proteínas (Hochreiter & Obermayer, 2005), el reconocimiento de expresión Aprendizaje Profundo en realidad se acuñó alrededor de 2006, cuando el
escritura (Bluche et al., 2014; Graves, Fernandez, Liwicki, Bunke, & Schmidhuber, entrenamiento previo no supervisado de FNN profundos ayudó a acelerar el SL
2008; Graves et al., 2009; Graves & Schmidhuber, 2009), detección de actividad de posterior hasta el BP (Hinton, Osindero y Teh, 2006; Hinton y Salakhutdinov, 2006).
voz (Eyben, Weninger, Squartini, & Schuller, 2013), reconocimiento óptico de Compare la terminología anterior sobre la carga de redes profundas (Síma, 1994;
caracteres (Breuel, Ul­Hasan, Al­Azawi, & Shafait , 2013), identificación del lenguaje Windisch, 2005) y el aprendizaje de recuerdos profundos (Gómez y Schmidhuber,
(Gonzalez­Dominguez, Lopez­Moreno, Sak, Gonzalez­Rodriguez, & Moreno, 2014), 2005). Compárese también el ajuste fino (Sección 5.6.1) basado en BP (Sección 5.5)
predicción del contorno de la prosodia (Fernandez, Rendel, Ramabhadran, & Hoory, de FNN (no tan profundos) previamente entrenados por UL competitivos (Maclin y
2014), detección del inicio del audio (Marchi et al., 2014), síntesis de texto a voz Shavlik, 1995).
(Fan, Qian, Xie, & Soong, 2014), clasificación de señales sociales (Brueckner & La Deep Belief Network (DBN) es una pila de Máquinas Boltzmann Restringidas
Schul­ter, 2014), traducción automática (Sutskever, Vinyals,&Le, 2014) , y otros. (RBM) (Smolensky, 1986), que a su vez son Máquinas Boltzmann (BM) (Hinton &
Sejnowski, 1986) con una sola capa de unidades de detección de características;
compárese también las MO de orden superior (Memisevic y Hinton, 2010). Cada
RBM percibe representaciones de patrones del nivel inferior y aprende a codificarlas
Los RNN también se pueden utilizar para el metaaprendizaje (Prokhorov, sin supervisión. Al menos en teoría, bajo ciertos supuestos, agregar más capas
Feldkamp y Tyukin, 2002; Schaul y Schmidhuber, 2010; Schmidhuber, 1987), porque mejora un límite en la probabilidad logarítmica negativa de los datos (Hinton et al.,
en principio pueden aprender a ejecutar su propio algoritmo de cambio de peso 2006) (equivalente a la longitud de la descripción de los datos; compare la observación
(Schmidhuber, 1993a). Un metalearner exitoso (Hochreiter, Younger y Conwell, correspondiente para las pilas RNN, Sección 5.10). Existen extensiones para los
2001) utilizó un LSTM RNN para aprender rápidamente un algoritmo de aprendizaje RBM temporales (Sutskever, Hinton y Taylor, 2008).
para funciones cuadráticas (compárese con la Sección 6.8).

Recientemente, los RNN de LSTM ganaron varios concursos internacionales Sin ninguna deformación del patrón de entrenamiento (Sección 5.14), un DBN
de reconocimiento de patrones y establecieron numerosos récords de referencia en ajustado por BP logró una tasa de error del 1,2% (Hinton y Salakhutdinov, 2006) en
conjuntos de datos grandes y complejos, por ejemplo, las Secciones 5.17, 5.21, los dígitos escritos a mano del MNIST (Secciones 5.8, 5.14). Este resultado ayudó a
5.22. Sin embargo, el LSTM basado en gradientes no es una panacea; a veces, despertar el interés en las DBN. Los DBN también lograron buenos resultados en el
otros métodos lo superaron al menos en ciertas tareas (Jaeger, 2004; Koutník et al., reconocimiento de fonemas, con una tasa de error del 26,7% en el conjunto de
2014; Martens & Sutskever, 2011; Pascanu, Mikolov, & Bengio, 2013; Schmidhuber pruebas principales de TIMIT (Mohamed & Hinton, 2010); compare mejoras
et otros, 2007); compárese con la Sección 5.20. adicionales a través de FNN (Deng & Yu, 2014; Hinton, Deng, et al., 2012) y LSTM
RNN (Sección 5.22).
5.14. 2003: más NN ganadoras de concursos/que establecen récords; NN profundas Una técnica basada en DBN llamada Semantic Hashing (Salakhutdinov & Hinton,
exitosas 2009) asigna documentos semánticamente similares (de tamaño variable) a
direcciones cercanas en un espacio de representaciones de documentos.
Alrededor de la década de 2000, muchas aplicaciones prácticas y comerciales Superó a buscadores anteriores de documentos similares, como Locality Sensitive
de reconocimiento de patrones estaban dominadas por métodos de aprendizaje Hashing (Buhler, 2001; Datar, Immorlica, Indyk y Mirrokni, 2004). Consulte el tutorial
automático no neuronal, como las máquinas de vectores de soporte (SVM). RBM/DBN (Fischer & Igel, 2014).
(Schölkopf et al., 1998; Vapnik, 1995). Sin embargo, al menos en ciertos dominios, Las pilas de codificador automático (AE) (Ballard, 1987) (Sección 5.7) se
las NN superaron a otras técnicas. convirtieron en una forma alternativa popular de entrenar previamente FNN profundos
Una NN de Bayes (Neal, 2006) basada en un conjunto (Breiman, 1996; Dietterich, de manera no supervisada, antes de ajustarlos (Sección 5.6.1) a través de BP
2000a; Hashem & Schmeiser, 1992; Schapire, 1990; Ueda, 2000; Wolpert, 1992) de (Sección 5.5) (Bengio, Lamblin , Popovici y Larochelle, 2007; Erhan et al., 2010;
NN ganó el NIPS 2003 Feature Selection Challenge con secreto conjunto de prueba Vincent, Hugo, Bengio y Manzagol, 2008). La codificación dispersa (Sección 5.6.4)
(Neal y Zhang, 2006). Sin embargo, el NN no era muy profundo: tenía dos capas se formuló como una combinación de problemas de optimización convexa (Lee,
ocultas y, por lo tanto, CAP bastante poco profundos (Sección 3) de profundidad 3. Battle, Raina y Ng, 2007). Estudios recientes sobre métodos combinados de GBR y
EA se centran en la evolución posterior a 2006 (Arel, Rose y Karnowski, 2010;
Importantes para muchos reconocedores de patrones ganadores de la Bengio, 2009).
competencia actual (Secciones 5.19, 5.21, 5.22) fueron los desarrollos en el Las pilas DBN y AE no supervisadas son conceptualmente similares, pero en cierto
departamento de CNN. Una CNN (Secciones 5.4, 5.8 ) entrenada por BP (LeCun et sentido menos generales, al History Compressor no supervisado basado en pilas
al., 1989) estableció un nuevo récord MNIST del 0,4% (Simard, Steinkraus y Platt, RNN de 1991 (Sección 5.10), que puede procesar y recodificar no solo patrones de
2003), utilizando deformaciones del patrón de entrenamiento (Baird, 1990) pero sin entrada estacionarios, sino patrones completos. secuencias.
presin supervisión. ­formación (secciones 5.7, 5.10, 5.15). Un mosquitero estándar
alcanzó el 0,7% (Simard et al., 2003). Nuevamente, la profundidad correspondiente
de la PAC fue baja. Compárese con mejoras adicionales en las Secciones 5.16, 5.18, 5.16. 2006/7: CNN/GPU­CNN/BP mejorados para pilas MPCNN/LSTM
5.19.
Se lograron buenos resultados en la interpretación de imágenes (Behnke, 2003b) También en 2006, una CNN (Secciones 5.4, 5.8 ) entrenada por BP (LeCun et
con NN bastante profundos entrenados por la variante R­prop de BP (Riedmiller & al., 1989) estableció un nuevo récord MNIST del 0,39% (Ranzato, Poultney, Chopra
Braun, 1993) (Sección 5.6.2); aquí la retroalimentación a través de conexiones y LeCun, 2006), utilizando deformaciones del patrón de entrenamiento (Sección
recurrentes ayudó a mejorar la interpretación de las imágenes. 5.14) pero sin entrenamiento previo sin supervisión. Compárese con mejoras
Se utilizaron FNN con una profundidad de CAP de hasta 6 para clasificar con éxito adicionales en las Secciones 5.18, 5.19. Se utilizaron CNN similares para evitar
datos de alta dimensión (Vieira y Barradas, 2003). obstáculos todoterreno (LeCun, Muller, Cosatto y Flepp, 2006). Posteriormente, una
Los RNN de LSTM profundos comenzaron a obtener ciertos primeros resultados combinación de CNN y TDNN aprendió a asignar representaciones de tamaño fijo
de reconocimiento de voz comparables a los de los sistemas basados en HMM de oraciones de tamaño variable a características relevantes para el procesamiento
(Graves et al., 2003); compárense las Secciones 5.13, 5.16, 5.21, 5.22. del lenguaje, utilizando una combinación de SL y UL (Collobert y Weston, 2008).

5.15. 2006/7: UL para redes de creencia profunda/pilas AE ajustadas por BP En 2006 también se produjo una implementación temprana de CNN basada en
GPU (Chellapilla, Puri y Simard, 2006) hasta 4 veces más rápida que las CPU­CNN;
Si bien las redes de aprendizaje con numerosas capas no lineales se remontan compare también implementaciones anteriores de GPU de FNN estándar con un
al menos a 1965 (Sección 5.3), y la investigación explícita de DL factor de aceleración informado de 20 (Oh y Jung, 2004). GPU
Machine Translated by Google

J. Schmidhuber / Redes neuronales 61 (2015) 85–117 97

o las tarjetas gráficas se han vuelto cada vez más importantes para la DL en los años 5.19. 2011: MPCNN en GPU logran un rendimiento de visión sobrehumano
siguientes (secciones 5.18 a 5.22).
En 2007, BP (Sección 5.5) se aplicó por primera vez (Ranzato et al., 2007) a MPCNN En 2011, se describió una implementación flexible de GPU (Ciresan, Meier, Masci,
inspirados en Neocognitron (Sección 5.4), similares a Cresceptron (o HMAX) (Sección 5.11) Gambardella y Schmidhuber, 2011) de CNN o Convnets de Max­Pooling (MP) (una GPU­
con alternancia convolucional y máxima. ­agrupación de capas. Los MPCNN entrenados por MPCNN), basándose en trabajos anteriores de MP (Weng et al. ., 1992) (Sección 5.11) CNN
BP se han convertido en un ingrediente esencial de muchos Deep Learners visuales, de (Fukushima, 1979; LeCun et al., 1989) (Secciones 5.4, 5.8, 5.16), y en las primeras CNN
avance, modernos, ganadores de competencias (Secciones 5.17, 5.19­5.23). basadas en GPU sin MP (Chellapilla et al., 2006) (Sección 5.16 ); compare las primeras
GPU­NN (Oh & Jung, 2004) y GPU­DBN (Raina et al., 2009) (Sección 5.17). Los MPCNN
tienen capas convolucionales alternas (Sección 5.4) y capas de agrupación máxima (MP,
También en 2007, se introdujeron pilas jerárquicas de LSTM RNN (Fernández et al., Sección 5.11) rematadas por capas estándar completamente conectadas. Todos los pesos
2007b). Pueden ser entrenados mediante la Clasificación Temporal Conexionista (CTC) son entrenados por BP (Secciones 5.5, 5.8, 5.16) (Ranzato et al., 2007; Scherer et al., 2010).
jerárquica (Graves et al., 2006). Para tareas de etiquetado de secuencia, cada nivel de LSTM Las GPU­MPCNN se han vuelto esenciales para muchas FNN ganadoras de concursos
RNN (Sección 5.13) predice una secuencia de etiquetas enviadas al siguiente nivel. Las (Secciones 5.21, 5.22).
señales de error en cada nivel se propagan hacia atrás a través de todos los niveles inferiores.

En el reconocimiento de dígitos hablados, las pilas LSTM superaron a los HMM, a pesar de Los GPU­MPCNN de varias columnas (Ciresan, Meier, Masci y Schmid­huber, 2011)
hacer menos suposiciones sobre el dominio. Las pilas LSTM no necesariamente requieren son comités (Breiman, 1996; Dietterich, 2000a; Hashem y Schmeiser, 1992; Schapire, 1990;
un entrenamiento previo no supervisado como las pilas RNN anteriores basadas en UL Ueda, 2000; Wolpert, 1992) de GPU­MPCNN con promedio de salida democrático simple.
(Schmidhuber, 1992b) de la Sección 5.10.
Varios MPCNN ven la misma entrada; sus vectores de salida se utilizan para asignar
5.17. 2009: primeras competiciones oficiales ganadas por RNN y con MPCNN probabilidades a las distintas clases posibles. La clase con la probabilidad más alta en
promedio se elige como clasificación del sistema de la entrada actual. Compárese con
Las pilas de RNN de LSTM entrenados por CTC (Secciones 5.13, 5.16) se convirtieron métodos de conjunto anteriores y más sofisticados (Schapire, 1990), el conjunto ganador del
en los primeros RNN en ganar concursos oficiales internacionales de reconocimiento de concurso Bayes­NN (Neal, 2006) de la Sección 5.14 y trabajos recientes relacionados
patrones (con conjuntos de pruebas secretos conocidos solo por los organizadores). (Shao, Wu y Li, 2014).
Más precisamente, tres concursos de escritura a mano conectada en IC­DAR 2009 en tres
idiomas diferentes (francés, árabe, farsi) fueron ganados por RNN de LSTM profundos sin Un conjunto de GPU­MPCNN fue el primer sistema en lograr un reconocimiento de
ningún conocimiento lingüístico a priori , realizando segmentación y reconocimiento patrones visuales sobrehumanos (Ciresan, Meier, Masci, Schmidhuber, 2011; Ciresan, Meier,
simultáneos. Compárese con Graves y Jaitly (2014), Graves y Schmidhuber (2005), Graves Masci y Schmidhuber, 2012) en una competencia controlada, a saber, la señal de tráfico
et al. (2009), Graves et al. (2013) y Schmidhuber, Ciresan, Meier, Masci y Graves (2011) IJCNN 2011. concurso de reconocimiento en San José (CA) (Stallkamp, Schlipsing, Salmen,
(Sección 5.22). & Igel, 2011, 2012). Esto es de interés para los vehículos totalmente autónomos y autónomos
en el tráfico (por ejemplo, Dickmanns et al., 1994). El conjunto GPU­MPCNN obtuvo una
Para detectar acciones humanas en vídeos de vigilancia, una CNN tridimensional (p. ej., tasa de error del 0,56% y fue dos veces mejor que los sujetos de prueba humanos, tres
Jain y Seung, 2009; Prokhorov, 2010), combinada con SVM, formaba parte de un sistema veces mejor que el competidor NN artificial más cercano (Sermanet & LeCun, 2011) y seis
más grande (Yang et al., 2009) que utilizaba un conjunto de funciones. enfoque (Nowak, Jurie veces mejor que el mejor método no neuronal.
y Triggs, 2006) para extraer regiones de interés. El sistema ganó tres concursos TRECVID
en 2009.
Estos fueron posiblemente los primeros concursos internacionales oficiales ganados con la Unos meses antes, la ronda de clasificación se ganó en una competición online de
ayuda de (MP)CNN (Sección 5.16). Posteriormente se publicó una versión mejorada del primera fase, aunque por un margen mucho menor: 1,02% (Ciresan, Meier, Masci,
método (Ji, Xu, Yang y Yu, 2013). Schmidhuber, 2011) frente a 1,03% del segundo puesto (Sermanet & LeCun, 2011). .
En 2009 también se produjo una implementación de GPU­DBN (Raina, Madhavan y Ng, Después de la fecha límite, los organizadores revelaron que el rendimiento humano en el set
2009) órdenes de magnitud más rápida que las CPU­DBN anteriores (consulte la Sección de prueba fue del 1,19%. Es decir, los mejores métodos ya parecían humanos­competitivos.
5.15); véase también Coates et al. (2013). El DBN convolucional (Lee, Grosse, Ranganath y Sin embargo, durante la clasificación fue posible obtener información incremental sobre el
Ng, 2009) (con una variante probabilística de MP, Sección 5.11) combina ideas de CNN y conjunto de pruebas sondeándolo a través de presentaciones repetidas. Esto se ilustra con
DBN y se aplicó con éxito a la clasificación de audio (Lee, Pham, Largman y Ng, 2009). los resultados cada vez mejores obtenidos por varios equipos a lo largo del tiempo
(Stallkamp et al., 2012) (los organizadores finalmente impusieron un límite de 10 reenvíos).
En la competición final esto no fue posible.

5.18. 2010: backprop simple (+ distorsiones) en GPU bate el récord MNIST


Esto ilustra un problema general con los puntos de referencia cuyos conjuntos de
pruebas son públicos, o al menos pueden ser probados hasta cierto punto: los equipos
En 2010, el viejo BP (Sección 5.5) estableció un nuevo récord MNIST ( Sección 5.8 ) de competidores tienden a sobreajustarse en el conjunto de pruebas incluso cuando no se
una tasa de error del 0,35% en NN profundas pero por lo demás estándar (Ciresan, Meier, puede utilizar directamente para entrenamiento, sólo para evaluación.
Gambardella y Schmidhuber, 2010), sin utilizar métodos previos no supervisados. En 1997, muchos pensaron que era gran cosa que el campeón mundial de ajedrez
entrenamiento (por ejemplo, Secciones 5.7, 5.10, 5.15) ni convolución (por ejemplo, Kasparov fuera derrotado por una computadora IBM. Pero en aquel entonces las
Secciones 5.4, 5.8, 5.14, 5.16). Sin embargo, las deformaciones del patrón de entrenamiento computadoras no podían competir en absoluto con los niños pequeños en el reconocimiento
(por ejemplo, Sección 5.14) fueron importantes para generar un gran conjunto de de patrones visuales, lo que parece mucho más difícil que el ajedrez desde una perspectiva
entrenamiento y evitar el sobreajuste. Este éxito fue posible principalmente gracias a una computacional. Por supuesto, el dominio de las señales de tráfico está muy restringido y los
implementación de GPU de BP que era hasta 50 veces más rápida que las versiones de niños siguen siendo mucho mejores reconocedores de patrones generales. Sin embargo, en
CPU estándar. Se obtuvo un buen valor de 0,95% sin distorsiones, excepto por pequeñas 2011, las NN profundas ya podían aprender a rivalizar con ellas en importantes dominios
traslaciones similares a movimientos oculares sacádicos (compárese con la Sección 5.15). visuales limitados.
Un conjunto de GPU­MPCNN fue también el primer método para lograr un rendimiento
Dado que para entonces BP tenía entre 3 y 5 décadas (Sección 5.5), y las deformaciones humano competitivo (alrededor del 0,2%) en MNIST (Ciresan, Meier y Schmidhuber, 2012a).
de patrones dos décadas (Baird, 1990) (Sección 5.14), estos resultados parecían sugerir que Esto representó una mejora espectacular, ya que para entonces el registro del MNIST había
los avances en la explotación del hardware informático moderno eran más importantes que rondado el 0,4% durante casi una década (Secciones 5.14, 5.16, 5.18).
los avances en los algoritmos.
Machine Translated by Google

98 J. Schmidhuber / Redes neuronales 61 (2015) 85–117

Dado todo el trabajo previo sobre (MP)CNN (Secciones 5.4, 5.8, 5.11, 5.16) y GPU­ Structures in EM Stacks Challenge, 2012).2 Las pilas de EM son relevantes para los
CNN (Sección 5.16), las GPU­MPCNN no son un gran avance en el sentido científico. enormes proyectos cerebrales recientemente aprobados en Europa y Estados Unidos
Pero son un avance comercialmente relevante en codificación eficiente que ha marcado (por ejemplo, Markram, 2012). A partir de imágenes de microscopía electrónica de pilas
la diferencia en varios concursos desde 2011. Hoy en día, la mayoría de los NN de rodajas finas de cerebros de animales, el objetivo es construir un modelo 3D
profundos ganadores de la competencia de feedforward son (conjuntos de) GPU­ detallado de las neuronas y dendritas del cerebro. Pero los expertos humanos necesitan

MPCNN (Secciones 5.21 a 5.23). muchas horas, días y semanas para anotar las imágenes: ¿Qué partes representan las
membranas neuronales? ¿Qué partes son antecedentes irrelevantes? Esto debe
automatizarse (p. ej., Turaga et al., 2010). Las GPU­MPCNN de múltiples columnas
profundas aprendieron a resolver esta tarea a través de la experiencia con muchas
5.20. 2011: optimización sin arpillera para RNN
imágenes de entrenamiento y ganaron el concurso en las tres métricas de evaluación
por un amplio margen, con un rendimiento sobrehumano en términos de error de píxeles.
También en 2011 se demostró (Martens & Sutskever, 2011) que la optimización sin
hesse (por ejemplo, Møller, 1993; Pearlmutter, 1994; Schraudolph, 2002) (Sección
Tanto la detección de objetos (Ciresan et al., 2013) como la segmentación de
5.6.2) puede aliviar el problema fundamental del aprendizaje profundo (Sección 5.9). en
imágenes (Ciresan, Giusti, et al., 2012) se benefician de escaneos rápidos de imágenes
RNN, superando a los RNN de LSTM basados en gradientes estándar (Sección 5.13)
basados en MPCNN que evitan cálculos redundantes. Los escáneres MPCNN recientes
en varias tareas. Compare otros algoritmos RNN (Jaeger, 2004; Koutník et al., 2014;
aceleran las implementaciones ingenuas hasta en tres órdenes de magnitud (Giusti,
Pascanu, Mikolov, et al., 2013; Schmidhuber et al., 2007) que también, al menos a
Ciresan, Masci, Gambardella y Schmidhu­ber, 2013; Masci, Giusti, Ciresan, Fricout y
veces, arrojan mejores resultados que el descenso más pronunciado para los RNN de
Schmidhuber, 2013); compare métodos eficientes anteriores para CNN sin MP (Vaillant,
LSTM.
Monrocq y LeCun, 1994).

También en 2012, un sistema que consiste en FNN profundos en crecimiento y 2D­


5.21. 2012: primeros concursos ganados en ImageNet, detección de objetos, BRNN (Di Lena et al., 2012) ganó el concurso CASP 2012 sobre predicción de mapas
segmentación de contacto de proteínas. En el punto de referencia IAM­OnDoDB, los RNN de LSTM
(Sección 5.13) superaron a todos los demás métodos (HMM, SVM) en la detección del
En 2012, un conjunto de GPU­MPCNN (Sección 5.19) logró los mejores resultados modo en línea (Indermuhle, Frinken y Bunke, 2012; Otte, Krechel, Liwicki y Dengel,
en el punto de referencia de clasificación ImageNet (Krizhevsky, Sutskever y Hinton, 2012) y la detección de palabras clave. (Indermühle et al., 2011). En el problema del
2012), que es popular en la comunidad de visión por computadora. Aquí fueron largo retraso del modelado del lenguaje, los RNN de LSTM superaron a todos los
necesarios tamaños de imagen relativamente grandes de 256 × 256 píxeles, en enfoques estadísticos en el punto de referencia IAM­DB (Frinken et al., 2012);
comparación con los sólo 48 × 48 píxeles del concurso de señales de tráfico de 2011 Posteriormente se obtuvieron mejores resultados mediante una combinación de NN y
(Sección 5.19). Ver más mejoras en la Sección 5.22. HMM (Zamora­Martínez et al., 2014). Compare RNN anteriores para el reconocimiento
de objetos mediante interpretación iterativa de imágenes (Behnke, 2002, 2003b; Behnke
También en 2012, el NN más grande hasta el momento (109 parámetros libres) se y Rojas, 1998); véanse también publicaciones más recientes (O'Reilly, Wyatte, Herd,
entrenó en modo no supervisado (Secciones 5.7, 5.15) con datos sin etiquetar (Le et Mingus y Jilk, 2013; Wyatte, Curran y O'Reilly, 2012) que amplían el trabajo sobre
al., 2012) y luego se aplicó a ImageNet. Los códigos de su capa superior se utilizaron reglas de aprendizaje biológicamente plausibles para RNN (O'Reilly, 1996).

para entrenar un clasificador supervisado simple, que logró los mejores resultados hasta
el momento en 20.000 clases. En lugar de depender de una programación GPU
eficiente, esto se hizo mediante fuerza bruta en 1.000 máquinas estándar con 16.000
núcleos. 5.22. 2013­: más concursos y récords de referencia

Entonces, en 2011/2012, los estudiantes profundos habían logrado excelentes


resultados en el reconocimiento y clasificación de imágenes (Secciones 5.19, 5.21). Sin Una pila (Fernández et al., 2007b; Graves & Schmidhuber, 2009)

embargo, la comunidad de visión por computadora está especialmente interesada en la (Sección 5.10) de RNN LSTM bidireccionales (Graves & Schmidhuber, 2005) entrenados

detección de objetos en imágenes grandes, para aplicaciones como motores de por CTC (Secciones 5.13, 5.17) rompieron un famoso récord de reconocimiento de voz
(fonema) TIMIT, logrando una tasa de error del conjunto de pruebas del 17,7% (Graves
búsqueda basados en imágenes o para diagnóstico biomédico donde el objetivo puede
et al., 2013) , a pesar de los miles de años­hombre dedicados anteriormente a la
ser detectar automáticamente tumores, etc. en imágenes de tejido humano. La detección
investigación del reconocimiento de voz basada en el modelo oculto de Markov (HMM).
de objetos presenta desafíos adicionales. Un enfoque natural es entrenar un clasificador
Compare resultados anteriores de DBN (Sección 5.15).
NN profundo en parches de imágenes grandes y luego usarlo como un detector de
CTC­LSTM también ayudó a obtener la primera puntuación en la evaluación
características para desplazarlo a través de escenas visuales desconocidas, usando
OpenHaRT2013 del NIST (Bluche et al., 2014). Para el reconocimiento óptico de
varias rotaciones y factores de zoom.
caracteres (OCR), los RNN de LSTM superaron a los reconocedores comerciales de
Es probable que las partes de la imagen que producen unidades de salida altamente
datos históricos (Breuel et al., 2013). Los sistemas basados en LSTM también
activas contengan objetos similares a aquellos en los que se entrenó el NN.
establecieron récords de referencia en identificación de idiomas (González­Domínguez
En 2012 finalmente vio el primer sistema DL (un conjunto de GPU­MPCNN,
et al., 2014), reconocimiento de voz de vocabulario medio (Geiger et al., 2014),
Sección 5.19) ganar un concurso sobre detección visual de objetos (Ciresan, Giusti,
predicción de contornos de prosodia (Fernández et al., 2014), inicio de audio. detección
Gambardella y Schmidhuber, 2013) en imágenes grandes de varios millones de píxeles
(Marchi et al., 2014), síntesis de texto a voz (Fan et al., 2014) y clasificación de señales
(ICPR, 2012; Roux et al., 2013). sociales (Brueckner & Schulter, 2014).
Estas aplicaciones biomédicas pueden llegar a estar entre las aplicaciones más
importantes de la DL. El mundo gasta más del 10% del PIB en atención sanitaria (>6 Se utilizó un LSTM RNN para estimar los estados posteriores de un HMM; este
billones de dólares al año), gran parte del mismo en diagnósticos médicos a través de sistema superó el estado del arte anterior en reconocimiento de voz de vocabulario
costosos expertos. La automatización parcial de esto no sólo podría ahorrar mucho extenso (Sak, Senior, et al., 2014; Sak, Vinyals, et al., 2014). Otro LSTM RNN con
dinero, sino también hacer que los diagnósticos expertos sean accesibles para muchas cientos de millones de
personas que actualmente no pueden permitírselo. Es gratificante observar que hoy en
día las NN profundas pueden ayudar a mejorar la atención sanitaria y tal vez salvar
vidas humanas.
2
2012 también vio el primer concurso de segmentación de imágenes pura ganado Sin embargo, cabe mencionar que los RNN de LSTM ya realizaron segmentación y
reconocimiento simultáneos cuando se convirtieron en los primeros estudiantes profundos
por DL (Ciresan, Giusti, Gambardella y Schmidhuber, 2012), nuevamente a través de
recurrentes en ganar concursos internacionales oficiales de reconocimiento de patrones;
un conjunto GPU­MPCNN (Segmentation of Neuronal consulte la Sección 5.17.
Machine Translated by Google

J. Schmidhuber / Redes neuronales 61 (2015) 85–117 99

Se utilizaron conexiones para reordenar las hipótesis de un sistema de traducción Sorprendentemente, en la década de 1990 una tendencia pasó de pilas RNN
automática estadística; este sistema superó el estado del arte anterior en traducción del parcialmente no supervisadas (Sección 5.10) a RNN LSTM puramente supervisadas
inglés al francés (Sutskever et al., 2014). (Sección 5.13), al igual que en la década de 2000, una tendencia pasó de pilas FNN
Un conjunto de GPU­MPCNN (Sección 5.19) con un rendimiento casi humano parcialmente no supervisadas (Sección 5.15) a puramente MPCNN supervisadas
estableció un nuevo récord en el punto de referencia de reconocimiento de escritura a (secciones 5.16 a 5.22). Sin embargo, en muchas aplicaciones aún puede resultar
mano en chino ICDAR (más de 3700 clases) en una máquina de escritorio (Ciresan y ventajoso combinar lo mejor de ambos mundos: aprendizaje supervisado y preentrenamiento
Schmidhuber, 2013); compárese (Yin, Wang, Zhang y Liu, 2013). no supervisado (Secciones 5.10, 5.15).

El Gran Desafío MICCAI 2013 sobre Detección de Mitosis (Veta, Viergever, Pluim, 5.24. Trucos recientes para mejorar los NN profundos de SL (compare las Secciones
Stathonikos y van Diest, 2013) también lo ganó un conjunto GPU­MPCNN de detección 5.6.2, 5.6.3)
de objetos (Ciresan et al., 2013).
Su conjunto de datos era incluso mayor y más desafiante que el de ICPR 2012 (Sección El entrenamiento DBN (Sección 5.15) se puede mejorar mediante mejoras de
5.21): un conjunto de datos del mundo real que incluía muchos casos ambiguos y gradiente y ajustes automáticos de la tasa de aprendizaje durante el descenso de gradiente
problemas encontrados con frecuencia, como la tinción imperfecta de portaobjetos. estocástico (Cho, 2014; Cho, Raiko, & Ilin, 2013), y a través del tipo Tikhonov (Tikhonov,
Arsenin, & John). , 1977) regularización de las GBR (Cho, Ilin y Raiko, 2012). Los EA
Tres 2D­CNN (con agrupación media en lugar de MP, Sección 5.11) que observaron contractivos (Ri­fai, Vincent, Muller, Glorot y Bengio, 2011) desalientan las perturbaciones
tres proyecciones ortogonales de imágenes 3D superaron a los métodos 3D tradicionales unitarias ocultas en respuesta a las perturbaciones de entrada, de forma similar a como
en la tarea de segmentar el cartílago tibial en exploraciones de resonancia magnética de FMS (Sección 5.6.3) para los EA Lococode (Sección 5.6.4) desalienta las perturbaciones
rodilla de campo bajo (Prasoon et al., 2013). de salida en respuesta a perturbaciones de peso.
Las GPU­MPCNN profundas (Sección 5.19) también ayudaron a lograr mejores
resultados en importantes puntos de referencia de la comunidad de visión por computadora: Se entrenaron CNN jerárquicas en una pirámide de abstracción neuronal (por ejemplo,
clasificación ImageNet (Szegedy et al., 2014; Zeiler & Fergus, 2013) y, junto con los Behnke, 2003b, 2005) para reconstruir imágenes corrompidas por ruido estructurado
enfoques tradicionales, objeto PASCAL. detección (Girshick, Donahue, Darrell y Malik, (Behnke, 2001), imponiendo así representaciones de imágenes cada vez más abstractas
2013). También aprendieron a predecir las coordenadas del cuadro delimitador de objetos en capas cada vez más profundas.
en la base de datos Imagenet 2013 y obtuvieron resultados de última generación en tareas Posteriormente, los AE de eliminación de ruido utilizaron un procedimiento similar (Vincent et al., 2008).

de localización y detección (Sermanet et al., 2013). Las GPU­MPCNN también ayudaron El abandono (Ba y Frey, 2013; Hinton, Srivastava, Krizhevsky, Sutskever y
a reconocer números de varios dígitos en imágenes de Google Street View (Goodfellow, Salakhutdinov, 2012) elimina unidades de los NN durante el entrenamiento para mejorar
Bulatov, Ibarz, Arnoud y Shet, 2014), donde parte del NN fue entrenado para contar dígitos la generalización. Algunos lo ven como un método conjunto que entrena múltiples modelos
visibles; compare trabajos anteriores sobre la detección de "numerosidad" a través de de datos simultáneamente (Baldi y Sadowski, 2014). En determinadas circunstancias,
DBN (Stoianov y Zorzi, 2012). Este sistema también se destacó en el reconocimiento de también podría verse como una forma de aumento del conjunto de entrenamiento:
texto sintético distorsionado en acertijos reCAPTCHA . efectivamente, se eliminan cada vez más características informativas complejas de los
datos de entrenamiento. Compare la deserción escolar de los RNN (Pachitariu y Sahani,
2013; Pascanu, Gulcehre, Cho y Bengio, 2013; Pham, Kermorvant y Louradour, 2013).

Otras aplicaciones exitosas de CNN incluyen el análisis de escenas (Farabet, Couprie, Una aproximación determinista denominada abandono escolar rápido (Wang y Manning,

Najman y LeCun, 2013), la detección de objetos (Szegedy, Toshev y Erhan, 2013), la 2013) puede conducir a un aprendizaje y una evaluación más rápidos y fue adaptada para

detección de sombras (Khan, Bennamoun, Sohel y Togneri, 2014) y la clasificación de las RNN (Bayer, Osendorfer, Chen, Urban y van der Smagt, 2013). El abandono está

videos. (Karpathy et al., 2014) y neuroimagen de la enfermedad de Alzheimer (Li et al., estrechamente relacionado con técnicas más antiguas y biológicamente plausibles para

2014). añadir ruido a las neuronas o sinapsis durante el entrenamiento (por ejemplo, An, 1996;
Hanson, 1990; Jim, Giles y Horne, 1995; Murray y Edwards, 1993; Nadal y Parga, 1994). ;
Se mencionan concursos adicionales en las páginas web del Swiss AI Lab IDSIA, la
Schuster, 1992), que a su vez están estrechamente relacionados con la búsqueda de NN
Universidad de Toronto, la Universidad de Nueva York y la Universidad de Montreal.
de baja complejidad resistentes a perturbaciones, por ejemplo, a través de FMS (Sección
5.6.3). Los métodos variacionales estocásticos basados en MDL (Graves, 2011) también
están relacionados con FMS. Son útiles para RNN, donde los regularizadores clásicos
5.23. Técnicas exitosas actualmente: LSTM RNN y GPU­MPCNN
como la caída de peso (Sección 5.6.3) representan un sesgo hacia una capacidad de
memoria limitada (p. ej., Pascanu, Mikolov, et al., 2013). Compare trabajos recientes sobre
La mayoría de los Deep Learners ganadores de competencias o que establecen EA recurrentes variacionales (Bayer & Osendorfer, 2014).
récords de referencia en realidad utilizan una de dos técnicas supervisadas : (a) LSTM
recurrente (1997) entrenado por CTC (2006) (Secciones 5.13, 5.17, 5.21, 5.22), o (b) GPU
feedforward ­MPCNN (2011, Secciones 5.19, 5.21, 5.22) basadas en CNN (1979, Sección
5.4) con MP (1992, Sección 5.11) entrenado a través de BP (1989­2007, Secciones 5.8, La función de activación f de las unidades lineales rectificadas (ReLU) es f(x) = x para
5.16). x > 0, f(x) = 0 en caso contrario; compárese con el antiguo concepto de unidades
Las excepciones incluyen dos concursos de 2011 (Goodfellow, Courville y Bengio, rectificadas de media onda (Malik y Perona, 1990). Los NN ReLU son útiles para RBM
2011, 2012; Mesnil et al., 2011) especializados en la transferencia de aprendizaje de un (Maas, Hannun y Ng, 2013; Nair y Hinton, 2010), superaron las funciones de activación
conjunto de datos a otro (por ejemplo, Caruana, 1997; Pan y Yang, 2010; Schmidhuber, sigmoidal en NN profundos (Glorot, Bordes y Bengio, 2011) y ayudaron a obtener mejores
2004) . ). Sin embargo, las GPU­MPCNN profundas permiten una transferencia pura resultados en varios puntos de referencia. problemas en múltiples dominios (p. ej., Dahl,
basada en SL (Ciresan, Meier y Schmidhuber, 2012b), donde el entrenamiento previo en Sainath y Hinton, 2013; Krizhevsky et al., 2012).
un conjunto de entrenamiento mejora en gran medida el rendimiento en conjuntos bastante
diferentes, también en estudios más recientes (Donahue et al. ., 2013; Oquab, Bottou, Los NN con unidades lineales competitivas tienden a superar a aquellos con unidades
Laptev y Sivic, 2013). De hecho, los MPCNN profundos previamente entrenados por SL no lineales no competitivas y evitan un olvido catastrófico a través de BP cuando los
pueden extraer características útiles de imágenes muy diversas fuera del conjunto de conjuntos de entrenamiento cambian con el tiempo (Srivastava, Masci, Kazerounian,
entrenamiento, lo que produce mejores resultados que las características tradicionales y Gomez y Schmidhuber, 2013). En este contexto, elegir un algoritmo de aprendizaje puede
ampliamente utilizadas, como SIFT (Lowe, 1999, 2004) en muchas tareas de visión ser más importante que elegir funciones de activación (Goodfellow, Mirza, Da, Courville y
(Razavian, Azizpour, Sullivan y Carlsson, 2014). Bengio, 2014). Las NN Maxout (Goodfellow, Warde­Farley, Mirza, Courville y Bengio,
Para hacer frente a los cambios en los conjuntos de datos, las NN profundas de aprendizaje 2013) combinan interacciones competitivas y abandono (ver arriba) para lograr excelentes
lento también se combinaron con las NN "superficiales" de rápida adaptación (Kak, Chen resultados en ciertas áreas.
y Wang, 2010).
Machine Translated by Google

100 J. Schmidhuber / Redes neuronales 61 (2015) 85–117

puntos de referencia. Compare los primeros RNN con unidades competidoras para Seung, 2003; Canción, Miller y Abbott, 2000; Stemmler, 1996; Stoop, Schindler y
SL y RL (Schmidhuber, 1989b). Para abordar el sobreajuste, en lugar de depender Bunimovich, 2000; Tsodyks, Pawelzik y Markram, 1998; Tsodyks, Skaggs, Sejnowski
de regularizadores e hiperparámetros precableados (Bishop, 2006; Hertz, Krogh y y McNaughton, 1996; Zipser, Kehoe, Littlewort y Fuster, 1993).
Palmer, 1991), los RNN autodelimitantes (SLIM NN) con unidades competidoras
(Schmidhuber, 2012) pueden, en principio aprender a seleccionar su propio tiempo El futuro hardware energéticamente eficiente para DL en NN puede implementar
de ejecución y su propio número de parámetros libres efectivos, aprendiendo así sus aspectos de dichos modelos (p. ej., Fieres, Schemmel y Meier, 2008; Glackin,
propios regularizadores computables (Secciones 4.4, 5.6.3), volviéndose rápidos y McGinnity, Maguire, Wu y Belatreche, 2005; Indiveri et al., 2011; Jin et al. ., 2010;
delgados cuando sea necesario. Se puede penalizar la longitud total de las Khan et al., 2008; Liu et al., 2001; Merolla et al., 2014; Neil & Liu, 2014; Roggen,
conexiones específicas de la tarea (por ejemplo, Clune, Mouret y Lipson, 2013; Hofmann, Thoma, & Floreano, 2003; Schemmel, Grubl, Meier, & Mueller , 2006;
Legenstein y Maass, 2002; Schmidhuber, 2012, 2013b) y los costos de comunicación Serrano­Gotarredona et al., 2009). Una variante simulada de picos impulsada por
de las NN SLIM implementadas en el cerebro tridimensional. hardware multiprocesador eventos (Neftci, Das, Pedroni, Kreutz­Delgado y Cauwenberghs, 2014) de un RBM
que se espera en el futuro. (Sección 5.15) fue entrenada mediante una variante del algoritmo de Divergencia
Contrastiva (Hinton, 2002). Las redes de pinchazos se desarrollaron para lograr un
RmsProp (Schaul, Zhang y LeCun, 2013; Tieleman y Hinton, 2012) puede rendimiento razonable en pequeños conjuntos de datos de reconocimiento facial
acelerar los métodos de descenso de gradiente de primer orden (Secciones 5.5, (Wysoski, Benuskova y Kasabov, 2010) y para controlar robots simples (Floreano y
5.6.2); compárese vario­η (Neuneier y Zimmermann, 1996), Adagrad (Duchi, Hazan Mattiussi, 2001; Hagras, Pounds­Cornish, Colley, Callaghan y Clarke, 2004). ). Un
y Singer, 2011) y Adadelta (Zeiler, 2012). DBN con picos con aproximadamente 250 000 neuronas (como parte de un NN más
La DL en NN también se puede mejorar transformando las activaciones de unidades grande; Eliasmith, 2013; Eliasmith et al., 2012) logró una tasa de error del 6 % en
ocultas de modo que tengan salida cero y pendiente en promedio (Raiko, Valpola y MNIST; compare resultados similares con una variante de DBN de profundidad 3
LeCun, 2012). Muchos trucos antiguos y adicionales (Secciones 5.6.2, 5.6.3) también utilizando un sensor basado en eventos neuromórficos (O'Connor, Neil, Liu, Delbruck
deberían ser aplicables a las NN profundas actuales; comparar (Montavon et al., y Pfeiffer, 2013). Sin embargo, en aplicaciones prácticas, las redes artificiales
2012; Orr & Müller, 1998). actuales de neuronas con picos aún no pueden competir con las mejores NN
profundas tradicionales (por ejemplo, compare los resultados de MNIST de la Sección
5.25. Consecuencias para la neurociencia 5.19).

Es irónico que las NN artificiales (ANN) puedan ayudar a comprender mejor las
NN biológicas (BNN); consulte los resultados de ISBI 2012 mencionados en la
Sección 5.21 (Ciresan, Giusti, et al., 2012; Segmentation of Neuronal Structures in 6. DL en FNN y RNN para aprendizaje por refuerzo (RL)
EM Desafío de pilas, 2012).
Los detectores de características aprendidos por las RNA visuales de una sola Hasta ahora nos hemos centrado en el aprendizaje profundo (DL) en NN
capa son similares a los que se encuentran en las primeras etapas de procesamiento supervisadas o no supervisadas. Tales NN aprenden a percibir/codificar/predecir/
visual de las BNN (p. ej., Sección 5.6.4). Del mismo modo, los detectores de clasificar patrones o secuencias de patrones, pero no aprenden a actuar en el sentido
características aprendidos en capas profundas de RNA visuales deberían ser más general de aprendizaje por refuerzo (RL) en entornos desconocidos (véanse
altamente predictivos de lo que los neurocientíficos encontrarán en capas profundas encuestas, por ejemplo, Kaelbling et al., 1996; Sutton y Barto, 1998; Wiering y van
de BNN. Si bien la corteza visual de las BNN puede utilizar algoritmos de aprendizaje Otterlo, 2012). Aquí agregamos una discusión sobre DL FNN y RNN para RL. Será
bastante diferentes, su función objetivo a minimizar puede ser bastante similar a la más breve que la discusión sobre FNN y RNN para SL y UL (Sección 5), lo que
de las ANN visuales. De hecho, los resultados obtenidos con DBN artificiales refleja el tamaño actual de los distintos campos.
relativamente profundas (Lee, Ekanadham y Ng, 2007) y CNN (Yamins, Hong,
Cadieu y DiCarlo, 2013) parecen compatibles con conocimientos sobre la vía visual Sin un maestro, únicamente a partir de señales ocasionales de dolor y placer de
en la corteza cerebral de los primates, que ha ha sido estudiado durante muchas valor real, los agentes de RL deben descubrir cómo interactuar con un entorno
décadas (p. ej., Bichot, Rossi y Desimone, 2005; Connor, Brincat y Pasupathy, 2007; dinámico, inicialmente desconocido, para maximizar sus señales de recompensa
Desimone, Albright, Gross y Bruce, 1984; DiCarlo, Zoccolan y Rust, 2012; Felleman acumuladas esperadas (Sección 2 ). Puede haber retrasos arbitrarios, a priori
y Van Essen , 1991; Hubel y Wiesel, 1968; Hung, Kreiman, Poggio y DiCarlo, 2005; desconocidos, entre acciones y consecuencias perceptibles. El problema es tan
Kobatake y Tanaka, 1994; Kriegeskorte et al., 2008; Lennie y Movshon, 2005; difícil como cualquier problema de la informática, ya que cualquier tarea con una
Logothetis, Pauls y Poggio, 1995; Perrett, Hietanen, Oram, Benson y Rolls, 1992; descripción computable puede formularse en el marco de RL (por ejemplo, Hutter,
Perrett, Rolls y Caan, 1982); compare una encuesta orientada a la visión por 2005). Por ejemplo, una respuesta a la famosa pregunta de si P = NP (Cook, 1971;
computadora (Kruger et al., 2013). Levin, 1973b) también establecería límites a lo que se puede lograr mediante RL
general. Compárense limitaciones más específicas, por ejemplo, Blondel y Tsitsik­
lis (2000), Madani, Hanks y Condon (2003) y Vlassis, Littman y Barber (2012). Las
siguientes subsecciones se centran principalmente en ciertas intersecciones obvias
5.26. ¿DL con neuronas en aumento? entre DL y RL; no pueden servir como un estudio general de RL.

Muchos resultados recientes de DL se benefician de las NN profundas


tradicionales basadas en GPU, por ejemplo, las Secciones 5.16 a 5.19. Las GPU
actuales, sin embargo, son pequeños hornos, mucho más hambrientos de energía 6.1. Los modelos mundiales de RL a NN producen RNN con CAP profundos
que los cerebros biológicos, cuyas neuronas se comunican eficientemente mediante
breves picos (FitzHugh, 1961; Hodgkin y Huxley, 1952; Nagumo, Arimoto y En el caso especial de un controlador C de RL FNN que interactúa con un
Yoshizawa, 1962) y, a menudo, permanecen en silencio. Se han propuesto y entorno determinista y predecible , un FNN separado llamado M puede aprender a
analizado muchos modelos computacionales de dichas neuronas que se activan (por convertirse en el modelo mundial de C a través de la identificación del sistema,
ejemplo, Amit y Brunel, 1997; Bohte, Kok y La Poutre, 2002; Brea, Senn y Pfister, prediciendo las entradas de C a partir de acciones y entradas anteriores (p. ej., Co­
2013; Brette et al., 2007; Brunel, 2000). ; Deco & Rolls, 2005; Gerstner & Kistler, chocki & Unbehauen , 1993; Ge, Hang, Lee y Zhang, 2010; Gomi y Kawato, 1993;
2002; Gerstner & van Hemmen, 1992; Hoerzer, Legenstein, & Maass, 2014; Izhikevich Jordan, 1988; Jordan y Rumelhart, 1990; Levin y Narendra, 1995; Ljung, 1998; Miller,
et al., 2003; Kasabov, 2014; Kempter, Gerstner, & Van Hemmen, 1999; Kistler, Werbos y Sutton, 1995; Munro , 1987; Narendra y Parthasarathy, 1990; Prokhorov,
Gerstner y van Hemmen, 1997; Maass, 1996, 1997; Maex y Orban, 1996; Nessler, Pusko­rius y Feldkamp, 2001; Robinson y Fallside, 1989; Schmidhuber, 1990d;
Pfeiffer, Buesing y Maass, 2013; Rezende y Gerstner, 2014; Werbos, 1981, 1987, 1989a, 1989b, 1992). Supongamos que M tiene
Machine Translated by Google

J. Schmidhuber / Redes neuronales 61 (2015) 85–117 101

aprendió a producir predicciones precisas. Podemos usar M para sustituir el pesos que maximizan el V de todos los eventos de entrada, al provocar eventos o
entorno. Entonces M y C forman un RNN donde las salidas de M se convierten en acciones de salida apropiados.
entradas de C, cuyas salidas (acciones) a su vez se convierten en entradas de M. Debido al supuesto de Markov, una FNN es suficiente para implementar la
Ahora se puede utilizar BP para RNN (Sección 5.5.1) para lograr eventos de entrada política que asigna eventos de entrada a salida. Los CAP relevantes no son más
deseados, como alta señales de recompensa de valor real: mientras los pesos de M profundos que este FNN. El propio V a menudo se modela mediante un FNN
permanecen fijos, la información de gradiente para los pesos de C se propaga de separado (que también produce CAP típicamente cortos) que aprende a aproximar
regreso a través de M hacia C y de regreso a través de M , etc. V(xt) solo a partir de información local rt, V(xk).
Hasta cierto punto, el enfoque también es aplicable en entornos probabilísticos o Existen muchas variantes de la RL tradicional (p. ej., Abounadi, Bertsekas y
inciertos, siempre y cuando los productos internos de las estimaciones de gradiente Borkar, 2002; Baird, 1995; Baird y Moore, 1999; Barto, Sutton y Anderson, 1983;
basadas en C de M y los gradientes "verdaderos" de M tiendan a ser positivos. Bertsekas, 2001; Bradtke, Barto y Kaelbling, 1996; Brafman y Tennenholtz, 2002;
Kaelbling, Littman y Cassandra, 1995; Lagoudakis y Parr, 2003; Maei y Sutton,
En general, este enfoque implica CAP profundos para C, a diferencia del RL 2010; Mahadevan, 1996; Meuleau, Peshkin, Kim y Kaelbling, 1999; Moore y Atkeson,
tradicional basado en DP (Sección 6.2). Hace décadas, el método se utilizaba para 1993; Morimoto y Doya, 2000; Peng y Williams, 1996; Prokhorov y Wunsch, 1997;
aprender a dar marcha atrás en un modelo de camión (Nguyen y Widrow, 1989). Un Rummery y Niranjan, 1994; Santamaría, Sutton y Ram, 1997; Schwartz, 1993;
sistema de visión activa RL lo utilizó para aprender cambios secuenciales (sacádicos) Singh, 1994; Sutton y Barto, 1998; Sutton, Szepesvári y Maei, 2008; Tsitsiklis y van
de una fóvea, para detectar objetivos en escenas visuales (Schmidhuber & Huber, Roy, 1996; van Hasselt, 2012; Watkins, 1989; Watkins y Dayan, 1992; Wiering y

1991), aprendiendo así a controlar la atención selectiva. Compare el aprendizaje de Schmidhuber, 1998b). La mayoría están formulados en un marco probabilístico y
evalúan pares de eventos de entrada y salida (acción) (en lugar de eventos de
la atención basado en RL sin NN (Whitehead, 1992).
entrada únicamente). Para facilitar ciertas derivaciones matemáticas, algunos
descuentan recompensas retrasadas, pero tales distorsiones del problema RL
Para permitir recuerdos de eventos previos en mundos parcialmente observables
original son problemáticas.
(Sección 6.3), la variante más general de esta técnica utiliza RNN en lugar de FNN
para implementar tanto M como C (Feldkamp & Puskorius, 1998; Schmidhuber,
1990d, 1991c). Esto puede causar CAPs profundos no sólo para C sino también
para M.
Quizás el RL NN más conocido es el jugador de backgammon de clase mundial
M también se puede utilizar para optimizar la recompensa esperada mediante la
de RL (Tesauro, 1994), que alcanzó el nivel de campeones mundiales humanos
planificación de secuencias de acción futuras (Schmidhuber, 1990d). De hecho, los
jugando contra sí mismo. Su FNN no lineal y bastante superficial asigna un número
ganadores del Campeonato Mundial RoboCup de 2004 en la liga rápida (Egorova
grande pero finito de estados de tablero discretos a valores. Más recientemente, se
et al., 2004) entrenaron a NN para predecir los efectos de las señales de dirección
utilizó una GPU­CNN bastante profunda en un marco de RL tradicional para jugar
en robots rápidos con 4 motores para 4 ruedas diferentes. Durante el juego, estos
varios juegos de computadora Atari 2600 directamente desde una entrada de video
modelos NN se utilizaron para lograr subobjetivos deseables, optimizando
de 84 × 84 píxeles y 60 Hz (Mnih et al., 2013), utilizando la reproducción de
secuencias de acción mediante una planificación rápida y anticipada.
experiencia (Lin, 1993). , ampliando el trabajo anterior sobre Neural Fitted Q­
Este enfoque también se utilizó para crear robots autorreparables capaces de
Learning (NFQ) (Riedmiller, 2005). Se logran resultados aún mejores utilizando la
compensar motores defectuosos cuyos efectos ya no coinciden con las predicciones
planificación de árboles Monte Carlo (lenta) para entrenar NN profundos
de los modelos NN (Gloye, Wiesel, Tenchio y Simon, 2005; Schmidhuber, 2007).
comparativamente rápidos (Guo, Singh, Lee, Lewis y Wang, 2014). Compare RL
basado en RBM (Sallans & Hinton, 2004) con entradas de alta dimensión (Elfwing,
Normalmente M no se da por adelantado. Entonces una pregunta esencial es: Otsuka, Uchibe, & Doya, 2010), reproductores RL Atari anteriores (Grüttner, Sehnke,
¿qué experimentos debería realizar C para mejorar rápidamente M? Schaul, & Schmidhuber, 2010) y un modelo anterior , RL NN basado en video sin
La teoría formal de la diversión y la creatividad (p. ej., Schmidhuber, 2006a, 2013b) procesar para juegos de computadora (Koutník, Cuccu, Schmidhuber y Gomez,
formaliza las fuerzas impulsoras y las funciones de valor detrás de este 2013) entrenado mediante búsqueda de políticas indirectas (Sección 6.7).
comportamiento curioso y exploratorio: una medida del progreso del aprendizaje de
M se convierte en la recompensa intrínseca de C (Schmidhuber, 1991a); compárese
(Oudeyer, Baranes y Kaplan, 2013; Singh, Barto y Chentanez, 2005). Esto motiva a
6.3. RNN de RL profundo para MDP parcialmente observables (POMDP)
C a crear secuencias de acción (experimentos) de modo que M progrese rápidamente.
El supuesto de Markov (sección 6.2) suele ser poco realista. No podemos
percibir directamente lo que hay a nuestras espaldas, y mucho menos el estado
6.2. FNN profundos para procesos de decisión tradicionales de RL y Markov (MDP) actual del universo entero. Sin embargo, los recuerdos de eventos anteriores pueden
ayudar a lidiar con problemas de decisión de Markov (POMDP) parcialmente
observables (por ejemplo, Boutilier y Poole, 1996; Jaakkola, Singh y Jordan, 1995;
El enfoque clásico de RL (Bertsekas y Tsitsiklis, 1996; Samuel, 1959) parte del Kaelbling et al., 1995; Kimura, Miyazaki y Kobayashi). , 1997; Lin, 1993; Littman,
supuesto simplificador de los Procesos de Decisión de Markov (MDP): la entrada Cassandra y Kaelbling, 1995; McCallum, 1996; Otsuka, Yoshimoto y Doya, 2010;
actual del agente de RL transmite toda la información necesaria para calcular el Ring, 1991, 1993, 1994; Schmidhuber, 1990d, 1991c; Teller, 1994; Wiering y
siguiente evento o decisión de salida óptimo. . Esto permite reducir en gran medida Schmidhuber. , 1996, 1998a; Williams, 1992a). Una forma ingenua de implementar
la profundidad del CAP en RL NN (Secciones 3, 6.1) mediante el uso del truco de memorias sin salir del marco MDP (Sección 6.2) sería simplemente considerar un
Programación Dinámica (DP) (Bell­man, 1957). Esto último se explica a menudo espacio de estados posiblemente enorme, es decir, el conjunto de todos los
en un marco probabilístico (por ejemplo, Sutton y Barto, 1998), pero su idea básica historiales de observación posibles y sus prefijos. Una forma más realista es utilizar
ya puede transmitirse en un entorno determinista. Para simplificar, utilizando la aproximadores de funciones como RNN que producen características de estado
notación de la Sección 2, permita que los eventos de entrada xt codifiquen todo el compacto en función de toda la historia vista hasta ahora. En términos generales,
estado actual del entorno, incluida una recompensa de valor real rt (no es necesario POMDP RL a menudo usa DL RNN para aprender qué eventos memorizar y cuáles
introducir notación adicional con valores vectoriales, ya que los valores reales ignorar. Tres alternativas básicas son: 1. Usar un RNN como función de valor que
asigna historias de eventos arbitrarios a valores (por ejemplo, Bakker, 2002; Lin,
pueden codificar vectores arbitrarios). de valores reales). El objetivo RL original
(encontrar pesos que maximicen la suma de todas las recompensas de un episodio) 1993; Schmidhuber, 1990b, 1991c). Por ejemplo,
se reemplaza por un conjunto equivalente de objetivos alternativos establecidos se utilizaron RNN LSTM profundos de esta manera para robots RL (Bakker,
por una función de valor real V definida en eventos de entrada. Considere dos Zhumatiy, Gruener y Schmidhuber, 2003).
eventos de entrada posteriores cualesquiera xt, xk. Defina recursivamente V(xt) =
rt + V(xk), donde V(xk) = rk si xk es el último evento de entrada. Ahora busca
Machine Translated by Google

102 J. Schmidhuber / Redes neuronales 61 (2015) 85–117

2. Utilice un controlador RNN junto con un segundo RNN como modelo mundial 6.6. RL profunda mediante búsqueda directa de NN/gradientes de políticas/evolución
predictivo para obtener un RNN combinado con CAP profundos; consulte la Sección
6.1. No son tan universales como los métodos de la Sección 6.8, pero son prácticos y
3. Utilice un RNN para RL mediante búsqueda directa (Sección 6.6) o Búsqueda más generales que la mayoría de los algoritmos RL tradicionales (Sección 6.2) . Sin
indirecta (Sección 6.7) en el espacio de peso. necesidad de funciones de valor o suposiciones de Markov (Secciones 6.2, 6.3), los
pesos de un FNN o RNN se evalúan directamente en el problema RL dado. Los
Sin embargo, en general, los POMDP pueden implicar una profundidad de la PAC
resultados de ensayos sucesivos informan sobre la búsqueda de mejores pesos. A
mucho mayor.
diferencia del RL apoyado por BP (Secciones 5.5, 6.3, 6.1), la profundidad del CAP
(Secciones 3, 5.9) no es una cuestión crucial. DS puede resolver el problema de la
6.4. RL facilitada por UL profundo en FNN y RNN asignación de créditos sin retroceder a través de profundas cadenas causales de
parámetros modificables: no se preocupa por su existencia ni intenta explotarlos.
Las máquinas RL pueden beneficiarse de UL para el preprocesamiento de insumos
(por ejemplo, Jodogne y Piater, 2007). En particular, un UL NN puede aprender a
codificar de forma compacta entradas ambientales como imágenes o vídeos, por Una clase importante de métodos DS para NN son los métodos de gradiente de
ejemplo, Secciones 5.7, 5.10, 5.15. Los códigos compactos (en lugar de los datos brutos políticas (Aberdeen, 2003; Baxter & Bartlett, 2001; Ghavamzadeh & Mahadevan, 2003;
de alta dimensión) se pueden introducir en una máquina RL, cuyo trabajo puede resultar Grondman, Busoniu, Lopes, & Babuska, 2012; Grüttner et al., 2010; Heess, Silver ,&Teh,
mucho más fácil (Cuccu, Luciw, Schmidhuber y Gomez, 2011; Legenstein, Wilbert y 2012; Kohl&Stone, 2004; Peters, 2010; Peters & Schaal, 2008a, 2008b; Rückstieß,
Wiskott, 2010). al igual que SL puede beneficiarse de UL, por ejemplo, las Secciones Felder, & Schmidhuber, 2008; Sehnke et al., 2010; Sutton, McAllester, Singh, & Mansour,
5.7, 5.10, 5.15. Por ejemplo, NFQ (Riedmiller, 2005) se aplicó a tareas de control del 1999; Wierstra, Foerster, Peters y Schmidhuber, 2010; Wierstra, Schaul, Peters y
mundo real (Lange y Riedmiller, 2010; Riedmiller, Lange y Voigtlaender, 2012) donde Schmidhuber, 2008; Williams, 1986, 1988, 1992a). Los gradientes de la recompensa
las entradas puramente visuales se codificaban de forma compacta mediante total con respecto a las políticas (ponderaciones de NN) se estiman (y luego se explotan)
codificadores automáticos profundos (Secciones 5.7, 5.15) . ). RL combinado con UL mediante evaluaciones repetidas de NN.
basado en el análisis de características lentas (Kompella, Luciw y Schmidhuber, 2012;
Wiskott y Sejnowski, 2002) permitió que un robot humanoide real aprendiera habilidades
a partir de transmisiones de video sin procesar de alta dimensión (Luciw, Kompella, Los RL NN también pueden evolucionar a través de algoritmos evolutivos (EA)
Kaze­rounian y Schmidhuber, 2013). Para lidiar con los POMDP (Sección 6.3) que (Fogel, Owens y Walsh, 1966; Goldberg, 1989; Holland, 1975; Rechenberg, 1971;
involucran entradas de alta dimensión, se utilizó RL basado en RBM (Ot­suka, 2010) y Schwefel, 1974) en una serie de ensayos. Aquí varias políticas están representadas por
se empleó un RAAM (Pollack, 1988) (Sección 5.7) como un codificador de secuencia una población de NN mejorados a través de mutaciones y/o recombinaciones repetidas
profundo no supervisado. para RL (Gisslen et al., 2011). Ciertos tipos de RL y UL de los individuos más aptos de la población (por ejemplo, Fogel, Fogel y Porto, 1990;
también se combinaron en RNN biológicamente plausibles con neuronas activadas Happel y Murre, 1994; Maniezzo, 1994; Montana y Davis). , 1989; Nolfi, Parisi y Elman,
(Sección 5.26) (p. ej., Klampfl & Maass, 2013; Rezende & Gerstner, 2014; Yin et al., 1994). Compárese la Programación Genética (GP) (Cramer, 1985) (ver también Smith,

2012). 1980) que puede usarse para desarrollar programas informáticos de tamaño variable
(Dickmanns, Schmidhuber y Winkl­hofer, 1987; Koza, 1992), y la GP cartesiana ( Miller
& Harding, 2009; Miller & Thomson, 2000) para la evolución de programas similares a
gráficos, incluidos NN (Khan, Khan, & Miller, 2010) y su topología (Turner & Miller,
2013). Los métodos relacionados incluyen EA basados en distribución de probabilidad
6.5. RL jerárquico profundo (HRL) y aprendizaje de subobjetivos con FNN y RNN
(Baluja, 1994; Larraanaga & Lozano, 2001; Sałustowicz & Schmidhuber, 1997;
Saravanan & Fogel, 1995), Estrategias de evolución de estimación de matrices de
covarianza (CMA­ES) (Hansen, Müller, & Koumoutsakos, 2003; Hansen & Ostermeier,
Múltiples niveles de abstracción que se pueden aprender (Bengio et al., 2013; Deng 2001; Heidrich­Meisner & Igel, 2009; Igel, 2003) y NeuroEvolution of Aug­menting
& Yu, 2014; Fu, 1977; Lenat & Brown, 1984; Ring, 1994) parecen tan importantes para Topologies (NEAT) (Stanley & Miikkulainen, 2002). Los métodos híbridos combinan RL
RL como para SL. Desde principios de la década de 1990 se han publicado trabajos tradicionales basados en NN (Sección 6.2) y EA (por ejemplo, Whiteson y Stone, 2006).
sobre RL jerárquico (HRL) basado en NN . En particular, el descubrimiento de
subobjetivos basado en gradientes con FNN o RNN descompone las tareas de RL en
subtareas para submódulos de RL (Schmid­huber, 1991b; Schmidhuber y Wahnsiedler,
1992). Se han propuesto numerosas técnicas alternativas de HRL (por ejemplo, Bakker
y Schmidhuber, 2004; Barto y Mahadevan, 2003; Dietterich, 2000b; Doya, Samejima, Dado que los RNN son computadoras generales, la evolución de RNN es como GP
Katagiri y Kawato, 2002; Ghavamzadeh y Mahadevan, 2003; Jameson, 1991; Menache,
en el sentido de que puede desarrollar programas generales. Sin embargo, a diferencia
Mannor , y Shimkin, 2002; Moore y Atkeson, 1995; Precup, Sutton y Singh, 1998; Ring, de los programas secuenciales aprendidos por los GP tradicionales, los RNN pueden
1991, 1994; Samejima, Doya y Kawato, 2003; Simsek y Barto, 2008; Tenenberg, combinar el procesamiento de información secuencial y paralelo de una manera natural
Karlsson y White­head , 1993; Weiss, 1994; Whiteson, Kohl, Mükkulainen y Stone, y eficiente, como ya se mencionó en la Sección 1. Se han propuesto muchos
2005). Si bien los marcos de HRL como Feudal RL (Dayan & Hinton, 1993) y las evolucionadores de RNN (por ejemplo, Cliff, Husbands, & Harvey, 1993; Juang, 2004;
opciones (Barto, Singh, & Chentanez, 2004; Singh et al., 2005; Sutton, Precup, & Miglino, Lund y Nolfi, 1995; Miller, Todd y Hedge, 1989; Moriarty, 1997; Nolfi, Floreano,
Singh, 1999) no abordan directamente el problema. En el caso del descubrimiento Miglino y Mondada, 1994; Pasemann, Steinmetz y Dieckman, 1999; Sims, 1994;
automático de subobjetivos, HQ­Learning (Wiering y Schmidhuber, 1998a) descompone Whiteson, 2012; Wieland, 1991; Yamauchi & Beer, 1994; Yao, 1993). Una familia de
automáticamente los POMDP (Sección 6.3) en secuencias de subtareas más simples métodos particularmente eficaz coevoluciona neuronas, combinándolas en redes y
que pueden resolverse mediante políticas sin memoria que pueden aprenderse seleccionando para la reproducción aquellas neuronas que participaron en las redes de
mediante subagentes reactivos. El HRL reciente organiza submódulos de RL mejor rendimiento (Gómez, 2003; Gómez y Miikkulainen, 2003; Moriarty y Miikkulainen,
potencialmente profundos basados en NN en mapas de control motor bidimensionales y 1996). Esto puede ayudar a resolver POMDP profundos (Gómez y Schmidhuber, 2005).
autoorganizados (Ring, Schaul y Schmidhuber, 2011) inspirados en hallazgos
neurofisiológicos (Graziano, 2009).
La Neuroevolución Co­Sináptica (CoSyNE) hace algo similar a nivel de sinapsis o pesos
(Gomez, Schmidhuber, & Miikku­lainen, 2008); Los beneficios de esto se demostraron
en difíciles puntos de referencia POMDP no lineales.
Machine Translated by Google

J. Schmidhuber / Redes neuronales 61 (2015) 85–117 103

Estrategias de evolución natural (NES) (Glasmachers, Schaul, Sun, Wierstra y profundidad del problema que son óptimas en el tiempo en varios sentidos teóricos
Schmidhuber, 2010; Sun, Gomez, Schaul y Schmid­huber, 2013; Sun, Wierstra, (Hutter, 2002, 2005; Schmidhuber, 2002, 2006b). En particular, la máquina de
Schaul y Schmidhuber, 2009; Wier­stra et al. , 2008) vinculan los métodos de Gödel se puede implementar en computadoras generales como las RNN y puede
gradiente de políticas y los enfoques evolutivos a través del concepto de gradientes mejorar cualquier parte de su software (incluido el propio algoritmo de aprendizaje)
naturales (Amari, 1998). La evolución de RNN también puede ayudar a mejorar SL de una manera que, en cierto sentido, sea demostrablemente óptima en el tiempo
para RNN profundos a través de Evolino (Schmidhuber et al., 2007) (Sección 5.9). (Schmidhuber, 2006b). Puede inicializarse mediante un metamétodo asintóticamente
óptimo (Hutter, 2002) (también aplicable a RNN) que resolverá cualquier problema
bien definido tan rápidamente como la forma más rápida desconocida de resolverlo,
6.7. RL profundo mediante búsqueda de políticas indirectas/búsqueda NN comprimida
salvo por una sobrecarga constante aditiva que se vuelve insignificante. a medida
que crece el tamaño del problema. Tenga en cuenta que la mayoría de los
Algunos métodos DS (Sección 6.6) pueden desarrollar NN con cientos o miles problemas son grandes; sólo unos pocos son pequeños.
de pesos, pero no millones. ¿Cómo buscar NN grandes y profundas? La mayoría Los investigadores de IA y DL todavía están en el negocio porque muchos están

de los métodos SL y RL mencionados hasta ahora buscan de alguna manera el interesados en problemas tan pequeños que vale la pena intentar reducir los
gastos generales mediante métodos menos generales, incluida la heurística. Aquí
espacio de pesos wi . Algunos se benefician de una reducción
no discutiré más los métodos universales de RL, que van más allá de lo que
del espacio de búsqueda a través de wi compartida que se reutiliza una y otra vez,
normalmente se llama DL.
por ejemplo, en CNN (Secciones 5.4, 5.8, 5.16, 5.21), o en RNN para SL (Secciones
5.5, 5.13, 5.17 ) y RL. (Secciones 6.1, 6.3, 6.6).
7. Conclusión y perspectivas
Sin embargo, es posible explotar regularidades/compresibilidades adicionales
en el espacio de soluciones, mediante una búsqueda indirecta en el espacio de
pesos. En lugar de desarrollar directamente NN grandes (Sección 6.6), a veces El aprendizaje profundo (DL) en redes neuronales (NN) es relevante para el
se puede reducir en gran medida el espacio de búsqueda desarrollando aprendizaje supervisado (SL) (Sección 5), el aprendizaje no supervisado (UL)
codificaciones compactas de NN, por ejemplo, a través de Lindenmeyer Systems (Sección 5) y Aprendizaje por refuerzo (RL) (Sección 6). Al aliviar los problemas
(Jacob, Lindenmayer y Rozenberg, 1994; Lindenmayer, 1968), reescritura de con las Rutas de Asignación de Crédito profundas (CAP, Secciones 3, 5.9), UL
gráficos. (Kitano, 1990), Codificación celular (Gruau, Whitley y Pyeatt, 1996), (Sección 5.6.4) no solo facilita SL de secuencias (Sección 5.10) y patrones
estacionarios (Secciones 5.7, 5.15), sino también RL (Secciones 6.4). , 4.2). La
HyperNEAT (Clune, Stanley, Pennock y Ofria, 2011; D'Ambrosio y Stanley, 2007;
programación dinámica (DP, Sección 4.1) es importante tanto para SL profundo
Stanley, D'Ambrosio y Gauci, 2009 ; van den Berg & Whiteson, 2013) (ampliando
(Sección 5.5) como para RL tradicional con NN profundos (Sección 6.2). Una
NEAT; Sección 6.6), y extensiones del mismo (por ejemplo, Risi & Stanley, 2012).
búsqueda de NN de baja complejidad, resistentes a las perturbaciones (Secciones
5.6.3, 5.15, 5.24) y de baja complejidad que se puedan describir con unos pocos
Esto ayuda a evitar el sobreajuste (compárese con las Secciones 5.6.3, 5.24) y
bits de información (Sección 4.4) puede reducir el sobreajuste y mejorar SL y UL
está estrechamente relacionado con los temas de regularización y MDL (Sección 4.4).
profundos (Secciones 5.6.3, 5.6.3, 5.24). 5.6.4) , así como RL (Sección 6.7),
Un enfoque general (Schmidhuber, 1997) tanto para SL como para RL busca
también en el caso de entornos parcialmente observables (Sección 6.3). Deep SL,
codificar de forma compacta pesos de NN grandes (Schmidhuber, 1997) a través
UL, RL a menudo crean jerarquías de representaciones cada vez más abstractas
de programas escritos en un lenguaje de programación universal (Church, 1936;
de datos estacionarios (Secciones 5.3, 5.7, 5.15), datos secuenciales (Sección
Gödel, 1931 ; Post, 1936; Turing, 1936 ).
5.10) o políticas de RL (Sección 6.5). Si bien UL puede facilitar SL, SL puro para
A menudo es mucho más eficiente buscar sistemáticamente el espacio de tales
NN feedforward (FNN) (Secciones 5.5, 5.8, 5.16, 5.18) y NN recurrentes (RNN)
programas con un sesgo hacia programas cortos y rápidos (Levin, 1973b;
(Secciones 5.5, 5.13) no solo ganó los primeros concursos (Secciones 5.12, 5.14)
Schmidhuber, 1997, 2004), en lugar de buscar directamente en el enorme espacio
sino también la mayoría de los recientes (Secciones 5.17 a 5.22). Especialmente
de posibles matrices de peso NN. Un lenguaje universal anterior para codificar NN
DL en FNN se benefició de las implementaciones de GPU (Secciones 5.16 a 5.19).
era similar a un ensamblador (Schmidhuber, 1997). Trabajos más recientes utilizan
En particular, las NN convolucionales basadas en GPU (Sección 5.19), Max­
lenguajes más prácticos basados en coeficientes de transformadas populares
Pooling (Sección 5.11) (Secciones 5.4, 5.8, 5.16) ganaron competencias no solo
(Fourier, wavelet, etc.).
en reconocimiento de patrones (Secciones 5.19 a 5.22) , sino también en
En particular, las matrices de peso RNN se pueden comprimir como imágenes,
segmentación de imágenes (Sección 5.21) y objetos. detección (Secciones 5.21,
codificándolas mediante los coeficientes de una transformada de coseno discreto
5.22).
(DCT) (Koutník et al., 2013; Koutník, Gomez y Schmidhuber, 2010). Las
descripciones compactas basadas en DCT se pueden desarrollar a través de NES
A diferencia de estos sistemas, los humanos aprenden a percibir patrones
o CoSyNE (Sección 6.6). Un RNN con más de un millón de pesos aprendió (sin
activamente dirigiendo secuencialmente la atención a partes relevantes de los
profesor) a conducir un automóvil simulado en el juego de conducción TORCS
datos disponibles. Los NN profundos en un futuro cercano también lo harán,
(Loiacono, Cardamone y Lanzi, 2011; Loiacono et al., 2009), basado en un video
ampliando el trabajo previo desde 1990 sobre NN que aprenden atención selectiva
de alta dimensión. flujo de entrada visual (Koutník et al., 2013). El RNN aprendió
a través de RL de (a) acciones motoras como el control sacádico (Sección 6.1) y
tanto el control como el procesamiento visual desde cero, sin la ayuda de UL. (Por
(b) acciones internas que controlan los focos de atención dentro de los RNN.
supuesto, UL podría ayudar a generar códigos de imagen más compactos
cerrando así el circuito sensoriomotor general a través de retroalimentación tanto
(Secciones 6.4, 4.2) para introducirlos en un RNN más pequeño, para reducir el
externa como interna (p. ej., Secciones 2, 5.21, 6.6, 6.7).
esfuerzo computacional general).
Muchas NN profundas futuras también tendrán en cuenta que activar las
neuronas y enviar señales entre ellas cuesta energía.
Los cerebros parecen minimizar tales costos computacionales durante la
6.8. RL universal resolución de problemas de al menos dos maneras: (1) En un momento dado, sólo
una pequeña fracción de todas las neuronas está activa porque la competencia
Los algoritmos de aprendizaje de propósito general pueden mejorarse a sí local a través de mecanismos en los que el ganador se lo lleva todo apaga a
mismos de manera abierta y de manera específica para el entorno en un contexto muchos vecinos. neuronas entrantes, y solo los ganadores pueden activar otras
de aprendizaje permanente (Schmidhuber, 1987; Schmidhuber, Zhao y neuronas a través de conexiones salientes (compárese con SLIM NN; Sección
Schraudolph, 1997; Schmidhuber, Zhao y Wiering, 1997). El tipo más general de 5.24). (2) Numerosas neuronas están escasamente conectadas en un volumen
RL está limitado únicamente por las limitaciones fundamentales de computabilidad 3D compacto mediante muchas conexiones de corto alcance y pocas de largo
identificadas por los fundadores de la informática teórica (Church, 1936; Gödel, alcance (muy parecidas a los microchips de las supercomputadoras tradicionales).
1931; Post, 1936; Turing, 1936). Sorprendentemente, existen modelos de A menudo, las neuronas vecinas se asignan para resolver una única tarea, lo que
solucionadores de problemas universales o máquinas RL universales para un uso reduce los costes de comunicación. La física parece dictar que cualquier hardware
ilimitado. computacional eficiente en el futuro también tendrá que ser similar a un cerebro.
Machine Translated by Google

104 J. Schmidhuber / Redes neuronales 61 (2015) 85–117

de acuerdo con estas dos limitaciones. Sin embargo, los RNN profundos Anguita, D. y Gomes, BA (1996). Combinación de formatos de punto fijo y flotante para el aprendizaje de
redes neuronales en neuroprocesadores. Microprocesamiento y microprogramación, 41 (10), 757–769.
actuales más exitosos no lo son. A diferencia de ciertos NN con picos (Sección
5.26), generalmente activan todas las unidades al menos ligeramente y tienden Anguita, D., Parodi, G. y Zunino, R. (1994). Una implementación eficiente de BP en
a estar fuertemente conectados, ignorando las limitaciones naturales del Estaciones de trabajo basadas en RISC. Neurocomputación, 6(1), 57–65.

hardware 3D. Debería ser posible mejorarlos adoptando (1) y (2), y minimizando Arel, I., Rose, DC y Karnowski, TP (2010). Aprendizaje automático profundo: una nueva frontera en la
investigación de la inteligencia artificial. Revista IEEE Computational Intelligence, 5(4), 13–18.
los costos no diferenciables de energía y comunicación mediante la búsqueda
directa en el espacio (peso) del programa (por ejemplo, Secciones 6.6 , 6.7). Ceniza, T. (1989). Creación de nodos dinámicos en redes neuronales de retropropagación.
Ciencia de la conexión, 1(4), 365–375.
Estos RNN más parecidos a un cerebro asignarán partes de RNN vecinas a
Atick, J. J., Li, Z. y Redlich, AN (1992). Comprender la codificación de colores de la retina desde los primeros
comportamientos relacionados y partes de RNN distantes a comportamientos principios. Computación neuronal, 4, 559–572.
menos relacionados, automodularizándose así de una manera más general que Atiya, AF y Parlos, AG (2000). Nuevos resultados sobre entrenamiento recurrente de redes: unificando los
la de los mapas autoorganizados tradicionales en FNN (Sección 5.6.4) . ). algoritmos y acelerando la convergencia. Transacciones IEEE en redes neuronales, 11(3), 697–709.

También implementarán la navaja de Occam (Secciones 4.4, 5.6.3) como


Ba, J. y Frey, B. (2013). Abandono adaptativo para entrenar redes neuronales profundas.
subproducto de la minimización de energía, al encontrar soluciones de En Avances en los sistemas de procesamiento de información neuronal (NIPS) (págs. 3084­3092).
problemas simples (altamente generalizadoras) que requieren pocas neuronas Baird, H. (1990). Modelos de defectos de imagen de documento. En Actas, taller de la IAPR sobre
Reconocimiento de patrones sintácticos y estructurales.
activas y pocas conexiones, en su mayoría cortas.
Baird, LC (1995). Algoritmos residuales: Aprendizaje por refuerzo con aproximación de funciones. En
El futuro más lejano puede pertenecer a algoritmos de aprendizaje de Conferencia internacional sobre aprendizaje automático (págs. 30­37).
propósito general que mejoren de manera demostrablemente óptima (Sección Baird, L. y Moore, AW (1999). Descenso de gradiente para aprendizaje por refuerzo general. En Avances en
sistemas de procesamiento de información neuronal, vol. 12 (NIPS) (págs. 968–974). Prensa del MIT.
6.8), pero aún no son prácticos ni comercialmente relevantes.
Bakker, B. (2002). Aprendizaje por refuerzo con memoria a largo plazo. En TG
Dietterich, S. Becker y Z. Ghahramani (Eds.), Avances en los sistemas de procesamiento de información
Expresiones de gratitud neuronal, vol. 14 (págs. 1475­1482). Cambridge, MA: MIT Press.
Bakker, B. y Schmidhuber, J. (2004). Aprendizaje por refuerzo jerárquico basado en el descubrimiento de
subobjetivos y la especialización de subpolíticas. En F. Groen, et al. (Eds.), Proc. Octava conferencia
Desde el 16 de abril de 2014, los borradores de este documento se han sobre sistemas autónomos inteligentes IAS­8 (págs. 438–445). Ámsterdam, Países Bajos: IOS Press.
sometido a una revisión masiva y abierta por pares en línea a través de listas
Bakker, B., Zhumatiy, V., Gruener, G. y Schmidhuber, J. (2003). Un robot que aprende por refuerzo a
de correo públicas que incluyen connectists@cs.cmu.edu, ml­ identificar y memorizar observaciones previas importantes. En Actas de la conferencia internacional
news@googlegroups.com, comp­neuro@neuroinf.org, IEEE/RSJ de 2003 sobre robots y sistemas inteligentes (págs. 430–435).
genetic_programming@yahoogroups.com, rl­list@googlegroups.com ,
Baldi, P. (1995). Descripción general de los algoritmos de aprendizaje de descenso de gradientes: una
imageworld@diku.dk, Foro de aprendizaje automático de Google+ . Gracias a
perspectiva general de los sistemas dinámicos. Transacciones IEEE en redes neuronales, 6(1), 182–
numerosos expertos de NN/DL por sus valiosos comentarios. Gracias al SNF, 195.
Baldi,
a la DFG y a la Comisión Europea por financiar parcialmente mi grupo de investigación deP.DL (2012). Codificadores
durante automáticos,
el último cuarto aprendizaje
de siglo. no supervisado y arquitecturas profundas.
Revista de investigación sobre aprendizaje automático, 27, 37–50. (Proc. 2011 Taller ICML sobre
El contenido de este documento puede utilizarse con fines educativos y no
aprendizaje por transferencia y no supervisado).
comerciales, incluidos artículos para Wikipedia y sitios similares. Baldi, P., Brunak, S., Frasconi, P., Pollastri, G. y Soda, G. (1999). Explotando el pasado y el futuro en la
predicción de la estructura secundaria de proteínas. Bioinformática, 15, 937–946.

Baldi, P. y Chauvin, Y. (1993). Redes neuronales para el reconocimiento de huellas dactilares. Neural
Referencias Computación, 5(3), 402–418.
Baldi, P. y Chauvin, Y. (1996). Modelado híbrido, arquitecturas HMM/NN y aplicaciones de proteínas.
Aberdeen, D. (2003). Algoritmos de gradiente de políticas para procesos de decisión de Markov parcialmente Computación neuronal, 8 (7), 1541­1565.
observables (tesis doctoral), Universidad Nacional de Australia. Baldi, P. y Hornik, K. (1989). Redes neuronales y análisis de componentes principales: aprender de ejemplos
Abounadi, J., Bertsekas, D. y Borkar, VS (2002). Algoritmos de aprendizaje para procesos de decisión de sin mínimos locales. Redes neuronales, 2, 53–58.
Markov con coste medio. Revista SIAM sobre control y optimización, 40 (3), 681–698. Baldi, P. y Hornik, K. (1995). Aprendizaje en redes lineales: una encuesta. Transacciones IEEE
sobre redes neuronales, 6 (4), 837–858. 1995.
Akaike, H. (1970). Identificación de predictores estadísticos. Anales del Instituto de Matemática Estadística, Baldi, P. y Pollastri, G. (2003). El diseño de principios de arquitecturas de redes neuronales recursivas a gran
22, 203–217. escala: DAG­RNN y el problema de predicción de la estructura de proteínas. Revista de investigación
Akaike, H. (1973). Teoría de la información y una extensión del principio de máxima verosimilitud. En sobre aprendizaje automático, 4, 575–602.
Segunda Internacional. simposio sobre teoría de la información (págs. 267­281). Baldi, P. y Sadowski, P. (2014). El algoritmo de aprendizaje de abandono. Artificial
Akademinai Kiado.
Inteligencia, 210C, 78–122.
Akaike, H. (1974). Una nueva mirada a la identificación de modelos estadísticos. Transacciones IEEE sobre
Ballard, DH (1987). Aprendizaje modular en redes neuronales. En Proc. AAAI
control automático, 19(6), 716–723.
(págs. 279–284).
Allender, A. (1992). Aplicación de la complejidad de Kolmogorov con límite de tiempo en la teoría de la
Baluja, S. (1994). Aprendizaje incremental basado en la población: un método para integrar la optimización
complejidad. En O. Watanabe (Ed.), monografías de EATCS sobre informática teórica, complejidad de
de funciones basadas en búsqueda genética y el aprendizaje competitivo. Informe técnico CMU­
Kolmogorov y complejidad computacional (págs. 6­22).
CS­94­163. Universidad de Carnegie mellon.
Saltador.
Balzer, R. (1985). Una perspectiva de 15 años sobre la programación automática. Transacciones IEEE sobre
Almeida, LB (1987). Una regla de aprendizaje para perceptrones asincrónicos con retroalimentación en un
ingeniería de software, 11 (11), 1257–1268.
entorno combinatorio. En IEEE 1ª conferencia internacional sobre redes neuronales, vol. 2 (págs. 609–
Barlow, HB (1989). Aprendizaje sin supervisión. Computación neuronal, 1 (3), 295–311.
618).
Barlow, HB, Kaushal, TP y Mitchison, GJ (1989). Encontrar la entropía mínima
Almeida, LB, Almeida, LB, Langlois, T., Amaral, JD y Redol, RA (1997). Adaptación del tamaño del paso en
códigos. Computación neuronal, 1 (3), 412–423.
línea. Informe técnico, INESC, 9 Rua Alves Redol, 1000.
Barrow, HG (1987). Aprendizaje de campos receptivos. En Actas de la primera conferencia anual del IEEE
Amari, S. (1967). Una teoría de clasificadores de patrones adaptativos. Transacciones IEEE en computadoras
sobre redes neuronales, vol. IV (págs. 115­121). IEEE.
electrónicas, 16(3), 299–307.
Barto, AG y Mahadevan, S. (2003). Avances recientes en el aprendizaje por refuerzo jerárquico. Sistemas
Amari, S.­I. (1998). El gradiente natural funciona eficientemente en el aprendizaje. Computación neuronal, 10
dinámicos de eventos discretos, 13 (4), 341–379.
(2), 251–276.
Barto, AG, Singh, S. y Chentanez, N. (2004). Aprendizaje intrínsecamente motivado de conjuntos jerárquicos
Amari, S., Cichocki, A. y Yang, H. (1996). Un nuevo algoritmo de aprendizaje para la separación de señales
de habilidades. En Actas de la conferencia internacional sobre aprendizaje para el desarrollo (págs.
ciegas. En DS Touretzky, MC Mozer y ME Hasselmo (Eds.), Avances en los sistemas de procesamiento
112­119). Cambridge, MA: MIT Press.
de información neuronal (NIPS), vol. 8. La prensa del MIT.
Amari, S. y Murata, N. (1993). Teoría estadística de curvas de aprendizaje bajo criterio de pérdida entrópica. Barto, AG, Sutton, RS y Anderson, CW (1983). Elementos adaptativos tipo neurona que pueden resolver

Computación neuronal, 5 (1), 140­153. problemas difíciles de control del aprendizaje. Transacciones IEEE sobre sistemas, hombre y cibernética,

Amit, DJ y Brunel, N. (1997). Dinámica de una red recurrente de neuronas activas antes y después del SMC­13, 834–846.

aprendizaje. Red: Computación en sistemas neuronales, 8(4), 373–404. Battiti, R. (1989). Aprendizaje acelerado de retropropagación: dos optimizaciones
métodos. Sistemas complejos, 3(4), 331–342.
An, G. (1996). Los efectos de agregar ruido durante el entrenamiento de retropropagación en un rendimiento Battiti, T. (1992). Métodos de aprendizaje de primer y segundo orden: entre el descenso más pronunciado y
de generalización. Computación neuronal, 8 (3), 643–674. el método de Newton. Computación neuronal, 4 (2), 141–166.
Andrade, MA, Chacón, P., Merelo, JJ y Morán, F. (1993). Evaluación de la estructura secundaria de proteínas Baum, EB y Haussler, D. (1989). ¿Qué tamaño de red da una generalización válida? Neural
a partir de espectros de dicroísmo circular UV utilizando una red neuronal de aprendizaje no supervisado. Computación, 1(1), 151–160.
Ingeniería de proteínas, 6(4), 383–390. Baum, LE y Petrie, T. (1966). Inferencia estadística para funciones probabilísticas de cadenas de Markov de
Andrews, R., Diederich, J. y Tickle, AB (1995). Estudio y crítica de técnicas de extracción de reglas a partir estados finitos. Anales de estadística matemática, 1554­1563.
de redes neuronales artificiales entrenadas. Sistemas basados en el conocimiento, 8(6), 373–389. Baxter, J. y Bartlett, PL (2001). Estimación del gradiente de políticas de horizonte infinito. Revista de
investigación en inteligencia artificial, 15 (1), 319–350.
Machine Translated by Google

J. Schmidhuber / Redes neuronales 61 (2015) 85–117 105

Bayer, J. y Osendorfer, C. (2014). Inferencia variacional de secuencias de estados latentes utilizando Bodenhausen, U. y Waibel, A. (1991). El algoritmo Tempo 2: ajuste de retrasos temporales mediante
redes recurrentes. Preimpresión de ArXiv arXiv:1406.1655. aprendizaje supervisado. En DS Lippman, JE Moody y DS Touretzky (Eds.), Avances en sistemas
Bayer, J., Osendorfer, C., Chen, N., Urban, S. y van der Smagt, P. (2013). Sobre el abandono rápido y su de procesamiento de información neuronal, vol. 3 (págs. 155­161).
aplicabilidad a redes recurrentes. Preimpresión de ArXiv arXiv:1311.0701. Morgan Kaufman.
Bohte, SM, Kok, JN y La Poutre, H. (2002). Propagación hacia atrás de errores en redes codificadas
Bayer, J., Wierstra, D., Togelius, J. y Schmidhuber, J. (2009). Evolución de estructuras de células de temporalmente de neuronas con picos. Neurocomputación, 48 (1), 17–37.
memoria para el aprendizaje de secuencias. En Proc. ICANN (2) (págs. 755–764). Boltzmann, L. (1909). En F. Hasenöhrl (Ed.), Wissenschaftliche Abhandlungen. Leipzig: Barth (colección
Bayes, T. (1763). Un ensayo para resolver un problema en la doctrina de las posibilidades. Transacciones de artículos de Boltzmann en revistas científicas).
filosóficas de la Royal Society de Londres, 53, 370–418. Bottou, L. (1991). Une approche théorique de l'apprentissage connexioniste; aplicaciones à la
Comunicado por R. Price, en carta dirigida a J. Canton. reconnaissance de la parole (tesis doctoral), Universidad de París XI.
Becker, S. (1991). Procedimientos de aprendizaje no supervisado para redes neuronales. Bourlard, H. y Morgan, N. (1994). Reconocimiento de voz conexionista: un híbrido
Revista internacional de sistemas neuronales, 2(1–2), 17–33. acercarse. Editores académicos de Kluwer.
Becker, S. y Le Cun, Y. (1989). Mejorar la convergencia del aprendizaje de retropropagación con métodos Boutilier, C. y Poole, D. (1996). Calcular políticas óptimas para procesos de decisión de Markov
de segundo orden. En D. Touretzky, G. Hinton y T. Sejnowski (Eds.), Proc. Escuela de verano de parcialmente observables utilizando representaciones compactas. En Actas de la AAAI.
modelos conexionistas de 1988, 1988 (págs. 29­37). San Mateo: Morgan Kaufmann.
Bradtke, SJ, Barto, AG y Kaelbling, LP (1996). Algoritmos de mínimos cuadrados lineales para el
Behnke, S. (1999). Aprendizaje y competencia hebbianos en la pirámide de abstracción neuronal. En aprendizaje de diferencias temporales. Aprendizaje automático, 22–33.
Actas de la conferencia conjunta internacional sobre redes neuronales, vol. 2 (págs. 1356­1361). Brafman, RI y Tennenholtz, M. (2002). R­MAX: un algoritmo de tiempo polinómico general para un
aprendizaje por refuerzo casi óptimo. Revista de investigación sobre aprendizaje automático, 3, 213–
Behnke, S. (2001). Aprendizaje de la reconstrucción iterativa de imágenes en la pirámide de abstracción 231.
neuronal. Revista internacional de aplicaciones e inteligencia computacional, 1(4), 427–438. Brea, J., Senn, W. y Pfister, J.­P. (2013). Emparejamiento de recuperación y almacenamiento en
aprendizaje secuencial con redes neuronales activas. La Revista de Neurociencia, 33(23), 9565–
Behnke, S. (2002). Aprendizaje de la localización facial mediante redes recurrentes jerárquicas. 9575.
En Actas de la duodécima conferencia internacional sobre redes neuronales artificiales (págs. Breiman, L. (1996). Predictores de embolsado. Aprendizaje automático, 24, 123–140.
1319­1324). Brette, R., Rudolph, M., Carnevale, T., Hines, M., Beeman, D., Bower, JM, et al.
Behnke, S. (2003a). Descubrir características jerárquicas del habla mediante factorización matricial (2007). Simulación de redes de neuronas activas: una revisión de herramientas y estrategias.
convolucional no negativa. En Actas de la conferencia conjunta internacional sobre redes neuronales, Revista de neurociencia computacional, 23 (3), 349–398.
vol. 4 (págs. 2758­2763). Breuel, TM, Ul­Hasan, A., Al­Azawi, MA y Shafait, F. (2013). OCR de alto rendimiento para inglés impreso
Behnke, S. (2003b). LNCS, Apuntes de conferencias sobre informática: vol. 2766. Redes neuronales y Fraktur utilizando redes LSTM. En la XII Conferencia internacional sobre análisis y reconocimiento
jerárquicas para interpretación de imágenes. Saltador. de documentos (págs. 683–687). IEEE.
Behnke, S. (2005). Localización y seguimiento de rostros en la pirámide de abstracción neuronal. Bromley, J., Bentz, JW, Bottou, L., Guyon, I., LeCun, Y., Moore, C., et al. (1993).
Aplicaciones y computación neuronal, 14 (2), 97–103. Verificación de firma mediante una red neuronal de retardo de tiempo siamesa. Revista internacional
Behnke, S. y Rojas, R. (1998). Pirámide de abstracción neuronal: una imagen jerárquica que comprende de reconocimiento de patrones e inteligencia artificial, 7(4), 669–688.
la arquitectura. En Actas de la conferencia conjunta internacional sobre redes neuronales, vol. 2 Broyden, CG y cols. (1965). Una clase de métodos para resolver ecuaciones simultáneas no lineales.
(págs. 820–825). Matemáticas de la Computación, 19(92), 577–593.
Bell, AJ y Sejnowski, TJ (1995). Un enfoque de maximización de la información para la separación ciega Brueckner, R. y Schulter, B. (2014). Clasificación de señales sociales utilizando redes neuronales
y la deconvolución ciega. Computación neuronal, 7 (6), 1129­1159. recurrentes BLSTM profundas. En Actas de la 39.ª conferencia internacional del IEEE sobre acústica,
Bellman, R. (1957). Programación dinámica (1ª ed). Princeton, Nueva Jersey, EE.UU.: Princeton voz y procesamiento de señales (págs. 4856–4860).
University Press. Brunel, N. (2000). Dinámica de redes escasamente conectadas de neuronas excitadoras e inhibidoras.
Belouchrani, A., Abed­Meraim, K., Cardoso, J.­F. y Moulines, E. (1997). Una técnica de separación de Revista de neurociencia computacional, 8(3), 183–208.
fuentes ciega que utiliza estadísticas de segundo orden. Transacciones IEEE sobre procesamiento
de señales, 45 (2), 434–444. Bryson, AE (1961). Un método de gradiente para optimizar procesos de asignación de múltiples etapas.
Bengio, Y. (1991). Redes neuronales artificiales y su aplicación al reconocimiento de secuencias (tesis En Proc. Universidad de Harvard. Simposio sobre computadoras digitales y sus aplicaciones.
doctoral), Montreal, QC, Canadá: Universidad McGill, (Ciencias de la Computación).
Bryson Jr., AE y Denham, WF (1961). Un método de ascenso más pronunciado para resolver problemas
Bengio, Y. (2009). Fundamentos y tendencias del aprendizaje automático: vol. 2(1). Aprendiendo de programación óptima. Informe técnico BR­1303. Compañía Raytheon, División Espacial y de
Arquitecturas profundas para IA. Ahora editores. Misiles.
Bengio, Y., Courville, A. y Vincent, P. (2013). Aprendizaje de representación: una revisión y nuevas Bryson, A. y Ho, Y. (1969). Control óptimo aplicado: optimización, estimación y
control. Pub Blaisdell. Co.
perspectivas. Transacciones IEEE sobre análisis de patrones e inteligencia artificial, 35(8), 1798–
Buhler, J. (2001). Comparación eficiente de secuencias a gran escala por sensibilidad a la localidad
1828.
hash. Bioinformática, 17(5), 419–428.
Bengio, Y., Lamblin, P., Popovici, D. y Larochelle, H. (2007). Entrenamiento codicioso por capas de redes
Buntine, WL y Weigend, AS (1991). Propagación hacia atrás bayesiana. Sistemas complejos , 5, 603–
profundas. En JD Cowan, G. Tesauro y J. Alspector (Eds.), Avances en sistemas de procesamiento
643.
de información neuronal, vol. 19 (NIPS) (págs. 153­160).
Prensa del MIT. Burgess, N. (1994). Un algoritmo constructivo que converge para patrones de entrada de valor real.
Bengio, Y., Simard, P. y Frasconi, P. (1994). Es difícil aprender dependencias a largo plazo con el Revista internacional de sistemas neuronales, 5(1), 59–66.
descenso de gradientes. Transacciones IEEE en redes neuronales, 5(2), 157–166. Cardoso, J.­F. (1994). Sobre el desempeño de la separación de fuentes ortogonales
algoritmos. En Proc. EUSIPCO (págs. 776–779).
Beringer, N., Graves, A., Schiel, F. y Schmidhuber, J. (2005). Clasificación del habla espontánea mediante Carreira­Perpiñán, MA (2001). Modelos continuos de variables latentes para la reducción de
el reentrenamiento de redes LSTM. En W. Duch, J. Kacprzyk, E. Oja y S. Zadrozny (Eds.), LNCS: dimensionalidad y la reconstrucción secuencial de datos (tesis doctoral), Reino Unido: Universidad
vol. 3696. Redes neuronales artificiales: inspiraciones biológicas—ICANN 2005 (págs. 575–581). de Sheffield.
Berlín, Heidelberg: Springer­Verlag. Carter, MJ, Rudolph, FJ y Nucci, AJ (1990). Tolerancia operativa a fallos de redes CMAC. En DS
Bertsekas, DP (2001). Programación dinámica y control óptimo. Atenas científica. Touretzky (Ed.), Avances en sistemas de procesamiento de información neuronal (NIPS), vol. 2
Bertsekas, DP y Tsitsiklis, JN (1996). Programación neurodinámica. Belmont, MA: Athena científica. (págs. 340–347). San Mateo, California: Morgan Kaufmann.
Caruana, R. (1997). Aprendizaje multitarea. Aprendizaje automático, 28(1), 41–75.
Bichot, NP, Rossi, AF y Desimone, R. (2005). Mecanismos neuronales paralelos y seriales para la Casey, diputado (1996). La dinámica de la computación en tiempo discreto, con aplicación a redes
búsqueda visual en el área de macacos V4. Ciencia, 308, 529–534. neuronales recurrentes y extracción de máquinas de estados finitos. Computación neuronal, 8 (6),
Biegler­König, F. y Bärmann, F. (1993). Un algoritmo de aprendizaje para redes neuronales multicapa 1135­1178.
basado en problemas de mínimos cuadrados lineales. Redes neuronales, 6(1), 127–131. Cauwenberghs, G. (1993). Un algoritmo rápido de descenso de errores estocástico para optimización y
aprendizaje supervisado. En DS Lippman, JE Moody y DS Touretzky (Eds.), Avances en sistemas
Obispo, CM (1993). Suavizado impulsado por curvatura: un algoritmo de aprendizaje para redes de de procesamiento de información neuronal, vol. 5 (pág. 244). Morgan Kaufman.
retroalimentación. Transacciones IEEE en redes neuronales, 4(5), 882–884.
Obispo, CM (2006). Reconocimiento de patrones y aprendizaje automático. Saltador. Chaitin, GJ (1966). Sobre la duración de los programas para calcular binarios finitos
Blair, AD y Pollack, JB (1997). Análisis de reconocedores dinámicos. Computación neuronal, 9 (5), secuencias. Revista de la ACM, 13, 547–569.
1127­1142. Chalup, SK y Blair, AD (2003). Entrenamiento incremental de redes neuronales recurrentes de primer
Blondel, VD y Tsitsiklis, JN (2000). Un estudio de los resultados de la complejidad computacional orden para predecir un lenguaje sensible al contexto. Redes neuronales, 16(7), 955–972.
en sistemas y control. Automática, 36(9), 1249­1274.
Bluche, T., Louradour, J., Knibbe, M., Moysset, B., Benzeghiba, F. y Kermorvant, C. (2014). El sistema Chellapilla, K., Puri, S. y Simard, P. (2006). Redes neuronales convolucionales de alto rendimiento para
de reconocimiento de texto escrito a mano en árabe A2iA en la evaluación OpenHaRT2013. En procesamiento de documentos. En Taller internacional sobre Fronteras en el reconocimiento de
Taller internacional sobre sistemas de análisis de documentos. escritura.
Chen, K. y Salman, A. (2011). Aprender características específicas del hablante con una arquitectura
Blum, AL y Rivest, RL (1992). El entrenamiento de una red neuronal de 3 nodos es NP completo. neuronal profunda. Transacciones IEEE en redes neuronales, 22(11), 1744–1756.
Redes neuronales, 5(1), 117–127. Cho, K. (2014). Fundamentos y avances en el aprendizaje profundo (tesis doctoral), Aalto
Blumer, A., Ehrenfeucht, A., Haussler, D. y Warmuth, MK (1987). La navaja de Occam. Escuela Universitaria de Ciencias.
Cartas de procesamiento de información, 24, 377–380. Cho, K., Ilin, A. y Raiko, T. (2012). Regularización tipo Tikhonov para máquinas Boltzmann restringidas.
Bobrowski, L. (1978). Procesos de aprendizaje en redes de umbral multicapa. Biológico En Internacional. conf. sobre redes neuronales artificiales 2012 (págs. 81–88).
Cibernética, 31, 1–6. Saltador.
Bodén, M. y Wiles, J. (2000). Dinámica sensible al contexto y libre de contexto en redes neuronales Cho, K., Raiko, T. e Ilin, A. (2013). Gradiente mejorado para entrenar máquinas Boltzmann restringidas.
recurrentes. Ciencia de la conexión, 12 (3–4), 197–210. Computación neuronal, 25 (3), 805–831.
Machine Translated by Google

106 J. Schmidhuber / Redes neuronales 61 (2015) 85–117

Iglesia, A. (1936). Un problema irresoluble de la teoría elemental de números. El Deco, G. y Rolls, et (2005). Neurodinámica de competencia sesgada y cooperación para la atención: un
Revista Estadounidense de Matemáticas, 58, 345–363. modelo con neuronas activas. Revista de Neurofisiología, 94(1), 295–313.
Ciresan, DC, Giusti, A., Gambardella, LM y Schmidhuber, J. (2012). Las redes neuronales profundas
segmentan las membranas neuronales en imágenes de microscopía electrónica. De Freitas, JFG (2003). Métodos bayesianos para redes neuronales (tesis doctoral), Universidad de Cambridge.
En Avances en los sistemas de procesamiento de información neuronal (NIPS) (págs. 2852–2860).
Ciresan, DC, Giusti, A., Gambardella, LM y Schmidhuber, J. (2013). Detección de mitosis en imágenes DeJong, G. y Mooney, R. (1986). Aprendizaje basado en explicaciones: una visión alternativa.
histológicas de cáncer de mama con redes neuronales profundas. En Proc. Aprendizaje automático, 1(2), 145–176.
MICCAI, vol. 2 (págs. 411–418). DeMers, D. y Cottrell, G. (1993). Reducción de dimensionalidad no lineal. En SJ Hanson, JD Cowan y CL
Ciresan, DC, Meier, U., Gambardella, LM y Schmidhuber, J. (2010). Redes neuronales simples, grandes y Giles (Eds.), Avances en los sistemas de procesamiento de información neuronal (NIPS), vol. 5 (págs.
profundas para el reconocimiento de dígitos escritos a mano. Computación neuronal, 22 (12), 3207– 580–587). Morgan Kaufman.
3220. Dempster, AP, Laird, NM y Rubin, DB (1977). Máxima probabilidad de datos incompletos mediante el algoritmo
Ciresan, DC, Meier, U., Masci, J., Gambardella, LM y Schmidhuber, J. EM. Revista de la Real Sociedad de Estadística B, 39.
(2011). Redes neuronales convolucionales flexibles y de alto rendimiento para clasificación de imágenes.
En Internacional. conferencia conjunta sobre inteligencia artificial (págs. 1237­1242). Deng, L. y Yu, D. (2014). Aprendizaje profundo: métodos y aplicaciones. AHORA Editores.
Ciresan, DC, Meier, U., Masci, J. y Schmidhuber, J. (2011). Un comité de redes neuronales para la clasificación Desimone, R., Albright, TD, Gross, CG y Bruce, C. (1984). Propiedades selectivas de estímulos de las
de señales de tráfico. En Conferencia internacional conjunta sobre redes neuronales (págs. 1918­1921). neuronas temporales inferiores en el macaco. La Revista de Neurociencia, 4(8), 2051–2062. de Souto,
MC, Souto, MCPD y Oliveira, WRD
Ciresan, DC, Meier, U., Masci, J. y Schmidhuber, J. (2012). Red neuronal profunda de varias columnas para (1999). El problema de carga de las redes neuronales piramidales. Revista Electrónica de Matemáticas de la
clasificación de señales de tráfico. Redes neuronales, 32, 333–338. Computación.
Ciresan, DC, Meier, U. y Schmidhuber, J. (2012a). Redes neuronales profundas de varias columnas para De Valois, RL, Albrecht, DG y Thorell, LG (1982). Selectividad de frecuencia espacial de las células en la
clasificación de imágenes. En la Conferencia IEEE sobre visión por computadora y reconocimiento de corteza visual de macacos. Investigación de la visión, 22(5), 545–559.
patrones. Preimpresión larga arXiv:1202.2745v1 [cs.CV]. Deville, Y. y Lau, KK (1994). Síntesis de programas lógicos. Revista de programación lógica , 19(20), 321–
Ciresan, DC, Meier, U. y Schmidhuber, J. (2012b). Transferir el aprendizaje de caracteres latinos y chinos con 350. de Vries, B. y Príncipe, JC (1991).
redes neuronales profundas. En Conferencia conjunta internacional sobre redes neuronales (págs. Una teoría para redes neuronales con retrasos temporales.
1301­1306). En RP Lippmann, JE Moody y DS Touretzky (Eds.), Avances en los sistemas de procesamiento de
Ciresan, DC y Schmidhuber, J. (2013). Redes neuronales profundas de varias columnas para la clasificación información neuronal (NIPS), vol. 3 (págs. 162­168). Morgan Kaufman.
de caracteres chinos escritos a mano sin conexión. Reporte técnico. IDSIA. arXiv:1309.0261. DiCarlo, JJ, Zoccolan, D. y Rust, Carolina del Norte (2012). ¿ Cómo resuelve el cerebro el reconocimiento
visual de objetos? Neurona, 73(3), 415–434.
Cliff, D. T., Husbands, P. y Harvey, I. (1993). Evolución de redes dinámicas recurrentes para el control de Dickmanns, ED, Behringer, R., Dickmanns, D., Hildebrandt, T., Maurer, M. y Thomanek, F., et al. (1994). El
robots. En Redes neuronales artificiales y algoritmos genéticos (págs. 428–435). coche de pasajeros que ve 'VaMoRs­P'. En Proc. En t. símp. sobre vehículos inteligentes (págs. 68 a 73).
Saltador.
Clune, J., Mouret, J.­B. y Lipson, H. (2013). Los orígenes evolutivos de la modularidad. Dickmanns, D., Schmidhuber, J. y Winklhofer, A. (1987). El algoritmo genético: una implementación en el
Actas de la Royal Society B: Biological Sciences, 280(1755), 20122863. prólogo. Reporte técnico. Inst. de Informática, Tecnología. Univ.
Clune, J., Stanley, KO, Pennock, RT y Ofria, C. (2011). Sobre el desempeño de la codificación indirecta a lo Munich. http://www.idsia.ch/~juergen/geneticprogramming.html.
largo del continuo de regularidad. Transacciones IEEE sobre computación evolutiva, 15 (3), 346–367. Dietterich, TG (2000a). Métodos de conjunto en aprendizaje automático. En Sistemas de clasificación múltiple
(págs. 1 a 15). Saltador.
Coates, A., Huval, B., Wang, T., Wu, DJ, Ng, AY y Catanzaro, B. (2013). Aprendizaje profundo con sistemas Dietterich, TG (2000b). Aprendizaje por refuerzo jerárquico con la descomposición de la función de valor
COTS HPC. En Proc. Congreso internacional sobre aprendizaje automático. MAXQ. Revista de Investigación en Inteligencia Artificial (JAIR), 13, 227–303.

Cochocki, A. y Unbehauen, R. (1993). Redes neuronales para optimización y procesamiento de señales. John Di Lena, P., Nagata, K. y Baldi, P. (2012). Arquitecturas profundas para el mapa de contacto de proteínas.
Wiley & Sons, Inc. predicción. Bioinformática, 28, 2449–2457.
Collobert, R. y Weston, J. (2008). Una arquitectura unificada para el procesamiento del lenguaje natural: redes Director, SW y Rohrer, RA (1969). Diseño de red automatizado: el caso del dominio de la frecuencia.
neuronales profundas con aprendizaje multitarea. En Actas de la 25ª conferencia internacional sobre Transacciones IEEE sobre teoría de circuitos, CT­16, 330–337.
aprendizaje automático (págs. 160­167). ACM. Dittenbach, M., Merkl, D. y Rauber, A. (2000). El creciente mapa jerárquico autoorganizado. En la conferencia
Comon, P. (1994). Análisis de componentes independientes: ¿un nuevo concepto? Señal conjunta internacional IEEE­INNS­ENNS sobre redes neuronales, vol. 6 (pág. 6015). Sociedad de
Procesamiento, 36(3), 287–314. Computación IEEE.
Connor, CE, Brincat, SL y Pasupathy, A. (2007). Transformación de información de forma en la vía ventral. Donahue, J., Jia, Y., Vinyals, O., Hoffman, J., Zhang, N. y Tzeng, E., et al. (2013). DeCAF: una función de
Opinión actual en neurobiología, 17 (2), 140­147. activación convolucional profunda para el reconocimiento visual genérico. Preimpresión de ArXiv
arXiv:1310.1531.
Connor, J., Martín, DR y Atlas, LE (1994). Redes neuronales recurrentes y predicción robusta de series Dorffner, G. (1996). Redes neuronales para procesamiento de series temporales. En red neuronal
temporales. Transacciones IEEE en redes neuronales, 5(2), 240–254. mundo.
Cook, SA (1971). La complejidad de los procedimientos de demostración de teoremas. En Actas del tercer
Doya, K., Samejima, K., Ichi Katagiri, K. y Kawato, M. (2002). Aprendizaje por refuerzo basado en múltiples
simposio anual de ACM sobre teoría de la informática (págs. 151­158). Nueva York: ACM.
modelos . Computación neuronal, 14 (6), 1347­1369.
Dreyfus, SE (1962). La solución numérica de problemas variacionales. Revista de análisis y aplicaciones
Cramer, NL (1985). Una representación para la generación adaptativa de programas secuenciales simples.
matemáticas, 5(1), 30–45.
En J. Grefenstette (Ed.), Actas de una conferencia internacional sobre algoritmos genéticos y sus
Dreyfus, SE (1973). La solución computacional de problemas de control óptimo con desfase temporal.
aplicaciones, Universidad Carnegie­Mellon.
Transacciones IEEE sobre control automático, 18 (4), 383–385.
Hillsdale, Nueva Jersey: Lawrence Erlbaum Associates.
Duchi, J., Hazan, E. y Singer, Y. (2011). Métodos adaptativos de subgradiente para el aprendizaje en línea y
Craven, P. y Wahba, G. (1979). Suavizado de datos ruidosos con funciones spline: estimación del grado
optimización estocástica. La revista de aprendizaje automático, 12, 2121–2159.
correcto de suavizado mediante el método de validación cruzada generalizada. Numerische Mathematik,
31, 377–403.
Egorova, A., Gloye, A., Göktekin, C., Liers, A., Luft, M. y Rojas, R., et al. (2004). FU­fighters tamaño pequeño
Cuccu, G., Luciw, M., Schmidhuber, J. y Gomez, F. (2011). Búsqueda evolutiva intrínsecamente motivada de
2004, descripción del equipo. En el simposio RoboCup 2004: artículos y artículos de descripción del
aprendizaje por refuerzo basado en la visión. En Actas de la conferencia IEEE de 2011 sobre desarrollo
equipo. Edición en CD.
y aprendizaje y robótica epigenética IEEE­ICDL­EPIROB, vol. 2 (págs. 1 a 7). IEEE.
Elfwing, S., Otsuka, M., Uchibe, E. y Doya, K. (2010). Aprendizaje por refuerzo basado en energía libre para
navegación basada en la visión con entradas sensoriales de alta dimensión. En procesamiento de
Dahl, GE, Sainath, TN y Hinton, GE (2013). Mejora de redes neuronales profundas para LVCSR utilizando
información neuronal. teoría y algoritmos (ICONIP), vol. 1 (págs. 215­222). Saltador.
unidades lineales rectificadas y deserción. En la conferencia internacional IEEE sobre acústica, habla y
procesamiento de señales (págs. 8609–8613). IEEE.
Eliasmith, C. (2013). Cómo construir un cerebro: una arquitectura neuronal para la cognición biológica. Nueva
Dahl, G., Yu, D., Deng, L. y Acero, A. (2012). Redes neuronales profundas preentrenadas dependientes del
York, Nueva York: Oxford University Press.
contexto para el reconocimiento de voz con un amplio vocabulario. Transacciones IEEE sobre
Eliasmith, C., Stewart, TC, Choo, X., Bekolay, T., DeWolf, T., Tang, Y., et al. (2012).
procesamiento de audio, voz y lenguaje, 20(1), 30–42.
Un modelo a gran escala del funcionamiento del cerebro. Ciencia, 338(6111), 1202–1205.
D'Ambrosio, DB y Stanley, KO (2007). Una novedosa codificación generativa para explotar sensores de redes
Elman, JL (1990). Encontrar estructura en el tiempo. Ciencia cognitiva, 14 (2), 179–211.
neuronales y geometría de salida. En Actas de la conferencia sobre computación genética y evolutiva
Erhan, D., Bengio, Y., Courville, A., Manzagol, P.­A., Vincent, P. y Bengio, S. (2010).
(págs. 974–981).
¿Por qué la formación previa no supervisada ayuda al aprendizaje profundo? Revista de investigación
Datar, M., Immorlica, N., Indyk, P. y Mirrokni, VS (2004). Esquema de hash sensible a la localidad basado en
sobre aprendizaje automático, 11, 625–660.
distribuciones p­estables. En Actas del vigésimo simposio anual sobre geometría computacional (págs.
Escalante­B, AN y Wiskott, L. (2013). Cómo resolver problemas de clasificación y regresión en datos de alta
253­262). ACM.
dimensión con una extensión supervisada de análisis de características lento. Revista de investigación
Dayan, P. y Hinton, G. (1993). Aprendizaje por refuerzo feudal. En DS Lippman, J.
sobre aprendizaje automático, 14, 3683–3719.
E. Moody y DS Touretzky (Eds.), Avances en los sistemas de procesamiento de información neuronal
Eubank, RL (1988). Suavizado de splines y regresión no paramétrica. En S. Farlow (Ed.), Métodos de
(NIPS), vol. 5 (págs. 271­278). Morgan Kaufman.
autoorganización en modelado. Nueva York: Marcel Dekker.
Dayan, P. y Hinton, GE (1996). Variedades de máquina Helmholtz. Redes neuronales, 9(8), 1385­1403.
Euler, L. (1744). Methodus inveniendi.
Eyben, F., Weninger, F., Squartini, S. y Schuller, B. (2013). Detección de actividad de voz en la vida real con
Dayan, P., Hinton, GE, Neal, RM y Zemel, RS (1995). La máquina de Helmholtz.
redes neuronales recurrentes LSTM y una aplicación para películas de Hollywood. En Proc. 38ª
Computación neuronal, 7, 889–904.
conferencia internacional IEEE sobre acústica, voz y procesamiento de señales (págs. 483–487).
Dayan, P. y Zemel, R. (1995). Modelos de competencia y causas múltiples. Neural
Computación, 7, 565–579.
Faggin, F. (1992). Hardware de red neuronal. En Conferencia conjunta internacional sobre redes neuronales,
Deco, G. y Parra, L. (1997). Extracción de características no lineales mediante reducción de redundancia en
vol. 1 (pág. 153).
una red neuronal estocástica no supervisada. Redes neuronales, 10(4), 683–691.
Machine Translated by Google

J. Schmidhuber / Redes neuronales 61 (2015) 85–117 107

Fahlman, SE (1988). Un estudio empírico de la velocidad de aprendizaje en redes de retropropagación . Fukushima, K. (2011). Aumento de la robustez frente al ruido de fondo: reconocimiento de patrones visuales
Informe técnico CMU­CS­88­162. Universidad Carnegie­Mellon.. mediante un neocognitrón. Redes neuronales, 24(7), 767–778.
Fahlman, SE (1991). El algoritmo de aprendizaje recurrente de correlación en cascada. En RP Lippmann, JE Fukushima, K. (2013a). Visión artificial mediante redes neuronales multicapa: neocognitrón y sus avances.
Moody y DS Touretzky (Eds.), Avances en los sistemas de procesamiento de información neuronal Redes neuronales, 37, 103­119.
(NIPS), vol. 3 (págs. 190­196). Morgan Kaufman. Fukushima, K. (2013b). Entrenamiento de red neuronal multicapa neocognitrón.
Falconbridge, MS, Stamps, RL y Badcock, DR (2006). Una red hebbiana/antihebbiana simple aprende los Redes neuronales, 40, 18–31.
componentes escasos e independientes de las imágenes naturales. Computación neuronal, 18 (2), 415– Gabor, D. (1946). Teoría de la comunicación. Parte 1: el análisis de la información.
429. Ingenieros eléctricos­Parte III: Revista de la Institución de Ingeniería de Radio y Comunicaciones, 93(26),
Fan, Y., Qian, Y., Xie, F. y Soong, FK (2014). Síntesis TTS con LSTM bidireccional 429–441.
Redes neuronales recurrentes basadas en En Proc. Entre discursos. Galán, SI (1988). Sistemas expertos conexionistas. Comunicaciones de la ACM, 31(2), 152–169.
Farabet, C., Couprie, C., Najman, L. y LeCun, Y. (2013). Aprendizaje de funciones jerárquicas para el
etiquetado de escenas. Transacciones IEEE sobre análisis de patrones e inteligencia artificial, 35(8), Gauss, CF (1809). Theoria motus corporum coelestium in sectionibus conicis solem
ambiente.
1915­1929.
Farlow, SJ (1984). Métodos de autoorganización en modelado: algoritmos tipo GMDH, vol. 54. Prensa CRC. Gauss, CF (1821). Theoria combineis observeum erroribus minimis obnoxiae (Teoría de la combinación de
observaciones menos sujeta a error).
Feldkamp, LA, Prokhorov, DV, Eagen, CF y Yuan, F. (1998). Entrenamiento de filtro Kalman de flujo múltiple Ge, S., Hang, CC, Lee, TH y Zhang, T. (2010). Control estable de redes neuronales adaptativas.
mejorado para redes recurrentes. En Modelado no lineal (págs. 29–53). Saltador. Saltador.
Geiger, JT, Zhang, Z., Weninger, F., Schuller, B. y Rigoll, G. (2014). Reconocimiento de voz robusto que utiliza
Feldkamp, LA, Prokhorov, DV y Feldkamp, TM (2003). Comportamiento adaptativo simple y condicionado de redes neuronales recurrentes de memoria a corto plazo para modelado acústico híbrido. En Proc. entre
redes recurrentes entrenadas con filtro de Kalman. Redes neuronales, 16(5), 683–689. discursos.
Geman, S., Bienenstock, E. y Doursat, R. (1992). Las redes neuronales y el dilema sesgo/varianza.
Feldkamp, LA y Puskorius, GV (1998). Un marco de procesamiento de señales basado en redes neuronales Computación neuronal, 4, 1–58.
dinámicas con aplicación a problemas de adaptación, filtrado y clasificación. Actas del IEEE, 86(11), Gers, FA y Schmidhuber, J. (2000). Redes recurrentes que cronometran y cuentan.
2259–2277. En Actas de la conferencia conjunta internacional IEEE­INNS­ENNS sobre redes neuronales, 2000, vol.
Felleman, DJ y Van Essen, DC (1991). Procesamiento jerárquico distribuido en la corteza cerebral de primates. 3 (págs. 189­194). IEEE.
Corteza cerebral, 1(1), 1–47. Gers, FA y Schmidhuber, J. (2001). Las redes recurrentes de LSTM aprenden lenguajes simples sensibles al
Fernández, S., Graves, A. y Schmidhuber, J. (2007a). Una aplicación de redes neuronales recurrentes para la contexto y libres de contexto. Transacciones IEEE en redes neuronales, 12(6), 1333–1340.
detección discriminativa de palabras clave. En Proc. ICANN (2) (págs. 220–229).
Gers, FA, Schmidhuber, J. y Cummins, F. (2000). Aprender a olvidar: predicción continua con LSTM.
Fernández, S., Graves, A. y Schmidhuber, J. (2007b). Etiquetado de secuencias en dominios estructurados Computación neuronal, 12 (10), 2451–2471.
con redes neuronales recurrentes jerárquicas. En Actas de la vigésima conferencia internacional conjunta Gers, FA, Schraudolph, N. y Schmidhuber, J. (2002). Aprender la sincronización precisa con redes recurrentes
sobre inteligencia artificial. LSTM. Revista de investigación sobre aprendizaje automático, 3, 115–143.
Fernández, R., Rendel, A., Ramabhadran, B. y Hoory, R. (2014). Predicción de contornos de prosodia con Gerstner, W. y Kistler, WK (2002). Modelos de neuronas con picos. Universidad de Cambridge
Prensa.
memoria a largo plazo, redes neuronales profundas y recurrentes bidireccionales. En Proc. Entre
Gerstner, W. y van Hemmen, JL (1992). Memoria asociativa en una red de neuronas activas. Red: Computación
discursos.
en sistemas neuronales, 3 (2), 139–164.
Campo, DJ (1987). Relaciones entre las estadísticas de imágenes naturales y las propiedades de respuesta
Ghavamzadeh, M. y Mahadevan, S. (2003). Algoritmos de gradiente de políticas jerárquicas.
de las células corticales. Revista de la Sociedad Óptica de América, 4, 2379–2394.
En Actas de la vigésima conferencia sobre aprendizaje automático (págs. 226­233).
Gherrity, M. (1989). Un algoritmo de aprendizaje para redes neuronales analógicas totalmente recurrentes.
Campo, DJ (1994). ¿Cuál es el objetivo de la codificación sensorial? Computación neuronal, 6,
559–601. En la conferencia conjunta internacional IEEE/INNS sobre redes neuronales, San Diego, vol. 1 (págs.
Fieres, J., Schemmel, J. y Meier, K. (2008). Realización de modelos de redes de picos biológicos en un sistema 643–644).
de hardware configurable a escala de oblea. En la conferencia conjunta internacional IEEE sobre redes Girshick, R., Donahue, J., Darrell, T. y Malik, J. (2013). Ricas jerarquías de funciones para una detección
neuronales (págs. 969–976). precisa de objetos y una segmentación semántica. Reporte técnico. UC Berkeley e ICSI. arxiv.org/abs/
Fine, S., Singer, Y. y Tishby, N. (1998). El modelo jerárquico oculto de Markov: análisis y aplicaciones. 1311.2524.
Aprendizaje automático, 32 (1), 41–62. Gisslen, L., Luciw, M., Graziano, V. y Schmidhuber, J. (2011). Compresor secuencial de tamaño constante

Fischer, A. e Igel, C. (2014). Entrenamiento de máquinas Boltzmann restringidas: una para aprendizaje por refuerzo. En Proc. cuarta conferencia sobre inteligencia artificial general (págs.

introducción. Reconocimiento de patrones, 47, 25–39. 31­40). Saltador.


Giusti, A., Ciresan, DC, Masci, J., Gambardella, LM y Schmidhuber, J. (2013). Escaneo rápido de imágenes
FitzHugh, R. (1961). Impulsos y estados fisiológicos en modelos teóricos de membrana nerviosa. Revista
con redes neuronales convolucionales de agrupación máxima profunda. En Proc.
biofísica, 1(6), 445–466.
ICIP.
Fletcher, R. y Powell, MJ (1963). Un método de descenso rápidamente convergente para la minimización. El
Glackin, B., McGinnity, TM, Maguire, LP, Wu, Q. y Belatreche, A. (2005).
diario de la computadora, 6(2), 163–168.
Un enfoque novedoso para la implementación de redes neuronales de picos a gran escala en hardware
Floreano, D. y Mattiussi, C. (2001). Evolución de controladores neuronales para robots autónomos basados
FPGA. En Inteligencia computacional y sistemas bioinspirados (págs. 552–563). Saltador.
en visión. En Robótica evolutiva. De la robótica inteligente a la vida artificial (págs. 38­61). Saltador.

Glasmachers, T., Schaul, T., Sun, Y., Wierstra, D. y Schmidhuber, J. (2010).


Fogel, DB, Fogel, LJ y Porto, V. (1990). Redes neuronales en evolución. Biológico
Estrategias de evolución natural exponencial. En Actas de la conferencia sobre computación genética y
Cibernética, 63(6), 487–493.
evolutiva (págs. 393–400). ACM.
Fogel, L., Owens, A. y Walsh, M. (1966). Inteligencia artificial a través de simulación.
Glorot, X., Bordes, A. y Bengio, Y. (2011). Redes rectificadoras escasas y profundas. En AISTATS, vol. 15
evolución. Nueva York: Wiley.
(págs. 315–323).
Földiák, P. (1990). Formación de escasas representaciones mediante el aprendizaje antihebbiano local.
Gloye, A., Wiesel, F., Tenchio, O. y Simon, M. (2005). Reforzar la calidad de conducción de los robots
Cibernética biológica, 64, 165­170.
jugadores de fútbol mediante la anticipación. TI—Tecnología de la información, 47(5).
Földiák, P. y Young, MP (1995). Codificación escasa en la corteza de los primates. En MA Arbib (Ed.), El
Gödel, K. (1931). Über formal unentscheidbare Sätze der Principia Mathematica und verwandter Systeme I.
manual de teoría del cerebro y redes neuronales (págs. 895–898). La prensa del MIT.
Monatshefte für Mathematik und Physik, 38, 173–198.
Goldberg, DE (1989). Algoritmos genéticos en búsqueda, optimización y máquina.
Förster, A., Graves, A. y Schmidhuber, J. (2007). Aprendizaje basado en RNN de mapas compactos para una
aprendiendo. Lectura, MA: Addison­Wesley.
localización eficiente de robots. En el 15º simposio europeo sobre redes neuronales artificiales (págs.
Goldfarb, D. (1970). Una familia de métodos de métrica variable derivados de variacionales.
537–542).
medio. Matemáticas de la Computación, 24 (109), 23–26.
Franzius, M., Sprekeler, H. y Wiskott, L. (2007). La lentitud y la escasez conducen a células de lugar, dirección
Golub, G., Heath, H. y Wahba, G. (1979). Validación cruzada generalizada como método para elegir un buen
de la cabeza y visión espacial. Biología Computacional PLoS, 3(8), 166.
parámetro de cresta. Tecnometría, 21, 215–224.
Friedman, J., Hastie, T. y Tibshirani, R. (2001). Serie Springer en estadística: vol. 1. El Gómez, FJ (2003). Control no lineal robusto a través de la neuroevolución (tesis doctoral), Departamento de
Elementos del aprendizaje estadístico. Nueva York. Ciencias de la Computación, Universidad de Texas en Austin.
Frinken, V., Zamora­Martínez, F., España­Boquera, S., Castro­Bleda, MJ, Fischer, A. y Bunke, H. (2012). Gómez, FJ y Mükkulainen, R. (2003). Guía activa para un cohete sin aletas mediante neuroevolución. En Proc.
GECCO 2003.
Modelado del lenguaje de redes neuronales de memoria a largo y corto plazo para el reconocimiento de
escritura a mano. En 2012, 21ª conferencia internacional sobre reconocimiento de patrones (págs. 701– Gómez, FJ y Schmidhuber, J. (2005). Las neuronas recurrentes en coevolución aprenden POMDP de memoria
704). IEEE. profunda. En Proc. de la conferencia de 2005 sobre computación genética y evolutiva. Nueva York, NY,

Fritzke, B. (1994). Una red de gas neuronal en crecimiento aprende topologías. En G. Tesauro, DS Touretzky Estados Unidos: ACM Press.

y TK Leen (Eds.), NIPS (págs. 625–632). Prensa del MIT. Gómez, FJ, Schmidhuber, J. y Mükkulainen, R. (2008). Evolución neuronal acelerada a través de sinapsis

Fu, KS (1977). Reconocimiento y aplicaciones de patrones sintácticos. Berlín: Springer. coevolucionadas cooperativamente. Revista de investigación sobre aprendizaje automático, 9 (mayo),
937–965.
Fukada, T., Schuster, M. y Sagisaka, Y. (1999). Estimación de límites de fonemas utilizando redes neuronales
Gomi, H. y Kawato, M. (1993). Control de red neuronal para un sistema de circuito cerrado mediante
recurrentes bidireccionales y sus aplicaciones. Sistemas y computadoras en Japón, 30 (4), 20–30.
retroalimentación­aprendizaje de errores. Redes neuronales, 6(7), 933–946.
González­Domínguez, J., López­Moreno, I., Sak, H., González­Rodríguez, J. y Moreno, PJ (2014). Identificación
Fukushima, K. (1979). Modelo de red neuronal para un mecanismo de reconocimiento de patrones que no se
automática del idioma mediante redes neuronales recurrentes de memoria a corto plazo. En Proc. Entre
ve afectado por el cambio de posición: Neocognitron. Transacciones del IECE, J62­A(10), 658–665.
discursos.
Goodfellow, IJ, Bulatov, Y., Ibarz, J., Arnoud, S. y Shet, V. (2014). Reconocimiento de números de varios
Fukushima, K. (1980). Neocognitron: una red neuronal autoorganizada para un mecanismo de reconocimiento
dígitos a partir de imágenes de Street View mediante redes neuronales convolucionales profundas.
de patrones que no se ve afectado por el cambio de posición. Cibernética biológica, 36(4), 193–202.
Preimpresión de ArXiv arXiv:1312.6082v4.
Machine Translated by Google

108 J. Schmidhuber / Redes neuronales 61 (2015) 85–117

Goodfellow, IJ, Courville, A. y Bengio, Y. (2011). Codificación escasa de puntas y losas para el descubrimiento Hanson, SJ y Pratt, LY (1989). Comparación de sesgos para una construcción mínima de red con propagación
de funciones sin supervisión. En NIPS Taller sobre desafíos en el aprendizaje de modelos jerárquicos. hacia atrás. En DS Touretzky (Ed.), Avances en sistemas de procesamiento de información neuronal
(NIPS), vol. 1 (págs. 177­185). San Mateo, California: Morgan Kaufmann.
Goodfellow, IJ, Courville, AC y Bengio, Y. (2012). Aprendizaje de funciones a gran escala con codificación
dispersa de puntas y losas. En Actas de la 29ª conferencia internacional sobre aprendizaje automático. Happel, BL y Murre, JM (1994). Diseño y evolución de red neuronal modular.
arquitecturas. Redes neuronales, 7(6), 985–1004.
Goodfellow, I., Mirza, M., Da, X., Courville, A. y Bengio, Y. (2014). Una investigación empírica del olvido Hashem, S. y Schmeiser, B. (1992). Mejora de la precisión del modelo utilizando combinaciones lineales
catastrófico en redes neuronales basadas en gradientes. TR. arXiv:1312.6211v2. óptimas de redes neuronales entrenadas. Transacciones IEEE en redes neuronales, 6, 792–794.

Goodfellow, IJ, Warde­Farley, D., Mirza, M., Courville, A. y Bengio, Y. (2013). Hassibi, B. y Stork, DG (1993). Derivados de segundo orden para poda de redes: neurocirujano óptimo. En DS
Redes al máximo. En conferencia internacional sobre aprendizaje automático. Lippman, JE Moody y DS Touretzky (Eds.), Avances en sistemas de procesamiento de información
Tumbas, A. (2011). Inferencia variacional práctica para redes neuronales. En Avances en los sistemas de neuronal, vol. 5 (págs. 164­171). Morgan Kaufman.
procesamiento de información neuronal (NIPS) (págs. 2348­2356).
Graves, A., Eck, D., Beringer, N. y Schmidhuber, J. (2003). Reconocimiento de dígitos aislados con redes Hastie, TJ y Tibshirani, RJ (1990). Monografías sobre estadística y probabilidad aplicada: vol. 43. Modelos
aditivos generalizados.
recurrentes LSTM. En Primer taller internacional sobre enfoques de inspiración biológica para tecnologías
Hastie, T., Tibshirani, R. y Friedman, J. (2009). Serie Springer en estadística. El
de la información avanzadas.
Elementos del aprendizaje estadístico.
Graves, A., Fernández, S., Gómez, FJ y Schmidhuber, J. (2006). Clasificación temporal conexionista: etiquetado
Hawkins, J. y George, D. (2006). Memoria temporal jerárquica: conceptos, teoría y terminología. Numenta Inc.
de datos de secuencia no segmentados con redes neuronales recurrentes. En ICML'06: Actas de la 23ª
conferencia internacional sobre aprendizaje automático (págs. 369–376).
Haykin, SS (2001). Filtrado de Kalman y redes neuronales. Biblioteca en línea de Wiley.
Hebb, DO (1949). La organización del comportamiento. Nueva York: Wiley.
Graves, A., Fernández, S., Liwicki, M., Bunke, H. y Schmidhuber, J. (2008). Reconocimiento de escritura a
Hecht­Nielsen, R. (1989). Teoría de la red neuronal de retropropagación.
mano en línea sin restricciones con redes neuronales recurrentes. En J. Platt, D. Koller, Y. Singer y S.
En Conferencia conjunta internacional sobre redes neuronales (págs. 593–605). IEEE.
Roweis (Eds.), Avances en los sistemas de procesamiento de información neuronal (NIPS), vol. 20 (págs.
Heemskerk, JN (1995). Descripción general del hardware neuronal. En Neurocomputadoras para el cerebro
577–584). Cambridge, MA: MIT Press.
procesamiento de estilo. Diseño, implementación y aplicación.
Graves, A. y Jaitly, N. (2014). Hacia el reconocimiento de voz de un extremo a otro con redes neuronales
Heess, N., Silver, D. y Teh, YW (2012). Aprendizaje por refuerzo actor­crítico con políticas basadas en energía.
recurrentes. En Proc. 31ª conferencia internacional sobre aprendizaje automático (págs. 1764­1772).
En Proc. Taller europeo sobre aprendizaje por refuerzo (págs. 43–57).

Graves, A., Liwicki, M., Fernández, S., Bertolami, R., Bunke, H. y Schmidhuber, J.
Heidrich­Meisner, V. e Igel, C. (2009). Estrategias de neuroevolución para el aprendizaje por refuerzo episódico.
(2009). Un novedoso sistema conexionista para mejorar el reconocimiento de escritura a mano sin
Revista de algoritmos, 64 (4), 152­168.
restricciones. Transacciones IEEE sobre análisis de patrones e inteligencia artificial, 31 (5).
Herrero, J., Valencia, A. y Dopazo, J. (2001). Una red neuronal jerárquica en crecimiento no supervisada para
Graves, A., Mohamed, A.­R. y Hinton, GE (2013). Reconocimiento de voz con redes neuronales recurrentes agrupar patrones de expresión genética. Bioinformática, 17(2), 126–136.
profundas. En la conferencia internacional IEEE sobre acústica, habla y procesamiento de señales (págs.
6645–6649). IEEE. Hertz, J., Krogh, A. y Palmer, R. (1991). Introducción a la teoría de los nervios.
Graves, A. y Schmidhuber, J. (2005). Clasificación de fonemas framewise con LSTM bidireccional y otras cálculo. Ciudad de Redwood: Addison­Wesley.
arquitecturas de redes neuronales. Redes neuronales, 18(5–6), 602–610. Hestenes, MR y Stiefel, E. (1952). Métodos de gradientes conjugados para la resolución de sistemas lineales.
Revista de Investigación de la Oficina Nacional de Estándares, 49, 409–436.
Graves, A. y Schmidhuber, J. (2009). Reconocimiento de escritura a mano sin conexión con redes neuronales
recurrentes multidimensionales. En Avances en sistemas de procesamiento de información neuronal Hihi, SE y Bengio, Y. (1996). Redes neuronales recurrentes jerárquicas para dependencias a largo plazo. En
(NIPS), vol. 21 (págs. 545–552). Cambridge, MA: MIT Press. DS Touretzky, MC Mozer y ME Hasselmo (Eds.), Avances en sistemas de procesamiento de información
Graziano, M. (2009). La máquina de movimiento inteligente: una perspectiva etológica sobre neuronal, vol. 8 (págs. 493–499). Prensa del MIT.
El sistema motor de los primates. Estados Unidos: Oxford University Press. Hinton, GE (1989). Procedimientos de aprendizaje conexionistas. Inteligencia artificial, 40(1),
Griewank, A. (2012). Documenta Mathematica: volumen adicional ISMP, (págs. 389–400). 185–234.
Grondman, I., Busoniu, L., Lopes, GAD y Babuska, R. (2012). Un estudio sobre el aprendizaje por refuerzo Hinton, GE (2002). Productos de formación de expertos minimizando la divergencia contrastiva. Computación

actor­crítico: gradientes de políticas estándar y naturales. Transacciones IEEE sobre sistemas, hombre y neuronal, 14 (8), 1771–1800.

cibernética Parte C: Aplicaciones y revisiones, 42(6), 1291–1307. Hinton, GE, Dayan, P., Frey, BJ y Neal, RM (1995). El algoritmo de vigilia­sueño
para redes neuronales no supervisadas. Ciencia, 268, 1158­1160.
Hinton, GE, Deng, L., Yu, D., Dahl, GE, Mohamed, A., Jaitly, N., et al. (2012). Redes neuronales profundas para
Grossberg, S. (1969). Algunas redes que pueden aprender, recordar y reproducir cualquier cantidad de patrones
modelado acústico en reconocimiento de voz: las opiniones compartidas de cuatro grupos de investigación.
espacio­temporales complicados, I. Journal of Mathematics and Mechanics, 19, 53–91.
Revista de procesamiento de señales IEEE, 29(6), 82–97.

Grossberg, S. (1976a). Clasificación de patrones adaptativos y recodificación universal, 1: desarrollo paralelo y Hinton, GE y Ghahramani, Z. (1997). Modelos generativos para descubrir representaciones distribuidas

codificación de detectores de características neuronales. Cibernética biológica, 23, 187–202. dispersas. Transacciones filosóficas de la Royal Society B, 352, 1177­1190.

Hinton, GE, Osindero, S. y Teh, Y.­W. (2006). Un algoritmo de aprendizaje rápido para redes de creencias
Grossberg, S. (1976b). Clasificación de patrones adaptativos y recodificación universal, 2: retroalimentación,
profundas. Computación neuronal, 18 (7), 1527­1554.
expectativa, olfato e ilusiones. Cibernética biológica, 23.
Hinton, G. y Salakhutdinov, R. (2006). Reducir la dimensionalidad de los datos con
Gruau, F., Whitley, D. y Pyeatt, L. (1996). Una comparación entre la codificación celular y la codificación directa
Redes neuronales. Ciencia, 313(5786), 504–507.
de redes neuronales genéticas. Informe técnico de NeuroCOLT NC­TR­96­048, Grupo de trabajo ESPRIT
Hinton, GE y Sejnowski, TE (1986). Aprendizaje y reaprendizaje en máquinas Boltzmann. En Procesamiento
en aprendizaje neuronal y computacional, NeuroCOLT 8556.
distribuido paralelo, vol. 1 (págs. 282–317). Prensa del MIT.
Hinton, GE, Srivastava, N., Krizhevsky, A., Sutskever, I. y Salakhutdinov, RR
Grünwald, PD, Myung, IJ y Pitt, MA (2005). Avances en descripción mínima
(2012). Mejora de las redes neuronales evitando la coadaptación de detectores de características. Reporte
Longitud: teoría y aplicaciones. Prensa del MIT.
técnico. arXiv:1207.0580.
Grüttner, M., Sehnke, F., Schaul, T. y Schmidhuber, J. (2010). Reproductores atari­go de memoria profunda
Hinton, GE y van Camp, D. (1993). Mantener las redes neuronales simples. En Actas de la conferencia
multidimensional para la exploración de parámetros de gradientes de políticas.
internacional sobre redes neuronales artificiales, Amsterdam (págs. 11­18). Saltador.
En Actas de la conferencia internacional sobre redes neuronales artificiales ICANN (págs. 114­123).
Saltador.
Hochreiter, S. (1991). Untersuchungen zu dynamischen neuronalen Netzen (tesis de diploma), Institut für
Guo, X., Singh, S., Lee, H., Lewis, R. y Wang, X. (2014). Aprendizaje profundo para juegos Atari en tiempo real
Informatik, Lehrstuhl Prof. Brauer, Technische Universität München, asesor: J. Schmidhuber.
utilizando la planificación de búsqueda de árboles Monte­Carlo sin conexión. En Avances en sistemas de
procesamiento de información neuronal, vol. 27 (PNI).
Hochreiter, S., Bengio, Y., Frasconi, P. y Schmidhuber, J. (2001). Flujo de gradiente en redes recurrentes: la
Guyon, I., Vapnik, V., Boser, B., Bottou, L. y Solla, SA (1992). Minimización de riesgos estructurales para el
dificultad de aprender dependencias a largo plazo. En Carolina del Sur
reconocimiento de caracteres. En DS Lippman, JE Moody y DS Touretzky (Eds.), Avances en los sistemas
Kremer y JF Kolen (Eds.), Una guía de campo para redes neuronales dinámicas recurrentes.
de procesamiento de información neuronal (NIPS), vol. 4 (págs. 471–479). Morgan Kaufman.
Prensa IEEE.
Hochreiter, S. y Obermayer, K. (2005). Clasificación de secuencias para análisis de proteínas.
Hadamard, J. (1908). Mémoire sur le problème d'analyse relatif à l'equilibre des plaques élastiques encastrées. En el taller de Snowbird, Snowbird: Utah. Sociedad de Aprendizaje Biológico y Computacional.
Mémoires présentés par divers savants à l'Académie des sciences de l'Institut de France: Éxtrait.
Imprimerie nationale. Hochreiter, S. y Schmidhuber, J. (1996). Superar largos retrasos mediante la adivinación del peso y la memoria
Hadsell, R., Chopra, S. y LeCun, Y. (2006). Reducción de dimensionalidad mediante el aprendizaje de un larga a corto plazo. En FL Silva, JC Principe y LB Almeida (Eds.), Fronteras en inteligencia artificial y
mapeo invariante. En Proc. Jornada sobre visión por ordenador y reconocimiento de patrones. aplicaciones: vol. 37. Modelos espaciotemporales en sistemas biológicos y artificiales (págs. 65 a 72).
Prensa IEEE.
Ámsterdam, Países Bajos: IOS Press.
Hagras, H., Pounds­Cornish, A., Colley, M., Callaghan, V. y Clarke, G. (2004). Controladores de redes neuronales
en evolución para robots autónomos. En la conferencia internacional IEEE sobre robótica y automatización, Hochreiter, S. y Schmidhuber, J. (1997a). Mínimos planos. Computación neuronal, 9 (1),
vol. 5 (págs. 4620–4626). 1–42.
Hansen, N., Müller, SD y Koumoutsakos, P. (2003). Reducir la complejidad temporal de la estrategia de Hochreiter, S. y Schmidhuber, J. (1997b). Memoria larga a corto plazo. Computación neuronal, 9 (8), 1735­1780.
evolución desaleatorizada con adaptación de matriz de covarianza (CMA­ES). Computación evolutiva, 11 Basado en TR FKI­207­95, TUM (1995).
(1), 1–18. Hochreiter, S. y Schmidhuber, J. (1999). Extracción de características mediante LOCOCODE.
Hansen, N. y Ostermeier, A. (2001). Autoadaptación completamente desaleatorizada en las estrategias de Computación neuronal, 11 (3), 679–714.
evolución. Computación evolutiva, 9 (2), 159–195. Hochreiter, S., Younger, AS y Conwell, PR (2001). Aprender a aprender usando el descenso de gradientes. En
Hanson, SJ (1990). Una versión estocástica de la regla delta. Física D: No lineal notas de conferencias sobre comp. ciencia: vol. 2130. Procedimiento. int. conf. sobre redes neuronales
Fenómenos, 42(1), 265–272. artificiales (págs. 87­94). Berlín, Heidelberg: Springer.
Machine Translated by Google

J. Schmidhuber / Redes neuronales 61 (2015) 85–117 109

Hodgkin, AL y Huxley, AF (1952). Una descripción cuantitativa de la corriente de membrana y su aplicación Jacobs, RA (1988). Mayores tasas de convergencia a través de la tasa de aprendizaje.
a la conducción y excitación en los nervios. La Revista de Fisiología, 117(4), 500. adaptación. Redes neuronales, 1(4), 295–307.
Jaeger, H. (2001). El enfoque del "estado de eco" para analizar y entrenar redes neuronales recurrentes.
Hoerzer, GM, Legenstein, R. y Maass, W. (2014). Aparición de estructuras computacionales complejas a Informe técnico Informe GMD 148. Centro Nacional Alemán de Investigación en Tecnologías de la
partir de redes neuronales caóticas a través del aprendizaje hebbiano modulado por recompensa. Información.
Corteza cerebral, 24, 677–690. Jaeger, H. (2004). Aprovechar la no linealidad: predecir sistemas caóticos y ahorrar
Holden, SB (1994). Sobre la teoría de la generalización y la autoestructuración en redes conexionistas energía en la comunicación inalámbrica. Ciencia, 304, 78–80.
ponderadas linealmente (tesis doctoral), Universidad de Cambridge, Departamento de Ingeniería. Jain, V. y Seung, S. (2009). Eliminación de ruido de imágenes naturales con redes convolucionales.
En D. Koller, D. Schuurmans, Y. Bengio y L. Bottou (Eds.), Avances en los sistemas de procesamiento
Holanda, JH (1975). Adaptación en sistemas naturales y artificiales. Ann Arbor: de información neuronal (NIPS), vol. 21 (págs. 769–776). Curran asociados, Inc.
Prensa de la Universidad de Michigan.
Honavar, V. y Uhr, LM (1988). Una red de unidades parecidas a neuronas que aprende a percibir por Jameson, J. (1991). Aprendizaje por refuerzo retardado con críticos adaptativos retropropagados jerárquicos
generación así como por reponderación de sus vínculos. En D. Touretzky, G. en múltiples escalas de tiempo. En Redes neuronales para el control.
E. Hinton y T. Sejnowski (Eds.), Proc. de la escuela de verano de modelos conexionistas de 1988 Ji, S., Xu, W., Yang, M. y Yu, K. (2013). Redes neuronales convolucionales 3D para el reconocimiento de
(págs. 472–484). San Mateo: Morgan Kaufman. acciones humanas. Transacciones IEEE sobre análisis de patrones e inteligencia artificial, 35 (1), 221–
Honavar, V. y Uhr, L. (1993). Estructuras y procesos de aprendizaje generativo para redes conexionistas 231.
generalizadas. Ciencias de la información, 70 (1), 75–108. Jim, K., Giles, CL y Horne, BG (1995). Efectos del ruido sobre la convergencia y generalización en redes
Hopfield, JJ (1982). Redes neuronales y sistemas físicos con habilidades computacionales colectivas recurrentes. En G. Tesauro, D. Touretzky y T. Leen (Eds.), Avances en los sistemas de procesamiento
emergentes. Actas de la Academia Nacional de Ciencias, 79, 2554–2558. de información neuronal (NIPS), vol. 7 (pág. 649).
San Mateo, California: Morgan Kaufmann.
Hornik, K., Stinchcombe, M. y White, H. (1989). Las redes feedforward multicapa son aproximadores Jin, X., Luján, M., Plana, LA, Davies, S., Temple, S. y Furber, SB (2010). Modelado de redes neuronales con
universales. Redes neuronales, 2(5), 359–366. picos en SpiNNaker. Computación en ciencia e ingeniería, 12 (5), 91–97.
Hubel, DH y Wiesel, T. (1962). Campos receptivos, interacción binocular y arquitectura funcional en la
corteza visual del gato. Journal of Physiology (Londres), 160, 106­154. Jodogne, SR y Piater, JH (2007). Aprendizaje en circuito cerrado de políticas de control visual.
Revista de investigación en inteligencia artificial, 28, 349–391.
Hubel, DH y Wiesel, TN (1968). Campos receptivos y arquitectura funcional de la corteza estriada de mono. Jones, J. P. y Palmer, LA (1987). Una evaluación del modelo de filtro bidimensional de Gabor de campos
La Revista de Fisiología, 195(1), 215–243. receptivos simples en la corteza estriada de un gato. Revista de Neurofisiología, 58(6), 1233–1258.
Huffman, DA (1952). Un método para la construcción de códigos de redundancia mínima.
Procedimientos IRE, 40, 1098–1101. Jordania, MI (1986). Orden en serie: un enfoque de procesamiento distribuido paralelo. Informe técnico
Hung, CP, Kreiman, G., Poggio, T. y DiCarlo, JJ (2005). Lectura rápida de la identidad del objeto de la Informe ICS 8604. San Diego: Instituto de Ciencias Cognitivas, Universidad de California.
corteza temporal inferior del macaco. Ciencia, 310(5749), 863–866.
Hutter, M. (2002). El algoritmo más rápido y más corto para todos los problemas bien definidos. Jordania, MI (1988). Aprendizaje supervisado y sistemas con exceso de grados de libertad.
Revista internacional de fundamentos de la informática, 13 (3), 431–443. (Sobre J. Informe técnico MONEDAS TR 88­27. Instituto de Tecnología de Massachusetts.
Beca SNF de Schmidhuber 20­61847). Jordania, MI (1997). Orden en serie: un enfoque de procesamiento distribuido paralelo.
Hutter, M. (2005). Inteligencia artificial universal: decisiones secuenciales basadas en probabilidad Avances en Psicología, 121, 471–495.
algorítmica. Berlín: Springer, (Sobre la subvención del SNF de J. Schmidhuber 20­61847). Jordan, MI y Rumelhart, DE (1990). Aprendizaje supervisado con un profesor distal.
Informe técnico Documento ocasional n.° 40. Centro de Cog. Sci., Instituto de Tecnología de
Hyvärinen, A., Hoyer, P. y Oja, E. (1999). Reducción de código disperso: eliminación de ruido mediante Massachusetts.
estimación de máxima verosimilitud. En M. Kearns, SA Solla y D. Cohn (Eds.), Avances en los sistemas Jordan, MI y Sejnowski, TJ (2001). Modelos gráficos: fundamentos de la computación neuronal. Prensa del
de procesamiento de información neuronal (NIPS), vol. 12. Prensa del MIT. MIT.
Hyvärinen, A., Karhunen, J. y Oja, E. (2001). Análisis de componentes independientes. John José, RD (1961). Contribuciones a la teoría del perceptrón (tesis doctoral), Cornell Univ.
Wiley e hijos. Juang, C.­F. (2004). Un híbrido de algoritmo genético y optimización de enjambre de partículas para el diseño
CIPR (2012). Concurso de Detección de Mitosis en Imágenes Histológicas de Cáncer de Mama (2012). de redes recurrentes. Transacciones IEEE sobre sistemas, hombre y cibernética, Parte B: Cibernética,
Laboratorio IPAL y empresa TRIBVN y hospital pitie­salpetriere y CIALAB de la Universidad Estatal de 34(2), 997–1006.
Ohio. http://ipal.cnrs.fr/ICPR2012/. Judd, JS (1990). Modelado de redes neuronales y conexionismo. Diseño de redes neuronales
Igel, C. (2003). Neuroevolución para el aprendizaje por refuerzo utilizando estrategias de evolución. En R. y la complejidad del aprendizaje. Prensa del MIT.
Reynolds, H. Abbass, KC Tan, B. Mckay, D. Essam y T. Gedeon (Eds.), Congreso sobre computación Jutten, C. y Hérault, J. (1991). Separación ciega de fuentes, parte I: un algoritmo adaptativo basado en
evolutiva, vol. 4 (págs. 2588­2595). IEEE. arquitectura neuromimética. Procesamiento de señales, 24(1), 1–10.
Igel, C. y Hüsken, M. (2003). Evaluación empírica del aprendizaje Rprop mejorado. Kaelbling, LP, Littman, ML y Cassandra, AR (1995). Planificar y actuar en dominios estocásticos parcialmente
algoritmo. Neurocomputación, 50 (C), 105–123. observables. Reporte técnico. Providence RI: Universidad de Brown.
Ikeda, S., Ochiai, M. y Sawaragi, Y. (1976). Algoritmo secuencial GMDH y su aplicación a la predicción del
caudal de los ríos. Transacciones IEEE sobre sistemas, hombre y cibernética, (7), 473–479. Kaelbling, LP, Littman, ML y Moore, AW (1996). Aprendizaje por refuerzo: A
encuesta. Revista de investigación de IA, 4, 237–285.
Indermuhle, E., Frinken, V. y Bunke, H. (2012). Detección de modo en documentos escritos a mano en línea Kak, S., Chen, Y. y Wang, L. (2010). Minería de datos utilizando agentes superficiales y profundos.
utilizando redes neuronales BLSTM. En Fronteras en el reconocimiento de escritura a mano (CIFHR), en redes neuronales. En actas AMCIS 2010.
conferencia internacional de 2012 sobre (págs. 302–307). Kalinke, Y. y Lehmann, H. (1998). Computación en redes neuronales recurrentes: de contadores a sistemas
IEEE. de funciones iteradas. En G. Antoniou y J. Slaney (Eds.), LNAI: vol. 1502. Temas avanzados en
Indermuhle, E., Frinken, V., Fischer, A. y Bunke, H. (2011). Detección de palabras clave en documentos inteligencia artificial, Actas de la 11ª conferencia conjunta australiana sobre inteligencia artificial. Berlín,
escritos a mano en línea que contienen texto y no texto utilizando redes neuronales BLSTM. En Análisis Heidelberg: Springer.
y reconocimiento de documentos (ICDAR), conferencia internacional de 2011 sobre (págs. 73–77). Kalman, RE (1960). Un nuevo enfoque de los problemas de filtración y de predicción lineal.
IEEE. Revista de Ingeniería Básica, 82(1), 35–45.
Indiveri, G., Linares­Barranco, B., Hamilton, TJ, Van Schaik, A., Etienne­Cummings, R., Delbruck, T., et al. Karhunen, J. y Joutsensalo, J. (1995). Generalizaciones de análisis de componentes principales , problemas
(2011). Circuitos neuronales de silicio neuromórficos. Fronteras en neurociencia, 5 (73). de optimización y redes neuronales. Redes neuronales, 8(4), 549–562.

Ivakhnenko, AG (1968). El método grupal de manejo de datos: un rival del método de aproximación Karpathy, A., Toderici, G., Shetty, S., Leung, T., Sukthankar, R. y Fei­Fei, L. (2014).
estocástica. Control automático soviético, 13(3), 43–55. Clasificación de vídeos a gran escala con redes neuronales convolucionales. En la conferencia IEEE
Ivakhnenko, AG (1971). Teoría polinomial de sistemas complejos. Transacciones IEEE sobre visión por computadora y reconocimiento de patrones.
sobre Sistemas, Hombre y Cibernética, (4), 364–378. Kasabov, NK (2014). Neucube: una arquitectura de red neuronal dinámica para mapear, aprender y
Ivakhnenko, AG (1995). La revisión de problemas solucionables mediante algoritmos del método grupal de comprender datos cerebrales espacio­temporales. Redes neuronales.
manejo de datos (GMDH). Reconocimiento de patrones y análisis de imágenes/Raspoznavaniye Kelley, HJ (1960). Teoría del gradiente de trayectorias de vuelo óptimas. Revista ARS, 30(10),
947–954.
Obrazov I Analiz Izobrazhenii, 5, 527–535.
Kempter, R., Gerstner, W. y Van Hemmen, JL (1999). Aprendizaje y remate hebbiano
Ivakhnenko, AG y Lapa, VG (1965). Dispositivos cibernéticos de predicción. MCP
neuronas. Revisión física E, 59(4), 4498.
Corporación de Información.
Kerlirzin, P. y Vallet, F. (1993). Robustez en perceptrones multicapa. Neural
Ivakhnenko, AG, Lapa, VG y McDonough, RN (1967). Cibernética y técnicas de previsión. Nueva York:
Computación, 5(1), 473–482.
American Elsevier.
Khan, SH, Bennamoun, M., Sohel, F. y Togneri, R. (2014). Aprendizaje automático de funciones para una
Izhikevich, EM, et al. (2003). Modelo simple de neuronas con picos. Transacciones IEEE en redes neuronales,
detección sólida de sombras. En la conferencia IEEE sobre visión por computadora y reconocimiento
14(6), 1569–1572.
de patrones.
Jaakkola, T., Singh, SP y Jordan, MI (1995). Algoritmo de aprendizaje por refuerzo para problemas de
Khan, MM, Khan, GM y Miller, JF (2010). Evolución de redes neuronales mediante Programación Genética
decisión de Markov parcialmente observables. En G. Tesauro, DS Touretzky y TK Leen (Eds.), Avances
Cartesiana. En el congreso del IEEE sobre computación evolutiva (págs. 1 a 8).
en sistemas de procesamiento de información neuronal, vol. 7 (págs. 345–352). Prensa del MIT.

Khan, MM, Lester, DR, Plana, LA, Rast, A., Jin, X., Painkras, E., et al.
Jackel, L., Boser, B., Graf, H.­P., Denker, J., LeCun, Y. y Henderson, D., et al. (1990).
(2008). SpiNNaker: mapeo de redes neuronales en un multiprocesador de chip masivamente paralelo.
Implementación VLSI de redes neuronales electrónicas: y ejemplo en reconocimiento de caracteres. En
En Conferencia conjunta internacional sobre redes neuronales (págs. 2849–2856). IEEE.
IEEE (Ed.), conferencia internacional IEEE sobre sistemas, hombre y cibernética (págs. 320–322).

Kimura, H., Miyazaki, K. y Kobayashi, S. (1997). Aprendizaje por refuerzo en POMDP con aproximación de
Jacob, C., Lindenmayer, A. y Rozenberg, G. (1994). Programación genética del sistema L.
funciones. En ICML, vol. 97 (págs. 152­160).
En Apuntes de conferencias sobre informática. Resolución de problemas paralelos desde la naturaleza III.
Machine Translated by Google

110 J. Schmidhuber / Redes neuronales 61 (2015) 85–117

Kistler, WM, Gerstner, W. y van Hemmen, JL (1997). Reducción de las ecuaciones de Hodgkin­Huxley a un Lange, S. y Riedmiller, M. (2010). Redes neuronales profundas con codificador automático en el aprendizaje
modelo de umbral de una sola variable. Computación neuronal, 9 (5), 1015–1045. por refuerzo. En Redes neuronales, conferencia conjunta internacional de 2010 sobre (págs. 1 a 8).

Kitano, H. (1990). Diseño de redes neuronales mediante algoritmos genéticos con sistema de generación de Lapedes, A. y Farber, R. (1986). Una red neuronal asimétrica y autooptimizada para memoria direccionable
gráficos. Sistemas complejos, 4, 461–476. de contenido y reconocimiento de patrones. Física D, 22, 247–259.
Klampfl, S. y Maass, W. (2013). Aparición de rastros de memoria dinámica en modelos de microcircuitos Laplace, P. (1774). Mémoire sur la probabilité des cause par les évènements.
corticales a través de STDP. La Revista de Neurociencia, 33(28), 11515–11529. Mémoires de l'Academie Royale des Sciences Presentés par Divers Savan, 6, 621–656.

Klapper­Rybicka, M., Schraudolph, NN y Schmidhuber, J. (2001). Aprendizaje no supervisado en redes Larraanaga, P. y Lozano, JA (2001). Estimación de algoritmos de distribución: una nueva herramienta para el
neuronales recurrentes LSTM. En notas de clase sobre comp. Ciencia: vol. 2130. Procedimiento. int. cálculo evolutivo. Norwell, MA, EE.UU.: Kluwer Academic Publishers.
conf. sobre redes neuronales artificiales (págs. 684–691). Berlín, Heidelberg: Springer. Le, QV, Ranzato, M., Monga, R., Devin, M., Corrado, G. y Chen, K., et al. (2012).
Creación de funciones de alto nivel mediante aprendizaje no supervisado a gran escala. En Proc.
ICML'12.
Kobatake, E. y Tanaka, K. (1994). Selectividades neuronales para características de objetos complejos en la
vía visual ventral de la corteza cerebral del macaco. Revista de Neurofisiología, 71, 856–867. LeCun, Y. (1985). Une procédure d'apprentissage pour réseau à seuil asymétrique.
En Actas de cognitiva 85 (págs. 599–604).
Kohl, N. y Stone, P. (2004). Aprendizaje por refuerzo de gradiente de políticas para la locomoción cuadrúpeda LeCun, Y. (1988). Un marco teórico para la retropropagación. En D. Touretzky, G. Hinton y T. Sejnowski
rápida. En Robótica y automatización, 2004. Actas. ICRA'04. (Eds.), Actas de la escuela de verano de modelos conexionistas de 1988 (págs. 21­28). CMU, Pittsburgh,
Conferencia internacional IEEE de 2004 sobre, vol. 3 (págs. 2619­2624). IEEE. Pensilvania: Morgan Kaufmann.

Kohonen, T. (1972). Memorias de matrices de correlación. Transacciones IEEE en computadoras, 100(4), LeCun, Y., Boser, B., Denker, JS, Henderson, D., Howard, RE, Hubbard, W., et al.
353–359. (1989). Propagación hacia atrás aplicada al reconocimiento de códigos postales escritos a mano.
Computación neuronal, 1 (4), 541–551.
Kohonen, T. (1982). Formación autoorganizada de mapas de características topológicamente correctos.
LeCun, Y., Boser, B., Denker, JS, Henderson, D., Howard, RE, Hubbard, W., et al.
Cibernética biológica, 43(1), 59–69.
(1990). Reconocimiento de dígitos escritos a mano con una red de retropropagación. en d.
Kohonen, T. (1988). Autoorganización y memoria asociativa (2ª ed). Saltador.
S. Touretzky (Ed.), Avances en los sistemas de procesamiento de información neuronal, vol. 2 (págs.
Koikkalainen, P. y Oja, E. (1990). Mapas de características jerárquicas autoorganizadas.
396 a 404). Morgan Kaufman.
En Conferencia conjunta internacional sobre redes neuronales (págs. 279–284). IEEE.
LeCun, Y., Bottou, L., Bengio, Y. y Haffner, P. (1998). Aprendizaje basado en gradientes aplicado al
Kolmogorov, AN (1965a). Sobre la representación de funciones continuas de varias variables mediante
reconocimiento de documentos. Actas del IEEE, 86(11), 2278–2324.
superposición de funciones continuas de una variable y suma.
LeCun, Y., Denker, JS y Solla, SA (1990). Daño cerebral óptimo. En DS Touretzky (Ed.), Avances en sistemas
Doklady Akademii Nauk SSSR, 114, 679–681.
de procesamiento de información neuronal, vol. 2 (págs. 598–605).
Kolmogorov, AN (1965b). Tres aproximaciones a la definición cuantitativa de información. Problemas de
Morgan Kaufman.
transmisión de información, 1, 1–11.
LeCun, Y., Muller, U., Cosatto, E. y Flepp, B. (2006). Evitación de obstáculos todoterreno mediante el
Kompella, VR, Luciw, MD y Schmidhuber, J. (2012). Análisis incremental de características lentas :
aprendizaje de un extremo a otro. En Avances en sistemas de procesamiento de información neuronal
actualización adaptativa de características lentas de baja complejidad a partir de flujos de entrada de
(NIPS 2005).
alta dimensión. Computación neuronal, 24 (11), 2994–3024.
LeCun, Y., Simard, P. y Pearlmutter, B. (1993). Maximización automática de la tasa de aprendizaje mediante
Kondo, T. (1998). Algoritmo de red neuronal GMDH utilizando el método heurístico de autoorganización y su
estimación en línea de los vectores propios de Hesse. En S. Hanson, J. Cowan y L. Giles (Eds.),
aplicación al problema de identificación de patrones.
Avances en sistemas de procesamiento de información neuronal, vol. 5 (NIPS 1992). San Mateo, CA:
En Actas de la 37ª conferencia anual de SICE (págs. 1143­1148). IEEE.
Editores Morgan Kaufmann.
Kondo, T. y Ueno, J. (2008). Red neuronal multicapa tipo GMDH que selecciona automáticamente la
Lee, L. (1996). Aprendizaje de lenguas libres de contexto: un estudio de la literatura. Informe técnico TR­12­96.
arquitectura de red neuronal óptima y su aplicación al reconocimiento de imágenes médicas
Cambridge, Massachusetts: Centro de Investigación en Tecnología Informática, Universidad de Harvard.
tridimensionales de vasos sanguíneos. Revista internacional de informática, información y control
innovadores, 4(1), 175–187.
Lee, H., Battle, A., Raina, R. y Ng, AY (2007). Algoritmos de codificación dispersa eficientes . En Avances en
Kordík, P., Náplava, P., Snorek, M. y Genyk­Berezovskyj, M. (2003). Método GMDH modificado y evaluación
sistemas de procesamiento de información neuronal (NIPS), vol. 19 (págs. 801–808).
de la calidad de los modelos mediante visualización. Sistemas de control y computadoras, 2, 68–75.

Lee, H., Ekanadham, C. y Ng, AY (2007). Modelo de red de creencias profundas y dispersas para el área
Korkin, M., de Garis, H., Gers, F. y Hemmi, H. (1997). CBM (CAM­Brain Machine): una herramienta de
visual V2. En Avances en sistemas de procesamiento de información neuronal (NIPS), vol. 7 (págs. 873–
hardware que desarrolla un módulo de red neuronal en una fracción de segundo y ejecuta un cerebro
880).
artificial de un millón de neuronas en tiempo real.
Lee, H., Grosse, R., Ranganath, R. y Ng, AY (2009). Redes convolucionales de creencias profundas para el
Kosko, B. (1990). Aprendizaje no supervisado en ruido. Transacciones IEEE en redes neuronales, 1(1), 44– aprendizaje escalable no supervisado de representaciones jerárquicas.
57. En Actas de la 26ª conferencia internacional sobre aprendizaje automático (págs. 609–616).
Koutník, J., Cuccu, G., Schmidhuber, J. y Gomez, F. (2013). Evolución de redes neuronales a gran escala
para el aprendizaje por refuerzo basado en la visión. En Actas de la conferencia sobre computación Lee, S. y Kil, RM (1991). Una red de funciones potenciales gaussianas con aprendizaje jerárquicamente
genética y evolutiva (págs. 1061­1068). Ámsterdam: ACM. autoorganizado. Redes neuronales, 4(2), 207–224.
Lee, H., Pham, PT, Largman, Y. y Ng, AY (2009). Aprendizaje de funciones no supervisado para la clasificación
Koutník, J., Gómez, F. y Schmidhuber, J. (2010). Redes neuronales en evolución en un espacio de peso
de audio mediante redes convolucionales de creencias profundas. En Proc. NIPS, vol. 9 (págs.
comprimido. En Actas de la duodécima conferencia anual sobre computación genética y evolutiva (págs.
1096­1104).
619–626).
Legendre, AM (1805). Nuevos métodos para la determinación de las órbitas de los cometas. F. Didot.
Koutník, J., Greff, K., Gomez, F. y Schmidhuber, J. (2014). Un RNN mecánico. En Actas de la 31ª conferencia
internacional sobre aprendizaje automático, vol. 32 (págs. 1845­1853). arXiv:1402.3511 [cs.NE]. Legenstein, RA y Maass, W. (2002). Circuitos neuronales para reconocimiento de patrones con longitud total
de cable pequeña. Informática teórica, 287 (1), 239–249.
Koza, JR (1992). Programación genética: sobre la programación de computadoras por medios Legenstein, R., Wilbert, N. y Wiskott, L. (2010). Aprendizaje reforzado sobre características lentas de flujos
de la selección natural. Prensa del MIT. de entrada de alta dimensión. Biología Computacional PLoS, 6 (8).
Kramer, M. (1991). Análisis de componentes principales no lineal mediante autoasociativo. Leibniz, GW (1676). Memoria utilizando la regla de la cadena (citada en TMME 7:2 y 3 p. 321–332,
Redes neuronales. Revista AIChE, 37, 233–243. 2010).
Kremer, SC y Kolen, JF (2001). Guía de campo para redes dinámicas recurrentes. wiley­ Leibniz, GW (1684). Nova Methodus pro maximis et minimis, itemque tangentibus, quae nec fractas, nec
Prensa IEEE. irrationales quantitates moratur, et singulare pro illis calculi genus. Acta Eruditorum, 467–473.
Kriegeskorte, N., Mur, M., Ruff, DA, Kiani, R., Bodurka, J., Esteky, H., et al. (2008).
Emparejamiento de representaciones de objetos categóricos en la corteza temporal inferior del hombre Lenat, DB (1983). Formación de teorías mediante búsqueda heurística. Aprendizaje automático, 21.
y el mono. Neurona, 60(6), 1126­1141. Lenat, DB y Brown, JS (1984). Por qué AM un EURISKO parece funcionar. Artificial
Krizhevsky, A., Sutskever, I. y Hinton, GE (2012). Clasificación de Imagenet con redes neuronales Inteligencia, 23(3), 269–294.
convolucionales profundas. En Avances en los sistemas de procesamiento de información neuronal (p. Lennie, P. y Movshon, JA (2005). Codificación de color y forma en la vía visual geniculoestriada. Revista de
4). la Sociedad Óptica de América A, 22(10), 2013–2033.
Krogh, A. y Hertz, JA (1992). Una simple disminución de peso puede mejorar la generalización. Levenberg, K. (1944). Un método para la solución de ciertos problemas en mínimos cuadrados.
En DS Lippman, JE Moody y DS Touretzky (Eds.), Avances en sistemas de procesamiento de información Trimestral de Matemáticas Aplicadas, 2, 164–168.
neuronal, vol. 4 (págs. 950–957). Morgan Kaufman. Levin, LA (1973a). Sobre la noción de secuencia aleatoria. Matemáticas soviéticas
Kruger, N., Janssen, P., Kalkan, S., Lappe, M., Leonardis, A., Piater, J., et al. (2013). Doklady, 14(5), 1413­1416.
Jerarquías profundas en la corteza visual de los primates: ¿qué podemos aprender sobre la visión por Levin, LA (1973b). Problemas de búsqueda secuencial universal. Problemas de información
computadora? Transacciones IEEE sobre análisis de patrones e inteligencia artificial, 35(8), 1847–1871. Transmisión, 9(3), 265–266.
Levin, AU, Leen, TK y Moody, JE (1994). Poda rápida con componentes principales. En Avances en sistemas
Kullback, S. y Leibler, RA (1951). Sobre información y suficiencia. Los anales de de procesamiento de información neuronal (NIPS), vol. 6 (pág. 35). Morgan Kaufman.
Estadística matemática, 79–86.
Kurzweil, R. (2012). Cómo crear una mente: revelado el secreto del pensamiento humano. Levin, AU y Narendra, KS (1995). Control de sistemas dinámicos no lineales mediante redes neuronales. II.
Lagoudakis, MG y Parr, R. (2003). Iteración de la política de mínimos cuadrados. Diario de Observabilidad, identificación y control. Transacciones IEEE en redes neuronales, 7(1), 30–42.
Investigación sobre aprendizaje automático, 4, 1107–1149.
Lampinen, J. y Oja, E. (1992). Propiedades de agrupamiento de mapas jerárquicos autoorganizados . Revista Lewicki, MS y Olshausen, BA (1998). Inferir códigos de imágenes dispersos y sobrecompletos utilizando un
de visión y imágenes matemáticas, 2(2–3), 261–272. marco de codificación eficiente. En MI Jordan, MJ Kearns y S.
Lang, K., Waibel, A. y Hinton, GE (1990). Una arquitectura de red neuronal con retardo de tiempo para el A. Solla (Eds.), Avances en los sistemas de procesamiento de información neuronal (NIPS), vol. 10
reconocimiento de palabras aisladas. Redes neuronales, 3, 23–43. (págs. 815–821).
Machine Translated by Google

J. Schmidhuber / Redes neuronales 61 (2015) 85–117 111

L'Hôpital, GFA (1696). Analice los infinitos pequeños, para la inteligencia de las líneas corrientes. París: Manolios, P. y Fanelli, R. (1994). Redes neuronales recurrentes de primer orden y autómatas deterministas
L'Imprimerie Royale. de estados finitos. Computación neuronal, 6, 1155­1173.
Li, M. y Vitányi, PMB (1997). Una introducción a la complejidad de Kolmogorov y sus aplicaciones (2ª ed.). Marchi, E., Ferroni, G., Eyben, F., Gabrielli, L., Squartini, S. y Schuller, B. (2014).
Saltador. Funciones basadas en predicción lineal de resolución múltiple para la detección de inicio de audio con
Li, R., Zhang, W., Suk, H.­I., Wang, L., Li, J., Shen, D., et al. (2014). Finalización de datos de imágenes basada redes neuronales LSTM bidireccionales. En Proc. 39ª conferencia internacional IEEE sobre acústica, voz
en aprendizaje profundo para mejorar el diagnóstico de enfermedades cerebrales. En Proc. MICCAI. y procesamiento de señales (págs. 2183­2187).
Saltador. Markram, H. (2012). El proyecto del cerebro humano. Científico americano, 306(6), 50–55.
Lin, L. (1993). Aprendizaje por refuerzo para robots que utilizan redes neuronales (tesis doctoral), Marquardt, DW (1963). Un algoritmo para la estimación por mínimos cuadrados de parámetros no lineales.
Pittsburgh: Universidad Carnegie Mellon. Revista de la Sociedad de Matemáticas Industriales y Aplicadas, 11(2), 431–441.
Lin, T., Horne, B., Tino, P. y Giles, C. (1996). Aprendizaje de dependencias a largo plazo en redes neuronales
recurrentes NARX. Transacciones IEEE en redes neuronales, 7(6), 1329–1338. Martens, J. (2010). Aprendizaje profundo mediante optimización sin hessiano. En J. Fürnkranz y T. Joachims
(Eds.), Actas de la 27.ª conferencia internacional sobre aprendizaje automático (págs. 735–742). Haifa,
Lindenmayer, A. (1968). Modelos matemáticos de interacción celular en el desarrollo. Revista de biología Israel: OmniPress.
teórica, 18, 280–315. Martens, J. y Sutskever, I. (2011). Aprendizaje de redes neuronales recurrentes con optimización sin hessiano.
Lindstädt, S. (1993). Comparación de dos modelos de redes neuronales no supervisadas para la reducción de En Actas de la 28ª conferencia internacional sobre aprendizaje automático (págs. 1033­1040).
redundancia. En MC Mozer, P. Smolensky, DS Touretzky, JL Elman y AS Weigend (Eds.), Proc. de la
escuela de verano de modelos conexionistas de 1993 (págs. 308­315). Hillsdale, Nueva Jersey: Erlbaum Martinetz, TM, Ritter, HJ y Schulten, KJ (1990). Red neuronal tridimensional para aprender la coordinación
Associates. visomotora de un brazo robótico. Transacciones IEEE en redes neuronales, 1(1), 131–136.
Linnainmaa, S. (1970). La representación del error de redondeo acumulativo de un algoritmo como una
expansión de Taylor de los errores de redondeo locales (tesis de maestría), Univ. Helsinki. Masci, J., Giusti, A., Ciresan, DC, Fricout, G. y Schmidhuber, J. (2013). Un algoritmo de aprendizaje rápido
para la segmentación de imágenes con redes convolucionales de agrupación máxima.
Linnainmaa, S. (1976). Expansión de Taylor del error de redondeo acumulado. POCO En Conferencia internacional sobre procesamiento de imágenes (págs. 2713–2717).
Matemáticas numéricas, 16 (2), 146­160. Matsuoka, K. (1992). Inyección de ruido en las entradas en el aprendizaje de retropropagación. Transacciones
Linsker, R. (1988). Autoorganización en una red perceptual. Computadora IEEE, 21 años, IEEE sobre sistemas, hombre y cibernética, 22(3), 436–440.
105–117. Mayer, H., Gómez, F., Wierstra, D., Nagy, I., Knoll, A. y Schmidhuber, J. (2008). Un sistema para cirugía
Littman, ML , Cassandra, AR y Kaelbling, LP (1995). Políticas de aprendizaje para entornos parcialmente cardíaca robótica que aprende a hacer nudos utilizando redes neuronales recurrentes. Robótica
observables: ampliación de escala. En A. Prieditis y S. Russell (Eds.), Aprendizaje automático: actas de avanzada, 22 (13–14), 1521–1537.
la duodécima conferencia internacional (págs. 362–370). San Francisco, CA: Editores Morgan Kaufmann. McCallum, RA (1996). Aprender a utilizar la atención selectiva y la memoria a corto plazo en tareas
secuenciales. En P. Maes, M. Mataric, J.­A. Meyer, J. Pollack y SW
Liu, S.­C., Kramer, J., Indiveri, G., Delbrück, T., Burg, T., Douglas, R., et al. Wilson (Eds.), De los animales a los animats 4: actas de la cuarta conferencia internacional sobre
(2001). Neuronas con picos aVLSI selectivas de orientación. Redes neuronales, 14(6–7), 629–643. simulación del comportamiento adaptativo (págs. 315–324). Prensa del MIT, Libros de Bradford.

Ljung, L. (1998). Identificación del sistema. Saltador. McCulloch, W. y Pitts, W. (1943). Un cálculo lógico de las ideas inmanentes a la actividad nerviosa. Boletín de
Logothetis, NK, Pauls, J. y Poggio, T. (1995). Representación de la forma en la parte inferior. Biofísica Matemática, 7, 115­133.
corteza temporal de monos. Biología actual, 5(5), 552–563. Melnik, O., Levy, SD y Pollack, JB (2000). RAAM para infinito sin contexto
Loiacono, D., Cardamone, L. y Lanzi, PL (2011). Manual de software de competición de campeonato de idiomas. En Proc. IJCNN (5) (págs. 585–590).
carreras de coches simulados. Reporte técnico. Italia: Dipartimento di Elettronica e Informazione, Memisevic, R. y Hinton, GE (2010). Aprender a representar transformaciones espaciales con máquinas de
Politecnico di Milano. Boltzmann factorizadas de orden superior. Computación neuronal, 22 (6), 1473­1492.
Loiacono, D., Lanzi, PL, Togelius, J., Onieva, E., Pelta, DA y Butz, MV, et al. (2009).
El campeonato de carreras de coches simulados de 2009. Menache, I., Mannor, S. y Shimkin, N. (2002). Q­cut: descubrimiento dinámico de subobjetivos en el
Lowe, D. (1999). Reconocimiento de objetos a partir de características locales invariantes de escala. En Actas aprendizaje por refuerzo. En Proc. ECML'02 (págs. 295–306).
de la séptima conferencia internacional IEEE sobre visión por computadora, vol. 2 (págs. 1150­1157). Merolla, PA, Arthur, JV, Álvarez­Icaza, R., Cassidy, AS, Sawada, J., Akopyan, F., et al. (2014). Un circuito
integrado de un millón de neuronas con una red e interfaz de comunicación escalables. Ciencia,
Lowe, D. (2004). Características de imagen distintivas a partir de puntos clave invariantes de escala. 345(6197), 668–673.
Revista internacional de visión por computadora, 60, 91–110. Mesnil, G., Dauphin, Y., Glorot, X., Rifai, S., Bengio, Y. y Goodfellow, I., et al. (2011).
Luciw, M., Kompella, VR, Kazerounian, S. y Schmidhuber, J. (2013). Un sistema de valores intrínsecos para Desafío de aprendizaje por transferencia y no supervisado: un enfoque de aprendizaje profundo. En
desarrollar múltiples representaciones invariantes con un aprendizaje lento incremental. Fronteras en JMLR W&CP: proc. Aprendizaje no supervisado y por transferencia, vol. 7.
neurorobótica, 7 (9). Meuleau, N., Peshkin, L., Kim, KE y Kaelbling, LP (1999). Aprendizaje de controladores de estados finitos para
Lusci, A., Pollastri, G. y Baldi, P. (2013). Arquitecturas profundas y aprendizaje profundo en quimioinformática: entornos parcialmente observables. En la 15.ª conferencia internacional sobre la incertidumbre en la IA
la predicción de la solubilidad acuosa de moléculas similares a fármacos. (págs. 427–436).
Revista de modelado e información química, 53 (7), 1563­1575. Miglino, O., Lund, H. y Nolfi, S. (1995). Robots móviles en evolución en simulación y real.
Maas, AL, Hannun, AY y Ng, AY (2013). Las no linealidades del rectificador mejoran los modelos acústicos de ambientes. Vida artificial, 2(4), 417–434.
redes neuronales. En conferencia internacional sobre aprendizaje automático. Molinero, KD (1994). Un modelo para el desarrollo de campos receptores celulares simples y la disposición
Maass, W. (1996). Límites inferiores del poder computacional de las redes de neuronas activas. Computación ordenada de columnas de orientación a través de la competencia dependiente de la actividad entre
neuronal, 8 (1), 1–40. entradas dentro y fuera del centro. Revista de Neurociencia, 14(1), 409–441.
Maass, W. (1997). Redes de neuronas con picos: la tercera generación de neuronas
modelos de red. Redes neuronales, 10(9), 1659–1671. Miller, JF y Harding, SL (2009). Programación genética cartesiana. En Actas de la undécima conferencia anual
Maass, W. (2000). Sobre el poder computacional del ganador se lo lleva todo. Neural complementaria sobre computación genética y evolutiva: artículos de última hora (págs. 3489–3512).
Computación, 12, 2519–2535. ACM.
Maass, W., Natschläger, T. y Markram, H. (2002). Computación en tiempo real sin estados estables: un nuevo Miller, JF y Thomson, P. (2000). Programación genética cartesiana. En Programación genética (págs.
marco para la computación neuronal basada en perturbaciones. 121­132). Saltador.
Computación neuronal, 14 (11), 2531–2560. Miller, G., Todd, P. y Hedge, S. (1989). Diseño de redes neuronales mediante algoritmos genéticos. En Actas
MacKay, DJC (1992). Un marco bayesiano práctico para redes backprop. de la tercera conferencia internacional sobre algoritmos genéticos (págs. 379–384). Morgan Kauffman.
Computación neuronal, 4, 448–472.
MacKay, DJC y Miller, KD (1990). Análisis de la simulación de Linsker de las reglas hebbianas. Computación Miller, WT, Werbos, PJ y Sutton, RS (1995). Redes neuronales para el control. MIT
neuronal, 2, 173–187. Prensa.
Maclin, R. y Shavlik, JW (1993). Uso de redes neuronales basadas en el conocimiento para mejorar algoritmos: Minai, AA y Williams, RD (1994). Respuesta de perturbación en feedforward
refinamiento del algoritmo Chou­Fasman para el plegamiento de proteínas. redes. Redes neuronales, 7(5), 783–796.
Aprendizaje automático, 11 (2–3), 195–215. Minsky, M. (1963). Pasos hacia la inteligencia artificial. En E. Feigenbaum y J.
Maclin, R. y Shavlik, JW (1995). Combinando las predicciones de múltiples clasificadores: uso del aprendizaje Feldman (Eds.), Computadoras y pensamiento (págs. 406–450). Nueva York: McGraw­Hill.
competitivo para inicializar redes neuronales. En Proc. IJCAI (págs. 524–531). Minsky, M. y Papert, S. (1969). Perceptrones. Cambridge, MA: MIT Press.
Minton, S., Carbonell, JG, Knoblock, CA, Kuokka, DR, Etzioni, O. y Gil, Y.
Madala, HR e Ivakhnenko, AG (1994). Algoritmos de aprendizaje inductivo para complejos. (1989). Aprendizaje basado en explicaciones: una perspectiva de resolución de problemas. Inteligencia
modelado de sistemas. Boca Ratón: CRC Press. artificial, 40 (1), 63–118.
Madani, O., Hanks, S. y Condon, A. (2003). Sobre la indecidibilidad de la planificación probabilística y Mitchell, T. (1997). Aprendizaje automático. McGraw­Hill.
problemas de optimización estocástica relacionados. Inteligencia artificial, 147(1), 5–34. Mitchell, TM, Keller, RM y Kedar­Cabelli, ST (1986). Generalización basada en explicaciones : una visión
unificadora. Aprendizaje automático, 1(1), 47–80.
Maei, recursos humanos y Sutton, RS (2010). GQ(λ): un algoritmo de gradiente general para el aprendizaje Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., et al. (2013). Jugar a Atari con
de predicción de diferencias temporales con trazas de elegibilidad. En Actas de la tercera conferencia aprendizaje por refuerzo profundo. Reporte técnico.
sobre inteligencia artificial general, vol. 1 (págs. 91 a 96). Tecnologías Deepmind, arXiv:1312.5602 [cs.LG].
Maex, R. y Orban, G. (1996). Circuito modelo de neuronas activas que generan selectividad direccional en Mohamed, A. y Hinton, GE (2010). Reconocimiento de teléfonos mediante máquinas Boltzmann restringidas.
células simples. Revista de neurofisiología, 75 (4), 1515­1545. En la conferencia internacional IEEE sobre acústica, habla y procesamiento de señales (págs. 4354–
Mahadevan, S. (1996). Aprendizaje por refuerzo de recompensa promedio: fundamentos, 4357).
algoritmos y resultados empíricos. Aprendizaje automático, 22, 159. Molgedey, L. y Schuster, HG (1994). Separación de señales independientes mediante correlaciones retardadas
Malik, J. y Perona, P. (1990). Discriminación de texturas preatentiva con mecanismos de visión temprana. en el tiempo. Cartas de revisión física, 72(23), 3634–3637.
Revista de la Sociedad Óptica de América A, 7(5), 923–932. Møller, MF (1993). Cálculo exacto del producto de la matriz de Hesse de funciones de error de red feed­
Maniezzo, V. (1994). Evolución genética de la topología y distribución de pesos de las redes neuronales. forward y un vector en tiempo O(N). Informe técnico PB­432. Dinamarca: Departamento de Ciencias de
Transacciones IEEE en redes neuronales, 5(1), 39–53. la Computación, Universidad de Aarhus.
Machine Translated by Google

112 J. Schmidhuber / Redes neuronales 61 (2015) 85–117

Montana, DJ y Davis, L. (1989). Entrenamiento de redes neuronales feedforward mediante algoritmos Newton, I. (1687). Philosophiae naturalis principia mathematica. Londres: Guillermo
genéticos. En Actas de la undécima conferencia internacional conjunta sobre inteligencia artificial, vol. 1 Dawson & Sons Ltd.
(págs. 762–767). San Francisco, CA, EE.UU.: Morgan Kaufmann Publishers Inc. Nguyen, N. y Widrow, B. (1989). El camión de respaldo: un ejemplo de autoaprendizaje en redes neuronales.
En Actas de la conferencia conjunta internacional sobre redes neuronales (págs. 357–363). Prensa IEEE.
Montavon, G., Orr, G. y Müller, K. (2012). Serie de notas de conferencias sobre informática.
LNCS: vol. 7700. Redes neuronales: trucos del oficio. Springer Verlag. Nilsson, Nueva Jersey (1980). Principios de la inteligencia artificial. San Francisco, California, EE. UU.:
Moody, JE (1989). Aprendizaje rápido en jerarquías de múltiples resoluciones. En DS Touretzky (Ed.), Avances Morgan Kaufman.
en sistemas de procesamiento de información neuronal (NIPS), vol. 1 (págs. 29­39). Nolfi, S., Floreano, D., Miglino, O. y Mondada, F. (1994). Cómo evolucionar robots autónomos: diferentes
Morgan Kaufman. enfoques en robótica evolutiva. En RA Brooks y P. Maes (Eds.), Cuarto taller internacional sobre síntesis
Moody, JE (1992). El número efectivo de parámetros: un análisis de generalización y regularización en y simulación de sistemas vivos (vida artificial IV) (págs. 190­197). MIT.
sistemas de aprendizaje no lineales. En DS
Lippman, JE Moody y DS Touretzky (Eds.), Avances en los sistemas de procesamiento de información Nolfi, S., Parisi, D. y Elman, JL (1994). Aprendizaje y evolución en redes neuronales.
neuronal (NIPS), vol. 4 (págs. 847–854). Morgan Kaufman. Comportamiento adaptativo, 3(1), 5–28.
Moody, JE y Utans, J. (1994). Estrategias de selección de arquitectura para redes neuronales: aplicación a la
Nowak, E., Jurie, F. y Triggs, B. (2006). Estrategias de muestreo para la clasificación de imágenes de bolsa
predicción de calificaciones de bonos corporativos. En AN Refenes (Ed.), Redes neuronales en los
de características . En Proc. ECCV 2006 (págs. 490 a 503). Saltador.
mercados de capitales. John Wiley e hijos.
Nowlan, SJ y Hinton, GE (1992). Simplificando las redes neuronales por peso suave.
Moore, A. y Atkeson, CG (1993). Barrido priorizado: aprendizaje por refuerzo
intercambio. Computación neuronal, 4, 173–193.
con menos datos y menos tiempo. Aprendizaje automático, 13, 103–130.
O'Connor, P., Neil, D., Liu, S.­C., Delbruck, T. y Pfeiffer, M. (2013). Clasificación en tiempo real y fusión de
Moore, A. y Atkeson, C. (1995). El algoritmo de juego parcial para el aprendizaje por refuerzo de resolución
sensores con una red de creencias profundamente profunda. Fronteras en neurociencia, 7 (178).
variable en espacios de estados multidimensionales. Aprendizaje automático, 21 (3), 199–233.

Oh, K.­S. y Jung, K. (2004). Implementación GPU de redes neuronales. Reconocimiento de patrones , 37 (6),
Moriarty, DE (1997). Evolución simbiótica de redes neuronales en tareas de decisión secuencial (tesis
1311­1314.
doctoral), Departamento de Ciencias de la Computación, Universidad de Texas en Austin.
Oja, E. (1989). Redes neuronales, componentes principales y subespacios. Revista internacional de sistemas
Moriarty, DE y Mükkulainen, R. (1996). Aprendizaje por refuerzo eficiente a través de la evolución simbiótica. neuronales, 1(1), 61–68.
Aprendizaje automático, 22, 11–32. Oja, E. (1991). Compresión de datos, extracción de características y asociación automática en redes
Morimoto, J. y Doya, K. (2000). Aprendizaje por refuerzo robusto. En TK Leen, TG neuronales feedforward. En T. Kohonen, K. Mäkisara, O. Simula y J. Kangas (Eds.), Redes neuronales
Dietterich y V. Tresp (Eds.), Avances en los sistemas de procesamiento de información neuronal (NIPS), artificiales, vol. 1 (págs. 737–745). Holanda Septentrional: Elsevier Science Publishers BV.
vol. 13 (págs. 1061­1067). Prensa del MIT.
Mosteller, F. y Tukey, JW (1968). Análisis de datos, incluidas estadísticas. En G. Lindzey y E. Aronson (Eds.), Olshausen, BA y Field, DJ (1996). Aparición de propiedades de campo receptivo de células simples mediante
Manual de psicología social, vol. 2. Addison­Wesley. el aprendizaje de un código disperso para imágenes naturales. Naturaleza, 381(6583), 607–609.
Mozer, MC (1989). Un algoritmo de retropropagación enfocado para secuencia temporal
reconocimiento. Sistemas complejos, 3, 349–381. Omlin, C. y Giles, CL (1996). Extracción de reglas de tiempo discreto recurrente.
Mozer, MC (1991). Descubrir representaciones distribuidas discretas con aprendizaje competitivo iterativo. En Redes neuronales. Redes neuronales, 9(1), 41–52.
RP Lippmann, JE Moody y DS Touretzky (Eds.), Avances en sistemas de procesamiento de información Oquab, M., Bottou, L., Laptev, I. y Sivic, J. (2013). Aprender y transferir representaciones de imágenes de
neuronal, vol. 3 (págs. 627–634). Morgan Kaufman. nivel medio utilizando redes neuronales convolucionales. Informe técnico hal­00911179.

Mozer, MC (1992). Inducción de estructura temporal multiescala. En DS Lippman, JE Moody y DS Touretzky O'Reilly, RC (1996). Aprendizaje impulsado por errores biológicamente plausible utilizando diferencias de
(Eds.), Avances en los sistemas de procesamiento de información neuronal (NIPS), vol. 4 (págs. 275– activación locales: el algoritmo de recirculación generalizada. Computación neuronal, 8(5), 895–938.
282). Morgan Kaufman.
Mozer, MC y Smolensky, P. (1989). Esqueletización: una técnica para eliminar la grasa de una red mediante O'Reilly, R. (2003). Hacer que la memoria de trabajo funcione: un modelo computacional de aprendizaje en la
evaluación de relevancia. En DS Touretzky (Ed.), Avances en sistemas de procesamiento de información corteza prefrontal y los ganglios basales. Informe técnico ICS­03­03. ICS.
neuronal (NIPS), vol. 1 (págs. 107­115). Morgan Kaufman. O'Reilly, RC, Wyatte, D., Herd, S., Mingus, B. y Jilk, DJ (2013). Procesamiento recurrente durante el
reconocimiento de objetos. Fronteras en Psicología, 4, 124.
Muller, UA, Gunzinger, A. y Guggenbühl, W. (1995). Simulación rápida de redes neuronales con una matriz Orr, G. y Müller, K. (1998). Serie de notas de conferencias sobre informática. LNCS: vol. 1524.
de procesadores DSP. Transacciones IEEE en redes neuronales, 6(1), 203–213. Redes neuronales: trucos del oficio. Springer Verlag.
Munro, PW (1987). Un esquema dual de retropropagación para el aprendizaje por refuerzo escalar. En Actas
Ostrovskii, GM, Volin, YM y Borisov, WW (1971). Über die Berechnung von Ableitungen. Wissenschaftliche
de la novena conferencia anual de la sociedad de ciencia cognitiva (págs. 165­176).
Zeitschrift der Technischen Hochschule für Chemie, 13, 382–384.

Murray, AF y Edwards, PJ (1993). El ruido de peso sináptico durante el aprendizaje MLP mejora la tolerancia
Otsuka, M. (2010). Representación del mundo exterior orientada a objetivos: un enfoque basado en la
a fallos, la generalización y la trayectoria de aprendizaje. En SJ Hanson, JD Cowan y CL Giles (Eds.),
energía libre (tesis doctoral), Instituto de Ciencia y Tecnología de Nara.
Avances en los sistemas de procesamiento de información neuronal (NIPS), vol. 5 (págs. 491–498). San
Otsuka, M., Yoshimoto, J. y Doya, K. (2010). Aprendizaje por refuerzo basado en energía libre en un entorno
Mateo, California: Morgan Kaufmann.
parcialmente observable. En Proc. ESANN.
Nadal, J.­P. y Parga, N. (1994). Neuronas no lineales en el límite bajo de ruido: un factorial
Otte, S., Krechel, D., Liwicki, M. y Dengel, A. (2012). Detección de modo en línea basada en funciones locales
El código maximiza la transferencia de información. Redes, 5, 565–581.
Nagumo, J., Arimoto, S. y Yoshizawa, S. (1962). Una línea de transmisión de pulso activa que simula el axón con redes neuronales recurrentes. En Actas de la conferencia internacional de 2012 sobre Fronteras en

nervioso. Actas de la IRE, 50(10), 2061–2070. el reconocimiento de escritura a mano (págs. 533–537).
Nair, V. y Hinton, GE (2010). Las unidades lineales rectificadas mejoran las máquinas Boltzmann restringidas. Sociedad de Computación IEEE.
En conferencia internacional sobre aprendizaje automático. Oudeyer, P.­Y., Baranes, A. y Kaplan, F. (2013). Aprendizaje intrínsecamente motivado de habilidades
Narendra, KS y Parthasarathy, K. (1990). Identificación y control de sistemas dinámicos mediante redes sensoriomotoras del mundo real con limitaciones de desarrollo. En g.
neuronales. Transacciones IEEE en redes neuronales, 1(1), 4–27. Baldassarre y M. Mirolli (Eds.), Aprendizaje intrínsecamente motivado en sistemas naturales y artificiales.
Saltador.
Narendra, KS y Thathatchar, MAL (1974). Autómatas de aprendizaje: una encuesta. Transacciones IEEE Pachitariu, M. y Sahani, M. (2013). Regularización y no linealidades para modelos de lenguaje neuronal:
sobre sistemas, hombre y cibernética, 4, 323–334. ¿cuándo son necesarias? arXiv Preimpresión arXiv:1301.5650.
Neal, RM (1995). Aprendizaje bayesiano para redes neuronales (tesis doctoral), Universidad de Palma, G. (1980). Sobre la memoria asociativa. Cibernética biológica, 36.
Toronto.
Palma, G. (1992). Sobre la capacidad de almacenamiento de información de las reglas de aprendizaje locales. Neural
Neal, RM (2006). Clasificación con redes neuronales bayesianas. En J. Quinonero­Candela, B. Magnini, I.
Computación, 4(2), 703–711.
Dagan y F. D'Alche­Buc (Eds.), Apuntes de conferencias sobre informática: vol. 3944. Desafíos del
Pan, SJ y Yang, Q. (2010). Una encuesta sobre el aprendizaje por transferencia. Las transacciones IEEE en
aprendizaje automático. Evaluación de la incertidumbre predictiva, clasificación de objetos visuales y
Ingeniería del conocimiento y de los datos, 22(10), 1345–1359.
reconocimiento de implicaciones textuales (págs. 28­32).
Parekh, R., Yang, J. y Honavar, V. (2000). Algoritmos constructivos de aprendizaje de redes neuronales para
Saltador.
la clasificación de patrones de múltiples categorías. Transacciones IEEE en redes neuronales, 11 (2),
Neal, RM y Zhang, J. (2006). Clasificación de alta dimensión con redes neuronales bayesianas y árboles de
436–451.
difusión de Dirichlet. En I. Guyon, S. Gunn, M. Nikravesh y LA Zadeh (Eds.), Estudios sobre borrosidad
Parker, DB (1985). Lógica de aprendizaje. Informe técnico TR­47. Centro de Comp.
y computación blanda, Extracción de características: fundamentos y aplicaciones (págs. 265–295).
Investigación en Economía y Ciencias de la Gestión, MIT.
Saltador.
Pascanu, R., Gulcehre, C., Cho, K. y Bengio, Y. (2013). Cómo construir redes neuronales recurrentes
Neftci, E., Das, S., Pedroni, B., Kreutz­Delgado, K. y Cauwenberghs, G. (2014). Divergencia contrastiva
profundas. arXiv Preimpresión arXiv:1312.6026.
impulsada por eventos para sistemas neuromórficos con picos. Fronteras en neurociencia, 7 (272).
Pascanu, R., Mikolov, T. y Bengio, Y. (2013). Sobre la dificultad de entrenar redes neuronales recurrentes. En
ICML'13: JMLR: W&CP, vol. 28.
Neil, D. y Liu, S.­C. (2014). Minitaur, un acelerador de red de picos basado en FPGA impulsado por eventos.
Transacciones IEEE en sistemas de integración a muy gran escala (VLSI), PP(99), 1–8. Pasemann, F., Steinmetz, U. y Dieckman, U. (1999). Estructura y función en evolución de los neurocontroladores.
En PJ Angeline, Z. Michalewicz, M. Schoenauer, X. Yao y A. Zalzala (Eds.), Actas del congreso sobre
Nessler, B., Pfeiffer, M., Buesing, L. y Maass, W. (2013). La computación bayesiana surge en microcircuitos computación evolutiva, vol. 3 (págs. 1973­1978). Hotel Mayflower, Washington, DC, Estados Unidos:
corticales genéricos a través de una plasticidad dependiente del tiempo de pico. Biología Computacional IEEE Press.
PLoS, 9(4), e1003037. Pearlmutter, Licenciatura en Letras (1989). Aprendizaje de trayectorias del espacio de estados en neurología recurrente.

Neti, C., Schneider, MH y Young, ED (1992). Redes neuronales con máxima tolerancia a fallos. Transacciones redes. Computación neuronal, 1 (2), 263–269.
IEEE en redes neuronales, 3, 14­23. Pearlmutter, Licenciatura en Letras (1994). Multiplicación rápida y exacta por el hessiano. Neural
Neuneier, R. y Zimmermann, H.­G. (1996). Cómo entrenar redes neuronales. En GB Computación, 6(1), 147–160.
Orr y K.­R. Müller (Eds.), Apuntes de conferencias sobre informática: vol. 1524. Redes neuronales: trucos Pearlmutter, Licenciatura en Letras (1995). Cálculos de gradiente para redes neuronales dinámicas recurrentes:
del oficio (págs. 373–423). Saltador. una encuesta. Transacciones IEEE en redes neuronales, 6(5), 1212–1228.
Machine Translated by Google

J. Schmidhuber / Redes neuronales 61 (2015) 85–117 113

Pearlmutter, BA y Hinton, GE (1986). Maximización G: un procedimiento de aprendizaje no supervisado Rezende, DJ y Gerstner, W. (2014). Aprendizaje variacional estocástico en redes de picos recurrentes.
para descubrir regularidades. En Denker, JS, (Ed.), Redes neuronales para la informática: actas de Fronteras en neurociencia computacional, 8, 38.
conferencias del Instituto Americano de Física 151, vol. 2 (págs. 333–338). Riedmiller, M. (2005). Iteración Q neuronal ajustada: primeras experiencias con un método de aprendizaje
por refuerzo neuronal eficiente en datos. En Proc. ECML­2005 (págs. 317–328). Berlín, Heidelberg:
Peng, J. y Williams, RJ (1996). Q­learning incremental de varios pasos. Aprendizaje automático, 22, 283– Springer­Verlag.
290. Riedmiller, M. y Braun, H. (1993). Un método adaptativo directo para un aprendizaje de retropropagación
Pérez­Ortiz, JA, Gers, FA, Eck, D. y Schmidhuber, J. (2003). Los filtros de Kalman mejoran el rendimiento más rápido: el algoritmo Rprop. En Proc. IJCNN (págs. 586–591).
de la red LSTM en problemas que las redes recurrentes tradicionales no pueden resolver. Redes Prensa IEEE.
neuronales, (16), 241–250. Riedmiller, M., Lange, S. y Voigtlaender, A. (2012). Aprendizaje por refuerzo autónomo sobre datos de
Perrett, D., Hietanen, J., Oram, M., Benson, P. y Rolls, E. (1992). Organización y funciones de las células entrada visual sin procesar en una aplicación del mundo real. En Conferencia conjunta internacional
que responden a rostros en la corteza temporal [y discusión]. sobre redes neuronales (págs. 1 a 8).
Transacciones filosóficas de la Royal Society de Londres. Serie B: Ciencias biológicas, 335(1273), Riesenhuber, M. y Poggio, T. (1999). Modelos jerárquicos de reconocimiento de objetos en
23–30. corteza. Neurociencia de la naturaleza, 2(11), 1019–1025.
Perrett, D., Rolls, E. y Caan, W. (1982). Neuronas visuales que responden a rostros en la corteza temporal Rifai, S., Vincent, P., Muller, X., Glorot, X. y Bengio, Y. (2011). Codificadores automáticos contractivos:
del mono. Investigación experimental del cerebro, 47(3), 329–342. invariancia explícita durante la extracción de características. En Actas de la 28ª conferencia
Peters, J. (2010). Métodos de gradiente de políticas. Scholarpedia, 5(11), 3698. internacional sobre aprendizaje automático (págs. 833–840).
Peters, J. y Schaal, S. (2008a). Actor­crítico natural. Neurocomputación, 71, 1180­1190. Anillo, MB (1991). Desarrollo incremental de conductas complejas mediante la construcción automática
Peters, J. y Schaal, S. (2008b). Aprendizaje reforzado de habilidades motoras con política. de jerarquías sensorio­motoras. En L. Birnbaum y G.
gradientes. Redes neuronales, 21 (4), 682–697. Collins (Eds.), Aprendizaje automático: actas del octavo taller internacional (págs. 343–347). Morgan
Pham, V., Kermorvant, C. y Louradour, J. (2013). La deserción mejora las redes neuronales recurrentes Kaufman.
para el reconocimiento de escritura a mano. arXiv Preimpresión arXiv:1312.4569. Anillo, MB (1993). Aprender tareas secuenciales añadiendo incrementalmente órdenes superiores.
Pineda, FJ (1987). Generalización de la retropropagación a neuronas recurrentes. En SJ Hanson, JD Cowan y CL Giles (Eds.), Avances en sistemas de procesamiento de información
redes. Cartas de revisión física, 19(59), 2229–2232. neuronal, vol. 5 (págs. 115­122). Morgan Kaufman.
Placa, TA (1993). Redes recurrentes holográficas. En SJ Hanson, JD Cowan y CL Giles (Eds.), Avances Anillo, MB (1994). Aprendizaje continuo en entornos de refuerzo (tesis doctoral), Austin, Texas 78712:
en los sistemas de procesamiento de información neuronal (NIPS), vol. 5 (págs. 34 a 41). Morgan Universidad de Texas en Austin.
Kaufman. Ring, M., Schaul, T. y Schmidhuber, J. (2011). La organización bidimensional del comportamiento. En
Plumbley, Doctor en Medicina (1991). Sobre teoría de la información y redes neuronales no supervisadas. Actas de la primera conferencia conjunta sobre aprendizaje para el desarrollo y robótica epigenética.
Disertación, publicada como Informe técnico CUED/F­INFENG/TR.78. Departamento de Ingeniería,
Universidad de Cambridge. Risi, S. y Stanley, KO (2012). Un enfoque unificado para la evolución de la plasticidad y la geometría
Pollack, JB (1988). Implicaciones de las representaciones distribuidas recursivas. En Proc. neuronal. En Conferencia conjunta internacional sobre redes neuronales (págs. 1 a 8). IEEE.
NIPS (págs. 527–536). Rissanen, J. (1986). Complejidad estocástica y modelado. Los Anales de Estadística,
Pollack, JB (1990). Representación distribuida recursiva. Inteligencia artificial, 46, 14(3), 1080–1100.
77­105. Ritter, H. y Kohonen, T. (1989). Mapas semánticos autoorganizados. Biológico
Pontryagin, LS, Boltyanskii, VG, Gamrelidze, RV y Mishchenko, EF (1961). El Cibernética, 61(4), 241–254.
Teoría matemática de procesos óptimos. Robinson, AJ y Fallside, F. (1987). La red de propagación dinámica de errores impulsada por la utilidad.
Poon, H. y Domingos, P. (2011). Redes de suma­producto: una nueva arquitectura profunda. Informe técnico CUED/F­INFENG/TR.1. Departamento de Ingeniería de la Universidad de Cambridge.
En la conferencia internacional IEEE sobre talleres de visión por computadora (págs. 689–690).
IEEE.
Robinson, T. y Fallside, F. (1989). Redes de propagación de errores impulsadas por refuerzo dinámico
Correo, EL (1936). Procesos combinatorios finitos: formulación 1. The Journal of
con aplicación a los juegos. En Actas de la undécima conferencia de la sociedad de ciencia cognitiva
Lógica simbólica, 1(3), 103–105.
(págs. 836–843).
Prasoon, A., Petersen, K., Igel, C., Lauze, F., Dam, E. y Nielsen, M. (2013). Clasificación de vóxeles
Rodríguez, P. y Wiles, J. (1998). Las redes neuronales recurrentes pueden aprender a implementar el
basada en redes neuronales convolucionales triplanares aplicadas a la segmentación del cartílago
conteo sensible a símbolos. En Avances en sistemas de procesamiento de información neuronal
en resonancia magnética de rodilla. En LNCS: vol. 8150. Computación de imágenes médicas e
(NIPS), vol. 10 (págs. 87 a 93). La prensa del MIT.
intervención asistida por computadora (MICCAI) (págs. 246­253). Saltador.
Rodríguez, P., Wiles, J. y Elman, J. (1999). Una red neuronal recurrente que aprende
Precup, D., Sutton, RS y Singh, S. (1998). Modelos multitemporales para una planificación temporalmente
para contar. Ciencia de la conexión, 11 (1), 5–40.
abstracta. En Avances en los sistemas de procesamiento de información neuronal (NIPS) (págs.
Roggen, D., Hofmann, S., Thoma, Y. y Floreano, D. (2003). Red neuronal de hardware con conectividad
1050­1056). Morgan Kaufman.
reconfigurable en tiempo de ejecución en un robot autónomo.
Prokhorov, D. (2010). Un sistema de aprendizaje convolucional para la clasificación de objetos en datos
En Proc. Conferencia NASA/DoD sobre hardware evolutivo (págs. 189­198). IEEE.
LIDAR 3­D. Transacciones IEEE en redes neuronales, 21(5), 858–863.
Rohwer, R. (1989). El método de entrenamiento de "objetivos en movimiento". En J. Kindermann y A.
Prokhorov, DV, Feldkamp, LA y Tyukin, IY (2002). Comportamiento adaptativo con pesos fijos en RNN:
Linden (Eds.), Actas de 'procesamiento distribuido de información neuronal adaptativa'.
una descripción general. En Actas de la conferencia conjunta internacional IEEE sobre redes
Oldenburgo.
neuronales (págs. 2018­2023).
Rosenblatt, F. (1958). El perceptrón: un modelo probabilístico para el almacenamiento y organización de
Prokhorov, D., Puskorius, G. y Feldkamp, L. (2001). Redes neuronales dinámicas para el control. En J.
la información en el cerebro. Revisión psicológica, 65(6), 386.
Kolen y S. Kremer (Eds.), Una guía de campo para redes dinámicas recurrentes (págs. 23–78).
Rosenblatt, F. (1962). Principios de la neurodinámica. Nueva York: espartano.
Prensa IEEE.
Roux, L., Racoceanu, D., Lomenie, N., Kulikova, M., Irshad, H., Klossa, J., et al. (2013).
Prokhorov, D. y Wunsch, D. (1997). Diseño crítico adaptativo. Transacciones IEEE en redes neuronales,
Detección de mitosis en imágenes histológicas de cáncer de mama: un concurso ICPR 2012.
8(5), 997–1007.
Revista de Informática de Patología, 4, 8.
Puskorius, GV y Feldkamp, LA (1994). Neurocontrol de sistemas dinámicos no lineales con redes
recurrentes entrenadas con filtro de Kalman. Transacciones IEEE en redes neuronales, 5(2), 279– Rubner, J. y Schulten, K. (1990). Desarrollo de detectores de características por autoorganización: un
297. modelo de red. Cibernética biológica, 62, 193­199.
Raiko, T., Valpola, H. y LeCun, Y. (2012). Aprendizaje profundo facilitado por transformaciones lineales en Rückstieß, T., Felder, M. y Schmidhuber, J. (2008). Exploración dependiente del Estado para métodos de
perceptrones. En Conferencia internacional sobre inteligencia artificial y estadística (págs. 924–932). gradiente de políticas. En W. Daelemans, et al. (Eds.), LNAI: vol. 5212.
Conferencia europea sobre aprendizaje automático (ECML) y principios y práctica del descubrimiento
Raina, R., Madhavan, A. y Ng, A. (2009). Aprendizaje profundo no supervisado a gran escala mediante de conocimientos en bases de datos 2008, parte II (págs. 234­249).
procesadores gráficos. En Actas de la 26ª conferencia internacional anual sobre aprendizaje Rumelhart, DE, Hinton, GE y Williams, RJ (1986). Aprendiendo representaciones internas por propagación
automático (págs. 873–880). ACM. de errores. En DE Rumelhart y JL McClelland (Eds.), Procesamiento distribuido paralelo, vol. 1
Ramacher, U., Raab, W., Anlauf, J., Hachmann, U., Beichter, J., Bruels, N., et al. (1993). (págs. 318–362). Prensa del MIT.
Arquitectura multiprocesador y memoria del neurocomputador SYNAPSE­1. Rumelhart, DE y Zipser, D. (1986). Descubrimiento de características mediante aprendizaje competitivo.
Revista internacional de sistemas neuronales, 4(4), 333–336. En Procesamiento distribuido paralelo (págs. 151­193). Prensa del MIT.
Ranzato, MA, Huang, F., Boureau, Y. y LeCun, Y. (2007). Aprendizaje no supervisado de jerarquías de Rummery, G. y Niranjan, M. (1994). Q­learning online utilizando sistemas conexionistas.
características invariantes con aplicaciones al reconocimiento de objetos. En Proc. Conferencia Informe técnico CUED/F­INFENG­TR 166. Reino Unido: Universidad de Cambridge.
sobre visión por computadora y reconocimiento de patrones (págs. 1 a 8). Prensa IEEE. Russell, SJ, Norvig, P., Canny, JF, Malik, JM y Edwards, DD (1995). Inteligencia artificial : un enfoque
Ranzato, M., Poultney, C., Chopra, S. y LeCun, Y. (2006). Aprendizaje eficiente de representaciones moderno, vol. 2. Acantilados de Englewood: Prentice Hall.
dispersas con un modelo basado en energía. En J. Platt, et al. (Eds.), Avances en los sistemas de Saito, K. y Nakano, R. (1997). Actualización parcial de BFGS y cálculo eficiente de longitud de paso para
procesamiento de información neuronal (NIPS 2006). Prensa del MIT. redes neuronales de tres capas. Computación neuronal, 9 (1), 123­141.
Rauber, A., Merkl, D. y Dittenbach, M. (2002). El creciente mapa jerárquico autoorganizado: análisis Sak, H., Senior, A. y Beaufays, F. (2014). Arquitecturas de redes neuronales recurrentes de memoria a
exploratorio de datos de alta dimensión. Transacciones IEEE en redes neuronales, 13(6), 1331–1341. corto plazo para modelado acústico a gran escala. En Proc. entre discursos.
Sak, H., Vinyals, O., Heigold, G., Senior, A., McDermott, E. y Monga, R., et al. (2014). Secuencia de
Razavian, AS, Azizpour, H., Sullivan, J. y Carlsson, S. (2014). Funciones de CNN listas para usar: una entrenamiento distribuido discriminativo de redes neuronales recurrentes de memoria a corto plazo.
base asombrosa para el reconocimiento. Preimpresión de ArXiv arXiv:1403.6382. En Proc. Entre discursos.
Rechenberg, I. (1971). Evolutionsstrategie—optimierung technischer systeme nach prinzipien der Salakhutdinov, R. y Hinton, G. (2009). Hash semántico. Revista Internacional de
biologischen Evolution (Disertación), publicada en 1973 por Fromman­Holzboog. Razonamiento aproximado, 50(7), 969–978.
Sallans, B. y Hinton, G. (2004). Aprendizaje por refuerzo con estados y acciones factorizados. Revista de
Redlich, AN (1993). La reducción de la redundancia como estrategia para el aprendizaje no supervisado. investigación sobre aprendizaje automático, 5, 1063–1088.
Computación neuronal, 5, 289–304. Sałustowicz, RP y Schmidhuber, J. (1997). Evolución probabilística incremental del programa .
Refenes, NA, Zapranis, A. y Francis, G. (1994). Modelado del desempeño bursátil mediante redes Computación evolutiva, 5 (2), 123–141.
neuronales: un estudio comparativo con modelos de regresión. Redes neuronales, 7(2), 375–388. Samejima, K., Doya, K. y Kawato, M. (2003). Asignación de créditos entre módulos en aprendizaje por
refuerzo modular. Redes neuronales, 16(7), 985–994.
Machine Translated by Google

114 J. Schmidhuber / Redes neuronales 61 (2015) 85–117

Samuel, AL (1959). Algunos estudios en aprendizaje automático utilizando el juego de damas. Schmidhuber, J. (2006b). Máquinas de Gödel: Automejoradores universales óptimos totalmente
Revista IBM de investigación y desarrollo, 3, 210–229. autorreferenciales. En B. Goertzel y C. Pennachin (Eds.), Inteligencia general artificial (págs. 199­226).
Sanger, TD (1989). Un principio de optimización para el aprendizaje no supervisado. En DS Springer Verlag. Variante disponible como arXiv:cs.LO/0309048.
Touretzky (Ed.), Avances en los sistemas de procesamiento de información neuronal (NIPS), vol. 1 Schmidhuber, J. (2007). Prototipos de robots resistentes y automodelados. Ciencia, 316(5825), 688.
(págs. 11 a 19). Morgan Kaufman.
Santamaría, JC, Sutton, RS y Ram, A. (1997). Experimentos con aprendizaje por refuerzo en problemas Schmidhuber, J. (2012). Redes neuronales autodelimitantes. Informe técnico IDSIA­08­12.
con estados continuos y espacios de acción. Comportamiento adaptativo, 6(2), 163–217. El laboratorio suizo de IA IDSIA, arXiv:1210.0118v1 [cs.NE].
Schmidhuber, J. (2013a). Mi primer sistema de aprendizaje profundo de 1991 + cronograma de aprendizaje
Saravanan, N. y Fogel, DB (1995). Sistemas de control neuronal en evolución. experto en IEEE, profundo 1962­2013. Reporte técnico. El laboratorio suizo de IA IDSIA, arXiv:1312.5548v1 [cs.NE].
23–27.
Saund, E. (1994). Aprendizaje no supervisado de mezclas de múltiples causas en datos binarios. En JD Schmidhuber, J. (2013b). PowerPlay: formar a un solucionador de problemas cada vez más general
Cowan, G. Tesauro y J. Alspector (Eds.), Avances en los sistemas de procesamiento de información mediante la búsqueda continua del problema más simple que aún no tiene solución.
neuronal (NIPS), vol. 6 (págs. 27­34). Morgan Kaufman. Fronteras en Psicología.
Schaback, R. y Werner, H. (1992). Matemática numérica, vol. 4. Saltador. Schmidhuber, J., Ciresan, D., Meier, U., Masci, J. y Graves, A. (2011). En redes rápidas y profundas para
Schäfer, AM, Udluft, S. y Zimmermann, H.­G. (2006). Aprender dependencias a largo plazo con redes la visión AGI. En Proc. cuarta conferencia sobre inteligencia artificial general (págs. 243­246).
neuronales recurrentes. En SD Kollias, A. Stafylopatis, W. Duch y E. Oja (Eds.), Apuntes de
conferencias sobre informática: vol. 4131. ICANN (1) (págs. 71 a 80). Saltador. Schmidhuber, J., Eldracher, M. y Foltin, B. (1996). La minimización de la previsibilidad semilineal produce
detectores de características bien conocidos. Computación neuronal, 8(4), 773–786.

Schapire, RE (1990). La fuerza de pobre aprendizaje. Aprendizaje automático, 5,


197–227. Schmidhuber, J. y Huber, R. (1991). Aprender a generar trayectorias de fóvea artificiales para la detección
Schaul, T. y Schmidhuber, J. (2010). Metaaprendizaje. Scholarpedia, 6(5), 4650. de objetivos. Revista internacional de sistemas neuronales, 2 (1 y 2), 135–141.
Schaul, T., Zhang, S. y LeCun, Y. (2013). No más tasas de aprendizaje molestas. En Proc. 30 Schmidhuber, J., Mozer, MC y Prelinger, D. (1993). Compresión continua de la historia . En H. Hüning, S.
Congreso internacional sobre aprendizaje automático. Neuhauser, M. Raus y W. Ritschel (Eds.), Proc. de int. taller sobre redes neuronales (págs. 87–95).

Schemmel, J., Grubl, A., Meier, K. y Mueller, E. (2006). Implementación de plasticidad sináptica en un Agustino: RWTH Aachen.

modelo de red neuronal con picos VLSI. En Conferencia conjunta internacional sobre redes neuronales Schmidhuber, J. y Prelinger, D. (1992). Descubrir clasificaciones predecibles.
(págs. 1 a 6). IEEE. Informe técnico CU­CS­626­92. Departamento de Comp. Ciencias, Universidad de Colorado en
Scherer, D., Müller, A. y Behnke, S. (2010). Evaluación de operaciones de pooling en arquitecturas Boulder. Publicado en Computación neuronal 5 (4) (1993) 625–635.
convolucionales para reconocimiento de objetos. En Proc. Conferencia internacional sobre redes Schmidhuber, J. y Wahnsiedler, R. (1992). Planificación de trayectorias simples utilizando generadores de
neuronales artificiales (págs. 92­101). subobjetivos neuronales. En JA Meyer, HL Roitblat y SW Wilson (Eds.), Proc. de la segunda
conferencia internacional sobre simulación del comportamiento adaptativo (págs. 196­202).
Schmidhuber, J. (1987). Principios evolutivos en el aprendizaje autorreferencial, o en aprender a aprender:
Prensa del MIT.
el meta­meta­... gancho (tesis de diploma), Inst. F. Inf., Tecnología.
Schmidhuber, J., Wierstra, D., Gagliolo, M. y Gómez, FJ (2007). Entrenamiento de redes recurrentes por
Univ. Múnich, http://www.idsia.ch/~juergen/diploma.html.
Evolino. Computación neuronal, 19 (3), 757–779.
Schmidhuber, J. (1989a). Aprendizaje acelerado en redes de retropropagación. en r.
Schmidhuber, J., Zhao, J. y Schraudolph, N. (1997). Aprendizaje por refuerzo con políticas automodificables.
Pfeifer, Z. Schreter, Z. Fogelman y L. Steels (Eds.), El conexionismo en perspectiva (págs. 429–438).
En S. Thrun y L. Pratt (Eds.), Aprender a aprender (págs. 293–309). Kluwer.
Ámsterdam: Elsevier, Holanda Septentrional.
Schmidhuber, J. (1989b). Un algoritmo de aprendizaje local para avance dinámico y
Schmidhuber, J., Zhao, J. y Wiering, M. (1997). Cambiar el sesgo inductivo con algoritmo de historias de
Redes recurrentes. Ciencia de la conexión, 1(4), 403–412.
éxito, búsqueda adaptativa de Levin y superación personal incremental.
Schmidhuber, J. (1990a). Dynamische neuronale Netze und das fundamentale raumzeitliche Lernproblem.
Aprendizaje automático, 28, 105–130.
(Redes neuronales dinámicas y el problema fundamental de asignación de crédito espacio­temporal).
Schölkopf, B., Burges, CJC y Smola, AJ (Eds.) (1998). Avances en los métodos del kernel: apoyan el
(Disertación), Inst. F. Inf., Tecnología. Univ.
aprendizaje de vectores. Cambridge, MA: MIT Press.
Munich.
Schraudolph, NN (2002). Productos vectoriales de matriz de curvatura rápida para descenso de gradiente
Schmidhuber, J. (1990b). Algoritmos de aprendizaje para redes con retroalimentación interna y externa. En
de segundo orden . Computación neuronal, 14 (7), 1723­1738.
DS Touretzky, JL Elman, TJ Sejnowski y GE Hinton (Eds.), Proc. de la escuela de verano de modelos
Schraudolph, N. y Sejnowski, TJ (1993). Discriminación no supervisada de datos agrupados mediante la
conexionistas de 1990 (págs. 52­61). Morgan Kaufman.
optimización de la ganancia de información binaria. En SJ Hanson, JD Cowan y CL Giles (Eds.),
Avances en sistemas de procesamiento de información neuronal, vol. 5 (págs. 499–506). San Mateo:
Schmidhuber, J. (1990c). El intercambiador de calor neuronal. Charlas en TU Munich (1990), Universidad
Morgan Kaufmann.
de Colorado en Boulder (1992) y taller NIPS*94 de Z. Li sobre aprendizaje no supervisado. También
publicado en el Internacional. conferencia sobre procesamiento de información neuronal, vol. 1 (págs. Schraudolph, NN y Sejnowski, TJ (1996). Templar las redes de retropropagación: no todos los pesos son

194­197), 1996. iguales. En DS Touretzky, MC Mozer y YO


Hasselmo (Eds.), Avances en los sistemas de procesamiento de información neuronal (NIPS), vol. 8
Schmidhuber, J. (1990d). Un algoritmo en línea para el aprendizaje y la planificación por refuerzo dinámico
(págs. 563–569). Cambridge, MA: The MIT Press.
en entornos reactivos. En Proc. Conferencia conjunta internacional IEEE/INNS sobre redes neuronales,
Schrauwen, B., Verstraeten, D. y Van Campenhout, J. (2007). Una descripción general de la computación
vol. 2 (págs. 253­258).
de yacimientos: teoría, aplicaciones e implementaciones. En Actas del 15º simposio europeo sobre
Schmidhuber, J. (1991a). Curiosos sistemas de control para la construcción de maquetas. En Actas de la
redes neuronales artificiales (págs. 471–482).
conferencia conjunta internacional sobre redes neuronales, vol. 2 (págs. 1458­1463). Prensa IEEE.
Schuster, HG (1992). Aprendizaje maximizando la transferencia de información a través de neuronas
ruidosas no lineales y "desglose del ruido". Revisión física A, 46(4), 2131–2138.
Schmidhuber, J. (1991b). Aprender a generar submetas para secuencias de acción. En t.
Kohonen, K. Mäkisara, O. Simula y J. Kangas (Eds.), Redes neuronales artificiales (págs. 967–972).
Schuster, M. (1999). Sobre el aprendizaje supervisado a partir de datos secuenciales con aplicaciones para
Holanda Septentrional: Elsevier Science Publishers BV.
el reconocimiento de voz (tesis doctoral), Kyoto, Japón: Instituto Nara de Ciencia y Tecnología.
Schmidhuber, J. (1991c). Aprendizaje por refuerzo en entornos markovianos y no markovianos . En DS
Lippman, JE Moody y DS Touretzky (Eds.), Avances en sistemas de procesamiento de información
Schuster, M. y Paliwal, KK (1997). Redes neuronales recurrentes bidireccionales. Transacciones IEEE
neuronal, vol. 3 (NIPS 3) (págs. 500–506). Morgan Kaufman.
sobre procesamiento de señales, 45, 2673–2681.
3 Schwartz, A. (1993). Un método de aprendizaje por refuerzo para maximizar la indisponibilidad.
Schmidhuber, J. (1992a). Un almacenamiento de tamaño fijo O(n ) algoritmo de aprendizaje de
recompensas contadas. En Proc. ICML (págs. 298–305).
complejidad temporal para redes totalmente recurrentes que se ejecutan continuamente. Computación
Schwefel, HP (1974). Numerische optimierung von computer­modellen (Disserta­
neuronal, 4 (2), 243–248.
tion), publicado en 1977 por Birkhäuser, Basilea.
Schmidhuber, J. (1992b). Aprender secuencias complejas y extendidas utilizando el principio de compresión Desafío de segmentación de estructuras neuronales en pilas EM, (2012). Simposio internacional IEEE sobre
histórica. Computación neuronal, 4 (2), 234–242. Basado en TR FKI­148­91, TUM, 1991. imágenes biomédicas. http://tinyurl.com/d2fgh7g.
Sehnke, F., Osendorfer, C., Rückstieß, T., Graves, A., Peters, J. y Schmidhuber, J.
Schmidhuber, J. (1992c). Aprendizaje de códigos factoriales mediante minimización de la previsibilidad. (2010). gradientes de políticas de exploración de parámetros. Redes neuronales, 23(4), 551–559.
Computación neuronal, 4 (6), 863–879. Sermanet, P., Eigen, D., Zhang, X., Mathieu, M., Fergus, R. y LeCun, Y. (2013). Over­Feat: reconocimiento,
Schmidhuber, J. (1993a). Una red introspectiva que puede aprender a ejecutar su propio algoritmo de localización y detección integrados mediante redes convolucionales. Preimpresión de ArXiv
cambio de peso. En Proc. del int. conf. sobre redes neuronales artificiales, Brighton (págs. 191­195). arXiv:1312.6229.
IEEE. Sermanet, P. y LeCun, Y. (2011). Reconocimiento de señales de tráfico con redes convolucionales
Schmidhuber, J. (1993b). Netzwerkarchitekturen, Zielfunktionen und Kettenregel. multiescala. En Actas de una conferencia conjunta internacional sobre redes neuronales (págs. 2809–
(Arquitecturas de red, funciones objetivo y regla de cadena). (Tesis de habilitación), Inst. F. Inf., 2813).
Tecnología. Univ. Munich. Serrano­Gotarredona, R., Oster, M., Lichtsteiner, P., Linares­Barranco, A., Paz­Vicente, R., Gómez­
Schmidhuber, J. (1997). Descubriendo redes neuronales con baja complejidad de Kolmogorov y alta Rodríguez, F., et al. (2009). Caviar: una neurona de 45 k, sinapsis de 5 m, conexiones de 12 g/s.
capacidad de generalización. Redes neuronales, 10(5), 857–873. Sistema de accionamiento, aprendizaje, procesamiento sensorial y hardware AER para reconocimiento
Schmidhuber, J. (2002). La velocidad previa: una nueva medida de simplicidad que produce predicciones y seguimiento de objetos visuales de alta velocidad. Transacciones IEEE en redes neuronales, 20(9),
computables casi óptimas. En J. Kivinen y RH Sloan (Eds.), Apuntes de conferencias sobre inteligencia 1417–1438.
artificial, Actas de la 15ª conferencia anual sobre teoría del aprendizaje computacional (págs. 216­228).
Sídney, Australia: Springer. Serre, T., Riesenhuber, M., Louie, J. y Poggio, T. (2002). Sobre el papel de las características específicas
Schmidhuber, J. (2004). Solucionador de problemas ordenado óptimo. Aprendizaje automático, 54, de los objetos para el reconocimiento de objetos del mundo real en la visión biológica. En Visión por
211–254. computadora con motivación biológica (págs. 387–397).
Schmidhuber, J. (2006a). Robótica del desarrollo, curiosidad artificial óptima, creatividad, música y bellas Seung, SA (2003). Aprendizaje en redes neuronales de refuerzo mediante refuerzo de
artes. Ciencia de la conexión, 18 (2), 173–187. Transmisión sináptica estocástica. Neurona, 40(6), 1063–1073.
Machine Translated by Google

J. Schmidhuber / Redes neuronales 61 (2015) 85–117 115

Shan, H. y Cottrell, G. (2014). Codificación visual eficiente: De la retina a V2. Stratonovich, R. (1960). Procesos condicionales de Markov. Teoría de la probabilidad y sus
En Proc. Congreso internacional sobre representaciones del aprendizaje. Preimpresión de ArXiv Aplicaciones, 5(2), 156–178.
arXiv:1312.6077. Sun, G., Chen, H. y Lee, Y. (1993). Redes neuronales invariantes que deforman el tiempo. en sj
Shan, H., Zhang, L. y Cottrell, GW (2007). ICA recursiva. En Avances en neurología Hanson, JD Cowan y CL Giles (Eds.), Avances en los sistemas de procesamiento de información
sistemas de procesamiento de información (NIPS), vol. 19 (pág. 1273). neuronal (NIPS), vol. 5 (págs. 180­187). Morgan Kaufman.
Shanno, DF (1970). Condicionamiento de métodos cuasi­Newton para minimización de funciones. Sun, GZ, Giles, CL, Chen, HH y Lee, YC (1993). El autómata pushdown de la red neuronal: simulaciones
Matemáticas de la Computación, 24(111), 647–656. de modelo, pila y aprendizaje. Informe técnico CS­TR­3118.
Shannon, CE (1948). Una teoría matemática de la comunicación (partes I y II). Campana Universidad de Maryland, College Park.
Revista técnica del sistema, XXVII, 379–423. Sun, Y., Gomez, F., Schaul, T. y Schmidhuber, J. (2013). Una estrategia de evolución natural en el tiempo
Shao, L., Wu, D. y Li, X. (2014). Aprendizaje profundo y amplio: un método espectral para aprender redes lineal para funciones no separables. En Actas de la conferencia sobre computación genética y
profundas. Transacciones IEEE sobre redes neuronales y sistemas de aprendizaje. evolutiva (p. 61). Ámsterdam, Países Bajos: ACM.
Sun, Y., Wierstra, D., Schaul, T. y Schmidhuber, J. (2009). Estrategias eficientes de evolución natural. En
Shavlik, JW (1994). Combinando aprendizaje simbólico y neuronal. Aprendizaje automático, 14(3), 321–331. Proc. XI conferencia de computación genética y evolutiva (págs. 539–546).

Shavlik, JW y Towell, GG (1989). Combinando aprendizaje neuronal y basado en explicaciones : un Sutskever, I., Hinton, GE y Taylor, GW (2008). El temporal restringido recurrente
algoritmo y resultados empíricos. Ciencia de la conexión, 1(3), 233–255. Máquina de Boltzmann. En NIPS, vol. 21 (pág. 2008).
Siegelmann, H. (1992). Fundamentos teóricos de las redes neuronales recurrentes ( tesis doctoral), New Sutskever, I., Vinyals, O. y Le, QV (2014). Secuencia a secuenciar el aprendizaje con redes neuronales.
Brunswick Rutgers, estado de Nueva Jersey: Rutgers. Reporte técnico. arXiv:1409.3215 [cs.CL] Google. NIPS'2014.
Siegelmann, HT y Sontag, ED (1991). Computabilidad de Turing con redes neuronales. Sutton, R. y Barto, A. (1998). Aprendizaje por refuerzo: una introducción. Cambridge,
Cartas de Matemáticas Aplicadas, 4(6), 77–80. MA: Prensa del MIT.
Silva, FM y Almeida, LB (1990). Acelerando la retropropagación. En R. Eckmiller (Ed.), Computadoras Sutton, RS, McAllester, DA, Singh, SP y Mansour, Y. (1999). Métodos de gradiente de políticas para el
neuronales avanzadas (págs. 151­158). Ámsterdam: Elsevier. aprendizaje por refuerzo con aproximación de funciones. En Avances en sistemas de procesamiento
Síma, J. (1994). Cargar redes profundas es difícil. Computación neuronal, 6 (5), 842–850. de información neuronal (NIPS), vol. 12 (págs. 1057­1063).
Síma, J. (2002). Entrenar una sola neurona sigmoidea es difícil. Computación neuronal, Sutton, RS, Precup, D. y Singh, SP (1999). Entre MDP y semi­MDP: un marco para la abstracción temporal
14(11), 2709–2728. en el aprendizaje por refuerzo. Inteligencia artificial, 112 (1–2), 181–211.
Simard, P., Steinkraus, D. y Platt, J. (2003). Mejores prácticas para redes neuronales convolucionales
aplicadas al análisis de documentos visuales. En Séptima conferencia internacional sobre análisis y Sutton, RS, Szepesvári, C. y Maei, HR (2008). Un algoritmo convergente O(n) para el aprendizaje de
reconocimiento de documentos (págs. 958–963). diferencias temporales fuera de políticas con aproximación de funciones lineales.
Sims, K. (1994). Criaturas virtuales en evolución. En A. Glassner (Ed.), ACM SIGGRAPH, Actas de En Avances en sistemas de procesamiento de información neuronal (NIPS'08), vol. 21 (págs.
SIGGRAPH '94, actas de gráficos por computadora, conferencia anual (págs. 15­22). Prensa ACM, 1609­1616).
ISBN: 0­89791­667­0. Szabó, Z., Póczos, B. y Lőrincz, A. (2006). Optimización de entropía cruzada para análisis de procesos
Simsek, Ö. y Barto, AG (2008). Caracterización de habilidades basada en el intermediación. En independientes. En Análisis de componentes independientes y separación de señales ciegas (págs.
NIPS'08 (págs. 1497­1504). 909–916). Saltador.
Singh, SP (1994). Algoritmos de aprendizaje por refuerzo para procesos de decisión markovianos de Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., et al. (2014). Profundizando con las
rentabilidad media. En Conferencia nacional sobre inteligencia artificial (págs. 700–705). convoluciones. Reporte técnico. arXiv:1409.4842 [cs.CV], Google.
Szegedy, C., Toshev, A. y Erhan, D. (2013). Redes neuronales profundas para objetos.
Singh, S., Barto, AG y Chentanez, N. (2005). Aprendizaje por refuerzo intrínsecamente motivado . En detección (págs. 2553­2561).
Avances en sistemas de procesamiento de información neuronal, vol. 17 (PNI). Taylor, GW, Spiro, I., Bregler, C. y Fergus, R. (2011). Aprender la invariancia mediante la imitación. En
Cambridge, MA: MIT Press. Conferencia sobre visión por computadora y reconocimiento de patrones (págs. 2729–2736). IEEE.
Smith, SF (1980). Un sistema de aprendizaje basado en algoritmos genéticos adaptativos ( tesis doctoral),
Univ. Pittsburg. Tegge, AN, Wang, Z., Eickholt, J. y Cheng, J. (2009). NNcon: predicción mejorada del mapa de contacto de
Smolensky, P. (1986). Procesamiento distribuido paralelo: exploraciones en la microestructura de la proteínas mediante redes neuronales recursivas 2D. Investigación de ácidos nucleicos, 37 (suplemento
cognición. En Procesamiento de información en sistemas dinámicos: fundamentos de la teoría de la 2), W515 – W518.
armonía, vol. 1 (págs. 194 a 281). Cambridge, MA, EE.UU.: MIT Press, (Capítulo). Teichmann, M., Wiltschut, J. y Hamker, F. (2012). Aprender la invariancia a partir de imágenes naturales
inspiradas en observaciones en la corteza visual primaria. Computación neuronal, 24 (5), 1271­1296.
Solla, SA (1988). Aprendizaje acelerado en redes neuronales en capas. Sistemas complejos , 2, 625–640.
Cajero, A. (1994). La evolución de los modelos mentales. En E. Kenneth y J. Kinnear (Eds.), Avances en la
Salomónoff, RJ (1964). Una teoría formal de inferencia inductiva. Parte I. Información programación genética (págs. 199­219). Prensa del MIT.
y Control, 7, 1–22. Tenenberg, J., Karlsson, J. y Whitehead, S. (1993). Aprendizaje mediante descomposición de tareas.
Solomonoff, RJ (1978). Sistemas de inducción basados en la complejidad. Transacciones IEEE sobre En JA Meyer, H. Roitblat y S. Wilson (Eds.), De animales a animats 2: actas de la segunda conferencia
teoría de la información, IT­24(5), 422–432. internacional sobre simulación de conducta adaptativa (págs. 337–343). Prensa del MIT.
Soloway, E. (1986). Aprender a programar = aprender a construir mecanismos y explicaciones.
Comunicaciones de la ACM, 29(9), 850–858. Tesauro, G. (1994). TD­gammon, un programa de backgammon autodidacta, consigue
Song, S., Miller, KD y Abbott, LF (2000). Aprendizaje hebbiano competitivo a través de la plasticidad juego de nivel maestro. Computación neuronal, 6 (2), 215–219.
sináptica dependiente del tiempo de pico. Neurociencia de la naturaleza, 3(9), 919–926. Tieleman, T. y Hinton, G. (2012). Conferencia 6.5—RmsProp: Divida el gradiente por un promedio móvil de
su magnitud reciente. CURSERA: Redes neuronales para el aprendizaje automático.
Speelpenning, B. (1980). Compilación de derivadas parciales rápidas de funciones dadas por algoritmos
(tesis doctoral), Urbana­Champaign: Departamento de Ciencias de la Computación, Universidad de Tikhonov, AN, Arsenin, VI y John, F. (1977). Soluciones de problemas mal planteados.
Illinois. Winston.
Srivastava, RK, Masci, J., Kazerounian, S., Gomez, F. y Schmidhuber, J. (2013). Ting, KM y Witten, IH (1997). Generalización apilada: ¿cuándo funciona? En Proc. Conferencia conjunta
Competir para computar. En Avances en los sistemas de procesamiento de información neuronal internacional sobre inteligencia artificial.
(NIPS) (págs. 2310­2318). Tiňo, P. y Hammer, B. (2004). Sesgo arquitectónico en redes neuronales recurrentes:
Stallkamp, J., Schlipsing, M., Salmen, J. e Igel, C. (2011). El punto de referencia alemán de reconocimiento Análisis fractal. Computación neuronal, 15 (8), 1931­1957.
de señales de tráfico: una competición de clasificación de varias clases. En Conferencia conjunta Tonkes, B. y Wiles, J. (1997). Aprender una tarea libre de contexto con una red neuronal recurrente: un
internacional sobre redes neuronales (págs. 1453­1460). Prensa IEEE. análisis de estabilidad. En Actas de la cuarta conferencia bienal de la sociedad de ciencia cognitiva de
Stallkamp, J., Schlipsing, M., Salmen, J. e Igel, C. (2012). Hombre versus computadora: evaluación Australasia.
comparativa de algoritmos de aprendizaje automático para el reconocimiento de señales de tráfico. Towell, GG y Shavlik, JW (1994). Redes neuronales artificiales basadas en el conocimiento.
Redes neuronales, 32, 323–332. Inteligencia artificial, 70(1), 119–165.
Stanley, KO, D'Ambrosio, DB y Gauci, J. (2009). Una codificación basada en hipercubo para la evolución Tsitsiklis, JN y van Roy, B. (1996). Métodos basados en funciones para programación dinámica a gran
de redes neuronales a gran escala. Vida artificial, 15 (2), 185–212. escala. Aprendizaje automático, 22(1–3), 59–94.
Stanley, KO y Mükkulainen, R. (2002). Redes neuronales en evolución mediante topologías crecientes. Tsodyks, M., Pawelzik, K. y Markram, H. (1998). Redes neuronales con dinámica.
Computación evolutiva, 10, 99–127. sinapsis. Computación neuronal, 10 (4), 821–835.
Steijvers, M. y Grunwald, P. (1996). Una red recurrente que realiza una tarea de predicción sensible al Tsodyks, MV, Skaggs, WE, Sejnowski, TJ y McNaughton, BL (1996). Dinámica de la población y precesión
contexto. En Actas de la 18ª conferencia anual de la sociedad de ciencia cognitiva. Erlbaum. de la fase del ritmo theta de la activación de las células del lugar del hipocampo: un modelo de
neuronas con picos. Hipocampo, 6(3), 271–280.
Steil, JJ (2007). Adaptación del reservorio en línea mediante plasticidad intrínseca para retropropagación­ Turaga, SC, Murray, JF, Jain, V., Roth, F., Helmstaedter, M., Briggman, K., et al.
descorrelación y aprendizaje del estado de eco. Redes neuronales, 20(3), 353–364. (2010). Las redes convolucionales pueden aprender a generar gráficos de afinidad para la
Stemmler, M. (1996). Un solo pico es suficiente: la forma más simple de resonancia estocástica en neuronas segmentación de imágenes. Computación neuronal, 22 (2), 511–538.
modelo. Red: Computación en sistemas neuronales, 7 (4), 687–716. Turing, AM (1936). Sobre números computables, con aplicación al Entscheidungsproblem. Actas de la
Sociedad Matemática de Londres, Serie 2, 41, 230–267.
Stoianov, I. y Zorzi, M. (2012). Aparición de un "sentido numérico visual" en la jerarquía
modelos generativos. Neurociencia de la naturaleza, 15 (2), 194­196. Turner, AJ y Miller, JF (2013). La programación genética cartesiana codificó redes neuronales artificiales:
Piedra, M. (1974). Elección de validación cruzada y evaluación de predicciones estadísticas. una comparación utilizando tres puntos de referencia. En Actas de la conferencia sobre computación
Revista de la Royal Statistical Society B, 36, 111­147. genética y evolutiva, GECCO (págs. 1005­1012).
Stoop, R., Schindler, K. y Bunimovich, L. (2000). Cuando las neuronas piramidales se bloquean, cuando Ueda, N. (2000). Combinación lineal óptima de redes neuronales para mejorar el rendimiento de la
responden de forma caótica y cuando les gusta sincronizarse. clasificación. Transacciones IEEE sobre análisis de patrones e inteligencia artificial, 22 (2), 207–215.
Investigación en neurociencia, 36(1), 81–91.
Machine Translated by Google

116 J. Schmidhuber / Redes neuronales 61 (2015) 85–117

Urlbe, AP (1999). Redes neuronales digitales de estructura adaptable (tesis doctoral), Universidad del Valle. Werbos, PJ (1987). Construcción y comprensión de sistemas adaptativos: un enfoque estadístico/numérico
para la automatización industrial y la investigación del cerebro. Transacciones IEEE sobre sistemas,
Utgoff, PE y Stracuzzi, DJ (2002). Aprendizaje en muchos niveles. Computación neuronal, hombre y cibernética, 17.
14(10), 2497–2529. Werbos, PJ (1988). Generalización de la retropropagación con aplicación a un modelo de mercado de gas
Vahed, A. y Omlin, CW (2004). Un método de aprendizaje automático para extraer conocimiento simbólico recurrente. Redes Neuronales, 1.
de redes neuronales recurrentes. Computación neuronal, 16 (1), 59–71. Werbos, PJ (1989a). Retropropagación y neurocontrol: una revisión y un prospecto.
En la conferencia conjunta internacional IEEE/INNS sobre redes neuronales, vol. 1 (págs. 209­216).
Vaillant, R., Monrocq, C. y LeCun, Y. (1994). Enfoque original para la localización de objetos en imágenes.
Actas de la IEE Procesamiento de visión, imágenes y señales, 141(4), 245–250. Werbos, PJ (1989b). Redes neuronales para control e identificación de sistemas. En actas de IEEE/CDC
Tampa.
van den Berg, T. y Whiteson, S. (2013). Factores críticos en el desempeño de HyperNEAT. En GECCO 2013: Werbos, PJ (1992). Redes neuronales, identificación y control de sistemas en las industrias químicas. En DA
actas de la conferencia sobre computación genética y evolutiva (págs. 759–766). van Hasselt, H. (2012). White y DA Sofge (Eds.), Manual de control inteligente: enfoques neuronales, difusos y adaptativos
Aprendizaje por refuerzo en espacios de estado y (págs. 283–356).
acción continuos . En M. Wiering y M. van Otterlo (Eds.), Aprendizaje por refuerzo (págs. 207­251). Saltador. Aprendizaje Thomson.
Werbos, PJ (2006). Diferenciación hacia atrás en AD y redes neuronales: vínculos pasados y nuevas
oportunidades. En Diferenciación automática: aplicaciones, teoría e implementaciones (págs. 15­34).
Vapnik, V. (1992). Principios de minimización de riesgos para la teoría del aprendizaje. En DS Saltador.
Lippman, JE Moody y DS Touretzky (Eds.), Avances en los sistemas de procesamiento de información Oeste, AHL y Saad, D. (1995). Propagación hacia atrás adaptativa en el aprendizaje en línea de redes
neuronal (NIPS), vol. 4 (págs. 831–838). Morgan Kaufman. multicapa. En DS Touretzky, M. Mozer y ME Hasselmo (Eds.), NIPS (págs. 323–329). Prensa del MIT.
Vapnik, V. (1995). La naturaleza de la teoría del aprendizaje estadístico. Nueva York: Springer.
Versino, C. y Gambardella, LM (1996). Aprender el movimiento fino utilizando el mapa jerárquico extendido Blanco, H. (1989). Aprendizaje en redes neuronales artificiales: una perspectiva estadística.
de Kohonen. En Proc. int. conf. sobre redes neuronales artificiales (págs. 221­226). Saltador. Computación neuronal, 1 (4), 425–464.
Whitehead, S. (1992). Aprendizaje por refuerzo para el control adaptativo de la percepción y la acción (tesis
Veta, M., Viergever, M., Pluim, J., Stathonikos, N. y van Diest, PJ (2013). MICCAI doctoral), Universidad de Rochester.
Gran reto 2013 sobre detección de mitosis. Whiteson, S. (2012). Computación evolutiva para el aprendizaje por refuerzo. En m.
Vieira, A. y Barradas, N. (2003). Un algoritmo de entrenamiento para la clasificación de datos de alta Wiering y M. van Otterlo (Eds.), Aprendizaje por refuerzo (págs. 325–355). Berlín, Alemania: Springer.
dimensión. Neurocomputación, 50, 461–472.
Viglione, S. (1970). Aplicaciones de la tecnología de reconocimiento de patrones. En JM Mendel y KS Fu Whiteson, S., Kohl, N., Mükkulainen, R. y Stone, P. (2005). Evolución de los jugadores de fútbol a través de
(Eds.), Sistemas adaptativos, de aprendizaje y de reconocimiento de patrones. Prensa académica. la descomposición de tareas. Aprendizaje automático, 59(1), 5–30.
Whiteson, S. y Stone, P. (2006). Aproximación de funciones evolutivas para el aprendizaje por refuerzo.
Vicente, P., Hugo, L., Bengio, Y. y Manzagol, P.­A. (2008). Extracción y composición de funciones sólidas Revista de investigación sobre aprendizaje automático, 7, 877–917.
con codificadores automáticos de eliminación de ruido. En Actas de la 25ª conferencia internacional Viuda, B. y Hoff, M. (1962). Almacenamiento y recuperación asociativo de información digital en redes de
sobre aprendizaje automático (págs. 1096­1103). Nueva York, NY, Estados Unidos: ACM. neuronas adaptativas. Prototipos biológicos y sistemas sintéticos, 1, 160.

Vlassis, N., Littman, ML y Barber, D. (2012). Sobre la complejidad computacional de la optimización del
Widrow, B., Rumelhart, DE y Lehr, MA (1994). Redes neuronales: aplicaciones en la industria, los negocios
controlador estocástico en POMDP. Transacciones ACM sobre teoría de la computación, 4 (4), 12.
y la ciencia. Comunicaciones de la JCA, 37(3), 93–105.
Wieland, AP (1991). Controladores de redes neuronales en evolución para sistemas inestables.
Vogl, T., Mangis, J., Rigler, A., Zink, W. y Alkon, D. (1988). Acelerar la convergencia del método de
En Conferencia conjunta internacional sobre redes neuronales, vol. 2 (págs. 667–673). IEEE.
retropropagación. Cibernética biológica, 59, 257–263.
Wiering, M. y Schmidhuber, J. (1996). Resolución de POMDP con búsqueda de Levin y EIRA.
En L. Saitta (Ed.), Aprendizaje automático: actas de la decimotercera conferencia internacional (págs.
Von der Malsburg, C. (1973). Autoorganización de células sensibles a la orientación en el
534–542). San Francisco, CA: Editores Morgan Kaufmann.
corteza estriada. Kybernetik, 14(2), 85­100.
Wiering, M. y Schmidhuber, J. (1998a). Aprendizaje HQ. Comportamiento adaptativo, 6(2),
Waldinger, RJ y Lee, RCT (1969). PROW: un paso hacia la escritura automática de programas. En DE
219–246.
Walker y LM Norton (Eds.), Actas de la primera conferencia conjunta internacional sobre inteligencia
Wiering, MA y Schmidhuber, J. (1998b). Q(λ) rápido en línea . Aprendizaje automático, 33(1),
artificial (págs. 241­252). Morgan Kaufman. 105–116.
Wallace, CS y Boulton, DM (1968). Una medida teórica de la información para la clasificación. El diario de la Wiering, M. y van Otterlo, M. (2012). Aprendizaje reforzado. Saltador.
computadora, 11 (2), 185–194. Wierstra, D., Foerster, A., Peters, J. y Schmidhuber, J. (2010). Política recurrente
Wan, EA (1994). Predicción de series temporales mediante el uso de una red conexionista con líneas de gradientes. Revista lógica de IGPL, 18 (2), 620–634.
retardo internas. En AS Weigend y NA Gershenfeld (Eds.), Predicción de series temporales: pronosticar Wierstra, D., Schaul, T., Peters, J. y Schmidhuber, J. (2008). Estrategias de evolución natural. En Congreso
el futuro y comprender el pasado (págs. 265–295). de Computación Evolutiva.
Addison­Wesley. Wiesel, DH y Hubel, TN (1959). Campos receptivos de neuronas individuales en la corteza estriada del gato.
Wang, S. y Manning, C. (2013). Entrenamiento de abandono rápido. En Actas de la 30ª conferencia Revista de fisiología, 148, 574–591.
internacional sobre aprendizaje automático (págs. 118­126). Wiles, J. y Elman, J. (1995). Aprender a contar sin contador: un estudio de caso de dinámicas y paisajes de
Wang, C., Venkatesh, SS y Judd, JS (1994). Parada óptima y complejidad efectiva de la máquina en el activación en redes recurrentes. En Actas de la decimoséptima conferencia anual de la sociedad de
aprendizaje. En Avances en los sistemas de procesamiento de información neuronal (NIPS'6) (págs. ciencia cognitiva (págs. 482–487). Prensa del MIT: Cambridge, MA.
303–310). Morgan Kaufman.
Watanabe, S. (1985). Reconocimiento de patrones: humanos y mecánicos. Nueva York: Wiley. Wilkinson, JH (Ed.) (1965). El problema algebraico de valores propios. Nueva York, Nueva York, Estados Unidos:
Watanabe, O. (1992). Complejidad de Kolmogorov y complejidad computacional. Prensa de la Universidad de Oxford, Inc.
En monografías de EATCS sobre informática teórica. Saltador. Williams, RJ (1986). Aprendizaje reforzado en redes conexionistas: un análisis matemático. Informe técnico
Watkins, CJCH (1989). Aprendiendo de las recompensas retrasadas (tesis doctoral), Oxford: 8605. San Diego: Instituto de Ciencias Cognitivas, Universidad de California.
Colegio del Rey.
Watkins, CJCH y Dayan, P. (1992). Q­aprendizaje. Aprendizaje automático, 8, 279–292. Williams, RJ (1988). Hacia una teoría de los sistemas conexionistas de aprendizaje por refuerzo. Informe
Watrous, RL y Kuhn, GM (1992). Inducción de autómatas de estados finitos utilizando redes recurrentes de técnico NU­CCS­88­3. Boston, MA: Facultad de Comp. Ciencias, Universidad del Noreste.
segundo orden. En JE Moody, SJ Hanson y RP Lippman (Eds.), Avances en sistemas de procesamiento
de información neuronal, vol. 4 (págs. 309–316). Williams, RJ (1989). Complejidad de los algoritmos de cálculo de gradiente exacto para redes neuronales
Morgan Kaufman. recurrentes. Informe técnico NU­CCS­89­27. Boston: Universidad Northeastern, Facultad de Ciencias
Waydo, S. y Koch, C. (2008). Aprendizaje no supervisado de individuos y categorías. de la Computación.
a partir de imágenes. Computación neuronal, 20 (5), 1165­1178. Williams, RJ (1992a). Algoritmos estadísticos simples de seguimiento de gradientes para el aprendizaje por
Weigend, AS y Gershenfeld, NA (1993). Resultados del concurso de predicción de series de tiempo del refuerzo conexionista. Aprendizaje automático, 8, 229–256.
Instituto Santa Fe. En Redes neuronales, 1993., conferencia internacional IEEE sobre (págs. 1786­1793). Williams, RJ (1992b). Entrenamiento de redes recurrentes utilizando el filtro de Kalman extendido. En
IEEE. Conferencia conjunta internacional sobre redes neuronales, vol. 4 (págs. 241­246).
Weigend, AS, Rumelhart, DE y Huberman, BA (1991). Generalización por eliminación de peso con aplicación IEEE.
a la previsión. En RP Lippmann, JE. Williams, RJ y Peng, J. (1990). Un algoritmo eficiente basado en gradientes para el entrenamiento en línea
Moody y DS Touretzky (Eds.), Avances en los sistemas de procesamiento de información neuronal de trayectorias de red recurrentes. Computación neuronal, 4, 491–501.
(NIPS), vol. 3 (págs. 875–882). San Mateo, California: Morgan Kaufmann. Williams, RJ y Zipser, D. (1988). Un algoritmo de aprendizaje para ejecutar continuamente redes totalmente
Weiss, G. (1994). Fragmentación jerárquica en sistemas clasificadores. En Actas de la 12ª conferencia recurrentes. Informe técnico Informe ICS 8805. San Diego, La Jolla: Univ. de California.
nacional sobre inteligencia artificial, vol. 2 (págs. 1335­1340). Prensa AAAI / Prensa MIT.
Williams, RJ y Zipser, D. (1989a). Análisis experimental de la recurrencia en tiempo real.
Algoritmo de aprendizaje. Ciencia de la conexión, 1(1), 87–111.
Weng, J., Ahuja, N. y Huang, TS (1992). Cresceptron: una red neuronal autoorganizada que crece de forma
Williams, RJ y Zipser, D. (1989b). Un algoritmo de aprendizaje para ejecutar continuamente redes totalmente
adaptativa. En Conferencia conjunta internacional sobre redes neuronales, vol. 1 (págs. 576–581). IEEE.
recurrentes. Computación neuronal, 1 (2), 270–280.
Willshaw, DJ y von der Malsburg, C. (1976). Cómo se pueden establecer conexiones neuronales modeladas
Weng, JJ, Ahuja, N. y Huang, TS (1997). Aprendizaje de reconocimiento y segmentación mediante el
mediante la autoorganización. Actas de la Royal Society de Londres.
cresceptrón. Revista internacional de visión por computadora, 25 (2), 109–143.
Serie B, 194, 431–445.
Werbos, PJ (1974). Más allá de la regresión: nuevas herramientas de predicción y análisis en el
Windisch, D. (2005). Cargar redes profundas es difícil: el caso piramidal. Neural
Ciencias del comportamiento (tesis doctoral), Universidad de Harvard.
Computación, 17 (2), 487–502.
Werbos, PJ (1981). Aplicaciones de los avances en el análisis de sensibilidad no lineal. En Actas de la décima
Wiskott, L. y Sejnowski, T. (2002). Análisis de características lento: aprendizaje no supervisado de invarianzas.
conferencia IFIP, 31.8­4.9, Nueva York (págs. 762–770).
Computación neuronal, 14 (4), 715–770.
Machine Translated by Google

J. Schmidhuber / Redes neuronales 61 (2015) 85–117 117

Witczak, M., Korbicz, J., Mrugalski, M. y Patton, RJ (2006). Un enfoque basado en redes neuronales Yin, J., Meng, Y. y Jin, Y. (2012). Un enfoque de desarrollo de la autoorganización estructural en la
GMDH para un diagnóstico sólido de fallas: aplicación al problema de referencia DAMADICS. computación de yacimientos. Transacciones IEEE sobre desarrollo mental autónomo, 4(4), 273–289.
Práctica de ingeniería de control, 14 (6), 671–683.
Wöllmer, M., Blaschke, C., Schindl, T., Schuller, B., Färber, B., Mayer, S., et al. Yin, F., Wang, Q.­F., Zhang, X.­Y. y Liu, C.­L. (2013). Concurso de reconocimiento de escritura a mano
(2011). Detección de distracciones del conductor en línea mediante memoria a corto plazo. china ICDAR 2013. En la duodécima conferencia internacional sobre análisis y reconocimiento de
Transacciones IEEE sobre sistemas de transporte inteligentes (TITS), 12(2), 574–582. documentos (págs. 1464­1470).
Wöllmer, M., Schuller, B. y Rigoll, G. (2013). Detección de palabras clave explotando la memoria a largo Young, S., Davis, A., Mishtal, A. y Arel, I. (2014). Extracción jerárquica de características espaciotemporales
plazo. Comunicación del habla, 55 (2), 252–265. mediante agrupación en línea recurrente. Cartas de reconocimiento de patrones, 37, 115–123.
Wolpert, DH (1992). Generalización apilada. Redes neuronales, 5(2), 241–259.
Wolpert, DH (1994). Propagación hacia atrás bayesiana sobre funciones io en lugar de pesos. En JD Yu, X.­H., Chen, G.­A. y Cheng, S.­X. (1995). Optimización dinámica de la tasa de aprendizaje del
Cowan, G. Tesauro y J. Alspector (Eds.), Avances en los sistemas de procesamiento de información algoritmo de retropropagación. Transacciones IEEE en redes neuronales, 6(3), 669–677.
neuronal (NIPS), vol. 6 (págs. 200­207). Morgan Kaufman.
Wu, L. y Baldi, P. (2008). Aprende a jugar usando redes neuronales recursivas. Zamora­Martínez, F., Frinken, V., España­Boquera, S., Castro­Bleda, M., Fischer, A., & Bunke, H. (2014).
Redes neuronales, 21 (9), 1392­1400. Modelos de lenguaje de redes neuronales para el reconocimiento de escritura a mano fuera de
Wu, D. y Shao, L. (2014). Aprovechamiento de redes paramétricas jerárquicas para la segmentación y el línea. Reconocimiento de patrones, 47 (4), 1642–1652.
reconocimiento de acciones basadas en articulaciones esqueléticas. En Proc. Conferencia sobre Zeiler, MD (2012). ADADELTA: un método de ritmo de aprendizaje adaptativo. CoRR, abs/1212.5701.
visión por computadora y reconocimiento de patrones.
Wyatte, D., Curran, T. y O'Reilly, R. (2012). Los límites de la visión anticipada: el procesamiento Zeiler, MD y Fergus, R. (2013). Visualizar y comprender redes convolucionales. Reporte técnico.
recurrente promueve un reconocimiento sólido de objetos cuando los objetos se degradan. Revista Universidad de Nueva York, arXiv:1311.2901 [cs.CV].
de neurociencia cognitiva, 24 (11), 2248–2261.
Zemel, RS (1993). Un marco de longitud mínima de descripción para no supervisados.
Wysoski, SG, Benuskova, L. y Kasabov, N. (2010). Evolución de redes neuronales para el procesamiento
aprendizaje (tesis doctoral), Universidad de Toronto.
de información audiovisual. Redes neuronales, 23(7), 819–835.
Zemel, RS y Hinton, GE (1994). Desarrollar códigos de población minimizando la longitud de la
descripción. En JD Cowan, G. Tesauro y J. Alspector (Eds.), Avances en sistemas de procesamiento
Yamauchi, BM y Beer, RD (1994). Comportamiento secuencial y aprendizaje en redes neuronales
dinámicas evolucionadas. Comportamiento adaptativo, 2(3), 219–246. de información neuronal vol. 6 (págs. 11 a 18). Morgan Kaufman.
Yamins, D., Hong, H., Cadieu, C. y DiCarlo, JJ (2013). La optimización modular jerárquica de redes Zeng, Z., Goodman, R. y Smyth, P. (1994). Redes neuronales recurrentes discretas para inferencia
convolucionales logra representaciones similares a la TI de macaco y la corriente ventral humana. gramatical. Transacciones IEEE en redes neuronales, 5(2).
En Avances en los sistemas de procesamiento de información neuronal (NIPS) (págs. 1–9). Zimmermann, H.­G., Tietz, C. y Grothmann, R. (2012). Previsión con redes neuronales recurrentes: 12
trucos. En G. Montavon, GB Orr y K.­R. Müller (Eds.), Apuntes de conferencias sobre informática:
Yang, M., Ji, S., Xu, W., Wang, J., Lv, F. y Yu, K., et al. (2009). Detección de acciones humanas en vídeos vol. 7700. Redes neuronales: trucos del oficio (2ª ed.) (págs. 687–707). Saltador.
de vigilancia. En el taller de evaluación de recuperación de videos de TREC.
Yao, X. (1993). Una revisión de las redes neuronales artificiales evolutivas. Internacional Zipser, D., Kehoe, B., Littlewort, G. y Fuster, J. (1993). Un modelo de red de picos de memoria activa a
Revista de sistemas inteligentes, 4, 203–222. corto plazo. La Revista de Neurociencia, 13(8), 3406–3420.

También podría gustarte