Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Contenido
Qu es?
Para qu sirve?
Estructuras Generales
Aprendizaje Supervisado (Problema del
gradiente)
Mejores Redes Recurrentes
LSTM
Maquinas Neuronales de Turing
Redes de Memoria
Clockwork RNN
Redes con LSTM
Arquitectura
Variantes
Libreras
Tarea
Qu es una RNN?
Propiedades
Datos secuenciales
Memoria
Aprende dependencias con el
pasado o futuro
Aproxima programas arbitrarios
[Hinton et al. 2015]
= 1 +
= ( )
Mas poder de computo. En principio, cualquier problema resuelto por una red feedforward, puede ser
resuelta por una RNN. Pero no es cierto lo converso.
Modelos de Lenguaje
Wikipedia
Shakespeare
[Karpathys blog 2015]
Texto en Latex
Cdigo fuente en C
Reconocimiento de Voz
Ms ejemplos http://cs.stanford.edu/people/karpathy/deepimagesent/
[Karpathy & Fei 2015]
Ejecutar programas
[Graves2013]
https://youtu.be/-yX1SYeDHbg?t=49m29s
[Wikipedia]
Estructuras Generales
Bidireccionales
Bidireccionales Multicapa
Aprendizaje Supervisado
Corto plazo
Largo plazo
Redes de Memoria
Fueron introducidas por Hochreiter & Schmidbuber en 1997 (Long Short-Term Memory)
[Explicacion en pizarron]
RNN Convencional
= 1 +
[Olahs blog 2015]
LSTM
= 1 , +
= 1 , +
= 1 , +
= 1 +
= 1 , +
=
Depth-Gated RN
Conexiones Peephole
Grid LSTM
Ninguna variante supera a la LSTM estndar de manera significativa (sin incluir Grid LSTM)
Algunas simplificaciones no daan el desempeo significativamente, por ejemplo: el acoplamiento
de las compuertas de entrada y olvido, o quitar las conexiones peephole(mirilla).
El uso de compuerta de olvido mejora consistentemente el desempeo de la red.
La funcin de activacin de salida es necesaria si el estado de la clula es no acotado.
El uso de momento en el aprendizaje no fue importante.
El tamao de la red y el ndice de aprendizaje son los hiperparametros ms crticos, pero pueden
ser ajustados de manera independiente.
No encuentra una variante que supere a la LSTM estndar de manera significativa (sin incluir
Grid LSTM)
Aadiendo el sesgo de 1 a la compuerta de olvido en la LSTM se iguala el desempeo de LSTM con GRU. As
que lo recomienda.
Tambin el uso del dropout mejora el desempeo de la LSTM, a veces superando a la GRU.
Libreras
Tarea
Resumen
Qu es?
Para qu sirve?
Estructuras Generales
Aprendizaje Supervisado (Problema del
gradiente)
Mejores Redes Recurrentes
LSTM
Maquinas Neuronales de Turing
Redes de Memoria
Clockwork RNN
Redes con LSTM
Arquitectura
Variantes
Libreras
Tarea