Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Erik Zamora
1
“La Tecnología y la Ciencia en beneficio de los Mexicanos”
“Por nuestra Independencia Intelectual”
[REDES NEURONALES RECURRENTES] Dr. Erik Zamora
Aplicaciones.
Crear modelos de lenguaje (Hinton et al.. 2011, “Generating Text with Recurrent Neural Networks” ) que sirven
para
o Medir que tan correcta es la gramática y semántica de una sentencia escrita.
o Generar texto escrito con el estilo del texto de entrenamiento:
Aprende la sintaxis, por ejemplo, abrir y cerrar paréntesis,
puntos, comas, etc.
Puede generar código en Linux, texto semejante a Wikipedia
y Shakespeare, y hasta código para latex (obiviamente con
algunos errores).
Traducción de Idiomas. Convierte una secuencia de palabras en otra
secuencia de palabras pero dado en otro idioma. (Sutskever et al. 2014
“Sequence to Sequence Learning with Neural Networks).
2
“La Tecnología y la Ciencia en beneficio de los Mexicanos”
“Por nuestra Independencia Intelectual”
[REDES NEURONALES RECURRENTES] Dr. Erik Zamora
Estructuras Generales
Bidireccionales: un carácter o palabra se puede predecir mejor si conoce el texto
anterior y posterior al carácter, es decir, si el texto se ve como una secuencia entonces
el estado de una RNN debe depender tanto de las entradas pasadas como de la futuras.
Motivado por esto, se han creado RNN bidireccionales que son dos RNN que procesan la
secuencia en sentidos opuestos.
Bidireccionales Multicapa: estas incorporan varias capas de RNN por lo que presentan en teoría
mayor capacidad para aprender programas y funciones más complejas, pero también son más
complicadas de entrenar.
Aprendizaje Supervisado
Las redes RNN convencionales presentan problemas en su entrenamiento porque los gradientes retropropagados
tienden a crecer o desvanecer con el tiempo debido a que el gradiente depende no solo del error presente sino también
los errores pasados. Esto provoca que la dificultad para memorizar dependencias a largo tiempo. Por eso se han
desarrollado arquitecturas y métodos de aprendizaje que evitan estos problemas como LSTM, maquinas neuronales de
Turing y redes de memoria.
Hay una gama de variantes del método del descenso por gradiente estocástico para entrenar las RNN: (Nesterov)
Momentum Method, AdaGrad, AdaDelta and RMSprop.
Redes de gran memoria de corto plazo (LSTM): las redes recurrentes convencionales no
pueden memorizar dependencias de largo plazo debido a que los gradientes retropropagados
se desvanecen (o crecen sin límite) con el tiempo. Las redes LSTM incorporan una memoria
explicita que puede ser actualizada y borrada lo que les permite aprender dependencias de
largo plazo en los datos. Actualmente 2015, son muy populares porque son fáciles de entrenar (Vinyals et al. 2015)
Maquinas Neuronales de Turing: En principio, una RNN es Turing completa, sin embargo es
muy complicado hallar los pesos adecuados para simular cualquier programa de Turing.
Para facilitar esto, la máquina neuronal de Turing es una RNN que incorpora una memoria
direccionable y puede aprender programas sencillos a partir de datos de entrenamiento
usando el método del descenso por gradiente. Algunos programas que aprende es copiar
datos y ordenar los, a veces puede generalizar sus programas a muchos datos entrenando
con pocos datos (Graves et al. 2014)
RNN Convencional
ℎ𝑡 = 𝑡𝑎𝑛ℎ(𝑊ℎ ℎ𝑡−1 + 𝑊𝑥 𝑥𝑡 )
LSTM
𝑓𝑡 = 𝑠𝑖𝑔(𝑊𝑓 ∙ [ℎ𝑡−1 , 𝑥𝑡 ] + 𝑏𝑓 )
𝑖𝑡 = 𝑠𝑖𝑔(𝑊𝑖 ∙ [ℎ𝑡−1 , 𝑥𝑡 ] + 𝑏𝑖 )
̃
𝐶𝑡 = 𝑡𝑎𝑛ℎ(𝑊𝐶 ∙ [ℎ𝑡−1 , 𝑥𝑡 ] + 𝑏𝐶 )
𝐶𝑡 = 𝑓𝑡 ∗ 𝐶𝑡−1 + 𝑖𝑡 ∗ 𝐶̃𝑡
𝑜𝑡 = 𝑠𝑖𝑔(𝑊𝑜 ∙ [ℎ𝑡−1 , 𝑥𝑡 ] + 𝑏𝑜 )
ℎ𝑡 = 𝑜𝑡 ∗ 𝑡𝑎𝑛ℎ(𝐶𝑡 )
Variantes de LSTM
1. Conexiones Peephole . Las compuertas también están
controladas por el estado, algunos autores hacen esto
con todas las compuertas, otros solo con algunas (Gers &
Schmidhuler 2000)..
2. El olvido y la escritura están controladas por la misma
compuerta.
3. Unidad Recurrente Cerrada (GRU, Gated Recurrent Unit
Cho et al. 2014). Hace una combinación ponderada entre
el estado pasado y el nuevo estado relacionado a la
entrada.
4. RN Cerrada Profunda (Depth-Gated RN) (Yao, et al. 2015)
5. Grid LSTM (Kalchbrenner et al. 2015 Deepmind). Son
bloques LSTM diseñadas especialmente para colocarlas
en arreglos multidimensionales. Cada bloque y arreglo de
bloques de N dimensiones, tiene N lados de entradas y N
lados de salida, por lo que lo hace especialmente
adaptado para procesar datos secuenciales en dimensión
N. Los pesos se pueden compartir en las LSTM
del mismo bloque. Con ellas se han logrado
alcanzar resultados cercanos al estado del arte
4
“La Tecnología y la Ciencia en beneficio de los Mexicanos”
“Por nuestra Independencia Intelectual”
[REDES NEURONALES RECURRENTES] Dr. Erik Zamora
Librerías
Caffe (C++ con interfaces para Matlab y Python) Es la más popular http://caffe.berkeleyvision.org/
Theano (Python) http://deeplearning.net/software/theano/
Torch (C y Lua) usado por Facebook Research, Google Deepmind y Twitter http://torch.ch/docs/cvpr15.html
PyBrain http://www.pybrain.org/ Jürgen Schmidhuber (LSTM, RNN)
5
“La Tecnología y la Ciencia en beneficio de los Mexicanos”
“Por nuestra Independencia Intelectual”
[REDES NEURONALES RECURRENTES] Dr. Erik Zamora
Escoger 3 artículos que le interesen, leerlos y haga un resumen escrito de cada uno:
1. Weston, et al., Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks, 2015.
2. Vinyals, et al., Show and Tell: A Neural Image Caption Generator, 2015.
3. Graves, Generating Sequences with Recurrent Neural Networks, 2013.
4. Zaremba & Sustskever, Learning to execute, 2015.
5. Graves, et al., Neural Turing Machine, 2014.
6. Graves & Jaitly, Towards End-to-End Speech Recognition with RNN, 2014.
7. Karpathy & Fei, Deep Visual-Semantic Alignments for Generating Image Description, 2015.
8. Gregor, et al., Draw: a RNN for image generation, 2015.
9. Kelvin Xu, et al., Show, Attend and Tell image caption with attention, 2015.
Envié en un único archivo PDF sus resúmenes al correo ezamora1981@gmail.com antes o durante de la fecha de
entrega.
6
“La Tecnología y la Ciencia en beneficio de los Mexicanos”
“Por nuestra Independencia Intelectual”