Computadoras Neuronales Diferenciables

Computadoras Neuronales
Diferenciables
Dr. Erik Zamora
Objetivo
Presentar las computadoras neuronales

diferenciables y sus oportunidades de
investigacin
Contenido
i. Introduccin
i. Cul es el poder de computo de las redes neuronales?
ii. Problema: desvanecimiento del gradiente
iii. Algunas soluciones del desvanecimiento del gradiente
ii. Computadoras que aprenden de la experiencia (a partir datos)

i. Maquina de Turing Neuronal
ii. Computadora Neuronal Diferenciable
iii. Oportunidades de Investigacin

i. Ciencia Bsica y Ciencia Aplicada
iv. Conclusin
Cual es el poder de computo de las redes neuronales?
Cual es el poder de computo de las redes neuronales?
Super-turing machines
Memoria ilimitada (Cinta)
Cabezal de Escritura/Lectura
Registro del Estado Tienen que ser diseadas,
Tabla de Instrucciones (smbolo ledo y estado)
Son maquinas que No aprenden
Problema de la parada: (halting problem)

Existe un programa P, tal que, dado un programa cualquiera q y unos datos de entrada x, muestre como
salida 1 si q con entrada x termina en un nmero finito de pasos o muestre como salida 0 si q con x entra
a un bucle infinito.
Problema: desvanecimiento del gradiente
Propiedades
Datos secuenciales
Memoria
Aprende dependencias con el
pasado o futuro
Aproxima programas arbitrarios
[Hinton et al. 2015]
= 1 +
= ( )
Mas poder de computo. En principio, cualquier problema resuelto por una red feedforward, puede ser
resuelta por una RNN. Pero no es cierto lo converso.
Problema: desvanecimiento del gradiente
Problema del Gradiente
Las RNN convencionales NO pueden aprender dependencias de largo plazo:
Las nubes estn en el _______ Corto plazo
Yo crec en Mxico.[texto].Hablo _______ fluido Largo plazo

Algunas soluciones del desvanecimiento del gradiente
Maquinas Neuronales de Turing RNN con Reloj de Trabajo
(Clockwork RNN)
Redes con Memorias de
Largo Plazo (LSTM)
[Graves, et al. 2014] [Koutnk, et al. 2014]
Redes de Memoria
[Vinyals, et al. 2015]
[Sukhbaatar, et al. 2015]

Algunas soluciones del desvanecimiento del gradiente
Fueron introducidas por Hochreiter & Schmidbuber en 1997 (Long Short-Term Memory)
[Explicacion en pizarron]
RNN Convencional
= 1 +
[Olahs blog 2015]
LSTM
= 1 , +
= 1 , +
= 1 , +
= 1 +
[Olahs blog 2015] = 1 , +
=
Maquina de Turing Neuronal: Arquitectura
Lectura
Aqu aprende
Escritura
Aqu memoriza
Direccionamiento
Maquina de Turing Neuronal: Experimentos
Qu tan compactos son los programas que la MTN aprende? Qu tan bien generaliza?
En especfico, averiguar si es capaz de aprender un programa general para N datos,

poniendo solo ejemplos de M datos (donde M<N). Y averiguar si lo puede hacer mjor que
una red LSTM (que es la mejor tcnica conocida).
1. Copiar secuencias de N vectores binarios en la salida.

2. Copiarlos repetida y peridicamente.
3. Recuperar informacin asociada al tem pasado. Se le muestra una secuencia de tems
(es un conjunto de vectores binarios), despus se le muestra uno de los tems elegido
aleatoriamente, y se le pide que recupere el siguiente tem correspondiente a la
secuencia mostrada al inicio.
4. Modelar probabilsticamente un N-grama dinmico [6]. Se le presenta una secuencia
de N-1 bits y la maquina debe aprender un modelo probabilstico para predecir el N-
simo bit. La probabilidad es cambiante, as que el modelo debe adaptarse.
5. Ordenar datos de acuerdo con una clave de prioridad.
En todos los experimentos, la MTN aprendi ms rpido que una red LSTM (es decir, en
un nmero menor de iteraciones; en tiempo no necesariamente es ms rpido porque las
iteraciones en la MTN podran tardan ms). Por ltimo, el nmero de parmetros que
necesit una MTN en comparacin con una red LSTM, es mucho menor. Lo cual puede
explicar porque el aprendizaje era ms rpido en la MTN.
Computadora Neuronal Diferenciable
Computadora Neuronal Diferenciable: Diferencias y Experimentos
Computadora Neuronal Diferenciable: Experimentos
Oportunidades de Investigacin
Comentarios en Seminario
1. Qu es una computadora?
2. Qu es una memoria?
3. Qu se le puede aadir a la maquina de Turing para aumentar su poder de
computo?
Propuestas?
Conclusin
Las CNDs son un campo fascinante de exploracin cientfica para extender

nuestras capacidades tecnolgicas: imaginen computadoras que se auto-
programan con base en su experiencia (datos recolectados). Es una meta
ambiciosa, y poco realista en este momento, pero es estimulante
intelectualmente.
Sino lo hacemos nosotros,

lo har alguien ms pronto.
Feedforward NNs
Recurrent NNs
Differentiable
Neural Computers
Super-turing machines
Referencias
Ver archivos adjuntos

Computadoras Neuronales Diferenciables

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Computadoras Neuronales Diferenciables

Cargado por

Copyright:

Formatos disponibles

Computadoras Neuronales

Presentar las computadoras neuronales

ii. Computadoras que aprenden de la experiencia (a partir datos)

iii. Oportunidades de Investigacin

Problema de la parada: (halting problem)

[Hinton et al. 2015]

Problema del Gradiente

Las RNN convencionales NO pueden aprender dependencias de largo plazo:

Las nubes estn en el _______ Corto plazo

Yo crec en Mxico.[texto].Hablo _______ fluido Largo plazo

[Graves, et al. 2014] [Koutnk, et al. 2014]

[Vinyals, et al. 2015]

[Sukhbaatar, et al. 2015]

[Olahs blog 2015]

En especfico, averiguar si es capaz de aprender un programa general para N datos,

1. Copiar secuencias de N vectores binarios en la salida.

Las CNDs son un campo fascinante de exploracin cientfica para extender

Sino lo hacemos nosotros,

Ver archivos adjuntos

También podría gustarte