Está en la página 1de 17

Computadoras Neuronales

Diferenciables
Dr. Erik Zamora
Objetivo

Presentar las computadoras neuronales


diferenciables y sus oportunidades de
investigacin
Contenido

i. Introduccin
i. Cul es el poder de computo de las redes neuronales?
ii. Problema: desvanecimiento del gradiente
iii. Algunas soluciones del desvanecimiento del gradiente

ii. Computadoras que aprenden de la experiencia (a partir datos)


i. Maquina de Turing Neuronal
ii. Computadora Neuronal Diferenciable

iii. Oportunidades de Investigacin


i. Ciencia Bsica y Ciencia Aplicada

iv. Conclusin
Cual es el poder de computo de las redes neuronales?
Cual es el poder de computo de las redes neuronales?

Super-turing machines
Memoria ilimitada (Cinta)
Cabezal de Escritura/Lectura
Registro del Estado Tienen que ser diseadas,
Tabla de Instrucciones (smbolo ledo y estado)
Son maquinas que No aprenden

Problema de la parada: (halting problem)


Existe un programa P, tal que, dado un programa cualquiera q y unos datos de entrada x, muestre como
salida 1 si q con entrada x termina en un nmero finito de pasos o muestre como salida 0 si q con x entra
a un bucle infinito.
Problema: desvanecimiento del gradiente

Propiedades
Datos secuenciales
Memoria
Aprende dependencias con el
pasado o futuro
Aproxima programas arbitrarios

[Hinton et al. 2015]

= 1 +
= ( )

Mas poder de computo. En principio, cualquier problema resuelto por una red feedforward, puede ser
resuelta por una RNN. Pero no es cierto lo converso.
Problema: desvanecimiento del gradiente

Problema del Gradiente

Las RNN convencionales NO pueden aprender dependencias de largo plazo:

Las nubes estn en el _______ Corto plazo

Yo crec en Mxico.[texto].Hablo _______ fluido Largo plazo


Algunas soluciones del desvanecimiento del gradiente
Maquinas Neuronales de Turing RNN con Reloj de Trabajo
(Clockwork RNN)
Redes con Memorias de
Largo Plazo (LSTM)

[Graves, et al. 2014] [Koutnk, et al. 2014]

Redes de Memoria

[Vinyals, et al. 2015]

[Sukhbaatar, et al. 2015]


Algunas soluciones del desvanecimiento del gradiente
Fueron introducidas por Hochreiter & Schmidbuber en 1997 (Long Short-Term Memory)
[Explicacion en pizarron]
RNN Convencional

= 1 +

[Olahs blog 2015]

LSTM
= 1 , +
= 1 , +
= 1 , +
= 1 +
[Olahs blog 2015] = 1 , +
=
Maquina de Turing Neuronal: Arquitectura

Lectura

Aqu aprende

Escritura

Aqu memoriza

Direccionamiento
Maquina de Turing Neuronal: Experimentos

Qu tan compactos son los programas que la MTN aprende? Qu tan bien generaliza?

En especfico, averiguar si es capaz de aprender un programa general para N datos,


poniendo solo ejemplos de M datos (donde M<N). Y averiguar si lo puede hacer mjor que
una red LSTM (que es la mejor tcnica conocida).

1. Copiar secuencias de N vectores binarios en la salida.


2. Copiarlos repetida y peridicamente.
3. Recuperar informacin asociada al tem pasado. Se le muestra una secuencia de tems
(es un conjunto de vectores binarios), despus se le muestra uno de los tems elegido
aleatoriamente, y se le pide que recupere el siguiente tem correspondiente a la
secuencia mostrada al inicio.
4. Modelar probabilsticamente un N-grama dinmico [6]. Se le presenta una secuencia
de N-1 bits y la maquina debe aprender un modelo probabilstico para predecir el N-
simo bit. La probabilidad es cambiante, as que el modelo debe adaptarse.
5. Ordenar datos de acuerdo con una clave de prioridad.

En todos los experimentos, la MTN aprendi ms rpido que una red LSTM (es decir, en
un nmero menor de iteraciones; en tiempo no necesariamente es ms rpido porque las
iteraciones en la MTN podran tardan ms). Por ltimo, el nmero de parmetros que
necesit una MTN en comparacin con una red LSTM, es mucho menor. Lo cual puede
explicar porque el aprendizaje era ms rpido en la MTN.
Computadora Neuronal Diferenciable
Computadora Neuronal Diferenciable: Diferencias y Experimentos
Computadora Neuronal Diferenciable: Experimentos
Oportunidades de Investigacin

Comentarios en Seminario
1. Qu es una computadora?
2. Qu es una memoria?
3. Qu se le puede aadir a la maquina de Turing para aumentar su poder de
computo?

Propuestas?
Conclusin

Las CNDs son un campo fascinante de exploracin cientfica para extender


nuestras capacidades tecnolgicas: imaginen computadoras que se auto-
programan con base en su experiencia (datos recolectados). Es una meta
ambiciosa, y poco realista en este momento, pero es estimulante
intelectualmente.

Sino lo hacemos nosotros,


lo har alguien ms pronto.
Feedforward NNs
Recurrent NNs

Differentiable
Neural Computers
Super-turing machines
Referencias

Ver archivos adjuntos

También podría gustarte