Está en la página 1de 31

ENTRENAMIENTO DE

REDES NEURONALES
Fernando Berzal
MODOS DE
ENTRENAMIENTO

La frecuencia con la que se ajustan los


pesos
Online: ajustar los pesos de la red después
de cada ejemplo
Batch: es el ajuste de los pesos después de
haber recorrido un conjunto de ejemplos
Mini-batch: ajuste después de una
muestra, una parte del conjunto de
ejemplos.
20XX Presentación de lanzamiento 2
ONLINE LEARNING VS. BATCH LEARNING
DATOS IMPORTANTES

El aprendizaje full batch aun Lo que nos gustaría


presenta problemas, porque conseguir:
las neuronas son no lineales Movernos más rápido en
sin embargo la superficie de direcciones con gradientes
error no es cuadrática, solo pequeños pero consistentes.
se aproxima.
La dirección de máxima
pendiente del gradiente no Movernos más despacio en
apunta al mínimo salvo que direcciones con gradientes
la elipse sea un círculo. grandes pero inconsistentes.
20XX Presentación de lanzamiento 4
VENTAJAS

Ventajas del aprendizaje Ventajas del aprendizaje por


online: lotes:
• Condiciones de
• Mucho más rápido que el convergencia bien
aprendizaje por lotes. conocidas.
• Suele obtener mejores • Muchas técnicas de
soluciones. optimización sólo
funcionan con batch
• Facilita adaptarse a learning
cambios. • Análisis teórico (dinámica y
convergencia).
20XX Presentación de lanzamiento 5
MINI-BATCH

El uso de mini-lotes balanceados


suele ser mejor que el aprendizaje
“online”.
Se requieren menos cálculos para
actualizar los pesos.

20XX Presentación de lanzamiento 6


PREPROCESAMIENTO DE
LOS DATOS
• Normalización de las entradas
• Se debe poner los datos de 0 a 1 y
colocar su escala, esto entrega mejores
gráficas y resultados.
• Las entradas deben ser cercanas a cero
• Las variables de entrada deben estar
combinadas
20XX Presentación de lanzamiento 7
CONSEJOS PARA LA IMPLEMENTACIÓN DE
BACKPROPAGATION
ANÁLISIS DE COMPONENTES
PRINCIPALES

Permite reducir la dimensionalidad de los datos

Permite convertir una superficie de error elíptica en una circular

La gradiente apunta directamente al mínimo.

Un método para decorrelar las variables de entrada

20XX Presentación de lanzamiento 9


ANÁLISIS DE COMPONENTES PRINCIPALES
ANÁLISIS DE COMPONENTES PRINCIPALES
RECOMENDACIÓN

Elegir los ejemplos que proporcionan


mayor información para el
Barajar los ejemplos para que ejemplos
entrenamiento.
consecutivos (casi) nunca pertenezcan a
la misma clase

Presentar los ejemplos que producen


mayores errores con mayor frecuencia que
los ejemplos que producen menos errores

20XX Presentación de lanzamiento 12


FUNCIONES DE Función recomendada: f(x)= 1.7 159 tanh(2x/3),
ACTIVACIÓN ayudan que no se queden estancadas

En ocasiones, resulta útil añadir un pequeño


término lineal para evitar zonas planas (de
gradiente 0), p.ej. f(x)= tanh(x) + ax
FUNCIONES DE en “deep learning”, se utilizan unidades
ACTIVACIÓN lineales rectificadas (ReLU)

su entrenamiento suele ser mucho más


rápido
PROBLEMA
La mitad de las neuronas dejan
de hacer nada (salida fija a 0),
especialmente si se utiliza una
tasa de aprendizaje elevada…

20XX Presentación de lanzamiento 15


FUNCIONES DE
ACTIVACIÓN

Variante de ELU en la que una


red multicapa de tipo feed-
forward, la salida cada capa
tiende a preservar media 0 y
desviación 1 durante el
entrenamiento, lo que previene
problemas con el gradiente
¿CUÁL ELEGIR?
INICIALIZACIÓN
DE LOS PESOS

• Si dos neuronas tienen exactamente los


mismos pesos, siempre tendrán el mismo
gradiente, por lo que no serán capaces de
aprender características diferentes.

20XX Presentación de lanzamiento 19


ENFOQUE TRADICIONAL
DISTRIBUCIÓN NORMAL N(0,1) CON
MEDIA 0 Y DESVIACIÓN 1.

Problema: usando la función de activación


logística, ocasiona que la varianza de las
salidas en cada capa sea mayor que la
varianza de sus entradas.

Consecuencia: La varianza aumenta hasta que


se saturan las neuronas de las capas finales,
lo que dificulta el aprendizaje…

20XX Presentación de lanzamiento 20


ENFOQUE MODERNO

Si una neurona tiene muchas


conexiones de entrada (“fan-in”
elevado), pequeños cambios en muchos
de sus pesos de entrada pueden hacer
que nos pasemos.

Normalmente, queremos pesos más


pequeños cuando el “fan-in” es alto, por lo
que se suelen inicializar los pesos aleatorios
proporcionalmente a 1/sqrt(fan-in).

20XX Presentación de lanzamiento 21


NORMALIZACIÓN
POR LOTES
• Busca evitar problemas
relacionados con el gradiente del
error en redes multicapa
IDEA: Centrar y normalizar la
entrada neta de cada capa oculta
MECANISMO: Dos vectores de
parámetros adicionales por capa
(escala y desplazamiento), que se
entrenan con backpropagation.
20XX Presentación de lanzamiento 22
NORMALIZACIÓN POR LOTES

SE ESTIMA LA MEDIA SE ESTANDARIZA LA


Y DESVIACIÓN ENTRADA Y SE Durante el entrenamiento,
ESTÁNDAR DE CADA REESCALA
la muestra
MINILOTE
correspondiente a cada
minilote sirve para
estimar medias y
desviaciones.

20XX Presentación de lanzamiento 23


TASAS DE
APRENDIZAJE
como nos vamos a mover respecto a
los cambios

20XX Presentación de lanzamiento 24


¿CUÁNTO SE AJUSTAN LOS PESOS?

TASAS DE
TASA TASA GLOBAL APRENDIZAJE
GLOBAL DE DE AJUSTADAS
APRENDIZA APRENDIZAJE PARA CADA
ADAPTABLE. CONEXIÓN/PE
JE FIJA SO DE LA RED

20XX Presentación de lanzamiento 27


RECOMENDACIÓN

Se le puede dar a cada peso


su tasa de aprendizaje. Las tasas de aprendizaje deberían ser
proporcionales a la raíz cuadrada del
número de entradas de cada neurona

Los pesos de capas inferiores


deberían ser mayores que los de
capas superiores

20XX Presentación de lanzamiento 28


TASA DE APRENDIZAJE

Si el error crece u oscila, se


reduce la tasa de aprendizaje
automáticamente

Si el error se va reduciendo de forma


consistente pero lenta, se aumenta la
tasa de aprendizaje.

20XX Presentación de lanzamiento 29


¡CUIDADO AL REDUCIR LA TASA DE
APRENDIZAJE!

Reducir la tasa de
aprendizaje reduce
fluctuaciones aleatorias
debidas a los distintos
gradientes de los distintos
mini-lotes, pero hace el
aprendizaje más lento

20XX Presentación de lanzamiento


AJUSTE DE LAS TASAS DE APRENDIZAJE
APROXIMACIÓN BÚSQUEDA Y EXPONENTIAL
ESTOCÁSTICA POWER SCHEDULING SCHEDULING
CONVERGENCIA

UNA ESTRATEGIA ADECUADA DE AJUSTE DE LAS TASAS DE APRENDIZAJE PU EDE


AYUDARNOS A ACELERAR LA CONVERGENCIA DEL ALGORITMO DE ENTRENAMIE NTO DE
UNA RED NEURONAL

20XX Presentación de lanzamiento 31

También podría gustarte