Entrenamiento de Redes Neuronales

ENTRENAMIENTO DE
REDES NEURONALES
Fernando Berzal
MODOS DE
ENTRENAMIENTO
La frecuencia con la que se ajustan los

pesos
Online: ajustar los pesos de la red después
de cada ejemplo
Batch: es el ajuste de los pesos después de
haber recorrido un conjunto de ejemplos
Mini-batch: ajuste después de una
muestra, una parte del conjunto de
ejemplos.
20XX Presentación de lanzamiento 2
ONLINE LEARNING VS. BATCH LEARNING
DATOS IMPORTANTES
El aprendizaje full batch aun Lo que nos gustaría

presenta problemas, porque conseguir:
las neuronas son no lineales Movernos más rápido en
sin embargo la superficie de direcciones con gradientes
error no es cuadrática, solo pequeños pero consistentes.
se aproxima.
La dirección de máxima
pendiente del gradiente no Movernos más despacio en
apunta al mínimo salvo que direcciones con gradientes
la elipse sea un círculo. grandes pero inconsistentes.
VENTAJAS
Ventajas del aprendizaje Ventajas del aprendizaje por

online: lotes:
• Condiciones de
• Mucho más rápido que el convergencia bien
aprendizaje por lotes. conocidas.
• Suele obtener mejores • Muchas técnicas de
soluciones. optimización sólo
funcionan con batch
• Facilita adaptarse a learning
cambios. • Análisis teórico (dinámica y
convergencia).
MINI-BATCH
El uso de mini-lotes balanceados

suele ser mejor que el aprendizaje
“online”.
Se requieren menos cálculos para
actualizar los pesos.

PREPROCESAMIENTO DE
LOS DATOS
• Normalización de las entradas
• Se debe poner los datos de 0 a 1 y
colocar su escala, esto entrega mejores
gráficas y resultados.
• Las entradas deben ser cercanas a cero
• Las variables de entrada deben estar
combinadas
CONSEJOS PARA LA IMPLEMENTACIÓN DE
BACKPROPAGATION
ANÁLISIS DE COMPONENTES
PRINCIPALES
Permite reducir la dimensionalidad de los datos
Permite convertir una superficie de error elíptica en una circular
La gradiente apunta directamente al mínimo.
Un método para decorrelar las variables de entrada

ANÁLISIS DE COMPONENTES PRINCIPALES
ANÁLISIS DE COMPONENTES PRINCIPALES
RECOMENDACIÓN
Elegir los ejemplos que proporcionan

mayor información para el
Barajar los ejemplos para que ejemplos
entrenamiento.
consecutivos (casi) nunca pertenezcan a
la misma clase
Presentar los ejemplos que producen

mayores errores con mayor frecuencia que
los ejemplos que producen menos errores

FUNCIONES DE Función recomendada: f(x)= 1.7 159 tanh(2x/3),
ACTIVACIÓN ayudan que no se queden estancadas
En ocasiones, resulta útil añadir un pequeño

término lineal para evitar zonas planas (de
gradiente 0), p.ej. f(x)= tanh(x) + ax
FUNCIONES DE en “deep learning”, se utilizan unidades
ACTIVACIÓN lineales rectificadas (ReLU)
su entrenamiento suele ser mucho más

rápido
PROBLEMA
La mitad de las neuronas dejan
de hacer nada (salida fija a 0),
especialmente si se utiliza una
tasa de aprendizaje elevada…

FUNCIONES DE
ACTIVACIÓN
Variante de ELU en la que una

red multicapa de tipo feed-
forward, la salida cada capa
tiende a preservar media 0 y
desviación 1 durante el
entrenamiento, lo que previene
problemas con el gradiente
¿CUÁL ELEGIR?
INICIALIZACIÓN
DE LOS PESOS
• Si dos neuronas tienen exactamente los

mismos pesos, siempre tendrán el mismo
gradiente, por lo que no serán capaces de
aprender características diferentes.

ENFOQUE TRADICIONAL
DISTRIBUCIÓN NORMAL N(0,1) CON
MEDIA 0 Y DESVIACIÓN 1.
Problema: usando la función de activación

logística, ocasiona que la varianza de las
salidas en cada capa sea mayor que la
varianza de sus entradas.
Consecuencia: La varianza aumenta hasta que

se saturan las neuronas de las capas finales,
lo que dificulta el aprendizaje…

ENFOQUE MODERNO
Si una neurona tiene muchas

conexiones de entrada (“fan-in”
elevado), pequeños cambios en muchos
de sus pesos de entrada pueden hacer
que nos pasemos.
Normalmente, queremos pesos más

pequeños cuando el “fan-in” es alto, por lo
que se suelen inicializar los pesos aleatorios
proporcionalmente a 1/sqrt(fan-in).

NORMALIZACIÓN
POR LOTES
• Busca evitar problemas
relacionados con el gradiente del
error en redes multicapa
IDEA: Centrar y normalizar la
entrada neta de cada capa oculta
MECANISMO: Dos vectores de
parámetros adicionales por capa
(escala y desplazamiento), que se
entrenan con backpropagation.
NORMALIZACIÓN POR LOTES
SE ESTIMA LA MEDIA SE ESTANDARIZA LA

Y DESVIACIÓN ENTRADA Y SE Durante el entrenamiento,
ESTÁNDAR DE CADA REESCALA
la muestra
MINILOTE
correspondiente a cada
minilote sirve para
estimar medias y
desviaciones.

TASAS DE
APRENDIZAJE
como nos vamos a mover respecto a
los cambios

¿CUÁNTO SE AJUSTAN LOS PESOS?
TASAS DE
TASA TASA GLOBAL APRENDIZAJE
GLOBAL DE DE AJUSTADAS
APRENDIZA APRENDIZAJE PARA CADA
ADAPTABLE. CONEXIÓN/PE
JE FIJA SO DE LA RED

RECOMENDACIÓN
Se le puede dar a cada peso

su tasa de aprendizaje. Las tasas de aprendizaje deberían ser
proporcionales a la raíz cuadrada del
número de entradas de cada neurona
Los pesos de capas inferiores

deberían ser mayores que los de
capas superiores

TASA DE APRENDIZAJE
Si el error crece u oscila, se

reduce la tasa de aprendizaje
automáticamente
Si el error se va reduciendo de forma

consistente pero lenta, se aumenta la
tasa de aprendizaje.

¡CUIDADO AL REDUCIR LA TASA DE
APRENDIZAJE!
Reducir la tasa de
aprendizaje reduce
fluctuaciones aleatorias
debidas a los distintos
gradientes de los distintos
mini-lotes, pero hace el
aprendizaje más lento
20XX Presentación de lanzamiento

AJUSTE DE LAS TASAS DE APRENDIZAJE
APROXIMACIÓN BÚSQUEDA Y EXPONENTIAL
ESTOCÁSTICA POWER SCHEDULING SCHEDULING
CONVERGENCIA
UNA ESTRATEGIA ADECUADA DE AJUSTE DE LAS TASAS DE APRENDIZAJE PU EDE

AYUDARNOS A ACELERAR LA CONVERGENCIA DEL ALGORITMO DE ENTRENAMIE NTO DE
UNA RED NEURONAL

Entrenamiento de Redes Neuronales

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Entrenamiento de Redes Neuronales

Cargado por

Copyright:

Formatos disponibles

ENTRENAMIENTO DE

La frecuencia con la que se ajustan los

El aprendizaje full batch aun Lo que nos gustaría

Ventajas del aprendizaje Ventajas del aprendizaje por

El uso de mini-lotes balanceados

20XX Presentación de lanzamiento 6

Permite reducir la dimensionalidad de los datos

Permite convertir una superficie de error elíptica en una circular

La gradiente apunta directamente al mínimo.

Un método para decorrelar las variables de entrada

20XX Presentación de lanzamiento 9

Elegir los ejemplos que proporcionan

Presentar los ejemplos que producen

20XX Presentación de lanzamiento 12

En ocasiones, resulta útil añadir un pequeño

su entrenamiento suele ser mucho más

20XX Presentación de lanzamiento 15

Variante de ELU en la que una

• Si dos neuronas tienen exactamente los

20XX Presentación de lanzamiento 19

Problema: usando la función de activación

Consecuencia: La varianza aumenta hasta que

20XX Presentación de lanzamiento 20

Si una neurona tiene muchas

Normalmente, queremos pesos más

20XX Presentación de lanzamiento 21

SE ESTIMA LA MEDIA SE ESTANDARIZA LA

20XX Presentación de lanzamiento 23

20XX Presentación de lanzamiento 24

20XX Presentación de lanzamiento 27

Se le puede dar a cada peso

Los pesos de capas inferiores

20XX Presentación de lanzamiento 28

Si el error crece u oscila, se

Si el error se va reduciendo de forma

20XX Presentación de lanzamiento 29

20XX Presentación de lanzamiento

UNA ESTRATEGIA ADECUADA DE AJUSTE DE LAS TASAS DE APRENDIZAJE PU EDE

20XX Presentación de lanzamiento 31

También podría gustarte