Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El Perceptrón Multicapa
• Introducción
• El Perceptrón Multicapa
2
Introducción
Este método, como los vistos en la clase anterior, también
es de la forma:
5
El Perceptrón Multicapa
El valor de activación (net) (entrada) de las neuronas
es el producto interno de las neuronas de la capa de
entrada con los pesos en las neuronas ocultas.
Tanto el vector de entrada, como el vector de pesos
serán aumentados, pegando los valores x0=1 y w0.
El valor de activación será entonces:
7
El Perceptrón Multicapa
donde k indexa las neuronas en la capa de salida y nH
representa el número de neuronas en la capa oculta.
La neurona bias será tratada como una neurona de la
capa oculta cuya salida es siempre y0 = 1.
Cada neurona de la capa de salida calcula una función
de activación (no-lineal), emitiendo:
Cuando hay c neuronas de salida, podemos pensar que
la red calcula c funciones discriminantes zk = gk(x), y
se puede clasificar la entrada de acuerdo a la mayor
función discriminante.
8
El Perceptrón Multicapa
Para clasificación, tendremos c neuronas de salida, una
para cada categoría, y la señal de cada neurona de
salida es la función discriminante gk(x).
Estas funciones discriminantes pueden ser expresadas
como:
11
El Perceptrón Multicapa
yj=f(netj)
12
El Perceptrón Multicapa
Aprendizaje de la Red
La aproximación básica en aprendizaje es iniciar con
una red no entrenada, presentar un patrón de
entrenamiento a la entrada de la red, pasar las
señales a través de la red y determinar la salida en la
capa de salida.
Estas salidas son comparadas con los valores destino,
cualquier diferencia corresponde a un error.
Este error o función criterio es alguna función escalar
de los pesos y es minimizada cuando la salida de la
red coincide con la salida deseada.
Así, los pesos son ajustados para reducir esta medida
de error.
13
El Perceptrón Multicapa
Consideremos el error de entrenamiento en un patrón
como la suma sobre las neuronas de salida del
cuadrado de las diferencias entre la salida deseada tk
dada por el maestro y la salida obtenida zk:
14
El Perceptrón Multicapa
La regla de aprendizaje backpropagation está basada
en el gradiente descendente.
Los pesos son inicializados con valores aleatorios y
entonces cambiados en la dirección que reduce el
error:
16
El Perceptrón Multicapa
donde la sensibilidad de la neurona k esta definida
como:
17
El Perceptrón Multicapa
De otra parte, del valor de activación de cada neurona
de salida, encontramos:
18
El Perceptrón Multicapa
Miremos ahora la regla de aprendizaje para las
neuronas de entrada a ocultas.
De la ecuación
19
El Perceptrón Multicapa
El primer término (en el lado derecho) involucra todos
los pesos wkj, así:
20
El Perceptrón Multicapa
La suma sobre las neuronas de salida en
Las ecuaciones:
26
El Perceptrón Multicapa
Backpropagation como mapeo de características
La capa oculta a salida producen un discriminante
lineal.
El poder suministrado por una red neuronal multicapa
es atribuido a la transformación entre las neuronas
de entrada a las ocultas.
Con pesos iniciales pequeños, el valor de activación de
cada neurona oculta es pequeño, por lo que se usa
la región lineal de la función de activación.
Esta transformación mantiene a los patrones no
separables linealmente.
27
El Perceptrón Multicapa
A medida que el proceso de aprendizaje avanza, los
pesos de la capa de entrada a oculta se incrementan
en magnitud, se llega a las regiones no lineales de la
función de activación y el mapeo del espacio de
entrada al espacio de las neuronas ocultas es
distorsionado.
La frontera de decisión al final del aprendizaje (definida
por los pesos entrada a oculta) es una línea.
Así, el problema no-linealmente separable en la capa
de entrada se ha convertido en un problema
linealmente separable en la capa oculta.
28
El Perceptrón Multicapa
La figura siguiente representa un problema de dos
categorías y dos características y el resultado de
clasificación usando dos redes diferentes:
2-2-1 y 2-3-1.
En la red con 2 neuronas ocultas, las categorías son
separadas de alguna manera que no es libre de
error.
La red con 3 neuronas ocultas separa los patrones de
manera libre de error.
29
El Perceptrón Multicapa
30
El Perceptrón Multicapa
Técnicas prácticas para mejorar Backpropagation
Que propiedades debe tener la función de activación?
Debe ser no lineal. De lo contrario el poder
computacional de una red de 3 capas se pierde con
respecto al de una red de 2 capas.
Debe saturarse. Es decir tener un valor de salida
máximo y mínimo, así los pesos y los valores de
activación estarán limitados y el tiempo de
entrenamiento será finito.
Debe ser continua y suave (derivable). Es decir que
tanto f(⋅) como f’(⋅) estén definidas a través del rango
de sus argumentos. El hecho que f’(⋅) exista es
necesario para la regla de aprendizaje definida para
backpropagation. 31
El Perceptrón Multicapa
Es deseable que sea monótona. Se quiere que la
derivada tenga el mismo signo a través de todo el
rango de argumentos. Si f(⋅) no es monótona y tiene
múltiples máximos locales es probable que se
introduzcan nuevos extremos locales, no deseables,
en la superficie de error.
Es deseable que sea lineal para valores de activación
(net) pequeños. Esto habilita al sistema a
implementar un modelo lineal si es lo adecuado para
tener un error bajo.
34
El Perceptrón Multicapa
Número de Neuronas en la capa oculta
El número de neuronas en las capas de entrada y de
salida está definido por la dimensionalidad de los
vectores de entrada y el número de categorías.
El número de neuronas ocultas nH gobierna el poder
expresivo de la red y por lo tanto la complejidad de la
frontera de decisión.
Si los patrones están linealmente separados, se
necesitan pocas neuronas en la capa oculta, si están
muy mezclados serán necesarias más neuronas en
está capa.
35
El Perceptrón Multicapa
Error de entrenamiento y de prueba en un problema de
clasificación de dos categorías que difiere sólo en el
número de neuronas ocultas nH. Red: 2 – nH -1.
38
El Perceptrón Multicapa
Rata de aprendizaje
El valor de la rata de aprendizaje puede afectar la
calidad del resultado final del entrenamiento de la
red.
Si algunos pesos convergen mucho antes que otros
(aprendizaje no uniforme), entonces puede suceder
que la red no tenga el mismo desempeño a través de
todo el rango de entradas o para patrones en cada
categoría.
La figura siguiente muestra el efecto de diferentes ratas
de aprendizaje en la convergencia en una dimensión.
39
El Perceptrón Multicapa
40
El Perceptrón Multicapa
Para una función criterio que puede ser aproximada por
una función cuadrática, el valor óptimo de la rata de
aprendizaje es: