Está en la página 1de 20

COMPUTACIÓN NEURONAL

Y EVOLUTIVA
PERCEPTRON MULTICAPA

Oswaldo Velez-Langs, oswaldo.velez.langs@urjc.es


Ernesto Staffetti, ernesto.staffetti@urjc.es
Web: http://platon.escet.urjc.es/~ovelez/docencia/cne/

INTRODUCCION
El Perceptrón Multicapa (MLP, Multilayer Perceptron) al
igual que la mayoría de las redes neuronales artificiales,
crean modelos a partir de multiplicadores, sumadores,
funciones, etc. El perceptrón multicapa (Rumelhart et al.,
1986) es el exponente más típico de las redes
neuronales artificiales con aprendizaje supervisado.

1
Introducción
El entrenamiento de estas redes, se basa en la
presentación sucesiva y de forma reiterada, de pares de
vectores en las capas de entrada y salida (vectores
entrada y salida deseada). La red crea un modelo a
base de ajustar sus pesos en función de los vectores de
entrenamiento, de forma que a medida que se pasan
estos patrones, para cada vector de entrada la red
producirá un valor de salida más similar al vector de
salida esperado. Estas redes también se llaman de
retropropagación (backpropagation), nombre que viene
dado por el tipo de aprendizaje que utilizan.

INTRODUCCION

• Los perceptrones multicapa con aprendizaje de


retropropagación son una variación del modelo
ADALINE (Widrow et al., 1960), que utiliza la
regla Delta como forma de aprendizaje (Esta
regla de aprendizaje, se fundamenta en la
utilización del error entre la salida real y
esperada de la red para modificar los pesos).
• Estas redes adaptan la regla Delta de tal forma,
que se facilite el entrenamiento de todas las
conexiones entre los distintos niveles de la red.

2
Red Multicapa

3
BACKPROPAGATION

4
BACKPROPAGATION

BACKPROPAGATION

• Procedimiento para encontrar el vector gradiente de una


función error asociada a la salida de la red con respecto
a los parámetros de la misma.

• El nombre backpropagation surge pues del cálculo que


se hace en el sentido inverso de la red, propagándose
desde los nodos de salida hacia los nodos de entrada

• Esto permite poder aplicar a posteriori alguno de los


muchos métodos de optimización con gradiente para
obtener el comportamiento deseado de la red

5
BACKPROPAGATION
El Backpropagation Standard es el algoritmo de descenso
del gradiente donde los pesos de la red son movidos a lo
largo de la dirección negativa del gradiente (Es donde se
minimiza para obtener T).
Existen varias técnicas como lo son:
• El algoritmo del gradiente conjugado.
• El algoritmo de Newton.
En ultima instancia lo que busca este algoritmo del
Backpropagation es el entrenamiento de Redes Neuronales
Feedforward, con las cuales podemos resolver problemas
específicos como: Aproximación de Funciones,
clasificación, asociación de vectores, etc.

BACKPROPAGATION

6
BACKPROPAGATION

BACKPROPAGATION

7
BACKPROPAGATION

BACKPROPAGATION

8
BACKPROPAGATION: RESUMEN

9
BACKPROPAGATION: RESUMEN

BACKPROPAGATION: RESUMEN

10
BACKPROPAGATION: RESUMEN

BACKPROPAGATION: RESUMEN

11
CONCLUSION
• Las redes perceptrón multicapa (también
denominadas redes de retropropagación),
se engloban dentro de las redes con
aprendizaje supervisado, es decir, utilizan
para su entrenamiento patrones formados
por un vector de entrada y un vector de
salida. Son una variación del modelo
ADALINE que utiliza la regla Delta como
forma de aprendizaje.

CONCLUSION
El método de aprendizaje consta de dos etapas:

• En la primera, los patrones de entrada se presentan a la capa de


entrada de la red. Esta información se propaga de capa en capa.
Las neuronas de las capas intermedias, calculan la suma de los
productos de los valores de las neuronas de entrada y los valores
de los pesos asociados a las conexiones, utilizando esta suma para
computar el valor de la función de activación, hasta obtener un
resultado en la capa de salida.
• En la segunda etapa, el resultado que proporciona la red en la capa
de salida es comparado con el resultado esperado para cada uno
de los vectores de entrenamiento, calculando el error que se utiliza
para modificar los pesos de las capas intermedias. Por esta razón a
este tipo de redes se les denomina de retropropagación.

12
El proceso de aprendizaje del perceptrón puede
resumirse:
• Partiendo de un punto aleatorio W(0) del espacio R nw
donde nw es el numero de parámetros de la red
(pesos + umbrales), el aprendizaje desplaza el vector
de parámetros W(n-1) en el espacio siguiendo la
dirección negativa del gradiente del error en dicho
punto, alcanzando así un nuevo punto W(n) que
estará más próximo al mínimo del error que el anterior
. El proceso continua hasta encontrar un mínimo de la
función de error E, lo que sucede cuando∂∂ Ew

Capacidad de Generalización
• A la hora de evaluar el perceptron, no sólo es importante
saber si la RN ha aprendido con éxito los patrones de
entrenamiento, sino que es imprescindible, conocer el
comportamiento de la misma ante patrones no usados
durante este.
• De nada sirve que una RN aprenda correctamente los
patrones de entrenamiento y no responda de forma
adecuada ante patrones nuevos. Es necesario que
durante el aprendizaje la RN extraiga las características
de las muestras que le permitan responder
correctamente a patrones diferentes.

13
Capacidad de Generalización
• Para que se dé la generalización es necesario
disponer de dos conjuntos de muestras o
patrones; uno para entrenar la red y modificar
sus pesos y umbrales (conjunto de
entrenamiento) y otro para medir la capacidad
de la RN de responder correctamente ante
patrones que no han sido usados durante el
entrenamiento (conjunto de validación o test).
• Los anteriores deben obtenerse de
separaciones aleatorias dentro de las muestras
disponibles

14
Deficiencias del PMC
A pesar de su éxito, el algoritmo de retropropagación tiene
algunas deficiencias que son analizadas a continuación:
Minimos Locales
• La superficie que define el error E en función de los
parámetros de la red es compleja y ruidosa. Debido a la
utilización del método del gradiente se corre el riesgo
que el proceso finalice en un mínimo local
• Una forma de evitar lo anterior es aumentar el numero
de neuronas ocultas dado que se supone que la RN
posee un escaso poder de representación interna. Otro
posible método es utilizar una tasa de aprendizaje que
decrezca a medida que se avanza en el proceso de
aprendizaje

Deficiencias del PMC


Paralisis
• Este fenómeno también se conoce como saturación, y
se produce cuando la entrada total a una neurona de la
red toma valores muy altos, tanto positivos como
negativos, dado que las funciones de activación poseen
dos asintotas horizontales, si la entrada alcanza un valor
alto. esta se satura y alcanza un valor de activación
maximo o mínimo.
• Este fenómeno se produce fundamentalmente cuando
los parámetros toman valore altos, por ello se
recomienda partir de valores iniciales aleatorios
próximos a cero

15
Ejemplo de funcionamiento
• El siguiente ejemplo muestra los pasos a seguir
para la resolución de un problema utilizando el
PMC y también la influencia que ciertos
parámetros podrían tener en el comportamiento
de la red.
• El caso trata sobre aproximación de funciones,
supóngase que se desea construir un PMC para
aproximar la sgte. función definida por partes.

16
Ejemplo de funcionamiento
Conjunto de muestras o ejemplos
• En este caso (dado que se conoce la expresión
analítica) podemos obtener dicho conjunto
sobre el intervalo[-10,10] en concreto 200
muestras uniformemente distribuidas.
• Aunque no es estrictamente necesario, es
recomendable realizar una transformación de
los datos de entrada y salida para que estén
normalizados o escalados en el intervalo [0,1]

Ejemplo de funcionamiento
Extracción de los conjuntos de entrenamiento y
test
• Del conjunto de muestras disponibles se extraen
estos dos conjuntos. Es conveniente realizar
dicha separación de forma aleatoria, para que los
conjuntos no tengan ningún sesgo de información
sobre el problema, en este caso puede tomarse
un 60% para entrenar y un 40% para validar.

17
Ejemplo de funcionamiento
Diseño de la arquitectura del PMC
• Para este caso el PMC tiene una neurona de
entrada y otra neurona de salida, en una
primera aproximación se fija una única capa
oculta con 10 neuronas. Posteriormente dicho
parámetro será modificado con el objeto de
conseguir la red más adecuada

Ejemplo de funcionamiento
Proceso de aprendizaje
• Una vez definida la arquitectura de la red, se
procede a realizar el entrenamiento de la
misma. Para ello se debe en primer lugar fijar
los parámetros que intervienen en dicho
proceso: la razón de aprendizaje y el numero de
ciclos de aprendizaje. Ambos parámetros
siempre van a depender del problema a resolver
y quizás sea necesario realizar simulaciones
previas para fijarlos de acuerdo al problema, en
este caso se fijan a: α= 0. 2 y 30000

18
Ejemplo de funcionamiento
Cuestiones
• ¿Cómo afecta el numero de neuronas
ocultas la resolución de este problema?
• ¿Cómo afecta la razón de aprendizaje al
proceso de entrenamiento?

Ejemplo de funcionamiento

19
Los MLP son aproximadores
universales
Teorema: Sea g una función real creciente y acotada, sea K un
conjunto compacto en Rd ,y f K ->R una función continua.
Entonces para cada ε > 0 existe un k ∈ N y w i , w ij , θi , ∈ R
tales que

Donde:

Prueba en:
G. Cybenko. Approximation by superpositions of a Sigmoid
function. Mathematics of Control, Signals and Systems,
2:303--314, 1989

Ejemplo de funcionamiento

20