Está en la página 1de 5

Integrantes: Noé Pesantez, Jorge Quito

CAP. 3 Perceptrón multicapa

3.1. Arquitectura

La arquitectura de Perceptrón multicapa se caracteriza porque tiene sus neuronas agrupadas en capas de
diferentes niveles. Cada una de las capas está formada por un conjunto de neuronas y se distinguen tres
tipos de capas diferentes: la capa de entrada, las capas ocultas y la capa de salida.

Las neuronas de la capa de entrada no actúan como neuronas propiamente dichas, sino que se encargan
únicamente de recibir las señales o patrones del exterior y propagar dichas señales a todas las neuronas de
la siguiente capa. La última capa actúa como salida de la red, proporcionando al exterior la respuesta de la
red para cada uno de los patrones de entrada. Las neuronas de las capas ocultas realizan un procesamiento
no lineal de los patrones recibidos.

Ilustración 1 Arquitectura del Perceptrón multicapa

3.2. Aprendizaje: Algoritmo de Retropropagación (Feedforward)

En el caso del Perceptrón multicapa se trata de un algoritmo de aprendizaje supervisado, es decir, la


modificación de los parámetros se realiza para que la salida de la red sea lo más próxima posible a la salida
proporcionada por el supervisor o salida deseada.

Por tanto, para cada patrón de entrada a la red es necesario disponer de un patrón de salida deseada. Puesto
que el objetivo es que la salida de la red sea lo más próxima posible a la salida deseada, el aprendizaje de
la red se formula como un problema de minimización del siguiente modo:

𝑴 𝒊𝒏𝑾 𝑬

Siendo W el conjunto de parámetros de la red -pesos y umbrales- y E una función error que evalúa la
diferencia entre las salidas de la red y las salidas deseadas. En la mayor parte de los casos, la función error
se define como:
𝑁
1
𝐸 = ∑ 𝑒(𝑛)
𝑁
𝑛=1

Donde N es el número de patrones o muestras y e(n) es el error cometido por la red para el patrón n, dado
1
𝑛𝐶
por: 𝑒(𝑛) = 𝑛 ∑𝑖=1(𝑠𝑖 (𝑛) − 𝑦𝑖 (𝑛))2
𝐶

Siendo Y (n) = (y1(n),..., 𝑦𝑛𝐶 (n)) y S(n) = (s1(n),..., 𝑠𝑛𝐶 (n)) los vectores de salidas de la red y salidas
deseadas para el patr´on n, respectivamente.

De este modo, si W∗ es un mínimo de la función error E, en dicho punto el error es próximo a cero, lo cual
implica que la salida de la red es próxima a la salida deseada, alcanzando así la meta de la regla de
aprendizaje.
Integrantes: Noé Pesantez, Jorge Quito

3.3. Proceso de aprendizaje en el Perceptrón Multicapa.

1. Se inicializan los pesos y umbrales (valores aleatorios próximos a 0).

2. Se presenta un patrón “n” de entrenamiento y se propaga hacia la salida, obteniendo la salida de la red
“y(n)”.

3. Se evalúa el error cuadrático, “e(n)”, cometido por la red para cada patrón.

4. Se aplica la regla delta generalizada para modificar pesos y umbrales:

Se calculan los valores “δ” para todas las neuronas de la capa de salida.

Se calcula “δ” para el resto de neuronas, empezando por la última capa oculta y terminando en la capa
de entrada.

Se modifican los pesos y umbrales.

5. se repiten los pasos 2,3 y 4 para todo el patrón de entrenamiento.

6. Se evalúa el error total de la red.

7. Se repite hasta alcanzar el error mínimo de entrenamiento, realizado “m” ciclos. Se pueden establecer
otros criterios de parada:

 El error de entrenamiento se estabilice.


 El error de validación se estabilice.
 El error de validación aumente.

3.4. Clasificación y Regresión no Lineal


Integrantes: Noé Pesantez, Jorge Quito

20 3. Perceptron multicapa Secci´on 3.3 Por tanto, el aprendizaje del Perceptron multicapa es equivalente a
encontrar un m´ınimo de la funi´on error. La presencia de funciones de activaci´on no lineales hace que la
respuesta de la red sea no lineal respecto a los par´ametros ajustables, por lo que el problema de
minimizaci´on es un problema no lineal, y, como consecuencia, tienen que utilizarse t´ecnicas de
optimizaci´on no lineales para su resoluci´on. Dichas t´ecnicas est´an, generalmente, basadas en una
adaptaci´on de los par´ametros siguiendo una cierta direcci´on de b´usqueda. En el contexto de redes de
neuronas, y en particular para el perceptron multicapa, la direcci´on de b´usqueda m´as com´unmente
usada es la direcci´on negativa del gradiente de la funci´on E -m´etodo de descenso del gradiente-, pues
conforme al c´alculo de varias variables, ´esta es la direcci´on en la que la funci´on decrece. Aunque,
estrictamente hablando, el aprendizaje de la red debe realizarse para minimizar el error total, el
procedimiento m´as utilizado est´a basado en m´etodos del gradiente estoc´astico, los cuales consisten en
una sucesiva minimizaci´on de los errores para cada patr´on, e(n), en lugar de minimizar el error total E. Por
tanto, aplicando el m´etodo de descenso del gradiente estoc´astico, cada par´ametro w de la red se
modifica para cada patr´on de entrada n de acuerdo con la siguiente ley de aprendizaje. w(n) = w(n − 1) − α
∂e(n) ∂w (3.10) donde e(n) es el error para el patr´on n dado por la ecuaci´on (3.9), y α es la raz´on o tasa
de aprendizaje, par´ametro que influye en la magnitud del desplazamiento en la superficie del error, como
se analizar´a m´as adelante. Debido a que las neuronas de la red est´an agrupadas en capas de distintos
niveles, es posible aplicar el m´etodo del gradiente de forma eficiente, resultando el conocido algoritmo de
Retropropagaci´on [5] o regla delta generalizada. El t´ermino de retropropagaci´on se utiliza debido a la
forma de implementar el m´etodo del gradiente en el Perceptron multicapa, pues el error cometido en la
salida de la red es propagado hacia atr´as, transform´andolo en un error para cada una de las neuronas
ocultas de la red.
Integrantes: Noé Pesantez, Jorge Quito
Integrantes: Noé Pesantez, Jorge Quito

También podría gustarte