Perceptro Multicapa 2019 PDF

Perceptrón multicapa
Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación
Organización
Un poco de historia...
¿Cómo resolver el problema XOR?
Métodos de gradiente para el entrenamiento
Retropropagación en el perceptrón multicapa

Organización

Notas históricas
1957 Rosenblatt comienza el desarrollo del Perceptrón

(simple).
1960 Widrow y Hoff desarrollan el modelo Adaline
(ADAptative LINear Elements).
1969 Minsky y Papert prueban que el Perceptrón no es
capaz de resolver problemas sencillos (XOR).
1974 Werbos desarrolla la idea básica del algoritmo de
retro-propagación (BP).
1986 Rumelhart y Hinton redescubren y mejoran el
algoritmo de BP.
Organización

El problema del XOR
Figura: Representación gráfica del problema del OR exclusivo.

Combinación de perceptrones simples
¿Cómo podemos combinar dos o más PS para resolver el

problema XOR?

problema XOR?
Perceptrón A: x2 = −1 − x1

problema XOR?
wA0 wA1
Perceptrón A: x2 = −1 − x1 = wA2 − wA2 x1

problema XOR?
Perceptrón A: x2 = −1 − x1 = wwA0
A2
− wwA1
A2
x1
 
 wA0 = −1 
→ wA1 = +1 → yA = sgn(x2 + x1 + 1)
wA2 = +1
 

problema XOR?
A2
− wwA1
A2
x1
 
 wA0 = −1 
→ wA1 = +1 → yA = sgn(x2 + x1 + 1)
wA2 = +1
 
Perceptrón B: x2 = +1 − x1

problema XOR?
A2
− wwA1
A2
x1
 
 wA0 = −1 
→ wA1 = +1 → yA = sgn(x2 + x1 + 1)
wA2 = +1
 
Perceptrón B: x2 = +1 − x1
 
 wB0 = +1 
→ wB1 = +1 → yB = sgn(x2 + x1 − 1)
wB2 = +1
 
Perceptrón C: yA = +1 + yB
 
 wC0 = +1 
→ wC1 = −1 → yC = sgn(yA − yB − 1)
wC2 = +1
 
 
 wC0 = +1 
→ wC1 = −1 → yC = sgn(yA − yB − 1)
wC2 = +1
 
¿Cómo es la arquitectura
de esta red neuronal?
yA = sgn(x2 + x1 + 1)
→ yC = sgn(yA − yB − 1)
yB = sgn(x2 + x1 − 1)
 
 wC0 = +1 
→ wC1 = −1 → yC = sgn(yA − yB − 1)
wC2 = +1
 
¿Cómo es la arquitectura
de esta red neuronal?
yA = sgn(x2 + x1 + 1)
→ yC = sgn(yA − yB − 1)
yB = sgn(x2 + x1 − 1)
¿Resuelve el problema XOR?
Figura: (a) Arquitectura de una red para resolver el problema del

XOR. (b) Gráfico de flujo de señal de la red.
Figura: (a) Límite de decisión construido por la neurona oculta 1 de la

red en la fig. anterior. (b) Límite de decisión construido por la
neurona oculta 2 de la red. (c) Límite de decisión construido por la
red completa.
Organización

Entrenamiento por el método de gradiente
• Concepto:
Mover los pesos en la dirección en que se reduce el error,
dirección que es opuesta a su gradiente con respecto a los
pesos
• Concepto:
pesos
• Interpretación gráfica
• Concepto:
pesos
• Ecuación básica:
w(n + 1) = w(n) − µ∇w ξ(w(n))

• Concepto:
pesos
• Ecuación básica:
w(n + 1) = w(n) − µ∇w ξ(w(n))
• Aplicación:
• Caso sencillo: perpectrón simple (least mean squares)
• Caso más general: perceptrón multicapa
(back-propagation)
Organización

Extensión del algoritmo a múltiples capas
• Entrenamiento por gradiente en el ADALINE

• Entrenamiento por gradiente en el MADALINE
• Entrenamiento por gradiente en el caso general
• Regiones de decisión
Regiones para varias capas
Figura: Diferentes problemas no-linealmente separables (Lippmann,

1987).
Arquitectura del perceptrón multicapa
Figura: Arquitectura de un perceptrón multicapa (PMC) con dos

capas ocultas.
Figura: Ilustración de las dos direcciones básicas de flujos de señal

en un PMC.
• Representación gráfica de 3 capas

• Cálculo de las salidas en cada capa
• Criterio: suma del error cuadrático instantáneo
Cálculo de las salidas en cada capa
• Capa I:
N
vIj = wI , x =

P
wIji xi (completo vI = Wx)
i=0
• Capa I:
N
vIj = wI , x =

P
i=0
2
yIj = φ(vIj ) = I − 1 (simétrica ± 1)
1 + e−bvj
• Capa I:
N
vIj = wI , x =

P
i=0
2
yIj = φ(vIj ) = I − 1 (simétrica ± 1)
1 + e−bvj
• Capa II:
vIIj = wII , yI

→ yIIj = φ(vIIj )
• Capa III:
vIII

III II
j = w ,y → yIII III
j = φ(vj ) = yj
Criterio de error
Suma del error cuadrático instantáneo
M
1X 2
ξ(n) = e (n)
2 j=1 j
Aplicación del gradiente (caso general)
∂ξ(n)
∆wji (n) = −µ ∂w ji (n)
∂ξ(n)
∆wji (n) = −µ ∂w ji (n)
∂ξ(n) ∂ξ(n) ∂ej (n) ∂yj (n) ∂vj (n)

=
∂wji (n) ∂ej (n) ∂yj (n) ∂vj (n) ∂wji (n)
∂ξ(n)
∆wji (n) = −µ ∂w ji (n)
∂ξ(n) ∂ξ(n) ∂ej (n) ∂yj (n) ∂vj (n)

=
∂wji (n) ∂ej (n) ∂yj (n) ∂vj (n) ∂wji (n)
N
P
∂ wji (n)yi (n)
∂vj (n) i=0
= = yi (n)
∂wji (n) ∂wji (n)
∂ξ(n)
∆wji (n) = −µ ∂w ji (n)
∂ξ(n) ∂ξ(n) ∂ej (n) ∂yj (n)

= yi (n)
∂wji (n) ∂ej (n) ∂yj (n) ∂vj (n)
∂ξ(n) ∂yj (n)

Gradiente de error local instantáneo: δj =
∂yj (n) ∂vj (n)
∆wji (n) = µδj (n)yi (n)
∂ξ(n) ∂ξ(n) ∂ej (n) ∂yj (n)

= yi (n)
∂ξ(n) ∂yj (n)

Gradiente de error local instantáneo: δj =
∂yj (n) ∂vj (n)
Derivada de la función de activación simétrica (1/2)
n o
2
∂yj (n) ∂ −1
1+e−vj (n)
=
∂vj (n) ∂vj (n)
e−vj (n)
= 2 2
1 + e−vj (n)
1 e−vj (n)
= 2
1 + e−vj (n) 1 + e−vj (n)
0
z }| {
1 −1 + 1 +e−vj (n)
= 2
1 + e−vj (n) 1 + e−vj (n) !
1 −1 1 + e−vj (n)
= 2 +
1 + e−vj (n) 1 + e−vj (n) 1 + e−vj (n)
Derivada de la función de activación simétrica (2/2)

∂yj (n) 1 1
= 2 1−
∂vj (n) 1 + e−vj (n) 1 + e−vj (n)

yj (n) + 1 yj (n) + 1
= 2 1−
2 2

yj (n) + 1
= (yj (n) + 1) 1 −
2

2 − yj (n) − 1
= (yj (n) + 1)
2
1
= (yj (n) + 1)(yj (n) − 1)
2
∆wji (n) = µδj (n)yi (n)
∂ξ(n) ∂ξ(n) ∂ej (n) ∂yj (n)

= yi (n)
∂ξ(n) ∂yj (n)

Gradiente de error local instantáneo: δj = −
∂yj (n) ∂vj (n)
∂ξ(n) 1
δj = (1 + yj (n))(1 − yj (n))
∂yj (n) 2
Organización

Retropropagación en la capa III (salida)
∆wIII III II
ji (n) = µδj (n)yi (n)
∆wIII III II
∂ξ(n) 1
δjIII (n) = − (1 + yIII III
j (n))(1 − yj (n))
∂yIII
j (n) 2
∆wIII III II
∂ξ(n) 1
j (n))(1 − yj (n))
∂yIII
j (n) 2
∂ξ(n) ∂ej (n) 1

j (n))(1 − yj (n))
∂ej (n) ∂yIII
j (n) 2
n P o n o
1 2
∂ 2 j ej (n) ∂ djIII (n) − yIII
j (n)
δjIII (n) = − · ·
∂ej (n) ∂yIII
j (n)
1
· (1 + yIII III
j (n))(1 − yj (n))
2
n P o n o
1 2
j (n)
δjIII (n) = − · ·
∂ej (n) ∂yIII
j (n)
1
· (1 + yIII III
j (n))(1 − yj (n))
2
δjIII (n) = 12 ej (n)(1 + yIII III

j (n))(1 − yj (n))
F
n P o n o
1 2
j (n)
δjIII (n) = − · ·
∂ej (n) ∂yIII
j (n)
1
· (1 + yIII III
j (n))(1 − yj (n))
2
δjIII (n) = 12 ej (n)(1 + yIII III

j (n))(1 − yj (n))
F
∆wIII III III II

ji (n) = ηej (n)(1 + yj (n))(1 − yj (n))yi (n)
Retropropagación en la capa II (oculta)
∆wIIji (n) = µδjII (n)yIi (n)

∂ξ(n) 1
δjII (n) = − (1 + yIIj (n))(1 − yIIj (n))
∂yIIj (n) 2
∂ξ(n) 1
∂yIIj (n) 2
1 P 2

∂ k ek (n) 1
δjII (n) =− 2
(1 + yIIj (n))(1 − yIIj (n))
∂yIIj (n) 2
∂ξ(n) 1
∂yIIj (n) 2
1 P 2

∂ k ek (n) 1
δjII (n) =− 2
(1 + yIIj (n))(1 − yIIj (n))
∂yIIj (n) 2
1 X ∂e2 (n) 1
δjII (n) = − k
(1 + yIIj (n))(1 − yIIj (n))
2 ∂yIIj (n) 2
k
∂ξ(n) 1
∂yIIj (n) 2
1 P 2

∂ k ek (n) 1
δjII (n) =− 2
(1 + yIIj (n))(1 − yIIj (n))
∂yIIj (n) 2
1 X ∂e2 (n) 1
δjII (n) = − k
(1 + yIIj (n))(1 − yIIj (n))
2 ∂yIIj (n) 2
k
X ∂ek (n) 1
δjII (n) = − ek (n) II (1 + yIIj (n))(1 − yIIj (n))
∂yj (n) 2
k

X ∂ek (n) ∂yIII III
k (n) ∂vk (n) 1
δjII (n) = − ek (n) (1+yIIj (n))(1−yIIj (n))
∂yk (n) ∂vk (n) ∂yIIj (n) 2
III III
k

k (n) ∂vk (n) 1
III III
k
∂ dkIII (n) − yIII

k (n) 1
X
δjII (n) = − ek (n)· III · (1 + yIII III
k (n))(1 − yk (n)) ·
∂yk (n) 2
k
nP o
∂ w III yII (n)
j kj j 1
· II · (1 + yIIj (n))(1 − yIIj (n))
∂yj (n) 2

k (n) ∂vk (n) 1
III III
k
∂ dkIII (n) − yIII

k (n) 1
X
δjII (n) = − ek (n)· III · (1 + yIII III
k (n))(1 − yk (n)) ·
∂yk (n) 2
k
nP o
∂ w III yII (n)
j kj j 1
· II · (1 + yIIj (n))(1 − yIIj (n))
∂yj (n) 2
X 1
δjII (n) = − ek (n)·(−1) · (1 + yIII III
k (n))(1 − yk (n)) ·
2
k
1
·wIII II II
kj · (1 + yj (n))(1 − yj (n))
2
X 1
δjII (n) = ek (n) · (1 + yIII III III
k (n))(1 − yk (n)) · wkj ·
2
k
1
· (1 + yIIj (n))(1 − yIIj (n))
2
X 1
k (n))(1 − yk (n)) · wkj ·
2
k
1
· (1 + yIIj (n))(1 − yIIj (n))
2
Pero de la capa IIIF sabemos que:
δkIII (n) = 12 ek (n)(1 + yIII III

k (n))(1 − yk (n))
X 1
k (n))(1 − yk (n)) · wkj ·
2
k
1
· (1 + yIIj (n))(1 − yIIj (n))
2
Pero de la capa IIIF sabemos que:
δkIII (n) = 12 ek (n)(1 + yIII III

k (n))(1 − yk (n))
Reemplzando:
X 1
δjII (n) = δkIII (n)wIII II II
kj · (1 + yj (n))(1 − yj (n))
2
k
Volviendo a:

Volviendo a:
Por lo tanto:

∆wIIji (n) δkIII wIII (1 + yIIj (n))(1 − yIIj (n))yIi (n)
P
=η kj (n)
k
Generalizando para la capa “p”
" #
X
∆wIIji (n) = η δkIII wIII II II I
kj (n) (1 + yj (n))(1 − yj (n))yi (n)
k
D E
(p) (p+1) (p) (p) (p−1)
∆wji (n) = η δ (p+1) , wj (1 + yj (n))(1 − yj (n))yi (n)
Resumen del algoritmo de retropropagación (BP)
1. Inicialización aleatoria
2. Propagación hacia adelante (de la entrada)
3. Propagación hacia atras (del error)
4. Adaptación de los pesos
5. Iteración: vuelve a 2 hasta convergencia o finalización
Ejemplo gráfico BP con PMC 3 capas
Figura: Ejemplo de un PMC de 3 capas.

Ejemplo: Cálculo de las salidas en cada capa
Figura: Cálculo salida capa I, neurona 1.



Figura: Cálculo salida capa II, neurona 1.

Figura: Cálculo salida capa II, neurona 2.

Figura: Cálculo salida capa III, neurona 1.

Ejemplo: Retropropagación en la capa III (salida)
Figura: Cálculo del error en capa III, neurona 1.

Figura: Propagación del error a la capa II, neurona 1.

Figura: Propagación del error a la capa II, neurona 2.

Ejemplo: Retropropagación en la capa II (oculta)
Figura: Propagación del error a la capa I, neurona 1.

Figura: Propagacion del error a la capa I, neurona 2.

Figura: Propagación del error a la capa I, neurona 3.

Ejemplo: Actualizando los pesos de la red
Figura: Actualización de pesos capa I, neurona 1.

Figura: Actualización de pesos capa I, neurona 2.

Figura: Actualizacion de pesos capa I, neurona 3.

Figura: Actualización de pesos capa II, neurona 1.

Figura: Actualización de pesos capa II, neurona 2.

Figura: Actualización de pesos capa III, neurona 1.

Término de momento
Modificación adaptativa de la velocidad de aprendizaje.

(ver Haykin Sección 6.3)

Perceptro Multicapa 2019 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Perceptro Multicapa 2019 PDF

Cargado por

Copyright:

Formatos disponibles

Perceptrón multicapa

Introducción XOR Entrenamiento ∇ PS Perceptrón multicapa Retropropagación

¿Cómo resolver el problema XOR?

Métodos de gradiente para el entrenamiento

Retropropagación en el perceptrón multicapa

¿Cómo resolver el problema XOR?

Métodos de gradiente para el entrenamiento

Retropropagación en el perceptrón multicapa

1957 Rosenblatt comienza el desarrollo del Perceptrón

¿Cómo resolver el problema XOR?

Métodos de gradiente para el entrenamiento

Retropropagación en el perceptrón multicapa

El problema del XOR

Figura: Representación gráfica del problema del OR exclusivo.

Combinación de perceptrones simples

¿Cómo podemos combinar dos o más PS para resolver el

Combinación de perceptrones simples

¿Cómo podemos combinar dos o más PS para resolver el

Combinación de perceptrones simples

¿Cómo podemos combinar dos o más PS para resolver el

Combinación de perceptrones simples

¿Cómo podemos combinar dos o más PS para resolver el

Combinación de perceptrones simples

¿Cómo podemos combinar dos o más PS para resolver el

Combinación de perceptrones simples

¿Cómo podemos combinar dos o más PS para resolver el

Combinación de perceptrones simples

Combinación de perceptrones simples

Combinación de perceptrones simples

Combinación de perceptrones simples

Combinación de perceptrones simples

Figura: (a) Arquitectura de una red para resolver el problema del

Combinación de perceptrones simples

Figura: (a) Límite de decisión construido por la neurona oculta 1 de la

¿Cómo resolver el problema XOR?

Métodos de gradiente para el entrenamiento

Retropropagación en el perceptrón multicapa

Entrenamiento por el método de gradiente

Entrenamiento por el método de gradiente

Entrenamiento por el método de gradiente

w(n + 1) = w(n) − µ∇w ξ(w(n))

Entrenamiento por el método de gradiente

w(n + 1) = w(n) − µ∇w ξ(w(n))

¿Cómo resolver el problema XOR?

Métodos de gradiente para el entrenamiento

Retropropagación en el perceptrón multicapa

Extensión del algoritmo a múltiples capas

• Entrenamiento por gradiente en el ADALINE

Regiones para varias capas

Figura: Diferentes problemas no-linealmente separables (Lippmann,

Arquitectura del perceptrón multicapa

Figura: Arquitectura de un perceptrón multicapa (PMC) con dos

Arquitectura del perceptrón multicapa

Figura: Ilustración de las dos direcciones básicas de flujos de señal

Arquitectura del perceptrón multicapa

• Representación gráfica de 3 capas

Cálculo de las salidas en cada capa

Cálculo de las salidas en cada capa

Cálculo de las salidas en cada capa

Suma del error cuadrático instantáneo

Aplicación del gradiente (caso general)

Aplicación del gradiente (caso general)

∂ξ(n) ∂ξ(n) ∂ej (n) ∂yj (n) ∂vj (n)