Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Desarrollo Histórico
Célula Nerviosa
• 1943 W.McCulloch, W. Pitts: Modelo ANN ( El Perceptrón )
–1
Aplicaciones de las ANN
Red neuronal artificial (ANN)
• Resolver problemas Complejos (Visión)
ANN: Es un sistema dinámico compuesto por redes
paralelas y distribuidas de procesadores elementales,
• Generalización ( Máquinas de Inferencia)
con la capacidad de aprender y almacenar • Establecer Relaciones no evidentes ( PR)
“ conocimiento” • Análisis de sistemas complejos
•Arquitectura • Percepción
• Comprensión y Aprendizaje
•Interacción
• Generación de nuevo conocimiento
•Función de activación • Robótica
Analogías
ANN y Neuronales Biológicas
Neurona y Conexiones Sinápticas Procesador Elemental Células Biológicas Redes Neuronales Artificiales
Neuronas Unidades de proceso
Conexiones Sinápticas Conexiones Ponderadas
Efectividad de las Sinapsis Peso de las conexiones
Efecto exitatorio o inhibitorio Signo del Peso
Estimulo Total Entrada total Ponderada
Activación → Tasa de disparo Función de Activación → Salida
–2
Modelo Neuronal:
Procesador Elemental.
Mc Culloch & Pitts 1943
PE: Es una unidad básica de procesamiento
la que posee múltiples entradas y solo una
0
1
w1i salida.
∑ bi
...
n
Luego es aplicada una transformación mediante
xi(t) =1 ∑ wij xj(t-1) - bi la función de activación : salida = f (a )
j=1
Supervisado
Tipos de Aprendizaje No - Supervisado
FeedForward
Tipos de Arquitectura Single, Multiple
Recurrentes
17
–3
Redes Feedforward Modelo de Turing
• FANN La capa 0 no realiza procesamiento alguno, solo
distribuye las entradas a la capa siguiente
Σ xi(0) ∈ {0,1}
n
xi(t) =1 ∑ w xj(t-1) ij - bi
j=1
∀ i=1,...,n
[W =
ij
] Matriz de conectividad
x1 x2 (bi ) = vector de umbrales wij
Funciones de Activación
Neuronas como funciones
Funciones
• Las neuronas transforman una entrada no 1
0.9
Tipo Sigmoide
acotada x(t) en el tiempo t en una señal 0.8
0.7
0.2
0.4
señal: f
0.1
0
-1 -0.5 0 0.5 1
0.2
df da
• Velocidad de la señal: f& =
da dt
= f ' a& Funciones
Base Radial
0.0
-2.45 -1.64 -0.82 0.00 0.82 1.64 2.45 3.27 4.09
–4
Funciones de activación Funciones de activación
–5
Introducción ANN Feedforward Estructura de la Red
Σ
• Capa de entrada: sensorial
– También llamada capa sensorial (capa 0)
– No existe procesamiento.
– Su función es distribuir la entrada a la
próxima capa del vector de entrada x.
• Capas Oculta: asociativa
x1 x2
– Son las capas que están ubicadas entre la
capa de entrada y salida.
PARTE 2
Backpropagation Learning
• Red Feedforward:
– Cada neurona recibe como entrada las
salidas de todas las neuronas de la capa
anterior.
–6
Función de salida Ejecución de la Red
N l−1
z lk = f
∑ w lkj z l −1 , j
• Función de activación logística: j =1
– Matriz de pesos: wl 11 .......... . w l1 N N l−1
Wl = M O M
wlN 1 .......... .wlN N
1 l l l −1
z l −1 = ( z l −1 ,1 ... z l −1,N l− 1 )
T
df c exp( − ca )
= = cf ( a )[ 1 − f ( a )]
da [1 + exp( − ca )] 2 – Salida de la capa l
zl T = f (al T ) = ( f (a l1 ) .... f (a lN l ))
donde al = Wl z l −1
–7
Elección del Parámetro µ Elección del Parámetro µ
(∇ E )l = c[∇ zl E ⊗ Z l ⊗ (1 − Z l )] Z T l −1
(∇E)l = [∇zl E⊗ f ' (al )]zT l−1 para las capas l=1..L
donde z o≡ x
donde z o≡ x
–8
Criterios de inicialización y parada El Algoritmo
• Pesos son inicializados con valores aleatorios U (-1;1) • El algoritmo en una aproximación de tiempo discreto.
y el proceso de ajuste continúa iterativamente. • La funciones de error y de activación y la condición
• La parada del proceso se realiza por medio de uno de de parada se asume que son elegidos y fijos.
los siguientes criterios:
1.- Elegir un número de pasos fijos.
Procedimiento de ejecución de la Red
2.- El proceso de aprendizaje continua hasta que la
1.- La capa de entrada es inicilizada, es decir, la
cantidad:
∆wlji = wlji( tiempo t +1) − wlji( tiempo t) salida de la capa de igual a la entrada x : z 0 ≡x
sea menor que alg ún valor espec ífico. Para la capas, desde 1 hasta L, hacer: zl = f (Wl zl−1)
3.- El algoritmo se detiene cuando el error total 2.- La salida final de la red es la salida de la
alcanza un mínimo en el conjunto de prueba. última capa es decir , y ≡ z L
El Algoritmo El Algoritmo
SESGO (BIAS)
Sesgo (BIAS)
wl 10 wl 11 L wl1N l −1
N l −1
zlk = f w lk 0 + ∑ w lkj z l −1, j
~
Wl = M M O M
j =1
wlN l 0 wlN l 1 L wlNl N l −1
Bias ~
⇒ zl = f ( al ) = f (Wl ~zl −1)
–9
Sesgo (BIAS)
Backpropagation (+bias)
• Matriz del gradiente del error: Si el gradiente del error con respecto a la salida
neuronal ∇ z L E es conocido, y depende sólo de la
∂E ∂E ∂E salida de la red {z L(x P)} y del target {tp}
L
wl10 wl11 wl1Nl −1 Entonces el gradiente del error ∇ z E se calcula
( ∇E ) l = M M O M recursivamente
l
∂E ∂E ∂E ∇ z l E = Wl+ 1 [∇ zl +1 E ⊗ f ' (al +1 )]
T
para L-1 hasta 1
L
wlNl 0 wlN l 1 wlNl Nl −1 (∇E )l = [∇ z L E ⊗ f ' (a l )]~
T
z l −1 para las capas l hasta L
donde z 0 ≡ x
[ ]
(∇E) l , pseudo = [∇ zl E ⊗ f ' (al ) + c f 1̂ ]zT l −1 desde l=1,..,L
de los pesos en capas cercanas a la entrada.
–10
Algoritmo: Backpropagation Adaptivo Algoritmo: Backpropagation Adaptivo
Mejoras del Algoritmo (Super SAB) Mejoras del Algoritmo( Super SAB)
∆wlji (t + 1) = − µ lji (t )
∂E
∂wlji
{ [ ~ ~
] }
µ(t) = (I −D)sign sign(∆W(t)•∆W(t −1))+ 1 +D1 • µ(t −1)
W ( t)
∂E
∆wlji (t + 1) = − µ lji (t ) − α∆wlji (t )
∂wlji
W (t )
–11
Algoritmo: Backpropagation Adaptivo
• En forma matricial:
{ [ ~
] ~
}
µ (t ) = ( I − D) sign sign( ∆ W ( t) • ∆W (t −1)) + 1 + D 1 • µ ( t − 1)
–12