Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Aprend
Aprend
Ingenierı́a Informática
Aprendizaje de Sistemas
Redes Neuronales Artificiales
Índice
• Introducción
• Aprendizaje en RNA
• El perceptron
• Ingenierı́a de RNA
• Bibliografı́a
Introducción 2
Introducción
• Inteligencia Artificial:
– Aproximar el proceso
– Aproximar el órgano
Redes Neuronales Artificiales 3
• Origen biológico
• Definición
• Aplicaciones
Redes Neuronales Artificiales 4
Redes Neuronales Artificiales 5
Definición
Redes Neuronales Artificiales 6
Aplicaciones
2. Agrupamiento
3. Aproximación de funciones
4. Predicción
5. Asociación de patrones
6. Memoria asociativa
7. Control
8. Optimización
Redes Neuronales Artificiales 7
1. Arquitectura
(a) Neuronas
(b) Enlaces
(c) Topologı́a
2. Aprendizaje
Redes Neuronales Artificiales 8
Neuronas
Formulación de McCulloch-Pitts
Redes Neuronales Artificiales 9
Neurona (II)
x1
w1
x2 w2 y
Σ fA
xn
wn
Redes Neuronales Artificiales 10
Funciones de activación
0.5
0
0
-1
-10 0 10 -10 0 10
fA(N ) = 1
1 + exp(−N ) f (N ) = tanh(N )
Redes Neuronales Artificiales 11
Topologı́a
Redes Neuronales Artificiales 12
Redes Neuronales Artificiales 13
• Extracción de caracterı́sticas
Redes Neuronales Artificiales 14
Aprendizaje 15
Aprendizaje
• Concepto
• Reglas de aprendizaje:
– Corrección de error
– Aprendizaje hebbiano
– Aprendizaje competititvo
– Aprendizaje probabilı́stico
– Aprendizaje por refuerzo
Aprendizaje 16
Concepto de Aprendizaje
Aprendizaje 17
Tipos de aprendizaje
Aprendizaje 18
El comportamiento de una RNA viene definido por una función: F(x, w). x,
entrada; w, parámetros libres.
Aprendizaje 19
Aprendizaje hebbiano
Dos reglas:
Caracterı́sticas:
• Dependencia temporal
• Regla local
• Mecanismo interactivo
∆w = ηxy (4)
Aprendizaje 20
Aprendizaje competitivo
Aprendizaje 21
Aprendizaje probabilı́stico
Ajuste NO determinı́stico
Función de energı́a:
1 XX
E=− wij xk xj (5)
2 j i
1
p(xk → −xk ) = (6)
1 + exp(−∆E/T )
Aprendizaje 22
• Descenso en Gradiente
• Gradiente Conjugado
• Enfriamiento Simulado
• Algoritmos evolutivos
El Perceptron 23
Perceptrones
• El perceptron
– Arquitectura
– Algoritmo de entrenamiento de Rosenblatt
– La regla delta
– Limitaciones del perceptron
– La función XOR
• El perceptron multicapa
– Arquitectura
– La neurona
– Topologı́a
– El algoritmo de retropropagación de errores
– Métodos avanzados
El Perceptron 24
El perceptron
x1
x1
w1
x2 w2 y x2
Σ fA
xn
wn x3
El Perceptron 25
Algoritmo de Rosenblatt
1: Iniciar w aleatoriamente
2: while haya ejemplos mal clasificados do
3: Seleccionar aleatoriamente un ejemplo (x, d)
4: Calcular la salida y y comparar con d
5: ∆w = η(d − y)
6: end while
TEOREMA:
El Perceptron 26
La regla delta
1X k
E(w) = (o − y k )2 (7)
2
k
w ← w + ∆w (8)
∆w = −η∇E(w) (9)
X
=η (ok − y k )xk (10)
k
El Perceptron 27
x2 w2
El Perceptron 28
(0, 1) (1, 1)
=1
=0
(0, 0) (1, 0)
El Perceptron 29
Solución a las limitaciones del perceptron: usar redes neuronales con más de
una capa y unidades que puedan procesar señales continuas.
El Perceptron Multicapa Arquitectura 30
• La neurona básica
El Perceptron Multicapa Arquitectura 31
La neurona básica
El Perceptron Multicapa Arquitectura 32
Funciones de activación
0.5
0
0
-1
-10 0 10 -10 0 10
fA(N ) = 1
1 + exp(−N ) f (N ) = tanh(N )
El Perceptron Multicapa Arquitectura 33
El Perceptron Multicapa Arquitectura 34
• Extracción de caracterı́sticas
El Perceptron Multicapa Algoritmo BP 35
• Reseña Histórica
• Idea del algoritmo
• El algoritmo BP
• Consideraciones
• Particularizaciones
• Tasa de aprendizaje y momento
• Aprendizaje en lı́nea y en “batch”
• Condiciones de parada
• Limitaciones del algoritmo
El Perceptron Multicapa Algoritmo BP 36
Autores
El Perceptron Multicapa Algoritmo BP 36
Autores
• Parker en 1982
El Perceptron Multicapa Algoritmo BP 36
Autores
• Parker en 1982
• Werbos 1974
El Perceptron Multicapa Algoritmo BP 36
Autores
• Parker en 1982
• Werbos 1974
El Perceptron Multicapa Algoritmo BP 36
Autores
• Parker en 1982
• Werbos 1974
• ¿?
El Perceptron Multicapa Algoritmo BP 37
Regla δ: usa el error para ajustar los pesos entre las dos últimas capas, pesos de
salida. Pero no es válida para los demás pesos: no conocemos su aportación al
error.
El Perceptron Multicapa Algoritmo BP 38
Consideración: Las salidas de una capa son las entradas de la siguiente; propagar
hacia atrás el error
El Perceptron Multicapa Algoritmo BP 39
Notación
Generalización de la Regla δ
X
min E(w) = ktk − F (xk , w)k (12)
w
k
El Perceptron Multicapa Algoritmo BP 40
Notación (II)
i wij,p j
capa p − 1 capa p
Ajuste de los pesos:
∆wij,p(n) = +ηδj,pyi,p−1 (16)
El Perceptron Multicapa Algoritmo BP 41
BP: El algoritmo
1: repeat
2: Seleccionar el siguiente par de entrenamiento.
3: Introducir la entrada en la red y calcular la salida que le corresponde.
4: Calcular el error (en términos de norma cuadrática) entre la salida obtenida
y la salida deseada (el vector objetivo del par de entrenamiento).
5: Ajustar los pesos de la red de modo que se minimice el error.
6: until que se cumpla el criterio de parada
El Perceptron Multicapa Algoritmo BP 42
El algoritmo en acción
x2
x3
El Perceptron Multicapa Algoritmo BP 43
El algoritmo en acción
x2
x3
El Perceptron Multicapa Algoritmo BP 44
El algoritmo en acción
x2
x3
El Perceptron Multicapa Algoritmo BP 45
El algoritmo en acción
x2
x3
El Perceptron Multicapa Algoritmo BP 46
El algoritmo en acción
x2
x3
El Perceptron Multicapa Algoritmo BP 47
El algoritmo en acción
x2
x3
El Perceptron Multicapa Algoritmo BP 48
El algoritmo en acción
x2
x3
El Perceptron Multicapa Algoritmo BP 49
El algoritmo en acción
x2
x3
El Perceptron Multicapa Algoritmo BP 50
El algoritmo en acción
x2
x3
El Perceptron Multicapa Algoritmo BP 51
El algoritmo en acción
x2
x3
El Perceptron Multicapa Algoritmo BP 52
El algoritmo en acción
x2
x3
El Perceptron Multicapa Algoritmo BP 53
tj
+
yi,Q−1 wij,Q yj,Q −
j tj − yj,Q
error
δj,Q
El Perceptron Multicapa Algoritmo BP 54
wj1,Q 1 δ1,Q
yj1,Q−1
Q−1 y
j2,Q−1 wj2,Q
wij,Q−1 2 δ2,Q
j
δj,Q−1
yjm,Q−1
wjm,Q
m δm,Q
X
δj,Q−1 = fA0 (Nj,Q−1) δi,Qwji,Q (18)
i
El Perceptron Multicapa Algoritmo BP 55
BP en notación matricial
El Perceptron Multicapa Algoritmo BP 56
Consideraciones
• Ajuste de tendencias
Tratadas como pesos de los enlaces de unidades ficticias.
El Perceptron Multicapa Algoritmo BP 57
El Perceptron Multicapa Algoritmo BP 58
2
δj,Q = (tj − yj,Q)(1 − yj,Q ), (24)
El Perceptron Multicapa Algoritmo BP 59
Tasa de Aprendizaje
El Perceptron Multicapa Algoritmo BP 60
Momento
El Perceptron Multicapa Algoritmo BP 61
BP en batch
No hay ajuste para cada ejemplo. Se acumulan los valores δ y se hace el ajuste
cuando se han evaluado todos
Concepto de época
1: repeat
2: for cada par del conjunto de entrenamiento do
3: Introducir la entrada en la red y calcular la salida que le corresponde.
4: Calcular el error (en términos de norma cuadrática) entre la salida obtenida
y la salida deseada (el vector objetivo del par de entrenamiento).
5: Calcular el δ de cada unidad y acumularlo
6: end for
7: Ajustar los pesos de la red de modo que se minimice el error.
8: until que se cumpla el criterio de parada
El Perceptron Multicapa Algoritmo BP 62
• Gradiente cero.
Si w es extremo =⇒ ∇E(w) = 0
Parar cuando se alcance ∇E(w) = 0
El Perceptron Multicapa Algoritmo BP 63
• Parada temprana.
Dividir el conjunto de datos en
– entrenamiento: usado para ajustar los pesos
– validación: usado para valorar la capacidad de generalización
Se mide el nivel de error en entrenamiento y en validación.
Parar cuando empiece a crecer el error en validación.
El Perceptron Multicapa Algoritmo BP 64
Limitaciones del BP
• Sobreajuste
• Lentitud
El Perceptron Multicapa Métodos Avanzados 65
Retropropagación de errores
El Perceptron Multicapa Métodos Avanzados 66
ρ > 1; σ ≈ 0, 5
(t)
(t+1) gi (t) (t) ∂E
∆wi = (t−1) (t)
∆wi , gi = (t)
gi − gi ∂wi
El Perceptron Multicapa Métodos Avanzados 67
• Gradiente Conjugado
• Método de Newton
• Método de Levenberg-Marquardt
El Perceptron Multicapa Métodos Avanzados 68
Técnicas Heurı́sticas
• Enfriamiento Simulado
• Algoritmos Genéticos
• Programación Genética
• Controladores Difusos
Ingenierı́a de RNA 69
Ingenierı́a de RNA
2. Establecer el modelo
Arquitectura, parámetros de aprendizaje
4. Validar la red
5. Aplicarla
Ingenierı́a de RNA 70
• Reducción de dimensionalidad
• Extracción de caracterı́sticas
Ingenierı́a de RNA 71
Preprocesamiento
• Datos discretos:
– ordinales
– categóricos
• Datos desconocidos:
– Reemplazar por media
– Reemplazar por valores de regresión
– Principio de máxima probabilidad
Ingenierı́a de RNA 72
Selección de Caracterı́sticas
• Búsqueda:
– Exhaustiva
– Secuencial
– Branch and Bound
Extracción de Caracterı́sticas
• Conocimiento a Priori
Ingenierı́a de RNA 73
Funciones de Error
||y − t||2
P
n
E= P
||t − t̄||2
Ingenierı́a de RNA 74
• Error de Minkowski
Con ejemplos muy atı́picos, su aportación al error puede ser demasiado determi-
nante
X
E= ||y − t||R
Ingenierı́a de RNA 75
• Suma de cuadrados
• Entropı́a cruzada: X
E=− t ln y
Ingenierı́a de RNA 76
• Superficies de Error
• Algoritmos Iterativos
w(t+1) = w(t) + ∆w(t)
• Orden de convergencia:
ε(t+1) ∝ (ε(t))L
Ingenierı́a de RNA 77
Aprendizaje y Generalización
• Objetivo del aprendizaje: construir un modelo estadı́stico del proceso que genera
los datos
• Regularización
• Estabilización estructural
Ingenierı́a de RNA 78
Tendencia y varianza
• Conocimiento a priori
Ingenierı́a de RNA 79
Regularización
Ẽ = E + νΩ
Técnicas de regularización:
• Reducción de pesos:
1X 2
Ω= w
2 i i
• Parada temprana
Estabilización estructural
• Poda
• Crecimiento
81
82
Aplicaciones
• Codificación/encriptación de información
• Lectura de textos
• Reconocimiento de escritura
• Problemas de decisión
• Restauración de imágenes
• Diagnóstico médico
83
• Optimización combinatoria
• Control adaptativo
84
Propiedades
• Capacidad de generalización
• “Aproximación Universal”
• Modelos de cálculo
85
Inconvenientes
• Problemas de entrenamiento
Bibliografı́a 86
Bibliografı́a
• J.R. Jang, C.-T. Sun y E. Mizutani. Neuro-Fuzzy and Soft Computing. Prentice-
Hall, 1997.
Bibliografı́a 87
Revistas
• Neural Networks
• Neurocomputing
• Neural Comptutation
Bibliografı́a 88
Recursos en Internet
• http://ftp.sas.com/pub/neural/FAQ.html
• http://www.emsl.pnl.gov:2080/proj/neuron/neural/what.html
• http://www.cs.stir.ac.uk/ lss/NNIntro/InvSlides.html
• http://umtii.fme.vutbr.cz/MECH/nn.html
• news://comp.ai.neural-nets
• news://comp.ai.fuzzy
• news://es.comp.ai.neural