RNP1: Redes Neuronales Progresivas Parte I

Tratamiento Digital de Seales
Redes Neuronales Progresivas

Parte I
Jos Luis Sancho Gmez
Dpto. Tecnologas de la Informacin y las Comunicaciones. Escuela Tcnica Superior de Ingenieros de Telecomunicacin Universidad Politcnica de Cartagena
TIC/ETSIT/UPCT
Redes Neuronales
Arquitectura tpica (progresiva):
unidades de proceso no lineales conexin unidireccional mediante pesos capacidad de aprendizaje modificando sus parmetros
TIC/ETSIT/UPCT unidad peso
Salida 1 2 w(L) 23 2 3
Capa 1, N1 Capa L , NL
1 w(1) 11
Capa 0, N0
Entrada
Caractersticas Funcionales
Arquitectura seleccionable versatilidad sistema de tipo distribuido robusted paralelismo rapidez en funcionamiento (no en aprendizaje) aprendizaje cierta adaptabilidad, cierta capacidad de abstraccin No exenta de dificultades: de anlisis, de diseo, de aprendizaje (ni fcil ni rpido) y generalizacin
TIC/ETSIT/UPCT Tratamiento Digital de Seales 3
Funciones de la NNs
Correspondencia filtrado, modelado Asociacin restauracin, extraccin de caractersticas, ... Decisin (clasificacin) diagnstico, reconocimiento, data mining, ... Optimizacin planificacin, diseo, ...
TIC/ETSIT/UPCT
Aplicaciones de las NNs

En todos los campos de la ciencia y de la tcnica Algunas frecuentes:
procesado de seales y datos: voz, imagen, radar, sonar, bioingeniera, comunicaciones, control, robtica, ... toma de decisiones: medicina, negocios, gestin, ... optimizacin: problemas tcnicos y metodolgicos
Bases Biolgicas
Membrana permeable para ciertas sustancias inicas
Membrana neuronal
Cl
Cl
Na +
Na + + 70 mV
K+
TIC/ETSIT/UPCT
La Neurona
dendrita axn
soma conexin sinptica
Se propagan diferencias de potencial entre el soma y el entorno tras la activacin sinptica

La Teora Hebbiana
Hebb (1949) Libro: Organization of Behavior
"Cuando un axn de una clula A est suficientemente prximo para excitar a una clula B o toma parte en su disparo de una forma persistente, tiene lugar algn proceso de crecimiento o algn cambio metablico en una de las clulas, o en las dos, de tal modo que la eficiencia de A, como una de las clulas que desencadena el disparo de B, se ve incrementada."
Si una cierta conexin excita una neurona, la produccin de tal excitacin incrementa la capacidad de excitacin de dicha conexin.
Esto origina: - primeros modelos neuronales del sistema nervioso - primeras NNs - la metodologa del Aprendizaje Hebbiano
El Perceptron Monocapa
(Widrow): filtro transversal (adaptativo) + umbral duro
1 x1 x2 xN x2 w0 w1 w2 wN
Divisin segn el hiperplano
+
x1
z = wT x = 0
discriminante lineal
Cmo se entrena?
La Regla del Perceptron

K (Rosenblatt): dados K pares entrada-salida: {x k , d k }1
paso a paso:
w(k + 1) = w(k) + (dk ok )xk , ( > 0) 2
y repetir en bloque: K w (m + 1) = w (m) + (d k o k (m))x k 2 k =1

- supervisado: pares de entrenamiento dados ~ - no lineal: = d o - Hebbiano: refuerza las intervenciones correctas ( x k en w segn el signo del error)
Tratamiento Digital de Seales 10
Es aprendizaje:
TIC/ETSIT/UPCT
Si, separabilidad lineal, convergencia Grficamente Caso N=2 Con w0=0

w(k+1)
x1 x2
w(k)
xk
-x
No converge si no hay separabilidad lineal

El Algoritmo LMS
1 K (Widrow y Hoff): min C( w ) = min (d k z k ) 2 por gradiente: w w 2 = K 1 bloque: K w ( m + 1) = w (m) + (d k z k (m))x k 2 k =1 w ( k + 1) = w (k ) + (d k z k )x k 2
muestra a muestra:
(ms rpido, pero ms ruidoso) Para entradas independientes de valores i.d. de media cero y autocorrelacin Rxx, converge a la solucin MMSE (solucin de Wiener-Hopf)
w opt = R E{dx}
TIC/ETSIT/UPCT
1 xx
si
<
2 max
12
Pero el LMS es muy robusto: converge en muchos casos Aprendizaje: - supervisado - lineal: = d-z - por prestaciones: segn coste cuadrtico Produce resultados razonables (los mejores mediante una frontera lineal) aunque el problema no sea separable linealmente 2 NLMS o Delta-LMS: x independiza de la energa de las muestras
Limitaciones del Perceptron Monocapa

Minsky y Papert: es un slo un discriminante lineal, capaz de resolver problemas de juguete (p. ej. OREX) Si se dispone en capas: gradiente imposible, por el umbral duro En todo caso: dificultad de escalado (slo para casos simples)
TIC/ETSIT/UPCT
14
La Activacin Blanda
Umbral duro aproximacin derivable Resulta adecuada la forma sigmoidal o sigmoide: -clsica:
o z o
1 o = f ( z) = 1 + e gz
o = f ( z) = 1 e gz th = gz 1+ e 2
gz
1 z -1
-actual:
g: saturacin (marca la proximidad al umbral) En principio, asumible por los pesos de llegada
LMS con Activacin Blanda

Ahora: z
o
1 K min C( w ) = min (d k ok ) 2 w w 2 = K 1
muestra a muestra:
w (k + 1) = w (k ) + (d k ok )f(zk)x k 2
Aparece un factor f(zk): -Para la sigmoide clsica:
f ' ( z ) =g o (1 o)
1 f ' ( z ) = g (1 o 2 ) 2
16
-Para la sigmoide actual:

TIC/ETSIT/UPCT
El Perceptron Multicapa
MLP (Perceptrn multicapa) Son: - potentes - verstiles - distribuidas: robustas - paralelas: rpidas (entrenadas) - de entrenamiento difcil y lento - de difcil anlisis
TIC/ETSIT/UPCT Tratamiento Digital de Seales
th + th + th +
pero:
z
17
El Perceptron Multicapa
Discusin de Lippman:
monocapa (define semiespacios)
bicapa (regiones convexas (conexas o no))
tricapa (regiones cncavas (conexas o no))
TIC/ETSIT/UPCT
18
Capacidades del MLP

Se han probado los siguientes teoremas: Cybenko: basta con una capa oculta de unidades sigmoidales (en nmero indefinido) para
R N 0 ( 1, 1) N L
( clasificacin )
Kolmogorov (adaptado por Hetch-Nielsen): basta con una capa oculta de 2N0+1 unidades de activaciones adecuadas para (1, 1) N 0 R N L (continua ) No son constructivos para el dimensionamiento de MLPs.
Capacidades del MLP con activacin blanda
TIC/ETSIT/UPCT
20
Notacin Utilizada
o (j l ) fj w lji oi (l-1)
( l 1) ( l)
(l)
w jj
( l 1) oj (l 1)
fi
( l 1)
fj
i
j
21
EL ALGORITMO DE RETROPROPAGACIN
(Werbos; Parker, Rumelhart)
Se usan cadenas para el clculo del gradiente:

(l ) C C oj = (l) (l ) (l ) wji oj wji
w (jil ) ( k + 1) = w (jil ) ( k )
C (k ) (l ) w ji
C (l) (l1) (l) (l1) = (l) f ' j oi = j oi o j
Nl 1 (l ) (l ) (l 1) ya que o j = f w jk ok k = 1
( l +1) N l +1 N l +1 (l ) o C C n (l ) (l ) ( l +1) ( l +1) l +1 j = (l +1) f ' j = (l +1) f 'nl +1 wnl +1 j f ' j = (l ) nl +1 onl +1 o j nl +1 onl +1
N l +1 (l +1) (l +1) (l ) = nl +1 wnl +1 j f ' j nl +1

l) l) w(ji ( k + 1) = w(ji ( k ) (lj ) ( k ) oi(l 1) (k )
Regla Delta Generalizada (GDR)
Recurdese que, para sigmoides fj(l)=1-oj(l) Se procede
l = L L-1, L-2, ... , 1 (retropropagacin!) insertando el gradiente
TIC/ETSIT/UPCT
23
Sobre las Muestras

Conjunto de muestras de entrenamiento representativo Conviene preprocesar las muestras para eliminar informacin que de seguro se sabe irrelevante Conviene normalizar Pueden ser tiles cdigos sencillos (en general las NNs muestran sensibilidad al formato de presentacin). Ejemplos: 1:N, termmetro, etc. Aleatorizar el orden de presentacin de las muestras y ciclar las series de entrenamiento. Se evita la inestabilidad temporal
Si no se aplican bien estos principios pueden aparecer problemas de convergencia.

- Nmero de muestras: 10 muestras por peso - Nmero de ciclos: de 10 a 1000 Sobreentrenamiento: demasiados ciclos adaptan en exceso la red a las muestras de entrenamiento, no generalizando bien. Para evitarlo: con un conjunto de prueba adicional
C
conjunto de prueba conjunto de entrenamiento
detencin Conviene tambin:
- conjunto de verificacin de diseo - conjunto de aceptacin del resultado

25
TIC/ETSIT/UPCT
Ante la escasez de pares conocidos para construir estos conjuntos:

- mtodo Leave-one-out (1 de prueba, K-1 de entrenamiento; y repetir). En general, Leave-k- out. - generacin de pares artificiales
La seleccin de muestras acelera el entrenamiento (p. ej., con las que marquen mejor las fronteras de clasificacin) Hay procedimientos de peticin de muestras durante el entrenamiento.
Sobre el Dimensionado
No hay reglas fijas, sino empricas - Nmero aconsejable de capas ocultas: 1 o 2 para clasificacin 2 para correspondencia (No contradice el teorema de Cybenko: 2 pueden dar lugar a una arquitectura ms eficiente) (De otro lado: para muchas correspondencias puede ser preferible usar salidas lineales)
- Dimensionado para clasificacin: Un nodo por clase con una capa: entre N12N0+1 y N13N0 (Kudrycki) con dos capas: N1 < ~ 2N3 (Lippmann) ~ 3N0, N2 < para diagnstico (clasificacin por sntomas):
N1 N 0 / N 2 N 0 N 2
Se tantea de menos a ms entre ambos lmites Existen mtodos de reduccin/crecimiento - ventajas en el entrenamiento - ventajas en las prestaciones
Sobre los mnimos locales

La funcin de coste suele presentar numerosos mnimos locales Para evitar ser atrapados por ellos: - mtodo sencillo: varias inicializaciones de los pesos, quedndonos con el mejor resultado - Mtodos Naturales; p. ej. Neo-Darwinianos: Genticos, Evolutivos, etc. Temple Simulado Perforacin de tneles - Aprendizaje Incremental: SS garantizan o facilitan llegar al mnimo absoluto (con ms carga computacional)
29
Sobre el Algoritmo de Entrenamiento

- Parmetros: Para entradas normalizadas a valor de pico 1 entre 0.001 y 1 coeficientes iniciales, v.a. U[-0.5, 0.5] o algo menores El propio algoritmo puede originar problemas convergencia (an eligiendo bien los parmetros)
Ej.: Parlisis por salidas deseadas 1. Se puede combatir reduciendo el nivel de las entradas eligiendo salidas deseadas que no saturen (p. ej.: 0.8) cambiando la funcin de coste
de
Otro ej.: error; remedios
detencin en una llanura de la superficie de
modificar el algoritmo: mtodo del momento

w(k + 1) = w(k ) + (1 ) wbp ( k ) + [w(k ) w(k 1)]
modificando la funcin de coste gestionando el valor del escaln, Manifestacin algoritmo

TIC/ETSIT/UPCT
en
la
prctica:
lentitud
del
31
Soluciones generales ante la lentitud

- modificacin o cambio de la funcin de coste - gestin del escaln - adaptacin de la no linealidad - utilizacin de otros algoritmos de bsqueda - cambio de inicializacin de los pesos - mtodos de seleccin de muestras
TIC/ETSIT/UPCT
32
EJEMPLO: concesin de crdito
Base de Datos de Clientes de una Entidad Financiera 268 Clientes morosos 340 Clientes no morosos
608 Registros de Clientes
Atributos para la clasificacin Saldo actual Importe ltimas nminas Total prstamos y crditos (cuotas mesuales) Importe del prstamo Plazo del prstamo Estado Civil Edad
MLP: 7+30+1 Coste cuadrtico ( Estimacin de probabilidad de mora) Proceso: Normalizacin de variables de entrada Entrenamos con 152 registros Validamos con 152 registros Efectuamos el test con 304 registros
Resultados
MOROSOS MDA MLP 80,3% 88,5% NO MOROSOS 89,2% 96.9%
TIC/ETSIT/UPCT
35

RNP1: Redes Neuronales Progresivas Parte I

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

RNP1: Redes Neuronales Progresivas Parte I

Cargado por

Copyright:

Formatos disponibles

Tratamiento Digital de Seales

Redes Neuronales Progresivas

Tratamiento Digital de Seales

Tratamiento Digital de Seales

Tratamiento Digital de Seales

Aplicaciones de las NNs

Tratamiento Digital de Seales

soma conexin sinptica

Se propagan diferencias de potencial entre el soma y el entorno tras la activacin sinptica

Divisin segn el hiperplano

La Regla del Perceptron

w(k + 1) = w(k) + (dk ok )xk , ( > 0) 2

y repetir en bloque: K w (m + 1) = w (m) + (d k o k (m))x k 2 k =1

Si, separabilidad lineal, convergencia Grficamente Caso N=2 Con w0=0

No converge si no hay separabilidad lineal

Tratamiento Digital de Seales

Limitaciones del Perceptron Monocapa

Tratamiento Digital de Seales

LMS con Activacin Blanda

Aparece un factor f(zk): -Para la sigmoide clsica:

-Para la sigmoide actual:

Tratamiento Digital de Seales

monocapa (define semiespacios)

bicapa (regiones convexas (conexas o no))

tricapa (regiones cncavas (conexas o no))

Tratamiento Digital de Seales

Capacidades del MLP

Capacidades del MLP con activacin blanda

Tratamiento Digital de Seales

Se usan cadenas para el clculo del gradiente:

C (l) (l1) (l) (l1) = (l) f ' j oi = j oi o j

N l +1 (l +1) (l +1) (l ) = nl +1 wnl +1 j f ' j nl +1

l) l) w(ji ( k + 1) = w(ji ( k ) (lj ) ( k ) oi(l 1) (k )

Regla Delta Generalizada (GDR)

Recurdese que, para sigmoides fj(l)=1-oj(l) Se procede

l = L L-1, L-2, ... , 1 (retropropagacin!) insertando el gradiente

Tratamiento Digital de Seales

Sobre las Muestras

Si no se aplican bien estos principios pueden aparecer problemas de convergencia.

detencin Conviene tambin:

- conjunto de verificacin de diseo - conjunto de aceptacin del resultado

Tratamiento Digital de Seales

Ante la escasez de pares conocidos para construir estos conjuntos:

Sobre los mnimos locales

Sobre el Algoritmo de Entrenamiento

Otro ej.: error; remedios

detencin en una llanura de la superficie de

modificar el algoritmo: mtodo del momento

modificando la funcin de coste gestionando el valor del escaln, Manifestacin algoritmo

Tratamiento Digital de Seales

Soluciones generales ante la lentitud

Tratamiento Digital de Seales

EJEMPLO: concesin de crdito

Tratamiento Digital de Seales

También podría gustarte