Clase Tiia2

Redes neuronales articiales para aprendizaje automtico y miner de datos a a
Tratamiento Inteligente de la Informacin y Aplicaciones o
Juan A. Bot a
Departamento de Ingenier de la Informacin y las Comunicaciones a o Universidad de Murcia
October 4, 2007
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de4, 2007 a a Redes neuronales las Comunicaciones Universidad de Murcia) a o a October datos
1 / 74
Guin de la clase o
1 2
Introduccin o Perceptrn o Algoritmos de ajuste de pesos Redes Multi-capa Momentum RPROP Cascada-correlacin o Radial Basis Function Networks Self Organizing Maps Otras cuestiones concretas Datos discretos en redes neuronales Series temporales Bibliograf a Apndice A e
2 / 74
4 5 6
7 8
RNAs : Justicacin o
Modelo aproximador de funciones reales, discretas y vectoriales en la salida. Aplicaciones
Reconocimiento de caracteres, de rostros, para pilotaje de veh culos, etc.
Idneas cuando... o
Ejemplos del conjunto de aprendizaje formados por pares atributo-valor La salida de la funcin que dene los datos de entrada tiene como o salida un valor real, un valor discreto o un vector de valores reales y/o discretos Datos de entrenamiento contienen ruido (errores) No es necesario interpretar, para comprender, la funcin objetivo o aprendida por la RNA No es relevante el tiempo consumido en la fase de aprendizaje
3 / 74
Ideas iniciales
La regla de decisin ptima para minimizar la probabilidad de o o clasicar una nueva observacin como ejemplar consiste en asignar a o ese ejemplar nuevo la clase con mayor probabilidad a posteriori. El uso de redes neuronales para obtener clasicadores o modelos de regresin implica emplear una estrategia diferente o usar la idea de funciones discriminantes una funcin discriminante se especica en una determinada forma o paramtrica e el valor de los parmetros se determina (i.e. ajusta) mediante un a algoritmo de aprendizaje sobre los datos de entrada. Representacin bsica: combinacin lineal de variables de entrada o a o
October datos Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de4, 2007 a a Redes neuronales las Comunicaciones Universidad de Murcia) a o a
4 / 74
Discriminante ms simple a
Una funcin discriminante, la denotaremos con y (x) es tal que el o vector x se asigna a la clase C1 si y (x) > 0 y a la clase C2 si y (x) < 0. La ms simple es lineal a y (x) = w T x + 0 , siendo w un vector d-dimensional y 0 el bias
5 / 74
Interpretacin geomtrica (ver [?]) o e
Si consideramos y (x) = 0 como el l mite de decisin entre las dos clases, corresponde a un o hiperlano d 1 dimensional, en un espacio x d-dimensional Con dos variables de entrada x1 y x2 , el l mite de decisin es una l o nea recta. Sean x A y x B del hiperplano citado, tenemos y (x A ) = y (x B ) = 0 y por la denicin de y (x) o w T (x B x A ) = 0, la orientacin de w condiciona totalmente la o orientacin del discriminante. o
6 / 74
Interpretacin geomtrica (y II) o e
Sea x un punto cualquier del hiperplano la distancia normal del origen al Tx hiperplano viene dada por l = w || , ||w como w T x = 0 , tenemos que l = ||w0|| 0 determina la posicin con respecto o al eje del discriminante, en el espacio de las variables de entrada.
7 / 74
Ms de dos clases a
Si hay c clases, usamos un discriminante yk (x) para cada clase Ck de la forma yk (x) = wk + k k0, el punto x se asignar a la clase Ck si se tiene que a yk (x) > yj (x)j = k a La l nea de separacin entre dos clases Ck y Cj vendr o dada por el hiperplano yk (x) = yj (x) El hiperplano tendr la forma a (wk wj ) x + (k0 j0 ) = 0. La orientacin del discriminante vendr dada por o a (wk wj ) La distancia al origen por el bias l = (k0 j0 ) . ||wk wj||
T T
8 / 74
Clculo de wi . Formulacin del problema de los m a o nimos cuadrados
Se basa en la optimizacin de una funcin de error de sumas cuadrticas (adecuada para regresin) o o a o transformamos el vector de entrada mediante M funciones j (x), denominadas funciones base, y M P representamos la salida mediante una combinacin lineal de esas funciones: yk (x) = o wkj j (x) + wk0
j=1
Podemos introducir una funcin 0 = 1 adicional para que el discriminante quede: o M P yk (x) = wkj j (x)
j=0
El error de sumas cuadrticas se dene mediante la funcin: a o

N c 1 XX n n 2 (yk (x ; w ) tk ) , 2 n=1 k=1
E (x) =
yk (x n ; w ) la salida para el nodo k como funcin del vector de entrada y el vector de pesos w o N es el nmero de patrones de entrenamiento u c el nmero de nodos de salida u n tk es el valor objetivo para el nodo k y el vector de entrada x n
9 / 74
Funcin de error o
Esta funcin de error compone una supercie de variaciones suaves a o la salida Es funcin de wij y se puede minimizar con una gran cantidad de o tcnicas, e.g. m e nimos cuadrados y gradiente descendente E (w ) es una funcin cuadrtica con respecto w y por lo tanto las o a derivadas son funciones lineales en w As el valor de los pesos en el m , nimo de la funcin de error puede o calcularse
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
10 / 74
Interpretacin geomtrica o e
Vamos a considerar una red de una unica salida, i.e. c = 1 para una observacin de entrada x n , la salida de la red ser de la forma o a yn =
M j=0
wj j (x n )
Agrupamos todos los valores objetivo de los datos de entrada para formar un vector N dimensional, t Para cada una de las funciones base j (x), agrupamos tambin sus e correspondientes valores en j tambin de dimensin N e o Sea el nmero de funciones base, M tal que M + 1 < N. u Los M + 1 vectores j componen una base S, M + 1 dimensional que engendra un supespacio vectorial S. Si agrupamos las salidas de la red y n en un vector y , este vector estar a
M
tambin en S ya que y = e
j=0
wj j
11 / 74
Interpretacin geomtrica (II) o e
Cambiando los valores de wj cambiamos la direccin de y o
12 / 74
Interpretacin geomtrica (III) o e

Usando notacin vectorial E (x) = o
1 2
2 P M wi j t j=1
E wj
Si minimizamos con respecto a los pesos descompongamos t = t + t , siendo t proyeccion ortogonal de t en S t el resto
= 0 = T (y t) (ver Desarrollo A) j
Como T t = 0 al ser perpendiculares, tenemos que j E = T (y t ) = 0, j = 1, . . . , M. j wj y como i componen la base que egendra el subespacio S, el unico producto vectorial con esa base que puede ser nulo es el del vector nulo, con lo que tenemos y = t el proceso de aprendizaje trata de modicar el vector y de tal forma que se minimice la distancia a t
13 / 74
Solucin basada en la pseudoinversa o

Reescribimos la funcin de error o E (w ) = 1 2
N c
M n wkj n tk j j=0
n=1 k=1
Al diferenciar con respecto a w e igualar las derivadas a cero N M n wkj n tk n = 0 j j

n=1 j =0
En forma matricial (T )W T = T T
una matriz N M con los elementos n j W una matriz c M, con los elementos wkj n T una matriz N c con los elementos tk
14 / 74
Solucin basada en la pseudoinversa (II) o
La matriz T es cuadrada, de dimensiones M M Si el determinante de T es distinto de cero (i.e. es no singular), podemos invertirla para obtener la solucin o W T = T
es una matriz M N denominada pseudo inversa de = (T )1 T
15 / 74
Objeciones al mtodo e
es, generalmente, una matriz no cuadrada y no tiene una inversa T suele tenerla
la solucin directa de las ecuaciones normales puede presentar o dicultades
la posibilidad de que T sea singular o casi singular si dos de los vectores j son casi colineales los errores de redondeo t picos de una mquina las van a hacer casi a linealmente dependientes. Si esto ocurre, el procedimiento numrico e usado fallar a adecuado un mtodo del tipo SVD (Singular Value Decomposition) e
16 / 74
El perceptrn (ver Minsky, 1969 [?]) o

Es la red ms sencilla a Una unica neurona, que puede tener varias entradas reales, y salida en {0,1}. Formalmente, dadas las entradas x1 , x2 , . . . , xn , la salida 0(x1 , x2 , . . . , xn ) se dene mediante o(x1 , x2 , . . . , xn ) = 1 1 si w0 x0 + w1 x1 + . . . + wn xn > 0 sino
Los wi , i = 1, 2, . . . , n son los pesos asignados a cada entrada
17 / 74
El perceptrn. Capacidad de representacin o o
Con un perceptrn podemos representar funciones lgicas como AND y OR. o o Con un slo nodo no podemos representar la funcin XOR. o o
18 / 74
Regla de entrenamiento del perceptrn [?] o

Mecanismo de aprendizaje de respuestas 1 adecuadas segn el u ejemplo de aprendizaje. Para cada ejemplo variar los wi segn la expresin u o wi wi + wi en donde wi = (t o)xi t es la salida esperada, o es la salida obtenida para el ejemplo es el ratio de aprendizaje Problema: convergencia
19 / 74
Regla de entrenamiento delta
Soluciona el problema de la convergencia anterior Basada en gradiente descendente Se ajusta asintticamente a la representacin deseada o o Medida de error E (w ) = 1 2 (td od )2
dD
D es el conjunto de ejemplos de entrenamiento, td es la salida de la funcin buscada, y o od es la salida de la red.
20 / 74
Obtencin de la regla o
El vector de gradiente ser E (w ) = a w +w , w = E (w ) E se obtiene segn u
E wi
E E , E , . . . , w w0 w1 n
y regla del gradiente ser a
= = = = =
(td od )2 P dD 1 (t od )2 2 wi d dD P 1 2(td od ) w (td od ) 2 i dD P (td od ) w (td w xd ) i dD P P (td od )(xid )

dD
1 wi 2
Finalmente wi =
X
dD
(td od )xid
21 / 74
Gradiente descendente: algoritmo

Paso 0: sea el conjunto de entrenamiento un conjunto de ejemplos en la forma < x, t > en donde x es el vector de valores de entrada, y t es el valor de salida. es el ratio de aprendizaje. Paso 1: Inicializar cada wi a un valor aleatorio Paso 2: Hasta que se cumpla la condicin de terminacin o o
Inicializar los wi 0 Para cada < x, t > hacer
Realizar una pasada con x y calcular o Para cada wi , hacer wi wi + (t o)xi
Para cada wi , hacer wi wi + wi
El algoritmo anterior actualiza los pesos en cada pasada de todo el conjunto de entrenamiento
22 / 74
Versin estocstica o a
La versin estocstica lo hace para cada ejemplo: o a Paso 0: sea el conjunto de entrenamiento un conjunto de ejemplos en la forma < x, t > en donde x es el vector de valores de entrada, y t es el valor de salida. es el ratio de aprendizaje. Paso 1: Inicializar cada wi a un valor aleatorio Paso 2: Hasta que se cumpla la condicin de terminacin o o
Inicializar los wi 0 Para cada < x, t > hacer Realizar una pasada con x y calcular o Para cada wi , hacer wi wi + (t o)xi
23 / 74
Comentarios a las versiones
La versin estndar es ms costosa computacionalmente. o a a La versin estocstica es ms segura, un vector de error por cada o a a ejemplo. La regla de entrenamiento se denomina regla delta, LMS (least-mean-square), regla ADALINE (ADAptative LINEar unit) y Widrow-Ho.
24 / 74
Redes Multi-capa. Capacidad de representacin o
Cmo podemos aumentar la capacidad de representacin de un o o perceptrn? o Ejemplo

Podr amos intentar formar una red con varios perceptrones lineales como ...
25 / 74
Nodos
Su expresin ser o a
o(x1 , x2 ) = x3 w3,6 + x4 w4,6 + x5 w5,6 = (x1 w1,3 + x2 w2,3 )w3,6 + (x1 w1,4 + x2 w2,4 )w4,6 + (x1 w1,5 + x2 w2,5 )w5,6 = x1 (w1,3 w3,6 + w1,4 w4,6 + w1,5 w5,6 )+ x2 (w2,3 w3,6 + w2,4 w4,6 + w2,5 w5,6 ) Podr amos usar perceptrones con umbral (i.e. salidas 1) PROBLEMA es necesario poder derivar las funciones de salida
26 / 74
Nodos (II)
Solucin: sigmoide o = (w x) = o
d(y ) dy 1 1+e w x
con derivada
= (y )(1 (y ))
27 / 74
Nodos (III)
Podr amos obtener la expresin resultande de aplicar la sigmoide a o todos los nodos, para la red anterior Como puede verse, esta supercie ya es mucho ms compleja que una a supercie lineal.
o(x1 , x2 ) = ((x3 )w3,6 + (x4 )w4,6 + (x5 )w5,6 ) = ((x1 w1,3 + x2 w2,3 )w3,6 )+ ((x1 w1,4 + x2 w2,4 )w4,6 )+ ((x1 w1,5 + x2 w2,5 )w5,6 )
28 / 74
Capacidad de representacin o
29 / 74
Algoritmo Backpropagation
Aprende los wi para una red neuronal multi-capa, con funciones de activacin derivables o Versin fully-connected y conexin estricta o o Funcin de error o E (w ) = 1 XX (tkd okd )2 2 dD kO
en donde D es el conjunto de ejemplos y O el conjunto de nodos de salida. tkd ser la salida esperada para el ejemplo d en el nodo k, a okd la salida obtenida para el nodo k y el ejemplo d. Convergencia a m nimos locales
30 / 74
Algoritmo Backpropagation, versin estocstica o a

Paso 1: Inicializar cada wij a un valor aleatorio Paso 2: Hasta que se cumpla la condicin de terminacin o o Paso 3: Para cada < x, t > hacer Propagar la entrada por la red hacia adelante inicializando los nodos de entrada con x y calcular los o empezando por todos los nodos de la capa oculta, y a continuacin los de la o capa de salida. Propagar el error por la red, hacia atrs a (1) Para cada nodo de salida k, calcular su error, k segn u k ok (1 ok )(tk ok ) (2) Para cada nodo oculto, h, calcular su error, h segn u h oh (1 oh ) X
kO
whk k
(3) Actualizar los wij segn wij wij + wij donde wij = i xij u
31 / 74
Algoritmo Backpropagation
Similitud con regla delta En regla delta, wi se actualizan con xi (t o). En backpropagation se suma a los wij el producto xij i . En realidad i es el producto de (t o) por () en los nodos de salida En los nodos de la capa oculta el producto es de () y
kO
whk k
32 / 74
Algoritmo Backpropagation (y II)
Condiciones de parada En un problema real se realizan usualmente varios miles de pasadas (i.e. epochs) por todo el conjunto de entrenamiento. A veces la condicin de parada del algoritmo es simplemente llegar a o un nmero l u mite de esas pasadas Otras es no alcanzar una cantidad m nima de error por pasada. Se ha de evitar el sobreaprendizaje u overtting.
33 / 74
Momentum
El algoritmo actualiza gradualmente los pesos de la red en la direccin de mxima variacin del error mediante la expresin o a o o wij (t + 1) = wij (t) E (t) wij
Si el valor de es excesivamente grande, entonces la bsqueda hacia u un error pequeo sufrir oscilaciones n a Si es muy pequeo, la convergencia al m n nimo ser lenta y se a necesitarn muchas iteraciones para llegar a un error aceptable a momentum wij (t) = E (t) + wij (t 1) wij
Marca una inercia, en el avance hasta el punto ptimo, desde la o ultima actualizacin hasta la actual, lo cual evitaba las oscilaciones. o
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October 34 / 74
RPROP (ver [?])
Idea: variar el valor de , conforme se avanzaba en el aprendizaje Ejemplos de algoritmos son Delta-Bar-Delta, SuperSAB y Quickprop. RPROP tiene en cuenta, en cada paso, la derivada parcial de cada peso, y su expresin general para la cantidad con la o que actualizar los pesos es 8 > > < + ij (t 1) , , , si si
E (t1) wij E (t1) wij
wij > 0 wij < 0

E (t)
E (t)
ij (t) =
> ij (t 1) > : ij (t 1)
si no
Si de una iteracin a otra, el valor de la derivada parcial del peso wij cambia su signo la actualizacin anterior fue o o demasiado elevada Si mantiene el signo lo que hacemos es aumentar el valor de actualizacin para aumentar la velocidad de convergencia. o La ecuacin de actualizacin queda o o E (t) wij !
wij (t + 1) = wij (t) ij (t) sign
35 / 74
Algoritmo de cascada-correlacin (ver [?]) o

Responde al problema del objetivo mvil del backpropagation o Cada nodo en la red intenta jugar un rol determinado en el clculo global a El resto tambin, y no se comunican entre s e Es dicil, en esas condiciones, que cada nodo encuentre su lugar Manifestacin el efecto manada o Supngase dos tareas A y B a realizar por los nodos ocultos o Cada nodo deber decidir a cul de las dos dedicarse a a Si A genera un error mayor que el de B entonces todos los nodos se concentrarn en a resolver la tarea de A Una vez que A est resuelta, se comenzar a centrar la atencin en B, y el problema en A a a o reaparecer a Al nal, la distribucin de los nodos ser correcta, pero existe un largo per o a odo de indecisin o Solucin permitir que unicamente un conjunto reducido de nodos cambie cada vez, o manteniendo el resto constantes Dos ideas: arquitectura en cascada y algoritmo de aprendizaje
36 / 74
Correlacin en cascada - Arquitectura o
Inicialmente se parte de una red sin nodos ocultos
37 / 74
Correlacin en cascada - Arquitectura (II) o

Cada nuevo nodo oculto recibe una conexin de la entrada y se conecta a o todas las salidas
October Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a
38 / 74
Correlacin en cascada - Arquitectura (III) o

Un nuevo nodo oculto recibe conexiones de la entrada y todos los nodos ocultos preexistentes
39 / 74
Correlacin en cascada - Aprendizaje o
Los pesos de los arcos que van desde la entrada a los nodos ocultos se congelan una vez se aaden n Los pesos de los arcos que van desde los nodos ocultos a los de salida se entrenan repetidamente Inicialmente (sin nodos ocultos) se entrenan los pesos de las entradas a las salidas (regla delta, regla de entrenamiento del perceptron, etc) Una vez no se tiene una reduccin signicante del error, se evalua la red sobre D. o Si el error obtenido es aceptable, paramos Si no, aun queda un resto de error que necesitamos reducir Intentamos reducirlo aadiendo un nuevo nodo (usamos el algoritmo de n creacin de nodos) o Congelamos todos los pesos de entrada, incluido el del nuevo nodo Entrenamos los pesos de salida de nuevo Repetimos el ciclo hasta que el error es aceptable
40 / 74
Correlacin en cascada - Alg. Creacin de nodos o o
Se comienza con un nodo candidato que recibe conexiones de 1 todo nodo de entrada 2 todo nodo oculto preexistente sin conectar su salida Se realizan varias pasadas de entrenamiento ajustando los pesos de entrada al nuevo nodo, intentando maximizar S correlacin entre V y el error residual Eo que se observa en la unidad de salida o o X X (Vp V )(Ep,o Eo ) o p
S =
en donde V es el valor de salida del nodo candidato o es la salida de la red en la que medimos el error p es la instancia de entrada V la media de los valores de V sobre todas las entradas Eo la media de los valores de Eo sobre todas las entradas
41 / 74
Correlacin en cascada - Maximizando S o
Para maximizar S necesitamos calcular S/wi S/wi =

p,o
o (Ep,o Eo )fp Ii,p
en donde o es el signo de S fp es la derivada de la funcin de activacin del nodo candidato, para o o la instancia p, con respecto a la suma de las entradas Ii,p es la entrada al nodo candidato desde el nodo de entrada i, con la instancia p Una vez calculada S/wi para todo arco de entrada al nodo candidato realizamos gradiente ascendente para maximizar S
42 / 74
Redes RBF (ver [?])
Las redes RBF (Radial Basis Functions) Se trata de aproximar globalmente una funcin mediante el uso de varias RBF que o realizan una aproximacin local. o La hiptesis inducida con este tipo de mtodos va a tener la forma o e fr (x) = w0 + w1 K1 (d(1 , x)) + w2 K2 (d(2 , x)) + + wk Kk (d(k , x)) en donde cada i es un punto del espacio n y cada una de las funciones Ki (d(i , x)) est denida de tal forma que decrece a conforme la distancia de x a i crece (Ki 0 cuando |x| ) k es una constante determinada por el usuario. (1)
43 / 74
Estrategia de aproximacin o
44 / 74
Redes RBF
Aunque fr (x) es una aproximacin global, las Ki (d(i , x)) contribuyen o localmente, en una regin cercana a i . o Se suele denir usando una funcin de tipo gausiana, centrada en un punto o i , con una varianza i2 tal que Ki (d(i , x)) = e
d 2 (i ,x) 2 2 i
45 / 74
Redes RBF (II)
O bien una funcin log o stica, como Ki (d(i , x)) = 1 1 + ed

2 ( ,x)/ 2 i i
46 / 74
Redes RBF (III)
La aproximacin local que ofrecen estas funciones es muy potente. o La funcin de la ecuacin 1 puede aproximar cualquier funcin con un error o o o arbitrariamente pequeo si usa un nmero k sucientemente grande de funciones n u gausianas y el ancho 2 de cada funcin K se puede especicar de forma separada. o Puede verse como una red de dos capas en la cual en la primera se calculan los centros xi y las desviaciones estndares 2 de cada una de las funciones Ki , y la segunda capa a realiza la combinacin lineal de las mismas segn los pesos wi . o u
47 / 74
Aprendizaje con RBFs
El diseo de una red RBF implica escoger n

1 2 3
El tipo y nmero de RBFs u Sus correspondientes j y j y los wj En una sola fase mediante gradiente En dos fases mediante clustering+clculo matricial a
Aprendizaje de dos tipos
48 / 74
Aprendizaje en una fase

Aprendizaje supervisado, con gradiente descendente
Denicin del error o E=
M
1 2
n (tk yk (x n ))2 , n k
siendo yk (x) =
j=0
n wkj Kj (x) y tk el valor objetivo para la unidad k y el
ejemplar n Ecuaciones de actualizacin o wkj j j

n = 1 (tk yk (x n ))Kj (x n ) ||x n || n (yk (tk ) x n )wkj = 2 Kj (x n ) 2 j
j
= 3 Kj (x n )
||x n j ||2 j3
n (yk (tk ) x n )wkj
49 / 74
Aprendizaje con RBFs

Aprendizaje en dos fases
1
Determinar los j y los j

Aprendizaje no supervisado (solamente tenemos en cuenta los valores de entrada) Las RBFs deben representar las densidades de los datos de entrada (colocar al menos una RBF en zonas en donde existe presencia de datos) Seleccin aleatoria de subconjunto o Clustering
Determinar despus los wij e

La RBF puede verse ahora como una red de una sola capa Determinacin de los pesos mediante la pseudo inversa o W T = t T
n en donde (T )nk = tk y ()nj = Kj (x n ) y t = (T )1 T
50 / 74
SOM - Mapas auto organizativos (ver [?])

Los SOM (Self-Organizing Map) pueden verse como un array de neuronas, dispuestas espacialmente en un array de pocas dimensiones, t picamente 1 o 2
1
1
http://www.ai-junkie.com/ann/som/images/Figure2.jpg
51 / 74
SOM - Mapas auto organizativos (otro ejemplo)
52 / 74
SOM - Organizacin o
La entrada est totalmente conectada (fully connected) al array a Cada nodo del mapa, representado mediante un c rculo en la malla, sirve como un modelo o prototipo de una clase de entradas similares los nodos del mismo se ajustan a determinadas seales de entrada (i.e. los n patrones o grupos de patrones) de una manera ms o menos ordenada a El proceso de aprendizaje es competitivo cada vez, solamente una neurona produce la seal de activacin mayor n o y, por lo tanto, gana al resto es no supervisado ya que no es necesario un instructor para que el SOM detecte regularidades y las reeje en el array tambin llamados mapas de Kohonen, fueron creados por el nlands Teuvo e e Kohonen a principios de los ochenta detalles en http://websom.hut./websom/
53 / 74
SOM - El algoritmo bsico de aprendizaje a

Vamos a explicar con un ejemplo cmo se ajustan las neuronas de este o tipo de mapa. Supongamos el conjunto de datos siguiente: Rojo 250 165 222 210 255 184 189 255 233 ... Verde 235 042 184 105 127 134 183 140 150 ... Azul 215 042 135 30 80 11 107 122 ... Color antique white brown burlywood chocolate coral dark goldenrod dark khaki dark orange dark salmon ...
54 / 74
El algoritmo bsico de aprendizaje (II) a
cada entrada representa un color concreto, expresado en base al sistema RGB(Red, Green, Blue) denotamos cada uno de los ejemplares del conjunto de datos de entrada con x(t) R n siendo t el ndice del ejemplar (o bien una coordenada temporal discreta) cada nodo i contiene un vector modelo mi (t) R n , que tiene el mismo nmero de elementos (i.e. dimensiones) que los ejemplares de u entrada
55 / 74
Versin estocstica o a
estocstica una iteracin por ejemplar a o el vector de modelos mi (t) se puede inicializar de manera aleatoria cada ejemplar de entrada x(t) se ha de mapear a la localizacin o modelo mi (t) en el o array en la cual se encuentra mejor Este modelo se denominar entonces best matching unit (BMU). Y se seleccionar para a a que cumpla ||x(t) mBMU (t)|| = min ||x(t) mi (t)||,
i
El vector de entrada x(t) se compara con todos los modelos mi (t) del array para identicar el modelo mk (t) que ms se parece (e.g. mediante distancia eucl a dea si los componentes del vector de cada caracter stica son continuos). A mk (t) lo denominamos el modelo ganador. Tanto el ganador como ciertos nodos localizados en su vecindad se ajustan para hacerlos similares al ejemplar de entrada x(t) mediante un proceso de aprendizaje que especicamos posteriormente.
56 / 74
El algoritmo bsico de aprendizaje (IV) a
El mtodo de aprendizaje al que alud e amos arriba se puede resumir en las siguientes ecuaciones de actualizacin de modelos: o mi (t + 1) = mi (t) + [xi (t) mi (t)] i Nc (t), mi (t + 1) = mi (t) si no Donde t es el ndice de la iteracin o [0, 1] es el ratio de aprendizaje Nc (t) especica la vecindad al rededor del nodo c ganador, en la iteracin tsima o e (2)
57 / 74
El algoritmo bsico de aprendizaje (V) a

El radio de vecindad decrece lentamente
el orden global se consigue en una fase temprana y las correcciones locales se hacen posteriormente, cuando la vecindad es ms estrecha a
se decrementa, por la misma razn, el valor del parmetro o a con lo que, en realidad, tenemos una serie de valores que nos da una funcin (t) o
58 / 74
El algoritmo bsico de aprendizaje (V) a
para especicarlo ms correctamente, tambin podr a e amos usar la expresin o mi (t + 1) = mi (t) + (t)hbi (t)[xi (t) mi (t)], i, donde
hbi es una funcin de base radial, centrada en el nodo ganador cuya o salida decrece con la distancia al mismo, y que podr ser a hbi (t) = e
||rb xi ||2 2 2 (t)
con rb y ri son las posiciones de las neuronas b e i respectivamente, y (t) es el radio de vecindad
59 / 74
Evolucin del aprendizaje o
60 / 74
El papel de los SOM en el anlisis inteligente de datos a
SOM realizan una operacin de representacin, mediante un grupo de o o vectores, de un sistema continuo Algo as como una compresin con prdida bastante grosera o e Lo que realmente est realizando es un clustering!!! a Podemos utilizar los SOM en Preparacin de datos o Visualizacin o Haciendo uso de los datos de entrada en el mapa
61 / 74
SOM - Preparacin de datos o
Reduccin de datos o se podr usar un pequeo porcentaje de los datos, no todos, seleccionados separadamente en cada uno de los a n diagramas de Voronoi de cada modelo del mapa Discretizacin: hacemos corresponder cada modelo con una salida discreta con lo que para valores continuos podemos o obtener valores a la salida discretizados (discretizacin por histogramas) o De s mbolos a nmeros u los SOM no pueden utilizar s mbolos a la entrada es posible localizar su posicin (la de los s o mbolos) en el mapa una vez se ha aprendido el mapa haciendo uso de las variables continuas Solamente en el caso de que s mbolos diferentes tengan posiciones diferentes en el mapa, se pueden utilizar las coordenadas para sustituir a dichos s mbolos Valores nulos al calcular el BMU de un ejemplar con valores nulos, solamente usamos los valores conocidos asumimos que para los valores nulos, stos son parecidos (o iguales, en realidad) a los que s estn presentes en e a los modelos
62 / 74
Visualizacin o
SOM es en realidad una representacin de los datos de entrenamiento o mediante 1 o dos dimensiones El SOM, convenientemente ordenado puede utilizarse para visualizar diferentes propiedades del mismo y, por lo tanto, de los datos. Tcnicas e
1 2
Las matrices de distancias Mapas coloreados
63 / 74
Visualizacin (II) o
(a)
(b)
(c)
64 / 74
Dimensiones de los datos aisladas en el mapa
Separando las dimensiones podemos responder a las preguntas qu tipos de valores tienen las variables de entrada? e qu tipos de valores o combinacin de los mismos son t e o picos en los diferentes clusters? Existen dependencias signicantes entre las variables?
65 / 74
Dimensiones de los datos aisladas en el mapa
Cada dimensin puede verse como una rodaja o seccin del mapa o o Cada componente visualiza la dispersin de los valores de cada o dimensin en el mapa y como tales, son muy similares a los o histogramas si usamos cada mapa individualmente, podemos detectar acumulaciones de valores de cada variable en determinadas regiones del mapa Si usamos varios mapas, podemos detectar correlaciones de varias variables
66 / 74
Dimensiones de los datos aisladas en el mapa (y II)
67 / 74
Normalizacin de la entrada o
Es interesante rescalar las variables de entrada en cuando diferentes variables dieren signicativamente en la magnitud de sus valores Incluso puede que la diferencia no reeje la importancia relativa en la salida de la red Si tratamos cada variable de manera independiente Para cada variable xi , calculamos xi =
N N 1 X n 1 X n xi y i2 = (x x i )2 , N i=1 N 1 n=1 i
Las nuevas variables rescaladas sern a xin = xin x i . i
Las nuevas variables tienen media cero y varianza 1 Si el problema es de regresin se debe transformar la salida o El proceso de inicializacin aleatoria tiene ahora ms sentido o a
68 / 74
Normalizacin teniendo en cuenta covarianzas o
Para que una RBF trabaje bien, todas las variables deben expandirse en el mismo rango y su covarianza debe ser m nima ya que su activacin depende de o ||x j ||2 =
d X {xi ji }2 i=1
69 / 74
Datos discretos
Cmo usamos datos discretos en la entrada de una red? o Si son ordinales es fcil (e.g. edad de una persona, fecha) a Si son categricos, no tienen un orden asociado o
color de un objeto, con valores posibles {rojo, verde, azul} el hacerles corresponder los valores {0,0.5,1.0} induce un orden articial codicacin 1-de-c: tres variables de entrada, una para cada color, de o tal forma que la codicacin ser {(1,0,0),(0,1,0),(0,0,1)} o a
70 / 74
Series temporales
el objetivo en este tipo de problemas es el de predecir el valor de x en un corto per odo de tiempo en el futuro Adecuado aplicar redes feed-forward, siempre que los datos se hayan preprocesado correctamente Se muestrea x(t) en intervalos de tiempo iguales para generar una serie discreta de valores xt1 , xt , xt+1 y con d valores creamos un ejemplar (x, y ) = ((xtd+1 , xtd+2 , . . . , xt ), xt+1 )
71 / 74
Predicciones n-steps ahead
Podemos predecir xt+1 apartir de xtd+1 , xtd+2 , . . . , xt (1-step ahead) Y para predecir xt+n , n 2?
predecimos primero xt+1 para la siguiente prediccin usamos como entrada o xtd , xtd+2 , . . . , xt , xt+1 y obtendremos xt+2
los errores se van acumulando la tendencia real se aleja conforme avanzamos en el horizonte de prediccin, de la modelada por la red o
72 / 74
Series temporales: problemas

Cmo elegimos el intervalo de muestreo? o Trending
73 / 74
Michael Berthold and David J. Hand. Intelligent Data Analysis. An Introduction. Springer, 2003. Second edition. S. E. Fahlman and C. Lebiere. The cascade-correlation learning architecture. In D. S. Touretzky, editor, Advances in Neural Information Processing Systems, volume 2, pages 524532, Denver 1989, 1990. Morgan Kaufmann, San Mateo. M. Minsky and S. Papert. Perceptrons. MIT Press, 1969. Tom M. Mitchell. Machine Learning. McGraw-Hill, 1997. J. Moody and C. Darken. Fast learning in networks of locally tuned processing units.
73 / 74
Neural Computation, 1:281294, 1989. Martin Riedmiller and Heinrich Braun. A direct adaptive method for faster backpropagation learning: The RPROP algorithm. In Proc. of the IEEE Intl. Conf. on Neural Networks, pages 586591, San Francisco, CA, 1993. Juha Vesanto. Using the SOM and local models in time-series prediction. In Proceedings of WSOM97, Workshop on Self-Organizing Maps, Espoo, Finland, June 46, pages 209214. Helsinki University of Technology, Neural Networks Research Centre, Espoo, Finland, 1997.
74 / 74
Desarrollo A
Si hacemos el desarrollo por componentes vectoriales,
M X j=0
wj j t = (w1 11 + . . . + wm m1 , . . . , w1 1N + . . . + wM MN ) (t1 , . . . , tN ),
y entonces sea v = (w1 11 + . . . + wm m1 t1 , . . . , w1 1N + . . . + wM MN tN ), y como v tenemos que 1/2v T = ((w1 11 + . . . + wm m1 t1 )j1 , . . . , (w1 1N + . . . + wM MN tN )jN ) = j (y t) wj
2
=v =
2 2 (w1 11 + . . . + wm m1 t1 ) , . . . , (w1 1N + . . . + wM MN tN ) ,
74 / 74

Clase Tiia2

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase Tiia2

Cargado por

Copyright:

Formatos disponibles

Redes neuronales articiales para aprendizaje automtico y miner de datos a a

Tratamiento Inteligente de la Informacin y Aplicaciones o

Interpretacin geomtrica (ver [?]) o e

Interpretacin geomtrica (y II) o e

Clculo de wi . Formulacin del problema de los m a o nimos cuadrados

El error de sumas cuadrticas se dene mediante la funcin: a o

Interpretacin geomtrica (II) o e

Cambiando los valores de wj cambiamos la direccin de y o

Interpretacin geomtrica (III) o e

Solucin basada en la pseudoinversa o

Al diferenciar con respecto a w e igualar las derivadas a cero N M n wkj n tk n = 0 j j

Solucin basada en la pseudoinversa (II) o

El perceptrn (ver Minsky, 1969 [?]) o

Los wi , i = 1, 2, . . . , n son los pesos asignados a cada entrada

El perceptrn. Capacidad de representacin o o

Regla de entrenamiento del perceptrn [?] o

Regla de entrenamiento delta

D es el conjunto de ejemplos de entrenamiento, td es la salida de la funcin buscada, y o od es la salida de la red.

y regla del gradiente ser a

(td od )2 P dD 1 (t od )2 2 wi d dD P 1 2(td od ) w (td od ) 2 i dD P (td od ) w (td w xd ) i dD P P (td od )(xid )

Gradiente descendente: algoritmo

Para cada wi , hacer wi wi + wi

Comentarios a las versiones

Redes Multi-capa. Capacidad de representacin o

Cmo podemos aumentar la capacidad de representacin de un o o perceptrn? o Ejemplo

Algoritmo Backpropagation, versin estocstica o a

Algoritmo Backpropagation (y II)

RPROP (ver [?])

wij > 0 wij < 0

wij (t + 1) = wij (t) ij (t) sign

Algoritmo de cascada-correlacin (ver [?]) o

Correlacin en cascada - Arquitectura o

Inicialmente se parte de una red sin nodos ocultos

Correlacin en cascada - Arquitectura (II) o

Correlacin en cascada - Arquitectura (III) o

Correlacin en cascada - Aprendizaje o

Correlacin en cascada - Alg. Creacin de nodos o o

Correlacin en cascada - Maximizando S o

Para maximizar S necesitamos calcular S/wi S/wi =

o (Ep,o Eo )fp Ii,p

Redes RBF (ver [?])

Redes RBF (II)

O bien una funcin log o stica, como Ki (d(i , x)) = 1 1 + ed

Redes RBF (III)

Aprendizaje con RBFs

El diseo de una red RBF implica escoger n

Aprendizaje de dos tipos

Aprendizaje en una fase

n wkj Kj (x) y tk el valor objetivo para la unidad k y el

ejemplar n Ecuaciones de actualizacin o wkj j j

n (yk (tk ) x n )wkj

Aprendizaje con RBFs

Determinar los j y los j

Determinar despus los wij e

SOM - Mapas auto organizativos (ver [?])

SOM - Mapas auto organizativos (otro ejemplo)

SOM - El algoritmo bsico de aprendizaje a

El algoritmo bsico de aprendizaje (II) a

El algoritmo bsico de aprendizaje (IV) a

El algoritmo bsico de aprendizaje (V) a

El algoritmo bsico de aprendizaje (V) a

||rb xi ||2 2 2 (t)

Evolucin del aprendizaje o