Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clase Tiia2
Clase Tiia2
Juan A. Bot a
Departamento de Ingenier de la Informacin y las Comunicaciones a o Universidad de Murcia
October 4, 2007
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de4, 2007 a a Redes neuronales las Comunicaciones Universidad de Murcia) a o a October datos
1 / 74
Guin de la clase o
1 2
Introduccin o Perceptrn o Algoritmos de ajuste de pesos Redes Multi-capa Momentum RPROP Cascada-correlacin o Radial Basis Function Networks Self Organizing Maps Otras cuestiones concretas Datos discretos en redes neuronales Series temporales Bibliograf a Apndice A e
2 / 74
4 5 6
7 8
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de4, 2007 a a Redes neuronales las Comunicaciones Universidad de Murcia) a o a October datos
RNAs : Justicacin o
Modelo aproximador de funciones reales, discretas y vectoriales en la salida. Aplicaciones
Reconocimiento de caracteres, de rostros, para pilotaje de veh culos, etc.
Idneas cuando... o
Ejemplos del conjunto de aprendizaje formados por pares atributo-valor La salida de la funcin que dene los datos de entrada tiene como o salida un valor real, un valor discreto o un vector de valores reales y/o discretos Datos de entrenamiento contienen ruido (errores) No es necesario interpretar, para comprender, la funcin objetivo o aprendida por la RNA No es relevante el tiempo consumido en la fase de aprendizaje
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de4, 2007 a a Redes neuronales las Comunicaciones Universidad de Murcia) a o a October datos
3 / 74
Ideas iniciales
La regla de decisin ptima para minimizar la probabilidad de o o clasicar una nueva observacin como ejemplar consiste en asignar a o ese ejemplar nuevo la clase con mayor probabilidad a posteriori. El uso de redes neuronales para obtener clasicadores o modelos de regresin implica emplear una estrategia diferente o usar la idea de funciones discriminantes una funcin discriminante se especica en una determinada forma o paramtrica e el valor de los parmetros se determina (i.e. ajusta) mediante un a algoritmo de aprendizaje sobre los datos de entrada. Representacin bsica: combinacin lineal de variables de entrada o a o
October datos Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de4, 2007 a a Redes neuronales las Comunicaciones Universidad de Murcia) a o a
4 / 74
Discriminante ms simple a
Una funcin discriminante, la denotaremos con y (x) es tal que el o vector x se asigna a la clase C1 si y (x) > 0 y a la clase C2 si y (x) < 0. La ms simple es lineal a y (x) = w T x + 0 , siendo w un vector d-dimensional y 0 el bias
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de4, 2007 a a Redes neuronales las Comunicaciones Universidad de Murcia) a o a October datos
5 / 74
Si consideramos y (x) = 0 como el l mite de decisin entre las dos clases, corresponde a un o hiperlano d 1 dimensional, en un espacio x d-dimensional Con dos variables de entrada x1 y x2 , el l mite de decisin es una l o nea recta. Sean x A y x B del hiperplano citado, tenemos y (x A ) = y (x B ) = 0 y por la denicin de y (x) o w T (x B x A ) = 0, la orientacin de w condiciona totalmente la o orientacin del discriminante. o
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de4, 2007 a a Redes neuronales las Comunicaciones Universidad de Murcia) a o a October datos
6 / 74
Sea x un punto cualquier del hiperplano la distancia normal del origen al Tx hiperplano viene dada por l = w || , ||w como w T x = 0 , tenemos que l = ||w0|| 0 determina la posicin con respecto o al eje del discriminante, en el espacio de las variables de entrada.
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de4, 2007 a a Redes neuronales las Comunicaciones Universidad de Murcia) a o a October datos
7 / 74
Ms de dos clases a
Si hay c clases, usamos un discriminante yk (x) para cada clase Ck de la forma yk (x) = wk + k k0, el punto x se asignar a la clase Ck si se tiene que a yk (x) > yj (x)j = k a La l nea de separacin entre dos clases Ck y Cj vendr o dada por el hiperplano yk (x) = yj (x) El hiperplano tendr la forma a (wk wj ) x + (k0 j0 ) = 0. La orientacin del discriminante vendr dada por o a (wk wj ) La distancia al origen por el bias l = (k0 j0 ) . ||wk wj||
T T
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de4, 2007 a a Redes neuronales las Comunicaciones Universidad de Murcia) a o a October datos
8 / 74
Se basa en la optimizacin de una funcin de error de sumas cuadrticas (adecuada para regresin) o o a o transformamos el vector de entrada mediante M funciones j (x), denominadas funciones base, y M P representamos la salida mediante una combinacin lineal de esas funciones: yk (x) = o wkj j (x) + wk0
j=1
Podemos introducir una funcin 0 = 1 adicional para que el discriminante quede: o M P yk (x) = wkj j (x)
j=0
E (x) =
yk (x n ; w ) la salida para el nodo k como funcin del vector de entrada y el vector de pesos w o N es el nmero de patrones de entrenamiento u c el nmero de nodos de salida u n tk es el valor objetivo para el nodo k y el vector de entrada x n
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de4, 2007 a a Redes neuronales las Comunicaciones Universidad de Murcia) a o a October datos
9 / 74
Funcin de error o
Esta funcin de error compone una supercie de variaciones suaves a o la salida Es funcin de wij y se puede minimizar con una gran cantidad de o tcnicas, e.g. m e nimos cuadrados y gradiente descendente E (w ) es una funcin cuadrtica con respecto w y por lo tanto las o a derivadas son funciones lineales en w As el valor de los pesos en el m , nimo de la funcin de error puede o calcularse
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
10 / 74
Interpretacin geomtrica o e
Vamos a considerar una red de una unica salida, i.e. c = 1 para una observacin de entrada x n , la salida de la red ser de la forma o a yn =
M j=0
wj j (x n )
Agrupamos todos los valores objetivo de los datos de entrada para formar un vector N dimensional, t Para cada una de las funciones base j (x), agrupamos tambin sus e correspondientes valores en j tambin de dimensin N e o Sea el nmero de funciones base, M tal que M + 1 < N. u Los M + 1 vectores j componen una base S, M + 1 dimensional que engendra un supespacio vectorial S. Si agrupamos las salidas de la red y n en un vector y , este vector estar a
M
tambin en S ya que y = e
j=0
wj j
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
11 / 74
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
12 / 74
2 P M wi j t j=1
E wj
Si minimizamos con respecto a los pesos descompongamos t = t + t , siendo t proyeccion ortogonal de t en S t el resto
= 0 = T (y t) (ver Desarrollo A) j
Como T t = 0 al ser perpendiculares, tenemos que j E = T (y t ) = 0, j = 1, . . . , M. j wj y como i componen la base que egendra el subespacio S, el unico producto vectorial con esa base que puede ser nulo es el del vector nulo, con lo que tenemos y = t el proceso de aprendizaje trata de modicar el vector y de tal forma que se minimice la distancia a t
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
13 / 74
M n wkj n tk j j=0
n=1 k=1
En forma matricial (T )W T = T T
una matriz N M con los elementos n j W una matriz c M, con los elementos wkj n T una matriz N c con los elementos tk
14 / 74
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
La matriz T es cuadrada, de dimensiones M M Si el determinante de T es distinto de cero (i.e. es no singular), podemos invertirla para obtener la solucin o W T = T
es una matriz M N denominada pseudo inversa de = (T )1 T
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
15 / 74
Objeciones al mtodo e
es, generalmente, una matriz no cuadrada y no tiene una inversa T suele tenerla
la solucin directa de las ecuaciones normales puede presentar o dicultades
la posibilidad de que T sea singular o casi singular si dos de los vectores j son casi colineales los errores de redondeo t picos de una mquina las van a hacer casi a linealmente dependientes. Si esto ocurre, el procedimiento numrico e usado fallar a adecuado un mtodo del tipo SVD (Singular Value Decomposition) e
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
16 / 74
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
17 / 74
Con un perceptrn podemos representar funciones lgicas como AND y OR. o o Con un slo nodo no podemos representar la funcin XOR. o o
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
18 / 74
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
19 / 74
Soluciona el problema de la convergencia anterior Basada en gradiente descendente Se ajusta asintticamente a la representacin deseada o o Medida de error E (w ) = 1 2 (td od )2
dD
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
20 / 74
Obtencin de la regla o
El vector de gradiente ser E (w ) = a w +w , w = E (w ) E se obtiene segn u
E wi
E E , E , . . . , w w0 w1 n
= = = = =
1 wi 2
Finalmente wi =
X
dD
(td od )xid
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
21 / 74
El algoritmo anterior actualiza los pesos en cada pasada de todo el conjunto de entrenamiento
22 / 74
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
Versin estocstica o a
La versin estocstica lo hace para cada ejemplo: o a Paso 0: sea el conjunto de entrenamiento un conjunto de ejemplos en la forma < x, t > en donde x es el vector de valores de entrada, y t es el valor de salida. es el ratio de aprendizaje. Paso 1: Inicializar cada wi a un valor aleatorio Paso 2: Hasta que se cumpla la condicin de terminacin o o
Inicializar los wi 0 Para cada < x, t > hacer Realizar una pasada con x y calcular o Para cada wi , hacer wi wi + (t o)xi
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
23 / 74
La versin estndar es ms costosa computacionalmente. o a a La versin estocstica es ms segura, un vector de error por cada o a a ejemplo. La regla de entrenamiento se denomina regla delta, LMS (least-mean-square), regla ADALINE (ADAptative LINEar unit) y Widrow-Ho.
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
24 / 74
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
25 / 74
Nodos
Su expresin ser o a
o(x1 , x2 ) = x3 w3,6 + x4 w4,6 + x5 w5,6 = (x1 w1,3 + x2 w2,3 )w3,6 + (x1 w1,4 + x2 w2,4 )w4,6 + (x1 w1,5 + x2 w2,5 )w5,6 = x1 (w1,3 w3,6 + w1,4 w4,6 + w1,5 w5,6 )+ x2 (w2,3 w3,6 + w2,4 w4,6 + w2,5 w5,6 ) Podr amos usar perceptrones con umbral (i.e. salidas 1) PROBLEMA es necesario poder derivar las funciones de salida
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
26 / 74
Nodos (II)
Solucin: sigmoide o = (w x) = o
d(y ) dy 1 1+e w x
con derivada
= (y )(1 (y ))
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
27 / 74
Nodos (III)
Podr amos obtener la expresin resultande de aplicar la sigmoide a o todos los nodos, para la red anterior Como puede verse, esta supercie ya es mucho ms compleja que una a supercie lineal.
o(x1 , x2 ) = ((x3 )w3,6 + (x4 )w4,6 + (x5 )w5,6 ) = ((x1 w1,3 + x2 w2,3 )w3,6 )+ ((x1 w1,4 + x2 w2,4 )w4,6 )+ ((x1 w1,5 + x2 w2,5 )w5,6 )
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
28 / 74
Capacidad de representacin o
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
29 / 74
Algoritmo Backpropagation
Aprende los wi para una red neuronal multi-capa, con funciones de activacin derivables o Versin fully-connected y conexin estricta o o Funcin de error o E (w ) = 1 XX (tkd okd )2 2 dD kO
en donde D es el conjunto de ejemplos y O el conjunto de nodos de salida. tkd ser la salida esperada para el ejemplo d en el nodo k, a okd la salida obtenida para el nodo k y el ejemplo d. Convergencia a m nimos locales
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
30 / 74
whk k
(3) Actualizar los wij segn wij wij + wij donde wij = i xij u
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
31 / 74
Algoritmo Backpropagation
Similitud con regla delta En regla delta, wi se actualizan con xi (t o). En backpropagation se suma a los wij el producto xij i . En realidad i es el producto de (t o) por () en los nodos de salida En los nodos de la capa oculta el producto es de () y
kO
whk k
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
32 / 74
Condiciones de parada En un problema real se realizan usualmente varios miles de pasadas (i.e. epochs) por todo el conjunto de entrenamiento. A veces la condicin de parada del algoritmo es simplemente llegar a o un nmero l u mite de esas pasadas Otras es no alcanzar una cantidad m nima de error por pasada. Se ha de evitar el sobreaprendizaje u overtting.
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
33 / 74
Momentum
El algoritmo actualiza gradualmente los pesos de la red en la direccin de mxima variacin del error mediante la expresin o a o o wij (t + 1) = wij (t) E (t) wij
Si el valor de es excesivamente grande, entonces la bsqueda hacia u un error pequeo sufrir oscilaciones n a Si es muy pequeo, la convergencia al m n nimo ser lenta y se a necesitarn muchas iteraciones para llegar a un error aceptable a momentum wij (t) = E (t) + wij (t 1) wij
Marca una inercia, en el avance hasta el punto ptimo, desde la o ultima actualizacin hasta la actual, lo cual evitaba las oscilaciones. o
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October 34 / 74
Idea: variar el valor de , conforme se avanzaba en el aprendizaje Ejemplos de algoritmos son Delta-Bar-Delta, SuperSAB y Quickprop. RPROP tiene en cuenta, en cada paso, la derivada parcial de cada peso, y su expresin general para la cantidad con la o que actualizar los pesos es 8 > > < + ij (t 1) , , , si si
E (t1) wij E (t1) wij
E (t)
ij (t) =
> ij (t 1) > : ij (t 1)
si no
Si de una iteracin a otra, el valor de la derivada parcial del peso wij cambia su signo la actualizacin anterior fue o o demasiado elevada Si mantiene el signo lo que hacemos es aumentar el valor de actualizacin para aumentar la velocidad de convergencia. o La ecuacin de actualizacin queda o o E (t) wij !
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
35 / 74
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
36 / 74
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
37 / 74
October Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a
38 / 74
October Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a
39 / 74
Los pesos de los arcos que van desde la entrada a los nodos ocultos se congelan una vez se aaden n Los pesos de los arcos que van desde los nodos ocultos a los de salida se entrenan repetidamente Inicialmente (sin nodos ocultos) se entrenan los pesos de las entradas a las salidas (regla delta, regla de entrenamiento del perceptron, etc) Una vez no se tiene una reduccin signicante del error, se evalua la red sobre D. o Si el error obtenido es aceptable, paramos Si no, aun queda un resto de error que necesitamos reducir Intentamos reducirlo aadiendo un nuevo nodo (usamos el algoritmo de n creacin de nodos) o Congelamos todos los pesos de entrada, incluido el del nuevo nodo Entrenamos los pesos de salida de nuevo Repetimos el ciclo hasta que el error es aceptable
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
40 / 74
Se comienza con un nodo candidato que recibe conexiones de 1 todo nodo de entrada 2 todo nodo oculto preexistente sin conectar su salida Se realizan varias pasadas de entrenamiento ajustando los pesos de entrada al nuevo nodo, intentando maximizar S correlacin entre V y el error residual Eo que se observa en la unidad de salida o o X X (Vp V )(Ep,o Eo ) o p
S =
en donde V es el valor de salida del nodo candidato o es la salida de la red en la que medimos el error p es la instancia de entrada V la media de los valores de V sobre todas las entradas Eo la media de los valores de Eo sobre todas las entradas
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
41 / 74
en donde o es el signo de S fp es la derivada de la funcin de activacin del nodo candidato, para o o la instancia p, con respecto a la suma de las entradas Ii,p es la entrada al nodo candidato desde el nodo de entrada i, con la instancia p Una vez calculada S/wi para todo arco de entrada al nodo candidato realizamos gradiente ascendente para maximizar S
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
42 / 74
Las redes RBF (Radial Basis Functions) Se trata de aproximar globalmente una funcin mediante el uso de varias RBF que o realizan una aproximacin local. o La hiptesis inducida con este tipo de mtodos va a tener la forma o e fr (x) = w0 + w1 K1 (d(1 , x)) + w2 K2 (d(2 , x)) + + wk Kk (d(k , x)) en donde cada i es un punto del espacio n y cada una de las funciones Ki (d(i , x)) est denida de tal forma que decrece a conforme la distancia de x a i crece (Ki 0 cuando |x| ) k es una constante determinada por el usuario. (1)
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
43 / 74
Estrategia de aproximacin o
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
44 / 74
Redes RBF
Aunque fr (x) es una aproximacin global, las Ki (d(i , x)) contribuyen o localmente, en una regin cercana a i . o Se suele denir usando una funcin de tipo gausiana, centrada en un punto o i , con una varianza i2 tal que Ki (d(i , x)) = e
d 2 (i ,x) 2 2 i
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
45 / 74
October Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a
46 / 74
La aproximacin local que ofrecen estas funciones es muy potente. o La funcin de la ecuacin 1 puede aproximar cualquier funcin con un error o o o arbitrariamente pequeo si usa un nmero k sucientemente grande de funciones n u gausianas y el ancho 2 de cada funcin K se puede especicar de forma separada. o Puede verse como una red de dos capas en la cual en la primera se calculan los centros xi y las desviaciones estndares 2 de cada una de las funciones Ki , y la segunda capa a realiza la combinacin lineal de las mismas segn los pesos wi . o u
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
47 / 74
El tipo y nmero de RBFs u Sus correspondientes j y j y los wj En una sola fase mediante gradiente En dos fases mediante clustering+clculo matricial a
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
48 / 74
1 2
n (tk yk (x n ))2 , n k
siendo yk (x) =
j=0
= 3 Kj (x n )
||x n j ||2 j3
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
49 / 74
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
50 / 74
1
1
http://www.ai-junkie.com/ann/som/images/Figure2.jpg
51 / 74
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
52 / 74
SOM - Organizacin o
La entrada est totalmente conectada (fully connected) al array a Cada nodo del mapa, representado mediante un c rculo en la malla, sirve como un modelo o prototipo de una clase de entradas similares los nodos del mismo se ajustan a determinadas seales de entrada (i.e. los n patrones o grupos de patrones) de una manera ms o menos ordenada a El proceso de aprendizaje es competitivo cada vez, solamente una neurona produce la seal de activacin mayor n o y, por lo tanto, gana al resto es no supervisado ya que no es necesario un instructor para que el SOM detecte regularidades y las reeje en el array tambin llamados mapas de Kohonen, fueron creados por el nlands Teuvo e e Kohonen a principios de los ochenta detalles en http://websom.hut./websom/
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
53 / 74
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
54 / 74
cada entrada representa un color concreto, expresado en base al sistema RGB(Red, Green, Blue) denotamos cada uno de los ejemplares del conjunto de datos de entrada con x(t) R n siendo t el ndice del ejemplar (o bien una coordenada temporal discreta) cada nodo i contiene un vector modelo mi (t) R n , que tiene el mismo nmero de elementos (i.e. dimensiones) que los ejemplares de u entrada
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
55 / 74
Versin estocstica o a
estocstica una iteracin por ejemplar a o el vector de modelos mi (t) se puede inicializar de manera aleatoria cada ejemplar de entrada x(t) se ha de mapear a la localizacin o modelo mi (t) en el o array en la cual se encuentra mejor Este modelo se denominar entonces best matching unit (BMU). Y se seleccionar para a a que cumpla ||x(t) mBMU (t)|| = min ||x(t) mi (t)||,
i
El vector de entrada x(t) se compara con todos los modelos mi (t) del array para identicar el modelo mk (t) que ms se parece (e.g. mediante distancia eucl a dea si los componentes del vector de cada caracter stica son continuos). A mk (t) lo denominamos el modelo ganador. Tanto el ganador como ciertos nodos localizados en su vecindad se ajustan para hacerlos similares al ejemplar de entrada x(t) mediante un proceso de aprendizaje que especicamos posteriormente.
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
56 / 74
El mtodo de aprendizaje al que alud e amos arriba se puede resumir en las siguientes ecuaciones de actualizacin de modelos: o mi (t + 1) = mi (t) + [xi (t) mi (t)] i Nc (t), mi (t + 1) = mi (t) si no Donde t es el ndice de la iteracin o [0, 1] es el ratio de aprendizaje Nc (t) especica la vecindad al rededor del nodo c ganador, en la iteracin tsima o e (2)
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
57 / 74
se decrementa, por la misma razn, el valor del parmetro o a con lo que, en realidad, tenemos una serie de valores que nos da una funcin (t) o
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
58 / 74
para especicarlo ms correctamente, tambin podr a e amos usar la expresin o mi (t + 1) = mi (t) + (t)hbi (t)[xi (t) mi (t)], i, donde
hbi es una funcin de base radial, centrada en el nodo ganador cuya o salida decrece con la distancia al mismo, y que podr ser a hbi (t) = e
con rb y ri son las posiciones de las neuronas b e i respectivamente, y (t) es el radio de vecindad
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
59 / 74
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
60 / 74
SOM realizan una operacin de representacin, mediante un grupo de o o vectores, de un sistema continuo Algo as como una compresin con prdida bastante grosera o e Lo que realmente est realizando es un clustering!!! a Podemos utilizar los SOM en Preparacin de datos o Visualizacin o Haciendo uso de los datos de entrada en el mapa
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
61 / 74
Reduccin de datos o se podr usar un pequeo porcentaje de los datos, no todos, seleccionados separadamente en cada uno de los a n diagramas de Voronoi de cada modelo del mapa Discretizacin: hacemos corresponder cada modelo con una salida discreta con lo que para valores continuos podemos o obtener valores a la salida discretizados (discretizacin por histogramas) o De s mbolos a nmeros u los SOM no pueden utilizar s mbolos a la entrada es posible localizar su posicin (la de los s o mbolos) en el mapa una vez se ha aprendido el mapa haciendo uso de las variables continuas Solamente en el caso de que s mbolos diferentes tengan posiciones diferentes en el mapa, se pueden utilizar las coordenadas para sustituir a dichos s mbolos Valores nulos al calcular el BMU de un ejemplar con valores nulos, solamente usamos los valores conocidos asumimos que para los valores nulos, stos son parecidos (o iguales, en realidad) a los que s estn presentes en e a los modelos
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
62 / 74
Visualizacin o
SOM es en realidad una representacin de los datos de entrenamiento o mediante 1 o dos dimensiones El SOM, convenientemente ordenado puede utilizarse para visualizar diferentes propiedades del mismo y, por lo tanto, de los datos. Tcnicas e
1 2
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
63 / 74
Visualizacin (II) o
(a)
(b)
(c)
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
64 / 74
Separando las dimensiones podemos responder a las preguntas qu tipos de valores tienen las variables de entrada? e qu tipos de valores o combinacin de los mismos son t e o picos en los diferentes clusters? Existen dependencias signicantes entre las variables?
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
65 / 74
Cada dimensin puede verse como una rodaja o seccin del mapa o o Cada componente visualiza la dispersin de los valores de cada o dimensin en el mapa y como tales, son muy similares a los o histogramas si usamos cada mapa individualmente, podemos detectar acumulaciones de valores de cada variable en determinadas regiones del mapa Si usamos varios mapas, podemos detectar correlaciones de varias variables
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
66 / 74
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
67 / 74
Normalizacin de la entrada o
Es interesante rescalar las variables de entrada en cuando diferentes variables dieren signicativamente en la magnitud de sus valores Incluso puede que la diferencia no reeje la importancia relativa en la salida de la red Si tratamos cada variable de manera independiente Para cada variable xi , calculamos xi =
N N 1 X n 1 X n xi y i2 = (x x i )2 , N i=1 N 1 n=1 i
Las nuevas variables tienen media cero y varianza 1 Si el problema es de regresin se debe transformar la salida o El proceso de inicializacin aleatoria tiene ahora ms sentido o a
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
68 / 74
Para que una RBF trabaje bien, todas las variables deben expandirse en el mismo rango y su covarianza debe ser m nima ya que su activacin depende de o ||x j ||2 =
d X {xi ji }2 i=1
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
69 / 74
Datos discretos
Cmo usamos datos discretos en la entrada de una red? o Si son ordinales es fcil (e.g. edad de una persona, fecha) a Si son categricos, no tienen un orden asociado o
color de un objeto, con valores posibles {rojo, verde, azul} el hacerles corresponder los valores {0,0.5,1.0} induce un orden articial codicacin 1-de-c: tres variables de entrada, una para cada color, de o tal forma que la codicacin ser {(1,0,0),(0,1,0),(0,0,1)} o a
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
70 / 74
Series temporales
el objetivo en este tipo de problemas es el de predecir el valor de x en un corto per odo de tiempo en el futuro Adecuado aplicar redes feed-forward, siempre que los datos se hayan preprocesado correctamente Se muestrea x(t) en intervalos de tiempo iguales para generar una serie discreta de valores xt1 , xt , xt+1 y con d valores creamos un ejemplar (x, y ) = ((xtd+1 , xtd+2 , . . . , xt ), xt+1 )
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
71 / 74
Podemos predecir xt+1 apartir de xtd+1 , xtd+2 , . . . , xt (1-step ahead) Y para predecir xt+n , n 2?
predecimos primero xt+1 para la siguiente prediccin usamos como entrada o xtd , xtd+2 , . . . , xt , xt+1 y obtendremos xt+2
los errores se van acumulando la tendencia real se aleja conforme avanzamos en el horizonte de prediccin, de la modelada por la red o
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
72 / 74
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
73 / 74
Michael Berthold and David J. Hand. Intelligent Data Analysis. An Introduction. Springer, 2003. Second edition. S. E. Fahlman and C. Lebiere. The cascade-correlation learning architecture. In D. S. Touretzky, editor, Advances in Neural Information Processing Systems, volume 2, pages 524532, Denver 1989, 1990. Morgan Kaufmann, San Mateo. M. Minsky and S. Papert. Perceptrons. MIT Press, 1969. Tom M. Mitchell. Machine Learning. McGraw-Hill, 1997. J. Moody and C. Darken. Fast learning in networks of locally tuned processing units.
73 / 74
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
Neural Computation, 1:281294, 1989. Martin Riedmiller and Heinrich Braun. A direct adaptive method for faster backpropagation learning: The RPROP algorithm. In Proc. of the IEEE Intl. Conf. on Neural Networks, pages 586591, San Francisco, CA, 1993. Juha Vesanto. Using the SOM and local models in time-series prediction. In Proceedings of WSOM97, Workshop on Self-Organizing Maps, Espoo, Finland, June 46, pages 209214. Helsinki University of Technology, Neural Networks Research Centre, Espoo, Finland, 1997.
Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a October
74 / 74
Desarrollo A
Si hacemos el desarrollo por componentes vectoriales,
M X j=0
wj j t = (w1 11 + . . . + wm m1 , . . . , w1 1N + . . . + wM MN ) (t1 , . . . , tN ),
y entonces sea v = (w1 11 + . . . + wm m1 t1 , . . . , w1 1N + . . . + wM MN tN ), y como v tenemos que 1/2v T = ((w1 11 + . . . + wm m1 t1 )j1 , . . . , (w1 1N + . . . + wM MN tN )jN ) = j (y t) wj
2
=v =
2 2 (w1 11 + . . . + wm m1 t1 ) , . . . , (w1 1N + . . . + wM MN tN ) ,
October Juan A. Bot (Departamento de Ingenier de la Informacin yarticiales para aprendizaje automtico y miner de datos a a Redes neuronales las Comunicaciones Universidad de Murcia) a 4, 2007 o a
74 / 74