Material de Clase. Tema 2

Universidad Carlos III de Madrid
OpenCourseWare
Redes de Neuronas Artificiales
Ins M. Galvn - Jos M Valls
Tema 2
Primeros Modelos Computacionales
REDES DE NEURONAS ARTIFICIALES. INS M. GALVN, JOS M VALLS
Primeros Modelos Computacionales

Perceptron simple
Adaline
Clasificacin y Regresin lineal
Perceptron simple
Modelo propuesto por Rosenblatt en 1959
Adaptacin supervisada
Sistema capaz de realizar tareas de clasificacin de forma automtica
A partir de un nmero de ejemplos

etiquetados, el sistema determina
la ecuacin del hiperplano
discriminante
Perceptron simple. Arquitectura

Red monocapa con varias neuronas de entrada
conectadas a la neurona de salida
x1
w1
x2
w2
..
xn
y=
wn
1, si w1x1+...+wnxn+ > 0
- 1, si w1x1+...+wnxn+ 0
El perceptron equivale a un hiperplano de dimensin

n-1 capaz de separar las clases
Si la salida del perceptron es +1, la entrada pertenecer a una clase
(estar situada a un lado del hiperplano)
Si la salida es -1, la entrada pertenecer a la clase contraria (estar
situada al otro lado del hiperplano)
La ecuacin del hiperplano es:
w1 x1 + w 2 x 2 + .... + w n x n + = 0

Dimensin 2
1, si
y=
- 1, si
w1 x1 + w2 x2 + > 0
w1x1 + w2 x2 + 0
La ecuacin del hiperplano es:
x1
w1
y
w2
x2
w1 x1 + w2 x2 + = 0
En dos dimensiones el hiperplano es una recta
x2
w
x 2 = 1 x1
w2
w2
Pendiente de la recta
x1
Punto de corte con el
eje de ordenadas
Perceptron simple. Aprendizaje
Se dispone de un conjunto de observaciones (puntos) de los que se

sabe su categora o clase
Las observaciones o ejemplos (datos) son puntos en un espacio

multidimensional
n
: ( x1 , x2 ,...xn )
Hay que determinar la ecuacin del hiperplano que deja a un lado

los ejemplos de una clase y a otro lado los de otra clases
La ecuacin del hiperplano se deduce a partir de los ejemplos o

datos
w1x1 + w2 x2 + ....+ wn xn + = 0
Proceso iterativo supervisado

Modificacin de los parmetros de la red (pesos y umbral), hasta
encontrar el hiperplano discriminante
Nmero finito de iteraciones

Dado
Encontrar
Conjunto de patrones
Hiperplano discriminante
Vector de entrada: x=( x1, x2 , ..., xn )
( w1, w2 , ..., wn, ) tales que
Salida deseada: d(x)

d(x)= 1 si x A
d(x)=-1 si x B
x1 w1 + x2 w2 + ... + xn wn +=0
separe las clases A y B

Paso 1: Inicializacin aleatoria de los pesos y el umbral de la red {wi(0)}i=0,...,n (0)}
Paso 2: Se toma un patrn o ejemplo entrada-salida [x=(x1,x2, ..., xn), d(x)]
Paso 3: Se calcula la salida de la red: y= f( x1 w1 + x2 w2 + ... + xn wn + )
Paso 4: Si y = d(x) (clasificacin correcta)
Si y d(x) (clasificacin incorrecta) se modifican los parmetros:
wi (t+1) = wi (t) + d(x) xi (t+1) = (t) + d(x)

Ley de aprendizaje
Si x A , d(x) = 1 wi (t+1) = wi (t) + xi (t+1) = (t) + 1
Si x B , d(x) = -1 wi (t+1) = wi (t) - xi
(t+1) = (t) - 1
Paso 4: Se vuelve al paso 2 hasta completar el conjunto de patrones de entrenamiento

Paso 5: Se repiten los pasos 1, 2, 3 y 4 hasta alcanzar el criterio de parada
Perceptron simple. Ejemplo

Ejemplo: Funcin lgica AND
x1
x2
AND
-1
1
-1
1
-1
-1
1
1
-1
-1
-1
1
(-1,1)
(-1,-1)
(1,1)
(1,-1)
0.5
10

X=(-1,-1), d(x)=-1
Y=f(-1.5)=-1
Bien clasificado
X=(1,-1), d(x)=-1
Y=f(0.5)=1
Mal clasificado
Nuevos
parmetros
X=(-1,1), d(x)=-1
Nuevos
parmetros
X=(1,1), d(x)=1
w1(1) = 1 1 = 0
w2(1) = 1 (-1) = 2
(1) = 0.5 - 1 = -0.5
Y=f(1.5)=1
w1(1) = 0 (-1) = 1
w2(1) = 2 - 1 = 1
(1) = -0.5 - 1 = -1.5
Y=1
Y=f(-2.5)=-1
Bien clasificado
Mal clasificado
Y=f(-1.5)=-1
Bien clasificado
Bien clasificado
Un hiperplano solucin es: x1 + x2 -1.5 = 0
11

(-1,1)
El hiperplano se mueve de
una iteracin a otra para
clasificar correctamente los
patrones
(1,1)
iteracin1
iteracin2
(1,-1)
(-1,-1)
inicial
12
Perceptron simple. Parada Aprendizaje

Criterio de Parada: Perceptron Simple
Criterio 1: Fijar un nmero de ciclos mximo. Generalmente se elige el
PS que proporciona mayor porcentaje de xito en la clasificacin de los
patrones de entrenamiento. No necesariamente es el PS obtenido en el
ltimo ciclo
Criterio 2: Cuando el porcentaje de xito en la clasificacin de los
patrones de entrenamiento no cambia durante x ciclos
Nunca se puede utilizar un conjunto de test para decidir cuando parar el
aprendizaje.
Criterio 3: S se puede utilizar un conjunto de validacin, que
correspondera con una porcin aleatoria del conjunto de
entrenamiento. En este caso, el criterio sera: cuando el mejor
porcentaje de xito sobre los patrones de validacin no aumenta o se
mantiene estable a lo largo de x ciclos.
13
Perceptron simple
Ley de aprendizaje con razn o tasa de aprendizaje
wi (t+1) = wi (t) + d(x) xi (t+1) = (t) + d(x)
donde es un nmero real 0 < < 1
Controla el cambio que sufren los pesos de una iteracin a otra
14
ADALINE:ADAptive LInear NEuron
Desarrollado en 1960 por Widrow y Hoff
Estructura prcticamente idntica al perceptron, salida nmero real
Elemento combinador adaptativo lineal, que recibe todas las entradas, las
suma ponderadamente, y produce una salida
x1
w1
x2
w2
..
xn
wn
15
ADALINE
La diferencia con el perceptron es la manera de utilizar la salida en la regla

de aprendizaje
El perceptron utiliza la salida de la funcion umbral (binaria) para el

aprendizaje. Slo se tiene en cuenta si se ha equivocado o no.
En Adaline se utiliza directamente la salida de la red (real) teniendo en

cuenta cunto se ha equivocado.
Se utiliza la diferencia entre el valor real esperado y la salida producida de

la red.
Para un patrn de entrada xp, se tendr en cuenta el error producido (dp-yp), siendo
dp la salida deseada e yp la salida del ADALINE
El objetivo es obtener una red tal que yp dp para todos los patrones p
16
ADALINE
Ser imposible conseguir una salida exacta porque y es una funcin lineal,
pero se minimizar el error cometido para todos los patrones de
entrenamiento
Hay que elegir una medida de dicho error, p.ej.el error cuadrtico
La regla de aprendizaje es la REGLA DELTA
y
x2
x1
17
ADALINE. Regla Delta
Los patrones de entrenamiento estn constituidos por pares de valores

(xp, dp). xp vector de entrada; dp su salida deseada (nmero real)
EL aprendizaje se lleva a cabo utilizando la diferencia entre la salida

producida para cada patrn (p) y la deseada
(d p y p )
Se calcula una funcin de error para todo el conjunto de patrones.

Generalmente el error cuadrtico medio para los patrones de
entrenamiento
Error global
Error cuadrtico por patrn
18
La regla Delta busca el conjunto de pesos que minimiza la funcin de error
Se har mediante un proceso iterativo donde se van presentando los

patrones uno a uno y se van modificando los parmetros de la red
mediante la regla del descenso del gradiente
wj (t+1) = wj (t) +p wj
La idea es realizar un cambio en cada peso proporcional a la derivada del

error, medida en el patrn actual, respecto del peso:
siendo la tasa o razn de aprendizaje

19
20
Aplicando la regla de la cadena queda:
Ep =
1 p
(d y p ) 2
2
yp=w1x1++wjxj +wnxn+
1
2 (d p y p ) (1) = (d p y p )
2
y p
= xj
w j
p wj = (d p y p ) x j
21
ADALINE. Proceso de Aprendizaje

Paso 1: Inicializar los pesos de forma aleatoria
Paso 2: Presentar un patrn de entrada
Paso 3: Calcular la salida, compararla con la deseada y obtener la diferencia: (dp - yp)
Paso 4: Para todos los pesos, multiplicar dicha diferencia por la entrada correspondiente
y ponderarla por la tasa de aprendizaje
p wj = (d p y p ) x j
Paso 5: Modicar el peso sumando al valor antiguo la cantidad obtenida en 4)
wj (t+1) = wj (t) + p wj
Paso 6: Repetir los pasos 2, 3 y 4 para todos los patrones
Paso 7: Repetir los pasos 2,3,4,5 y 6 tantos ciclos hasta cumplir el criterio de parada
22
ADALINE. Parada Aprendizaje

Criterio de Parada: Adaline
Criterio 1: Fijar un nmero de ciclos mximo. Dicho nmero debe
garantizar que el error cuadrtico para los patrones de entrenamiento
se haya estabilizado.
Criterio 2: Cuando el error cuadrtico sobre los patrones de
entrenamiento no cambia durante x ciclos
Nunca se puede utilizar un conjunto de test para decidir cuando parar el
aprendizaje.
Criterio 3: S se puede utilizar un conjunto de validacin, que
correspondera con una porcin aleatoria del conjunto de
entrenamiento. En este caso, el criterio sera: cuando el error
cuadrtico sobre los patrones de validacin no aumenta o se mantiene
estable a lo largo de x ciclos.
23
Perceptron Vs. Adaline

En el Perceptron la salida es binaria, en el Adaline es real
En Adaline existe una medida de cunto se ha equivocado la red, en
Perceptron slo de si se ha equivocado o no
En Adaline hay una razn de aprendizaje que regula lo que va a afectar
cada equivocacin a la modificacin de los pesos. Es siempre un valor
entre 0 y 1 para ponderar el aprendizaje
En Perceptron tambin se podra utilizar la razn de aprendizaje, pero no
pondera el error, solo amortigua el valor de al salida deseada, produciendo
cambios menos bruscos de un ciclo a otro en el hiperplano
El Perceptron sirve para resolver problemas de clasificacin lineal, mientras
el Adaline para problemas de regresin lineal
24
Adaline. Ejemplo
Decodificador binario-decimal
Aproximar con Adaline la funcin que
realiza la decodificacin binario-decimal
Tasa de aprendizaje 0.3
Valores iniciales para los pesos:
w1=0.84
w2=0.39
x1
x2
x3
w3=0.78
25
Problemas no linealmente separables

Funcin XOR (OR exclusivo): No existe un hiperplano.
Solucin combinar varios Perceptrones
x1
x2
d(x)
-1
-1
1
1
-1
1
-1
1
1
-1
-1
1
-0.8
(-1,-1)
Perceptrn 1
-0.4
1
1
-2.5
1
(-1,1)
(1,1)
(1,-1)
Perceptrn 2
Perceptrn 3
-1
2
26

Perceptrn 1
x1
x2
d(x)
-1
-1
1
1
-1
1
-1
1
1
-1
-1
1
Perceptrn 2
Perceptrn 3
Perceptron1
Perpertron2
Perceptron3
(-1 -1)
-1
(-1 1)
-1
(1 -1)
-1
-1
-1
(1 1)
-1
27

Esta aproximacin puede ser complicada de llevar a cabo en al prctica, pues
la ley de aprendizaje no es aplicable y los pesos tendran que ser
determinados mediante un proceso manual
Salida Entrada a
deseada clasificar
La ley de aprendizaje no es aplicable
wi(t+1) = wi(t) + d(x) xi

28
Clasificacin Lineal
Dado un conjunto de ejemplos o patrones, determinar el hiperplano
capaz de discriminar los patrones en dos clases
Dado
(x1=(x11, ..., x1 n), Clase )

(x2=(x21, ..., x2 n), Clase )
(xm=(xm1, ..., xm n), Clase )

Encontrar
Hiperplano separador
Resolucin con el Perceptron Simple
29
Regresin Lineal
Dado un conjunto de ejemplos o patrones, determinar una funcin lineal
que aproxime lo mejor posible a los valores deseados
Dado
(x1=(x11, ..., x1 n), y1 )

F(x)
y
(x2=(x21, ..., x2 n), y2)
(xm=(xm1, ..., xm n), ym )

Encontrar
Una funcin F(x) tal que F(xp) yp

Resolucin con el Adaline
30

Material de Clase. Tema 2

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Material de Clase. Tema 2

Cargado por

Copyright:

Formatos disponibles

Universidad Carlos III de Madrid

REDES DE NEURONAS ARTIFICIALES. INS M. GALVN, JOS M VALLS

Primeros Modelos Computacionales

REDES DE NEURONAS ARTIFICIALES. INS M. GALVN, JOS M VALLS

Modelo propuesto por Rosenblatt en 1959

Sistema capaz de realizar tareas de clasificacin de forma automtica

A partir de un nmero de ejemplos

REDES DE NEURONAS ARTIFICIALES. INS M. GALVN, JOS M VALLS

Perceptron simple. Arquitectura

REDES DE NEURONAS ARTIFICIALES. INS M. GALVN, JOS M VALLS

Perceptron simple. Arquitectura

El perceptron equivale a un hiperplano de dimensin

La ecuacin del hiperplano es:

REDES DE NEURONAS ARTIFICIALES. INS M. GALVN, JOS M VALLS

Perceptron simple. Arquitectura

La ecuacin del hiperplano es:

En dos dimensiones el hiperplano es una recta

REDES DE NEURONAS ARTIFICIALES. INS M. GALVN, JOS M VALLS

Perceptron simple. Aprendizaje

Se dispone de un conjunto de observaciones (puntos) de los que se

Las observaciones o ejemplos (datos) son puntos en un espacio

Hay que determinar la ecuacin del hiperplano que deja a un lado

La ecuacin del hiperplano se deduce a partir de los ejemplos o

REDES DE NEURONAS ARTIFICIALES. INS M. GALVN, JOS M VALLS

Perceptron simple. Aprendizaje

Proceso iterativo supervisado

Nmero finito de iteraciones

Vector de entrada: x=( x1, x2 , ..., xn )

( w1, w2 , ..., wn, ) tales que

Salida deseada: d(x)

REDES DE NEURONAS ARTIFICIALES. INS M. GALVN, JOS M VALLS

Perceptron simple. Aprendizaje

wi (t+1) = wi (t) + d(x) xi (t+1) = (t) + d(x)

Paso 4: Se vuelve al paso 2 hasta completar el conjunto de patrones de entrenamiento

Perceptron simple. Ejemplo

REDES DE NEURONAS ARTIFICIALES. INS M. GALVN, JOS M VALLS

Perceptron simple. Ejemplo

Un hiperplano solucin es: x1 + x2 -1.5 = 0

REDES DE NEURONAS ARTIFICIALES. INS M. GALVN, JOS M VALLS

Perceptron simple. Ejemplo

REDES DE NEURONAS ARTIFICIALES. INS M. GALVN, JOS M VALLS

Perceptron simple. Parada Aprendizaje

REDES DE NEURONAS ARTIFICIALES. INS M. GALVN, JOS M VALLS

ADALINE:ADAptive LInear NEuron

Desarrollado en 1960 por Widrow y Hoff

Estructura prcticamente idntica al perceptron, salida nmero real

REDES DE NEURONAS ARTIFICIALES. INS M. GALVN, JOS M VALLS

La diferencia con el perceptron es la manera de utilizar la salida en la regla

El perceptron utiliza la salida de la funcion umbral (binaria) para el

En Adaline se utiliza directamente la salida de la red (real) teniendo en

Se utiliza la diferencia entre el valor real esperado y la salida producida de

REDES DE NEURONAS ARTIFICIALES. INS M. GALVN, JOS M VALLS

ADALINE. Regla Delta

Los patrones de entrenamiento estn constituidos por pares de valores

EL aprendizaje se lleva a cabo utilizando la diferencia entre la salida

Se calcula una funcin de error para todo el conjunto de patrones.

Error cuadrtico por patrn

REDES DE NEURONAS ARTIFICIALES. INS M. GALVN, JOS M VALLS

ADALINE. Regla Delta

La regla Delta busca el conjunto de pesos que minimiza la funcin de error

Se har mediante un proceso iterativo donde se van presentando los

La idea es realizar un cambio en cada peso proporcional a la derivada del

siendo la tasa o razn de aprendizaje

ADALINE. Regla Delta