Está en la página 1de 97

RNA simple capa.

capa

Dr. Valery Moreno.


Dr Moreno
Septiembre 2012.
I t d ió
Introducción
• Actualmente estas redes simple capa se
siguen utilizando aunque casi exclusivamente
han quedado confinadas al campo de la
clasificación
l ifi ió de d patrones.
t
– Una de las primeras aplicaciones serias en este
campo fue la que propuso en 1963 Donald Specht
(estudiante de Widrow) quien desarrolló una red
que, con 46 entradas decía si un EKG
(electrocardiograma) era normal o anormal.
CARACTERISTICAS COMUNES.
ARQUITECTURA

• La arquitectura básica para las R.N. más


simples que se pueden diseñar para la
clasificación de patrones consiste en:
– una capa de nodos de entrada Æ dimensión
depende de los componentes que tenga el patrón
que se quiere clasificar
– una unidad o neurona de salida.
A it t
Arquitectura
A it t y ffunción
Arquitectura ió dde activación
ti ió
• La entrada cuyo valor es uno se conoce como
neurona independiente o bias point.
point Esta
entrada actúa exactamente igual a como actúa
ell peso de
d lal conexión
ió de
d una neurona
cualquiera considerando que la activación
siempre es 1.
A it t y ffunción
Arquitectura ió dde activación
ti ió
A it t y ffunción
Arquitectura ió dde activación
ti ió
C
Comentarios
t i
• Estas expresiones son, en general,
equivalentes aunque con algunas diferencias
que decidirán el uso de una u otra.
• Sin pérdida de generalización se puede
analizar considerando un espacio
p de entrada
de dos neuronas (y una función sencilla como
las funciones lógicas) Æ dos regiones,
regiones una
positiva y otra negativa.
R
Representación
t ió gráfica
áfi
A áli i
Análisis
A áli i E
Análisis. Entrenamiento.
t i t
• 1er caso: la red ajusta los parámetros W1, W2 y
b
• 2do caso: W1 y W2 Se puede observar de la
ecuación anterior que la línea puede pasar muy
ppróxima al origen
g ppero no ppor el origen.
g
A áli i
Análisis
• Como conclusión al anterior análisis, se puede
destacar que no proporciona ventajas el incluir
tanto un bias como un umbral de disparo
dif
diferente
t de
d cero. Por
P otrat parte,
t ell prescindir
i di
de ambos implica que la recta pasará por el
origen lo que puede no ser deseable en algún
pproblema en pparticular.
Ej
Ejemplos
l
Ej
Ejemplos
l
F ió dde activación
Función ti ió
• En clasificación de patrones como lo que se obtiene es
una de dos pposibles respuestas,
p la función de activación
más utilizada es la función paso unitario bipolar.
• La frontera de decisión ppara una regióng o neurona en
particular será pues determinada por la relación:
b + ∑ wi xi = 0
Dependiendo de la cantidad de elementos esta ecuación
representará
p una línea,, un pplano o un hiperplano.
p p
F ió dde activación
Función ti ió
F(a) F(a)

1 1

a - b/w a
-1 -1
S
Separabilidad
bilid d lilineall
• Un problema es “linealmente separable” si
todos los vectores de entrada de
entrenamiento cuya respuesta correcta sea
+1 está
tá a un lado
l d de
d la
l frontera
f t d decisión
de d i ió
y para todos los vectores de entrenamiento
cuya respuesta correcta sea –1 están del
otro lado de esa misma frontera de decisión.
Ej
Ejemplo
l
C l l d
Calculando….
• La recta X2=-X1+1 puede por ejemplo tener b=-
1 W1=1 y W2=1.
1, =1 El signo de b se determina por
la expresión b + w x + w x < 0
i i 2 2

• Para hallar o calcular el signo de b se puede


usar cualquier
q ppunto qque este fuera de la región
g
de decisión, y es muy conveniente el origen
cuando no está.
está (Note la importancia del bias
en este ejemplo)
b + wi • 0 + w2 • 0 < 0 ⇒ b <0
Li it ió de
Limitación d llas redes
d simple
i l capa.
• Veamos un ejemplo en los que no se puede encontrar una
región
g de decisión qque resuelva el pproblema pplanteado con
una red simple capa.
Función XOR
Entrada (X1,X2) Salida
(1 1)
(1,1) -11
(1,-1) +1
( 1 1)
(-1,1) +1
(-1,-1) -1
El problema del XOR (Marvin Minsky y Seymour
Papert (1969))
REPRESENTACIÓN DE LOS
DATOS:
• La representación de dos estados se puede hacer con
los datos de entrenamiento en forma binaria y en
forma bipolar. La forma de los datos puede cambiar un
pproblema
ob e a y co
convertirlo
e o de uunoo que se puede resolver
eso e
en uno que no se puede resolver. La representación
binaria también atenta contra la capacidad
p de
generalización de la RED. En general es más
recomendable el uso de funciones y representaciones
p
bipolares que de la binaria.
RED HEBB
• Esta red se basa en el principio planteado por
Hebb:
– Se debe modificar el peso de la conexión si dos
neuronas interconectadas
i t t d se activan,
ti y en
específico, aumentarlo.
– En un inicio lo planteó para dos neuronas que se
activaran simultáneamente, pero se realizó una
extensión a esta idea que lo hace más potente
computacionalmente.
R d Hebb
Red H bb
• Una red Hebb es una red feed fodward simple capa
entrenada con la regla de Hebb (extendida).
• Si los datos se representan de forma bipolar, es fácil
expresar
p la actualización de los ppesos como:
Wi(nuevo)=Wi(viejo)+Xi * Y.
Si los datos son binarios,
binarios la fórmula no distingue
cuando la entrada está activada (on) y la salida no
(off) y cuando ambos están en off.
off
Al it
Algoritmo:
Paso 0: Inicialización de todos los pesos.
Wi=00 (i=1
(i 1 hasta N)
Paso 1: Para cada vector de entrada de
entrenamiento y para su salida, par S:T,
realizar pasos 22–44.
Paso 2: Fijar activación para unidades de
entrada:
t d
Xi=S
Si ((i=1 hasta
asta N))
Al it
Algoritmo:
Paso 3: Fijar activación para salida Y=T
Paso 4: Ajustar los pesos para Wi(nuevo)
(nuevo)=W
Wi(viejo)
(viejo)+X
Xi * Y
(para i=1 hasta N)
Ajustar el bias b(nuevo)
b(nuevo)=b(viejo)+Y
b(viejo)+Y

La actualización de los pesos también puede expresarse de


forma vectorial como:

W(nuevo)=W(viejo)+X * Y
Al it
Algoritmo:
En términos del incremento/decremento
(variación) del peso de la forma:

W(nuevo)=W(viejo)+∆W
W( d d ∆W=X*Y.
) W( i j )+∆W donde ∆W X*Y
Hay varios métodos para implementar la regla
Hebb para aprendizaje. El algoritmo
anteriormente ppropuesto
p requiere
q un solo ppaso
a través de los vectores de entrenamiento.
Ej
Ejemplo:
l
Ej
Ejemplo….
l
Según plantea el algoritmo, los pesos nuevos
serán la suma del peso viejo más la variación.
variación
Luego si se desarrolla el algoritmo se obtiene
( 1 1 2 1 T 1 w1,w2
(x1=1,x2=1,T=1, 1 2 y b inicialmente
i i i l t = 0):
0)
x1 x2 1 t ∆ω1 ∆ω2 ∆b ω1 ω2 b
1 1 1 1 1 1 1 1 1 1
P ell resto
Para t de
d los
l valores
l d entrada
de t d y salida
lid
como son cero no se producirán
actualizaciones en los valores de W1, W2 y b.
Ej
Ejemplo:
l
• La región de decisión que se forma quedará:
X2= -XX1-1.
1.
• Para el primer patrón si se representa
gráficamente se verá que es correcto,
correcto sin
embargo si se siguen calculando para los
demás se observa que los pesos no varían (la
red no aprende) pues la salida es cero. Este es
un ejemplo en el cuál una función binaria no
resuelve el problema, así como tampoco una
representación binaria.
binaria
Ej
Ejemplo…
l solución…
l ió
• Veamos pues como se puede resolver el problema:
• Primero: Realizando una selección de la salida en lugar g
de binaria, bipolar (resolverlo así). (se verá que tampoco
es solución).
• Segundo:
S Ambos bipolares. (Resolverlo
( asíí y se veráá que
sí es solución.)
• Es necesario e importante destacar que q e una na de las
grandes limitaciones de este algoritmo es la
imposibilidad de aprender cualquier patrón cuya salida sea
cero. Por tanto al menos, debemos convertir esta en
bipolar (+1 y -1).
P
Perceptrón.
t ó Antecedentes
A t d t
• La red tipo Perceptrón fue inventada por el
psicólogo Frank Rosenblatt en el año 1957.
1957
• Su intención era ilustrar algunas propiedades
fundamentales de los sistemas inteligentes en
ggeneral,, sin entrar en detalles con respecto
p a
condiciones específicas y desconocidas para
organismos biológicos concretos.
concretos
……
• Rosenblatt creía que la conectividad existente
en las redes biológicas tiene un elevado
porcentaje de aleatoriedad Æ se oponía al
análisis
áli i de
d McCulloch
M C ll h Pitts.
Pitt
• Lo llevó a una teoría de separabilidadp
estadística que utilizaba para caracterizar las
propiedades más visibles de estas redes de
interconexión ligeramente aleatorias.
……………………
• El primer modelo de Perceptrón fue
g imitando
desarrollado en un ambiente biológico
el funcionamiento del ojo humano y se le llamó
fotoperceptrón.
fotoperceptrón
• El Perceptrón era inicialmente un dispositivo de
aprendizaje,
di j en su configuración
fi ió inicial
i i i l no
estaba en capacidad de distinguir patrones de
entrada muy complejos, sin embargo mediante
un proceso de aprendizaje era capaz de
adquirir esta capacidad.
………………………….
• En esencia, el entrenamiento implicaba un
proceso de refuerzo mediante el cual la salida
de las unidades A se incrementaba o se
d
decrementaba
t b dependiendo
d di d ded sii las
l unidades
id d
A contribuían o no a las respuestas correctas
del Perceptrón para una entrada dada.
Ej
Ejemplo
l
• Se aplicaba una entrada a la retina, y el
estímulo se propagaba a través de las capas
hasta que se activase una unidad de respuesta.
Si se había
h bí activado
ti d la
l unidad
id d de
d respuestat
correcta, se incrementaba la salida de las
unidades A que hubieran contribuido. Si se
activaba una unidad R incorrecta,, se hacía
disminuir la salida de las unidades A que
hubiesen contribuido.
contribuido
A it t
Arquitectura
• La regla de aprendizaje del perceptrón es más
poderosa que la regla de Hebb. Hebb Bajo
condiciones favorables, es un procedimiento de
aprendizaje
di j interativo
i t ti que converge a una
solución en los pesos si ellos existen.
Típicamente, los perceptrones originales tenían
p , una de entrada,, una intermedia
3 capas,
llamada asociadora y otra de salida. Veremos
la variante simple capa.
capa
R
Representación
t ió gráfica
áfi
F ió dde activación
Función ti ió
• La función de activación para esa capa
intermedia es binaria (0 ó 1) pero la salida del
perceptrón se toma con la función de
activación:
ti ió
⎧1 si y_in > θ

⎪⎪
f(y_in) = ⎨0 si - θ ≤ y_in ≤ θ


⎪⎩- 1 si y_in < - θ
E t
Entrenamiento
i t (supervisado)
( i d )
• Los pesos de la capas intermedia a la de salida se ajusta
según
g la regla
g de aprendizaje
p j del pperceptrón.
p Para cada
patrón de entrada se calcula la salida. Se determina el
error que ocurrió para este patrón comparando la salida
calculada con la deseada:
– La red no distingue cuando es (0,-1) ó (1,-1). Para ambos casos,
ell signo
i d l error indicará
del i di á que los
l pesos deberán
d b á cambiarse
bi en la
l
dirección indicada por el valor deseado.
– Solamente los pesos de las conexiones cuya salida sea desigual
de cero podrán ajustarse pues solo ellos contribuyen al error.
E t
Entrenamiento
i t
Los pesos se ajustan de acuerdo a la fórmula:
Wi(nuevo)=W
(nuevo) Wi(viejo)+α*T*X
(viejo)+ *T*Xi
donde:
t es +1 ó -1 y α: Razón de aprendizaje.

El entrenamiento continúa hasta qque no ocurran


errores.
Al it
Algoritmo:
• El algoritmo mostrado aquí es utilizable para
vectores de entradas binarios o bipolares con
salida bipolar, umbral θ fijo y bias ajustable.
C
Como b l θ no juega
ell umbral j ell mismo
i papell que
en la neurona de McCulloch-Pitts ni en la red
Hebb, debe incluirse siempre junto al bias. Los
ppesos ppueden iniciarse aleatoriamente ppues el
algoritmo no es sensible a esto.
Al it
Algoritmo:
Cuando la red no retorna la salida correcta, es
necesario alterar el valor de los pesos, tratando de
llevarlo hasta p y así aumentar las posibilidades de que la
cclasificación
as cac ó sea co correcta,
ec a, uunaa pos
posibilidad
b dad es ad adicionar
co a p
a w haciendo que el vector w apunte en la dirección de p,
y de esta forma después
p de repetidas
p ppresentaciones de
p a la red, w se aproximará asintoticamente a p; este es
el pprocedimiento adoptado
p ppara la regla
g de aprendizaje
p j
del Perceptrón.
Al it
Algoritmo:
Al it
Algoritmo:
Al it
Algoritmo:
Al it
Algoritmo:
Paso 6 Probar y evaluar condición de parada. Si no
cambiaron pesos en el paso 2,
parar sino continuar.

Notar que:
1. Solo las entradas activas (Xi <> 0) se actualizan.
2. Los pesos solo se actualizan cuando el patrón no
produce una salida correcta de y. Esto significa que si hay
más
á patrones
t d entrenamiento
de t i t que producend una
respuesta correcta, menos aprendizaje ocurre.
C
Comentarios…
t i
El umbral de la función activación es fijo, con un
valor no negativo θ.
θ
Es de destacarse que si representamos la función
AND con un perceptrón se observarán dos
rectas debido a la función de activación,, es ppor
eso que aquí θ no tiene relación con el bias,
pues un corrimiento del umbral provoca una
variación en el ancho de las líneas y no solo en
su posición.
posición
C
Comentarios…
t i
Ej
Ejemplos:
l

Solución para una función AND y una OR


Cl ifi lletra(s)
Clasificar t ( )

Las salidas tendrán una neurona con 1 ó –1 si se


quiere identificar la A.
A En la capa de entrada habrá 63
neuronas (9 filas por 7 columnas me definen el
caracter) (E/I representar el problema con S:T)
caracter).
G
Generalización
li ió
• Se pueden utilizar los principios para que la red clasifique
otra letra, ppor ejemplo,
j p diferentes B qque le ppresentemos.
Debido al uso de una red simple capa los pesos de la
unidad de salida que identifica a la A no tienen ninguna
interacción con los posibles pesos que identifican a la B
por tanto, pudieran resolverse los problemas al mismo
ti
tiempo agregando d otra
t columna
l d pesos (vector)
de ( t ) para la l
B. Con esto se garantiza que si no es la A (digamos salida
igual -1)
1) la red no interprete que todo lo que no sea A
tiene que ser B, pues en la práctica sabemos que no es
así.
así
G
Generalización
li ió
• Extendiendo esta idea para el caso anterior,
pudiéramos identificar varias clases diferentes.
diferentes
Para esto hay que generalizar el algoritmo para
ell caso, muy útil y práctico,
á ti en que haya
h más
á
de una neurona en la capa de salida (R).
⎛ w 11 w 12 L w 1R ⎞
⎜ ⎟
⎜ w 21 w 22 L w 2R ⎟
W=⎜
L L L L
⎜ ⎟
⎜w L w SR ⎟⎠
⎝ S1 w S2
Al it Generalizado
Algoritmo G li d
Paso 0 Inicialización de los pesos y bias. (ahora el bias es un
vector) Wi,b = 0
Fijar la razón de aprendizaje α. (De la misma manera
que en el algoritmo descrito anteriormente).
Paso 1 Mientras que condición de parada sea falsa
realizar pasos 1 al 6
Paso 2 Para cada par de entrenamiento S:T realizar
pasos 3 al 5
P
Paso 3 Fij activación
Fijar ti ió de
d las
l neuronas de
d entrada
t d i=
1,..,n
Xi = Si
Al it Generalizado
Algoritmo G li d
Al it Generalizado
Algoritmo G li d
Paso 5 Actualizar los pesos y el bias si ocurrió un error para
el patrón.
p
J = 1,..,M; i = 1,..,N :
Si Tj <> Yj Wij(nuevo)
(nuevo)=w wij(viejo)+a
(viejo)+a*T
Tj*X
Xi
bj(nuevo)=bj(viejo)+α*Tj
Si no,
no no cambios.
cambios

Paso 6 Probar
P P b y evaluar l condición
di ió de
d parada.d Si no
cambiaron pesos en el paso 2, parar sino continuar.
Teorema de la convergencia
g de la regla
g
de aprendizaje del perceptrón.
Si existe un vector de pesos W* tal que
F(X(p)W*)=T(p)
F(X(p)W ) T(p) para todo p, entonces para
cualquier vector inicial w, la regla de aprendizaje
del pe
de perceptrón
cept ó coconvergerá
e ge á a uun vector
ecto de pesos
(no necesariamente único y no necesariamente w*)
que brinda la respuesta
q p correcta ppara todos los
patrones de entrenamiento, y esto lo hará en un
número finito de pasos.
p

Arbib, 1987; Minsky and Papert, 1988;Hertz, Krogh, Palmer


1991.
d lla ddemostración….
de t ió
• Si denotamos por m al mínimo, m= min{X•W*},
tomado sobre todos los vectores de
entrenamiento (Conjunto C) y a M como
máx {X 2
∀ X ∈C }
entonces :
∗ 2
M•W
k≤ 2
m
donde k es el número de la iteración final.
final
Ej
Ejemplo
l
………………..

Los valores iniciales asignados aleatoriamente son:


W = [− 0.7 0.2], b = [0.5]
It
Iteración
ió 0:
0
−b −b
= −2.5 = 0.71
w12 w11
It
Iteración
ió 1:
1
−b −b
= −0.75 = −1.136
w11 w12
It
Iteración
ió 4:
4
−b −b
= −0.15 = 0.27
w11 w12
Ot vez ell XOR
Otra XOR…
ADALINE
• Este modelo de red neuronal debe su nombre a
Widrow and Hoff,
Hoff quienes en 1960 crearon la
neurona lineal adaptativa (ADAptive LInear
NE
NEuron).)
• Típicamente
p utiliza activaciones bipolares(1,-1)
p ( , )
para sus señales de entrada y para la salida,
aunque no tiene porque necesariamente
restringiese a esos valores.
C
Características
t í ti G
Generales
l
• En general un ADALINE puede ser entrenado
utilizando la llamada regla DELTA,
DELTA también
conocida como LMS (Least Mean Squares) o
reglal de
d Widrow-Hoff.
Wid H ff
• Esta reglag ppuede usarse tanto ppara una
neurona en la capa de salida como para varias,
aunque el ADALINE se identifica como aquel
modelo que utiliza la regla delta con una sola
salida.
salida
C
Características
t í ti G
Generales
l
• La función de activación que se utiliza en la
capa de entrada es la función identidad y la de
la neurona de salida también.
• La regla de aprendizaje minimiza el error
cuadrático medio entre la activación (entrada
neta) y el valor de salida esperado.
esperado Esto,
Esto al
igual que en el perceptrón, permite a la red
seguir aprendiendo todos los patrones aun en
el caso en que se produzca una salida correcta
para algunos de los patrones.
patrones
C
Características
t í ti G
Generales
l
• Después que la red ha sido entrenada, si la red
se utilizara en clasificación de patrones (hasta
el momento la salida es continua pues sigue
una línea
lí recta),
t ) donde
d d se desea
d una salida
lid de
d
tipo bipolar, a la salida de la red se le aplica
entonces una función de activación umbral con
un offset igual
g a cero. Es necesario destacar
que este modelo de red solo sirve para modelar
aquellos problemas que sean linealmente
separables.
A it t
Arquitectura
• Un ADALINE es una unidad o nodo simple que
recibe señales de varios nodos de entrada.
entrada
También recibe señal de una unidad de entrada
cuya activación
ti ió siempre
i es +1(bias).
+1(bi ) El peso
asociado a esta neurona también se ajusta de
acuerdo a la regla de Widrow - Hoff.
A it t
Arquitectura
A it t
Arquitectura
• Varios de estos ADALINE pueden combinarse
en una red simple capa si las señales que
reciben las reciben de las misma capa de
entrada
t d (de
(d las
l mismas
i neuronas o de d un
subconjunto de estas) de la misma manera en
que lo puede realizar un perceptrón, o sea, se
ppuede extender el modelo del ADALINE ppara
una red feedforward más general con varias
neuronas ADALINE en la capa de salida.
salida
Al it
Algoritmo
Paso 0: Inicializar los pasos (Normalmente se
definen valores aleatorios pequeños).
Fijar razón de aprendizaje. (igual a los
casos anteriores)
Paso 1: Mientras CONDICIÓN – PARADA sea
FALSA realizar
li pasos 2-6.
26

Paso 2: Para cada par de entrenamiento bipolar


s:t realizar paso 33-55.
s:t,
Algoritmo
Paso 3: fijar activación(salida) de las neuronas de
entrada, i=1....n;

Xi = Si
Paso 4: Calcular entrada neta y salida del ADALINE
Algoritmo
Paso 5: Actualizar bias y pesos, i = 1,....,n:

Paso 6: Probar la condición de PARADA


Si el mayor cambio de peso que ocurre en PASO 2 es
más pequeño que cierta tolerancia,
tolerancia entonces PARAR;
si no continuar.
Ob
Observaciones
i
• El algoritmo anterior no trabaja sobre la base
del error cuadrático medio pero es una buena
aproximación para α << 1
• Para este tipo de red fijar la razón de
p j a un valor adecuado implica
aprendizaje p tener
en cuenta la correlación entre los componentes
del vector de entrada de aprendizaje.
aprendizaje
Ob
Observaciones
i
• De acuerdo a Hecht-Nielsen (1990), se puede
fijar una frontera o limite superior para el valor
de α a partir del valor propio más grande de la
matriz
t i de
d correlación
l ió R de d los
l vectores
t d
de
entrada(columnas).
Esta matriz queda definida como:
Ob
Observaciones
i
Ob
Observaciones
i
• No obstante, como R no necesita ser calculada
para actualizar los pesos,
pesos es común tomar un
pequeño valor para α (por ejemplo 0.1). Si se
escoge muy grande d ell proceso de
d aprendizaje
di j
no convergerá y si se toma un valor muy
pequeño será en extremo lento. Más adelante
veremos como ppara redes multicapasp de tipop
feed-forward se puede modificar de diferentes
maneras.
maneras
Observaciones
• Relativo al Learning–Rate (Razón de
aprendizaje) se puede definir también su
aprendizaje),
valor de forma empírica tomando en cuenta la
experiencia
i i de d varios
i autores
t y simulaciones
i l i
realizadas:

0.1 ≤ n ⋅ α ≤ 1
I t
Interpretación
t ió G Geométrica
ét i
• La razón de aprendizaje influye en el paso de
ese incremento o modificación de los pesos. Si
es >>1 tiende a oscilar y si es muy chiquito
varia muy poco.
• El valor concreto de la razón de aprendizaje
influye en alcanzar o no la cota de error fijada.
fijada
• El escoger una razón de aprendizaje no
significa
i ifi ll
llegar a error cero, pues eso no
depende del algoritmo sino de la definición que
se haga de la arquitectura.
COMO APLICAR EL ADALINE.
ADALINE
• El ADALINE no utiliza una función de altivación
en la salida que varíe la entrada neta a ella.
ella
• Problemas donde la salida no puede ser
continua sino entre 2 o más valores pero finitos
y ppequeños
q ((2 clasificación,, ppocos en
asociación de patrones, etc.), para aplicarla
solo es necesario propagar el vector
presentado y evaluar la salida neta en una
función de activación diferente de la identidad.
identidad
COMO APLICAR EL ADALINE.
ADALINE
• La que más se utiliza es la umbral como
habíamos mencionado anteriormente,
anteriormente y se
usara de acuerdo al siguiente algoritmo:
Paso 0: calculo de los pesos
Paso 1: para cada vector de entrada bipolar x
hacer paso 2 – 4.
P
Paso 2 fijar
2: fij Activación
A ti ió ded los
l nodosd ded entrada
t d a
x.
COMO APLICAR EL ADALINE.
ADALINE
Paso 3: calcular entrada neta para la unidad de salida:
C l i
Conclusiones ddell ADALINE
• El perceptrón produce un mayor error que el
ADALINE y por tanto hay mayor probabilidad de
que, para un vectort cualquiera
l i con ell cuall la
l redd no
fue entrenada, se produzca un error en el perceptrón
en comparación con el ADALINE.
ADALINE
• La RED puede aprender bien todos los patrones
incluso para caso en los que el error no sea cero.
cero
• El algoritmo de entrenamiento se puede modificar
para incluir el error cuadrático medio.
medio
C l i
Conclusiones ddell ADALINE
• El que el error no sea cero no implica que la
RED no se halla entrenado correctamente, sin
embargo, un error grande disminuye la
capacidad de generalización de la RED.
• Si la cota de error se fija en cero o en un valor
muy pequeño,
pequeño el algoritmo puede no
converger nunca, de forma que pudiera
ponerse otra condición de parada adicional
que incluya un número de iteraciones finito.
C l i
Conclusiones ddell ADALINE
• El coeficiente o razón de aprendizaje, no se
fija de forma arbitraria e influye en el
entrenamiento de la red, siendo importante no
considerarlo ni muy grande ni muy pequeño.
• Se puede establecer una metodología que
vaya disminuyendo el error durante diferentes
“fases” de entrenamiento hasta encontrar un
valor adecuado.
adecuado Esto se haría de forma
interactiva y la duración será proporcional al
error final al que se quiera llegar.
llegar
C l i
Conclusiones ddell ADALINE
• La regla Delta se basa en ajustar los pesos de la red de
forma tal qque el error se minimice, o sea, la diferencia
entre la entrada neta a la unidad de salida y la salida
deseada. La clave es tratar de minimizar el error sobre
todos los patrones de entrenamiento. No obstante, esto
debe ir acompañado por la reducción del error para cada
patrón,
t ó uno a uno. Hay H variantes
i t en la l literatura
lit t que
también pueden usarse, estas variantes se conocen como
actualización por lotes,
lotes y consiste en corregir los pesos
para grupos de patrones en lugar de uno a uno.
Relación
e ac ó eentre
t e laa regla
eg a Delta
e ta y laa minimización
ac ó
del error cuadrático medio.
• Como se puede apreciar en el algoritmo, la
regla DELTA ajusta el peso I(para cada patrón)
de la forma : ∆WI = (t − y _ in) • XI

donde: x: vector de entrada,


entrada de dimensión n.n
y_in: entrada neta a la neurona de salida y.
n
y _ in = ∑ x w i i
i =1
Relación
e ac ó eentre
t e laa regla
eg a Delta
e ta y laa minimización
ac ó
del error cuadrático medio.
• El error cuadrático para un patrón de
entrenamiento específico es E = (t − y _ in) 2
• Donde :
E es una función de todos los pesos Wi, i=1...N.
Relación
e ac ó eentre
t e laa regla
eg a Delta
e ta y laa minimización
ac ó
del error cuadrático medio.
• El gradiente de E es el vector formado por las
derivadas parciales de E con respecto a cada
peso. El gradiente es muy importante pues da
l dirección
la di ió del
d l ascenso más á rápido
á id ded E.E La
L
dirección opuesta dará entonces el decremento
más rápido del error. Por tanto, el error puede
j
reducirse si se ajustan los ppesos wi en la
dirección
− ∂E / ∂wI
Relación
e ac ó eentre
t e laa regla
eg a Delta
e ta y laa minimización
ac ó
del error cuadrático medio.
Relación
e ac ó eentre
t e laa regla
eg a Delta
e ta y laa minimización
ac ó
del error cuadrático medio.
• Por tanto, el error se reducirá más rápidamente
(para una razón de aprendizaje definida)
ajustando los pesos de acuerdo a la regla delta,

∆WI = α • (t − y _ in) • X I
C
Comentarios
t i finales
fi l
• Para concluir pues con la regla delta, basta realizar
una ampliación de la misma para el caso muy útil en
que hay varias unidades de salida. Ahora los pesos se
ajustarán
ajus a á paparaa reducir
educ laa ddiferencia
e e c a eentree laa eentrada
ada
neta a la neurona de salida yj (y-inj) y la salida
deseada tj. La regla
g de Widrow-Hoff ppara ajustar j el
peso desde la entrada I-esima hasta la neurona de
salida J-ésima ppara cada ppatrón es:
∆WIJ = α • (t J − y _ inJ ) • XI
Ej i i P
Ejercicios Propuestos
t
• Derivar la expresión anterior a partir de la
explicación que se dió de la relación entre la
regla DELTA y el LSE.
• Modificar el algoritmo para que incluya varias
p de salida.
neuronas en la capa
C l i
Conclusiones.
• La arquitectura de las RNA simple capa es muy
parecida para los diferentes modelos.
• Se diferencian en lo fundamental en la forma
d entrenar.
de t
• Lo más significativo
g es la aparición
p de la regla
g
delta (widrow-hoff).
• No resuelven problemas que no son
linealmente separables, pero admiten varias
neuronas en la
l capa ded salida.
lid
EI
E.I
• Elaborar patrones de entrada/salida deseada
para el caso del ejemplo de reconocimiento de
caracteres. Considere dos clases de salida,
l t A y letra
letra l t E. E Introduzca
I t d varias
i tipografías
ti fí
diferentes y cierto nivel de ruido en cada una.

También podría gustarte