Explora Libros electrónicos
Categorías
Explora Audiolibros
Categorías
Explora Revistas
Categorías
Explora Documentos
Categorías
capa
1 1
a - b/w a
-1 -1
S
Separabilidad
bilid d lilineall
• Un problema es “linealmente separable” si
todos los vectores de entrada de
entrenamiento cuya respuesta correcta sea
+1 está
tá a un lado
l d de
d la
l frontera
f t d decisión
de d i ió
y para todos los vectores de entrenamiento
cuya respuesta correcta sea –1 están del
otro lado de esa misma frontera de decisión.
Ej
Ejemplo
l
C l l d
Calculando….
• La recta X2=-X1+1 puede por ejemplo tener b=-
1 W1=1 y W2=1.
1, =1 El signo de b se determina por
la expresión b + w x + w x < 0
i i 2 2
W(nuevo)=W(viejo)+X * Y
Al it
Algoritmo:
En términos del incremento/decremento
(variación) del peso de la forma:
W(nuevo)=W(viejo)+∆W
W( d d ∆W=X*Y.
) W( i j )+∆W donde ∆W X*Y
Hay varios métodos para implementar la regla
Hebb para aprendizaje. El algoritmo
anteriormente ppropuesto
p requiere
q un solo ppaso
a través de los vectores de entrenamiento.
Ej
Ejemplo:
l
Ej
Ejemplo….
l
Según plantea el algoritmo, los pesos nuevos
serán la suma del peso viejo más la variación.
variación
Luego si se desarrolla el algoritmo se obtiene
( 1 1 2 1 T 1 w1,w2
(x1=1,x2=1,T=1, 1 2 y b inicialmente
i i i l t = 0):
0)
x1 x2 1 t ∆ω1 ∆ω2 ∆b ω1 ω2 b
1 1 1 1 1 1 1 1 1 1
P ell resto
Para t de
d los
l valores
l d entrada
de t d y salida
lid
como son cero no se producirán
actualizaciones en los valores de W1, W2 y b.
Ej
Ejemplo:
l
• La región de decisión que se forma quedará:
X2= -XX1-1.
1.
• Para el primer patrón si se representa
gráficamente se verá que es correcto,
correcto sin
embargo si se siguen calculando para los
demás se observa que los pesos no varían (la
red no aprende) pues la salida es cero. Este es
un ejemplo en el cuál una función binaria no
resuelve el problema, así como tampoco una
representación binaria.
binaria
Ej
Ejemplo…
l solución…
l ió
• Veamos pues como se puede resolver el problema:
• Primero: Realizando una selección de la salida en lugar g
de binaria, bipolar (resolverlo así). (se verá que tampoco
es solución).
• Segundo:
S Ambos bipolares. (Resolverlo
( asíí y se veráá que
sí es solución.)
• Es necesario e importante destacar que q e una na de las
grandes limitaciones de este algoritmo es la
imposibilidad de aprender cualquier patrón cuya salida sea
cero. Por tanto al menos, debemos convertir esta en
bipolar (+1 y -1).
P
Perceptrón.
t ó Antecedentes
A t d t
• La red tipo Perceptrón fue inventada por el
psicólogo Frank Rosenblatt en el año 1957.
1957
• Su intención era ilustrar algunas propiedades
fundamentales de los sistemas inteligentes en
ggeneral,, sin entrar en detalles con respecto
p a
condiciones específicas y desconocidas para
organismos biológicos concretos.
concretos
……
• Rosenblatt creía que la conectividad existente
en las redes biológicas tiene un elevado
porcentaje de aleatoriedad Æ se oponía al
análisis
áli i de
d McCulloch
M C ll h Pitts.
Pitt
• Lo llevó a una teoría de separabilidadp
estadística que utilizaba para caracterizar las
propiedades más visibles de estas redes de
interconexión ligeramente aleatorias.
……………………
• El primer modelo de Perceptrón fue
g imitando
desarrollado en un ambiente biológico
el funcionamiento del ojo humano y se le llamó
fotoperceptrón.
fotoperceptrón
• El Perceptrón era inicialmente un dispositivo de
aprendizaje,
di j en su configuración
fi ió inicial
i i i l no
estaba en capacidad de distinguir patrones de
entrada muy complejos, sin embargo mediante
un proceso de aprendizaje era capaz de
adquirir esta capacidad.
………………………….
• En esencia, el entrenamiento implicaba un
proceso de refuerzo mediante el cual la salida
de las unidades A se incrementaba o se
d
decrementaba
t b dependiendo
d di d ded sii las
l unidades
id d
A contribuían o no a las respuestas correctas
del Perceptrón para una entrada dada.
Ej
Ejemplo
l
• Se aplicaba una entrada a la retina, y el
estímulo se propagaba a través de las capas
hasta que se activase una unidad de respuesta.
Si se había
h bí activado
ti d la
l unidad
id d de
d respuestat
correcta, se incrementaba la salida de las
unidades A que hubieran contribuido. Si se
activaba una unidad R incorrecta,, se hacía
disminuir la salida de las unidades A que
hubiesen contribuido.
contribuido
A it t
Arquitectura
• La regla de aprendizaje del perceptrón es más
poderosa que la regla de Hebb. Hebb Bajo
condiciones favorables, es un procedimiento de
aprendizaje
di j interativo
i t ti que converge a una
solución en los pesos si ellos existen.
Típicamente, los perceptrones originales tenían
p , una de entrada,, una intermedia
3 capas,
llamada asociadora y otra de salida. Veremos
la variante simple capa.
capa
R
Representación
t ió gráfica
áfi
F ió dde activación
Función ti ió
• La función de activación para esa capa
intermedia es binaria (0 ó 1) pero la salida del
perceptrón se toma con la función de
activación:
ti ió
⎧1 si y_in > θ
⎪
⎪⎪
f(y_in) = ⎨0 si - θ ≤ y_in ≤ θ
⎪
⎪
⎪⎩- 1 si y_in < - θ
E t
Entrenamiento
i t (supervisado)
( i d )
• Los pesos de la capas intermedia a la de salida se ajusta
según
g la regla
g de aprendizaje
p j del pperceptrón.
p Para cada
patrón de entrada se calcula la salida. Se determina el
error que ocurrió para este patrón comparando la salida
calculada con la deseada:
– La red no distingue cuando es (0,-1) ó (1,-1). Para ambos casos,
ell signo
i d l error indicará
del i di á que los
l pesos deberán
d b á cambiarse
bi en la
l
dirección indicada por el valor deseado.
– Solamente los pesos de las conexiones cuya salida sea desigual
de cero podrán ajustarse pues solo ellos contribuyen al error.
E t
Entrenamiento
i t
Los pesos se ajustan de acuerdo a la fórmula:
Wi(nuevo)=W
(nuevo) Wi(viejo)+α*T*X
(viejo)+ *T*Xi
donde:
t es +1 ó -1 y α: Razón de aprendizaje.
Notar que:
1. Solo las entradas activas (Xi <> 0) se actualizan.
2. Los pesos solo se actualizan cuando el patrón no
produce una salida correcta de y. Esto significa que si hay
más
á patrones
t d entrenamiento
de t i t que producend una
respuesta correcta, menos aprendizaje ocurre.
C
Comentarios…
t i
El umbral de la función activación es fijo, con un
valor no negativo θ.
θ
Es de destacarse que si representamos la función
AND con un perceptrón se observarán dos
rectas debido a la función de activación,, es ppor
eso que aquí θ no tiene relación con el bias,
pues un corrimiento del umbral provoca una
variación en el ancho de las líneas y no solo en
su posición.
posición
C
Comentarios…
t i
Ej
Ejemplos:
l
Paso 6 Probar
P P b y evaluar l condición
di ió de
d parada.d Si no
cambiaron pesos en el paso 2, parar sino continuar.
Teorema de la convergencia
g de la regla
g
de aprendizaje del perceptrón.
Si existe un vector de pesos W* tal que
F(X(p)W*)=T(p)
F(X(p)W ) T(p) para todo p, entonces para
cualquier vector inicial w, la regla de aprendizaje
del pe
de perceptrón
cept ó coconvergerá
e ge á a uun vector
ecto de pesos
(no necesariamente único y no necesariamente w*)
que brinda la respuesta
q p correcta ppara todos los
patrones de entrenamiento, y esto lo hará en un
número finito de pasos.
p
Xi = Si
Paso 4: Calcular entrada neta y salida del ADALINE
Algoritmo
Paso 5: Actualizar bias y pesos, i = 1,....,n:
0.1 ≤ n ⋅ α ≤ 1
I t
Interpretación
t ió G Geométrica
ét i
• La razón de aprendizaje influye en el paso de
ese incremento o modificación de los pesos. Si
es >>1 tiende a oscilar y si es muy chiquito
varia muy poco.
• El valor concreto de la razón de aprendizaje
influye en alcanzar o no la cota de error fijada.
fijada
• El escoger una razón de aprendizaje no
significa
i ifi ll
llegar a error cero, pues eso no
depende del algoritmo sino de la definición que
se haga de la arquitectura.
COMO APLICAR EL ADALINE.
ADALINE
• El ADALINE no utiliza una función de altivación
en la salida que varíe la entrada neta a ella.
ella
• Problemas donde la salida no puede ser
continua sino entre 2 o más valores pero finitos
y ppequeños
q ((2 clasificación,, ppocos en
asociación de patrones, etc.), para aplicarla
solo es necesario propagar el vector
presentado y evaluar la salida neta en una
función de activación diferente de la identidad.
identidad
COMO APLICAR EL ADALINE.
ADALINE
• La que más se utiliza es la umbral como
habíamos mencionado anteriormente,
anteriormente y se
usara de acuerdo al siguiente algoritmo:
Paso 0: calculo de los pesos
Paso 1: para cada vector de entrada bipolar x
hacer paso 2 – 4.
P
Paso 2 fijar
2: fij Activación
A ti ió ded los
l nodosd ded entrada
t d a
x.
COMO APLICAR EL ADALINE.
ADALINE
Paso 3: calcular entrada neta para la unidad de salida:
C l i
Conclusiones ddell ADALINE
• El perceptrón produce un mayor error que el
ADALINE y por tanto hay mayor probabilidad de
que, para un vectort cualquiera
l i con ell cuall la
l redd no
fue entrenada, se produzca un error en el perceptrón
en comparación con el ADALINE.
ADALINE
• La RED puede aprender bien todos los patrones
incluso para caso en los que el error no sea cero.
cero
• El algoritmo de entrenamiento se puede modificar
para incluir el error cuadrático medio.
medio
C l i
Conclusiones ddell ADALINE
• El que el error no sea cero no implica que la
RED no se halla entrenado correctamente, sin
embargo, un error grande disminuye la
capacidad de generalización de la RED.
• Si la cota de error se fija en cero o en un valor
muy pequeño,
pequeño el algoritmo puede no
converger nunca, de forma que pudiera
ponerse otra condición de parada adicional
que incluya un número de iteraciones finito.
C l i
Conclusiones ddell ADALINE
• El coeficiente o razón de aprendizaje, no se
fija de forma arbitraria e influye en el
entrenamiento de la red, siendo importante no
considerarlo ni muy grande ni muy pequeño.
• Se puede establecer una metodología que
vaya disminuyendo el error durante diferentes
“fases” de entrenamiento hasta encontrar un
valor adecuado.
adecuado Esto se haría de forma
interactiva y la duración será proporcional al
error final al que se quiera llegar.
llegar
C l i
Conclusiones ddell ADALINE
• La regla Delta se basa en ajustar los pesos de la red de
forma tal qque el error se minimice, o sea, la diferencia
entre la entrada neta a la unidad de salida y la salida
deseada. La clave es tratar de minimizar el error sobre
todos los patrones de entrenamiento. No obstante, esto
debe ir acompañado por la reducción del error para cada
patrón,
t ó uno a uno. Hay H variantes
i t en la l literatura
lit t que
también pueden usarse, estas variantes se conocen como
actualización por lotes,
lotes y consiste en corregir los pesos
para grupos de patrones en lugar de uno a uno.
Relación
e ac ó eentre
t e laa regla
eg a Delta
e ta y laa minimización
ac ó
del error cuadrático medio.
• Como se puede apreciar en el algoritmo, la
regla DELTA ajusta el peso I(para cada patrón)
de la forma : ∆WI = (t − y _ in) • XI
∆WI = α • (t − y _ in) • X I
C
Comentarios
t i finales
fi l
• Para concluir pues con la regla delta, basta realizar
una ampliación de la misma para el caso muy útil en
que hay varias unidades de salida. Ahora los pesos se
ajustarán
ajus a á paparaa reducir
educ laa ddiferencia
e e c a eentree laa eentrada
ada
neta a la neurona de salida yj (y-inj) y la salida
deseada tj. La regla
g de Widrow-Hoff ppara ajustar j el
peso desde la entrada I-esima hasta la neurona de
salida J-ésima ppara cada ppatrón es:
∆WIJ = α • (t J − y _ inJ ) • XI
Ej i i P
Ejercicios Propuestos
t
• Derivar la expresión anterior a partir de la
explicación que se dió de la relación entre la
regla DELTA y el LSE.
• Modificar el algoritmo para que incluya varias
p de salida.
neuronas en la capa
C l i
Conclusiones.
• La arquitectura de las RNA simple capa es muy
parecida para los diferentes modelos.
• Se diferencian en lo fundamental en la forma
d entrenar.
de t
• Lo más significativo
g es la aparición
p de la regla
g
delta (widrow-hoff).
• No resuelven problemas que no son
linealmente separables, pero admiten varias
neuronas en la
l capa ded salida.
lid
EI
E.I
• Elaborar patrones de entrada/salida deseada
para el caso del ejemplo de reconocimiento de
caracteres. Considere dos clases de salida,
l t A y letra
letra l t E. E Introduzca
I t d varias
i tipografías
ti fí
diferentes y cierto nivel de ruido en cada una.