Está en la página 1de 7

REGLA DELTA GENERALIZADA (BACKPROPAGATION) (Freeman) La Regla Delta o LMS era una regla de aprendizaje que se utilizaba para

entrenar un PE o una capa de PE, pero como se ha visto en algn ejemplo anterior, es posible que para resolver ciertos problemas necesit semos a!adir a la estructura alguna capa oculta" En ese caso, la Regla Delta no servir#a para el entrenamiento de la estructura$ % &onocemos la salida deseada para cada patr'n de entrenamiento" % (o conocemos la salida deseada para los PE de las capas ocultas" La Regla Delta Generalizada o Backpropagation )ue creada para generalizar la Regla Delta sobre Redes Neuronales de mltiples capas * funciones de transferencia no lineales y diferenciables" El aprendizaje es tambi+n Supervisado" Su utilizaci'n consiste en ajustar pesos * bias tratando de minimizar la suma del error cuadr tico" Esto se realiza de )orma cont#nua, cambiando dichas variables en la direcci'n contraria a la pendiente del error" Esto se denomina ,+cnica del -radiente Descendente" Redes (euronales entrenadas mediante esta regla, dan razonables respuestas cuando al sistema se le presentan entradas que no ha visto nunca" ,#picamente a una nueva entrada, le har corresponder una salida similar a la salida obtenida para un patr'n de entrenamienteo, siendo +ste similar al patr'n presentado a la red" .na de las grandes propiedades de este tipo de estructuras es su capacidad de Generalizacin.

Funcionamiento Bsico /% Se aplica un vector de entrada * se calculan sus correspondientes salidas" 0% Se determina una medida de error" 1% Se determina en que direcci'n se deben cambiar los pesos para minimizar dicho error" 2% Se determina la cantidad en que es preciso cambiar cada peso" 3% Se modi)ican los pesos" 4% Se repiten los pasos del / al 3 con todos los patrones de entrenamiento, hasta que el error para todos los vectores del conjunto de entrenamiento quede reducido a un valor aceptable"

(otaci'n$

neta

h pj

= wh ji x pi
i=5

ihpj = f netahpj 7
o o pj = f j 6netaopj 7

h 6 j

n% nmero de entradas de cada patr'n" h% indica la capa" p% indica el patr'n" j% PE j" 8ji% cone9i'n PE i 6capa h%/7 con PE j 6capa h7" :pj% salida PE j en la capa de salida" Ar uitectura !e Pesos Ca"a !e #a$i!a &omo en la capa de salida puede haber un n; </ de PE, en este caso no nos basta con un nico valor de error$

pk = 6 y pk o pk 7

El error que se debe minimiar es la suma de los cuadrados de los errores de todas las unidades de salida"
0 / n 0 / E p = 0 pk = 0 6 y pk o pk 7 k =/ k

f k 6netao Ep pk 7 E p = o = 6 y pk o pk 7 6 o o wkj neta pk 7 wkj 6netao pk 7 o o / / = 6 7 = io pj o o w kj i pj wkj wkj j


Todo implica que$
o 6 7 o/ E p = 6 y pk o pk 7 f o k neta pk i pk

De tal manera que los pesos en la capa de salida se modi)icar n de la siguiente manera$

o o wo kj 6t + /7 = w kj 6t 7 + p w kj 6t 7

p w

o kj 6t 7

o = 6 y pk o pk 7 f o 6 7 o/ k neta pk i pj

&ondici'n (E&ES=R>=$ ) debe ser derivable" Dos casos$ o o o o

f k 6netak 7 = netak f k

=/

o 6 7 = 6/+ e netao fo k7 k netak

fo = k

o 6/ f k 7 = o pk 6/ o pk 7 fo k

Sea$

o pk

= 6 y pk o pk 7 f k 6neta
o

o pk 7

= pk

f k 6netao pk 7

o o / wo kj 6t + /7 = w kj 6t 7 + pk i pj

(:,=$ Si quisi+semos que la Regla Delta -eneralizada )unccionase igual que la Regla Delta o m#nimos cuadrados, (: se cambiar#an los pesos hasta que se presentasen todos los patrones de entrenamiento al menos una vez" Se acumular#a el error de cada uno de ellos * se trabajar#a con +l al modi)icar los pesos" El error que se estar#a minimizando ser#a$

E minimi ado = E p
p =/

Ca"as Ocu$tas ?&omo determinamos los valores esperados de los PE en las capas ocultas@ Ep est relacionado con la salida de los PE en capas ocultas de la siguiente manera$
o 0 o h / / 6 y pk o pk 70 = / 6 y pk f o 6 netao 77 = 6 y pk f k 6 w kj i pj 77 pk k j 0 k 0 k 0 k !or otra parte$
0

Ep =

h h h h / ihpj = f j 6netah pj 7 = f j 6 w ji i pi 7 i

"e tal manera$

o pk 6netao netah Ep / ih 0 pk 7 pj pj y 6 7 = = 6 7 = o y pk o pk pk h h o h h h pk w ji 0 k w ji 6neta pk 7 i pj neta pj w ji k


o h = 6 y pk o pk 7 f o 6 7 o fh 6 7 h/ k neta pk w kj j neta pj i pi k

#on lo que$
h o 6 7 h / 6 y pk o pk 7 f o 6 7 o whji = f h j neta pj i pi k neta pk w kj k h o 6 7 h / whji = f h j neta pj i pi pk w kj o k

Las actualizaciones de los pesos en la capa oculta dependen de todos los t+rminos de errores de la capa de salida" Esto es a lo que se re)iere uno con el nombre de propagaci'n hacia atr s" h o h h o

pj = f j 6neta pj 7 pk wkj
k

Entonces$

whji 6t + /7 = whji 6t 7 + pj iih/


h

Los t+rminos de error de las unidades ocultas, se calculan antes de que ha*an sido modi)icado los pesos de cone9iones con las unidades de la capa de salida"

CON#IDERACIONE# PR%CTICA#

Datos !e entra!a (entrenamiento) En general se pueden emplear todos los datos disponibles para entrenar la red" &on cierta )recuencia, lo nico que se necesita es un peque!o subconjunto de datos que cubran todo el espacio de los mismos" La AP( admite bien la Generalizacin$ Dados varios vectores de entrada, pertenecientes a la misma clase, aprender la similitud e9istente entre ellos" Por otro lado, la A(P no e9trapola bien es decir, que si la red se entrena mal o insu)icientemente, las salidas pueden ser imprecisas" Ba* que asegurarse que los datos de entrenamiento cubran todo el espacio de entradas esperadas" La red se debe de entrenar seleccionando patrones de manera aleatoria, es mala t+cnica de entrenamiento presentar primero los patrones de una clase * luego los de otra$ la red se olvidar#a del entrenamiento inicial" Dimensionamiento !e $a Re! (o e9iste una respuesta sencilla para resolver esta cuesti'n" En general 1 capas son su)icientes, pero en ciertos casos, un problema se puede resolver de manera m s ) cil a!adiendo m s capas ocultas 6nos re)erimos a que el aprendizaje se realiza de )orma m s r pida7" Contro$ !e Con&er'encia En las t+cnicas de gradiente descendente es conveniente avanzar por la super)icie de error con incrementos peque!os de los pesos" Esto se debe a que tenemos una in)ormaci'n local de la super)icie * no se sabe lo lejos o lo cerca que se est del punto m#nimo" &on incrementos grandes, se corre el riesgo de pasar por encima del punto m#nimo sin conseguir estacionarse en +l" &on incrementos peque!os, aunque se tarde m s en llegar, se evita que ocurra esto" El elegir un incremento adecuado in)lu*e en la velocidad con la que converge el algoritmo" Sabemos que este control lo podemos realizar mediante el par metro denominado ganancia" (ormalmente se le asigna un valor peque!o 65,53%5,037 para asegurar que la red llegue a asentarse en una soluci'n" :tra manera de incrementar la velocidad de aprendizaje, consiste en utilizar otro par metro llamado Momento, cuando se calcula el cambio de peso se le a!ada una )racci'n del cambio anterior" &on ello tambi+n se trata de que la red no se estabilice en un m#nimo local, aunque +sto algunas veces no puede ser conseguido"
o o / o wo kj 6t + /7 = w kj 6t 7 + pk i pk + p w kj 6t /7 o

.n ltimo aspecto a tener en cuenta es la posibilidad de convergencia hacia alguno de los mnimos locales que pueden e9istir en la super)icie de error del espacio

de pesos" (o se puede asegurar en ningn momento que el m#nimo que se encuentre sea global" .na vez que la red se asienta en un m#nimo, sea local o global, cesa el aprendizaje, aunque el error siga siendo demasiado alto, si se ha alcanzado un m#nimo local" Si se alcanza un m#nimo local * el error es satis)actorio, el entrenamiento ha sido un +9ito, si no sucede as#, puede realizarse varias acciones para solucionar el problema$ % &ambio de arquitectura 6m s capas ocultas o m s PE7 % Modi)icaci'n de par metros de aprendizaje" % Emplear un conjunto de pesos iniciales di)erentes" % Modi)icar el conjunto de entrenamiento o presentar los patrones en distinta secuencia" Proce!imientos "ara incrementar $a &e$oci!a! !e a"ren!i(a)e* En este apartado describiremos di)erentes procedimientos que permitan incrementar la velocidad de aprendizaje manteniendo intacto la propiedad de Localidad que tienen este tipo de redes, re)erido a que la computaci'n de un PE est s'lamente in)luenciado por aquellos PEs que est n )isicamente conectados con +l" +eur,stica -$ &ada par metro ajustable de la red que determina la )unci'n de coste deber#a tener su propio par metro de control de velocidad de aprendizaje" Esta herur#stica reconoce el hecho de la posible e9istencia de di)erentes ganancias para cada cone9i'n ajustable de la estructura" +eur,stica .$ &ada par metro de control de velocidad deber#a variar de un paso a otro" (ormalmente la super)icie de error tiene di)erentes )ormas en un mismo espacio" En )unci'n de dichas di)erencias, esta heur#stica establece que as# como cambia la )orma del error, deber#a cambiar la velocidad de aprencizaje" +eur,stica /$ &uando la derivada de la )unci'n error 6coste7 con respecto a una cone9i'n determinada, tiene el mismo signo algebraico durante varios pasos del algoritmo, el par metro ganancia para dicha cone9i'n deber#a ser incrementado" Esta herur#stica, establece que en las condiciones mencionadas anteriormente, el nmero de pasos requeridos para moverse en una cierta parte de la super)icie de error, puede ser reducido, incrementando convenientemente la ganancia" +eur,stica 0$ &uando el signo algebraico de la derivada de la )unci'n error con respecto a una particular cone9i'n cambia durante pasos consecutivos, la ganancia para el peso en cuesti'n deber#a dedcrecer" El cambio de signo en pasos consecutivos viene a signi)icar la e9istencia de picos * valles" En orden de tratar de localizar el punto m#nimo del valle * as# evitar esas oscilaciones, la ganancia deber#a ser reducido 6ajuste de pesos m s )ino7" =PL>&=&>:(ES

% &odi)icaci'n de la >n)ormaci'n" % ,raduci'n de te9to en lenguaje hablado" 6SejnoCsDi * Rosenbegrg7 % Reconocimiento de Lenguaje Bablado" % Reconocimiento :ptico de &aracteres" % =plicaciones en &ardiolog#a" % &ompresi'n * Descompresi'n de datos

También podría gustarte