Aprendizaje Supervisado 2

REGLA DELTA GENERALIZADA (BACKPROPAGATION) (Freeman) La Regla Delta o LMS era una regla de aprendizaje que se utilizaba para
entrenar un PE o una capa de PE, pero como se ha visto en algn ejemplo anterior, es posible que para resolver ciertos problemas necesitsemos aadir a la estructura alguna capa oculta. En ese caso, la Regla Delta no servira para el entrenamiento de la estructura: - Conocemos la salida deseada para cada patrn de entrenamiento. - No conocemos la salida deseada para los PE de las capas ocultas. La Regla Delta Generalizada o Backpropagation fue creada para generalizar la Regla Delta sobre Redes Neuronales de mltiples capas y funciones de transferencia no lineales y diferenciables. El aprendizaje es tambin Supervisado. Su utilizacin consiste en ajustar pesos y bias tratando de minimizar la suma del error cuadrtico. Esto se realiza de forma contnua, cambiando dichas variables en la direccin contraria a la pendiente del error. Esto se denomina Tcnica del Gradiente Descendente. Redes Neuronales entrenadas mediante esta regla, dan razonables respuestas cuando al sistema se le presentan entradas que no ha visto nunca. Tpicamente a una nueva entrada, le har corresponder una salida similar a la salida obtenida para un patrn de entrenamienteo, siendo ste similar al patrn presentado a la red. Una de las grandes propiedades de este tipo de estructuras es su capacidad de Generalizacin.
Funcionamiento Bsico 1- Se aplica un vector de entrada y se calculan sus correspondientes salidas. 2- Se determina una medida de error. 3- Se determina en que direccin se deben cambiar los pesos para minimizar dicho error. 4- Se determina la cantidad en que es preciso cambiar cada peso. 5- Se modifican los pesos. 6- Se repiten los pasos del 1 al 5 con todos los patrones de entrenamiento, hasta que el error para todos los vectores del conjunto de entrenamiento quede reducido a un valor aceptable.
Notacin:
neta
h pj
= wh x pi ji
i=0
ihpj = f netahpj )
o o pj = f j (netaopj )
h ( j
n- nmero de entradas de cada patrn. h- indica la capa. p- indica el patrn. j- PE j. Wji- conexin PE i (capa h-1) con PE j (capa h). Opj- salida PE j en la capa de salida. Arquitectura de Pesos Capa de Salida Como en la capa de salida puede haber un n >1 de PE, en este caso no nos basta con un nico valor de error:
pk = ( y pk o pk )
El error que se debe minimiar es la suma de los cuadrados de los errores de todas las unidades de salida.
2 1 n 2 1 E p = 2 pk = 2 ( y pk o pk ) k =1 k
f k (netao ) Ep pk E p = o = ( y pk o pk ) ( o o wkj neta pk ) wkj (netao ) pk o o 1 = ( ) = io1 pj o o w kj i pj wkj wkj j

Todo implica que:
E p = ( y pk o pk ) f o (netao ) io1 pk pk k
De tal manera que los pesos en la capa de salida se modificarn de la siguiente manera:
wo (t + 1) = wo (t ) + p wo (t ) kj kj kj p w
o kj (t )
= ( y pk o pk ) f o (netao ) io1 pk pj k =1
Condicin NECESARIA: f debe ser derivable. Dos casos: o o o o
f k (netak ) = netak f k
f o (netao) = (1+ e netao ) k k k

Sea:
fo = k
f o (1 f o) = o pk (1 o pk ) k k f k (netao ) pk
o
o pk
= ( y pk o pk ) f k (neta
o
o pk )
= pk
wo (t + 1) = wo (t ) + pk io1 kj kj pj
NOTA: Si quisisemos que la Regla Delta Generalizada funccionase igual que la Regla Delta o mnimos cuadrados, NO se cambiaran los pesos hasta que se presentasen todos los patrones de entrenamiento al menos una vez. Se acumulara el error de cada uno de ellos y se trabajara con l al modificar los pesos. El error que se estara minimizando sera:
E minimizado = E p
p =1
Capas Ocultas Como determinamos los valores esperados de los PE en las capas ocultas? Ep est relacionado con la salida de los PE en capas ocultas de la siguiente manera:
o 2 o h 2 1 1 1 o ( y pk o pk ) = 2 ( y pk f k ( netao )) = 2 ( y pk f k ( w kj i pj )) pk j 2 k k k Por otra parte:
2
Ep =
h h ihpj = f j (netah ) = f j ( whji ihpi1) pj i
De tal manera:
o ( ) ih netah Ep 1 pj pj ( y pk o pk )2 = ( y pk o pk ) o pk o neta pk = = h h h h h w ji 2 k w ji (neta pk ) i pj neta pj w ji k
= ( y pk o pk ) f o ( netao ) wo f h (netah ) ih1 kj pk pj pi k j

k
Con lo que:
whji = f h (netah ) ih1 ( y pk o pk ) f o ( netao ) wo kj pj pi pk j k

k
whji = f h (netah ) ih1 pk wo pj pi kj j

o k
Las actualizaciones de los pesos en la capa oculta dependen de todos los trminos de errores de la capa de salida. Esto es a lo que se refiere uno con el nombre de propagacin hacia atrs. h o h h o
pj = f j (neta pj ) pk wkj
k
Entonces:
whji (t + 1) = whji (t ) + pj iih1

h
Los trminos de error de las unidades ocultas, se calculan antes de que hayan sido modificado los pesos de conexiones con las unidades de la capa de salida.
CONSIDERACIONES PRCTICAS
Datos de entrada (entrenamiento) En general se pueden emplear todos los datos disponibles para entrenar la red. Con cierta frecuencia, lo nico que se necesita es un pequeo subconjunto de datos que cubran todo el espacio de los mismos. La BPN admite bien la Generalizacin: Dados varios vectores de entrada, pertenecientes a la misma clase, aprender la similitud existente entre ellos. Por otro lado, la BNP no extrapola bien es decir, que si la red se entrena mal o insuficientemente, las salidas pueden ser imprecisas. Hay que asegurarse que los datos de entrenamiento cubran todo el espacio de entradas esperadas. La red se debe de entrenar seleccionando patrones de manera aleatoria, es mala tcnica de entrenamiento presentar primero los patrones de una clase y luego los de otra: la red se olvidara del entrenamiento inicial. Dimensionamiento de la Red No existe una respuesta sencilla para resolver esta cuestin. En general 3 capas son suficientes, pero en ciertos casos, un problema se puede resolver de manera ms fcil aadiendo ms capas ocultas (nos referimos a que el aprendizaje se realiza de forma ms rpida). Control de Convergencia En las tcnicas de gradiente descendente es conveniente avanzar por la superficie de error con incrementos pequeos de los pesos. Esto se debe a que tenemos una informacin local de la superficie y no se sabe lo lejos o lo cerca que se est del punto mnimo. Con incrementos grandes, se corre el riesgo de pasar por encima del punto mnimo sin conseguir estacionarse en l. Con incrementos pequeos, aunque se tarde ms en llegar, se evita que ocurra esto. El elegir un incremento adecuado influye en la velocidad con la que converge el algoritmo. Sabemos que este control lo podemos realizar mediante el parmetro denominado ganancia. Normalmente se le asigna un valor pequeo (0,05-0,25) para asegurar que la red llegue a asentarse en una solucin. Otra manera de incrementar la velocidad de aprendizaje, consiste en utilizar otro parmetro llamado Momento, cuando se calcula el cambio de peso se le aada una fraccin del cambio anterior. Con ello tambin se trata de que la red no se estabilice en un mnimo local, aunque sto algunas veces no puede ser conseguido.
wo (t + 1) = wo (t ) + pk io1 + p wo (t 1) kj kj pk kj
o
Un ltimo aspecto a tener en cuenta es la posibilidad de convergencia hacia alguno de los mnimos locales que pueden existir en la superficie de error del espacio
de pesos. No se puede asegurar en ningn momento que el mnimo que se encuentre sea global. Una vez que la red se asienta en un mnimo, sea local o global, cesa el aprendizaje, aunque el error siga siendo demasiado alto, si se ha alcanzado un mnimo local. Si se alcanza un mnimo local y el error es satisfactorio, el entrenamiento ha sido un xito, si no sucede as, puede realizarse varias acciones para solucionar el problema: - Cambio de arquitectura (ms capas ocultas o ms PE) - Modificacin de parmetros de aprendizaje. - Emplear un conjunto de pesos iniciales diferentes. - Modificar el conjunto de entrenamiento o presentar los patrones en distinta secuencia. Procedimientos para incrementar la velocidad de aprendizaje. En este apartado describiremos diferentes procedimientos que permitan incrementar la velocidad de aprendizaje manteniendo intacto la propiedad de Localidad que tienen este tipo de redes, referido a que la computacin de un PE est slamente influenciado por aquellos PEs que estn fisicamente conectados con l. Heurstica 1: Cada parmetro ajustable de la red que determina la funcin de coste debera tener su propio parmetro de control de velocidad de aprendizaje. Esta herurstica reconoce el hecho de la posible existencia de diferentes ganancias para cada conexin ajustable de la estructura. Heurstica 2: Cada parmetro de control de velocidad debera variar de un paso a otro. Normalmente la superficie de error tiene diferentes formas en un mismo espacio. En funcin de dichas diferencias, esta heurstica establece que as como cambia la forma del error, debera cambiar la velocidad de aprencizaje. Heurstica 3: Cuando la derivada de la funcin error (coste) con respecto a una conexin determinada, tiene el mismo signo algebraico durante varios pasos del algoritmo, el parmetro ganancia para dicha conexin debera ser incrementado. Esta herurstica, establece que en las condiciones mencionadas anteriormente, el nmero de pasos requeridos para moverse en una cierta parte de la superficie de error, puede ser reducido, incrementando convenientemente la ganancia. Heurstica 4: Cuando el signo algebraico de la derivada de la funcin error con respecto a una particular conexin cambia durante pasos consecutivos, la ganancia para el peso en cuestin debera dedcrecer. El cambio de signo en pasos consecutivos viene a significar la existencia de picos y valles. En orden de tratar de localizar el punto mnimo del valle y as evitar esas oscilaciones, la ganancia debera ser reducido (ajuste de pesos ms fino). APLICACIONES
- Codificacin de la Informacin. - Traducin de texto en lenguaje hablado. (Sejnowski y Rosenbegrg) - Reconocimiento de Lenguaje Hablado. - Reconocimiento Optico de Caracteres. - Aplicaciones en Cardiologa. - Compresin y Descompresin de datos

Aprendizaje Supervisado 2

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Aprendizaje Supervisado 2

Cargado por

Copyright:

Formatos disponibles

REGLA DELTA GENERALIZADA (BACKPROPAGATION) (Freeman) La Regla Delta o LMS era una regla de aprendizaje que se utilizaba para

f k (netao ) Ep pk E p = o = ( y pk o pk ) ( o o wkj neta pk ) wkj (netao ) pk o o 1 = ( ) = io1 pj o o w kj i pj wkj wkj j

Condicin NECESARIA: f debe ser derivable. Dos casos: o o o o

f o (netao) = (1+ e netao ) k k k

h h ihpj = f j (netah ) = f j ( whji ihpi1) pj i

= ( y pk o pk ) f o ( netao ) wo f h (netah ) ih1 kj pk pj pi k j

whji = f h (netah ) ih1 ( y pk o pk ) f o ( netao ) wo kj pj pi pk j k

whji = f h (netah ) ih1 pk wo pj pi kj j

whji (t + 1) = whji (t ) + pj iih1

También podría gustarte