Está en la página 1de 18

Las Superficies de Rendimiento

y Los Puntos ptimos

objetivo
Este captulo establece las bases para
un tipo de tcnica de entrenamiento
de la red neuronal llamado aprendizaje
de rendimiento. Hay varias clases
diferentes de leyes de aprendizaje de
la red, incluyendo el aprendizaje
asociativo y el aprendizaje de la
competencia

Aprendizaje de rendimiento
Las leyes de aprendizaje se distinguen
por el hecho de que durante el
entrenamiento de los parmetros de
red (peso y sesgos) se ajustan en un
esfuerzo para optimizar el
"rendimiento" de la red.

ndice de rendimiento
Dos pasos a seguir:
Primero tenemos que encontrar una
medida cuantitativa del rendimiento
de la red, llamado el ndice de
rendimiento, que es pequeo cuando
la red funciona bien y grande cuando
la red funciona mal.

Segundo es buscar en el espacio de


parmetros (ajustar los pesos de la red
y los sesgos) con el fin de reducir el
ndice de rendimiento.

Series de Taylor
Usaremos las series de aproximaciones
del ndice de rendimiento Taylor para
investigar la forma del ndice de
desempeo en el barrio de posibles
puntos ptimos.

Caso vector
El ndice de rendimiento de la red
neuronal no ser una funcin de un
escalar x. ser una funcin de todos
los parmetros de la red (pesos y
sesgos), de los cuales puede haber un
nmero muy grande. Por lo tanto,
tenemos que ampliar el desarrollo en
serie de Taylor para funciones de
muchas variables

El desarrollo en serie de Taylor para esta funcin, sobre el punto x *, ser:

Gradiente

HESSIAN
Y es la gradiente de Hessian, y est
definida como:

La gradiente y el teorema de Hessian son muy


importantes para nuestro entendimiento del
comportamiento de las superficies. En la siguiente
seccin, discutiremos el significado prctico de estos
dos conceptos.

MINIMO
Queremos definir a que nos referimos
por un punto ptimo. Asumiremos que
el punto ptimo es un mnimo del
ndice de rendimiento. Las definiciones
pueden ser fcilmente modificadas
para los problemas de maximizacin.

MINIMO FUERTE
El punto x* es un mnimo fuerte de
F(x) si existe un escalar >0, tal que
F(x*) < F(x*+ x) para todo x tal
que >||x||>0.
En otras palabras, si nos movemos
lejos de un mnimo fuerte una
distancia pequea en cualquier
direccin, la funcin se incrementar.

MINIMO GLOBAL
El
punto x* es un mnimo global nico de

F(x) si F(x*) < F(x*+ x) para todo x 0.


Para un simple mnimo fuerte, x *, la
funcin puede ser menor que F(x *) en
algunos puntos fuera de un pequeo
entorno de x*. Por tanto, esto a veces es
llamado un mnimo local. Para un
mnimo global la funcin ser mayor que
el punto mnimo en cualquier otro punto
en el espacio de parmetro.

MINIMO DEBIL
El
punto x* es un mnimo dbil de F(x), si

este no es un mnimo fuerte, y un


escalar >0 existe, tal que F(x*) F(x*+
x) para todo x tal que >||x||>0.
No importa en qu direccin nos
movemos lejos de un mnimo dbil, la
funcin no puede decrementarse,
aunque puede haber algunas direcciones
en las que las funciones no cambian.

PUNTO DE SILLA
Est es llamada un punto de silla
debido a la forma de la superficie en el
entorno del punto. Se caracteriza por
el hecho de que a lo largo de la lnea
x1=-x2, el punto de silla es un mximo
local, pero a lo largo de una lnea
perpendicular a esa lnea es un mnimo
local.

Condiciones necesarias para la optimizacin

Ahora que tenemos definido a que nos


referimos por un punto ptimo (mnimo), vamos
a identificar algunas condiciones que tendra
que ser satisfecho por dicho punto. Volveremos
a utilizar la expansin de las series de Taylor
para derivar estas condiciones:

Donde:
x= x-x 4

FUNCIONES CUADRATICAS
FUNCION UNIVERSAL
Esto es cierto debido a que hay
muchas aplicaciones en las que
aparece la funcin cuadrtica, sino
tambin porque muchas de las
funciones se pueden aproximar por
funciones cuadrticas en pequeos
barrios, especialmente cerca de los
puntos mnimos locales.

También podría gustarte