Está en la página 1de 13

Las Superficies de Rendimiento y Los Puntos ptimos

Objetivos

8-1

Teora y ejemplos
Series de Taylor
Casos de vector

8-2
8-2
8-4

Derivadas direccionales

8-5

Mnimo

8-7

Condiciones necesarias para la optimizacin

8-9

Condiciones de primer orden

8-10

Condiciones de segundo orden

8-11

Funciones cuadrticas

8-12
8-13

Resumen de los resultados

8-20

Problemas resueltos

8-22

Epilogo

8-34

Leer ms

8-35

Ejercicios

8-36

Objetivos
Este captulo establece las bases para un tipo de tcnica de entrenamiento
de la red neuronal llamado aprendizaje de rendimiento. Hay varias clases
diferentes de leyes de aprendizaje de la red, incluyendo el aprendizaje
asociativo (como en el aprendizaje de Hebbian del captulo 7) y el
aprendizaje de la competencia (que discutiremos en el captulo 14).
Rendimiento de aprendizaje es otra clase importante de la ley de
aprendizaje, en el que los parmetros de red se ajustan para optimizar el
rendimiento de aprendizaje de la red. En los dos prximos captulos vamos a
sentar las bases para el desarrollo del aprendizaje de rendimiento, que ser
presentado en detalle en los captulos 10-12. El objetivo principal de este
captulo es investigar superficies de rendimiento y determinar las
condiciones para la existencia de mnimos y mximos de la superficie de
actuacin. Captulo 9 se sigue esto con una discusin de los procedimientos
para localizar los mnimos o mximos.

Teora y ejemplos
Aprendizaje de rendimiento.
Hay varias leyes diferentes de aprendizaje que caen bajo la categora de
aprendizaje rendimiento. Dos de ellos sern presentados en este texto. Las
leyes de aprendizaje se distinguen por el hecho de que durante el
entrenamiento de los parmetros de red (peso y sesgos) se ajustan en un
esfuerzo para optimizar el "rendimiento" de la red.

ndice de rendimiento
Hay dos pasos a seguir en este proceso de optimizacin. El primero para
definir lo que entendemos por "rendimiento". En otras palabras, tenemos
que encontrar una medida cuantitativa del rendimiento de la red, llamado el
ndice de rendimiento, que es pequeo cuando la red funciona bien y grande
cuando la red funciona mal. En este captulo y en el captulo 9, vamos a
suponer que se da el ndice de rendimiento. En los captulos 10 y 11 vamos
a discutir la eleccin del ndice de rendimiento.
El segundo paso del proceso de optimizacin es buscar en el espacio de
parmetros (ajustar los pesos de la red y los sesgos) con el fin de reducir el
ndice de rendimiento. En este captulo vamos a investigar las
caractersticas de las superficies de rendimiento y establecer unas
condiciones que garanticen que la superficie tiene un punto mnimo (el
ptimo estamos buscando).
Por lo tanto, en este captulo vamos a obtener una cierta comprensin de lo
que las superficies de rendimiento parecen. A continuacin, en el captulo 9
se desarrollarn procedimientos para la localizacin de los puntos ptimos.

Series de Taylor
Desarrollo en serie de Taylor
Digamos que el ndice de desempeo que deseamos minimizar es
representado por

F ( x ) , donde x es el parmetro escalar que estamos

ajustando. Vamos a suponer que el ndice de rendimiento es una funcin


analtica, por lo que todos sus derivados existen. Entonces x puede ser
representado por su desarrollo en serie de Taylor alrededor de un punto
nominal.

Vamos a utilizar el desarrollo en serie de Taylor para aproximar el ndice de


rendimiento, mediante la limitacin de la expansin de un nmero finito de
trminos. Por ejemplo, supongamos

F ( x )=cos ( x )
El desarrollo en serie de Taylor de F (x) alrededor del punto x * = 0 es

La aproximacin de orden cero de F (x) (utilizando slo la potencia cero de


la x)

La aproximacin de segundo orden es

(Tenga en cuenta que, en este caso, la aproximacin de primer orden es la


misma que la aproximacin de orden cero, ya que la primera derivada es
cero)

La aproximacin de cuarto orden es

Un grfico que muestra F (x) y estas tres aproximaciones se muestra en la


figura 8.1

En la figura se puede observar que los tres aproximacin es exacta si x est


muy cerca de x * = 0. Sin embargo, a medida que x se mueve ms lejos de
x * Slo las aproximaciones de orden superior son exactas. La aproximacin
de segundo orden es exacto sobre un rango ms amplio que a la
aproximacin de orden cero, y la aproximacin de cuarto orden es exacto
sobre un rango ms amplio que a la aproximacin de segundo orden. Una
investigacin de la ecuacin (8.1). Explica este comportamiento. Cada
perodo sucesivo de la serie consiste en un poder superior de (* xx). Cuando
x se acerca a x *, estos trminos se convertirn geomtricamente menor.
Usaremos las series de aproximaciones del ndice de rendimiento taylor
para investigar la forma del ndice de desempeo en el barrio de posibles
puntos ptimos.
Experimentar con la serie ampliaciones de la funcin coseno taylor, utilice la
demostracin de Diseo de Red Neuronal de Taylor Series
Caso vector
Por supuesto, el ndice de rendimiento de la red neuronal no ser una
funcin de un escalar x. ser una funcin de todos los parmetros de la red

(pesos y sesgos), de los cuales puede haber un nmero muy grande. Por lo
tanto, tenemos que ampliar el desarrollo en serie de Taylor para funciones
de muchas variables. Considere la siguiente funcin de n variables.

El desarrollo en serie de Taylor para esta funcin, sobre el punto x *, ser

Esta notacin es una un poco engorrosa. Es ms conveniente para escribir


en forma de matriz, como en

Gradiente
Donde

F ( x)

es el gradiente, y se define como

(8.1

2 F ( x)

es la gradiente de Hessian, y est definida como:

(8.1

La gradiente y el teorema de Hessian son muy importantes para nuestro


entendimiento del comportamiento de las superficies. En la siguiente
seccin, discutiremos el significado prctico de estos dos conceptos.
Para experimentar con la expansin de la serie de Taylor de una funcin de
dos variables, usaremos la demostracin de la series de Taylor vectorial en
el diseo de una red neuronal (nnd8ts2).
Derivadas Direccionales
El i-simo elemento de la gradiente

F(x )/ x i

, es la primera derivada

del ndice de rendimiento F a lo largo del eje xi. El i-simo elemento de la


diagonal de la matriz de Hessian

2 F (x )/ x 2i , es la segunda derivada del

ndice de rendimiento F a lo largo del eje xi. Y si queremos conocer la


derivada de la funcin en una direccin arbitraria? Dejemos que p sea un
vector en la direccin a lo largo en la cual deseamos conocer la derivada.
Esta derivada direccional puede ser calculada a partir de:

(8.1
La segunda derivada a lo largo de p puede ser calculada:
(8.1

Para ilustrar estos conceptos, considerar la funcin:

F(x)= x12+2x22

(8.14)

Supongamos que queremos conocer la derivada de la funcin en el punto


x*= [0.5 0.5]T en la direccin p= [2 -1]T. Primeramente evaluaremos la
gradiente en x*:

(8.15

La derivada en la direccin p puede entonces ser calculada:

(8.16)

Por lo tanto la funcin tiene pendiente cero en la direccin p desde el punto


x*. Por qu sucede esto? Qu podemos decir acerca de estas direcciones
que tienen pendiente cero? Si consideramos la definicin de la derivada
direccional en la ecuacin (8.12), podemos ver que el numerador es un
producto interno entre el vector direccin y la gradiente. Por lo tanto,
cualquier direccin que es ortogonal a la gradiente tendr pendiente cero.
Cul direccin tiene la mayor pendiente? La pendiente mxima ocurrir
cuando el producto interno del vector direccin y la gradiente es mxima.
Esto sucede cuando el vector de direccin es el mismo que el gradiente.
(Observe que la magnitud del vector direccin no tiene ningn efecto, ya
que nos normalizamos por esta magnitud). Este efecto se ilustra en la Figura
8.2, mientras se muestra un grfico de contorno y un grfico 3D de F(x). En
el grfico de contorno podemos ver 5 vectores de partida desde nuestro
punto nominal x* y apuntando en direcciones diferentes. Al final de cada
vector se muestra la primera derivada direccional. La derivada mxima
ocurre en la direccin de la gradiente. La derivada es cero en la direccin
ortogonal a la pendiente (tangente al contorno de lnea).
Para experimentar con las derivadas direccionales, utilizar las
Derivadas Direccionales Demostrativas en el Diseo de Redes
Neuronales (nnd8dd).

Figura 8.2 Funcin Cuadrtica y las Derivadas


Direccionales
Recordar que el objetivo del aprendizaje de rendimiento ser optimizar el
ndice de rendimiento de la red. En esta seccin queremos definir a que nos
referimos por un punto ptimo. Asumiremos que el punto ptimo es un
mnimo del ndice de rendimiento. Las definiciones pueden ser fcilmente
modificadas para los problemas de maximizacin.
Mnimo Fuerte
El punto x* es un mnimo fuerte de F(x) si existe un escalar >0, tal que
F(x*) < F(x*+ x) para todo x tal que >||x||>0.
En otras palabras, si nos movemos lejos de un mnimo fuerte una distancia
pequea en cualquier direccin, la funcin se incrementar.
Mnimo Global
El punto x* es un mnimo global nico de F(x) si F(x*) < F(x*+ x) para todo
x

0.

Para un simple mnimo fuerte, x*, la funcin puede ser menor que F(x*) en
algunos puntos fuera de un pequeo entorno de x *. Por tanto, esto a veces
es llamado un mnimo local. Para un mnimo global la funcin ser mayor
que el punto mnimo en cualquier otro punto en el espacio de parmetro.
Mnimo Dbil

El punto x* es un mnimo dbil de F(x), si este no es un mnimo fuerte, y un


escalar >0 existe, tal que F(x*)

F(x*+ x) para todo x tal que >||x||

>0.

No importa en qu direccin nos movemos lejos de un mnimo dbil, la


funcin no puede decrementarse, aunque puede haber algunas direcciones
en las que las funciones no cambian.
Como un ejemplo de puntos mnimos local y global, consideraremos la
siguiente funcin escalar:
F(x)= 3x4-7x2-1/2x+6
Esta funcin es mostrada en la Figura 8.3. Recuerde que este tiene dos
puntos mnimo fuerte: como aproximadamente de -1.1 a 1.1. Para ambos
de estos puntos, la funcin aumenta en un entorno local. El mnimo en 1.1
es un mnimo global, ya que no hay otro punto para el que la funcin es tan
pequeo.
No hay un mnimo dbil para esta funcin. Vamos a mostrar un ejemplo de
dos dimensiones de un mnimo dbil despus.

Figura 8.3 Ejemplo escalar de un mnimo global y


local

Ahora vamos a considerar algunos casos vectoriales. Primero, considere la


funcin siguiente:
F(x)= (x2-x1)4 + 8x1x2 x1 + x2 + 3

(8.18)

Grfico de Contorno
En la Figura 8.4 tenemos un grfica de contorno (una serie de curvas a lo
largo de la que el valor de la funcin se mantiene constante) y una grfica
de superficie de 3D para esta funcin (para valores de la funcin de menos
de 12). Podemos ver que la funcin tiene dos puntos mnimos locales
fuertes: uno en (-0.42, 0.42), y el otro en (0.55, -0.55). El punto mnimo
global es en (0.55, -0.55).
Punto de silla
Hay tambin otra caracterstica interesante de esta funcin en (-0.13, 0.13).
Est es llamada un punto de silla debido a la forma de la superficie en el
entorno del punto. Se caracteriza por el hecho de que a lo largo de la lnea
x1=-x2, el punto de silla es un mximo local, pero a lo largo de una lnea
perpendicular a esa lnea es un mnimo local. Investigaremos este ejemplo
en ms detalle en los problemas P8.2 y P8.5.

Est funcin es usada en la serie de Taylor vectorial en el diseo de una red


neuronal (nnd8ts2).

Figura 8.4 Ejemplo vectorial de punto mnimo y de silla


Como un ejemplo final, considerar la funcin definida en la ecuacin (8.19):
F(x)= (x12 1.5x1x2+2x22)x12

(8.19)

La grfica de contorno y 3D de esta funcin estn dados en la Figura 8.5.


Aqu podemos ver que cualquier punto a lo largo de la lnea x 1=0 es un
mnimo dbil.

Figura 8.5 Ejemplo Mnimo Dbil


Condiciones necesarias para la optimizacin
Ahora que tenemos definido a que nos referimos por un punto ptimo
(mnimo), vamos a identificar algunas condiciones que tendra que ser
satisfecho por dicho punto. Volveremos a utilizar la expansin de las series
de Taylor para derivar estas condiciones:

Donde:
x= x-x 4
(8.21)
Las condiciones de primer orden
Si ||x|| es muy pequea entonces el orden de los trminos en la ecuacin
(8.20) ser insignificante y podemos aproximar la funcin como:

(8.22)

El punto x* es un punto mnimo candidato, lo que significa que la funcin


debe subir (o al menos no bajar) si x no es cero. Para que esto suceda el
segundo trmino en la ecuacin (8.22) no debe ser negativo. En otras
palabras:
(8.23)
Sin embargo, si este trmino es positivo,
(8.24)
Entonces, esto implicara

que:
(8.25)

Pero esta es una contradiccin, ya que x* ser un punto mnimo. Por lo


tanto, ya que la ecuacin (8.23) debe ser cierto, y la ecuacin (8.24) ser
falso, la nica alternativa
debe ser:
(8.26)

Dado que esto debe ser cierto para cualquier x, tendremos:


(8.27)
Por lo tanto la gradiente puede ser cero en el punto mnimo. Este es un
primer orden, condicin necesaria (pero no suficiente) para x * ser un punto
mnimo local. Algunos puntos que satisface la ecuacin (8.27), son llamados
puntos estacionarios.

Funciones cuadrtica
Nos encontramos en este texto que un tipo de ndice de rendimiento es
universal la funcin cuadrtica. Esto es cierto debido a que hay muchas
aplicaciones en las que aparece la funcin cuadrtica, sino tambin porque
muchas de las funciones se pueden aproximar por funciones cuadrticas en
pequeos barrios, especialmente cerca de los puntos mnimos locales. Por
esta

razn

queremos

pasar

un

poco

de

caractersticas de la funcin cuadrtica.


La forma general de una funcin cuadrtica es:

tiempo

investigar

las

o
Donde la matriz A es simtrica. (Si la matriz no es simtrica que puede ser
sustituido por una matriz simtrica que produce el mismo F (x). probarlo!)
Para encontrar la pendiente de esta funcin, utilizaremos las siguientes
propiedades tiles del gradiente:

Donde h es un vector constante, y

ahora podemos calcular el gradiente de F (x):

Y de forma similar se encuentra el hessian

todos los derivados ms altos de la funcin cuadrtica son cero. Por lo tanto,
los tres primeros trminos de la expansin en serie de Taylor (como en la
ecuacin. (8.20)) dan una representacin exacta de la funcin. Tambin
podemos decir que todas las funciones analticas se comportan como
cuadrticas sobre una pequea zona

También podría gustarte