Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Objetivos
8-1
Teora y ejemplos
Series de Taylor
Casos de vector
8-2
8-2
8-4
Derivadas direccionales
8-5
Mnimo
8-7
8-9
8-10
8-11
Funciones cuadrticas
8-12
8-13
8-20
Problemas resueltos
8-22
Epilogo
8-34
Leer ms
8-35
Ejercicios
8-36
Objetivos
Este captulo establece las bases para un tipo de tcnica de entrenamiento
de la red neuronal llamado aprendizaje de rendimiento. Hay varias clases
diferentes de leyes de aprendizaje de la red, incluyendo el aprendizaje
asociativo (como en el aprendizaje de Hebbian del captulo 7) y el
aprendizaje de la competencia (que discutiremos en el captulo 14).
Rendimiento de aprendizaje es otra clase importante de la ley de
aprendizaje, en el que los parmetros de red se ajustan para optimizar el
rendimiento de aprendizaje de la red. En los dos prximos captulos vamos a
sentar las bases para el desarrollo del aprendizaje de rendimiento, que ser
presentado en detalle en los captulos 10-12. El objetivo principal de este
captulo es investigar superficies de rendimiento y determinar las
condiciones para la existencia de mnimos y mximos de la superficie de
actuacin. Captulo 9 se sigue esto con una discusin de los procedimientos
para localizar los mnimos o mximos.
Teora y ejemplos
Aprendizaje de rendimiento.
Hay varias leyes diferentes de aprendizaje que caen bajo la categora de
aprendizaje rendimiento. Dos de ellos sern presentados en este texto. Las
leyes de aprendizaje se distinguen por el hecho de que durante el
entrenamiento de los parmetros de red (peso y sesgos) se ajustan en un
esfuerzo para optimizar el "rendimiento" de la red.
ndice de rendimiento
Hay dos pasos a seguir en este proceso de optimizacin. El primero para
definir lo que entendemos por "rendimiento". En otras palabras, tenemos
que encontrar una medida cuantitativa del rendimiento de la red, llamado el
ndice de rendimiento, que es pequeo cuando la red funciona bien y grande
cuando la red funciona mal. En este captulo y en el captulo 9, vamos a
suponer que se da el ndice de rendimiento. En los captulos 10 y 11 vamos
a discutir la eleccin del ndice de rendimiento.
El segundo paso del proceso de optimizacin es buscar en el espacio de
parmetros (ajustar los pesos de la red y los sesgos) con el fin de reducir el
ndice de rendimiento. En este captulo vamos a investigar las
caractersticas de las superficies de rendimiento y establecer unas
condiciones que garanticen que la superficie tiene un punto mnimo (el
ptimo estamos buscando).
Por lo tanto, en este captulo vamos a obtener una cierta comprensin de lo
que las superficies de rendimiento parecen. A continuacin, en el captulo 9
se desarrollarn procedimientos para la localizacin de los puntos ptimos.
Series de Taylor
Desarrollo en serie de Taylor
Digamos que el ndice de desempeo que deseamos minimizar es
representado por
F ( x )=cos ( x )
El desarrollo en serie de Taylor de F (x) alrededor del punto x * = 0 es
(pesos y sesgos), de los cuales puede haber un nmero muy grande. Por lo
tanto, tenemos que ampliar el desarrollo en serie de Taylor para funciones
de muchas variables. Considere la siguiente funcin de n variables.
Gradiente
Donde
F ( x)
(8.1
2 F ( x)
(8.1
F(x )/ x i
, es la primera derivada
(8.1
La segunda derivada a lo largo de p puede ser calculada:
(8.1
F(x)= x12+2x22
(8.14)
(8.15
(8.16)
0.
Para un simple mnimo fuerte, x*, la funcin puede ser menor que F(x*) en
algunos puntos fuera de un pequeo entorno de x *. Por tanto, esto a veces
es llamado un mnimo local. Para un mnimo global la funcin ser mayor
que el punto mnimo en cualquier otro punto en el espacio de parmetro.
Mnimo Dbil
>0.
(8.18)
Grfico de Contorno
En la Figura 8.4 tenemos un grfica de contorno (una serie de curvas a lo
largo de la que el valor de la funcin se mantiene constante) y una grfica
de superficie de 3D para esta funcin (para valores de la funcin de menos
de 12). Podemos ver que la funcin tiene dos puntos mnimos locales
fuertes: uno en (-0.42, 0.42), y el otro en (0.55, -0.55). El punto mnimo
global es en (0.55, -0.55).
Punto de silla
Hay tambin otra caracterstica interesante de esta funcin en (-0.13, 0.13).
Est es llamada un punto de silla debido a la forma de la superficie en el
entorno del punto. Se caracteriza por el hecho de que a lo largo de la lnea
x1=-x2, el punto de silla es un mximo local, pero a lo largo de una lnea
perpendicular a esa lnea es un mnimo local. Investigaremos este ejemplo
en ms detalle en los problemas P8.2 y P8.5.
(8.19)
Donde:
x= x-x 4
(8.21)
Las condiciones de primer orden
Si ||x|| es muy pequea entonces el orden de los trminos en la ecuacin
(8.20) ser insignificante y podemos aproximar la funcin como:
(8.22)
que:
(8.25)
Funciones cuadrtica
Nos encontramos en este texto que un tipo de ndice de rendimiento es
universal la funcin cuadrtica. Esto es cierto debido a que hay muchas
aplicaciones en las que aparece la funcin cuadrtica, sino tambin porque
muchas de las funciones se pueden aproximar por funciones cuadrticas en
pequeos barrios, especialmente cerca de los puntos mnimos locales. Por
esta
razn
queremos
pasar
un
poco
de
tiempo
investigar
las
o
Donde la matriz A es simtrica. (Si la matriz no es simtrica que puede ser
sustituido por una matriz simtrica que produce el mismo F (x). probarlo!)
Para encontrar la pendiente de esta funcin, utilizaremos las siguientes
propiedades tiles del gradiente:
todos los derivados ms altos de la funcin cuadrtica son cero. Por lo tanto,
los tres primeros trminos de la expansin en serie de Taylor (como en la
ecuacin. (8.20)) dan una representacin exacta de la funcin. Tambin
podemos decir que todas las funciones analticas se comportan como
cuadrticas sobre una pequea zona