P. 1
OptimizacionSinRestricciones

OptimizacionSinRestricciones

|Views: 93|Likes:
Publicado porDarling Rodriguez

More info:

Published by: Darling Rodriguez on Apr 01, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

11/07/2012

pdf

text

original

República Bolivariana de Venezuela

Universidad del Zulia
Facultad de Ingeniería
División de Estudios para Graduados
Instituto de Cálculo Aplicado










OPTIMIZACIÓN PARA INGENIEROS

Optimización Sin Restricciones

(Notas de clase)





Instructores:
Luis Zerpa
Juan Colmenares












Febrero 2004


1
Índice General

1. Derivada Direccional ........................................................................................................................ 2
2. Gradiente........................................................................................................................................... 3
3. Optimización Sin Restricciones ........................................................................................................ 4
3.1. Condiciones de primer y segundo orden para la existencia de extremos.................................. 4
3.2. Formulación de problemas de optimización............................................................................ 5
3.3. Clasificación de problemas de optimización ............................................................................ 6
3.4. Métodos de Optimización Basados en Derivadas..................................................................... 6
3.4.1. Métodos Básicos de Descenso .......................................................................................... 6
3.5. Búsqueda lineal ......................................................................................................................... 7
3.5.1. Tipos de Métodos de Búsqueda Lineal ............................................................................. 8
3.5.2. Búsqueda de Fibonacci ..................................................................................................... 8
3.5.3. Búsqueda de la Sección Dorada...................................................................................... 10
3.5.4. Ajuste Cuadrático (Método DSC, Davies, Swann y Campey) ....................................... 10
3.5.5. Ajuste Cúbico.................................................................................................................. 11
3.5.6. Método del Gradiente...................................................................................................... 12
3.5.7. Método de Newton.......................................................................................................... 12
3.5.8. Método Quasi-Newton.................................................................................................... 13
3.5.9. Convergencia de Métodos de Ajuste de Curvas ............................................................. 13
3.5.10. Búsqueda Lineal Inexacta ........................................................................................... 14
3.6. Métodos Básicos de Descenso para funciones de varias variables......................................... 16
3.6.1. Método del Descenso más Rápido.................................................................................. 16
3.6.2. Método de Newton.......................................................................................................... 20
3.6.3. Levenberg-Marquardt ..................................................................................................... 22







2
1. Derivada Direccional

La derivada direccional permite tener información del comportamiento de la función si sus variables se
modifican siguiendo el sentido indicado por el vector gradiente.

La Derivada direccional de f en p según el vector unitario µ
[ D
µ
f(p) ] es el producto escalar del gradiente en p, por µ :

D
µ
f(p) = ∇f(p). µ

¿En qué sentido deberían desplazarse las variables de f, partiendo del punto p, para que los valores
de f crezcan mas rápidamente?

Como la rapidez está dada por : ∇f(p).µ. En esta expresión se suponen ya conocidos f y p; faltando
conocer “µ” que haga máximo el producto escalar.

Siendo ∇f(p). µ = |∇f(p)|. |µ| Cos θ = |∇f(p)|.(1). Cos θ

Donde : θ , es el ángulo formado por los vectores ∇f(p) y µ

∇f(p). µ , Será máximo si y sólo si Cos θ es máximo, ósea cuando
θ = 0 y ∇f(p) con µ son colineales. Lo cual significa que el
vector unitario µ debe tener el mismo sentido que el vector
gradiente de f en p.


( )
( ) p f
p f


· µ ........ (*)

(*) significa que el vector gradiente de una función f en un punto
p, ∇f(p), de su dominio se orienta en el sentido en el cual f
crece mas rápidamente.















3
2. Gradiente
El gradiente de una función escalar de n variables ( )
n 2 1
x , , x , x f K , denotado por , f ∇ es el vector n-
dimensional

,
`

.
|






· ∇
n 2 1
x
f
, ,
x
f
,
x
f
K f
El gradiente de una función en un punto indica la dirección, a partir de ese punto, en la que dicha
función crece más rápidamente y, además, la dirección ortogonal a las curvas de nivel de f (curvas en
las que la función tiene un valor constante).



El Hessiano de una función escalar de n variables ( )
n 2 1
x , , x , x f K , denotado por
f
H , es la matriz
de dimensión n n ×
]
]
]
]
]
]
]
]
]
]
]
]
]



∂ ∂

∂ ∂

∂ ∂



∂ ∂

∂ ∂

∂ ∂



·
2
n
2
2 n
2
1 n
2
n 2
2
2
2
2
1 2
2
n 1
2
2 1
2
2
1
2
x
f

x x
f

x x
f
x x
f

x
f

x x
f
x x
f

x x
f

x
f
L
M
L
L
f
H

Una matriz cuadrada A es definida positiva si :
y es negativa si la desigualdad es la contraria.

















0 0 ≠ ∀ > x Ax x
T

4
3. Optimización Sin Restricciones

3.1. Condiciones de primer y segundo orden para la existencia de extremos.

Teorema: Si
0
x
r
es una solución óptima (finita) al problema de optimización sin restricciones entonces
0 · ∇f
r
.

Definición: Puntos críticos aquellos que satisfacen la condición 0 · ∇f
r
ó f
r
∇ no ∃ (e.g. extremos,
puntos de silla).

Teorema: Sea la función ( ) x f
r
definida en E
n
y cuyas derivadas parciales de segundo orden son
continuas. Si 0 · ∇f
r
y la matriz Hesiana evaluada en
0
x
r
es definida negativa (positiva), entonces
0
x
r

es un máximo (mínimo) local de ( ) x f
r
.

Como consecuencia del Teorema de Taylor

( ) ( ) ( ) ( ) ( ) ( )( )
0 0 0 0 0 0
! 2
1
x x x x x x x x f x f x f
T T
− − + − ⋅ ∇ + ·
r r r r r r r r
Η

( ) ( ) ( ) ( )( )
0 0 0 0
2
1
x x x x x x f x f
T
− − · −
r r r r r
Η

Si H(
0
x
r
) es definida negativa, f(x) < f(
0
x
r
) y
0
x
r
es un máximo.


Teorema: Si
0
x
r
es un máximo (mínimo) local de f(x) en E
n
luego la matriz Hesiana evaluada en
0
x
r

debe ser definida o semidefinida negativa (positiva).

Resumen:


0
x
r
es un máximo local
0
x
r
no es un máximo local
H(
0
x
r
) es definida negativa y 0 · ∇f
r
þ ý
H(
0
x
r
) es semidefinida negativa y 0 · ∇f
r
þ þ
H(
0
x
r
) es indefinida y 0 · ∇f
r
ý þ



0
x
r
es un mínimo local
0
x
r
no es un mínimo local
H(
0
x
r
) es definida positiva y 0 · ∇f
r
þ ý
H(
0
x
r
) es semidefinida positiva y 0 · ∇f
r
þ þ
H(
0
x
r
) es indeifnida y 0 · ∇f
r
ý þ

5

Teorema: Cualquier función ( ) x f
r
definida en E
n
con primeras derivadas y segundas derivadas
parciales continuas es cóncava (convexa) en una región suficientemente pequeña alrededor de cualquier
máximo (mínimo) local
0
x
r
.

El gradiente y el Hessiano cumplen para funciones de varias variables el mismo rol que las
derivadas primera y segunda en funciones de una variable. Si la función tiene un extremo local el
gradiente se anula y es máximo o mínimo dependiendo de que la matriz Hessiana sea definida positiva
o negativa respectivamente.

Lo expuesto hasta aquí sugiere que para hallar extremos locales es necesario resolver la ecuación
vectorial:

Sin embargo, hasta para funciones sencillas, la resolución del sistema de ecuaciones que se deriva de
la ecuación anterior es casi siempre más complejo que la propia optimización. Es por ello que surgen
diversos métodos que persiguen la solución del problema original basándose en consideraciones
geométricas.

Los métodos de optimización basados en derivadas, se fundamentan en los conceptos de gradiente y
Hessiano, para determinar la dirección de desplazamiento sobre la superficie de la función objetivo.


3.2. Formulación de problemas de optimización

Cualquier problema de optimización, por complejo que sea, puede expresarse en los siguientes
términos:

Encontrar un vector x tal que se minimice una
función objetivo ( ) x f
Sujeto a restricciones de la forma:
( )
m 1,..., k
0 g
k
·
≤ x

donde x es un vector de variables independientes.


La función objetivo puede tener un solo mínimo, en cuyo caso se denomina unimodal, o varios
mínimos locales o globales, en cuyo caso se denomina multimodal.









0 ) ( · ∇ x f

6
3.3. Clasificación de problemas de optimización

• De acuerdo a la forma de ( ) x f y las restricciones:
♦ Programación lineal: ( ) x f y las restricciones son lineales.
♦ Programación no lineal: ( ) x f y/o las restricciones son no lineales.
• De acuerdo a la presencia o no de restricciones:
♦ Optimización no restringida: El problema de optimización no tiene restricciones.
♦ Optimización restringida: El problema de optimización tiene restricciones.
• Según su dimensionalidad:
♦ Optimización unidimensional: función objetivo de una variable.
♦ Optimización multidimensional: función objetivo de varias variables.
• Según el número de funciones objetivo:
♦ Optimización con un objetivo: Una sola función objetivo.
♦ Optimización con múltiples objetivos: Varias funciones objetivo.


Existen varios métodos para resolver un problema de optimización. Estos métodos pueden agruparse
en dos grandes clases: Métodos de optimización basados en derivadas y métodos de optimización no
basados en derivadas.


3.4. Métodos de Optimización Basados en Derivadas

3.4.1. Métodos Básicos de Descenso

Son técnicas básicas utilizadas en la solución iterativa de problemas de minimización sin restricciones.

Ofrecen la forma más simple y directa de resolver estos problemas.

Ofrecen en términos prácticos una referencia con relación a la dificultad de implementación y
velocidad de convergencia.

En general, las técnicas avanzadas se comparan con estas técnicas básicas.

Estructura Básica
1. Se inicia en un punto.
2. Se determina la dirección de descenso mediante una regla fija. (Primera diferencia entre
algoritmos)
3. Y luego se desplaza hacia el mínimo en esa dirección. (Búsqueda lineal)

La forma general de los métodos básicos de descenso se puede expresar como,

d x x α − ·
0 1
r r





7

En seudo código:
algoritmo.setStartingPoint(Double Matrix point)
if (!algoritmo.checkStopCondition())
{
algoritmo.determinarDireccionDescenso();
algoritmo.avanzar();
}


3.5. Búsqueda lineal
Las técnicas de búsqueda lineal son realmente procedimientos de optimización para una sola variable, y
que es realizado repetidamente en problemas de varias variables.

La elección de una dirección de búsqueda tiene un alto costo computacional, es por ello que los
métodos de descenso basados en gradiente sufren modificaciones con el objeto de minimizar o reducir
el número de cálculos de gradiente, Hessiano, e inversión de matrices. La modificación fundamental
consiste en reducir el problema a uno de optimización a lo largo de la dirección de descenso.

Específicamente se debe resolver el sub-problema de optimización:

Encontrar α


) (
min
d f ⋅ −

α
α
1 i
x


donde d es la dirección de descenso. Hallado el α óptimo se inicia una nueva iteración de descenso.

Este sub-problema es sensiblemente más sencillo que la optimización general ya que es un
problema de una dimensión con una única variable α.

La elección de un método adecuado de búsqueda lineal es de gran importancia en un algoritmo de
optimización. La búsqueda lineal es responsable de un alto porcentaje del costo de la evaluación de la
función objetivo.

Estos métodos pueden ser con o sin uso de derivadas.












8
3.5.1. Tipos de Métodos de Búsqueda Lineal

Directos
• Gradiente
• Newton
• Quasi-Newton
• Secante

Interpolación Polinómica
• Cuadrática
• Cúbica
• DSC (Davies, Swann y Campey)

Basados en intervalos
• Bisección
• Búsqueda de Fibonacci
• Búsqueda Dorada

Métodos Inexactos
• Armijo
• Goldstein


3.5.2. Búsqueda de Fibonacci

Este método determina el mínimo valor de una función f sobre un intervalo cerrado [c
1
, c
2
]. Esta
función puede estar definida en un dominio más amplio, pero el método requiere que dicho intervalo de
búsqueda sea definido.

Se asume que f es unimodal.

El mínimo es determinado (al menos aproximadamente) mediante la evaluación en un cierto número de
puntos. Se pretende definir una estrategia de búsqueda que seleccione la observación siguiente basada
en los valores funcionales de las observaciones anteriores.

Esto se define según el siguiente problema:

• Encontrar como seleccionar sucesivamente N observaciones, sin contar con un conocimiento
explícito de la función, de forma tal que podamos encontrar la más pequeña región de
incertidumbre posible en donde se encuentre el mínimo.

Esta región de incertidumbre es determinada en cualquier caso por: las observaciones (sus valores
funcionales) y la suposición de que f es unimodal.

Luego que encontremos los valores funcionales en N puntos dentro del intervalo cerrado [c
1
, c
2
]
c
1
≤ x
1
≤ … ≤ x
N-1
≤ x
N
≤ c
2



9
la región de incertidumbre es el intervalo [x
k-1
, x
k+1
] donde x
k
es el mínimo de los N puntos evaluados.
En ese intervalo de encuentra el mínimo.

La estrategia para seleccionar sucesivamente observaciones para obtener la región de incertidumbre
más pequeña se describe a continuación:

d
1
= c
2
– c
1
; es la amplitud inicial de la incertidumbre

d
k
à es la amplitud de la región de incertidumbre luego de k observaciones



Si son realizadas N observaciones se tiene que
1
1
d
F
F
d
N
k N
k

,
`

.
|
·
+ −


Donde F
k
son los números de la secuencia Fibonacci generados por la relación:

F
N
= F
N -1
+ F
N -2
donde F
0
= F
1
= 1

Donde cada número después de los dos primeros representa la suma de los dos precedentes.

Procedimiento para la reducción de la sección de incertidumbre:
1. Especificar N
2. Calcular
N
N
F
F
1 −

3. Colocar simétricamente desde los extremos del intervalo inicial a distancia
1
1
d
F
F
N
N

,
`

.
|

, dos
observaciones
4. De acuerdo a donde se encuentre la muestra con menor valor funcional se determina la región
de incertidumbre,
1
1
2
d
F
F
d
N
N

,
`

.
|
·


5. La tercera muestra es colocada simétricamente dentro de este nuevo intervalo con respecto a la
observación ya incluida en el intervalo, de forma tal que la amplitud de la región de
incertidumbre sea
1
2
d
F
F
N
N

,
`

.
|












10
3.5.3. Búsqueda de la Sección Dorada

Pertenece a los métodos de
búsqueda lineal basados en
intervalos, además es una versión
mejorada de la búsqueda de
Fibonacci.

En la búsqueda de la Sección
Dorada se usan tres valores de la
función para detectar el valor
extremo, se toma un cuarto número,
y se determina donde ocurre el
mínimo, en los primeros tres o los
últimos tres valores.

Se minimiza la evaluación de la
función objetivo al reemplazar los
valores anteriores con los nuevos,
haciendo que se cumplan las
siguientes condiciones:

l
0
= l
1
+ l
2


1
2
0
1
l
l
l
l
·

la primera condición específica que la suma de las dos sublongitudes l
1
y l
2

debe ser igual a la longitud original del intervalo. La segunda indica que el
cociente o razón de las longitudes debe ser igual.

sustituyendo,
1
2
2 1
1
l
l
l l
l
·
+

se toma el reciproco y haciendo
1
2
l
l
R · , se llega a
R
R
1
1 · +

0 1
2
· − + R R

resolviendo para la raíz positiva

( )
K 61803 . 0
2
1 5
2
1 4 1 1
·

·
− − + −
· R à este valor se conoce como la Razón Dorada

y permite encontrar de forma eficiente el óptimo.

• Se comienza con los valores extremos del intervalo x
l
, x
u
que contienen el extremo local de f(x).
x
l
x
u
l
0
l
1
l
2
Primera
Iteración
l
2
Segunda
Iteración
x
l
x
u
l
0
l
1
l
2
Primera
Iteración
l
2
Segunda
Iteración

10
• Dos puntos interiores de escogen de acuerdo a
( )
l u
x x d −

·
2
1 5

x
1
= x
l
+ d
x
2
= x
u
- d
• Se evalúa la función en los dos puntos interiores
o Si f(x
1
) < f(x
2
) à x
l
= x
2
; x
2
= x
1
; ( )
l u l
x x x x −

+ ·
2
1 5
1

o Si f(x
2
) < f(x
1
) à x
u
= x
1
; x
1
= x
2
; ( )
l u u
x x x x −

− ·
2
1 5
2





A continuación se presentan algunos métodos de Búsqueda Lineal por ajuste de curvas. Estos se basan
en que en la mayoría de los problemas, además de asumir que la función objetivo es unimodal, también
se asume que posee cierto grado de suavidad (derivable). Entonces se pueden desarrollar técnicas más
eficientes que aprovechen esta propiedad. Técnicas de esta naturaleza se basan en procedimientos de
ajuste de curvas suaves para estimar el mínimo.


3.5.4. Ajuste Cuadrático (Método DSC, Davies, Swann y Campey)

El método DSC es un método de búsqueda lineal por ajuste de curvas (interpolación polinómica), es
recomendado para determinar la región donde se encuentra el mínimo en funciones de una sola
variable.

En la búsqueda unidimensional DSC, se toman pasos cuya dimensión se va incrementando
sucesivamente hasta que el mínimo es sobrepasado y luego se realiza una interpolación cuadrática. En
la figura se muestra el procedimiento del método DSC

x
(m-3)
1
∆x 2∆x 4∆x 8∆x
x
(m-2)
x
(m-1)
x
(m+1)
x
(m)
2
3
4
6
5
f(x)
x
(m-3)
1
∆x 2∆x 4∆x 8∆x
x
(m-2)
x
(m-1)
x
(m+1)
x
(m)
2
3
4
6
5
f(x)

1. Se evalúa f(x) en el punto inicial x
(0)

Si f(x
(0)
+ ∆x) ≤ f(x
(0)
), pase al paso 2
Si f(x
(0)
+ ∆x) > f(x
(0)
), haga ∆x = - ∆x y pase al paso 2.

11

2. Calcule x
(k+1)
= x
(k)
+ ∆x

3. Calcule f(x
(k+1)
)

4. Si f(x
(k+1)
) ≤ f(x
(k)
), duplique ∆x (∆x = 2∆x) y regrese al paso 2 con k = k+1
Si f(x
(k+1)
) > f(x
(k)
), denote x
(k+1)
como x
(m)
, x
(k)
como x
(m-1)
, etc., se reduce ∆x a la mitad y se
regresa al paso 2 y 3 para un solo cálculo adicional.

5. De los 4 valores igualmente espaciados de x en el conjunto { x
(m+1)
, x
(m)
, x
(m-1)
, x
(m-2)
}, descarte
x
(m)
o x
(m-2)
, el que esté más lejano de la x de menor valor funcional. Los tres valores restantes
del conjunto pueden ser denotados como x
(a)
, x
(b)
, x
(c)
, donde x
(b)
es el punto central y
x
(a)
= x
(b)
- ∆x y x
(c)
= x
(b)
+ ∆x

6. Se realiza una interpolación cuadrática para estimar x* (el valor de la variable independiente
correspondiente al mínimo de f(x))
( )
( )
( )
( )
( ) [ ]
( )
( )
( )
( )
( )
( ) [ ]
c b a
c a
b
x f x f x f
x f x f x
x x x
+ −

+ · ≈
2 2
*
ˆ
*

donde ∆x = x
(a)
- x
(b)


Estos pasos completan la primera etapa del método DSC. Para continuar, se realiza el mismo
procedimiento desde *
ˆ
x o x
(c)
, si f(x
(c)
) < f( *
ˆ
x ), se reduce ∆x y se inicia el procedimiento.


3.5.5. Ajuste Cúbico

Dados x
k-1
y x
k
junto a f(x
k-1
), f’(x
k-1
), f(x
k
), y f’(x
k
) es posible ajustar una ecuación cúbica en los puntos.

El punto x
k+1
(mínimo) puede ser determinado como el punto mínimo relativo de esta ecuación cúbica.

( )
( )
( ) ( )
]
]
]

+ −
− +
− − ·

− +
2 1
1 2
1 1
2 ' '
'
u x f x f
u u x f
x x x x
k k
k
k k k k

donde,
( ) ( )
( ) ( )
( ) ( ) [ ]
2
1
1
2
1 2
1
1
1 1
' '
3 ' '
k k
k k
k k
k k
x f x f u u
x x
x f x f
x f x f u




− ·


− + ·











12
3.5.6. Método del Gradiente

Supongamos que f(x) es una función de una
variable a ser minimizada y que f(x) y f ’(x)
existen.

x
k+1
= x
k
– f ’(x
k
)

Un factor de escalamiento es empleado para
escalar el gradiente

x
k+1
= x
k
– αf ’(x
k
) à Método del gradiente
modificado

Si g(x) = αf ’(x) à Nótese que el punto x
k+1
no depende de f(x)
x
k+1
= x
k
– g(x
k
)

En un principio el valor de α ∈ (0,1], es decir, es un parámetro ajustable seleccionado por el análista.

Es deseable que α decrezca a medida que progresa la búsqueda, lo que hace que tengamos dos
parámetros por ajustar: α
0
y la tasa de disminución de α.

Con el método de Newton tales parámetros son calculados directamente en cada iteración.

3.5.7. Método de Newton

Supongamos una función f de una variable a ser minimizada y supongamos que en x
k
es posible evaluar
f(x
k
), f ’(x
k
) y f ”(x
k
). Entonces es posible construir una función cuadrática a partir del desarrollo de
Taylor:

( ) ( ) ( ) ( ) ( )( )
2
' '
2
1
'
k k k k k
x x x f x x x f x f x q − + − ⋅ + ·

se puede estimar x
k+1
determinando el punto donde
la derivada de q se hace cero.

( ) ( ) ( )( ) 0 ' ' ' '
1 1
· − + ·
+ + k k k k k
x x x f x f x q

( )
( )
k
k
k k
x f
x f
x x
' '
'
1
− ·
+
Nótese que no depende de f(x) y
( )
k
x f ' '
1
· α

El método puede ser visto como la resolución iterativa de ecuaciones de la forma g(x) = 0, donde,
cuando es aplicada a minimización, hacemos g(x) ≡ f ’(x
k
)

( )
( )
k
k
k k
x g
x g
x x
'
1
− ·
+

x
k
f’(x)
x
k+1
f(x)
x
k
f’(x)
x
k+1
f(x)
x
k
x
k+1
f(x)
x
k
x
k+1
f(x)

13

Implementación
Para la implementación de este método es necesario calcular la primera y segunda derivada de la
función como derivadas direccionales, obteniendo un valor escalar, de la siguiente manera,

( ) ( ) d x f x f
k k
r
⋅ ∇ · '

( ) ( ) d x H d x f
k
T
k
r r
⋅ ⋅ · ' '

donde d es el vector unitario de la dirección de descenso



3.5.8. Método Quasi-Newton

Cuando no es posible evaluar analíticamente las primeras y segundas derivadas, se pueden emplear
métodos de diferencias finitas para calcularlas:

( )
( ) ( )
( )
( ) ( ) ( )
2
2
' '
2
'
x
x x f x f x x f
x f
x
x x f x x f
x f

∆ ∆

∆ ∆ − + − +
·
− − +
·



3.5.9. Convergencia de Métodos de Ajuste de Curvas

Se han analizado la convergencia de estos métodos en la vecindad de la solución. La aplicación directa
de estos métodos en su forma pura tiene el riesgo de desviar el proceso sin sentido. Es decir, el proceso
de búsqueda puede nunca estar cerca de un mínimo global. Para evitar esto se debe combinar nuestro
conocimiento del comportamiento local con condiciones que garanticen la convergencia.

En este sentido: (e.g. Ajuste cuadrático DSC)
Asumamos una función f que se desee minimizar, tal función es unimodal y continua, y ∈ C
2
. Se inicia
el proceso de búsqueda lineal identificando a lo largo de la dirección de búsqueda los tres puntos
siguientes: x
1
, x
2
y x
3
tal que x
1
< x
2
< x
3
y f(x
1
) ≥ f(x
2
) ≤ f(x
3
)

Esta secuencia de puntos puede ser determinada como lo hace DSC.

La principal razón de usar este patrón es que su ajuste cuadrático tendrá un mínimo (en lugar de un
máximo) y dicho mínimo caerá en el intervalo [x
1
, x
3
].

El punto x
4
determinado a partir del ajuste cuadrático y f(x
4
) es evaluado, este reemplaza a uno de los
puntos de la triada anterior (x
1
, x
2
, x
3
).
Si f(x
4
) ≤

f(x
2
) à (x
1
, x
2
, x
3
)
n
= (x
2
, x
4
, x
3
)
Si f(x
2
) <

f(x
4
) ≤

f(x
3
) à (x
1
, x
2
, x
3
)
n
= (x
1
, x
2
, x
4
)

Luego se prosigue iterativamente ajustando otra ecuación cuadrática y continua.

14

Se sugiere y se acepta implícitamente que uno debe requerir que f(x
k+1
) <

f(x
k
). Si tal inecuación no se
cumple en algún sitio se debe emplear un método especial para encontrar un mejor x
k+1
que si la
satisfaga.

Esta construcción puede ser empleada para producir procedimientos efectivos con los restantes
métodos de ajuste.


3.5.10. Búsqueda Lineal Inexacta

En la práctica no se determina el mínimo de la búsqueda lineal en forma exacta. En este sentido, es
deseable sacrificar precisión en la búsqueda lineal con el propósito de favorecer el tiempo de computo
general.

(Recordemos que el mínimo en una búsqueda local no tiene porque ser el mínimo de la función).

La imprecisión es generalmente introducida simplemente terminando la búsqueda lineal antes de que
converja.

La naturaleza exacta de la imprecisión depende de:
• La técnica de búsqueda empleada
• El criterio de parada

Criterios de terminación de la búsqueda lineal

• Prueba de porcentaje
Sea d x x
k k
r
r r
α − ·
+1
; este criterio determina α para estar dentro de un porcentaje del verdadero valor.
Específicamente, si se selecciona una constante c tal que 0 < c < 1 (típicamente c = 0.1) y el parámetro
α en la búsqueda lineal es determinado de forma tal que satisfaga α α α c ≤ − donde α es el
verdadero valor de minimización.

Por ejemplo, para el caso de ajuste por interpolación cuadrática (DSC) se usa un patrón de tres puntos
aplicado a una función unimodal, se sabe que el punto mínimo verdadero se encuentra entre en
intervalo cubierto por los tres puntos, por lo tanto se puede deducir un límite para el máximo error
fraccional posible. Entonces, se realizan las iteraciones hasta que este límite sea menor que c.


• Regla de Armijo
Primero garantiza que α no sea muy grande y luego que no sea muy pequeño.

Sea, ( ) ( )
k k
d x f α α φ + ·

La regla de Armijo es implementada al considerar la función φ(0) + ε φ’(0)α para ε ∈ (0,1). Esta
función está representada por la línea segmentada en la figura.


15
Un valor de α se considera que no es muy grande si el
valor de la función cae debajo de la línea punteada; es
decir, si φ(α) ≤ φ(0) + ε φ’(0) α ...................(*)

Para asegurar que α no sea muy pequeño, un valor de
η > 1 es seleccionado, y α no es considerado muy
pequeño si φ(ηα) > φ(0) + ε φ’(0) ηα , si α crece η
veces falla el criterio anterior.

Regla de Armijo como método de Búsqueda lineal:
1. Se comienza con una α arbitrario
2. Si se satisface (*), se incrementa α al multiplicarlo por η hasta que no se satisfaga (*) y la
penúltima α es seleccionada.
3. Si inicialmente, el α no satisface (*) entonces se divide por η hasta que se satisfaga (*)

Valores típicos: η = 2 ó η = 10, y ε = 0.2







• Prueba de Goldstein
Similarmente a la regla de Armijo, α se considera que no es muy grande si φ(α) ≤ φ(0) + ε φ’(0) α ...(*)
con 0 < ε < ½

α se considera que no es muy pequeño
si φ(α) > φ(0) + (1 - ε)φ’(0) α

un valor aceptable de α esta dado por
( ) ( )
( )
ε
α
ε − ≤



+
1
1
k k
k k
d x f
x f x f

0.2 ≤ ………………≤ 0.8












Intervalo aceptable
φ
α
Intervalo aceptable
φ
α
Intervalo aceptable
φ
α
Intervalo aceptable
φ
α

16
3.6. Métodos Básicos de Descenso para funciones de varias variables

3.6.1. Método del Descenso más Rápido
Este método, denominado también método del gradiente, es una de las técnicas más antiguas para
minimizar una función definida en un espacio multidimensional. Su filosofía es muy sencilla: la
dirección contraria a la del vector gradiente en un punto es la dirección de más rápido decrecimiento de
la función en ese punto.

El procedimiento a seguir es el siguiente:

1.- Se selecciona un punto inicial
i
x sobre la superficie y se determina el gradiente ( )
i
x f ∇ en ese
punto.

2. Se determina un nuevo punto según la fórmula:
( )
i i 1 i
x f x x ∇ − ·
+
α
donde α es un número positivo.

3. Se repite el paso 2 hasta que se encuentre un punto
1 i
x
+
tal que
( ) 0 · ∇
+1 i
x f

A continuación se ilustra el método con un ejemplo.

Ejemplo 1: Se desea minimizar la función

2 2
y x 20 ) y , x ( f + + − ·

En la Figura 3.1 se muestra la superficie de esta función, evaluada en la región

( ) [ ] [ ] { ¦ 2 2 2 2 , y , x y , x − ∈ ∧ − ∈

Como puede notarse en la gráfica, esta función es unimodal, es decir, tiene un único mínimo. Dicho
mínimo está ubicado en el punto (0,0). Supongamos que se asume como punto inicial, el punto (-1.7,
1.7635).

El gradiente de esta función en un punto cualquiera ( )
o o
y , x , está dado por:
( )
o o
y 2 , x 2 · ∇f

17
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
x
y


Figura 3.1  Curvas de nivel de la función objetivo del ejemplo 1

En la Figura 3.1 se muestran las curvas de nivel de la función así como también el punto inicial (con
una x) y la dirección del gradiente en dicho punto (con una flecha), y el punto en el que se ubica el
mínimo (con una o). Como puede observarse, las curvas de nivel corresponden a círculos concéntricos
con centro en el origen. Según el método, el segundo punto estaría ubicado sobre la recta que contiene
al vector dirección del gradiente, y a una distancia determinada por el valor de α. En la Figura 3.2 se
ilustra la evolución del método para un 25 . 0 · α . Los círculos representan las aproximaciones del
mínimo calculadas por el método.

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2

Figura 10.4
Figura 3.2 – Evolución del método del descenso más rápido con α=0.25,
para la función objetivo del ejemplo 1
x

18
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2

Figura 3.3  Evolución del método del descenso más rápido con α=0.9, para la función objetivo del
ejemplo 1


En la Figura 3.3 se ilustra nuevamente la aplicación del método, pero ahora con un valor 9 . 0 · α .
Como puede observarse, el segundo punto se pasa del valor del mínimo para después retornar y
estabilizarse en dicho valor.

En los dos casos anteriores, la dirección del gradiente siempre apunta hacia el mínimo global de la
función. Esto se debe a que las curvas de nivel son circulares. Cuando las curvas de nivel tienen otra
forma, la dirección del gradiente, que es ortogonal a la curva de nivel en el punto en el que se calcula,
no apunta necesariamente hacia el mínimo. En estos casos, la dirección de búsqueda del mínimo
cambia de una iteración a otra, haciendo que el proceso sea más lento.

Ejemplo 2: Se desea minimizar la función
2 2
y x 3 20 ) y , x ( f + + − ·
En la Figura 3.4 se muestra la superficie de esta función, evaluada en la región
[ ] [ ] { ¦ 2 , 2 y 2 , 2 x ) y , x ( − ∈ ∧ − ∈


19

Figura 3.4 – Función objetivo del ejemplo 2

El gradiente de esta función en un punto cualquiera ( )
o o
y , x , está dado por:
( )
o o
y 2 , x 6 · ∇f

Esta función, al igual que la anterior, es unimodal, con el mínimo ubicado en el punto (0,0). En este
caso se asume como punto inicial, el punto (-1.7, 1.7). Como puede observarse en la Figura 3.5, las
curvas de nivel de esta función son de forma elíptica, y el cambio de la dirección de búsqueda de una
iteración a otra, se observa en la línea en forma de zigzag que se muestra en dicha Figura.

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2


Figura 3.5 – Ilustración del método del descenso más rápido,
para la función objetivo del ejemplo 2


20

3.6.2. Método de Newton
En este caso, la dirección de búsqueda se determina utilizando la segunda derivada de la función
objetivo. El método aproxima la función objetivo f en la vecindad de un mínimo con una serie de
Taylor truncada hasta el término de segundo orden, es decir:

( ) ( ) ( ) ( ) ( )
1 i f
T
1 i 1 i 1 i a
x x H x x x x f x f x f
− − − −
− − + − ⋅ ∇ + ·
2
1


Dado que la aproximación
a
f es una función de segundo orden, ésta es unimodal, y su mínimo es una
buena aproximación del mínimo de la función objetivo. El mínimo de la función
a
f se determina
haciendo 0 f
'
a
· y calculando el valor de
i
x que satisface la ecuación. Se obtiene entonces:
( ) 0 · − + ∇
−1 i i f
x x H f





(a) (b)
Figura 3.6 – Direcciones de búsqueda calculada por los métodos de descenso más rápido y de Newton.
Para una función con curvas de contorno: (a) circulares, y (b) elípticas

Si la inversa de
f
H existe, se tiene que:
f H x x
1
f
1 i i
∇ ⋅ − ·



que es el denominado método de Newton o de Newton-Raphson.

En la Figura 3.6a y Figura 3.6b se muestran las direcciones calculadas por los métodos del descenso
más rápido y de Newton para el caso de curvas de nivel circulares y elípticas, respectivamente. Como
puede observarse, en la Figura 3.6a ambas direcciones coinciden y apuntan hacia el mínimo, no así en
la Figura 3.6b donde no coinciden ya que la dirección calculada por el método de Newton apunta hacia
el mínimo, mientras que la calculada por el método del descenso más rápido es perpendicular a la curva
de nivel.


21
Ejemplo 3: Para efectos de comparación, en este ejemplo se minimiza la misma función del ejemplo
anterior:
2 2
y x 3 20 ) y , x ( f + + − ·
utilizando el método de Newton.

Como se vio anteriormente, el gradiente de esta función en un punto cualquiera ( ) y , x , está dado por:

( ) y 2 , x 6 · ∇f

mientras que el Hessiano es la matriz:

]
]
]
]

· ⇒
]
]
]

·

2
1
0
0
6
1
2 0
0 6
1
f
H H
f



La aproximación de esta función utilizando la serie de Taylor es exacta, debido a que es una función
cuadrática. Entonces, el mínimo que calcula el método, coincide con el mínimo deseado. Por esta
razón, el método encuentra el mínimo en una iteración.
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2


Figura 3.7 – Evolución del método de Newton, para la función objetivo del ejemplo 3

En la Figura 3.7 se muestra la evolución del proceso de minimización para este ejemplo. Puede
observarse la convergencia del método en una iteración.

En los casos en los que la función no es cuadrática, se hacen aproximaciones sucesivas del mínimo
utilizando la ecuación:

f H x x
1
f 1 i i
∇ ⋅ ⋅ − ·


α


22
donde α es positivo, hasta que se encuentra un valor cercano según una tolerancia especificada. En
cada punto en los que se evalúe la ecuación anterior, debe ocurrir que el Hessiano sea una matriz
positiva definida (todos sus valores propios son positivos), para que la dirección de búsqueda sea una
dirección descendente. Los valores propios de una matriz cuadrada A de dimensión , n n × son las raíces
λ del polinomio:

( ) A I − λ det

el cual se conoce como polinomio característico de la matriz A. I es la matriz identidad de dimensión
. n n× En general, la condición de matriz positiva definida se cumple en la vecindad del mínimo, pero
no existe garantía que ocurra en puntos lejanos al mismo. Existe un conjunto de modificaciones al
método de Newton, para superar este inconveniente. Entre otros, puede citarse el método de
Levenberg-Marquardt.





3.6.3. Levenberg-Marquardt
Está dado por la ecuación:
( ) f H I x x
f 1 i i
∇ ⋅ + − ·


1
λ α

donde α y λ son positivos e I es la matriz identidad. La idea es seleccionar λ de manera que la matriz
f
H I − λ sea positiva definida. La ecuación anterior se aproxima al método del descenso más rápido si
∞ → λ , y al método de Newton 0 → λ . Usualmente se seleccionan valores iniciales grandes de λ, los
cuales se disminuyen a medida que nos aproximamos al mínimo.

Los tres métodos discutidos hasta ahora son métodos de optimización local, debido a que están
basados únicamente en información proveniente de las derivadas de la función. Esto significa que si la
función objetivo es multimodal, es decir, tiene varios mínimos locales y globales, el método encontrará
aquel mínimo (global o local) que esté más cercano al punto inicial seleccionado.

Ejemplo 4: Minimice la función:

( )
( ) ( ) ( ) ( )
2 2 2 2
5 . 1 y 1 x 1
6 . 0
1 y 5 . 1 x 2 1
1
y , x f
− + + +

+ + − +
− ·

En la Figura 3.8 se muestra la superficie definida por esta función. Como puede observarse la función
tiene dos mínimos (bimodal): uno local, ubicado en el punto (-1,1.5) y otro global, ubicado en el punto
(1.5,-1). Si se utiliza un método basado en derivadas, se encontrará el mínimo más cercano al punto
inicial seleccionado.

23

Figura 3.8 – Función objetivo del ejemplo 4

En la Figura 3.9 se muestran las curvas de nivel y la evolución del método del descenso más rápido en
la búsqueda del mínimo, a partir de dos puntos iniciales: (-2.8,2.8), desde el cual se llega al mínimo
global y el otro, (2.8,-2.8) desde donde se llega al mínimo local. Utilizando el método de Newton se
obtiene un resultado similar.

Existen algunas modificaciones a los métodos basados en gradiente para convertirlos en métodos de
optimización global, por ejemplo, comenzar el proceso iterativo desde varios puntos iniciales.

En todos los ejemplos anteriores la función objetivo está definida explícitamente, por lo que, el cálculo
del gradiente y del Hessiano se hace de manera analítica. Sin embargo, este no es el caso en la mayoría
de las aplicaciones reales de métodos de optimización, en las cuales se hace necesario calcular
aproximaciones numéricas tanto para el gradiente, como para el Hessiano.

-3 -2 -1 0 1 2 3
-3
-2
-1
0
1
2
3
x
y


24
Figura 3.9 – Evolución del método del descenso más rápido, para la función objetivo del ejemplo 4




En la práctica se utilizan estrategias de descenso que utilizan varios métodos, de la siguiente manera:
1. Se emplea el método de Newton clásico, si no hay descenso (esto lo responde búsqueda lineal)
2. Se emplea el método de Levenberg-Marquardt con un λ inicial, λ
k
= 0.001, si no hay descenso
se incrementa en una razón, λ
k
= β⋅λ
k

3. Si no hay descenso después de varios intentos, se emplea el método del descenso más rápido.

Índice General
1. 2. 3. Derivada Direccional ........................................................................................................................ 2 Gradiente........................................................................................................................................... 3 Optimización Sin Restricciones ........................................................................................................ 4 3.1. 3.2. 3.3. 3.4. Condiciones de primer y segundo orden para la existencia de extremos.................................. 4 Formulación de problemas de optimización ............................................................................ 5 Clasificación de problemas de optimización ............................................................................ 6 Métodos de Optimización Basados en Derivadas..................................................................... 6 Métodos Básicos de Descenso .......................................................................................... 6

3.4.1. 3.5.

Búsqueda lineal ......................................................................................................................... 7 Tipos de Métodos de Búsqueda Lineal ............................................................................. 8 Búsqueda de Fibonacci ..................................................................................................... 8 Búsqueda de la Sección Dorada...................................................................................... 10 Ajuste Cuadrático (Método DSC, Davies, Swann y Campey) ....................................... 10 Ajuste Cúbico.................................................................................................................. 11 Método del Gradiente...................................................................................................... 12 Método de Newton.......................................................................................................... 12 Método Quasi-Newton.................................................................................................... 13 Convergencia de Métodos de Ajuste de Curvas ............................................................. 13 Búsqueda Lineal Inexacta ........................................................................................... 14

3.5.1. 3.5.2. 3.5.3. 3.5.4. 3.5.5. 3.5.6. 3.5.7. 3.5.8. 3.5.9. 3.5.10. 3.6.

Métodos Básicos de Descenso para funciones de varias variables ......................................... 16 Método del Descenso más Rápido .................................................................................. 16 Método de Newton.......................................................................................................... 20 Levenberg-Marquardt ..................................................................................................... 22

3.6.1. 3.6.2. 3.6.3.

1

. Será máximo si y sólo si Cos θ es máximo. 2 .. Lo cual significa que el vector unitario µ debe tener el mismo sentido que el vector gradiente de f en p.. µ . por µ : Dµ f(p) = ∇f(p). Derivada Direccional La derivada direccional permite tener información del comportamiento de la función si sus variables se modifican siguiendo el sentido indicado por el vector gradiente. de su dominio se orienta en el sentido en el cual f crece mas rápidamente.. partiendo del punto p.(1). µ Cos θ = ∇f(p). Cos θ Donde : θ . Siendo ∇f(p). En esta expresión se suponen ya conocidos f y p. para que los valores de f crezcan mas rápidamente? Como la rapidez está dada por : ∇f(p). µ= ∇f ( p ) .µ.1. es el ángulo formado por los vectores ∇f(p) y µ ∇f(p).. ∇f ( p ) (*) (*) significa que el vector gradiente de una función f en un punto p.. ósea cuando θ = 0 y ∇f(p) con µ son colineales. ∇f(p). faltando conocer “µ” que haga máximo el producto escalar. La Derivada direccional de f en p según el vector unitario µ [ Dµ f(p) ] es el producto escalar del gradiente en p.. µ ¿En qué sentido deberían desplazarse las variables de f. µ = ∇f(p).

la dirección ortogonal a las curvas de nivel de f (curvas en las que la función tiene un valor constante). x n ) . El Hessiano de una función escalar de n variables f ( x1 . denotado por ∇f . a partir de ese punto. en la que dicha función crece más rápidamente y. x n ) .2. es el vector ndimensional  ∂f ∂f ∂f   ∇f =   ∂x .K .K . ∂x . es la matriz de dimensión n × n ∂2 f ∂2 f ∂2 f  L   2 ∂x1∂x 2 ∂x1∂x n   ∂x1   2 ∂2 f ∂2 f   ∂ f L 2 H f =  ∂x 2 ∂x1 ∂x 2 ∂x n  ∂x2    M    ∂2 f ∂2 f ∂2 f  L   ∂x ∂x 2 ∂x n ∂x 2 ∂xn   n 1   Una matriz cuadrada A es definida positiva si : x T Ax > 0 ∀x ≠ 0 y es negativa si la desigualdad es la contraria. además. denotado por H f . Gradiente El gradiente de una función escalar de n variables f ( x1 . x 2 . ∂x  2 n  1 El gradiente de una función en un punto indica la dirección.K . 3 . x 2 .

Optimización Sin Restricciones 3. extremos. r r Teorema: Si x0 es un máximo (mínimo) local de f(x) en En luego la matriz Hesiana evaluada en x0 debe ser definida o semidefinida negativa (positiva).3. Como consecuencia del Teorema de Taylor r r r r r r r 1 r T f ( x ) = f ( x0 ) + ∇f T ( x0 ) ⋅ ( x − x0 ) + ( x − x0 ) Η ( x0 )( x − x0 ) 2! r r r r 1 r T f ( x ) − f ( x 0 ) = ( x − x 0 ) Η ( x0 )( x − x0 ) 2 r r r Si H( x0 ) es definida negativa. r r Definición: Puntos críticos aquellos que satisfacen la condición ∇f = 0 ó ∇f no ∃ (e. Si ∇f = 0 y la matriz Hesiana evaluada en x0 es definida negativa (positiva). puntos de silla).1. Resumen: r r H( x0 ) es definida negativa y ∇f = 0 r r H( x0 ) es semidefinida negativa y ∇f = 0 r r H( x0 ) es indefinida y ∇f = 0 r x0 es un máximo local r x0 no es un máximo local þ þ ý r x0 es un mínimo local þ ý þ r x0 no es un mínimo local r r H( x0 ) es definida positiva y ∇f = 0 r r H( x0 ) es semidefinida positiva y ∇f = 0 r r H( x0 ) es indeifnida y ∇f = 0 þ þ ý 4 ý þ þ . r Teorema: Sea la función f ( x ) definida en En y cuyas derivadas parciales de segundo orden son r r r continuas. entonces x0 r es un máximo (mínimo) local de f ( x ) . Condiciones de primer y segundo orden para la existencia de extremos. f(x) < f( x0 ) y x0 es un máximo.g. r Teorema: Si x0 es una solución óptima (finita) al problema de optimización sin restricciones entonces r ∇f = 0 .

hasta para funciones sencillas. en cuyo caso se denomina unimodal.. la resolución del sistema de ecuaciones que se deriva de la ecuación anterior es casi siempre más complejo que la propia optimización.r Teorema: Cualquier función f ( x ) definida en En con primeras derivadas y segundas derivadas parciales continuas es cóncava (convexa) en una región suficientemente pequeña alrededor de cualquier r máximo (mínimo) local x0 .2.. Es por ello que surgen diversos métodos que persiguen la solución del problema original basándose en consideraciones geométricas. La función objetivo puede tener un solo mínimo. Los métodos de optimización basados en derivadas. para determinar la dirección de desplazamiento sobre la superficie de la función objetivo.. puede expresarse en los siguientes términos: Encontrar un vector x tal que se minimice una función objetivo f ( x ) Sujeto a restricciones de la forma: gk (x) ≤ 0 k = 1. Formulación de problemas de optimización Cualquier problema de optimización. Lo expuesto hasta aquí sugiere que para hallar extremos locales es necesario resolver la ecuación vectorial: ∇f ( x ) = 0 Sin embargo. Si la función tiene un extremo local el gradiente se anula y es máximo o mínimo dependiendo de que la matriz Hessiana sea definida positiva o negativa respectivamente. o varios mínimos locales o globales. m donde x es un vector de variables independientes. se fundamentan en los conceptos de gradiente y Hessiano. en cuyo caso se denomina multimodal. 5 .. por complejo que sea. 3. El gradiente y el Hessiano cumplen para funciones de varias variables el mismo rol que las derivadas primera y segunda en funciones de una variable.

Ofrecen la forma más simple y directa de resolver estos problemas. Clasificación de problemas de optimización • De acuerdo a la forma de f ( x ) y las restricciones: ♦ Programación lineal: f ( x ) y las restricciones son lineales. ♦ Optimización restringida: El problema de optimización tiene restricciones. Estructura Básica 1. Se determina la dirección de descenso mediante una regla fija.4. En general. Métodos Básicos de Descenso Son técnicas básicas utilizadas en la solución iterativa de problemas de minimización sin restricciones. • De acuerdo a la presencia o no de restricciones: ♦ Optimización no restringida: El problema de optimización no tiene restricciones. • Según el número de funciones objetivo: ♦ Optimización con un objetivo: Una sola función objetivo. Y luego se desplaza hacia el mínimo en esa dirección. ♦ Optimización con múltiples objetivos: Varias funciones objetivo. (Búsqueda lineal) La forma general de los métodos básicos de descenso se puede expresar como. ♦ Programación no lineal: f ( x ) y/o las restricciones son no lineales.1.3.4. Se inicia en un punto. las técnicas avanzadas se comparan con estas técnicas básicas. 2. r r x1 = x 0 − αd 6 .3. Estos métodos pueden agruparse en dos grandes clases: Métodos de optimización basados en derivadas y métodos de optimización no basados en derivadas. Métodos de Optimización Basados en Derivadas 3. • Según su dimensionalidad: ♦ Optimización unidimensional: función objetivo de una variable. Ofrecen en términos prácticos una referencia con relación a la dificultad de implementación y velocidad de convergencia. (Primera diferencia entre algoritmos) 3. Existen varios métodos para resolver un problema de optimización. ♦ Optimización multidimensional: función objetivo de varias variables. 3.

La búsqueda lineal es responsable de un alto porcentaje del costo de la evaluación de la función objetivo. Hessiano.determinarDireccionDescenso(). es por ello que los métodos de descenso basados en gradiente sufren modificaciones con el objeto de minimizar o reducir el número de cálculos de gradiente. La elección de un método adecuado de búsqueda lineal es de gran importancia en un algoritmo de optimización. Específicamente se debe resolver el sub-problema de optimización: Encontrar α min α f (x i −1 − α ⋅ d ) donde d es la dirección de descenso. algoritmo.En seudo código: algoritmo. Hallado el α óptimo se inicia una nueva iteración de descenso. La modificación fundamental consiste en reducir el problema a uno de optimización a lo largo de la dirección de descenso.avanzar(). Estos métodos pueden ser con o sin uso de derivadas. La elección de una dirección de búsqueda tiene un alto costo computacional. e inversión de matrices.setStartingPoint(Double Matrix point) if (!algoritmo. y que es realizado repetidamente en problemas de varias variables. Este sub-problema es sensiblemente más sencillo que la optimización general ya que es un problema de una dimensión con una única variable α. 7 .5. } 3.checkStopCondition()) { algoritmo. Búsqueda lineal Las técnicas de búsqueda lineal son realmente procedimientos de optimización para una sola variable.

El mínimo es determinado (al menos aproximadamente) mediante la evaluación en un cierto número de puntos. Esta función puede estar definida en un dominio más amplio.3. Luego que encontremos los valores funcionales en N puntos dentro del intervalo cerrado [c1.1. Swann y Campey) Basados en intervalos • Bisección • Búsqueda de Fibonacci • Búsqueda Dorada Métodos Inexactos • Armijo • Goldstein 3. Esto se define según el siguiente problema: • Encontrar como seleccionar sucesivamente N observaciones. c2]. Se asume que f es unimodal.5. Búsqueda de Fibonacci Este método determina el mínimo valor de una función f sobre un intervalo cerrado [c1. de forma tal que podamos encontrar la más pequeña región de incertidumbre posible en donde se encuentre el mínimo. Se pretende definir una estrategia de búsqueda que seleccione la observación siguiente basada en los valores funcionales de las observaciones anteriores.2. Tipos de Métodos de Búsqueda Lineal Directos • Gradiente • Newton • Quasi-Newton • Secante Interpolación Polinómica • Cuadrática • Cúbica • DSC (Davies. c2] c1 ≤ x1 ≤ … ≤ xN-1 ≤ xN ≤ c2 8 .5. pero el método requiere que dicho intervalo de búsqueda sea definido. Esta región de incertidumbre es determinada en cualquier caso por: las observaciones (sus valores funcionales) y la suposición de que f es unimodal. sin contar con un conocimiento explícito de la función.

de forma tal que la amplitud de la región de F  incertidumbre sea  N − 2 d1  F   N  9 . Colocar simétricamente desde los extremos del intervalo inicial a distancia  N −1 d 1 . La tercera muestra es colocada simétricamente dentro de este nuevo intervalo con respecto a la observación ya incluida en el intervalo. La estrategia para seleccionar sucesivamente observaciones para obtener la región de incertidumbre más pequeña se describe a continuación: d1 = c2 – c1 . Calcular N −1 FN F  3. es la amplitud inicial de la incertidumbre dk à es la amplitud de la región de incertidumbre luego de k observaciones Si son realizadas N observaciones se tiene que  F d k =  N − k +1 d1  F   N  Donde Fk son los números de la secuencia Fibonacci generados por la relación: FN = FN -1 + FN -2 donde F0 = F1 = 1 Donde cada número después de los dos primeros representa la suma de los dos precedentes. De acuerdo a donde se encuentre la muestra con menor valor funcional se determina la región F  de incertidumbre. dos  F   N  observaciones 4.la región de incertidumbre es el intervalo [xk-1. Especificar N F 2. En ese intervalo de encuentra el mínimo. xk+1] donde xk es el mínimo de los N puntos evaluados. d 2 =  N −1 d1  F   N  5. Procedimiento para la reducción de la sección de incertidumbre: 1.

además es una versión mejorada de la búsqueda de Fibonacci. La segunda indica que el cociente o razón de las longitudes debe ser igual. l1 l = 2 l1 + l 2 l1 se toma el reciproco y haciendo R = 1+ R = 1 R l2 . en los primeros tres o los últimos tres valores. haciendo que se cumplan las siguientes condiciones: l0 = l1 + l2 l1 l 2 = l 0 l1 sustituyendo. xl xu Primera Iteración l1 Segunda Iteración l0 l2 l2 R2 + R −1 = 0 resolviendo para la raíz positiva R= − 1 + 1 − 4(− 1) 5 −1 = = 0.5. xu que contienen el extremo local de f(x). En la búsqueda de la Sección Dorada se usan tres valores de la función para detectar el valor extremo.61803K à este valor se conoce como la Razón Dorada 2 2 y permite encontrar de forma eficiente el óptimo. 10 .3. se llega a l1 la primera condición específica que la suma de las dos sublongitudes l1 y l2 debe ser igual a la longitud original del intervalo. Se minimiza la evaluación de la función objetivo al reemplazar los valores anteriores con los nuevos. • Se comienza con los valores extremos del intervalo xl. y se determina donde ocurre el mínimo.3. Búsqueda de la Sección Dorada Pertenece a los métodos de búsqueda lineal basados en intervalos. se toma un cuarto número.

x2 = x1 . 10 .5. haga ∆x = .d Se evalúa la función en los dos puntos interiores o Si f(x1) < f(x2) à xl = x2 . Técnicas de esta naturaleza se basan en procedimientos de ajuste de curvas suaves para estimar el mínimo. En la figura se muestra el procedimiento del método DSC 1 f(x) 2 3 4 6 ∆x 2∆x 4∆x 8∆x 5 x(m-3) x(m-2) x(m-1) x(m+1) x(m) 1. x1 = x2 . Davies. es recomendado para determinar la región donde se encuentra el mínimo en funciones de una sola variable. Ajuste Cuadrático (Método DSC. se toman pasos cuya dimensión se va incrementando sucesivamente hasta que el mínimo es sobrepasado y luego se realiza una interpolación cuadrática. En la búsqueda unidimensional DSC.4. Se evalúa f(x) en el punto inicial x(0) Si f(x(0) + ∆x) ≤ f(x(0)). pase al paso 2 Si f(x(0) + ∆x) > f(x(0)). también se asume que posee cierto grado de suavidad (derivable). además de asumir que la función objetivo es unimodal. x 2 = xu − (xu − xl ) 2 A continuación se presentan algunos métodos de Búsqueda Lineal por ajuste de curvas. Estos se basan en que en la mayoría de los problemas. Swann y Campey) El método DSC es un método de búsqueda lineal por ajuste de curvas (interpolación polinómica). x1 = xl + 5 −1 ( xu − xl ) 2 5 −1 o Si f(x2) < f(x1) à xu = x1 .• • Dos puntos interiores de escogen de acuerdo a 5 −1 d= ( xu − xl ) 2 x1 = xl + d x2 = xu . Entonces se pueden desarrollar técnicas más eficientes que aprovechen esta propiedad.∆x y pase al paso 2. 3.

Si f(x(k+1)) ≤ f(x(k)). Calcule f(x(k+1)) 4. si f(x(c)) < f( x * ). x(m). Se realiza una interpolación cuadrática para estimar x* (el valor de la variable independiente correspondiente al mínimo de f(x)) ∆x f (x ( a ) ) − f (x (c ) ) ˆ* = x (b ) + x* ≈ x donde ∆x = x(a) . f(xk). x(k) como x(m-1). etc. 5. x(m-1).5. x(m-2)}..5.x(b) (a ) (b ) (c ) 2 f (x ) − 2 f (x ) + f (x ) [ [ ] ] Estos pasos completan la primera etapa del método DSC. De los 4 valores igualmente espaciados de x en el conjunto { x(m+1). se reduce ∆x a la mitad y se regresa al paso 2 y 3 para un solo cálculo adicional. se reduce ∆x y se inicia el procedimiento. el que esté más lejano de la x de menor valor funcional. 3. Para continuar. se realiza el mismo ˆ ˆ procedimiento desde x * o x(c). duplique ∆x (∆x = 2∆x) y regrese al paso 2 con k = k+1 Si f(x(k+1)) > f(x(k)). Los tres valores restantes del conjunto pueden ser denotados como x(a). x(c). f’(xk-1).   f ' ( x k ) + u 2 − u1 x k +1 = x k − ( x k − x k −1 )   f ' ( x k ) − f ' ( x k −1 ) + 2u 2  donde. El punto xk+1 (mínimo) puede ser determinado como el punto mínimo relativo de esta ecuación cúbica.∆x y x(c) = x(b) + ∆x 6. denote x(k+1) como x(m). Ajuste Cúbico Dados xk-1 y xk junto a f(xk-1). f ( x k −1 ) − f (x k ) u1 = f ' ( x k −1 ) + f ' ( x k ) − 3 x k −1 − x k u 2 = u1 − f ' ( x k −1 ) f ' ( x k ) 2 [ ] 1 2 11 .2. Calcule x(k+1) = x(k) + ∆x 3. donde x(b) es el punto central y x(a) = x(b) . y f’(xk) es posible ajustar una ecuación cúbica en los puntos. x(b). descarte x(m) o x(m-2).

Método del Gradiente Supongamos que f(x) es una función de una variable a ser minimizada y que f(x) y f ’(x) existen. 3.1]. donde. es decir.6. q' ( x k +1 ) = f ' ( x k ) + f ' ' ( x k )( x k +1 − x k ) = 0 x k +1 = x k − f ' (xk ) f ' ' (xk ) Nótese que no depende de f(x) y α = xk 1 f ' ' (x k ) xk+1 El método puede ser visto como la resolución iterativa de ecuaciones de la forma g(x) = 0. xk+1 = xk – f ’(xk) Un factor de escalamiento es empleado para escalar el gradiente xk+1 = xk – αf ’(xk) à Método del gradiente modificado Si g(x) = αf ’(x) à Nótese que el punto xk+1 no depende de f(x) xk+1 = xk – g(xk) En un principio el valor de α ∈ (0.5. es un parámetro ajustable seleccionado por el análista. Con el método de Newton tales parámetros son calculados directamente en cada iteración.7. Entonces es posible construir una función cuadrática a partir del desarrollo de Taylor: q(x ) = f (xk ) + f ' (xk ) ⋅ (x − xk ) + 1 2 f ' ' ( x k )( x − x k ) 2 f(x) f(x) f’(x) xk xk+1 se puede estimar xk+1 determinando el punto donde la derivada de q se hace cero. cuando es aplicada a minimización.3. hacemos g(x) ≡ f ’(xk) x k +1 = x k − g (xk ) g ' (xk ) 12 . Método de Newton Supongamos una función f de una variable a ser minimizada y supongamos que en xk es posible evaluar f(xk).5. lo que hace que tengamos dos parámetros por ajustar: α0 y la tasa de disminución de α. f ’(xk) y f ”(xk). Es deseable que α decrezca a medida que progresa la búsqueda.

Para evitar esto se debe combinar nuestro conocimiento del comportamiento local con condiciones que garanticen la convergencia. este reemplaza a uno de los puntos de la triada anterior (x1. el proceso de búsqueda puede nunca estar cerca de un mínimo global. x2. x3)n = (x1. Convergencia de Métodos de Ajuste de Curvas Se han analizado la convergencia de estos métodos en la vecindad de la solución. Si f(x4) ≤ f(x2) à (x1. Método Quasi-Newton Cuando no es posible evaluar analíticamente las primeras y segundas derivadas. y ∈ C2. se pueden emplear métodos de diferencias finitas para calcularlas: f ' (x ) = f ( x + ∆x ) − f ( x − ∆x ) 2∆x f ' ' (x ) = f (x + ∆x ) − 2 f ( x ) + f ( x − ∆x ) ∆x 2 3. x2. Es decir.9. x4. r f ' ( x k ) = ∇f ( x k ) ⋅ d r r f ' ' (xk ) = d T ⋅ H (xk ) ⋅ d donde d es el vector unitario de la dirección de descenso 3. En este sentido: (e. de la siguiente manera. x2 y x3 tal que x1 < x2 < x3 y f(x1) ≥ f(x2) ≤ f(x3) Esta secuencia de puntos puede ser determinada como lo hace DSC. El punto x4 determinado a partir del ajuste cuadrático y f(x4) es evaluado. Ajuste cuadrático DSC) Asumamos una función f que se desee minimizar.Implementación Para la implementación de este método es necesario calcular la primera y segunda derivada de la función como derivadas direccionales.5. x3)n = (x2. x3) Si f(x2) < f(x4) ≤ f(x3) à (x1. x4) Luego se prosigue iterativamente ajustando otra ecuación cuadrática y continua. x2.5.g.8. x2. La principal razón de usar este patrón es que su ajuste cuadrático tendrá un mínimo (en lugar de un máximo) y dicho mínimo caerá en el intervalo [x1. Se inicia el proceso de búsqueda lineal identificando a lo largo de la dirección de búsqueda los tres puntos siguientes: x1. obteniendo un valor escalar. x3). x3]. 13 . La aplicación directa de estos métodos en su forma pura tiene el riesgo de desviar el proceso sin sentido. tal función es unimodal y continua.

En este sentido. por lo tanto se puede deducir un límite para el máximo error fraccional posible. 14 . Por ejemplo. es deseable sacrificar precisión en la búsqueda lineal con el propósito de favorecer el tiempo de computo general. Sea. Si tal inecuación no se cumple en algún sitio se debe emplear un método especial para encontrar un mejor xk+1 que si la satisfaga. (Recordemos que el mínimo en una búsqueda local no tiene porque ser el mínimo de la función). para el caso de ajuste por interpolación cuadrática (DSC) se usa un patrón de tres puntos aplicado a una función unimodal. este criterio determina α para estar dentro de un porcentaje del verdadero valor. Específicamente. Entonces. La imprecisión es generalmente introducida simplemente terminando la búsqueda lineal antes de que converja. 3. si se selecciona una constante c tal que 0 < c < 1 (típicamente c = 0. se realizan las iteraciones hasta que este límite sea menor que c. se sabe que el punto mínimo verdadero se encuentra entre en intervalo cubierto por los tres puntos. Esta construcción puede ser empleada para producir procedimientos efectivos con los restantes métodos de ajuste.10. Esta función está representada por la línea segmentada en la figura. La naturaleza exacta de la imprecisión depende de: • La técnica de búsqueda empleada • El criterio de parada Criterios de terminación de la búsqueda lineal • Prueba de porcentaje r r r Sea x k +1 = x k − αd .1) y el parámetro α en la búsqueda lineal es determinado de forma tal que satisfaga α − α ≤ cα donde α es el verdadero valor de minimización. • Regla de Armijo Primero garantiza que α no sea muy grande y luego que no sea muy pequeño. φ (α ) = f ( x k + αd k ) La regla de Armijo es implementada al considerar la función φ(0) + ε φ’(0)α para ε ∈ (0.Se sugiere y se acepta implícitamente que uno debe requerir que f(xk+1) < f(xk). Búsqueda Lineal Inexacta En la práctica no se determina el mínimo de la búsqueda lineal en forma exacta.5.1).

Se comienza con una α arbitrario 2. el α no satisface (*) entonces se divide por η hasta que se satisfaga (*) Valores típicos: η = 2 ó η = 10... si φ(α) ≤ φ(0) + ε φ’(0) α .Un valor de α se considera que no es muy grande si el valor de la función cae debajo de la línea punteada.. y α no es considerado muy pequeño si φ(ηα) > φ(0) + ε φ’(0) ηα . un valor de η > 1 es seleccionado..ε)φ’(0) α un valor aceptable de α esta dado por f ( x k +1 ) − f ( x k ) ε≤ ≤ 1− ε α∇f ( x k )d k 0. si α crece η veces falla el criterio anterior....2 • Prueba de Goldstein Similarmente a la regla de Armijo..(*) con 0 < ε < ½ φ α se considera que no es muy pequeño si φ(α) > φ(0) + (1 . 3.. es decir. y ε = 0.2 ≤ ………………≤ 0. φ Intervalo aceptable α Regla de Armijo como método de Búsqueda lineal: 1..... α se considera que no es muy grande si φ(α) ≤ φ(0) + ε φ’(0) α . Si inicialmente..8 Intervalo aceptable α 15 ...... Si se satisface (*). se incrementa α al multiplicarlo por η hasta que no se satisfaga (*) y la penúltima α es seleccionada.(*) Para asegurar que α no sea muy pequeño..

2. Método del Descenso más Rápido Este método. Su filosofía es muy sencilla: la dirección contraria a la del vector gradiente en un punto es la dirección de más rápido decrecimiento de la función en ese punto. Ejemplo 1: Se desea minimizar la función f ( x .0). el punto (-1.7..6.1 se muestra la superficie de esta función. Se determina un nuevo punto según la fórmula: xi +1 = xi − α∇f ( xi ) donde α es un número positivo. evaluada en la región {(x . Supongamos que se asume como punto inicial.3.2 y o ) 16 .Se selecciona un punto inicial xi sobre la superficie y se determina el gradiente ∇f ( xi ) en ese punto. Métodos Básicos de Descenso para funciones de varias variables 3. esta función es unimodal.6. y ) = −20 + x 2 + y 2 En la Figura 3.1. Se repite el paso 2 hasta que se encuentre un punto xi+1 tal que ∇f ( xi +1 ) = 0 A continuación se ilustra el método con un ejemplo. y ) x ∈ [− 2. 1. 2] ∧ y ∈ [− 2. El procedimiento a seguir es el siguiente: 1. está dado por: ∇f = (2 xo . yo ) . denominado también método del gradiente. tiene un único mínimo. El gradiente de esta función en un punto cualquiera ( xo . es decir.7635). es una de las técnicas más antiguas para minimizar una función definida en un espacio multidimensional. 3. 2]} Como puede notarse en la gráfica. Dicho mínimo está ubicado en el punto (0.

Según el método.1 se muestran las curvas de nivel de la función así como también el punto inicial (con una x) y la dirección del gradiente en dicho punto (con una flecha).5 2 Figura 10.2 se ilustra la evolución del método para un α = 0.5 -1 -1.5 2 Figura 3.2 x 1.2 – Evolución del método del descenso más rápido con α=0.5 1 0. y a una distancia determinada por el valor de α. las curvas de nivel corresponden a círculos concéntricos con centro en el origen.5 -1 -0. 2 1.5 1 1.5 -1 -0.5 1 0.5 -2 -2 -1.1  Curvas de nivel de la función objetivo del ejemplo 1 En la Figura 3.25.5 -1 -1.4 Figura 3.5 0 -0.5 -2 -2 -1. En la Figura 3.25 . Como puede observarse. el segundo punto estaría ubicado sobre la recta que contiene al vector dirección del gradiente.5 1 1.5 y 0 -0. para la función objetivo del ejemplo 1 17 .5 0 x 0.5 0 0. Los círculos representan las aproximaciones del mínimo calculadas por el método. y el punto en el que se ubica el mínimo (con una o).

En los dos casos anteriores. pero ahora con un valor α = 0.5 -2 -2 -1. la dirección del gradiente. 2] ∧ y ∈ [− 2 . y ) x ∈ [− 2 .2 1. no apunta necesariamente hacia el mínimo. En estos casos. haciendo que el proceso sea más lento.5 -1 -0. Esto se debe a que las curvas de nivel son circulares. Cuando las curvas de nivel tienen otra forma.9 . la dirección de búsqueda del mínimo cambia de una iteración a otra. 2]} 18 . Como puede observarse.5 2 Figura 3. la dirección del gradiente siempre apunta hacia el mínimo global de la función.5 -1 -1.5 1 1.5 1 0.5 0 0. que es ortogonal a la curva de nivel en el punto en el que se calcula. evaluada en la región {( x .3  Evolución del método del descenso más rápido con α=0. el segundo punto se pasa del valor del mínimo para después retornar y estabilizarse en dicho valor. para la función objetivo del ejemplo 1 En la Figura 3.9. Ejemplo 2: Se desea minimizar la función f ( x .3 se ilustra nuevamente la aplicación del método. y ) = −20 + 3 x 2 + y 2 En la Figura 3.4 se muestra la superficie de esta función.5 0 -0.

5 2 Figura 3.Figura 3. y el cambio de la dirección de búsqueda de una iteración a otra.5 0 0.5 0 -0. para la función objetivo del ejemplo 2 19 . yo ) . 2 1.5 1 1. está dado por: ∇f = (6 xo . es unimodal.5 -2 -2 -1.5 – Ilustración del método del descenso más rápido.2 yo ) Esta función. se observa en la línea en forma de zigzag que se muestra en dicha Figura. al igual que la anterior. las curvas de nivel de esta función son de forma elíptica.7. el punto (-1.0).5 1 0.5. En este caso se asume como punto inicial.4 – Función objetivo del ejemplo 2 El gradiente de esta función en un punto cualquiera ( xo . Como puede observarse en la Figura 3.5 -1 -1.5 -1 -0. 1.7). con el mínimo ubicado en el punto (0.

6 – Direcciones de búsqueda calculada por los métodos de descenso más rápido y de Newton. Se obtiene entonces: ∇f + H f ( x i − x i −1 ) = 0 (a) (b) Figura 3. 20 . mientras que la calculada por el método del descenso más rápido es perpendicular a la curva de nivel. Método de Newton En este caso. respectivamente. El mínimo de la función f a se determina ' haciendo f a = 0 y calculando el valor de x i que satisface la ecuación. y su mínimo es una buena aproximación del mínimo de la función objetivo.3.6b donde no coinciden ya que la dirección calculada por el método de Newton apunta hacia el mínimo. ésta es unimodal. El método aproxima la función objetivo f en la vecindad de un mínimo con una serie de Taylor truncada hasta el término de segundo orden. Para una función con curvas de contorno: (a) circulares. en la Figura 3. Como puede observarse. la dirección de búsqueda se determina utilizando la segunda derivada de la función objetivo. se tiene que: x i = x i −1 − H −1 ⋅ ∇f f que es el denominado método de Newton o de Newton-Raphson.6a ambas direcciones coinciden y apuntan hacia el mínimo. y (b) elípticas Si la inversa de H f existe. es decir: f a ( x ) = f ( x i −1 ) + ∇ f ⋅ ( x − x i − 1 ) + 1 (x − xi −1 )T H f (x − xi −1 ) 2 Dado que la aproximación f a es una función de segundo orden.6b se muestran las direcciones calculadas por los métodos del descenso más rápido y de Newton para el caso de curvas de nivel circulares y elípticas.2. En la Figura 3.6.6a y Figura 3. no así en la Figura 3.

está dado por: ∇f = (6 x . el mínimo que calcula el método. Entonces.5 -2 -2 -1.Ejemplo 3: Para efectos de comparación. coincide con el mínimo deseado.5 -1 -1.5 2 Figura 3. En los casos en los que la función no es cuadrática.5 1 1. y ) .7 se muestra la evolución del proceso de minimización para este ejemplo. Puede observarse la convergencia del método en una iteración. en este ejemplo se minimiza la misma función del ejemplo anterior: f ( x .2 y ) mientras que el Hessiano es la matriz: 6 Hf = 0 1 0 −1  6 ⇒Hf = 0 2   0   1  2 La aproximación de esta función utilizando la serie de Taylor es exacta. Como se vio anteriormente.5 -1 -0.5 1 0. se hacen aproximaciones sucesivas del mínimo utilizando la ecuación: x i = x i − 1 − α ⋅ H −1 ⋅ ∇f f 21 .5 0 -0. 2 1. debido a que es una función cuadrática.5 0 0. el gradiente de esta función en un punto cualquiera ( x . Por esta razón. y ) = −20 + 3 x 2 + y 2 utilizando el método de Newton. el método encuentra el mínimo en una iteración. para la función objetivo del ejemplo 3 En la Figura 3.7 – Evolución del método de Newton.

Si se utiliza un método basado en derivadas. hasta que se encuentra un valor cercano según una tolerancia especificada. La ecuación anterior se aproxima al método del descenso más rápido si λ → ∞ . y al método de Newton λ → 0 . el método encontrará aquel mínimo (global o local) que esté más cercano al punto inicial seleccionado. Usualmente se seleccionan valores iniciales grandes de λ.-1).5) y otro global. Levenberg-Marquardt Está dado por la ecuación: −1 xi = xi −1 − α (λI + H f ) ⋅ ∇f donde α y λ son positivos e I es la matriz identidad. Entre otros. I es la matriz identidad de dimensión n × n.donde α es positivo. 3. la condición de matriz positiva definida se cumple en la vecindad del mínimo. Los valores propios de una matriz cuadrada A de dimensión n × n . debido a que están basados únicamente en información proveniente de las derivadas de la función. y ) = − 1 1 + 2( x − 1. son las raíces λ del polinomio: det (λI − A) el cual se conoce como polinomio característico de la matriz A.3. los cuales se disminuyen a medida que nos aproximamos al mínimo. ubicado en el punto (-1.6. debe ocurrir que el Hessiano sea una matriz positiva definida (todos sus valores propios son positivos).5 )2 En la Figura 3. 22 . La idea es seleccionar λ de manera que la matriz λI − H f sea positiva definida. se encontrará el mínimo más cercano al punto inicial seleccionado. Esto significa que si la función objetivo es multimodal. Existe un conjunto de modificaciones al método de Newton.8 se muestra la superficie definida por esta función. En cada punto en los que se evalúe la ecuación anterior. para que la dirección de búsqueda sea una dirección descendente. Los tres métodos discutidos hasta ahora son métodos de optimización local.5 )2 + ( y + 1)2 − 0. En general.1. es decir. Ejemplo 4: Minimice la función: f (x . puede citarse el método de Levenberg-Marquardt. para superar este inconveniente. Como puede observarse la función tiene dos mínimos (bimodal): uno local.6 1 + ( x + 1)2 + ( y − 1.5. pero no existe garantía que ocurra en puntos lejanos al mismo. tiene varios mínimos locales y globales. ubicado en el punto (1.

8 – Función objetivo del ejemplo 4 En la Figura 3. Existen algunas modificaciones a los métodos basados en gradiente para convertirlos en métodos de optimización global. desde el cual se llega al mínimo global y el otro. comenzar el proceso iterativo desde varios puntos iniciales.-2. por ejemplo. este no es el caso en la mayoría de las aplicaciones reales de métodos de optimización.9 se muestran las curvas de nivel y la evolución del método del descenso más rápido en la búsqueda del mínimo.8. el cálculo del gradiente y del Hessiano se hace de manera analítica. Utilizando el método de Newton se obtiene un resultado similar. Sin embargo.8). como para el Hessiano.8) desde donde se llega al mínimo local. a partir de dos puntos iniciales: (-2. en las cuales se hace necesario calcular aproximaciones numéricas tanto para el gradiente.2. 3 2 1 y 0 -1 -2 -3 -3 -2 -1 0 x 1 2 3 23 . (2.8. por lo que.Figura 3. En todos los ejemplos anteriores la función objetivo está definida explícitamente.

para la función objetivo del ejemplo 4 En la práctica se utilizan estrategias de descenso que utilizan varios métodos. Se emplea el método de Newton clásico. Si no hay descenso después de varios intentos. 24 .9 – Evolución del método del descenso más rápido.001. se emplea el método del descenso más rápido. si no hay descenso se incrementa en una razón.Figura 3. si no hay descenso (esto lo responde búsqueda lineal) 2. de la siguiente manera: 1. λk = 0. Se emplea el método de Levenberg-Marquardt con un λ inicial. λk = β⋅λk 3.

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->