Documentos de Académico
Documentos de Profesional
Documentos de Cultura
OPTIMIZACIÓN
3. Tamaño de paso 6
3.1. Condiciones de Wolfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2. Condiciones de Goldstein y “backtracking” . . . . . . . . . . . . . . . . . . . . . 10
5. Tasa de convergencia 14
9. Problemas de Mı́nimos-Cuadrados 31
15. Apéndice 90
15.1. Número de condición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
Bibliografı́a 92
1. Optimización sin restricciones
Sea el problema de optimización
f (x∗ + α p) − f (x∗ )
0 ≤ lı́m = f ′ (x∗ ; p) = ∇ f (x∗ )T p,
α ↓0 α
∗ ∗ α2 T 2 ∗
∗ T
f (x + α p) − f (x ) = α ∇ f (x ) p + p ∇ f (x )p + o(α 2 ).
2
Teniendo en cuenta que ∇ f (x∗ ) = 0n , y dada la optimalidad local de x∗ , deducimos que si α es
suficientemente pequeño
Observación 3. Recuérdese que para funciones convexas, todo mı́nimo local es global.
1
Demostración. Sólo hay que probar que ∇ f (x∗ ) = 0n es también condición suficiente para que x∗
sea un mı́nimo global de f .
Al ser f es convexa y diferenciable en Rn , sabemos del curso de Análisis Convexo que
Demostración. (i) Al ser f ∈ C 2 (W ), ∇2 f (x∗ ) será simétrica, y sus valores propios serán todos
números reales. Como ∇2 f (x∗ ) es, por hipótesis, definida positiva, sus valores propios serán todos
positivos, y representaremos por λ1 el más pequeño de dichos valores propios. Si u1 , u2 , . . . , un
son vectores propios ortonormales asociados a los valores propios λ1 ≤ λ2 ≤ ... ≤ λn , todo vector
p ∈ Rn podrá expresarse de la siguiente forma:
n
p = ∑ ρ i ui .
i=1
Por lo tanto
n n
∇2 f (x∗ )p = ∑ ρi ∇2 f (x∗ )ui = ∑ ρi λi ui ,
i=1 i=1
y ( )( )
n n n n
pT ∇2 f (x∗ )p = ∑ ρiuTi ∑ ρ jλ ju j = ∑ ρi2 λi kui k2 = ∑ ρi2 λi ≥ λ1 kpk2 .
i=1 j=1 i=1 i=1
Hemos comprobado, pues, que (1) es satisfecha para cualquier ε > 0 y γ > 0 tales que
λ1 o(kpk2 )
+ ≥ γ, ∀p tal que kpk < ε .
2 kpk2
λ1
Podrı́a tomarse, por ejemplo, γ = 4.
2
(ii) Si ∇2 f (x∗ ) tiene valores propios de distintos signos, será λ1 < 0 y λn > 0. Si u1 es un vector
propio de norma uno asociado a λ1 se verificará
1
f (x∗ + α u1 ) − f (x∗ ) = α ∇ f (x∗ )T u1 + α 2 uT1 ∇2 f (x∗ )u1 + o(α 2 )
2
λ1 2 2 λ1 o(α 2 )
= α + o(α ) = + α 2.
2 2 α2
Existirá pues α0 > 0 tal que
∗ ∗ λ1 o(α 2 )
f (x + α u1 ) − f (x ) = + α 2 < 0, ∀α ∈]0, α0[.
2 α2
Si un es un vector propio de norma uno asociado a λn , un razonamiento paralelo conduce a la
conclusión de que existe µ0 > 0 tal que
∗ ∗ λn o(µ 2 )
f (x + µ un ) − f (x ) = + µ 2 > 0, ∀µ ∈]0, µ0 [.
2 µ2
Por tanto, x∗ es un punto de silla.
Proposición 5. Sea f : R2 → R, f ∈ C 2 (W ), siendo W abierto de R2 . Supongamos que x∗ ∈ W y
∇ f (x∗ ) = 0n . Sean
∗ A B
2
∇ f (x ) = y ∆ := det ∇2 f (x∗ ) = AC − B2 .
B C
Entonces se tiene:
(i) Si ∆ < 0, x∗ es un punto de silla.
(ii) Si ∆ > 0 y A > 0, x∗ es un mı́nimo local estricto.
(iii) Si ∆ > 0 y A < 0, x∗ es un máximo local estricto.
Demostración. La ecuación caracterı́stica
det(∇2 f (x∗ ) − λ I) = 0,
que hay que resolver para calcular los valores propios es la ecuación de segundo grado
λ 2 − (A +C)λ + ∆ = 0.
Sus raı́ces, λ1 y λ2 , están relacionados con sus coeficientes del siguiente modo
λ1 + λ2 = A +C, λ1 λ2 = ∆.
(i) Si ∆ < 0, los autovalores tienen signos opuestos y por el teorema anterior, x∗ es un punto de
silla.
(ii) e (iii) Si ∆ > 0, los autovalores tiene el mismo signo. En este caso
AC > B2 ≥ 0,
con lo que A y C tienen el mismo signo, el mismo que λ1 y λ2 al ser λ1 + λ2 = A +C. Esto prueba
(ii) e (iii).
3
OPTIMIZACIÓN: ALGORITMOS
En un problema de optimización sin restricciones, se pretende minimizar una función objetivo
f : Rn → R (que supondremos generalmente suave) que depende de n ≥ 1 variables reales, cuyos
valores no están restringidos.
Un algoritmo debe generar, a partir de un punto inicial x0 , una sucesión de puntos x1 , x2 , . . . Para
decidir cómo pasar de una iteración xk a la siguiente los algoritmos utilizan información sobre f en
xk (y quizás también sobre las anteriores iteraciones x0 , . . . , xk−1 ). Normalmente esta información
no la obtenemos “gratuitamente”, por lo que preferiremos algoritmos que no hagan uso de esta
información innecesariamente.
El coste de resolver exactamente (2) serı́a elevado e innecesario. En su vez, los algoritmos gene-
ran un número limitado de longitudes de paso de prueba hasta encontrar una que se aproxime al
mı́nimo de (2). La iteración vendrı́a dada por
xk+1 = xk + αk pk , (3)
donde pk es la dirección de búsqueda y αk es el tamaño del paso. La eficiencia del método depen-
derá de ambas elecciones.
xk
pk
pk +1 xk +1
xk +2
x
f(x) = c <c 2 1
f(x) = c <c 1 0
f(x) = c 0
La mayorı́a de los métodos de búsqueda lineal exigen que pk sea una dirección de descenso:
4
Definición 6. Se dice que pk es una dirección de descenso para la función f en xk si
Las direcciones de descenso nos garantizan un decrecimiento del valor de f cuando se parte de
xk en la dirección pk : para α > 0 suficientemente pequeño se tiene
mı́n pT ∇ fk . (6)
kpk=1
Como pT ∇ fk = kpkk∇ fk k cos θ , donde θ es el ángulo entre p y ∇ fk , tenemos que (6) es minimi-
zado cuando cos θ toma su valor mı́nimo −1 en θ = 180◦ , es decir, cuando
∇ fk
p=− . (7)
k∇ fk k
Esta dirección es la que se utiliza en el llamado método del descenso más rápido. Debido a (5),
cualquier dirección que forme un ángulo menor de 90◦ con −∇ fk será una dirección de descenso.
pk = −B−1
k ∇ fk , (8)
donde Bk es una matriz simétrica no singular. Obsérvese que si Bk es definida positiva, se trata de
un método de descenso, ya que si ∇ fk 6= 0,
Bk = ∇2 fk , en el método de Newton;
5
En el método de Newton puro, la longitud de paso se toma constante αk = 1. Obsérvese que este
método encuentra el mı́nimo en un sólo paso cuando f es una forma cuadrática definida positiva.
La mayorı́a de las implementaciones del método de Newton utilizan la longitud de paso α = 1
cuando es posible y sólo ajustan su tamaño en caso de no producirse una reducción satisfactoria en
el valor de f . Cuando ∇2 fk no es definida positiva, la dirección de Newton (10) podrı́a no existir
o no ser una dirección de descenso. En este caso, los métodos de búsqueda lineales modifican la
dirección pk para convertirla en una dirección de descenso.
3. Tamaño de paso
Al calcular la longitud de paso αk debemos equilibrar dos objetivos. Por un lado nos gustarı́a
elegir αk de manera que f se reduzca sustancialmente, pero al mismo tiempo, no queremos dedicar
un tiempo excesivo en su elección. La elección ideal serı́a un mı́nimo de la función univariante φ (·)
definida por
φ (α ) := f (xk + α pk ), α > 0, (11)
pero, en general, es muy costoso computacionalmente la identificación de dicho(s) valor(es). Inclu-
so, encontrar un mı́nimo local de φ con una moderada precisión requiere generalmente demasiadas
evaluaciones de f y posiblemente de su gradiente ∇ f . Estrategias más prácticas realizan búsque-
das lineales inexactas para identificar un αk que consiga una adecuada reducción de f con un coste
mı́nimo.
Los algoritmos tı́picos de búsqueda lineal prueban una serie de valores candidatos para αk ,
aceptando uno de estos valores cuando ciertas condiciones son satisfechas. La búsqueda lineal se
realiza en dos fases: en una primera se determina un intervalo conteniendo longitudes de paso
deseables, y una fase de bisección o interpolación computa después una “buena” longitud de paso
en dicho intervalo. A continuación analizaremos diferentes criterios de parada para los algoritmos
de búsqueda lineal, y probaremos que las longitudes de paso efectivas no necesitan estar cerca de
los mı́nimos de la función φ (α ).
Una condición sencilla que podemos imponer a αk es que proporcione una reducción en f , i.e.,
que f (xk + αk pk ) < f (xk ). Sin embargo, en la Figura 2 podemos ver que este requerimiento no
es suficiente: el mı́nimo (global) de f (x) = x2 − 1 es f ∗ = −1, pero la sucesión de valores de la
función f (xk ) = 1/k, para k = 1, 2, . . ., es estrictamente decreciente pero converge a cero y no a
−1.
f(x)
x0 x2 x4 x5x3x1
f(x) = x2
1
6
El problema es que el procedimiento aplicado no garantiza una “reducción suficiente” en la
función f , concepto que discutiremos a continuación.
Esta primera regla evita comportamientos como el mostrado en la Figura 2, pero sin embargo
es satisfecha por valores muy pequeños de α . Si éstos fueran adoptados como valores de αk , el
algoritmo no proporcionarı́a un progreso razonable.
Para excluir etapas excesivamente cortas, se introduce la condición de curvatura, que requiere
que αk satisfaga
∇ f (xk + αk pk )T pk ≥ c2 ∇ fkT pk , (13)
para alguna constante c2 ∈ ]c1 , 1[ . En términos de la función φ es (13) equivalente a
φ ′ (αk ) ≥ c2 φ ′ (0),
es decir, la condición de curvatura asegura que la pendiente de la curva φ en αk es mayor que
c2 veces la pendiente de φ en 0. Esto tiene sentido ya que si la pendiente φ ′ (α ) es fuertemente
7
negativa, tenemos una indicación de que podemos reducir significativamente f moviéndonos aún
más a lo largo de la dirección elegida. La condición de curvatura viene ilustrada en la Figura 4.
Valores tı́picos de c2 son 0,9 cuando pk es obtenida por los métodos de Newton o quasi-Newton, y
de 0,1 cuando pk se calcula mediante el método del gradiente conjugado.
8
Sin embargo, podemos modificar la condición de curvatura para forzar que αk esté al menos
en un ancho entorno de un mı́nimo local o punto estacionario de φ . Ası́, las llamadas condiciones
fuertes de Wolfe requieren que αk satisfaga:
donde 0 < c1 < c2 < 1. La única diferencia con las condiciones de Wolfe (14) es que no permitimos
tampoco que la derivada φ ′ (αk ) sea demasiado positiva. De esta forma excluimos puntos que estén
lejos de los puntos estacionarios de φ .
No es difı́cil probar que existen longitudes de paso que satisfacen las condiciones de Wolfe
para toda función f que sea suave y acotada inferiormente.
Demostración. Como φ (α ) = f (xk + α pk ) está acotada inferiormente para α > 0, y puesto que
0 < c1 < 1, la recta
l(α ) = f (xk ) + α c1 ∇ fkT pk
debe intersecar la gráfica de φ por lo menos una vez. Sea α ′ > 0 el valor más pequeño de α para
el que se produce está intersección, esto es
φ (α ′ ) = l(α ′ )
o lo que es lo mismo,
f (xk + α ′ pk ) = f (xk ) + α ′ c1 ∇ fkT pk . (16)
Obviamente, la condición de descenso suficiente (14a) se cumple para cualquier longitud de paso
α menor o igual que α ′ .
Por el teorema del valor medio, existirá un α ′′ ∈ ]0, α ′ [ tal que
φ (α ′ ) − φ (0) = φ ′ (α ′′ )α ′ ,
es decir,
f (xk + α ′ pk ) − f (xk ) = α ′ ∇ f (xk + α ′′ pk )T pk . (17)
Combinando (16) y (17), obtenemos
puesto que c1 < c2 y ∇ fkT pk < 0. Por tanto α ′′ satisface las condiciones de Wolfe (14), y ambas
desigualdades se verifican estrictamente. Por ser f suave (de clase C 1 ), existirá un intervalo al-
rededor de α ′′ para el cual las condiciones de Wolfe se cumplen. Además, puesto que el término
de la izquierda de (18) es negativo, las condiciones fuertes de Wolfe (15) se cumplen en el mismo
intervalo.
9
3.2. Condiciones de Goldstein y “backtracking”
Al igual que las condiciones de Wolfe (14), las condiciones de Goldstein también aseguran que
el tamaño de paso α alcanza un decrecimiento suficiente, evitando a su vez que α sea demasiado
pequeño. Se definen mediante el siguiente par de desigualdades:
donde 0 < c < 1/2. La segunda desigualdad es simplemente la condición de decrecimiento sufi-
ciente (12), mientras que la primera desigualdad se introduce para controlar el tamaño de paso por
abajo (ver Figura 6).
Una desventaja de las condiciones de Goldstein comparadas con las condiciones de Wolfe
es que la primera desigualdad en (19) puede excluir todos los mı́nimos de φ . Sin embargo, las
condiciones de Goldstein y las de Wolfe tienen mucho en común, y sus resultados de convergencia
son bastante similares. Las condiciones de Goldstein suelen usarse a menudo en métodos de tipo
Newton, mientras que su comportamiento no es demasiado bueno en los métodos quasi-Newton,
donde las condiciones de Wolfe son comúnmente utilizadas.
Hemos visto que la condición de decrecimiento suficiente (14a) sola no basta para asegurar
que el algoritmo haga un progreso “razonable” a lo largo de la dirección dada. No obstante, si el
algoritmo de búsqueda lineal elige sus tamaños de paso candidatos apropiadamente, empleando el
llamado procedimiento de “backtracking”, podemos prescindir de la condición (14b) y usar sólo la
condición de decrecimiento suficiente. En su forma más básica, dada unas constantes c, ρ ∈ ]0, 1[ ,
el procedimiento de “backtracking” parte de un punto inicial α = ᾱ > 0 en el cual se comprueba
si se verifica (14a). En caso contrario se toma α = ρα y se repite el proceso hasta que se cumpla
esa condición:
10
Algoritmmo 1 (Backtracking).
Una longitud de paso aceptable será encontrada tras un número finito de intentos, ya que a
partir de un momento α será suficientemente pequeño (ver Figura 3). Con el procedimiento de
“backtracking” nos aseguramos de que o bien la longitud de paso sea un valor fijo en todos los
pasos (ᾱ inicial), o bien que satisfaga la condición de decrecimiento suficiente pero que no sea
“demasiado” pequeño. Normalmente se toma la longitud de paso inicial ᾱ = 1 en los métodos
de tipo Newton, donde esta estrategia es bastante utilizada. Para los métodos quasi-Newton y del
gradiente conjugado suele ser menos apropiado.
−∇ fkT pk
cos θk = . (20)
k∇ fk kkpk k
El siguiente teorema tiene importantes consecuencias. Demuestra, por ejemplo, que el método
de descenso más rápido es globalmente convergente. Para otros algoritmos nos describe cuánto
puede desviarse pk de la dirección de descenso más rápido para seguir garantizándose la conver-
gencia global.
Teorema 8 (Zoutendijk). Consideremos un algoritmo iterativo lineal de la forma xk+1 = xk + αk pk ,
donde pk es una dirección de descenso y αk satisface las condiciones de Wolfe (14). Supongamos
que f está acotada inferiormente sobre Rn y que f ∈ C 1 (U ), donde U es un abierto que contiene
al conjunto inferior L := {x ∈ Rn | f (x) ≤ f (x0 )}, siendo x0 el punto inicial de la iteración.
Asumamos también que ∇ f (·) es Lipschitz continua sobre U ; i.e., existe λ > 0 tal que
Entonces, se cumple
∞
∑ (cos2 θk )k∇ f (xk )k2 < ∞. (21)
k=0
Demostración. Por la segunda condición de Wolfe (14b) y ser xk+1 = xk + αk pk , tenemos que
11
Combinando estas dos relaciones, obtenemos
c2 − 1 ∇ fkT pk
αk ≥ .
λ kpk k2
fk+1 ≤ fk − c cos2 θk k∇ fk k2 ,
donde c = c1 (1 − c2 )/λ . Sumando esta expresión para todos los ı́ndices menores o iguales que k:
k
fk+1 ≤ f0 − c ∑ cos2 θ j k∇ f j k2 . (22)
j=0
Como f está acotada inferiormente, tenemos que f0 − fk+1 es menor que cierta constante positiva,
para todo k. Tomando lı́mites en (22), deducimos (21).
Resultados similares pueden obtenerse cuando se usan las condiciones de Goldstein (19) o las
condiciones fuertes de Wolfe (15) en lugar de las condiciones de Wolfe.
Obsérvese que las hipótesis del teorema anterior no son demasiado restrictivas. Si la función
f no estuviera acotada inferiormente, el problema de optimización no se considerarı́a “bien defi-
nido”. La hipótesis de suavidad (continuidad Lipschitz del gradiente) viene implicada por muchas
de las condiciones de convergencia local de los algoritmos más representativos.
Como ∇2 f (·) está acotada en U , existe una constante λ > 0 tal que k∇ f (z)k ≤ λ , ∀z ∈ U . Al ser
U convexo, si t ∈ [0, 1], se tiene que x + t(y − x) ∈ U , por lo que k∇2 f (x + t(y − x))k ≤ λ . Ası́,
deducimos que
Z 1
k∇ f (y) − ∇ f (x)k ≤ λ kx − ykdt = λ kx − yk.
0
12
Observación 10. En las hipótesis del Teorema 8 sólo exigimos que ∇ f sea Lipschitz continua en
U , no pedimos que lo sea en todo el espacio. Por ejemplo, para la función f (x) = x4 , se tiene que
La expresión |x2 + xy + y2 | no está acotada sobre la recta real; sin embargo sı́ lo está sobre el
conjunto U , ver Figura 7.
4
f(x) =x
U
L =[ |x |,|x |]
0 0
x0
Este lı́mite puede usarse para derivar resultados de convergencia global para los algoritmos de
búsqueda lineal. Si nuestro método de elección de pk asegura que el ángulo θk está acotado supe-
riormente, y que esta cota θ es menor de 90◦ , existirá una contante positiva δ tal que
13
Obsérvese que, si L = {x ∈ Rn | f (x) ≤ f (x0 )} es acotado, como {xk } ⊂ L , existirá una
subsucesión convergente a un punto x∗ ∈ L . Para abreviar notación, supondremos que es la propia
sucesión {xk } la que converge a x∗ . Como f ∈ C 1 (U ) y L ⊂ U ,
pk = −B−1
k ∇ fk , (26)
donde Bk son matrices simétricas definidas positivas con un número de condición1 uniformemente
acotado, es decir, existe una constante M > 0 tal que
En la primera desigualdad hemos usado el hecho de que para toda matriz A simétrica, se tiene que2
λ1 (A)kzk2 ≤ zT Az ≤ λn (A)kzk2.
5. Tasa de convergencia
El mero hecho de que una sucesión {xk } converja a un punto estacionario x∗ no servirı́a de nada
en la práctica a menos que los puntos xk estuvieran relativamente cerca de x∗ tras “relativamente
pocas” iteraciones. Ası́, el estudio de la tasa de convergencia es el criterio predominante a la hora
de seleccionar un algoritmo con respecto de otros para la resolución de un problema.
Hay diferentes criterios a la hora de cuantificar la tasa de convergencia de un algoritmo.
Podrı́amos estudiar la complejidad computacional del algoritmo; bien estimando el número de
operaciones elementales necesarias para encontrar una solución exacta o con una tolerancia de
ε > 0, o bien analizando el número de evaluaciones de la función (y posiblemente del gradiente)
del algoritmo. El problema de este método es que en su análisis se considera el peor caso posible, y
1
Ver Sección 15.1
2 Para demostrarlo, representar z en función de una base ortonormal de vectores propios de A.
14
se ha demostrado que en la práctica, algoritmos “malos” en cuanto a complejidad tenı́an un mejor
comportamiento que otros calificados como “mejores”. Esto ocurre porque los casos en los que
estos primeros algoritmos se comportaban mal, son improbables en modelos reales.
Vamos a centrarnos pues en el análisis local del algoritmo. Sus principales caracterı́sticas son
las siguientes:
La tasa de convergencia es evaluada usando una función de error e : Rn → R+ tal que e(x∗ ) =
0. Elecciones tı́picas son:
Queremos ver lo “rápido” que {xk } converge a x∗ , o lo “rápido” que lo hace { f (xk )} a f (x∗ ).
Puede ocurrir que nos aproximemos rápido al valor de la función f (x∗ ) sin que lo hagamos
al punto x∗ , como podemos ver en la Figura 8.
f(xk )
f(x )
xk x
Figura 8: xk está lejos de x∗ pese a estar f (xk ) cerca de f (x∗ ).
Definición 11. Diremos que {e(xk )} converge linealmente si existe una constante β ∈ ]0, 1[ tal que
e(xk+1 )
lı́m sup ≤ β. (28)
k→∞ e(xk )
e(xk+1 )
lı́m = 0,
k→∞ e(xk )
diremos que {e(xk )} converge superlinealmente. Si la sucesión {e(xk )} converge pero la desigual-
dad (28) no se verifica para ningún β ∈ ]0, 1[ , diremos que {e(xk )} converge sublinealmente.
15
Para refinar la noción de convergencia superlineal, establecemos la siguiente definición:
Definición 12. Se dice que {e(xk )} converge superlinealmente con orden p, con p > 1, cuando
e(xk+1 )
lı́m sup < ∞. (29)
k→∞ e(xk ) p
Observación 13. Una sucesión que converge sublinealmente es considerada en la práctica como
no convergente: la convergencia puede ser tan lenta que un algoritmo con esta tasa no debe ser
utilizado.
Ejercicio 14. Probar que la convergencia lineal implica convergencia geométrica, i.e., existen
unas constantes q > 0 y β ′ ∈ ]0, 1[ tales que
Solución: Efectivamente, dado β ∈ ]0, 1[ verificando (28), si tomamos β ′ ∈ ]β , 1[ , existe k0 tal que
e(xk+1 )
≤ β ′, para todo k ≥ k0 .
e(xk )
Despejando se obtiene
e(xk0 +p ) ≤ (β ′ ) p e(xk0 ), ∀p.
Sea q ≥ máx{e(xk )/(β ′ )k , k = 1, 2, . . ., k0 }. Se verificará, entonces,
e(xk ) ≤ q(β ′ )k , k = 1, 2, . . ., k0 ,
16
y=
x
e(xk +1)
e(xk +2)
e(xk +3)
… e(xk +2) e(xk +1) e(xk )
y = qxp
e(xk +1)
e(xk +2)
… e(xk +1) e(xk )
17
o, equivalentemente,
e(xk+1 )
≤ Me(xk ) p−1 , para todo k ≥ k0 .
e(xk )
Tomando supremos a ambos lados, tenemos que
e(xk+1 )
sup ≤ sup Me(xk ) p−1 ,
k≥n e(xk ) k≥n
para todo n ≥ k0 . Como p > 1 y e(xk ) converge a cero, tomando lı́mite cuando n → ∞ en la
expresión anterior obtenemos finalmente que
e(xk+1 ) e(xk+1 )
lı́m sup = lı́m sup ≤ lı́m sup Me(xk ) p−1 = lı́m Me(xk ) p−1 = 0,
k→∞ e(xk ) n→∞ k≥n e(xk ) n→∞ k≥n k→∞
La sucesión no converge geométricamente. De ser ası́, existirı́a q > 0 y β ∈ ]0, 1[ tales que
e(xk ) ≤ qβ k , ∀k. Por lo que
1
≤ kβ k , ∀k. (31)
q
Pero aplicando L’Hôpital, deducimos que
x 1 1
lı́m −x = lı́m −x
=− lı́m β x = 0,
x→∞ β x→∞ (− log β )β log β x→∞
obteniendo una contradicción con (31).
2. La tasa de convergencia es cuadrática:
k+1
e(xk+1 ) (0,5)2
lı́m sup 2
= lı́m = 1.
k→∞ e(xk ) k→∞ (0,5)2k 2
18
6. Análisis del modelo cuadrático
Podemos aprender mucho acerca de la tasa de convergencia de los métodos del gradiente cuan-
do estudiamos el caso ideal: cuando la función de coste es cuadrática. Si la función no es cuadrática
pero es dos veces continuamente diferenciable y x∗ es un mı́nimo local no singular, por el teorema
de Taylor, f podrá ser aproximada de forma precisa cerca de x∗ mediante la función cuadrática
1
f (x∗ ) + (x − x∗ )T ∇2 f (x∗ )(x − x∗ ),
2
por lo que “esperaremos” que los resultados asintóticos de convergencia obtenidos para el caso
cuadrático tengan resultados análogos para el caso general. Esta conjetura puede de hecho ser
demostrada y ha sido corroborada mediante una abundante experimentación numérica.
Supongamos pues que f es una función cuadrática con una matriz hessiana Q (simétrica) defi-
nida positiva. Podemos suponer, sin pérdida de generalidad3 , que f alcanza su mı́nimo en x∗ = 0 y
que f (x∗ ) = 0. Ası́ tenemos
1
f (x) = xT Qx, ∇ f (x) = Qx, ∇2 f (x) = Q. (32)
2
Por tanto,
kxk+1 k2 = xTk (I − αk Q)2 xk ≤ máx. valor propio de (I − αk Q)2 kxk k2 .
Los valores propios de (I − α Q)2 son (1 − αk λi )2 , donde λ1 , . . ., λn son los valores propios de Q.
Si denotamos por m y M el valores propio más pequeño y más grande, respectivamente, tendremos
que
máx. valor propio de (I − αk Q)2 = máx{(1 − αk m)2 , (1 − αk M)2 }.
Se sigue pues que, para xk 6= 0n ,
kxk+1 k
≤ máx{|1 − αk m|, |1 − αk M|}. (33)
kxk k
19
max 1 | m,1 M
| | |
M m
M +m
|1 M | 1
| m
|
1 2 2 1
M M +m M m
longitudes de paso que
garantizan la convergencia
En este caso,
M
kxk+1 k M − m m −1 cond(Q) − 1
≤ = M = . (34)
kxk k M +m m +1 cond(Q) + 1
Esta es la mejor cota a la tasa de convergencia para el método de descenso más rápido con tamaño
de paso constante. Obsérvese que, gracias a (33), la convergencia está garantizada para cualquier
longitud de paso αk tal que
máx{|1 − αk m|, |1 − αk M|} < 1,
esto es, para todo αk ∈ ]0, 2/M[ (ver Figura 11).
Existe otro resultado interesante relativo a la tasa de convergencia del método del descenso más
rápido cuando αk es elegido mediante una búsqueda lineal exacta. Este resultado cuantifica la tasa
a la que desciende la función de coste:
f (xk+1 ) M −m 2 cond(Q) − 1 2
≤ = . (35)
f (xk ) M +m cond(Q) + 1
Observación 16. A partir de (34) y (35) podemos ver que el método de descenso más rápido puede
converger muy despacio cuando el número de condicionamiento de Q es grande. Si cond(Q) ≈ 1,
la convergencia será buena. En el mejor de los casos, cuando cond(Q) = 1, llegamos al óptimo en
una etapa. Obsérvese que, al ser (34) y (35) menor que 1, la tasa de convergencia será lineal.
Para demostrar (35) haremos uso del siguiente resultado:
Lema 17 (Desigualdad de Kantorovich). Sea Q una matriz n × n simétrica y definida positiva.
Entonces, para todo y 6= 0n , se tiene
0 < m = λ1 ≤ λ2 ≤ . . . ≤ λn = M.
20
Sea S una matriz formada por los n vectores (columna) ortonormales asociados a λ1 , . . ., λn . En-
tonces, ST QS es una matriz diagonal, con λ1 , . . . , λn en la diagonal. Por consiguiente, podemos
suponer sin pérdida de generalidad4 que Q es una matriz diagonal, con elementos de la diagonal
λ1 , . . . , λn . Ası́, para todo y = (y1 , . . . , yn )T 6= 0n ,
2
(yT y)2 ∑ni=1 y2i
= 2 .
(yT Qy)(yT Q−1 y) n
λ
∑i=1 i i
y 2 n yi
∑i=1 λi
y2j
ξ j := , j = 1, . . . , n.
∑ni=1 y2i
Entonces tenemos que
(yT y)2 1
= . (37)
(yT Qy)(yT Q−1 y) n
λ ξ n
∑i=1 i i ∑i=1 φ ( λ ) ξ
i i
Sea
n n
λ := ∑ λi ξi , λφ := ∑ φ (λi )ξi .
i=1 i=1
Como ξi ≥ 0 y ∑ni=1 ξi = 1, tendremos que λ1 ≤ λ ≤ λn . Supongamos que λ1 6= λn (en caso con-
trario (37) es igual a 1 y se verifica (36) con igualdad). Cada λi se puede representar como una
combinación convexa de λ1 y λn :
λi − λn λ1 − λi
λi = λ1 + λn .
λ1 − λn λ1 − λn
Por la convexidad de φ se tiene que
λi − λn λ1 − λi
φ (λi ) ≤ φ (λ1 ) + φ (λn ).
λ1 − λn λ1 − λn
Por tanto,
n n
λi − λn λ1 − λi λ1 + λn − λi λ1 + λn − λ
λφ ≤ ∑ φ (λ1 ) + φ (λn) ξi = ∑ ξi = ,
i=1 λ1 − λn λ1 − λn i=1 λ1 λn λ1 λn
(yT y)2 1 λ1 λn
T T −1
= ≥
(y Qy)(y Q y) λ λφ λ (λ1 + λn − λ )
λ1 λn 4λ 1 λ n
≥ = ,
máxλ ∈[λ1 ,λn ] {λ (λ1 + λn − λ )} (λ1 + λn )2
21
Proposición 18. Sea f (x) = 12 xT Qx, con Q simétrica y definida positiva. Consideremos el método
del descenso más rápido
xk+1 = xk − αk ∇ f (xk ),
donde αk es elegido por búsqueda lineal exacta, satisfaciendo pues
Entonces, 2
M −m
f (xk+1 ) ≤ f (xk ), ∀k, (39)
M +m
donde M y m son el mayor y el menor valor propio de Q, respectivamente.
Demostración. Denotemos
gk := ∇ f (xk ) = Qxk .
El resultado se verifica de forma obvia si gk = 0n (ya que xk+1 = xk = 0n ), por lo que supondremos
gk 6= 0n . Comencemos calculando el tamaño de paso que minimiza (38):
d
f (xk − α gk ) = −gTk Q(xk − α gk ) = −gTk gk + α gTk Qgk .
dα
Igualando esta derivada a cero, obtenemos:
gTk gk
αk = T .
gk Qgk
Entonces,
gk
1 1 z}|{
f (xk+1 ) = (xk − αk gk )T Q(xk − αk gk ) = (xTk Qxk − 2αk gTk Qxk +αk2 gTk Qgk )
2 2
1 T (gTk gk )2
= x Qxk − .
2 k gk Qgk
En base al hecho de que
1 1
f (xk ) = xTk Qxk = gTk Q−1 gk ,
2 2
se deduce, aplicando el Lema 17,
(gTk gk )2
f (xk+1 ) = 1 − f (xk )
(gk Qgk )(gk Q−1 gk )
4Mm M −m 2
≤ 1− f (xk ) = f (xk ),
(M + m)2 M +m
y la prueba está completa.
Es posible ver que las cotas (34) y (39) son “ajustadas”, en el sentido de que se alcanza la
igualdad para ciertos puntos iniciales (ejemplo5 : f (x) = 21 ∑ni=1 λi x2i , donde 0 < λ1 ≤ . . . ≤ λn ,
tomando x0 = (λ1−1 , 0, . . ., 0, λn−1 )T ).
5 Cualquier función cuadrática definida positiva puede expresarse en esta forma. Los detalles de este ejemplo apa-
22
6.2. Métodos del gradiente
Consideremos el siguiente método:
xk+1 = xk − αk B−1
k ∇ f (xk ), (40)
donde Bk es simétrica y definida positiva. Vamos a ver que es posible hacer un cambio de variables
para transformar este tipo de algoritmos en el del descenso más rápido.
Realizamos un cambio de variable x = Sy, donde6
S = (B−1
k )
1/2
.
xk+1 = xk − αk B−1
k ∇ f (xk ).
Ası́ pues, el método del gradiente (40) no es otra cosa que el método del descenso más rápido (41)
en el espacio de las variables y.
Apliquemos, en consecuencia, los resultados obtenidos para el método del descenso más rápido
a la iteración reescalada (41). Obtenemos:
kyk+1 k
≤ máx{|1 − αk mk |, |1 − αk Mk |}, (42)
kyk k
y
2
f (xk+1 ) h(yk+1 ) Mk − mk
= ≤ , (43)
f (xk ) h(yk ) Mk + mk
donde mk y Mk son el menor y el mayor valor propio de ∇2 h(y), respectivamente, cuyo valor viene
dado por
−1/2 −1/2
∇2 h(y) = S∇2 f (x)S = Bk QBk .
1/2
Usando la relación yk = S−1 xk = Bk xk , se deduce de (42)
xTk+1 Bk xk+1
T ≤ máx{(1 − αk mk )2 , (1 − αk Mk )2 }.
xk Bk xk
6 SiA es una matriz simétrica semidefinida positiva, con valores propios λ1 , . . . , λn y una base de vectores propios
1/2
ortonormales asociada u1 , . . . , un , entonces A1/2 := ∑ni=1 λi ui uTi es una matriz simétrica (e invertible si lo es A) que
1/2 1/2
verifica A A = A.
23
El tamaño de paso que minimiza esta cota es
2
. (44)
Mk + mk
El punto importante a tener en cuenta es que si Mk /mk es mucho más grande que la unidad, la tasa
de convergencia puede ser muy lenta, incluso si un tamaño de paso óptimo es considerado.
Observación 19. Si Bk es una “buena aproximación” de ∇2 f (x) = Q, se tendrá que
−1/2 −1/2 −1/2 −1/2 −1/2 1/2 1/2 −1/2
∇2 h(y) = Bk QBk ≈ Bk Bk Bk = Bk (Bk Bk )Bk = I.
En este caso, cabe esperar que mk ≈ 1 ≈ Mk . Además, el tamaño de paso αk = 1 es “casi” óptimo,
de acuerdo con (44).
24
Demostración. Probaremos, en primer lugar, que existe un k0 ≥ 0 tal que
i.e., el valor ᾱ = 1 “pasa” el test de la regla de Armijo. Por el teorema de Taylor, tenemos
1
f (xk + pk ) − f (xk ) = ∇ f (xk )T pk + pTk ∇2 f (x̄k )pk ,
2
donde x̄k ∈ [xk , xk + pk ]. Por lo tanto, será suficiente probar que, para k suficientemente grande, se
tiene
1
∇ f (xk )T pk + pTk ∇2 f (x̄k )pk ≤ c∇ f (xk )T pk . (49)
2
Definiendo
∇ fk pk
g̃k := y p̃k := ,
k∇ fk k k∇ fk k
la ecuación (49) toma la forma
1
(1 − c)g̃Tk p̃k + p̃Tk ∇2 f (x̄k ) p̃k ≤ 0. (50)
2
De la ecuación (46) se deduce
p̃k + (∇2 f (x∗ ))−1 g̃k → 0n . (51)
Como kg̃k k = 1, ∀k, es evidente que {pk } es una sucesión acotada:
k p̃k + (∇2 f (x∗ ))−1 g̃k k ≥ k p̃k k − k(∇2 f (x∗ ))−1 g̃k k ≥ k p̃k k − k(∇2 f (x∗ ))−1kkg̃k k.
Al ser ∇ f continua, ∇ f (xk ) → ∇ f (x∗ ) = 0n , por lo que deberá ser pk → 0n . De ahı́ se deduce
xk + pk → x∗ , y por lo tanto, x̄k → x∗ , lo que a su vez conlleva ∇2 f (x̄k ) → ∇2 f (x∗ ), pues f ∈ C 2 .
Sea bk := p̃k + (∇2 f (x∗ ))−1 g̃k . Entonces (51) implica bk → 0n . Teniendo en cuenta que p̃k =
−(∇2 f (x∗ ))−1 g̃k + bk , escribimos (50) como
1
−(1 − c)g̃Tk − (∇2 f (x∗ ))−1 g̃k + bk ≥ p̃Tk ∇2 f (x̄k ) − ∇2 f (x∗ ) p̃k
2
1
+ − g̃Tk (∇2 f (x∗ ))−1 + bTk ∇2 f (x∗ ) − (∇2 f (x∗ ))−1g̃k + bk ,
2
o, equivalentemente,
1 1
− c g̃Tk (∇2 f (x∗ ))−1 g̃k ≥(1 − c)g̃Tk bk + p̃Tk ∇2 f (x̄k ) − ∇2 f (x∗ ) p̃k
2 2
1
− g̃Tk bk + bTk ∇2 f (x∗ )bk .
2
Llamemos γk a la parte derecha de la anterior desigualdad, esto es,
1 1
γk := −cg̃Tk bk + p̃Tk ∇2 f (x̄k ) − ∇2 f (x∗ ) p̃k + bTk ∇2 f (x∗ )bk .
2 2
Ası́, llegamos a que la desigualdad (49) es equivalente a
1
− c g̃Tk (∇2 f (x∗ ))−1 g̃k ≥ γk . (52)
2
25
Como ∇2 f (x̄k ) → ∇2 f (x∗ ), se tendrá pues que γk → 0. Por otra parte, al ser (∇2 f (x∗ ))−1 definida
positiva, se tiene que
1 1
g̃Tk (∇2 f (x∗ ))−1 g̃k ≥ kg̃k k2 = ,
M M
2 ∗
donde M es el mayor valor propio de ∇ f (x ), y por consiguiente, se verifica (52) para k suficien-
temente grande, pues c < 1/2 y γk → 0. Esto concluye la demostración de (48).
Para completar la prueba observamos que, a partir de (46), se tiene que
y de ahı́,
∗ ∗ ∗ ∗ o(kxk − x∗ k)
2 2
k∇ f (xk )k ≤ k∇ f (x )kkxk − x k + o(kxk − x k) = k∇ f (x )k + kxk − x∗ k,
kxk − x∗ k
es decir,
∇ f (xk ) = O(kxk − x∗ k).
A partir de (54) también obtenemos
pues qk → 0n . Por otra parte, hemos demostrado al principio que para k suficientemente grande,
xk+1 = xk + pk , y ası́
xk+1 − x∗ = o(kxk − x∗ k),
lo que implica (47) y concluye la demostración.
En particular vemos que el método de Newton combinado con el algoritmo “backtracking”
con ᾱ = 1, converge superlinealmente cuando converge a un mı́nimo local x∗ tal que ∇ f (x∗ ) es
definida positiva.
Si pk es una dirección de búsqueda quasi-Newton del tipo pk = −B−1
k ∇ f k , entonces (46) es
equivalente a
∇f
(∇2 f (x∗ ))−1 − B−1 ∇ fk
k
k
2 ∗ −1 −1
.
0 = lı́m = lı́m
(∇ f (x )) − Bk
k→∞ k∇ fk k k→∞ k∇ fk k
Ejercicio 21. Demostrar que si x∗ es un mı́nimo local no singular (i.e., ∇ f (x∗ ) = 0n y ∇2 f (x∗ ) es
definida positiva) y f ∈ C 2 , entonces ∇ f (x) 6= 0n en un entorno de x∗ .
26
Solución: Veamos primero que, por continuidad de ∇2 f , existirá un entorno U abierto convexo de
x∗ tal que ∇2 f (x) es definida positiva ∀x ∈ U . Efectivamente,
pT ∇2 f (x)p = pT ∇2 f (x∗ )p + pT ∇2 f (x) − ∇2 f (x∗ ) p ≥ λ1 − k∇2 f (x) − ∇2 f (x∗ )k kpk2 ,
donde λ1 es el menor valor propio de ∇2 f (x∗ ). Por continuidad de ∇2 f , existirá un entorno con-
vexo U de x∗ tal que k∇2 f (x) − ∇2 f (x∗ )k < λ1 , ∀x ∈ U , y por tanto ∇2 f (x) será definida positiva
∀x ∈ U .
Supongamos, por reducción al absurdo, que existe un x̂ ∈ U \ {x∗ } tal que ∇ f (x̂) = 0n . Como
Z 1
∗
∇ f (x̂) − ∇ f (x ) = ∇2 f (x∗ + t(x̂ − x∗ ))(x̂ − x∗ )dt,
0
1. Convergencia local, del método ‘puro’ cuando x0 está suficientemente próximo a un mı́nimo
local no singular.
2. Convergencia global, que analiza las modificaciones que son necesarias para asegurar la con-
vergencia del algoritmo a algún mı́nimo local independiente de la ubicación del punto de
arranque x0 .
27
8.1. Convergencia local
Discutiremos las propiedades de la tasa de convergencia local del método de Newton, en su
forma pura.
Si x está suficientemente próximo a un punto x∗ tal que ∇2 f (x∗ ) es definida positiva, el hessiano
∇2 f (x) también será definido positivo. Entonces, el método de Newton puro estará bien definido
en esta región, y convergerá cuadráticamente.
Teorema 22. Supongamos que ∇2 f es Lipschitz continua en la bola cerrada B(x∗ ; β ), siendo x∗ un
punto en el que se satisfacen las condiciones suficientes de optimalidad. Consideremos la iteración
xk+1 = xk + dNk , donde d k = dkN ha sido definida en (56). Entonces, se cumplen las siguientes
propiedades:
1) Si el punto
k inicial x0 está suficientemente próximo a x∗ , la sucesión de puntos generada por
∞
el algoritmo x k=0 converge a x∗ con tasa de convergencia es cuadrática.
2) La sucesión {k∇ fk k}∞k=0 converge cuadráticamente a cero.
Demostración. 1) A partir de la definición de dkN y de la condición de optimalidad de 1er orden
∇ f (x∗ ) = 0n , tendremos:
xk + dkN − x∗ = xk − x∗ − (∇2 fk )−1 ∇ fk (57)
2
−1 n 2 k ∗
o
= ∇ fk ∇ fk x − x − (∇ fk − ∇ f∗ ) ,
28
2 ∗ −1
donde L̃ := L
∇ f (x )
.
Tomemos β suficientemente pequeño para que, además de (59) se cumpla que β L̃ < 1. Enton-
ces
k+1 ∗
k ∗
k ∗
x − x
≤ L̃
x − x
x − x
k ∗
k ∗
≤ β L̃
x − x
≤
x − x
≤ β ,
k+1
x − x∗
≤ β L̃
xk − x∗
≤ (β L̃)k+1
x0 − x∗
,
donde la penúltima desigualdad la obtenemos por la fórmula (59). Y con esto hemos probado que
las normas de los gradientes convergen cuadráticamente a cero.
29
Se trata de modificar el método de Newton puro con el propósito de ’forzar’ la convergencia
global, pero manteniendo la ’buena tasa’ de convergencia local. Una posibilidad simple consiste
en reemplazar la dirección de Newton por la dirección del descenso más rápido, cuando la primera
no está definida o no es de descenso.
Generalmente, ninguna de las variantes del método de Newton puro puede garantizar conver-
gencia rápida en las primeras iteraciones, pero hay procedimientos que pueden usar información
de 2o orden de forma efectiva, incluso cuando el hessiano no es definido positivo. Estos esquemas
se basan en modificaciones de la diagonal del hessiano, de forma que la dirección de búsqueda d k
se obtiene resolviendo el sistema
∇2 f (xk ) + ∆k d k = −∇ f (xk ),
cuando la dirección de Newton, dkN , no está definida o no es de descenso. ∆k es una matriz diagonal
que se elige de tal forma que ∇2 f (xk ) + ∆k sea definida positiva. A continuación describimos una
de las posibilidades más caracterı́sticas.
1
fk (d) := f (xk ) + ∇ f (xk )T d + d T ∇2 f (xk )d.
2
Sabemos que fk (d) es una ’buena’ aproximación de f (xk + d) cuando d está en un ’pequeño’
entorno de 0n . El problema estriba en que la minimización irrestringida de fk (d) puede conducirnos
a un nuevo punto, xk+1 = xk +d k con d k ∈ argmin { fk (d) : d ∈ Rn } que esté lejos de dicho entorno.
Cobra, pues, sentido considerar una etapa de Newton restringida, d k , obtenida minimizando
fk (d) sobre un entorno ’conveniente’ de 0n , llamado región de confianza:
30
de forma que
1 T 2 k
k k
f (x + d ) = fk (d k
) + o(γk2 ) = k
f (x ) + mı́n ∇ f (x ) d + d ∇ f (x )d + o(γk2 )
k T
kdk≤γk 2
Ası́ pues, denotando
k
∇ f (x )
d˜k := −
∇ f (xk )
γk ,
se tendrá:
f (xk+1 ) = f (xk + d k )
1
≤ f (xk ) + ∇ f (xk )T d˜k + d˜kT ∇2 f (xk )d˜k + o(γk2 ) =
2 !
γk
k
k
k T 2 k k
f (x ) + γk −
∇ f (x )
+
2 ∇ f (x ) ∇ f (x )∇ f (x ) + o(γk ) .
2
f (xk )
Se aprecia que para γk suficientemente pequeño, el término −
∇ f (xk )
domina a los otros dos
términos en la expresión contenida entre paréntesis, mostrando que f (xk+1 ) < f (xk ).
La elección del valor inicial de γk es crucial en este esquema: si es elegido demasiado grande,
quizás se necesitarán numerosas reducciones de γk hasta que una mejora de la función objetivo sea
lograda; si, por el contrario, el valor inicial de γk es demasiado pequeño, la tasa de convergencia
puede ser muy pobre.
9. Problemas de Mı́nimos-Cuadrados
El problema del que nos vamos a ocupar es el siguiente
( )
1 2 1 m 2 n
(P) mı́n f (x) := kg(x)k = ∑ gi (x) ; s.a. x ∈ R , (61)
2 2 i=1
donde g = (g1 , . . ., gm )T : Rn → Rm , y gi ∈ C 1 , i = 1, 2, ..., m.
Si nustro objetivo es resolver la ecuación vectorial (o sistema de ecuaciones) g(x) = 0m , es
evidente que x∗ es una solución del tal sistema si y sólo si x∗ minimiza 12 kg(x)k2 , y el valor óptimo
es cero.
Otras muchas aplicaciones pueden encontrarse en campos tan diversos como el ajuste de cur-
vas, las redes neuronales, la clasificación de patrones, etc. (ver Bert95, págs 93-97).
Describiremos el método más comunmente usado para resolver el problema (61), conocido
como método de Gauss-Newton. Dado un punto xk , la forma pura del método de Gauss-Newton se
basa en linealizar la función g(.) alrededor del punto xk , es decir, considerar la función lineal
ℓk (x) := g(xk ) + ∇g(xk )T (x − xk ),
y minimizar, acto seguido, la norma de la función lineal ℓk (x). De esta forma
k+1 1 2 n
x = argmin kℓk (x)k : x ∈ R =
2
( (
) )
1
g(xk )
2 + 2g(xk )T ∇g(xk )T (x − xk )
argmin : x ∈ Rn .
2 +(x − xk )T ∇g(xk )∇g(xk )T (x − xk )
31
Asumiendo que la matriz, cuadrada de dimensiones n × n, ∇g(xk )∇g(xk )T sea invertible, el
anterior problema de minimización conduce a:
−1
xk+1 = xk − ∇g(xk )∇g(xk )T ∇g(xk )g(xk ). (62)
Nótese que si g es una función lineal, tenemos kg(x)k2 = kℓk (x)k2 y el método converge en
una simple iteración. Obsérvese también que la dirección utilizada en (62)
−1
k k T
− ∇g(x )∇g(x ) ∇g(xk )g(xk ),
32
10. Métodos de direcciones conjugadas
El propósito de esta familia de métodos es mejorar la tasa de convergencia del método de des-
censo más rápido, sin incurrir en la sobrecarga computacional del método de Newton.
donde Q es una matriz simétrica y definida positiva, o bien para resolver el sistema lineal
Qx = b.
d 0 = t1 d 1 + . . . + tk d k .
Entonces
k
(d 0 )T Qd 0 = ∑ ti (d i )T Qd 0 = 0,
i=1
xk+1 = xk + tk d k , k = 0, 1, . . ., n − 1,
donde x0 es un punto inicial arbitrario, y tk se obtiene mediante una búsqueda lineal exacta, es decir
n o
f (xk + tk d k ) = mı́n f (xk + td k ) : t ∈ R . (65)
donde
Mk := x0 + span{d 0 , d 1 , ..., d k }.
En particular, xn minimiza f sobre Rn , puesto que Mn−1 = Rn .
33
Demostración. Por (65) se tiene
d f (xi + td i )
|t=ti = ∇ f (xi+1 )T d i = 0,
dt
y, para i = 0, 1, ..., k − 1,
!T
T k
∇ f (xk+1 )T d i = Qxk+1 − b di = xi+1 + ∑ t jd j Qd i − bT d i
j=i+1
T
= (xi+1 )T Qd i − bT d i = Qx i+1
−b d i = ∇ f (xi+1 )T d i ,
donde hemos tenido en cuenta que d i y d j , j = i + 1, ..., k, son Q-conjugadas. Combinando las dos
últimas igualdades resulta
∇ f (xk+1 )T d i = 0, i = 0, 1, . . ., k. (67)
De esta forma
∂ f (x0 + γ0 d 0 + . . . + γk d k )
= 0, i = 0, . . . , k,
∂ γi γ j =t j , j=0,1,...,k
y se obtiene la conclusión deseada.
Dado un conjunto de vectores linealmente independientes {v0 , v1 , ..., vk }, nos planteamos ahora
la tarea de construir un conjunto de direcciones Q-conjugadas {d 0 , d 1 , ..., d k } tal que
Para ello recurriremos a una variante del método Gram-Schmidt. Aplicaremos un mecanismo
recursivo, comenzando con
d 0 = v0 . (69)
Supongamos que, para algún i < k, disponemos ya de direcciones Q-conjugadas d 0 , d 1 , ..., d i
tales que
eligiendo los coeficientes ci+1,m , m = 0, 1, ..., i, de forma que se garantice que d i+1 es Q-conjugada
a d 0 , d 1 , ..., d i. Esto sucederá si, para cada j = 0, 1, ..., i, se cumple
i
0 = (d i+1 )T Qd j = (vi+1 )T Qd j + ∑ ci+1,m(d m)T Qd j
m=0
i+1 T j j T j
= (v ) Qd + ci+1, j (d ) Qd ,
de donde
(vi+1 )T Qd j
ci+1, j = − , j = 0, 1, ..., i. (72)
(d j )T Qd j
Obsérvese que el denominador (d j )T Qd j es positivo, puesto que las direcciones d 0 , d 1 , ..., d i
son (por hipótesis de inducción) Q-conjugadas y, por tanto, no-nulas.
34
Nótese también que d i+1 6= 0n puesto que si fuese d i+1 = 0n tendrı́amos por (71) y (70)
y
i
d i+1 = ∑ γm d m . (73)
m=0
xk+1 = xk + tk d k ,
35
Obsérvese que d 0 = −g0 , y el método termina cuando llega a un punto xk tal que gk = 0n .
Lógicamente, el método también se detiene cuando d k = 0n , pero veremos que esto sólo puede
acontecer cuando gk = 0n .
La propiedad clave del método del gradiente conjugado estriba en que la fórmula (74) puede
ser simplificada de forma considerable. En particular todos salvo uno de los coeficientes de (74) se
anulan, y ello como consecuencia de (67), ecuación que establece que el gradiente gk es ortogonal
a d 0 , d 1 , ..., d k−1. De hecho tenemos la siguiente proposición:
Proposición 26. Las direcciones de búsqueda utilizadas en el método del gradiente conjugado son
d 0 = −g0 ,
d k = −gk + βk d k−1 , k = 1, 2, ..., n − 1,
con
(gk )T gk
βk := . (75)
(gk−1 )T gk−1
Además, el método termina en una solución óptima en un máximo de n etapas.
Demostración. Usuaremos la inducción para comprobar que los gradientes gk generados hasta la
terminación son linealmente independientes. El resultado es obvio k = 0. Supongamos, pues, que el
método no ha terminado después de k etapas, y que g0 , g1 , ..., gk−1 son linealmente independientes.
Entonces, y puesto que se trata de un método de direcciones conjugadas,
y también
1 j T
(d j )T Qd j = (d ) (g j+1 − g j ).
tj
36
Sustituyendo en (74) se obtiene
d k = −gk + βk d k−1 , (78)
con
1 T
tk−1 (gk ) gk
βk = 1 k−1 )T (g − g
(79)
tk−1 (d k k−1 )
(gk )T gk
= . (80)
(d k−1 )T (gk − gk−1 )
Mientras que (75) y (81) son equivalentes en el caso cuadrático, en el caso no-cuadrático exis-
ten diferencias notables entre ambas fórmulas.
Aplicación a problemas no-cuadráticos El método del gradiente conjugado puede ser aplicado
al problema no-cuadrático
mı́n { f (x), s.a. x ∈ Rn },
en cuyo caso procede de la siguiente forma:
xk+1 = xk + tk d k ,
donde tk es obtenido mediante una búsqueda lineal exacta
f xk + tk d k = mı́n{ f xk + td k , t ∈ R}, (82)
y
37
donde la primera igualdad se deduce de (83) y la segunda de (82).
El método del gradiente conjugado es a menudo empleado en problemas en que el número
de variables n es grande, y es frecuente que el método de repente comience a generar de repente
direcciones de búsqueda ineficientes. Por esta razón, es importante operar en ciclos de etapas que
usen direcciones çonjugadas”, con una primera iteración en el ciclo realizada mediante el método
de descenso más rápido. Un par de posibles polı́ticas para el ’reinicio’ es:
1. Reiniciar (un nuevo ciclo) con una etapa del método del descenso más rápido después de
exactamente n iteraciones.
2. Reiniciar con la correspondiente etapa del método del descenso más rápido bien si se han
realizado n iteraciones desde el reinicio último o si
2
k T k−1
k−1
∇ f (x ) ∇ f (x ) > γ
∇ f (x )
, (84)
donde γ es un escalar fijo con 0 < γ < 1. La relación anterior es un test de ’pérdida de con-
jugación’, puesto que si las direcciones generadas fuesen conjugadas entonces tendrı́amos
∇ f (xk )T ∇ f (xk−1 ) = 0.
38
donde
pk Dk q k
vk : = − , (88)
(pk )T qT τk
τk : = (qk )T Dk qk , (89)
A partir de (89) y de (91), junto con la desigualdad de Cauchy-Schwarz, deducimos que todos los
términos en el segundo miembro de (93) son no-negativos. Para probar que zT Dk+1 z es, de hecho,
positivo mostraremos que no se pueden satisfacer simultáneamente
39
De hecho, si kak2 kbk2 = (aT b)2 , se tendrá a = λ b o, equivalentemente,
z = λ qk .
Puesto que z 6= 0n , se sigue que λ 6= 0, de forma que si zT pk = 0 tiene que cumplirse (qk )T pk = 0,
lo que es imposible en virtud de (90).
Proposición 29. Sean {xk }, {d k }, y {Dk } sucesiones generadas por el algoritmo Quasi-Newton
(85), (87) a (89), aplicado a minimizar la función
1
f (x) = xT Qx − bT x,
2
donde Q es simétrica y definida positiva, con tk elegido de manera que
Asumamos que ninguno de los puntos x0 , x1 , ..., xn−1 es un mı́nimo. Entonces se tiene que:
(i) Los vectores d 0 , d 1 , ..., d n−1 son Q-conjugados;
(ii) Dn = Q−1 .
(d i )T Qd j = 0, 0 ≤ i < j ≤ k, (95)
Dk+1 Qpi = pi , 0 ≤ i ≤ k. (96)
(95) establece (i), mientras que probaremos que (96) conduce a (ii). De hecho, y puesto que hemos
asumido que para i < n ninguno de los puntos xi es óptimo, y d i es una dirección de descenso
(por (85) y la proposición anterior), tenemos que pi 6= 0n . Puesto que pi = ti d i y d 0 , d 1 , . . . , d n−1
son Q-conjugados, se sigue que p0 , p1 , . . . , pn−1 son linealmente independientes y, ası́ pues, (96)
implica que Dn Q es igual a la matriz identidad.
Probaremos en primer lugar, que
(pk )T qk (qk )T Dk qk
(vk )T qk = − = 1 − 1 = 0,
(pk )T qk τk
y resulta
Dk+1 Qpk = pk
40
A continuación probaremos por inducción, y de forma simultánea (95) y (96). Para k = 0, (96) se
cumple en virtud de (97). De otro lado:
(d 1 )T Qd 0 = −∇ f (x1 )T D1 Qd 0
1 1
= − ∇ f (x1 )T (D1 Qp0 ) = − ∇ f (x1 )T p0 = ∇ f (x1 )T d 0 = 0.
t0 t0
Asumiremos que (95) y (96) se cumplen para k, y comprobaremos que también son válidas para
k + 1. Se tiene, para i < k,
∇ f (xk+1 ) = ∇ f (xi+1 ) + Q(pi+1 + . . . + pk ). (98)
Veamos que pi es ortogonal a cada vector presente en el miembro de la derecha en (98). De hecho
pi es ortogonal a Qpi+1 , . . ., Qpk dado que los vectores p0 , . . ., pk son Q-conjugados (pi = ti d i ), y
es ortogonal a ∇ f (xi+1 ) porque ti se determina mediante una minimización (94). Ası́ pues, de (98)
se deduce
pi ∇ f (xk+1 ) = 0, 0 ≤ i < k. (99)
A partir de esta igualdad, y de (96) (junto con la hipótesis de inducción):
(pi )T QDk+1 ∇ f (xk+1 ) = (pi )T ∇ f (xk+1 ) = 0, 0 ≤ i ≤ k, (100)
donde la primera igualdad la obtenemos por (96), y la segunda por (99) (el caso i = k, es conse-
cuencia de (94)), y puesto que pi = ti d i , y d k+1 = −Dk+1 ∇ f (xk+1 ), obtenemos de (100)
−ti (d i )T Qd k+1 = 0, 0 ≤ i ≤ k, donde ti 6= 0, (101)
y esto prueba (95) para k + 1.
A partir de la hipótesis de inducción relativa a (96) y por (101), tenemos para todo i tal que
0 ≤ i ≤ k:
(qk+1 )T Dk+1 Qpi = (qk+1 )T pi = (pk+1 )T Qpi = tk+1ti d k+1 Qd i = 0. (102)
De (87):
pk+1 (pk+1 )T qi Dk+1 qk+1 (qk+1 )T Dk+1 qi
Dk+2 qi = Dk+1 qi + −
(pk+1 )T qk+1 (qk+1 )T Dk+1 qk+1
+ξk+1 τk+1 vk+1 (vk+1 )T qi .
Puesto que (pk+1 )T qi = (pk+1 )T Qpi = 0, el segundo término en el miembro de la derecha de la
expresión anterior es cero. Similarmente:
(qk+1 )T Dk+1 qi = (qk+1 )T Dk+1 Qpi = (qk+1 )T pi = (pk+1 )T Qpi = 0,
(donde la antepenúltima igualdad se obtiene por la fórmula (96)) y el tercer término en el segundo
miembro de la expresión que estamos analizando también es cero.
Finalmente,
(pk+1 )T qi (qk+1 )T Dk+1 qi
(vk+1 )T qi = − = 0 − 0 = 0.
(pk+1 )T qk+1 τk+1
Ası́ pues
Dk+2 Qpi = Dk+2 qi = Dk+1 qi = Dk+1 Qpi = pi , 0 ≤ i ≤ k.
Por (97),
Dk+2 Qpk+1 = pk+1 ,
y queda verificado que (96)se cumple para k + 1.
41
11.1. Comparación de los métodos Quasi-Newton con otros métodos
La principal ventaja de los métodos Quasi-Newton estriba en que si las búsquedas lineales se
realizan con ’relativa’ precisión, estos algoritmos, no sólo ’tienden’ a generar direcciones conjuga-
das, sino que estas direcciones ’tienden’ a la del método de Newton, disfrutando de una rápida tasa
de convergencia en las inmediaciones de un mı́nimo local no-singular. Ello además, no depende
de la matriz inicial D0 , con lo que no es usualmente necesario el intercalar etapas de ’reinicio’ que
recurran al método de descenso más rápido.
Si las evaluaciones múltiples de la función objetivo y del gradiente a realizar durante las búsquedas
lineales son computacionalmente costosos, las ventajas computacionales del método del gradiente
conjugado vendrı́an compensadas por la rapidez de convergencia de los métodos Quasi-Newton.
e1 , e2 , . . . , en−1 , en , en−1 , . . . , e2 , e1 , e2 , . . .
Estos métodos cı́clicos tienen la ventaja de no requerir ninguna información acerca de ∇ f para
determinar las direcciones de descenso.
Si el gradiente de f está disponible, tiene sentido elegir la dirección coordenada en base a ∇ fk .
Una técnica popular es el llamado método de Gauss-Southwell, donde en cada etapa es elegida
como dirección de búsqueda la dirección coordenada correspondiente a la componenente mayor
(en valor absoluto) del gradiente de f .
42
Figura 12: Método de descenso por coordenadas.
A pesar de parecer un método simple e intuitivo, puede ser bastante ineficiente. La experiencia
práctica demuestra que tı́picamente se requieren n iteraciones del método de descenso por coor-
denadas para igualar una iteración del método de descenso más rápido. De hecho, el método de
descenso de coordenadas con búsqueda lineal exacta puede iterar infinitamente sin aproximarse
nunca a un punto donde el gradiente de la función objetivo tienda a cero. Esta dificultad provie-
ne del hecho de que el gradiente ∇ fk puede volverse cada vez más perpendicular a la dirección
coordenada, y ası́, cos θk puede aproximarse suficientemente rápido a cero de manera que la con-
dición de Zoutendijk (21) es satisfecha aunque ∇ fk no se aproxime a cero. Sin embargo, este
método puede ser práctico en diversas situaciones ya que no requiere el cálculo del gradiente ∇ fk ,
y además, la velocidad de convergencia puede ser bastante aceptable si las variables no están “muy
interaccionadas” (es decir, si la matriz hessiana es casi diagonal).
43
La iteración reemplaza el “peor” vértice xmax por uno “mejor”. Para ello se computa el punto
reflejado
xre f := 2x̂ − xmax ,
que está en la recta determinada por xmax y x̂, siendo simétrico a xmax respecto de x̂. Dependiendo
del valor de la función objetivo en xre f , en relación con el valor de la función objetivo en los
restantes puntos del simplex (excluido xmax ), un nuevo vértice xnew es obtenido, y un nuevo simplex
es formado reemplazando xmax por xnew , conservando los otros n vértices.
if f (xmax ) ≤ f (xre f ) :
1 Caso 3: xre f tiene coste máximo
xnew = 2 (xmax + x̂)
(contracción)
else:
xnew = 12 (xre f + x̂)
Formar el nuevo simplex reemplazando xmax por xnew .
1
2
xref + x)
( xexp
xi xref
x
1
2
( xmax + x)
xmax xmin
Figura 13: Elecciones posibles para el nuevo punto xnew en el algoritmo simplex.
Una cuestión importante consiste en saber cuándo una solución “adecuada” ha sido encontrada.
Nelder y Mead sugirieron utilizar la desviación estándar de los valores de la función:
s
1 n 1 n
test = ∑
n i=0
( f (xi ) − M)2 , donde M = ∑ f (xi).
n + 1 i=0
44
El algoritmo se detendrı́a cuando el valor test fuera menor que cierto valor de tolerancia preasig-
nado. Esta regla de parada resulta ser razonable en aplicaciones estadı́sticas, donde este método
aún es utilizado. Otra posibilidad consistirı́a en detener el algoritmo cuando el valor de la función
en todos los puntos del simplex sea el mismo, es decir, cuando f (xmin ) = f (xmax ) (o cuando su
diferencia sea menor que cierto valor de tolerancia).
Cuando f no es convexa es posible que f (xnew ) > f (xmax ), no experimentándose una “mejora”
de la función objetivo en la correspondiente etapa. En este caso una modificación posible consistirı́a
en contraer el simplex hacia el mejor vértice xmin , reemplazando los vértices originales xi por
1
x̄i = (xi + xmin ), i = 0, 1, . . ., n.
2
Este método con la modificación descrita, funciona razonablemente bien en la práctica para pro-
blemas de dimensión pequeña (hasta 10), aunque no garantiza unas propiedades de convergencia
teóricamente deseables (un contraejemplo para la convergencia con n = 2 y f estrictamente con-
vexa es dado por McKinnon, ver [16]).
En la Figura 14 podemos ver el resultado de aplicar el método simplex a dos funciones utiliza-
das habitualmente en los tests de algoritmos.
5 1.5
2
1
-0
-1
0.5
-2
-3
-4
-0
-5
Figura 14: Método simplex de Nelder y Mead aplicado a las funciones clásicas de Himmelblau
f (x, y) = (x2 + y − 11)2 + (x + y2 − 7)2 (izq.) y Rosenbrock f (x, y) = 100(y − x2 )2 + (1 − x)2 (der.).
Formas más generales de del Algoritmo 2 toman combinaciones convexas arbitrarias para
obtener los puntos calculados por el método: xre f = x̂ + λ (x̂ − xmax ), xexp = xre f + γ (xre f − x̂),
xnew = θ xmax + (1 − θ )x̂, o xnew = θ xre f + (1 − θ )x̂ para ciertas constantes λ , γ > 0 y θ ∈ (0, 1).
Otra modificación posible consiste en reiniciar el simplex actual tras realizarse varias etapas de
expansión (Caso 1, cuando xnew = xexp ), para ası́ evitar una deformación grande del simplex. En
este caso, los dos mejores puntos son retenidos, y la distancia entre ellos determina la longitud del
lado del nuevo simplex regular. Dado un punto x0 , es fácil obtener un simplex regular de longitud
δ > 0 con vértice en x0 . Basta tomar
δ √ δ √
α := √ (n − 1 + n + 1), β := √ (−1 + n + 1),
n 2 n 2
45
y definir
xi := x0 + (β , . . . , β , α , β , . . ., β )T , i = 1, . . . , n.
⇑
componenente i
Normalmente, el método parte de un simplex regular generado a partir de un punto inicial introdu-
cido, aplicando a continuación el Algoritmo 2.
F := {x ∈ Rn : h(x) = 0m }.
Sea x∗ un mı́nimo local de (P). Supondremos, de ahora en adelante, que todas las funciones
involucradas ( f y hi , i = 1, . . ., m) son C 1 (W ), donde W es un abierto que contiene a x∗ .
Llamaremos matriz gradiente de h a la matriz n × m
Teorema 30. (Condición necesaria de optimalidad). Sea x∗ un mı́nimo local del problema (P)
introducido en (103), y asumamos que los gradientes de las restricciones, ∇h1 (x∗ ), . . ., ∇hm (x∗ ),
son linealmente independientes10 . Entonces existe un único vector λ ∗ = (λ1∗ , . . ., λm∗ )T , llamado
vector de multiplicadores de Lagrange, tal que:
m
∇ f (x∗ ) + ∑ λi∗ ∇hi (x∗ ) = ∇ f (x∗ ) + ∇h(x)λ ∗ = 0n . (104)
i=1
46
donde
V (x∗ ) : = y ∈ Rn : ∇hi (x∗ )T y = 0, i = 1, . . ., m
= {y ∈ Rn : Jh (x∗ )y = 0} .
Este teorema se conoce como teorema del los multiplicadores de Lagrange y los escalares
λ1∗ , λ2∗ , ..., λm∗ se denominan multiplicadores de Lagrange. De hecho, el sistema de ecuaciones
(104) es la base del llamado método de los multiplicadores de Lagrange, establecido por este autor
en 1788, en su libro Mécanique Analytique11 . Las dos pruebas más populares se basan, respectiva-
mente, en el teorema de la función implı́cita o en la consideración de una función de penalización.
A continuación daremos la segunda de estas pruebas.
Demostración. a) Introduzcamos, para cada k = 1, 2, . . ., la función Ψk : Rn → R definida como
k α
Ψk (x) := f (x) + kh(x)k2 + kx − x∗ k2 ,
2 2
donde α > 0 es arbitrario.
Sea ε > 0 tal que f (x∗ ) ≤ f (x) para todo x ∈ F ∩B(x∗ ; ε ), con B(x∗ ; ε ) := {x ∈ Rn : kx − x∗ k ≤ ε },
y sea
xk ∈ argminx∈B(x∗ ;ε ) Ψk (x).
Este punto xk existirá siempre puesto que estamos minimizando una función continua Ψk en el
compacto B(x∗ ; ε ). Tenemos
k α
Ψk (xk ) = f (xk ) + kh(xk )k2 + kxk − x∗ k2 ≤ Ψk (x∗ ) = f (x∗ ). (106)
2 2
b) Como {xk } ⊂ B(x∗ ; ε ), existirá un punto de acumulación de esta sucesión, x∗ ; es decir,
existirá una subsucesión {xkr } que converge a x∗ ∈ B(x∗ ; ε ). Veamos que
47
c) Puesto que a partir de (106) se deduce
α
f (xkr ) + kxkr − x∗ k2 ≤ f (x∗ ),
2
tomando lı́mites para r → ∞ resulta
α
f (x) + kx − x∗ k2 ≤ f (x∗ ).
2
Como f (x ) ≤ f (x ), al ser x ∈ B(x ; ε ) ∩ F, obtenemos kx∗ − x∗ k = 0, esto es x∗ = x∗ . Como
∗ ∗ ∗ ∗
e) Utilizando, ahora, la condición necesaria de optimalidad de segundo orden, vemos que, para
k suficientemente grande, la matriz hessiana12
∇2 Ψk (xk ) = ∇2 f (xk ) + k∇h(xk )∇h(xk )T +
m
k ∑ hi (xk )∇2 hi (xk ) + α I.
i=1
∂ Ψk (x) ∂ f (x) ∂ h p (x)
12 Sabemos que ∂xj = ∂xj + k ∑mp=1 h p (x) ∂xj + α (x j − x∗j )
Por lo tanto: h i
∂ 2 Ψk (x) ∂ 2 f (x) m ∂ h p (x) ∂ h p (x) m ∂ 2 h p (x)
∂ xi ∂ x j = ∂ xi ∂ x j + k ∑ p=1 ∂ xi ∂ x j + ∑ p=1 h p (x) ∂ xi ∂ x j + αδi j
1, si i = j
δi j =
0, si i 6= j
Por lo tanto: T
∇2 Ψk (x) = ∇2 f (x) + k ∑mp=1 h p (x)∇2 h p (x) + k (∇h1 (x) . . . ∇hm (x)) ∇h1 (x)T . . . ∇hm (x)T
48
es semidefinida positiva, cualquiera que sea α > 0.
Fijemos y ∈ V (x∗ ) (esto es, ∇h(x∗ )T y = 0m ). Recordando que, para k suficientemente grande,
la matriz ∇h(xk )T ∇h(xk ) será invertible, una comprobación elemental nos permite observar que
−1
yk := y − ∇h(xk ) ∇h(xk )T ∇h(xk ) ∇h(xk )T y ∈ V (xk ). (108)
Se advierte que en el mı́nimo local (y global) x∗ = (0, 0)T el gradiente de la función objetivo,
∇ f (x∗ ) = (1, 1)T no puede ser expresado como una combinación lineal de los gradientes ∇h1 (x∗ ) =
(−2, 0)T y ∇h2 (x∗ ) = (−4, 0)T . Ası́ pues, la condición necesaria de 1er orden (104) no puede
satisfacerse, cualesquiera que sean λ1∗ y λ2∗ .
La dificultad radica en que el subespacio de las variaciones posibles de primer orden: V (x∗ ) =
2 1
y ∈ R2 : y = 0 tiene dimensión superior a la del conjunto de direcciones factibles verdaderas
y ∈ R : y = 0n .
En muchas ocasiones es conveniente escribir las condiciones de optimalidad en términos de la
función lagrangiana L : Rn+m → R, definida por
m
L (x, λ ) := f (x) + ∑ λi hi (x). (111)
i=1
Entonces, si x∗ es un mı́nimo local del problema (P), las condiciones necesarias de optimalidad
(104) y (105) junto con la condición de ‘factibilidad’ h(x∗ ) = 0m , se expresan compactamente
∇x L (x∗ , λ ∗ ) = 0n , ∇λ L (x∗ , λ ∗ ) = 0m , (112)
yT ∇2xx L (x∗ , λ ∗ ) y ≥ 0, ∀y ∈ V (x∗ ). (113)
49
Tal y como la experiencia en el caso irrestringido indica, una solución del sistema (de n + m
ecuaciones, con n + m incógnitas) (112) podrı́a incluso corresponder a un máximo.
Consideremos el problema
1
(P) := mı́n (x21 + x22 + x23 ) (114)
2
s.a. x1 + x2 + x3 = 3.
Las condiciones necesarias de optimalidad de primer orden (112) conducen al siguiente sistema
x∗1 + λ ∗ = 0,
x∗2 + λ ∗ = 0,
x∗3 + λ ∗ = 0,
x1 + x2 + x3 = 3.
Este es un sistema de cuatro ecuaciones con cuatro incógnitas (n + m = 3 + 1 = 4), con una
única solución
Sea z = (z1 , z2 , z3 )T tal que h(x∗ + z) = 0 (es decir, z es un vector de variaciones que preserva
la factibilidad). Tiene, pues, que verificarse
Entonces:
1 ∗
f (x∗ + z) = (x1 + z1 )2 + (x∗2 + z2 )2 + (x∗3 + z3 )2
2
1
= f (x∗ ) + (z1 + z2 + z3 ) + z21 + z22 + z23
| {z } 2| {z }
0 >0
∗
> f (x ).
50
las condiciones (104) hubiesen proporcionado
x∗ = (1, 1, 1)T y λ ∗ = 1.
Sin embargo, la condición necesaria de segundo orden (113) no es satisfecha, y como todo
punto factible es regular, no podrá existir mı́nimo local del problema (116).
Antes de establecer las condiciones suficientes de optimalidad para el problema (P) del princi-
pio del capı́tulo, estableceremos un lema previo:
Lema 31. Sean P y Q dos matrices simétricas n × n. Asumamos que Q es semidefinida positiva,
mientras que P es definida positiva sobre el espacio nulo de Q, esto es
Demostración. Por ser Q semidefinida positiva, si existe c tal que P + cQ es definida positiva,
entonces se verifica ∀x 6= 0n y ∀c ≥ c :
Puesto que {xk } está contenda en un compacto, existirá una subsucesión {xkr } convergente a x∗
(kx∗ k = 1). Tomando lı́mites en (118) para k = kr y r → ∞:
por lo que n o
lı́m xTkr Pxkr j + kr j xTkr Qxkr j = +∞,
j→∞ j j
xT Qx = 0. (120)
Veamos ahora que Qx = 0n , con lo que habremos llegado a una contradicción con la hipótesis
de partida.
51
Sean
0 = λ1 = λ2 = · · · = λi0−1 < λi0 ≤ · · · ≤ λn
los valores propios de Q, y sean x1 , x2 , . . . , xn vectores unitarios, mutuamente ortogonales, tales que
xi es un vector propio asociado a λi . Entonces ∀i
!
n
T T
0 = x Qx = x ∑ λixixTi x=
i=i0
n 2
= ∑ λi xT xi ⇒ x ⊥ xi , para i = i0 , . . . , in .
i=i0
Entonces !
n n
Qx = ∑ λixixTi x= ∑ λixi xT xi = 0n .
i=i0 i=i0
problema que tiene los mismos mı́nimos locales que nuestro problema original de minimizar f (x)
sujeto a h(x) = 0m . El gradiente y el hessiano de Lc con respecto a x son:
52
Demostración. Si x∗ y λ ∗ satisfacen la condición (122) se tendrá, dadas las relaciones probadas
anteriormente:
Por (123), tenemos que yT ∇2xx L(x∗ , λ ∗ )y > 0 para todo y tal que ∇h(x∗ )T y = 0 (lo que es equiva-
lente a que y pertenezca al espacio nulo de ∇h(x∗ )∇h(x∗ )T ). Aplicando el último lema, existirá un
c tal que, por (126),
∇2xx Lc (x∗ , λ ∗ ) es definida positiva ∀c > c. (127)
Aplicando las condiciones suficientes de optimalidad para el problema irrestringido, concluimos a
partir de (125) y (127) que, para c > c, x∗ es un mı́nimo local irrestringido de la función Lc (·, λ ∗)
y que, además, existen γ > 0 y ε > 0 tales que
γ
Lc (x, λ ∗ ) ≥ Lc (x∗ , λ ∗ ) + kx − x∗ k2 , ∀x tal que kx − x∗ k < ε .
2
Puesto que ∀x con h(x) = 0, tenemos Lc (x, λ ∗ ) = f (x), se sigue que
γ
f (x) ≥ f (x∗ ) + kx − x∗ k2 , ∀x tal que h(x) = 0m y kx − x∗ k < ε .
2
Ası́ pues, x∗ es un mı́nimo local (estricto) de f sobre h(x) = 0m , que verifica adicionalmente la
desigualdad (124).
Para ilustrar el último teorema, consideremos el siguiente problema de optimización con dos
variables:
1
(P) := mı́n f (x) = (x21 − x22 ) − x2 , (128)
2
s.a. x2 = 0.
Se comprueba, con facilidad, que x∗ = (0, 0)T y λ ∗ = 1 es el único par (x, λ ) que satisface las
condiciones (122) y (123). Obviamente x∗ = (0, 0)T es el único mı́nimo global del problema (P)
(que es equivalente a minimizar 21 x21 en R, y tomar x∗2 = 0).
El lagrangiano aumentado es:
1 2 c
Lc (x, λ ∗ ) = (x1 − x22 ) − x2 + λ ∗ x2 + x22 =
2 2
1 2 1
= x + (c − 1)x22
2 1 2
y x∗ es el único mı́nimo irrestringido de Lc (x, λ ∗ ), si c > c = 1.
53
donde x ∈ Rn es el vector de variables, f : Rn → R es la función objetivo de (P), y gi : Rn → R,
con i = 1, 2, ..., m, son las funciones que determinan las restricciones de (P) . A medida que se
vayan requiriendo, iremos incorporando ciertas hipótesis de continuidad y diferenciabilidad a estas
funciones. El conjunto factible de (P) será
Veamos que, bajo ciertas hipótesis de continuidad, en la búsqueda de óptimos locales de (P) po-
demos prescindir de las restricciones inactivas. En términos formales, si x∗ ∈ F es un óptimo local
/ I (x∗ ) , son continuas en x∗ , entonces el mismo punto es óptimo local del
de (P) , y las gi , con i ∈
problema
(PI(x∗ ) ) Min f (x)
s.a gi (x) ≤ 0, i ∈ I (x∗ ) .
En efecto, sea U ⊂ Rn un entorno de x∗ tal que f (x∗ ) ≤ f (x) , para todo x ∈ F ∩U, y sea V ⊂ Rn un
entorno de x∗ de forma que gi (x) < 0, para todo x ∈ V, con i ∈ / I (x∗ ) (la existencia de V se deduce
de la continuidad de estas funciones). Entonces, denotando por F al conjunto factible de (PI(x∗ ) ),
se tiene que f (x∗ ) ≤ f (x) , para todo x ∈ F ∩V ∩U, puesto que F ∩V ⊂ F.
Además, obviamente, x∗ también es óptimo local del problema que resulta de reemplazar en
(PI(x∗ ) ) las desigualdades por igualdades, pues F contedrı́a al nuevo conjunto factible.
En un primer acercamiento a la mencionadas condiciones de KKT, obsérvese que si x∗ ∈ F es
un óptimo local de (P) , f es diferenciable en x∗ , las gi , con i ∈ I (x∗ ) , son de clase C 1 en un entorno
13 Con el fin de simplificar la notación, supondremos que las funciones que describen el modelo (P) están definidas
en Rn . No obstante, todos los resultados incluidos en este tema que hacen referencia a óptimos locales de (P) serı́an
igualmente válidos en el caso en que dichas funciones estuvieran definidas en un abierto W ⊂ Rn , en cuyo caso, el
conjunto factible vendrı́a dado por F := {x ∈ W | gi (x) ≤ 0, i = 1, 2, ..., m} , y las definiciones de óptimo local y global
son idénticas a las expresadas en esta sección.
54
de x∗ , las gi , con i ∈
/ I (x∗ ) , son continuas en x∗ y el sistema de vectores {∇gi (x∗ ) : i ∈ I (x∗ )} es
linealmente independiente, entonces, atendiendo a los comentarios anteriores y en virtud de las
condiciones de Lagrange (104), deducimos la existencia de ciertos escalares λi∗ , i ∈ I (x∗ ) , tales
que
∇ f (x∗ ) + ∑ λi∗ ∇gi (x∗ ) = 0n . (1.4)
i∈I(x∗ )
El tratamiento sistemático de los problemas de PNL con restricciones de desigualdad fue inicia-
do por Karush (1939), y Kuhn y Tucker (1951). Estos autores obtuvieron, de forma independiente,
las condiciones necesarias de optimalidad comentadas en párrafos anteriores bajo determinadas
hipótesis de cualificaciones de restricciones. Desde la publicación de Kuhn y Tucker (1951) dife-
rentes autores han dedicado un notable esfuerzo a la obtención de tales condiciones bajo diferentes
hipótesis de cualificación de restricciones como, por ejemplo, Cottle (1963), Abadie (1967), Man-
gasarian and Fromovitz (1967) y Guignard (1969). El material presentado aquı́ está inspirado en
los textos de Bazaraa et al. (1993), Bertsekas (1995), Fletcher (1987), y Luenberger (1989), ası́ co-
mo en el trabajo de Peterson (1973). Particularmente este último trabajo recoge una amplia gama
de cualificaciones de restricciones (introduce diecisiete de estas hipótesis) y analiza las conexio-
nes existentes entre ellas, dando lugar a diferentes cadenas de implicaciones que desembocan en
la hipótesis de cualificación de restricciones más débil, debida a Monique Guignard. La selección
de contenidos que hemos hecho en este tema obedece, por un lado, a cuestiones de simplicidad
y utilidad práctica, presentando una cadena principal de implicaciones con ciertas ramificaciones,
conectando ası́ determinadas cualificaciones de restricciones que suelen ser fácilmente verificables
en la práctica (como son las de Slater, Mangasarian, Mangasarian-Fromovitz y la que suele refe-
rirse como hı́potesis de independencia lineal). Por otro lado, hemos incorporado, por ejemplo, la
cualificación de restricciones de Kuhn y Tucker (1951), tanto por motivos históricos, como por el
14 Aunque la prueba de este resultado se encuentra en un trabajo de este autor publicado en húngaro en 1898, la
55
valor teórico e interpretativo que añade al estudio de las restantes hipótesis de cualificaciones de
restricciones.
Finalmente hemos incorporado, en diferentes apéndices, algunos complementos del tema (co-
mo son las condiciones de Fritz-John, en el Apéndice A), detalles técnicos de algunas pruebas y
ejercicios (en Apéndice C), ası́ como la prueba completa del Teorema 58 (iii) (en el Apéndice B).
Particularmente, esta prueba, de marcado carácter técnico, ha sido incluida en un apéndice en un
intento de dar mayor fluidez al desarrollo del tema; no obstante, se incluyen algunas ideas sobre la
prueba tras el correspondiente enunciado.
En el Apéndice D se presentan una condición necesaria de optimalidad y otra condición sufi-
ciente, ambas de segundo orden. La condición suficiente dará pie, bajo hipótesis adecuadas, a una
interpretación de los multiplicadores de KKT que nos permitirá realizar determinado análisis de
sensibilidad del modelo.
A continuación presentamos aquellas herramientas del Análisis Convexo que son de especial
utilidad en las restantes secciones. Las incluimos aquı́ con el fin de hacer el tema autocontenido.
Definición 35. Sea Y ⊂ Rn . Llamaremos cono polar (negativo) de Y al conjunto dado por
Y ◦ = z ∈ Rn | yT z ≤ 0, para todo y ∈ Y .
Los comentarios anteriores permiten afirmar que Y ◦ es siempre un cono convexo y cerrado.
Definición 36. Dado Y ⊂ Rn , denotaremos por cone (Y ) al cono convexo generado por Y, que
viene dado por
( )
p
cone (Y ) = ∑ λi yi λi ≥ 0, yi ∈ Y, i = 1, 2, ..., p, p ∈ N
i=1
Seguidamente presentamos una versión generalizada del Lema de Farkas para sistemas ho-
mogéneos con una colección arbitraria (posiblemente infinita) de desigualdades lineales.
Teorema 37 (Lema de Farkas generalizado). Sea σ := aTi x ≤ 0, i ∈ I un sistema de desigual-
dades lineales en la variable x ∈ Rn , donde I es un conjunto de ı́ndices arbitrario. La desigualdad
aT x ≤ 0 es una consecuencia de σ (esto es, aT z ≤ 0 si z ∈ Rn verifica aTi z ≤ 0 para todo i ∈ I) si,
y sólo si,
a ∈ cl (cone {ai , i ∈ I}) .
56
La siguiente proposición recoge algunas propiedades básicas acerca de conos polares que serán
utilizadas en el resto del tema.
Proposición 38. Sean Y, Z ⊂ Rn . Se verifican los siguientes enunciados:
(i) Si Y ⊂ Z, entonces Z ◦ ⊂ Y ◦ ;
(ii) Y ◦ = (cone (Y ))◦ = (cl (cone (Y )))◦ ;
(iii) Y ◦◦ (:= (Y ◦ )◦ ) = cl (cone (Y )) (Lema de Farkas generalizado);
(iv) Y ◦◦ = Y si y sólo si Y es un cono convexo y cerrado.
Las condiciones (i) y (ii) de la proposición anterior se obtienen fácilmente a partir de la defi-
nición de cono polar (negativo), mientras que (iv) es un consecuencia de (iii). Hemos destacado
el hecho de que la condición (iii) es una traducción del Lema del Farkas. En efecto, a ∈ Y ◦◦ , por
definición, si aT z ≤ 0, para todo z ∈ Rn tal que yT z ≤ 0, para todo y ∈ Y ; esto es, si aT x ≤ 0 es
consecuencia del sistema yT x ≤ 0, y ∈ Y . Ası́ pues, empleando la notación de cono polar, el
Lema de Farkas generalizado podrı́a enunciarse como: a ∈ Y ◦◦ si y sólo si a ∈ cl (cone (Y )).
Observación 39. Por su parte, el enunciado del Lema de Farkas para sistemas homogéneos finitos
(véase §1) se traducirı́a en los términos:
‘Si Y es finito, entonces Y◦◦ = cone (Y ) ’,
lo que se deduce del hecho de que todo cono finitamente generado es cerrado.
Dado el problema
(P) Min f (x)
s.a. gi (x) ≤ 0, i = 1, 2, ..., m,
la siguiente proposición expresa una primera condición necesaria de optimalidad local en términos
del llamado cono de las tangentes a F en x∗ , Tx∗ , que viene dado por:
n o
n r ∗ r r ∗
Tx := d ∈ R | d = lı́m λr (x − x ) ; λr > 0, x ∈ F para todo r, y lı́m x = x .
∗
r→∞ r→∞
57
Definición 41. Se dice que x∗ ∈ F es un punto de KKT de (P) si existen escalares λi ≥ 0, i ∈ I (x∗ ),
tales que
−∇ f (x∗ ) = ∑ λi ∇gi (x∗ ) .
i∈I(x∗ )
como condiciones de KKT15 . El conjunto Gx∗ que introducimos a continuación nos permitirá co-
nectar la condición necesaria de optimalidad presentada en la proposición 40 con las condiciones
de KKT16 : n o
Gx∗ := d ∈ Rn | ∇gi (x∗ )T d ≤ 0, i ∈ I (x∗ ) .
Observación 42. Sea x∗ ∈ F. Se tiene que x∗ es punto de KKT de (P) si, y sólo si,
−∇ f (x∗ ) ∈ G◦x∗ .
donde hemos utilizado la traducción del Lema de Farkas dada en la observación 39.
(P) Min x1
s.a. x2 − x31 ≤ 0,
−x2 ≤ 0.
T
n T
o
x∗
Para = (0, 0) se comprueba fácilmente que Tx∗ = cone (1, 0) , mientras que Gx∗ coincide
n T
o
con el subespacio vectorial generado por (1, 0) . Ası́, −∇ f (x∗ ) = (−1, 0)T ∈ Tx◦∗ , mientras que
−∇ f (x∗ ) ∈
/ G◦x∗ , y por tanto no es un punto de KKT. Por otro lado, puede comprobarse fácilmente
∗
que x es óptimo local (de hecho global, pues todo punto factible verifica x31 ≥ x2 ≥ 0, y entonces
x1 ≥ 0). La Figura 15 ilustra gráficamente, entre otros, los conjuntos F, Tx◦∗ y G◦x∗ .
15 Las condiciones de KKT pueden, alternativamente, expresarse de la siguiente forma: −∇ f (x) = ∑m i=1 λi ∇gi (x) ,
λi gi (x) = 0, λi ≥ 0, i = 1, 2, ..., m, x ∈ F; en cuyo caso las condiciones λi gi (x) = 0, i = 1, 2, ..., m, son referidas como
condiciones de complementariedad.
16 Con el fin de dar mayor fluidez a la exposición, supondremos implı́citamente que, cuando aparezcan gradientes
en el texto, éstos existen. No obstante, en los enunciados formales (como teoremas, proposiciones, etc.) se explicitarán
las hipótesis de diferenciabilidad bajo las que estamos trabajando.
58
Go
∇ g1 ( x*) x*
T
x*
-∇ f ( x*) F
x* x*
To G
x* x*
∇g 2 ( x*)
Atendiendo a la observación anterior, es obvio que la hipótesis Tx◦∗ = G◦x∗ hace que las condicio-
nes de KKT sean necesarias para que x∗ sea óptimo local. Por otro lado, la igualdad Tx◦∗ = G◦x∗ puede
expresarse equivalentemente por cl (cone (Tx∗ )) = Gx∗ . En efecto, si Tx◦∗ = G◦x∗ , entonces aplican-
do la proposición 38 (iii) y (iv) se tiene que cl (cone (Tx∗ )) = Tx◦◦ ◦◦
∗ = Gx∗ = Gx∗ . Recı́procamente,
◦
si cl (cone (Tx∗ )) = Gx∗ , entonces Tx◦∗ = (cl (cone (Tx∗ ))) = G◦x∗ , donde ahora hemos aplicado la
condición (ii) de la misma proposición. Hemos probado ası́ el siguiente teorema.
De este modo la condición ‘cl (cone (Tx∗ )) = Gx∗ ’ constituye una hipótesis de cualificación
de restricciones, que encontramos en la literatura como cualificación de restricciones de Guig-
nard (que abreviaremos por GCQ, del inglés Guignard’s constraint qualification). Esta hipótesis
de cualificación de restricciones es la más débil de todas las posibles, en el sentido de que si no
se cumple, puede encontrarse una función objetivo para la que x∗ es óptimo local del problema
correspondiente, y no es punto de KKT.
Seguidamente analizaremos diferentes cualificaciones de restricciones, con el fin de proporcio-
nar nuevas condiciones más operativas desde un punto de vista práctico. Para ello, consideremos
los siguientes conjuntos asociados a x∗ ∈ F:
n o
Gex∗ : = d ∈ Rn | ∇gi (x∗ )T d < 0, i ∈ I (x∗ ) ;
∃ε > 0, ∃α : [0, ε ] →F derivable en [0, ε [, con
Dx∗ : = d ∈ R n
.
α (0) = x∗ , y α ′ (0) = d
59
Observación 45. Puede comprobarse fácilmente que, asumiendo la diferenciabilidad de las fun-
ciones gi , i ∈ I (x∗ ) , en x∗ , y la continuidad en el mismo punto x∗ de las funciones gi , i ∈ / I (x∗ ) ,
se verifica el contenido G ex∗ ⊂ Dx∗ . Sin embargo, con el fin de facilitar el análisis de la relación
existente entre diferentes
cualificaciones de restricciones que vendrán asociadas a estos conjuntos,
probaremos que cl G ex∗ ⊂ Dx∗ . Obsérvese que este último enunciado no es consecuencia directa
de la inclusión Gex∗ ⊂ Dx∗ puesto que Dx∗ no es, en general, cerrado (véase Apéndice C).
Teorema 46. Sea x∗ ∈ F y supongamos que las funciones gi , con i ∈ I (x∗ ) , son diferenciables en
x∗ , y las funciones
gi , con i ∈ / I (x∗ ) , son continuas en x∗ . Se verifican las siguientes relaciones:
(i) cl Gex∗ = Gx∗ si y sólo si G
ex∗ 6= 0;
/
(ii) cl Gex∗ ⊂ Dx∗ ⊂ Ax∗ ⊂ Tx∗ ⊂ cl (cone (Tx∗ )) ⊂ Gx∗ .
Demostración. (i). Puesto que Gx∗ es siempre no vacio (0n ∈ Gx∗ ), si cl G ex∗ = Gx∗ , entonces
e ex∗ 6= 0/ y sea de ∈ Gex∗ . Veamos que Gx∗ ⊂
Gx∗ 6= 0.
hade ser / Recı́procamente, supongamos que G
cl Gex∗ (el otro contenido es inmediato, pues G ex∗ ⊂ Gx∗ y Gx∗ es cerrado). Para cualquier d ∈
Gx∗ se tiene que d r := 1 − 1r d + 1r de ∈ G ex∗ , para todo r = 1, 2, ..., puesto que ∇gi (x∗ )T d r =
1 − 1 ∇gi (x∗ )T d + 1 ∇gi (x∗ )T de< 0, para cada i ∈ I (x∗ ) . Ası́ pues, d = lı́mr→∞ d r ∈ cl G
r r
ex∗ .
(ii). Es obvio que Dx∗ ⊂ Ax∗ .
α (t)−α (0)
Además Ax∗ ⊂ Tx∗ , ya que si d ∈ Ax∗ podemos escribir d = lı́mt→0+ t para alguna fun-
ción α : [0, ε ] → F (siendo ε > 0), y en particular d = lı́mr→∞ εr (α (ε /r) − α (0)) ∈ Tx∗ .
Veamos ahora que cl (cone (Tx∗ )) ⊂ Gx∗ . Puesto que Gx∗ es un cono convexo y cerrado, bas-
tará probar que Tx∗ ⊂ Gx∗ . Sea d ∈ Tx∗ y pongamos d = lı́mr→∞ λr (xr − x∗ ) con λr > 0, xr ∈ F para
todo r, y lı́mr→∞ xr = x∗ . Por la diferenciabilidad de gi , para i ∈ I (x∗ ), se tiene que
gi (xr ) = gi (x∗ ) + ∇gi (x∗ )T (xr − x∗ ) + o(kxr − x∗ k), para r = 1, 2, ... (129)
Dado que gi (xr ) ≤ 0, para todo r ∈ N, multiplicando en (129) por λr y haciendo r → +∞ se tiene
que
∗ T ∗ T r ∗ r ∗ o(kxr − x∗ k)
∇gi (x ) d = lı́m λr ∇gi (x ) (x − x ) + kλr (x − x )k ≤ 0,
r→∞ kxr − x∗ k
concluyendo que d ∈ Gx∗ .
A continuación probaremos el contenido ‘cl G ex∗ ⊂ Dx∗ ’. Sea d ∈ cl G ex∗ , y sea de ∈ Gex∗ .
En primer lugar obsérvese que el mismo argumento utilizado en la prueba de (i) muestra que
d λ := (1 − λ ) d + λ de ∈ Gex∗ , para todo λ ∈ ]0, 1] . Además, bajo las hipótesis actuales, para cada
λ ∈ ]0, 1] existe cierto tλ > 0 tal que x∗ +td λ ∈ F para todo t ∈ [0,tλ ] . En efecto, fijemos λ ∈ ]0, 1] .
Para i ∈ I (x∗ ) , como consecuencia de la diferenciabilidad de gi en x∗ podemos escribir
gi x + td = gi (x∗ ) + t∇gi (x∗ )T d λ + o(t).
∗ λ
Puesto que ∇gi (x∗ )T d λ < 0, para t suficientemente pequeño (pongamos 0 < t ≤ tλ ,i , para cierto
tλ ,i > 0) tendremos que ∇gi (x∗ )T d λ + o(t) ∗
t < 0. Entonces, para t ∈ 0,tλ ,i , se cumplirá gi x + td
λ ≤
también deducimos la existencia de cierto tλ ,i > 0 tal que gi x∗ + td λ ≤ 0, para todo t ∈ 0,tλ ,i .
60
Basta tomar entonces tλ := mı́n tλ ,i , i = 1, 2, ..., m para asegurar que x∗ + td λ ∈ F para todo
t ∈ [0,tλ ] .
Definamos para cada λ ∈ ]0, 1]
n o
t λ := sup t > 0 | x∗ + td λ ∈ F, para todo t ∈ [0,t] y todo i = 1, 2, ..., m ,
(en el párrafo anterior se prueba que este conjunto es no vacı́o). Asimismo, para cada λ ∈ ]0, 1]
consideremos
Tλ := ı́nf t µ | µ ≥ λ .
A continuación veremos que Tλ > 0 para todo λ ∈ ]0, 1] . Razonando por reducción al absurdo
supongamos que Tλ0 = 0, para cierto λ0 ∈ ]0, 1] . Entonces, existe una sucesión t µr ⊂ ]0, +∞[,
asociada a la sucesión {µr } ⊂ [λ0 , 1] , tal que lı́mr→∞ t µr = 0. Además {µr } tendrá un subsucesión,
que denotaremos de la misma forma, convergente a cierto µ0 ≥ λ0 , y como consecuencia la su-
cesión {d µr } convergerá hacia d µ0 . Por otro lado, por la definición
de t µr , para cada r, existirán
b 1 ∗ b µ
ir ∈ {1, 2, ..., m} y tµr ∈ 0,t µr + r tales que gir x + tµr d > 0. Puesto que, ir ∈ {1, 2, ..., m} pa-
r
ra todo r, podemos suponer sin pérdida de generalidad que {ir } es constante (en otro caso, tendrı́a
una subsucesión constante y trabajarı́amos con dicha subsucesión). Poniendo entonces ir = i0 para
todo r, deducimos gi0 (x∗ ) ≥ 0 como consecuencia de la continuidad en x∗ de gi0 (obsérvese que
lı́mr→∞ (x∗ + b tµr d µr ) = x∗ ). La única posibilidad entonces es que i0 ∈ I (x∗ ) . Pero, aplicando ahora
la diferenciabilidad de gi0 en x∗ , tendremos, para todo r = 1, 2, ...,
0 < gi0 x∗ + b tµr d µr = gi0 (x∗ ) + b
tµr ∇gi (x∗ )T d µr + o btµr .
Si ahora, para cada r, dividimos por b tµr , y hacemos r → +∞, obtenemos ∇gi (x∗ )T d µ0 ≥ 0. Esta
desigualdad contradice el hecho de que d µ0 ∈ G ex∗ .
Ası́ pues, Tλ > 0 para todo λ ∈ ]0, 1] . Además, es una consecuencia directa de la definición
que Tλ es creciente en λ . Seguidamente distinguiremos dos casos.
n
Caso1. λ →0+ Tλ = T > 0. En este caso, podemos definir la curva α : [0, ε ] → R , siendo
Tlı́m
ε := mı́n 2 , 1 dada por
α (0) := x∗ , α (λ ) = x∗ + λ d λ = x∗ + λ (1 − λ ) d + λ de , para λ ∈ ]0, ε ] .
Ası́, α T (0) = d, α es diferenciable en [0, ε ] , y además α (λ ) ∈ F para todo λ ∈ [0, ε ] (puesto que
λ < T ≤ Tλ ≤ t λ ).
Caso2. lı́mλ →0+ Tλ = 0. Sea {λr } ⊂ ]0, 1] estrictamente decreciente y convergente a cero.
Puesto que la sucesión asociada Tλr también converge a cero, podemos suponer sin pérdida
T
de generalidad (tomando una subsucesión adecuada si es necesario) que Tλr+1 < 2λr , para todo r.
h T i
λ
Definiremos en este caso una curva diferenciable en 0, 21 de la siguiente manera:
h i
x∗ + td λr , T
si t ∈ Tλr+1 , 2λr , r = 1, 2, ...,
α (t) := i h
x∗ + t (1 − ϕr (t)) d λr+1 + ϕr (t) d λr , si t ∈ Tλr+1 , T
2 λr+1 , r = 1, 2, ...,
hT i
λ
siendo α (0) := x∗ , y donde para cada r, ϕr : r+1 2 , Tλr+1 → [0, 1] esta dada por
T 2
λ
t − r+12
ϕr (t) := 2 2
.
Tλr+1
t− 2 + t − Tλr+1
61
Puede comprobarse que (los cálculos
h T i correspondientes se encuentran en el Apéndice C):
i) α (t) ∈ F para todo t ∈ 0, 2λ1 ;
h T i
ii) α es diferenciable (será de hecho de clase C 1 ) en el intervalo 0, 2λ1 ;
iii) α T (0) = d.
La relación de contenidos entre los conjuntos considerados en esta sección conduce a las si-
guientes hipótesis de cualificación de restricciones relativas a x∗ , y redunda en la relación de im-
plicaciones que se expresa a continuación (recuérdese que estamos suponiendo que las gi , con
i ∈ I (x∗ ) , son diferenciables en x∗ , y las gi , con i ∈
/ I (x∗ ) continuas en x∗ ):
Cualificación de
Abreviada por: Hipótesis:
restricciones de :
Mangasarian-Fromovitz ‘ cl Gex∗ = Gx∗ ’
MFCQ
(o también de Cottle) (⇔ Gex∗ 6= 0)
/
Kuhn-Tucker KTCQ ‘Dx∗ = Gx∗ ’
Arrow-Hurwicz-Uzawa AHUCQ ‘Ax∗ = Gx∗ ’
Abadie ACQ ‘Tx∗ = Gx∗ ’
Guignard GCQ ‘cl (cone (Tx∗ )) = Gx∗ ’
62
Proposición 48. Sea x∗ ∈ F, y supongamos que gi , i ∈ I (x∗ ) , son diferenciables en x∗ . Se verifican
las siguientes afirmaciones:
(i) Si los vectores {∇gi (x∗ ) , i ∈ I (x∗ )} son linealmente independientes, entonces G ex∗ 6= 0;
/
∗ n
(ii) Si las funciones gi , i ∈ I (x ) , son convexas y existe xb ∈ R tal que gi (b x) < 0, i ∈ I (x∗ ) ,
entonces G ex∗ 6= 0;
/
(iii) Si las funciones gi , i ∈ I (x∗ ) , son cóncavas, y gi , con i ∈
/ I (x∗ ) continuas en x∗ entonces
Dx∗ = Gx∗ .
Demostración. La condición (i) es consecuencia directa del Teorema de Gordan. Probemos (ii).
x) < 0, i ∈ I (x∗ ) . Puesto que las funciones gi , i ∈ I (x∗ ) , son convexas en Rn
Sea xb ∈ Rn tal que gi (b
y diferenciables en x∗ se tiene que
Por otro lado, puesto que las gi , con i ∈ / I (x∗ ) , son continuas en x∗ (y gi (x∗ ) < 0 para todo i ∈/
I (x∗ )), existe un t > 0, tal que gi (x∗ + td) < 0, para todo t ∈ [0,t] . Concluimos entonces que la
función α : [0,t] → Rn dada por α (t) = x∗ + td, verifica: α (t) ∈ F para todo t ∈ [0,t] , α (0) = x∗ ,
y obviamente α T (0) = d. Ası́ pues, d ∈ Dx∗ .
La proposición anterior proporciona en (i), (ii) y (iii) tres nuevas cualificaciones de restriccio-
nes, que expresamos a continuación, ası́ como sus conexiones con las introducidas previamente.
- Cualificación de restricciones de independencia lineal (LICQ): El sistema de vectores {∇gi (x∗ ), i ∈
I(x∗ )} es linealmente independiente.
- Cualificación de restricciones de Slater (SCQ): gi , i ∈ I (x∗ ) , son convexas y existe xb ∈ Rn tal
que gi (bx) < 0, i ∈ I (x∗ ) .
- Cualificación de restricciones de Mangasarian (MCQ): gi , i ∈ I (x∗ ) , son cóncavas.
Siendo x∗ ∈ F, gi , con i ∈ I (x∗ ) , diferenciables en x∗ , y gi , con i ∈
/ I (x∗ ) , continuas en x∗ ,
podemos presentar el siguiente esquema:
Corolario 49. Sea x∗ ∈ F un óptimo local de (P) y supongamos que las funciones f y gi , con
i ∈ I (x∗ ) , son diferenciables en x∗ , y que las gi ,con i ∈
/ I (x∗ ) , son continuas en x∗ . Si se cumple
alguna de las hipótesis indicadas en el esquema anterior, entonces x∗ es un punto de KKT.
63
Con el fin de ilustrar el teorema anterior, por un lado, y demostrar que no se verifica ninguno
de los recı́procos de las condiciones establecidas en el esquema previo, presentamos los siguientes
ejemplos.
Ejemplo 50. (MFCQ, ‘no LICQ, ni SCQ’). Consideremos el problema de PNL, en R2 , dado por:
(P) Min x1
s.a. x2 − x31 ≤ 0,
−x1 ≤ 0,
−x1 + x2 ≤ 0.
Para x∗ = (0, 0)T , el conjunto de ı́ndices activos viene dado por I (x∗ ) = {1, 2, 3}, y ∇g1 (x∗ ) =
(0, 1)T , ∇g2 (x∗ ) = (−1, 0)T , ∇g3 (x∗ ) = (−1, 1)T . Ası́, {∇gi (x∗ ) , i ∈ I (x∗ )} forman un sistema
linealmente dependiente, no teniéndose entonces la hipótesis LICQ. Tampoco se cumple SCQ,
n e 2
pues g1 no es convexa en R . Sin embargo Gx∗ = d ∈ R | d2 < 0, − d1 < 0, − d1 + d2 < 0 6= 0, /
luego se cumple MFCQ.
La Figura 16 muestra gráficamente el conjunto factible de (P) , y el conjunto G ex∗ . Obsérvese
∗
que x es un óptimo local de (P), y también un punto de KKT.
∇g1 ( x*)
∇g3 ( x*)
-∇ f ( x*)
x*
∇g2 ( x *) x*
F
G
x*
Ejemplo 51. (KTCQ, ‘no MCQ, ni MFCQ’). Consideremos el problema de PNL, en R2 , dado por:
(P) Min x1
s.a. x2 − x31 ≤ 0,
−x1 ≤ 0,
−x2 ≤ 0.
T
/ pues ∇g1 (x∗ ) = (0, 1)T , y ∇g3 (x∗ ) = (0, −1)T ,
ex∗ = 0,
Tomemos x∗ = (0, 0) . Es inmediato que G
y por tanto no sencumpleoMFCQ. Tampoco se verifica MCQ pues g1 no es cóncava. Por otro
T
lado, Gx∗ = cone (1, 0)T ⊂ Dx∗ , pues x∗ + t (1, 0) ∈ F para todo t ∈ [0, +∞[ y, por tanto, se
T
cumple KTCQ. x∗ = (0, 0) es un óptimo local de (P), y punto de KKT. Obsérvese que éste sólo
se diferencia del Ejemplo 43 en que añade la restricción −x1 ≤ 0, la cual, por otro lado, es una
restricción redundante.
64
Ejemplo 52. (AHU, ‘no KTCQ’). Consideremos el problema de PNL, en R, dado por:
(P) Min x1
s.a. g1 (x1 ) ≤ 0,
g2 (x1 ) ≤ 0,
−x1 ≤ 0.
π
siendo g1 (x1 ) = x21 sin x1 , si x1 6= 0, g1 (x1 ) = 0, si x1 = 0, y siendo g2 (x1 ) = −g1 (x1 ) . Sea
x∗ = 0. Se tiene que Gx∗ = {d1 ∈ R |d1 ≥ 0} , puesto que g′1 (0) = g′2 (0) = 0.
En este caso F = 1k , k = 1, 2, ... ∪ {0} y obviamente no puede construirse ninguna curva
α : [0, ε ] → F, diferenciable en [0, ε ] y tal que α (0) = 0, y α ′ (0) = 1. De hecho si α : [0, ε ] → F
es continua en [0, ε ] , y α (0) = 0, entonces ha de ser α (t) = 0, para todo t ∈ [0, ε ] (pues la imagen
de un conjunto conexo mediante una función continua es un conexo), pero entonces α ′ (0) = 0.
Ası́ pues 1 ∈ Gx∗ \Dx∗ , y por tanto no se verifica KTCQ. Sin embargo, sı́ puede definirse una
función α : [0, ε ] → F, derivable en 0 y con α ′ (0) = 11, verificando
además que α (0) = 0. Por
1 1
ejemplo, sea α : [0, 1] → F, dada por α (t) = k , si t ∈ k+1 , k , k = 1, 2, ..., α (0) := 0. Se tiene que
1 1 1
α (t)−α (0) α (t) k
lı́mt→0+ t = 1, como consecuencia de que 1 ≤ t ≤ 1
= k+1
k , para todo t ∈ k+1 , k .
k+1
Ası́ pues, α ′ (0) = 1, y por tanto se verifica AHUCQ.
Ejemplo 53. (ACQ, ‘no AHUCQ’) Consideremos el problema de PNL, en R, dado por:
(P) Min x1
s.a. g1 (x1 ) ≤ 0,
g2 (x1 ) ≤ 0,
−x1 ≤ 0.
siendo g1 (x1 ) = x21 sin (π ln |x1 |) , six1 6= 0, g1 (x1 ) = 0, si x1 = 0, y siendo g2 (x1 ) = −g1 (x1 ) .
El conjunto factible de (P) es F = ek , k ∈ Z ∪ {0}. Si se considera x∗ = 0, se tiene que Tx∗ =
{x1 ∈ R |x1 ≥ 0} = Gx∗ , y por tanto se verifica ACQ. Sin embargo, en este caso no existe ninguna
función α : [0, ε ] → F, con α (0) = 0 y α ′ (0) = 1. De hecho, la única función α : [0, ε ] → F
diferenciable en 0, con α (0) = 0, es la función idénticamente nula (véase Apendice C).
Ejemplo 54. (GCQ, ‘no ACQ’) Consideremos el problema de PNL, en R2 , dado por:
(P) Min x1
s.a. x1 x2 ≤ 0,
−x1 x2 ≤ 0,
−x1 ≤ 0,
−x2 ≤ 0.
Es inmediato que F =n x ∈ R2o| x1 ≥ 0,n x2 = 0o ∪ x ∈ R2 | x1 = 0, x2 ≥ 0n . Ası́, para x∗o=
T T T T
02 , se tiene que Tx∗ = cone (1, 0) ∪cone (0, 1) , mientras que Gx∗ = cone (1, 0) , (0, 1) .
Por tanto, no se cumple ACQ, mientras que cl cone Tx∗ = Gx∗ , y por tanto sı́ se verifica GCQ.
Obsérvese que las hipótesis de cualificación de restricciones sólo involucran a las propias res-
tricciones, o directamente al conjunto factible, y al punto x∗ considerado. De este modo, en cuanto
65
se cumple alguna de ellas (como ocurrı́a en los ejemplos anteriores), podremos completar el pro-
blema (P) con cualquier función objetivo y tener la seguridad de que si x∗ es óptimo local, entonces
es punto de KKT.
Resolución de un problema de PNL aplicando las condiciones de KKT. En los ejemplos
anteriores estudiábamos si se verificaba alguna cualificación de restricciones, y si se cumplı́an o
no las condiciones de KKT, en un punto dado x∗ . Sin embargo, cuando nos enfrentamos a la re-
solución de un problema, no tendremos, a priori, ningún punto destacado sobre el que analizar
estas propiedades, de modo que tendremos que buscar todos los ‘candidatos’ a óptimos analizando
todas las posibles elecciones de ı́ndices activos. De este modo, atendiendo a los resultados presen-
tados en esta sección, consideraremos como candidatos a óptimos aquellos puntos en los que se
verifican simultáneamente alguna cualificación de restricciones y las condiciones de KKT, por un
lado, y aquéllos en los que no se verifica ninguna cualificación de restricciones. Ilustramos estos
comentarios con el siguiente ejemplo.
(P) Min x2
s.a. − x21 − x22 + 1 ≤ 0,
(x1 − 1)2 + x22 − 1 ≤ 0,
3
−2 x1 − 12 + x22 − 43 ≤ 0.
Analizando las diferentes elecciones de conjuntos de ı́ndices activos, obtenemos las siguientes
situaciones (obsérvese que, puesto que tenemos tres restricciones, tendremos que contemplar 23 =
8 casos).
(1) I (x) = 0./ Ningún punto verifica ∇ f (x) = 02 .
(2) I (x) = {1} . Puesto que g1 es cóncava, se verifica la cualificación de restricciones de Manga-
sarian, por lo que los posibles candidatos a óptimos en este caso serán los puntos de KKT. Ası́ pues,
0
1 T
planteamos el sistema −1 = λ1 −2x 1 T
−2x2 . La única solución con λ1 ≥ 0 es (x1 , x2 , λ1 ) = 0, 1, 2 ,
que no proporciona un punto factible. No tenemos ningún candidato.
(3) I (x) = {2} . En este caso se verifica la cualificación de restricciones de Slater (g2 es con-
vexa, y por ejemplo g2 (1, 0) = −1 < 0). Planteando las condiciones de KKT, encontramos una
T
solución (x1 , x2 , λ2)T = 1, −1, 12 , que no corresponde a este caso puesto que la tercera restric-
ción también es activa.
(4) I (x) = {3} . Se verifica la cualificación de restricciones de independencia lineal, pues la
T
única solución de ∇g3 (x) = 02 es x = 12 , 0 , que no es unpunto factible. Del sistema −∇ f (x) =
√ √
λ3 ∇g3 (x) , obtenemos las únicas soluciones (x1 , x2 , λ3 )T = 12 , 23 , − √13 , y (x1 , x2 , λ3 )T = 12 , −2 3 , √13 ;
el primero no es punto de KKT pues λ3 < 0. El segundo hace activas también a las dos primeras,
ası́ que no corresponde a este caso. Situaciones análogas presentan los casos (5) I (x) = {1, 2} y
(6) I (x) = {1, 3} .
(7) I (x) = {2, 3} . Se verifica LICQ, y las condiciones de KKT proporcionan como único can-
didato (realmente correspondiente a este caso) a (x1 , x2 , λ2 , λ3 )T = 1, −1, 21 , 0
Finalmente, en el caso I (x) = {1, 2, 3} no se verifican MCQ, SCQ, ni LICQ, sin embargo, √
puede
1 − 3
comprobarse que sı́ se verifica MFCQ. El único punto de KKT en este caso es x = 2 , 2 .
√
En resumen, disponemos de dos candidatos a óptimos locales: (1, −1) y 21 , −2 3 . En la Figu-
ra (17), en la que hemos representado el conjunto factible de (P) , puede apreciarse intuitivamente
66
√
1 − 3
que 2, 2 no es realidad un óptimo local17 .
1.5
F
0.5
-0.5
-1
-1.5
-1 -0.5 0 0.5 1 1.5 2
El punto x = (1, −1) , será un óptimo local de (P) , y de hecho global. En este caso particular no
hace falta realizar ningún cálculo adicional, pues F es un compacto. En esta situación, el teorema
de Weierstrass asegura que debe existir un óptimo global de (P) . Puesto que (1, −1) es el único
candidato, éste ha de ser un óptimo global de (P) .
Las condiciones de KKT, si bien se presentan como condiciones necesarias de optimalidad (ba-
jo alguna cualificación de restricciones), no son, sin embargo, suficientes, como puede observarse
en el ejemplo anterior. Por otro lado, como se muestra en el Apéndice D, bajo determinada con-
dición adicional, las condiciones de KKT se convierten en condiciones suficientes de optimalidad.
En cualquier caso, estos resultados hacen referencia a óptimos locales. La siguiente proposición
muestra como bajo determinadas hipótesis de convexidad, las condiciones de KKT serán suficien-
tes para garantizar, no sólo optimalidad local, sino directamente optimalidad global.
Teorema 56. Si x∗ es un punto de KKT de (P) y asumimos que las funciones f y gi , con i ∈ I (x∗ ) ,
son diferenciables en x∗ y convexas en Rn , entonces x∗ es un óptimo global de (P) .
Demostración. Bajo las hipótesis actuales podemos escribir, para todo x ∈ Rn ,
f (x) ≥ f (x∗ ) + ∇ f (x∗ )T (x − x∗ ) ,
gi (x) ≥ gi (x∗ ) + ∇gi (x∗ )T (x − x∗ ) , i ∈ I (x∗ ) .
Por otro lado, sean λi ≥ 0, i ∈ I (x∗ ) , tales que ∇ f (x∗ ) + ∑i∈I(x∗ ) λi ∇gi (x∗ ) = 0n . Entonces, del
sistema anterior de desigualdades obtenemos
f (x) + ∑∗ λi gi (x) ≥ f (x∗ ) , para todo x ∈ Rn .
i∈I(x )
67
13.3. Problemas de PNL con igualdades y desigualdades.
El objetivo de esta última subsección es señalar las diferencias que introduce en el estudio de
condiciones de optimalidad el hecho de añadir restricciones de igualdad a nuestro planteamiento.
Particularmente, en esta subsección trataremos con problemas de PNL de la forma:
Teorema 57. Sea x∗ ∈ F un óptimo local del problema (130). Supongamos que las funciones
f , gi , con i ∈ I (x∗ ) , y h j , j = 1, ..., p, son diferenciables en x∗ , y que se verifica la igualdad
cl (cone (Tx∗ )) = Gx∗ ∩ Hx∗ . Entonces existen escalares λi ≥ 0, i ∈ I (x∗ ), µ j ∈ R, j = 1, 2, ..., p,
tales que
p
−∇ f (x∗ ) = ∑ λi ∇gi (x∗ ) + ∑ µ j ∇h j (x∗ ) .
i∈I(x∗ ) j=1
El siguiente resultado establece las relaciones de contenido existentes entre los conjuntos de
direcciones considerados en esta subsección, y que darán paso a las nuevas cualificaciones de
restricciones. Obsérvese que este nuevo enunciado adapta al contexto de los problemas (130) las
68
condiciones establecidas en el Teorema 46. En este punto señalamos que aparecerá una diferen-
cia notable con respecto al planteamiento anterior de problemas, únicamente con desigualdades.
ex∗ ∩ Hx∗ ⊂ Dx∗ ’)
Particularmente la adaptación de la condición (iii) de dicho Teorema 46 (‘cl G
requerirá ahora la aplicación del teorema de la función implı́cita.
Teorema 58. Sea x∗ un punto factible del problema (130). Supongamos que las funciones gi ,
con i ∈ I (x∗ ) , y h j , j = 1, ..., p, son diferenciables en x∗ . Entonces se verifican los siguientes
enunciados:
(i) Dx∗ ⊂ Ax∗ ⊂ Tx∗ ⊂ cl (cone (T x∗ )) ⊂ Gx∗∩ Hx∗ .
ex∗ ∩ Hx∗ 6= 0/ si y sólo si cl G
(ii) G ex∗ ∩ Hx∗ = Gx∗ ∩ Hx∗ .
(iii) Si adicionalmente suponemos que las funciones gi , con i ∈ / I (x∗
) son continuas, las h j,
j = 1, ..., p, son continuamente diferenciables en un entorno ∗ ∗
de x , y que ∇h j (x ) , j = 1, ..., p
es un sistema linealmente independiente, entonces cl G ex∗ ∩ Hx∗ ⊂ Dx∗ .
Cualificación de
Abrev. por: Hipótesis:
restricciones de :
Mangasarian-Fromovitz ‘ ∇h j (x∗ ) , j = 1, ..., p L.I.
MFCQ ex∗ ∩ Hx∗ 6= 0)’
(o también de Cottle) yG /
Kuhn-Tucker KTCQ ‘Dx∗ = Gx∗ ∩ Hx∗ ’
Arrow-Hurwicz-Uzawa AHUCQ ‘Ax∗ = Gx∗ ∩ Hx∗ ’
Abadie ACQ ‘Tx∗ = Gx∗ ∩ Hx∗ ’
Guignard GCQ ‘cl (cone (Tx∗ )) = Gx∗ ∩ Hx∗ ’
‘{∇gi (x∗ ) , i ∈ I (x∗ ) ;
Independencia lineal LICQ
∇h j (x∗ ) , j = 1, ..., p} L.I.’
‘gi , i ∈ I (x∗ ) , cóncavas,
Mangasarian MCQ
h j , j = 1, ..., p lineales’
Supongamos que las funciones h j , j = 1, ..., p, son de clase C 1 en un entorno de x∗ , las gi , con
i ∈ I (x∗ ) , son diferenciables en x∗ y las funciones gi , con i ∈
/ I (x∗ ) , son continuas, entonces:
69
LICQ ⇒ MFCQ ⇒ KTCQ ⇒ AHUCQ ⇒ ACQ ⇒ GCQ
⇑
MCQ
Las pruebas de las implicaciones ‘LICQ⇒MFCQ’ y ‘MCQ⇒KTCQ’ se obtienen adaptando a
este nuevo planteamiento los argumentos dados en la Proposición 48.18
Demostración. En las condiciones actuales, la Proposición 40 establece que −∇ f (x∗ ) ∈ Tx◦∗ . Por
ex∗ ⊂ Tx∗ , lo que implica que T ◦∗ ⊂ G
otro lado, en el Teorema 46 vimos que G e◦∗ . Ası́ pues,
x x
◦
−∇ f (x∗ ) ∈ G ex∗ .
En otros términos, ∇ ∗ T n ∗ T ∗
n f (x ) d ≥ 0 para todo d ∈ R verificando ∇g o i (x ) d < 0 para todo i ∈ I (x ) ;
esto es, el sistema ∇ f (x∗ )T d < 0; ∇gi (x∗ )T d < 0, i ∈ I (x∗ ) no tiene solución (en la variable
d ∈ Rn ). Entonces, en virtud del teorema de Gordan, existirán λ0 , λi ≥ 0, i ∈ I (x∗ ), no todos nulos,
tales que λ0 ∇ f (x∗ ) + ∑i∈I(x∗ ) λi ∇gi (x∗ ) = 0n .
El siguiente esquema pretende mostrar la relación existente entre las condiciones de Fritz-
John y otras condiciones necesarias de optimalidad introducidas en esta sección. Una vez más,
estamos asumiendo que x∗ es un óptimo local de (P) , que las funciones f y gi , con i ∈ I (x∗ ) ,
son diferenciables en x∗ , y las gi , con i ∈ / I (x∗ ) , son continuas en x∗ . Bajo estas hipótesis, dicho
esquema es consecuencia directa de la relación de contenidos
cl Gex∗ ⊂ Dx∗ ⊂ Ax∗ ⊂ Tx∗ ⊂ cl (cone (Tx∗ )) ⊂ Gx∗ ,
70
◦
Cond. de Fritz-John −∇ f (x∗ ) ∈ ex∗
G
∪
D◦x∗
∪
A◦x∗
∪
−∇ f (x∗ ) ∈ Tx◦∗
∪
Cond. de Karush-Kuhn-Tucker −∇ f (x∗ ) ¿ ∈ ? G◦x∗
f (x, y) = 0m ,
71
Asimismo, para una función ϕ : Rk → Rl , representaremos por ∇ϕ (x) , a la matriz de orden k × l
k
que tiene en sus columnas los respectivos gradientes
en x∈ R ) de las ϕi , con i = 1, ..., l.
(evaluados
Comenzaremos observando que si d ∈ cl G ex∗ ∩ Hx∗ ⊂ cl G ex∗ ∩ Hx∗ , entonces ∇g (x∗ )T d ≤
0s , y ∇h (x∗ )T d = 0 p . Veamos que bajo las hipótesis de (iii) existe una curva α : [0, ε ] → F dife-
renciable en [0, 1] y tal que α (0) = x∗ , α ′ (0) = d.
En primer lugar, bajo la hipótesis de independencia lineal del sistema {∇h j (x∗ ) , j = 1, ..., p},
la matriz ∇h (x∗ ) tendrá una submatriz inversible de orden p. De nuevo, por simplicidad, supondre-
mos que esta submatriz, que denotaremos
por B, está formada por las p primeras filas de ∇h (x∗ ) .
B
Ası́, escribiremos ∇h (x∗ ) = , donde N recoge las n − p últimas filas de ∇h (x∗ ) . Del mismo
N
xB
modo, escribiremos x = , donde xB contiene las p primeras coordenadas de x ∈ Rn , y xN las
xN
restantes. Podemos suponer sin pérdida de generalidad quep < n, pues en otro caso, si p = n, en-
e
tonces Hx∗ = {0n } , y entonces Gx∗ ∩ Hx∗ = 0, e
/ y por tanto cl Gx∗ ∩ Hx∗ = 0. / Aplicando el teorema
de la función implı́cita (véase Apéndice B) a la ecuación vectorial h (x) = 0 p , y teniendo en cuenta
que h (x∗ ) = 0 p , concluimos la existencia de un entorno U ⊂ R p de x∗B , un entorno V ⊂ Rn−p de
x∗N y una única función φ : V → U verificando h (φ (xN ) , xN ) = 0 p , para todo xN ∈ V (en particular
φ (x∗N ) = x∗B ), siendo, además de clase C1 en V.
Consideremos entonces las nuevas funciones g : V → Rs , dada por g (xN ) = g (φ (xN ) , xN ) , y
h : V → R p , dada por h (xN ) = h (φ (xN ) , xN ) . Puesto que h es constantemente nula en V, entonces
0(n−p)×p = ∇h (x∗N ) . Por otro lado, aplicando la regla de la cadena, ∇h (x∗N ) = ∇φ (x∗N ) B + N, de
donde
∇φ (x∗N ) = −NB−1 .
dB
Además, si escribimos d = , de ∇h (x∗ )T d = 0 p , obtenemos que
dN
T
dB = − NB−1 dN ,
∇g (x∗N ) = ∇φ (x∗N ) ∇xB g (x∗ ) + ∇xN g (x∗ ) = −NB−1 ∇xB g (x∗ ) + ∇xN g (x∗ ) ,
donde ∇xB g (x∗ ) recoge a las p primeras filas de ∇g (x∗ ) , y ∇xN g (x∗ ) a las n − p restantes. Ası́ pues,
T
∇g (x∗N )T dN = −∇xB g (x∗ )T NB−1 dN + ∇xN g (x∗ )T dN
= ∇xB g (x∗ )T dB + ∇xN g (x∗ )T dN = ∇g (x∗ )T d ≤ 0s .
Ahora estamos en condiciones de aplicar el apartado (iii) del Theorem 4620 , concluyendo la
existencia de una curva α : [0, ε ] → Rn−p diferenciable en [0, ε ] , y verificando que α (0) = x∗N ,
α ′ (0) = dN , y g (α (t)) ≤ 0s , para todo t ∈ [0, ε ] . Podemos suponer, sin pérdida de generalidad que
α (t) ∈ V, para todo t ∈ [0, ε ] , pues en otro caso tomarı́amos su restricción sobre cierto [0, δ ] , δ > 0,
y posteriormente, mediante un cambio de variable adecuado conseguirı́amos que la nueva curva
20 Enrigor, para aplicar directamente este teorema, g tendrı́a que estar definida en todo Rn−p . Esto sin embargo, no
supone ningún obstáculo, puesto que la única hipótesis que ha de cumplir g es la diferenciabilidad en xN . Podemos
extender entonces el dominio de g a Rn−p , definiéndola de manera arbitraria en Rn−p \V. Por otro lado, se comprueba
inmediatamente que existe deN tal que ∇g (xN )′ deN < 0s .
72
n
estuviera enlas condiciones
∗ la curva α : [0, ε ] → R , dada
indicadas. A partir de ésta, construimos
φ (α (t)) φ (xN )
por α (t) = , t ∈ [0, ε ] . Se tiene que α (0) = ∗ = x∗ , g (α (t)) = g (α (t)) ≤ 0s ,
α (t) xN
y podemos, de hecho, suponer sin perdida de generalidad21 que para aquellos ı́ndices i ∈ / I (x∗ )
también se verifica gi (α (t)) ≤ 0; ası́ pues, α (t) ∈ F, para todo t ∈ [0, ε ] . Además,
T
′ ∇φ (x∗N )T α ′ (0) −NB−1 dN
α (0) = = = d.
α ′ (0) dN
73
verifica ϕ (a) = 0, ϕ (b) = 1, y
′ ′ ′ ′ a+b 2
0 = ϕ (a) = ϕ (b) < ϕ (t) ≤ ϕ = para todo t ∈ ]a, b[ .
2 b−a
En particular ϕ es estrictamente
h T creciente.
i
λ
La continuidad de α en 0, 21 se comprueba sin dificultad (para t = 0 se sigue de la acotación
i T i
α (t)−x∗ λ
de t en 0, 21 ). Además:
h T i h i
λ T
(1) α (t) ∈ F para todo t ∈ 0, 21 . En efecto, para t ∈ Tλr+1 , 2λr es evidente por la definición
iT h
λr+1 ∗ µ
de Tλ y, para t ∈ 2 , Tλr+1 , podemos escribir α (t) = x + td , con µ = (1 − ϕr (t)) λr+1 +
ϕr (t) λr ≥ λr+1 (a fortiori λr ↓ 0); con lo que α (t) ∈ F puesto que t < Tλr+1 ≤ Tµ .
h T i
(2) α es diferenciable (de hecho de clase C 1 ) en el intervalo 0, 2λ1 y α ′ (0) = d. En efecto,
se tiene
i h
T
d λr si t ∈ Tλr+1 , 2λr , r = 1, 2, ...,
α ′ (t) := i h
d λr+1 + (ϕr (t) + t ϕ ′ (t)) d λr − d λr+1 , si t ∈ Tλr+1 , Tλ , r = 1, 2, ....
r 2 r+1
i T i
λ
Puesto que, para cada t0 ∈ 0, 21 , α es continua en t0 y lı́mt→t0 α ′ (t) existe, dicho lı́mite coinci-
de con α ′ (t0 ) (esta propiedad,icoordenada
i a coordenada, es consecuencia de la regla de L’Hôpital).
Tλ1
Ası́ pues, α es de clase C en 0, 2 . Además las propiedades de ϕr aseguran que |ϕr (t) + t ϕr′ (t)| ≤
1
iT h
λr+1 λr
5 para cada t ∈ 2 , Tλr+1 , r = 1, 2, .... Este hecho, junto con lı́mr→∞ d = d, nos conduce
a lı́mt→0 α ′ (t) = d y, de nuevo por lah regla ide L’Hôpital (aplicada coordenada a coordenada),
T
α ′ (0) = d. Luego α es de clase C 1 en 0, 2λ1 .
Sea α : [0, ρ ] → F (ρ > 0), derivable en 0, con α (0) = 0. Veamos que necesariamente α ′ (0) =
0. Supongamos, por reducción al absurdo, que α ′ (0) = v 6= 0. Entonces, en virtud de la continuidad
α (t)
de la función valor absoluto y habida cuenta de que α (0) = 0, se tiene lı́m = v > 0 (puesto
t→0+ t
que α (t) ∈ F, α (t) ≥ 0 = α (0) para todo t ∈ [0, ε ]), luego existe un δ0 > 0 tal que α (t) > 0 si
0 < t < δ0 , en cuyo caso, en virtud de la descripciónde F,ha de existir un kt ∈ Z tal que α (t) = ekt .
t 1 1
Por otro lado lı́m = > 0, luego fijado ε ∈ 0, (más tarde precisaremos el valor que de
t→0+ α (t) v v
ε )22 existe un δ ∈ ]0, δ0 [ tal que 0 < t < δ implica
1 kt 1
−ε e < t < + ε ekt . (132)
v v
22 Aunque en estos casos la elección del ε siempre queda motivada a posteriori, preferimos por motivos didácticos
fijar el valor de ε una vez que dicho valor esté motivado.
74
1 1
Elijamos ε de forma que k
+ε e t < − ε ekt +1 ; esto es,
v v
−1
1 1
+ε −ε < e.
v v
1
Por ejemplo, sea ε = . La fórmula (132) implica en particular que
5v
[
]0, δ [ ⊂ ]αk , βk [ ,
k∈Z
4ek 6ek
siendo αk := y βk := para cada k ∈ Z, lo que constituye una contradicción, pues la elección
5v 5v
de ε garantiza que βk < αk+1 para todo k ∈ Z. Nótese que, por ejemplo, la sucesión de números
β−r + α−r+1
positivos (pr )r∈N dada por pr = , r = 1, 2, ..., tiene lı́mite 0 cuando r → +∞, por lo
2 [
que para r suficientemente grande será pr ∈ ]0, δ [ \ ] αk , β k [ .
k∈Z
que viene dada por L (x, λ , µ ) := f (x)+ λ T g (x)+ µ T h (x) , donde g (respectivamente, h) representa
a la función vectorial que tiene a las gi (respectivamente, a las h j ) como sus funciones coordenadas.
Asimismo denotaremos por ∇x L (x, λ , µ ) al gradiente, respecto de x, de L; esto es,
m p
∇x L (x, λ , µ ) = ∇ f (x) + ∑ λi ∇gi (x) + ∑ µ j ∇h j (x) .
i=1 j=1
Ası́ pues, las condiciones de KKT para el problema (133) pueden alternativamente expresarse
75
como23
∇x L (x, λ , µ ) = 0n ,
λ T g (x) = 0, λ ≥ 0m , (D.2)
g (x) ≤ 0m , h (x) = 0 p .
En los respectivos enunciados de la condición necesaria y condición suficiente establecidos en
esta subsección distinguiremos entre dos clases de restricciones activas asociadas a un punto de
KKT x∗ , y al vector λ ∗ que recoge los multiplicadores de KKT asociados a las restricciones de
desigualdad. Siguiendo la terminologı́a de Fletcher (1987), llamaremos restricciones fuertemente
activas (o también, no degeneradas) a las asociadas al conjunto de ı́ndices
mientras que el resto de restricciones de desigualdad activas son denominadas restricciones débil-
mente activas. En términos informales, esta distinción viene motivada por el hecho de que ésta
última clase de restricciones activas no desempeñan ningún papel en las condiciones de KKT (es-
tas condiciones se verifican, aun eliminando del planteamiento dichas restricciones).
En lo que sigue denotaremos por ∇2xx L (x, λ , µ ) a la matriz hessiana, respecto de x, de L; esto
es
m p
∇2xx L (x, λ , µ ) := ∇ f (x) + ∑ λi ∇ gi (x) + ∑ µ j ∇2 h j (x) ,
2 2
i=1 j=1
donde ∇2 f (x) , ∇2 gi (x) , i = 1, ..., m, ∇2 h j (x) , j = 1, ..., p denotan a las matrices hessianas de las
correspondientes funciones.
Teorema 61 (Condición necesaria de segundo orden). Sea x∗ un óptimo local del problema (P) , in-
troducido en (133). Supongamos que f , gi , i ∈ I (x∗ ) y h j , j =
1, ..., p, son de clase C 2 en un entorno
de x∗ , que gi , i ∈
/ I (x∗ ) son funciones continuas en x∗ , y que ∇gi (x∗ ) , i ∈ I (x∗ ) ; ∇h j (x∗ ) , j = 1, 2, ..., p
forma un sistema linealmente independiente24 . Entonces se verifican los siguientes enunciados:
(i) Existen unos únicos , λ ∗ ≥ 0m , µ ∗ ∈ R p , verificando
(ii) Además, para todo d ∈ M (x∗ , λ ∗ ) , se tiene que d T ∇2xx L (x∗ , λ ∗ , µ ∗ ) d ≥ 0, siendo
T
∇gi (x∗ ) d ≤ 0, i ∈ I (x∗ ) \I + (x∗ , λ ∗ ) ;
M (x∗ , λ ∗ ) := d ∈ Rn : ∇gi (x∗ )T d = 0, i ∈ I + (x∗ , λ ∗ ) ; .
∗ T
∇h j (x ) d = 0, j = 1, 2, ..., p
23
Recuérdese que las condiciones de KKT para el problema (D.1) se formulan en los términos ‘existen x ∈ F y
λ i ≥ 0, i ∈ I (x) , µ j ∈ R, tales que ∇ f (x) + ∑i∈I(x) λ i ∇gi (x) + ∑ pj=1 µ j ∇h j (x) = 0n ’; considerando entonces λ i = 0,
′
para i ∈ {1, ..., m} \I (x) , tendremos unos vectores λ ≥ 0m , y µ ∈ R p tales que ∇x L x, λ , µ = 0n , con λ g (x) = 0.
′
Reciprocamente, si x ∈ F, λ ≥ 0m , µ ∈ R p verifican ∇x L x, λ , µ = 0n , con λ g (x) = 0, de esta última igualdad se
deduce que λ i gi (x) = 0 (puesto que λ i ≥ 0 y gi (x) ≤ 0), para todo i = 1, ..., m. Ası́ pues, si i ∈
/ I (x) , ha de ser λ i = 0,
de donde se obtienen inmediatamente las condiciones de KKT en el formato inicial.
24 Recordemos que esta hipótesis constituye la cualificación de restricciones que abreviábamos por LICQ. En esta
76
Demostración. (i) ya ha sido probada más arriba, incluso bajo hipótesis más generales. Veamos
(ii).
Comenzaremos observando que, puesto que x∗ es un óptimo local de (P) , también lo será del
problema 25
b Min f (x)
(P)
s.a. gi (x) ≤ 0, i ∈ I (x∗ ) \I + (x∗ , λ ∗ ) ,
gi (x) = 0, i ∈ I + (x∗ , λ ∗ ) ,
h j (x) = 0, j = 1, 2, ..., p.
Distinguiremos con el sı́mbolo ‘b’ a los elementos asociados al problema (P). b Ası́, Fb será su con-
b
junto factible, y Tbx∗ , Gx∗ , H
bx∗ , representarán, respectivamente, el cono de las tangentes en x∗ , el
polar del conjunto formado por los gradientes en x∗ de las gi , con i ∈ I (x∗ ) \I + (x∗ , λ ∗ ) , y el orto-
gonal del conjunto formado por los gradientes, en x∗ , de las funciones que definen las igualdades.
Con esta notación, el conjunto M (x∗ , λ ∗ ) introducido bx∗ ∩ H
en (ii) no es otro que G bx∗ . Además, la
hipótesis de independencia lineal del sistema ∇gi (x∗ ) , i ∈ I (x∗ ) ; ∇h j (x∗ ) , j = 1, 2, ..., p pue-
de verse también como la cualificación de restricciones que denotábamos por LICQ, en x∗ , pa-
b Esta cualificación de restricciones implica la de Abadie, concluyéndose que
ra el problema (P).
Gbx∗ ∩ H
b = Tbx∗ .
Sea d ∈ M (x∗ , λ ∗ ) . De los comentarios anteriores, se deduce que d ∈ Tbx∗ . Ası́ pues, pongamos
d = lı́mr→∞ ρr (xr − x∗ ) , con xr ∈ Fb para todo r, y siendo {xr } convergente a x∗ . Las hipótesis
actuales de diferenciabilidad permiten escribir
Ası́ pues,
p
L (xr , λ ∗ , µ ∗ ) = f (xr ) + ∑ λi∗ gi (xr ) + ∑ µ ∗j h j (xr ) (D.4)
i∈I + (x∗ ,λ ∗ ) j=1
1
= f (x∗ ) + (xr − x∗ )T ∇2xx L (xr , λ ∗ , µ ∗ ) (xr − x∗ ) + o(kxr − x∗ k2 ).
2
b para todo r), f (xr ) ≥ f (x∗ ) para r suficiente-
Puesto que gi (xr ) = 0, para todo r (por ser xr ∈ F,
b se tiene que
mente grande (por ser x∗ óptimo local de (P)),
1 r
0≤ (x − x∗ )T ∇2xx L (xr , λ ∗ , µ ∗ ) (xr − x∗ ) + o(kxr − x∗ k2 ), para r ≥ r0 .
2
Multiplicando entonces, para cada r, por (ρr )2 , y haciendo r → +∞ concluimos que d T ∇2xx L (x∗ , λ ∗ , µ ∗ ) d ≥
0.
25 En la introducción del tema se presentó un argumento directo para probar un resultado análogo a esta observación.
77
Observación 62. En la práctica, en vez de verificar la condición (ii), resulta más sencillo com-
probar si se cumple otra más débil, a saber ‘si ∇2xx L (x∗ , λ ∗ , µ ∗ ) es semidefinida positiva o definida
positiva sobre el subespacio
n o
n ∗ T ∗ ∗ T
d ∈ R | ∇gi (x ) d = 0, i ∈ I (x ) ; ∇h j (x ) d = 0, j = 1, 2, ..., p ,
pues esta última puede ser analizada a través de un simple cáculo matricial.
Observación 63. La hipótesis de independencia lineal utilizada en el enunciado del teorema an-
terior, podrı́a reemplazarse por cualquier otra que suponga una cualificación de restricciones en
x∗ simultáneamente para los problemas (P) y (P), b y que en este último caso resulte ser una con-
dición suficiente para la cualificación de restricciones de Abadie. Este es el caso, por ejemplo, si
gi , i ∈ I + (x∗ , λ ∗ ) , y h j , j = 1, ..., m son lineales y gi , i ∈ I (x∗ ) \I + (x∗ , λ ∗ ) son cóncavas.
Teorema 64 (Condición suficiente de segundo orden). Sea x∗ ∈ F un punto de KKT del problema
(P) introducido en (133) y sean λ ∗ ≥ 0m , µ ∗ ∈ R p vectores de multiplicadores asociados a x∗
(esto es, (x∗ , λ ∗ , µ ∗ ) verifica las condiciones de KKT (134)). Supongamos que f , gi , i ∈ I (x∗ ) , h j ,
j = 1, ..., p son de clase C 2 en un entorno de x∗ , y que gi , i ∈ / I (x∗ ) son funciones continuas en x∗ .
Si además se verifica que d T ∇2xx L (x∗ , λ ∗ , µ ∗ ) d > 0 para todo d ∈ M (x∗ , λ ∗ ) \ {0n } , entonces x∗
es un óptimo local (estricto) de (P).
Demostración. Razonando por reducción al absurdo, supongamos que d T ∇2xx L (x∗ , λ ∗ , µ ∗ ) d > 0
para todo d ∈ M (x∗ , λ ∗ ) \ {0n } , y, sin embargo, x∗ no es un mı́nimo local estricto de (P) . Entonces
existe una sucesión {xr } ⊂ F\{x∗ } convergente a x∗ y tal que f (xr ) ≤ f (x∗ ) , para todo r; ası́ pues
Por tanto
1 r
(x − x∗ )T ∇2xx L (xr , λ ∗ , µ ∗ ) (xr − x∗ ) + o(kxr − x∗ k2 ) ≤ 0.
2
Dividiendo entonces por kxr − x∗ k2 y haciendo r → +∞ concluimos d T ∇2xx L (x∗ , λ ∗ , µ ∗ ) d ≤ 0,
alcanzando de este modo una contradicción (recuérdese que d ∈ M (x∗ , λ ∗ )). Ası́ pues, x∗ es un
mı́nimo local estricto de (P) .
78
13.3.6. Interpretación de los multiplicadores de KKT
Imaginemos que deseamos construir una caja de cartón como la de la figura:
x2/2
solapa
x3
x2
x1 x2 /2
Supongamos que el beneficio que reporta para nosotros la construcción de dicha caja es propor-
cional a su volumen una vez cerrada, de forma que nos interesa minimizar f (x1 , x2 , x3 ) = −x1 x2 x3
(lo que equivale a maximizar el volumen). Supongamos asimismo que tenemos restringida la can-
tidad de material (área total), estando sujetos a la restricción
g (x1 , x2 , x3 ) = 2 (x1 + x2 ) (x2 + x3 ) − c0 ≤ 0,
siendo c0 una constante positiva, y por supuesto x1 ≥ 0, x2 ≥ 0 y x3 ≥ 0.
Dada la naturaleza del problema, en un óptimo local de problema tendrán que ser positivos x1 ,
x2 y x3 (pues si alguno de ellos fuese cero el volumen de la caja serı́a nulo, y evidentemente no
tendrı́amos un óptimo local). Esto significa que, con el fin de buscar puntos de KKT que pudieran
ser óptimos locales, podremos considerar x1 ≥ 0, x2 ≥ 0 y x3 ≥ 0 como restricciones inactivas.
Ası́, considerando la q restricción
q de q material
como la única activa, encontramos que el único
√
punto de KKT es x = 3 2 , 3 2 , 3 2 , teniéndose además que ∇g (x ) = 2c0 (1, 2, 1)T 6=
∗ 2 c0 1 c0 2 c0 ∗
q
03 . El multiplicador de KKT asociado es λ1∗ = 19 c20 . Poniendo λ ∗ = (λ1∗ , 0, 0, 0)T , se tiene que
la restricción de ∇2xx L (a) al subespacio v ∈ R3 | v1 + 2v2 + v3 = 0 es definida positiva, por lo
que en virtud de la condición suficiente de segundo orden, el problema considerado presenta en x∗
un óptimo local (puede comprobarse √ a partir de la definición que, de hecho,
√ se trata de un óptimo
∗ − 2 3/2 2 3/2
global), teniéndose f (x ) = 27 c0 (esto es un volumen máximo de 27 c0 ).
Llegados a este punto nos planteamos la siguiente pregunta: ¿Cuánto mejorarı́a nuestro objetivo
si pudiésemos disponer de una pequeña cantidad adicional, c − c0 , de área total? En otras palabras,
si tuviésemos la posibilidad de aumentar un poco el área total de la caja, ¿hasta qué precio por
unidad de área (expresado en las mismas unidades que el objetivo) estarı́amos dispuestos a pagar
por esa pequeña cantidad adicional de área? La respuesta√es sencilla: dicho precio es λ , puesto que
3/2
el ”beneficio cambiado de signo” es B (c0 ) = f (x∗ ) = −27 2 c0 , y se tiene
√ r
′ − 2 3 1/2 −1 c0
B (c0 ) = c = = −λ .
27 2 0 9 2
79
Veremos a continuación que, bajo hipótesis adecuadas, este resultado se verifica en general:
λi puede interpretarse como el “precio” (en las unidades de la función objetivo) que estarı́amos
dispuestos a pagar por unidad de incremento del miembro derecho de la i-ésima ligadura (pa-
ra incrementos pequeños), pues esa unidad producirı́a una mejora (disminución) del objetivo de,
aproximadamente, λi unidades.
Teorema 65. Sea x∗ un punto de KKT del problema (P) introducido en (133), y sean λ ∗ ≥ 0m
y µ ∗ ∈ R p vectores de multiplicadores asociados a x∗ . Supongamos que f , gi , i ∈ I (x∗ ) , h j , j =
1, ..., p son de clase C 2 en un entorno de x∗ , que gi , i ∈ / I (x∗ ) son funciones continuas en x∗ .
Supongamos además que se verifican las siguientes condiciones:
(h1) ∇gi (x∗ ) , i ∈ I (x∗ ) ; ∇h j (x∗ ) , j = 1, 2, ..., p forma un sistema linealmente indepen-
diente;
(h2) I (x∗ ) = I + (x∗ , λ ∗ ) (todas las restricciones activas son fuertemente activas; en este caso
M (x∗ , λ ∗ ) es un subespacio vectorial);
(h3) ∇2xx L (x∗ , λ ∗ , µ ∗ ) es definida positiva sobre el subespacio M (x∗ , λ ∗ ) (condición suficiente
de segundo orden).
n ∗ m+p de 0
existen un entorno V ⊂ R de x , y un entorno W ⊂ R
Entonces m+p , tales que para
β
todo ∈ W el problema parametrizado
θ
(P (β , θ )) Min f (x)
s.a. g(x) ≤ β ,
h (x) = θ ,
λ ≥ 0m , g (x) ≤ β . (D.6)
Obviaremos por el momento las condiciones dadas en (D.6) y nos centraremos en el sistema de
ecuaciones (D.5). Para β = 0m , y θ = 0 p , (x∗ , λ ∗ , µ ∗ ) es una solución de dicho sistema. Apli-
caremos entonces el teorema de la función implı́cita para mostrar que el sistema (D.5) define
localmente a (x, λ , µ )T como función implı́cita de (β , θ )T . Para ello hemos de verificar que la
matriz jacobiana del sistema, con respecto a (x, λ , µ )T , evaluada en (x∗ , λ ∗ , µ ∗ )T es no singular.
Esta matriz viene dada por:
∗ ∗ ∗
2
∇xx L (x , λ , µ ) ∇g (x∗ ) ∇h (x∗ )
T
diag (gi (x∗ ) , i = 1, .., m) 0m×p
J := λi∗ ∇gi (x∗ ) ,
i=1,...,m
∇h (x∗ )T 0 p×m 0 p×p
80
donde λi∗ ∇gi (x∗ )T representa a la matriz cuya i-ésima fila es λi∗ ∇gi (x∗ )T , y diag (gi (x∗ ) , i = 1, .., m)
i=1,...,m
la matriz diagonal cuyos elementos diagonales son precisamente {gi (x∗ ) , i = 1, .., m}.
T
Supongamos que J es singular, entonces existe uT , vT , wT ∈ Rn+m+p \ 0n+m+p tal que
T
J uT , vT , wT = 0n+m+p . En primer lugar nótese que u 6= 0n , pues de lo contrario, el sistema
T
formado por las n primeras ecuaciones de J uT , vT , wT = 0n+m+p , se traducirı́a en ∇g (x∗ ) v +
∇h (x∗ ) w = 0n , y del sistema formado por las m siguientes obtendrı́amos vi = 0, si i ∈ / I (x∗ ) ,
contradiciendo
ası́ (h1) , pues habrı́amos encontrado entonces una combinación lineal nula del
sistema ∇gi (x∗ ) , i ∈ I (x∗ ) ; ∇h j (x∗ ) , j = 1, 2, ..., p .
Veamos que además u ∈ M (x∗ , λ ∗ ) . Del bloque formado por las p últimas ecuaciones se tiene
que ∇h j (x∗ )T u = 0, para todo j = 1, ..., p. Atendiendo de nuevo al bloque de las m ecuaciones
anteriores a éstas, tendrı́amos λi∗ ∇gi (x∗ )T u + gi (x∗ ) vi = 0, para todo i = 1, ..., m. Ası́ pues, si
i ∈ I (x∗ ) , entonces ∇gi (x∗ )T u = 0, pues estamos suponiendo que λi∗ > 0, para todo i ∈ I (x∗ ) .
Entonces, multiplicando a izquierda por uT en
concluimos que
81
En efecto, de la regla de la cadena obtenemos que ∇(β ,θ ) f (x (β , θ ))(β ,θ )=0 = ∇x (0m+p) ∇ f (x∗ ) .
m+p
Por otro lado, tenı́amos que ∇ f (x∗ ) = − (∇g (x∗ ) λ ∗ + ∇h (x∗ ) µ ∗ ) . Veamos,
∗
∗ ∗ λ
∇x (0m+p ) ∇g (x ) λ = ,y (D.7)
0p
∗ ∗ 0m
∇x (0m+p ) ∇h (x ) µ = , (D.8)
µ∗
y entonces habremos probado que
∗
∗ ∗ ∗ ∗ −λ
∇(β ,θ ) f (x (β , θ ))(β ,θ )=0 = −∇x (0m+p ) (∇g (x ) λ + ∇h (x ) µ ) = .
m+p −µ ∗
Resta entonces probar (D.7) y (D.8). Comenzaremos estableciendo (D.7) ; esto es
∇β x (0m+p ) ∇g (x∗ ) λ ∗ = λ ∗ , y
∇θ x (0m+p ) ∇g (x∗ ) λ ∗ = 0 p ,
∇β x (0m+p )
donde se ha considerado la partición ∇x (0m+p ) = . Obtendremos dichas desigual-
∇θ x (0m+p )
dades derivando respecto de βi y respecto de θ j en el sistema proporcionado por las condiciones
de complementariedad
{λk (β , θ ) (gk (x (β , θ )) − βk ) = 0, k = 1, ..., m}.
En efecto, si derivamos en cada una de las ecuaciones respecto de βi , sustituimos en el punto
(β , θ ) = 0m+p y luego sumamos, obtenemos
( ! ! )
m
∂ λk (β , θ ) ∂ x ( β , θ )
∑ gk (x∗ ) + λk∗
∇gk (x∗ ) − δik
k=1 ∂ β i (β ,θ )=0m+p ∂ β i (β ,θ )=0m+p
( ! )
m
∂ x (β , θ )
= ∑ λk∗ ∇gk (x∗ ) − λi∗ = 0,
k=1 ∂ β i (β ,θ )=0m+p
∂ λk (β ,θ )
donde δik := 1, i = k, δik := 0, i 6= k (obérvese que ∂ βi gk (x∗ ) = 0, para todo
(β ,θ )=0m+p
k, pues lo es trivialmente si k ∈ I (x∗ ) , y por otro lado, si k ∈ / I (x∗ ) , entonces λk (β , θ ) es cons-
tantemente nulo en un entorno de 0m+p ). Hemos probado ası́ que la coordenada (fila) i-ésima de
∇β x (0m+p ) ∇g (x∗ ) λ ∗ coincide con λi∗ , para todo i, y por tanto ∇β x (0m+p ) ∇g (x∗ ) λ ∗ = λ ∗ .
Por otro lado, derivando en el mismo sistema anterior con respecto a θ j , evaluando esta deri-
vada en (β , θ ) = 0m+p , y sumando obtenemos:
( ! ! )
m
∂ λk (β , θ ) ∂ x ( β , θ )
∑ gk (x∗ ) + λk∗
∇gk (x∗ )
k=1 ∂ θ j (β ,θ )=0m+p ∂ θ j (β ,θ )=0m+p
( ! )
m
∂ x (β , θ )
= ∑ λk∗ ∇gk (x∗ ) = 0.
k=1 ∂ θ j (β ,θ )=0m+p
82
14. Métodos de penalización
Sea el problema de optimización con una única restricción
mı́n f (x)
(P)
s.a. h(x) = 0.
Supongamos que este problema se reemplaza por el siguiente problema irrestringido, donde
c > 0 es un número suficientemente grande,
mı́n { f (x) + ch2 (x)}
(Pc )
x ∈ Rn .
Intuitivamente vemos que una solución x∗ al problema anterior tiene que ser tal que h(x∗ )
sea próximo a cero (de no ser ası́, una pequeña disminución en el valor de h(x∗ ) producirı́a un
decrecimiento de la penalización que compensarı́a cualquier posible aumento de f (x)).
Consideremos, ahora, el problema con una única restricción en forma de desigualdad
e mı́n f (x)
(P)
s.a. g(x) ≤ 0.
Es claro que el término cg2 (x) no constituirá una penalización adecuada puesto que ‘casti-
gará’ a aquellos puntos factibles que satisfagan g(x) < 0. Una posibilidad razonable consiste en
reemplazar (P)e por el problema
mı́nn f (x) + c máx {0, g(x)} . (135)
x∈R | {z }
+ ≡g (x)
Una dificultad asociada con la penalización introducida en (135) estriba en que la función
g+ (x) = máx {0, g(x)} puede no ser diferenciable en los puntos x tales que g(x) = 0. Una alternativa
2
serı́a considerar la penalización c (g+ (x)) , cuya derivada en cualquier x ∈ Rn es
2cg+ (x)g′ (x).
En general una función de penalización adecuada tiene que producir una penalización positiva
en los puntos infactibles, y ninguna penalización en los puntos factibles. Si las restricciones son
de la forma hi (x) = 0, i = 1, . . ., m, g j (x) ≤ 0, j = 1, . . . , r, entonces una función de penalización
adecuada serı́a
m r
α (x) := ∑ ψ (hi (x)) + ∑ φ g j (x) , (136)
i=1 j=1
donde ψ y φ son funciones continuas que satisfacen las condiciones
83
donde p es un entero positivo. Ası́ pues, una función de penalización usual es la siguiente
m r p
α (x) = ∑ |hi (x)| p + ∑ g+j (x) .
i=1 j=1
84
θ (µ ) := ı́nf { f (x) + µα (x) : x ∈ Rn } .
La principal consecuencia de este resultado, es que el valor óptimo ’primal’ se puede aproxi-
mar, tanto como se quiera, calculando θ (µ ) con µ suficientemente grande. La desventaja de este
tipo de procedimientos es que si xµ es solución óptima del problema con valor óptimo θ (µ ), xµ
no será en general ’factible’ para (P). Por esta razón, hemos denominado a estas funciones de
penalización exterior.
El teorema fundamental al que nos acabamos de referir se basa en el siguiente lema:
Lema 68. Sean f , h1 , . . . , hm , g1 , . . . , g p funciones continuas (en Rn ), y sea α una función de
penalización (continua), del tipo definido en (136) y (137). Supongamos que, para cada µ > 0,
existe xµ tal que
θ (µ ) = f (xµ ) + µα (xµ ).
Entonces si representamos por v(P) y v(D) los correspondientes valores óptimos de los problemas
duales considerados; es decir, si
v(P) : = ı́nf f (x) : h(x) = 0m , g(x) ≤ 0 p ,
v(D) : = sup {θ (µ ) : µ ≥ 0} ,
y por lo tanto,
f (x) ≥ sup θ (µ ) ≡ v(D).
µ ≥0
Como la desigualdad última se verifica para todo x factible de (P), tomando ı́nfimos se deduce
v(P) ≥ v(D), con lo que queda probado (1).
Vamos ahora a probar (2). Sean 0 < λ < µ , y consideremos la definición de θ (µ ) y de xµ . Se
cumplirá:
85
Puesto que µ > λ , tendrá que ser
α (xλ ) ≥ α (xµ ),
y α (xµ ) ciertamente es una función no-creciente de µ .
Sumando y restando µα (xµ ) al miembro de la izquierda de (139) se obtiene:
Sea y una solución factible de (P), y sea ε > 0. De acuerdo con nuestra notación x1 será un punto
tal que
θ (1) = f (x1 ) + α (x1 ).
Sea ahora cualquier µ tal que
1
µ≥ | f (y) − f (x1 )| + 2.
ε
Como µ ≥ 2 > 1, se tendrá f (xµ ) ≥ f (x1 ), por (2) en el lema previo. Ahora probaremos que
α (xµ ) < ε , y ello ciertamente conlleva que lı́mµ →∞ α (xµ ) = 0.
Razonando por reducción al absurdo, si fuese α (xµ ) ≥ ε ,
86
Puesto que xµk → x∗ , y f es continua, tomando lı́mites en la última desigualdad:
y cuando k → ∞, lı́mk→∞ θ (µk ) = v(D), mientras que lı́mk→∞ f (xµk ) = f (x∗ ) = v(P) = v(D). De
(142) se desprende
lı́m µk α (xµk ) = 0.
k→∞
Corolario 70. Si α (xµ ) = 0 para algún µ , entonces xµ es solución óptima del problema (P).
Demostración. Si α (xµ ) = 0, entonces xµ es factible para (P). Además se tiene
Asumamos que la función de penalización α (.) es la introducida en (136) y (137) y que, adi-
cionalmente, ψ y φ son continuamente diferenciables, con φ ′ (y) ≥ 0 para todo y, y φ ′ (y) = 0 para
y ≤ 0. Asumamos, también, que las condiciones de la proposición anterior se satisfacen. Puesto
que xµ resuelve el problema de minimizar f (x) + µα (x) el gradiente de esta función tiene que
anularse en xµ , esto es:
m p
∇ f (xµ ) + ∑ µψ (hi (xµ ))∇hi (xµ ) + ∑ µφ ′ (g j (xµ ))∇g j (xµ ) = 0n .
′
(143)
i=1 j=1
Ahora sea x∗ un punto de acumulación de la sucesión xµk , con µk → ∞ a medida que k → ∞. Sin
pérdida de generalidad, escribiremos,
87
lı́m xµk = x∗ .
k→∞
Recordando que I(x∗) = j| g j (x∗ ) = 0 , si j ∈ / I(x∗ ) se tendrá g j (x∗ ) < 0, y para k suficientemente
grande g j (xµk ) < 0, lo que a su vez entraña µk φ ′ (g j (xµk )) = 0, por la hipótesis adicional que se ha
hecho en relación con φ ′ .
Ahora (143), con µ = µk , podrá reescribirse como:
m
0n = ∇ f (xµk ) + ∑ (vik )∇hi (xµk ) + ∑ ∗ (ukj )∇g j (xµk ),
i=1 j∈I(x )
Por lo tanto, para k suficientemente grande, los multiplicadores dados en (144) y (145) pueden ser
usados para estimar los multiplicadores de KKT en el punto óptimo x∗ . Por ejemplo, si α es la
función de penalización cuadrática dada por
m p
α (x) = ∑ h2i (x) + ∑ (g′j (x))2 ,
i=1 j=1
es decir
entonces
88
En particular, observemos que si µ ∗j > 0, para un cierto j ∈ I(x∗ ) entonces g′j (xµk ) > 0 para k
suficientemente grande, lo que significa que la restricción g j (x) ≤ 0 es violada a lo largo de la
trayectoria que conduce a x∗ , y necesariamente:
1
x∗ = lı́m xµk = (1, 1)T .
k→∞ 2
89
15. Apéndice
15.1. Número de condición
Antes de nada, recordemos algunas nociones acerca del número de condición y la norma de
una matriz An×n cualquiera. Dada una norma k · k en Rn , su norma matricial inducida se define
como
kAk = máx kAxk.
kxk=1
donde ρ (AT A) es el radio espectral de la matriz AT A, cuyo valor es el máximo de los valores
propios de la matriz AT A. Si A es una matriz simétrica y λ1 ≤ . . . ≤ λn son sus valores propios
(reales), se tendrá que
q q
kAk = ρ (A2 ) = máx{|λ1 |2 , |λn|2 } = máx{|λ1 |, |λn|}.
90
Obviamente, si A es simétrica y definida positiva, kAk = λn , y su número de condición será
1 λn
cond(A) = kAkkA−1k = λn · = .
λ1 λ1
91
Bibliografı́a
[1] J. A BADIE, On the Kuhn-Tucker Theorem, Nonlinear Programming, J. Abadie (Ed.), 1967.
[3] M.S. BAZARAA , H.D. S HERALI Y C.M. S HETTY, Nonlinear Programming: Theory and
Algorithms, John Wiley & Sons, New York, 1993.
[6] R.W. C OTTLE A Theorem of Fritz John in Mathematical Programming, RAND Corporation
Memo, RM-3858-PR, 1963.
[7] G Y. FARKAS Theorie der einfachen Ungleichungen, J. Reine Angew. Math., 124, pp.1-27,
1901.
[8] R. F LETCHER, Practical Methods of Optimization (2nd ed.), John Wiley and Sons, New York,
1987.
[9] G.H. G OLUB , C.F. VAN L OAN, Matrix computations, Johns Hopkins University Press, Bal-
timore, MD, 1996.
[11] F. J OHN, Extremum Problems with Inequalities as Side Conditions, Studies and Essays,
Courant Anniversary Volume, K.O. Friedrichs, O.E. Neugebauer, and J.J. Stoker (Ed.), Wiley-
InTerscience, New York, 1948.
[12] H.W. K UHN Y A.W. T UCKER, Nonlinear programming, Proc. 2nd Berkeley Symposium
on Mathematical Statistics and Probability, J. Neyman (Ed.), University of California Press,
Berkeley, Calif., 1951.
[15] G.P. M C C ORMICK, Nonlinear Programming: Theory, Algorithms and Applications, John
Wiley & Sons, New York, 1983.
92
[17] J. N OCEDAL , J. W RIGHT, Numerical Optimization, Springer Series in Operations Research,
Springer Verlag, New York, 1999.
[20] R.T. ROCKAFELLAR, Convex Analysis, Princeton University Press, Princeton, NJ, 1970.
[21] Y.J. Z HU, Generalizations of some fundamental theorems on linear inequalities, Acta Math.
Sinica, 16 (1966), pp. 25-40.
93