Apuntes (Curso-09-10)

APUNTES DE
OPTIMIZACIÓN
Marco Antonio López Cerdá

Francisco Javier Aragón Artacho
Departamento de Estadı́stica e Investigación Operativa

Universidad de Alicante
Mayo 2009
Los autores quieren manifestar su agradecimiento a los Profs. Lola Cánovas y Juan Parra,
de la Universidad Miguel Hernández, por sus aportaciones en la elaboración de este material
docente. Particularmente por la esmerada redacción de buena parte del Capı́tulo 13.
Índice
1. Optimización sin restricciones 1
1.1. Condiciones de optimalidad para el problema irrestringido . . . . . . . . . . . . . 1
2. Métodos de búsqueda lineal 4

2.1. Familia de métodos del gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3. Tamaño de paso 6
3.1. Condiciones de Wolfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2. Condiciones de Goldstein y “backtracking” . . . . . . . . . . . . . . . . . . . . . 10
4. Convergencia de los métodos de búsqueda lineal 11

4.1. Métodos del gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
5. Tasa de convergencia 14
6. Análisis del modelo cuadrático 19

6.1. Método del descenso más rápido . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
6.2. Métodos del gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6.3. Caso general: funciones no cuadráticas . . . . . . . . . . . . . . . . . . . . . . . . 24
7. Resultados sobre la tasa de convergencia 24

7.1. Convergencia superlineal de los métodos quasi-Newton . . . . . . . . . . . . . . . 24
8. El método de Newton y sus variaciones 27

8.1. Convergencia local . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
8.2. Convergencia global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
8.2.1. Métodos de las regiones de confianza (’trust region’ methods) . . . . . . . 30
9. Problemas de Mı́nimos-Cuadrados 31
10. Métodos de direcciones conjugadas 33

10.1. El método del gradiente conjugado . . . . . . . . . . . . . . . . . . . . . . . . . . 35
11. Métodos Quasi-Newton 38

11.1. Comparación de los métodos Quasi-Newton con otros métodos . . . . . . . . . . . 42
12. Métodos que no usan derivadas 42

12.1. Método de descenso por coordenadas . . . . . . . . . . . . . . . . . . . . . . . . 42
12.2. El método simplex de Nelder y Mead . . . . . . . . . . . . . . . . . . . . . . . . 43
13. Optimización con restricciones 46

13.1. Restricciones en forma de igualdad . . . . . . . . . . . . . . . . . . . . . . . . . . 46
13.2. Restricciones en forma de desigualdad . . . . . . . . . . . . . . . . . . . . . . . . 53
13.3. Problemas de PNL con igualdades y desigualdades. . . . . . . . . . . . . . . . . . 68
13.3.1. Apéndice A: Las condiciones de Fritz-John . . . . . . . . . . . . . . . . . 70
13.3.2. Apéndice B: El teorema de la función implı́cita. Aplicación en la obtención
de condiciones de optimalidad . . . . . . . . . . . . . . . . . . . . . . . . 71
13.3.3. Demostración del Theorem 58 (iii) . . . . . . . . . . . . . . . . . . . . . . 71
13.3.4. Apéndice C: Complementos diversos . . . . . . . . . . . . . . . . . . . . 73
13.3.5. Apéndice D: Condiciones de segundo orden . . . . . . . . . . . . . . . . . 75
13.3.6. Interpretación de los multiplicadores de KKT . . . . . . . . . . . . . . . . 79
14. Métodos de penalización 83

14.1. Métodos que utilizan funciones de penalización exteriores . . . . . . . . . . . . . 84
15. Apéndice 90
15.1. Número de condición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
Bibliografı́a 92
1. Optimización sin restricciones
Sea el problema de optimización
(P) ≡ ( f , X ) := mı́n f (x)

s.a x ∈ X ⊂ Rn
siendo f : X → R, f ∈ C 2 (X ). Si X ≡ Rn se dice que (P) es un problema de optimización sin

restricciones.
1.1. Condiciones de optimalidad para el problema irrestringido

Teorema 1. Sea x∗ un mı́nimo local de f : Rn → R, y asumamos que f es diferenciable en x∗ .
Entonces
∇ f (x∗ ) = 0n (Condición necesaria de 1er orden).
Si, además, f es dos veces diferenciable en x∗ , se cumple también que
∇2 f (x∗ ) 0 (Condición necesaria de 2o orden),
es decir, ∇2 f (x∗ ) es una matriz semidefinida positiva.
Demostración. Fijemos p ∈ Rn , p 6= 0n . Entonces
f (x∗ + α p) − f (x∗ )
0 ≤ lı́m = f ′ (x∗ ; p) = ∇ f (x∗ )T p,
α ↓0 α
donde f ′ (x∗ ; p) representa la derivada direccional de la función f en el punto x∗ y en la dirección

p. La desigualdad viene dada por ser x∗ mı́nimo local de f . Obviamente, ∇ f (x∗ )T p ≥ 0, ∀p 6= 0n ,
implica ∇ f (x∗ ) = 0n .
Si f es dos veces diferenciable en x∗
∗ ∗ α2 T 2 ∗
∗ T
f (x + α p) − f (x ) = α ∇ f (x ) p + p ∇ f (x )p + o(α 2 ).
2
Teniendo en cuenta que ∇ f (x∗ ) = 0n , y dada la optimalidad local de x∗ , deducimos que si α es
suficientemente pequeño
f (x∗ + α p) − f (x∗ ) 1 T 2 ∗ o(α 2 )

0≤ = p ∇ f (x )p + .
α2 2 α2
o(α 2 )
Tomando lı́mites cuando α → 0, y dado que lı́mα →0 α2
= 0, deducimos pT ∇2 f (x∗ )p ≥ 0, es
decir ∇2 f (x∗ ) es semidefinida positiva.
Proposición 2. Supongamos que f es una función convexa y diferenciable en Rn . Entonces x∗ es

un mı́nimo global de f si, y sólo si, ∇ f (x∗ ) = 0n , en otras palabras, la condición necesaria de
optimalidad de 1er orden es también suficiente para funciones convexas diferenciables.
Observación 3. Recuérdese que para funciones convexas, todo mı́nimo local es global.
1
Demostración. Sólo hay que probar que ∇ f (x∗ ) = 0n es también condición suficiente para que x∗
sea un mı́nimo global de f .
Al ser f es convexa y diferenciable en Rn , sabemos del curso de Análisis Convexo que
f (x) ≥ f (x∗ ) + ∇ f (x∗ )T (x − x∗ ), ∀x ∈ X .
Obviamente, si ∇ f (x∗ ) = 0n se verificará f (x) ≥ f (x∗ ), ∀x ∈ X .

En ausencia de convexidad establecemos la siguiente condición suficiente de optimalidad:
Teorema 4. Sea f : Rn → R, f ∈ C 2 (W ), siendo W abierto de Rn . Supongamos que x∗ ∈ W y

∇ f (x∗ ) = 0n . Entonces se tiene:
(i) Si ∇2 f (x∗ ) ≻ 0, es decir si ∇2 f (x∗ ) es una matriz definida positiva, x∗ es un mı́nimo local
estricto (irrestingido) de la función f y existen escalares γ > 0 y ε > 0 tales que
f (x) ≥ f (x∗ ) + γ kx − x∗ k2 , ∀x ∈ B(x∗ ; ε ). (1)
(ii) Si ∇2 f (x∗ ) tiene valores propios de distintos signos, x∗ es un punto de silla.
Demostración. (i) Al ser f ∈ C 2 (W ), ∇2 f (x∗ ) será simétrica, y sus valores propios serán todos
números reales. Como ∇2 f (x∗ ) es, por hipótesis, definida positiva, sus valores propios serán todos
positivos, y representaremos por λ1 el más pequeño de dichos valores propios. Si u1 , u2 , . . . , un
son vectores propios ortonormales asociados a los valores propios λ1 ≤ λ2 ≤ ... ≤ λn , todo vector
p ∈ Rn podrá expresarse de la siguiente forma:
n
p = ∑ ρ i ui .
i=1
Por lo tanto
n n
∇2 f (x∗ )p = ∑ ρi ∇2 f (x∗ )ui = ∑ ρi λi ui ,
i=1 i=1
y ( )( )
n n n n
pT ∇2 f (x∗ )p = ∑ ρiuTi ∑ ρ jλ ju j = ∑ ρi2 λi kui k2 = ∑ ρi2 λi ≥ λ1 kpk2 .
i=1 j=1 i=1 i=1
Utilizando esta acotación, la condición de estacionariedad ∇ f (x∗ ) = 0n y el desarrollo de Taylor

de segundo orden, se obtiene para todo p:
1
f (x∗ + p) − f (x∗ ) = ∇ f (x∗ )T p + pT ∇2 f (x∗ )p + o(kpk2 )
2 !
2
λ1 λ 1 o(kpk )
≥ kpk2 + o(kpk2 ) = + 2
kpk2 .
2 2 kpk
Hemos comprobado, pues, que (1) es satisfecha para cualquier ε > 0 y γ > 0 tales que
λ1 o(kpk2 )
+ ≥ γ, ∀p tal que kpk < ε .
2 kpk2
λ1
Podrı́a tomarse, por ejemplo, γ = 4.
2
(ii) Si ∇2 f (x∗ ) tiene valores propios de distintos signos, será λ1 < 0 y λn > 0. Si u1 es un vector
propio de norma uno asociado a λ1 se verificará
1
f (x∗ + α u1 ) − f (x∗ ) = α ∇ f (x∗ )T u1 + α 2 uT1 ∇2 f (x∗ )u1 + o(α 2 )
2
λ1 2 2 λ1 o(α 2 )
= α + o(α ) = + α 2.
2 2 α2
Existirá pues α0 > 0 tal que

∗ ∗ λ1 o(α 2 )
f (x + α u1 ) − f (x ) = + α 2 < 0, ∀α ∈]0, α0[.
2 α2
Si un es un vector propio de norma uno asociado a λn , un razonamiento paralelo conduce a la
conclusión de que existe µ0 > 0 tal que

∗ ∗ λn o(µ 2 )
f (x + µ un ) − f (x ) = + µ 2 > 0, ∀µ ∈]0, µ0 [.
2 µ2
Por tanto, x∗ es un punto de silla.
Proposición 5. Sea f : R2 → R, f ∈ C 2 (W ), siendo W abierto de R2 . Supongamos que x∗ ∈ W y
∇ f (x∗ ) = 0n . Sean

∗ A B
2
∇ f (x ) = y ∆ := det ∇2 f (x∗ ) = AC − B2 .
B C
Entonces se tiene:
(i) Si ∆ < 0, x∗ es un punto de silla.
(ii) Si ∆ > 0 y A > 0, x∗ es un mı́nimo local estricto.
(iii) Si ∆ > 0 y A < 0, x∗ es un máximo local estricto.
Demostración. La ecuación caracterı́stica
det(∇2 f (x∗ ) − λ I) = 0,
que hay que resolver para calcular los valores propios es la ecuación de segundo grado
λ 2 − (A +C)λ + ∆ = 0.
Sus raı́ces, λ1 y λ2 , están relacionados con sus coeficientes del siguiente modo
λ1 + λ2 = A +C, λ1 λ2 = ∆.
(i) Si ∆ < 0, los autovalores tienen signos opuestos y por el teorema anterior, x∗ es un punto de
silla.
(ii) e (iii) Si ∆ > 0, los autovalores tiene el mismo signo. En este caso
AC > B2 ≥ 0,
con lo que A y C tienen el mismo signo, el mismo que λ1 y λ2 al ser λ1 + λ2 = A +C. Esto prueba
(ii) e (iii).
3
OPTIMIZACIÓN: ALGORITMOS
En un problema de optimización sin restricciones, se pretende minimizar una función objetivo
f : Rn → R (que supondremos generalmente suave) que depende de n ≥ 1 variables reales, cuyos
valores no están restringidos.
Un algoritmo debe generar, a partir de un punto inicial x0 , una sucesión de puntos x1 , x2 , . . . Para
decidir cómo pasar de una iteración xk a la siguiente los algoritmos utilizan información sobre f en
xk (y quizás también sobre las anteriores iteraciones x0 , . . . , xk−1 ). Normalmente esta información
no la obtenemos “gratuitamente”, por lo que preferiremos algoritmos que no hagan uso de esta
información innecesariamente.
2. Métodos de búsqueda lineal

El algoritmo elige una dirección pk y busca a partir del punto xk una nueva iteración en esta
dirección con un valor de la función menor, avanzando αk en la dirección pk . La distancia que nos
movemos a lo largo de pk puede encontrarse resolviendo aproximadamente el siguiente problema:
mı́n f (xk + α pk ). (2)

α >0
El coste de resolver exactamente (2) serı́a elevado e innecesario. En su vez, los algoritmos gene-
ran un número limitado de longitudes de paso de prueba hasta encontrar una que se aproxime al
mı́nimo de (2). La iteración vendrı́a dada por
xk+1 = xk + αk pk , (3)
donde pk es la dirección de búsqueda y αk es el tamaño del paso. La eficiencia del método depen-
derá de ambas elecciones.
xk
pk
pk +1 xk +1
xk +2
x
f(x) = c <c 2 1
f(x) = c <c 1 0
f(x) = c 0
Figura 1: Algoritmo de búsqueda lineal para minimizar una función f .
La mayorı́a de los métodos de búsqueda lineal exigen que pk sea una dirección de descenso:
4
Definición 6. Se dice que pk es una dirección de descenso para la función f en xk si
f ′ (xk ; pk ) = ∇ f (xk )T pk < 0. (4)
Las direcciones de descenso nos garantizan un decrecimiento del valor de f cuando se parte de
xk en la dirección pk : para α > 0 suficientemente pequeño se tiene
f (xk+1 ) = f (xk + α pk ) = f (xk ) + α ∇ f (xk )T pk + O(α 2 ) < f (xk ). (5)
Para simplificar, denotaremos ∇ f (xk ) ≡ ∇ fk .

La dirección unitaria de decrecimiento más rápido será la solución del problema
mı́n pT ∇ fk . (6)
kpk=1
Como pT ∇ fk = kpkk∇ fk k cos θ , donde θ es el ángulo entre p y ∇ fk , tenemos que (6) es minimi-
zado cuando cos θ toma su valor mı́nimo −1 en θ = 180◦ , es decir, cuando
∇ fk
p=− . (7)
k∇ fk k
Esta dirección es la que se utiliza en el llamado método del descenso más rápido. Debido a (5),
cualquier dirección que forme un ángulo menor de 90◦ con −∇ fk será una dirección de descenso.
2.1. Familia de métodos del gradiente

Se llama ası́ al conjunto de métodos cuya dirección de búsqueda tiene la forma
pk = −B−1
k ∇ fk , (8)
donde Bk es una matriz simétrica no singular. Obsérvese que si Bk es definida positiva, se trata de
un método de descenso, ya que si ∇ fk 6= 0,
f ′ (xk ; pk ) = ∇ f (xk )T pk = −∇ f (xk )T Bk−1 ∇ fk pk < 0.
Los algoritmos más importantes son:
Bk = I, en el método de descenso más rápido (7);
Bk = ∇2 fk , en el método de Newton;
Bk ≈ ∇2 fk , en los métodos quasi-Newton.
La idea del método de Newton es minimizar en cada iteración la aproximación de segundo

orden de f (xk + p):
1
f (xk + p) ≈ fk + pT ∇ fk + pT ∇2 fk p =: mk (p). (9)
2
Suponiendo por el momento que ∇2 fk es definida positiva, al buscar el vector p que minimiza
mk (p) obtenemos la dirección de Newton. Efectivamente, igualando a cero la derivada de mk (p),
encontramos su forma explı́cita:
pk = −(∇2 fk )−1 ∇ fk . (10)
5
En el método de Newton puro, la longitud de paso se toma constante αk = 1. Obsérvese que este
método encuentra el mı́nimo en un sólo paso cuando f es una forma cuadrática definida positiva.
La mayorı́a de las implementaciones del método de Newton utilizan la longitud de paso α = 1
cuando es posible y sólo ajustan su tamaño en caso de no producirse una reducción satisfactoria en
el valor de f . Cuando ∇2 fk no es definida positiva, la dirección de Newton (10) podrı́a no existir
o no ser una dirección de descenso. En este caso, los métodos de búsqueda lineales modifican la
dirección pk para convertirla en una dirección de descenso.
3. Tamaño de paso
Al calcular la longitud de paso αk debemos equilibrar dos objetivos. Por un lado nos gustarı́a
elegir αk de manera que f se reduzca sustancialmente, pero al mismo tiempo, no queremos dedicar
un tiempo excesivo en su elección. La elección ideal serı́a un mı́nimo de la función univariante φ (·)
definida por
φ (α ) := f (xk + α pk ), α > 0, (11)
pero, en general, es muy costoso computacionalmente la identificación de dicho(s) valor(es). Inclu-
so, encontrar un mı́nimo local de φ con una moderada precisión requiere generalmente demasiadas
evaluaciones de f y posiblemente de su gradiente ∇ f . Estrategias más prácticas realizan búsque-
das lineales inexactas para identificar un αk que consiga una adecuada reducción de f con un coste
mı́nimo.
Los algoritmos tı́picos de búsqueda lineal prueban una serie de valores candidatos para αk ,
aceptando uno de estos valores cuando ciertas condiciones son satisfechas. La búsqueda lineal se
realiza en dos fases: en una primera se determina un intervalo conteniendo longitudes de paso
deseables, y una fase de bisección o interpolación computa después una “buena” longitud de paso
en dicho intervalo. A continuación analizaremos diferentes criterios de parada para los algoritmos
de búsqueda lineal, y probaremos que las longitudes de paso efectivas no necesitan estar cerca de
los mı́nimos de la función φ (α ).
Una condición sencilla que podemos imponer a αk es que proporcione una reducción en f , i.e.,
que f (xk + αk pk ) < f (xk ). Sin embargo, en la Figura 2 podemos ver que este requerimiento no
es suficiente: el mı́nimo (global) de f (x) = x2 − 1 es f ∗ = −1, pero la sucesión de valores de la
función f (xk ) = 1/k, para k = 1, 2, . . ., es estrictamente decreciente pero converge a cero y no a
−1.
f(x)
x0 x2 x4 x5x3x1
f(x) = x2
1
Figura 2: f (xk ) = 1/k converge a 0 y no al mı́nimo −1.

x
6
El problema es que el procedimiento aplicado no garantiza una “reducción suficiente” en la
función f , concepto que discutiremos a continuación.
3.1. Condiciones de Wolfe

Primero de todo αk debe garantizar un decrecimiento suficiente de f , estipulado en los siguien-
tes términos:
f (xk + α pk ) ≤ f (xk ) + c1 α ∇ fkT pk , (12)
para cierta constante c1 ∈ ]0, 1[ . La desigualdad (12) es también conocida como condición de Ar-
mijo. En términos de la función φ definida en (11), esta condición es equivalente a
φ (α ) ≤ φ (0) + c1 αφ ′ (0).
La función lineal l(α ) = φ (0) +c1 αφ ′ (0) tiene pendiente negativa c1 ∇ fkT pk , pero se encuentra por
encima de la gráfica de φ (α ) para valores pequeños de α , como consecuencia de que c1 ∈ ]0, 1[ .
La condición de decrecimiento suficiente establece que α es aceptable sólo si φ (α ) ≤ l(α ). En la
práctica, c1 es elegido bastante pequeño, del orden de 10−4 .
Figura 3: Condición de decrecimiento suficiente.
Esta primera regla evita comportamientos como el mostrado en la Figura 2, pero sin embargo
es satisfecha por valores muy pequeños de α . Si éstos fueran adoptados como valores de αk , el
algoritmo no proporcionarı́a un progreso razonable.
Para excluir etapas excesivamente cortas, se introduce la condición de curvatura, que requiere
que αk satisfaga
∇ f (xk + αk pk )T pk ≥ c2 ∇ fkT pk , (13)
para alguna constante c2 ∈ ]c1 , 1[ . En términos de la función φ es (13) equivalente a
φ ′ (αk ) ≥ c2 φ ′ (0),
es decir, la condición de curvatura asegura que la pendiente de la curva φ en αk es mayor que
c2 veces la pendiente de φ en 0. Esto tiene sentido ya que si la pendiente φ ′ (α ) es fuertemente
7
negativa, tenemos una indicación de que podemos reducir significativamente f moviéndonos aún
más a lo largo de la dirección elegida. La condición de curvatura viene ilustrada en la Figura 4.
Valores tı́picos de c2 son 0,9 cuando pk es obtenida por los métodos de Newton o quasi-Newton, y
de 0,1 cuando pk se calcula mediante el método del gradiente conjugado.
Figura 4: Condición de curvatura.
Las condiciones de decrecimiento suficiente y de curvatura se conocen conjuntamente como

condiciones de Wolfe:
f (xk + αk pk ) ≤ f (xk ) + c1 αk ∇ fkT pk , (14a)
∇ f (xk + αk pk )T pk ≥ c2 ∇ fkT pk , (14b)
donde 0 < c1 < c2 < 1. Una longitud de paso puede satisfacer las condiciones de Wolfe sin estar
particularmente próximo a un mı́nimo de φ , como mostramos en la Figura 5.
Figura 5: Longitudes de paso que satisfacen las condiciones de Wolfe.
8
Sin embargo, podemos modificar la condición de curvatura para forzar que αk esté al menos
en un ancho entorno de un mı́nimo local o punto estacionario de φ . Ası́, las llamadas condiciones
fuertes de Wolfe requieren que αk satisfaga:
f (xk + αk pk ) ≤ f (xk ) + c1 αk ∇ fkT pk , (15a)

T
|∇ f (xk + αk pk ) pk | ≤ c2 |∇ fkT pk |, (15b)
donde 0 < c1 < c2 < 1. La única diferencia con las condiciones de Wolfe (14) es que no permitimos
tampoco que la derivada φ ′ (αk ) sea demasiado positiva. De esta forma excluimos puntos que estén
lejos de los puntos estacionarios de φ .
No es difı́cil probar que existen longitudes de paso que satisfacen las condiciones de Wolfe
para toda función f que sea suave y acotada inferiormente.
Proposición 7. Supongamos que f : Rn → R es continuamente diferenciable. Sea pk una dirección

de descenso en xk , y asumamos que f está acotada inferiormente a lo largo de la semirrecta
{xk + α pk | α > 0}. Entonces, si 0 < c1 < c2 < 1, existirán intervalos de longitudes de paso
satisfaciendo las condiciones de Wolfe (14) y las condiciones fuertes de Wolfe (15).
Demostración. Como φ (α ) = f (xk + α pk ) está acotada inferiormente para α > 0, y puesto que
0 < c1 < 1, la recta
l(α ) = f (xk ) + α c1 ∇ fkT pk
debe intersecar la gráfica de φ por lo menos una vez. Sea α ′ > 0 el valor más pequeño de α para
el que se produce está intersección, esto es
φ (α ′ ) = l(α ′ )
o lo que es lo mismo,
f (xk + α ′ pk ) = f (xk ) + α ′ c1 ∇ fkT pk . (16)
Obviamente, la condición de descenso suficiente (14a) se cumple para cualquier longitud de paso
α menor o igual que α ′ .
Por el teorema del valor medio, existirá un α ′′ ∈ ]0, α ′ [ tal que
φ (α ′ ) − φ (0) = φ ′ (α ′′ )α ′ ,
es decir,
f (xk + α ′ pk ) − f (xk ) = α ′ ∇ f (xk + α ′′ pk )T pk . (17)
Combinando (16) y (17), obtenemos
∇ f (xk + α ′′ pk )T pk = c1 ∇ fkT pk > c2 ∇ fkT pk , (18)
puesto que c1 < c2 y ∇ fkT pk < 0. Por tanto α ′′ satisface las condiciones de Wolfe (14), y ambas
desigualdades se verifican estrictamente. Por ser f suave (de clase C 1 ), existirá un intervalo al-
rededor de α ′′ para el cual las condiciones de Wolfe se cumplen. Además, puesto que el término
de la izquierda de (18) es negativo, las condiciones fuertes de Wolfe (15) se cumplen en el mismo
intervalo.
9
3.2. Condiciones de Goldstein y “backtracking”
Al igual que las condiciones de Wolfe (14), las condiciones de Goldstein también aseguran que
el tamaño de paso α alcanza un decrecimiento suficiente, evitando a su vez que α sea demasiado
pequeño. Se definen mediante el siguiente par de desigualdades:
f (xk ) + (1 − c)αk ∇ fkT pk ≤ f (xk + αk pk ) ≤ f (xk ) + cαk ∇ fkT pk , (19)
donde 0 < c < 1/2. La segunda desigualdad es simplemente la condición de decrecimiento sufi-
ciente (12), mientras que la primera desigualdad se introduce para controlar el tamaño de paso por
abajo (ver Figura 6).
Figura 6: Condiciones de Goldstein.
Una desventaja de las condiciones de Goldstein comparadas con las condiciones de Wolfe
es que la primera desigualdad en (19) puede excluir todos los mı́nimos de φ . Sin embargo, las
condiciones de Goldstein y las de Wolfe tienen mucho en común, y sus resultados de convergencia
son bastante similares. Las condiciones de Goldstein suelen usarse a menudo en métodos de tipo
Newton, mientras que su comportamiento no es demasiado bueno en los métodos quasi-Newton,
donde las condiciones de Wolfe son comúnmente utilizadas.
Hemos visto que la condición de decrecimiento suficiente (14a) sola no basta para asegurar
que el algoritmo haga un progreso “razonable” a lo largo de la dirección dada. No obstante, si el
algoritmo de búsqueda lineal elige sus tamaños de paso candidatos apropiadamente, empleando el
llamado procedimiento de “backtracking”, podemos prescindir de la condición (14b) y usar sólo la
condición de decrecimiento suficiente. En su forma más básica, dada unas constantes c, ρ ∈ ]0, 1[ ,
el procedimiento de “backtracking” parte de un punto inicial α = ᾱ > 0 en el cual se comprueba
si se verifica (14a). En caso contrario se toma α = ρα y se repite el proceso hasta que se cumpla
esa condición:
10
Algoritmmo 1 (Backtracking).
Elegir ᾱ > 0, ρ , c ∈ ]0, 1[. Tomar α = ᾱ .

while f (xk + α pk ) > f (xk ) + cα ∇ fkT pk :
α = ρα
return αk = α
Una longitud de paso aceptable será encontrada tras un número finito de intentos, ya que a
partir de un momento α será suficientemente pequeño (ver Figura 3). Con el procedimiento de
“backtracking” nos aseguramos de que o bien la longitud de paso sea un valor fijo en todos los
pasos (ᾱ inicial), o bien que satisfaga la condición de decrecimiento suficiente pero que no sea
“demasiado” pequeño. Normalmente se toma la longitud de paso inicial ᾱ = 1 en los métodos
de tipo Newton, donde esta estrategia es bastante utilizada. Para los métodos quasi-Newton y del
gradiente conjugado suele ser menos apropiado.
4. Convergencia de los métodos de búsqueda lineal

Para obtener convergencia global de un algoritmo, debemos no sólo elegir bien las longitudes
de paso, sino también las direcciones de búsqueda pk . En esta sección nos centraremos en los
requerimientos de las direcciones de búsqueda, fijándonos en una propiedad clave: el ángulo θk
entre pk y la dirección de descenso más rápido −∇ fk , definido por
−∇ fkT pk
cos θk = . (20)
k∇ fk kkpk k
El siguiente teorema tiene importantes consecuencias. Demuestra, por ejemplo, que el método
de descenso más rápido es globalmente convergente. Para otros algoritmos nos describe cuánto
puede desviarse pk de la dirección de descenso más rápido para seguir garantizándose la conver-
gencia global.
Teorema 8 (Zoutendijk). Consideremos un algoritmo iterativo lineal de la forma xk+1 = xk + αk pk ,
donde pk es una dirección de descenso y αk satisface las condiciones de Wolfe (14). Supongamos
que f está acotada inferiormente sobre Rn y que f ∈ C 1 (U ), donde U es un abierto que contiene
al conjunto inferior L := {x ∈ Rn | f (x) ≤ f (x0 )}, siendo x0 el punto inicial de la iteración.
Asumamos también que ∇ f (·) es Lipschitz continua sobre U ; i.e., existe λ > 0 tal que
k∇ f (x) − ∇ f (y)k ≤ λ kx − yk, ∀x, y ∈ U.
Entonces, se cumple
∞
∑ (cos2 θk )k∇ f (xk )k2 < ∞. (21)
k=0
Demostración. Por la segunda condición de Wolfe (14b) y ser xk+1 = xk + αk pk , tenemos que
(∇ fk+1 − ∇ fk )T pk ≥ (c2 − 1)∇ fkT pk .
Aplicando la condición de Lipschitz,
(∇ fk+1 − ∇ fk )T pk ≤ k∇ fk+1 − ∇ fk kkpk k ≤ λ αk kpk k2 .
11
Combinando estas dos relaciones, obtenemos

c2 − 1 ∇ fkT pk
αk ≥ .
λ kpk k2
Sustituyendo esta desigualdad en la primera condición de Wolfe (14a),

T c2 − 1 (∇ fkT pk )2
fk+1 ≤ fk − (−αk )c1 ∇ fk pk ≤ fk − c1 .
λ kpk k2
Usando la definición (20), podemos escribir esta relación como
fk+1 ≤ fk − c cos2 θk k∇ fk k2 ,
donde c = c1 (1 − c2 )/λ . Sumando esta expresión para todos los ı́ndices menores o iguales que k:
k
fk+1 ≤ f0 − c ∑ cos2 θ j k∇ f j k2 . (22)
j=0
Como f está acotada inferiormente, tenemos que f0 − fk+1 es menor que cierta constante positiva,
para todo k. Tomando lı́mites en (22), deducimos (21).
Resultados similares pueden obtenerse cuando se usan las condiciones de Goldstein (19) o las
condiciones fuertes de Wolfe (15) en lugar de las condiciones de Wolfe.
Obsérvese que las hipótesis del teorema anterior no son demasiado restrictivas. Si la función
f no estuviera acotada inferiormente, el problema de optimización no se considerarı́a “bien defi-
nido”. La hipótesis de suavidad (continuidad Lipschitz del gradiente) viene implicada por muchas
de las condiciones de convergencia local de los algoritmos más representativos.
Ejercicio 9. Sea f : Rn → R, con f ∈ C 2 (U ). Si la matriz hessiana ∇2 f está acotada sobre U ,

conjunto abierto que supondremos adicionalmente convexo, demostrar que ∇ f es Lipschitz conti-
nua en U .
Solución: Para todo x, y ∈ U se tiene que

Z 1
∇ f (y) − ∇ f (x) = ∇2 f (x + t(y − x))(y − x)dt.
0
Tomando normas, obtenemos

Z 1 Z 1
k∇ f (y) − ∇ f (x)k ≤ k∇2 f (x + t(y − x))(y − x)kdt ≤ k∇2 f (x + t(y − x))kky − xkdt.
0 0
Como ∇2 f (·) está acotada en U , existe una constante λ > 0 tal que k∇ f (z)k ≤ λ , ∀z ∈ U . Al ser
U convexo, si t ∈ [0, 1], se tiene que x + t(y − x) ∈ U , por lo que k∇2 f (x + t(y − x))k ≤ λ . Ası́,
deducimos que
Z 1
k∇ f (y) − ∇ f (x)k ≤ λ kx − ykdt = λ kx − yk.
0
12
Observación 10. En las hipótesis del Teorema 8 sólo exigimos que ∇ f sea Lipschitz continua en
U , no pedimos que lo sea en todo el espacio. Por ejemplo, para la función f (x) = x4 , se tiene que
|∇ f (x) − ∇ f (y)| = 4|x3 − y3 | = 4|x2 + xy + y2 | |x − y|.
La expresión |x2 + xy + y2 | no está acotada sobre la recta real; sin embargo sı́ lo está sobre el
conjunto U , ver Figura 7.
4
f(x) =x
U
L =[ |x |,|x |]
0 0
x0
Figura 7: ∇ f es Lipschitz continua en U sin serlo en todo el espacio.
La propiedad (21), llamada condición de Zoutendijk, implica que
cos2 θk k∇ f (xk )k2 → 0. (23)
Este lı́mite puede usarse para derivar resultados de convergencia global para los algoritmos de
búsqueda lineal. Si nuestro método de elección de pk asegura que el ángulo θk está acotado supe-
riormente, y que esta cota θ es menor de 90◦ , existirá una contante positiva δ tal que
cos θk ≥ cos θ = δ > 0, para todo k. (24)
Se sigue entonces de (23) que

lı́m k∇ f (xk )k = 0. (25)
k→∞
En otras palabras, podemos asegurar que ∇ f (xk ) → 0n siempre que las direcciones de búsqueda
se mantengan “uniformemente” apartadas de la ortogonalidad con el gradiente. En particular, el
método de descenso más rápido (en el que θk = 0 para todo k) cumple trivialmente esta condición,
y produce una sucesión de puntos xk tales que ∇ f (xk ) convergen a 0n , siempre que las búsquedas
lineales satisfagan las condiciones de Wolfe (14) (o las de Goldstein (19)).
La condición (25) se conoce como convergencia global, y el Teorema de Zoutendijk es un
resultado de convergencia global, en cuanto que la validez del resultado no depende de dónde
se ubique el punto de partida x0 . No obstante, es importante observar que el resultado no nos
garantiza que el método converja a un mı́nimo, sino a un punto estacionario. Sólo introduciendo
requerimientos adicionales en las direcciones de búsqueda pk podrı́amos fortalecer el resultado
para obtener la convergencia a un mı́nimo local.
13
Obsérvese que, si L = {x ∈ Rn | f (x) ≤ f (x0 )} es acotado, como {xk } ⊂ L , existirá una
subsucesión convergente a un punto x∗ ∈ L . Para abreviar notación, supondremos que es la propia
sucesión {xk } la que converge a x∗ . Como f ∈ C 1 (U ) y L ⊂ U ,
∇ f (x∗ ) = ∇ f ( lı́m xk ) = lı́m ∇ f (xk ) = 0n ,

k→∞ k→∞
y x∗ será un punto estacionario.
4.1. Métodos del gradiente

Consideremos ahora métodos del gradiente del tipo
pk = −B−1
k ∇ fk , (26)
donde Bk son matrices simétricas definidas positivas con un número de condición1 uniformemente
acotado, es decir, existe una constante M > 0 tal que
cond(Bk ) = kBk kkB−1

k k ≤ M, para todo k.
En este caso, vamos a ver que

1
cos θk ≥
, ∀k, (27)
M
por lo que ∇ fk → 0. En efecto, si λ1 (Bk ) y λn (Bk ) son el menor y el mayor valor propio de Bk
respectivamente, se tiene que
1
∇ fkT pk ∇ fkT B−1 k∇ fk k2 λn (B
k ∇ fk k)
cos θk = − = −1
≥ −1
k∇ fk kkpk k k∇ fk kkBk ∇ fk k k∇ fk kkBk ∇ fk k
1
k∇ fk k λn (B 1 1 1
k)
≥ = = ≥ .
kB−1
k kk∇ f k k
λn (Bk ) cond(Bk ) M
λ1 (Bk )
En la primera desigualdad hemos usado el hecho de que para toda matriz A simétrica, se tiene que2
λ1 (A)kzk2 ≤ zT Az ≤ λn (A)kzk2.
5. Tasa de convergencia
El mero hecho de que una sucesión {xk } converja a un punto estacionario x∗ no servirı́a de nada
en la práctica a menos que los puntos xk estuvieran relativamente cerca de x∗ tras “relativamente
pocas” iteraciones. Ası́, el estudio de la tasa de convergencia es el criterio predominante a la hora
de seleccionar un algoritmo con respecto de otros para la resolución de un problema.
Hay diferentes criterios a la hora de cuantificar la tasa de convergencia de un algoritmo.
Podrı́amos estudiar la complejidad computacional del algoritmo; bien estimando el número de
operaciones elementales necesarias para encontrar una solución exacta o con una tolerancia de
ε > 0, o bien analizando el número de evaluaciones de la función (y posiblemente del gradiente)
del algoritmo. El problema de este método es que en su análisis se considera el peor caso posible, y
1
Ver Sección 15.1
2 Para demostrarlo, representar z en función de una base ortonormal de vectores propios de A.
14
se ha demostrado que en la práctica, algoritmos “malos” en cuanto a complejidad tenı́an un mejor
comportamiento que otros calificados como “mejores”. Esto ocurre porque los casos en los que
estos primeros algoritmos se comportaban mal, son improbables en modelos reales.
Vamos a centrarnos pues en el análisis local del algoritmo. Sus principales caracterı́sticas son
las siguientes:
Nos restringiremos a sucesiones {xk } que convergen a un único punto lı́mite x∗ .
La tasa de convergencia es evaluada usando una función de error e : Rn → R+ tal que e(x∗ ) =
0. Elecciones tı́picas son:
• e(x) = kx − x∗ k (distancia Euclı́dea);

• e(x) = | f (x) − f (x∗ )| (diferencia en el coste).
Queremos ver lo “rápido” que {xk } converge a x∗ , o lo “rápido” que lo hace { f (xk )} a f (x∗ ).
Puede ocurrir que nos aproximemos rápido al valor de la función f (x∗ ) sin que lo hagamos
al punto x∗ , como podemos ver en la Figura 8.

f(xk )
f(x )
xk x
Figura 8: xk está lejos de x∗ pese a estar f (xk ) cerca de f (x∗ ).
Nuestro análisis es asintótico; esto es, atendemos a la tasa de convergencia de la cola de la

sucesión de errores {e(xk )}.
Definición 11. Diremos que {e(xk )} converge linealmente si existe una constante β ∈ ]0, 1[ tal que
e(xk+1 )
lı́m sup ≤ β. (28)
k→∞ e(xk )
Cuando esta última desigualdad es válida para todo β ∈ ]0, 1[ , es decir, si
e(xk+1 )
lı́m = 0,
k→∞ e(xk )
diremos que {e(xk )} converge superlinealmente. Si la sucesión {e(xk )} converge pero la desigual-
dad (28) no se verifica para ningún β ∈ ]0, 1[ , diremos que {e(xk )} converge sublinealmente.
15
Para refinar la noción de convergencia superlineal, establecemos la siguiente definición:
Definición 12. Se dice que {e(xk )} converge superlinealmente con orden p, con p > 1, cuando
e(xk+1 )
lı́m sup < ∞. (29)
k→∞ e(xk ) p
El caso p = 2 se conoce como convergencia cuadrática.
Observación 13. Una sucesión que converge sublinealmente es considerada en la práctica como
no convergente: la convergencia puede ser tan lenta que un algoritmo con esta tasa no debe ser
utilizado.
Ejercicio 14. Probar que la convergencia lineal implica convergencia geométrica, i.e., existen
unas constantes q > 0 y β ′ ∈ ]0, 1[ tales que
e(xk ) ≤ q(β ′ )k , ∀k. (30)
Demostrar que en general el recı́proco no es cierto.
Solución: Efectivamente, dado β ∈ ]0, 1[ verificando (28), si tomamos β ′ ∈ ]β , 1[ , existe k0 tal que
e(xk+1 )
≤ β ′, para todo k ≥ k0 .
e(xk )
Despejando se obtiene
e(xk0 +p ) ≤ (β ′ ) p e(xk0 ), ∀p.
Sea q ≥ máx{e(xk )/(β ′ )k , k = 1, 2, . . ., k0 }. Se verificará, entonces,
e(xk ) ≤ q(β ′ )k , k = 1, 2, . . ., k0 ,
y reemplazando en la desigualdad anterior
e(xk0 +p ) ≤ (β ′ ) p e(xk0 ) ≤ q(β ′ )k0 +p , ∀p,
y por consiguiente se verifica (30).

La implicación contraria no es cierta: la convergencia geométrica no implica convergencia
lineal. Como ejemplo, sea e(x2p ) = β 3p+1 , e(x2p+1 ) = β 2p+1 , con β ∈ ]0, 1[ . Se tiene que e(xk ) ≤
β k , pero
e(xk+1 ) e(x2p+1 ) β 2p+1 1
lı́m sup = lı́m = lı́m 3p+1 = lı́m p = ∞,
k→∞ e(xk ) p→∞ e(x2p ) p→∞ β p→∞ β
y por tanto {e(xk )} no converge linealmente.
La relación e(xk+1 ) ≤ β ′ e(xk ), ∀k ≥ k0 , significa que, asintóticamente, el error se reduce en

cada iteración por un factor que es, por lo menos, β ′ ∈ ]β , 1[ . Es por ello que se denomina conver-
gencia lineal, ver Figura 9.
16
y=
x
e(xk +1)
e(xk +2)
e(xk +3)
… e(xk +2) e(xk +1) e(xk )
Figura 9: Convergencia lineal.
De acuerdo con la definición de lı́m sup es evidente que (29) es equivalente a

e(xk+1 ) = O(e(xk ) p ),
es decir, existe q > 0 tal que e(xk+1 ) ≤ qe(xk ) p , ∀k. De ello se deduce la interpretación geométrica
que se muestra a continuación en la Figura 10.
y = qxp
e(xk +1)
e(xk +2)
… e(xk +1) e(xk )
Figura 10: Convergencia superlineal de orden p > 1.
Es fácil probar que la convergencia superlineal de orden p implica convergencia superlineal:

supongamos que
e(xk+1 )
lı́m sup p
< M,
k→∞ e(xk )
para cierto M > 0. Entonces existe un k0 tal que
e(xk+1 )
≤ M, para todo k ≥ k0 ,
e(xk ) p
17
o, equivalentemente,
e(xk+1 )
≤ Me(xk ) p−1 , para todo k ≥ k0 .
e(xk )
Tomando supremos a ambos lados, tenemos que
e(xk+1 )
sup ≤ sup Me(xk ) p−1 ,
k≥n e(xk ) k≥n
para todo n ≥ k0 . Como p > 1 y e(xk ) converge a cero, tomando lı́mite cuando n → ∞ en la
expresión anterior obtenemos finalmente que
e(xk+1 ) e(xk+1 )
lı́m sup = lı́m sup ≤ lı́m sup Me(xk ) p−1 = lı́m Me(xk ) p−1 = 0,
k→∞ e(xk ) n→∞ k≥n e(xk ) n→∞ k≥n k→∞
por lo que lı́mk→∞ e(xk+1 )/e(xk ) = 0.

Ejercicio 15. Hallar la tasa de convergencia de las siguientes sucesiones de errores:
1
1. e(xk ) = ;
k
k
2. e(xk ) = (0,5)2 ;
1
3. e(xk ) = .
k!
Solución:
1. La tasa de convergencia es sublineal, puesto que
e(xk+1 ) k
lı́m sup = lı́m = 1.
k→∞ e(xk ) k→∞ k + 1
La sucesión no converge geométricamente. De ser ası́, existirı́a q > 0 y β ∈ ]0, 1[ tales que
e(xk ) ≤ qβ k , ∀k. Por lo que
1
≤ kβ k , ∀k. (31)
q
Pero aplicando L’Hôpital, deducimos que
x 1 1
lı́m −x = lı́m −x
=− lı́m β x = 0,
x→∞ β x→∞ (− log β )β log β x→∞
obteniendo una contradicción con (31).
2. La tasa de convergencia es cuadrática:
k+1
e(xk+1 ) (0,5)2
lı́m sup 2
= lı́m = 1.
k→∞ e(xk ) k→∞ (0,5)2k 2
3. La tasa de convergencia es superlineal, ya que

e(xk+1 ) k! 1
lı́m sup = lı́m = lı́m = 0.
k→∞ e(xk ) k→∞ (k + 1)! k→∞ k + 1
Sin embargo, no converge cuadráticamente:

e(xk+1 ) (k!)2 k!
lı́m sup = lı́m = lı́m = ∞.
k→∞ e(xk )2 k→∞ (k + 1)! k→∞ k + 1
18
6. Análisis del modelo cuadrático
Podemos aprender mucho acerca de la tasa de convergencia de los métodos del gradiente cuan-
do estudiamos el caso ideal: cuando la función de coste es cuadrática. Si la función no es cuadrática
pero es dos veces continuamente diferenciable y x∗ es un mı́nimo local no singular, por el teorema
de Taylor, f podrá ser aproximada de forma precisa cerca de x∗ mediante la función cuadrática
1
f (x∗ ) + (x − x∗ )T ∇2 f (x∗ )(x − x∗ ),
2
por lo que “esperaremos” que los resultados asintóticos de convergencia obtenidos para el caso
cuadrático tengan resultados análogos para el caso general. Esta conjetura puede de hecho ser
demostrada y ha sido corroborada mediante una abundante experimentación numérica.
Supongamos pues que f es una función cuadrática con una matriz hessiana Q (simétrica) defi-
nida positiva. Podemos suponer, sin pérdida de generalidad3 , que f alcanza su mı́nimo en x∗ = 0 y
que f (x∗ ) = 0. Ası́ tenemos
1
f (x) = xT Qx, ∇ f (x) = Qx, ∇2 f (x) = Q. (32)
2
6.1. Método del descenso más rápido

Para el modelo cuadrático (32), el método de descenso más rápido toma la forma
xk+1 = xk − αk ∇ f (xk ) = (I − αk Q)xk .
Por tanto,

kxk+1 k2 = xTk (I − αk Q)2 xk ≤ máx. valor propio de (I − αk Q)2 kxk k2 .
Los valores propios de (I − α Q)2 son (1 − αk λi )2 , donde λ1 , . . ., λn son los valores propios de Q.
Si denotamos por m y M el valores propio más pequeño y más grande, respectivamente, tendremos
que
máx. valor propio de (I − αk Q)2 = máx{(1 − αk m)2 , (1 − αk M)2 }.
Se sigue pues que, para xk 6= 0n ,
kxk+1 k
≤ máx{|1 − αk m|, |1 − αk M|}. (33)
kxk k
El valor de αk que minimiza esta cota es

2
α∗ = ,
M +m
según se desprende de la Figura 11:
3 Sif (x) = 12 xT Qx − bT x + c, el mı́nimo x∗ vendrá dado por Qx∗ = b. Entonces, haciendo el cambio z = x − x∗ ,
1 1
g(z) := 12 zT Qz = 12 (x − x∗ ) T Q (x − x∗ ) = xT Qx − (x∗ )T Qx + (x∗ )T Qx∗ − c = f (x) − f (x∗ ).
| {z } | {z } |2 {z } |2 {z }
z z
f (x) − f (x∗ )
19

max 1 | m,1 M
| | |
M m
M +m
|1 M | 1
| m
|
1 2 2 1
M M +m M m
longitudes de paso que
garantizan la convergencia
Figura 11: La cota se minimiza cuando 1 − α m = α M − 1, i.e., en α ∗ = 2/(M + m).
En este caso,
M
kxk+1 k M − m m −1 cond(Q) − 1
≤ = M = . (34)
kxk k M +m m +1 cond(Q) + 1
Esta es la mejor cota a la tasa de convergencia para el método de descenso más rápido con tamaño
de paso constante. Obsérvese que, gracias a (33), la convergencia está garantizada para cualquier
longitud de paso αk tal que
máx{|1 − αk m|, |1 − αk M|} < 1,
esto es, para todo αk ∈ ]0, 2/M[ (ver Figura 11).
Existe otro resultado interesante relativo a la tasa de convergencia del método del descenso más
rápido cuando αk es elegido mediante una búsqueda lineal exacta. Este resultado cuantifica la tasa
a la que desciende la función de coste:

f (xk+1 ) M −m 2 cond(Q) − 1 2
≤ = . (35)
f (xk ) M +m cond(Q) + 1
Observación 16. A partir de (34) y (35) podemos ver que el método de descenso más rápido puede
converger muy despacio cuando el número de condicionamiento de Q es grande. Si cond(Q) ≈ 1,
la convergencia será buena. En el mejor de los casos, cuando cond(Q) = 1, llegamos al óptimo en
una etapa. Obsérvese que, al ser (34) y (35) menor que 1, la tasa de convergencia será lineal.
Para demostrar (35) haremos uso del siguiente resultado:
Lema 17 (Desigualdad de Kantorovich). Sea Q una matriz n × n simétrica y definida positiva.
Entonces, para todo y 6= 0n , se tiene
(yT y)2 4Mm

−1
≥ , (36)
(y Qy)(y Q y) (M + m)2
T T
donde M y m son el mayor y el menor valor propio de Q, respectivamente.

Demostración. Sean λ1 , . . ., λn los valores propios de Q, y asumamos que
0 < m = λ1 ≤ λ2 ≤ . . . ≤ λn = M.
20
Sea S una matriz formada por los n vectores (columna) ortonormales asociados a λ1 , . . ., λn . En-
tonces, ST QS es una matriz diagonal, con λ1 , . . . , λn en la diagonal. Por consiguiente, podemos
suponer sin pérdida de generalidad4 que Q es una matriz diagonal, con elementos de la diagonal
λ1 , . . . , λn . Ası́, para todo y = (y1 , . . . , yn )T 6= 0n ,
2
(yT y)2 ∑ni=1 y2i
= 2 .
(yT Qy)(yT Q−1 y) n
λ
∑i=1 i i
y 2 n yi
∑i=1 λi
Consideremos la función convexa φ (λ ) = 1/λ y sea ξ = (ξ1 , . . . , ξn )T , donde
y2j
ξ j := , j = 1, . . . , n.
∑ni=1 y2i
Entonces tenemos que
(yT y)2 1
= . (37)
(yT Qy)(yT Q−1 y) n
λ ξ n
∑i=1 i i ∑i=1 φ ( λ ) ξ
i i
Sea
n n
λ := ∑ λi ξi , λφ := ∑ φ (λi )ξi .
i=1 i=1
Como ξi ≥ 0 y ∑ni=1 ξi = 1, tendremos que λ1 ≤ λ ≤ λn . Supongamos que λ1 6= λn (en caso con-
trario (37) es igual a 1 y se verifica (36) con igualdad). Cada λi se puede representar como una
combinación convexa de λ1 y λn :
λi − λn λ1 − λi
λi = λ1 + λn .
λ1 − λn λ1 − λn
Por la convexidad de φ se tiene que
λi − λn λ1 − λi
φ (λi ) ≤ φ (λ1 ) + φ (λn ).
λ1 − λn λ1 − λn
Por tanto,
n n
λi − λn λ1 − λi λ1 + λn − λi λ1 + λn − λ
λφ ≤ ∑ φ (λ1 ) + φ (λn) ξi = ∑ ξi = ,
i=1 λ1 − λn λ1 − λn i=1 λ1 λn λ1 λn
y de (37) se sigue que
(yT y)2 1 λ1 λn
T T −1
= ≥
(y Qy)(y Q y) λ λφ λ (λ1 + λn − λ )
λ1 λn 4λ 1 λ n
≥ = ,
máxλ ∈[λ1 ,λn ] {λ (λ1 + λn − λ )} (λ1 + λn )2
lo que concluye la demostración.

4 Haciendo una transformación en el sistema de coordenadas que reemplace y por Sx.
21
Proposición 18. Sea f (x) = 12 xT Qx, con Q simétrica y definida positiva. Consideremos el método
del descenso más rápido
xk+1 = xk − αk ∇ f (xk ),
donde αk es elegido por búsqueda lineal exacta, satisfaciendo pues
f (xk − αk ∇ f (xk )) = mı́n f (xk − α ∇ f (xk )). (38)

α ≥0
Entonces, 2
M −m
f (xk+1 ) ≤ f (xk ), ∀k, (39)
M +m
donde M y m son el mayor y el menor valor propio de Q, respectivamente.
Demostración. Denotemos
gk := ∇ f (xk ) = Qxk .
El resultado se verifica de forma obvia si gk = 0n (ya que xk+1 = xk = 0n ), por lo que supondremos
gk 6= 0n . Comencemos calculando el tamaño de paso que minimiza (38):
d
f (xk − α gk ) = −gTk Q(xk − α gk ) = −gTk gk + α gTk Qgk .
dα
Igualando esta derivada a cero, obtenemos:
gTk gk
αk = T .
gk Qgk
Entonces,
gk
1 1 z}|{
f (xk+1 ) = (xk − αk gk )T Q(xk − αk gk ) = (xTk Qxk − 2αk gTk Qxk +αk2 gTk Qgk )
2 2

1 T (gTk gk )2
= x Qxk − .
2 k gk Qgk
En base al hecho de que
1 1
f (xk ) = xTk Qxk = gTk Q−1 gk ,
2 2
se deduce, aplicando el Lema 17,

(gTk gk )2
f (xk+1 ) = 1 − f (xk )
(gk Qgk )(gk Q−1 gk )

4Mm M −m 2
≤ 1− f (xk ) = f (xk ),
(M + m)2 M +m
y la prueba está completa.
Es posible ver que las cotas (34) y (39) son “ajustadas”, en el sentido de que se alcanza la
igualdad para ciertos puntos iniciales (ejemplo5 : f (x) = 21 ∑ni=1 λi x2i , donde 0 < λ1 ≤ . . . ≤ λn ,
tomando x0 = (λ1−1 , 0, . . ., 0, λn−1 )T ).
5 Cualquier función cuadrática definida positiva puede expresarse en esta forma. Los detalles de este ejemplo apa-
recen en [4, pág. 68].
22
6.2. Métodos del gradiente
Consideremos el siguiente método:
xk+1 = xk − αk B−1
k ∇ f (xk ), (40)
donde Bk es simétrica y definida positiva. Vamos a ver que es posible hacer un cambio de variables
para transformar este tipo de algoritmos en el del descenso más rápido.
Realizamos un cambio de variable x = Sy, donde6
S = (B−1
k )
1/2
.
En el espacio de las variables y, el problema puede escribirse como
Min h(y) ≡ f (Sy)

s.a y ∈ Rn .
El método del descenso más rápido aplicado a este problema toma la forma
yk+1 = yk − αk ∇h(yk ). (41)
Multiplicando por S, obtenemos
Syk+1 = Syk − αk S∇h(yk ).
Como ∇h(yk ) = S∇ f (xk ) y S2 = B−1

k , se tiene que
xk+1 = xk − αk B−1
k ∇ f (xk ).
Ası́ pues, el método del gradiente (40) no es otra cosa que el método del descenso más rápido (41)
en el espacio de las variables y.
Apliquemos, en consecuencia, los resultados obtenidos para el método del descenso más rápido
a la iteración reescalada (41). Obtenemos:
kyk+1 k
≤ máx{|1 − αk mk |, |1 − αk Mk |}, (42)
kyk k
y
2
f (xk+1 ) h(yk+1 ) Mk − mk
= ≤ , (43)
f (xk ) h(yk ) Mk + mk
donde mk y Mk son el menor y el mayor valor propio de ∇2 h(y), respectivamente, cuyo valor viene
dado por
−1/2 −1/2
∇2 h(y) = S∇2 f (x)S = Bk QBk .
1/2
Usando la relación yk = S−1 xk = Bk xk , se deduce de (42)
xTk+1 Bk xk+1
T ≤ máx{(1 − αk mk )2 , (1 − αk Mk )2 }.
xk Bk xk
6 SiA es una matriz simétrica semidefinida positiva, con valores propios λ1 , . . . , λn y una base de vectores propios
1/2
ortonormales asociada u1 , . . . , un , entonces A1/2 := ∑ni=1 λi ui uTi es una matriz simétrica (e invertible si lo es A) que
1/2 1/2
verifica A A = A.
23
El tamaño de paso que minimiza esta cota es
2
. (44)
Mk + mk
El punto importante a tener en cuenta es que si Mk /mk es mucho más grande que la unidad, la tasa
de convergencia puede ser muy lenta, incluso si un tamaño de paso óptimo es considerado.
Observación 19. Si Bk es una “buena aproximación” de ∇2 f (x) = Q, se tendrá que
−1/2 −1/2 −1/2 −1/2 −1/2 1/2 1/2 −1/2
∇2 h(y) = Bk QBk ≈ Bk Bk Bk = Bk (Bk Bk )Bk = I.
En este caso, cabe esperar que mk ≈ 1 ≈ Mk . Además, el tamaño de paso αk = 1 es “casi” óptimo,
de acuerdo con (44).
6.3. Caso general: funciones no cuadráticas

Es posible demostrar resultados de convergencia similares a los probados para el modelo
cuadrático, cuando la función f es dos veces continuamente diferenciable. La demostración de
éstos involucra la repetición de las pruebas realizadas para los modelos cuadráticos, aunque los
detalles son más complicados.
En general, no esperamos que la tasa de convergencia mejore si realizamos una búsqueda
inexacta del tamaño de paso, por lo que la Proposición 18 nos muestra que el método de descenso
más rápido puede tener una tasa de convergencia “inaceptablemente” lenta, incluso cuando la ma-
triz hessiana está “razonablemente” bien condicionada. Por ejemplo, si cond(Q) = 800, f (x0 ) = 1
y f (x∗ ) = 0, debido a (35), el valor de la función podrı́a ser superior a 0, 08 tras 500 iteraciones del
método de descenso más rápido.
7. Resultados sobre la tasa de convergencia

7.1. Convergencia superlineal de los métodos quasi-Newton
La proposición siguiente prueba que puede obtenerse convergencia superlineal cuando la direc-
ción pk aproxima a la dirección de Newton −(∇2 f (x∗ ))−1∇ f (xk ) y el método de “backtracking”
es aplicado.
Proposición 20 (Convergencia superlineal de los métodos quasi-Newton).
Sea f dos veces continuamente diferenciable. Consideremos una sucesión {xk } generada por el
método de búsqueda lineal xk+1 = xk + αk pk , y supongamos que
xk → x∗ , ∇ f (x∗ ) = 0n y ∇2 f (x∗ ) es definida positiva. (45)
Asumamos también que ∇ f (xk ) 6= 0n , ∀k, y que
kpk + (∇2 f (x∗ ))−1 ∇ f (xk )k
lı́m = 0. (46)
k→∞ k∇ f (xk )k
Entonces, si αk es elegido por el método de “backtracking” con ᾱ = 1 y c < 1/2, tendremos
kxk+1 − x∗ k
lı́m = 0. (47)
k→∞ kxk − x∗ k
Además, existe un entero k0 ≥ 0 tal que αk = 1, ∀k ≥ k0 .
24
Demostración. Probaremos, en primer lugar, que existe un k0 ≥ 0 tal que
f (xk + pk ) − f (xk ) ≤ c∇ f (xk )T pk , ∀k ≥ k0 ; (48)
i.e., el valor ᾱ = 1 “pasa” el test de la regla de Armijo. Por el teorema de Taylor, tenemos
1
f (xk + pk ) − f (xk ) = ∇ f (xk )T pk + pTk ∇2 f (x̄k )pk ,
2
donde x̄k ∈ [xk , xk + pk ]. Por lo tanto, será suficiente probar que, para k suficientemente grande, se
tiene
1
∇ f (xk )T pk + pTk ∇2 f (x̄k )pk ≤ c∇ f (xk )T pk . (49)
2
Definiendo
∇ fk pk
g̃k := y p̃k := ,
k∇ fk k k∇ fk k
la ecuación (49) toma la forma
1
(1 − c)g̃Tk p̃k + p̃Tk ∇2 f (x̄k ) p̃k ≤ 0. (50)
2
De la ecuación (46) se deduce
p̃k + (∇2 f (x∗ ))−1 g̃k → 0n . (51)
Como kg̃k k = 1, ∀k, es evidente que {pk } es una sucesión acotada:
k p̃k + (∇2 f (x∗ ))−1 g̃k k ≥ k p̃k k − k(∇2 f (x∗ ))−1 g̃k k ≥ k p̃k k − k(∇2 f (x∗ ))−1kkg̃k k.
Al ser ∇ f continua, ∇ f (xk ) → ∇ f (x∗ ) = 0n , por lo que deberá ser pk → 0n . De ahı́ se deduce
xk + pk → x∗ , y por lo tanto, x̄k → x∗ , lo que a su vez conlleva ∇2 f (x̄k ) → ∇2 f (x∗ ), pues f ∈ C 2 .
Sea bk := p̃k + (∇2 f (x∗ ))−1 g̃k . Entonces (51) implica bk → 0n . Teniendo en cuenta que p̃k =
−(∇2 f (x∗ ))−1 g̃k + bk , escribimos (50) como
1
−(1 − c)g̃Tk − (∇2 f (x∗ ))−1 g̃k + bk ≥ p̃Tk ∇2 f (x̄k ) − ∇2 f (x∗ ) p̃k
2
1
+ − g̃Tk (∇2 f (x∗ ))−1 + bTk ∇2 f (x∗ ) − (∇2 f (x∗ ))−1g̃k + bk ,
2
o, equivalentemente,

1 1
− c g̃Tk (∇2 f (x∗ ))−1 g̃k ≥(1 − c)g̃Tk bk + p̃Tk ∇2 f (x̄k ) − ∇2 f (x∗ ) p̃k
2 2
1
− g̃Tk bk + bTk ∇2 f (x∗ )bk .
2
Llamemos γk a la parte derecha de la anterior desigualdad, esto es,
1 1
γk := −cg̃Tk bk + p̃Tk ∇2 f (x̄k ) − ∇2 f (x∗ ) p̃k + bTk ∇2 f (x∗ )bk .
2 2
Ası́, llegamos a que la desigualdad (49) es equivalente a

1
− c g̃Tk (∇2 f (x∗ ))−1 g̃k ≥ γk . (52)
2
25
Como ∇2 f (x̄k ) → ∇2 f (x∗ ), se tendrá pues que γk → 0. Por otra parte, al ser (∇2 f (x∗ ))−1 definida
positiva, se tiene que
1 1
g̃Tk (∇2 f (x∗ ))−1 g̃k ≥ kg̃k k2 = ,
M M
2 ∗
donde M es el mayor valor propio de ∇ f (x ), y por consiguiente, se verifica (52) para k suficien-
temente grande, pues c < 1/2 y γk → 0. Esto concluye la demostración de (48).
Para completar la prueba observamos que, a partir de (46), se tiene que
pk + (∇2 f (x∗ ))−1 ∇ f (xk ) = k∇ f (xk )kqk , (53)
donde qk → 0n . A partir del teorema de Taylor (aplicado a ∇ f ) se tiene
∇ f (xk ) = ∇ f (x∗ ) +∇2 f (x∗ )(xk − x∗ ) + o(kxk − x∗ k), (54)

| {z }
0n
y de ahı́,

∗ ∗ ∗ ∗ o(kxk − x∗ k)
2 2
k∇ f (xk )k ≤ k∇ f (x )kkxk − x k + o(kxk − x k) = k∇ f (x )k + kxk − x∗ k,
kxk − x∗ k
es decir,
∇ f (xk ) = O(kxk − x∗ k).
A partir de (54) también obtenemos
(∇2 f (x∗ ))−1 ∇ f (xk ) = xk − x∗ + o(kxk − x∗ k).
Usando estas dos últimas relaciones en (53), resulta
pk + xk − x∗ = O(kxk − x∗ k)qk + o(kxk − x∗ k) = o(kxk − x∗ k),
pues qk → 0n . Por otra parte, hemos demostrado al principio que para k suficientemente grande,
xk+1 = xk + pk , y ası́
xk+1 − x∗ = o(kxk − x∗ k),
lo que implica (47) y concluye la demostración.
En particular vemos que el método de Newton combinado con el algoritmo “backtracking”
con ᾱ = 1, converge superlinealmente cuando converge a un mı́nimo local x∗ tal que ∇ f (x∗ ) es
definida positiva.
Si pk es una dirección de búsqueda quasi-Newton del tipo pk = −B−1
k ∇ f k , entonces (46) es
equivalente a
∇f
(∇2 f (x∗ ))−1 − B−1 ∇ fk k
k 2 ∗ −1 −1 .
0 = lı́m = lı́m (∇ f (x )) − Bk
k→∞ k∇ fk k k→∞ k∇ fk k
Ejercicio 21. Demostrar que si x∗ es un mı́nimo local no singular (i.e., ∇ f (x∗ ) = 0n y ∇2 f (x∗ ) es
definida positiva) y f ∈ C 2 , entonces ∇ f (x) 6= 0n en un entorno de x∗ .
26
Solución: Veamos primero que, por continuidad de ∇2 f , existirá un entorno U abierto convexo de
x∗ tal que ∇2 f (x) es definida positiva ∀x ∈ U . Efectivamente,

pT ∇2 f (x)p = pT ∇2 f (x∗ )p + pT ∇2 f (x) − ∇2 f (x∗ ) p ≥ λ1 − k∇2 f (x) − ∇2 f (x∗ )k kpk2 ,
donde λ1 es el menor valor propio de ∇2 f (x∗ ). Por continuidad de ∇2 f , existirá un entorno con-
vexo U de x∗ tal que k∇2 f (x) − ∇2 f (x∗ )k < λ1 , ∀x ∈ U , y por tanto ∇2 f (x) será definida positiva
∀x ∈ U .
Supongamos, por reducción al absurdo, que existe un x̂ ∈ U \ {x∗ } tal que ∇ f (x̂) = 0n . Como
Z 1
∗
∇ f (x̂) − ∇ f (x ) = ∇2 f (x∗ + t(x̂ − x∗ ))(x̂ − x∗ )dt,
0
multiplicando por (x̂ − x∗ )T , obtenemos

Z 1
∗ T
0 = (x̂ − x ) 0n = (x̂ − x∗ )T ∇2 f (x∗ + t(x̂ − x∗ ))(x̂ − x∗ )dt > 0,
0 | {z } | {z }
6=0n definida positiva:
U convexo, x∗ ,x̂∈U
llegando ası́ a una contradicción.
8. El método de Newton y sus variaciones

El método de Newton, en su forma pura, genera las sucesivas iteraciones mediante la fórmula
−1
k+1 k 2 k
x = x − ∇ f (x ) ∇ f (xk ), (55)
asumiendo que la llamada dirección de Newton

−1
dkN := − ∇2 f (xk ) ∇ f (xk ), (56)
esté definida y sea de ‘descenso’, es decir, ∇ f (xk )T dkN < 0.

El análisis del método de Newton tiene dos facetas:
1. Convergencia local, del método ‘puro’ cuando x0 está suficientemente próximo a un mı́nimo
local no singular.
2. Convergencia global, que analiza las modificaciones que son necesarias para asegurar la con-
vergencia del algoritmo a algún mı́nimo local independiente de la ubicación del punto de
arranque x0 .
Comenzaremos por afirmar que cuando el número de variables n es grande, el cómputo de

−1
∇2 f (xk ) es de elevado coste.
27
8.1. Convergencia local
Discutiremos las propiedades de la tasa de convergencia local del método de Newton, en su
forma pura.
Si x está suficientemente próximo a un punto x∗ tal que ∇2 f (x∗ ) es definida positiva, el hessiano
∇2 f (x) también será definido positivo. Entonces, el método de Newton puro estará bien definido
en esta región, y convergerá cuadráticamente.
Teorema 22. Supongamos que ∇2 f es Lipschitz continua en la bola cerrada B(x∗ ; β ), siendo x∗ un
punto en el que se satisfacen las condiciones suficientes de optimalidad. Consideremos la iteración
xk+1 = xk + dNk , donde d k = dkN ha sido definida en (56). Entonces, se cumplen las siguientes
propiedades:
1) Si el punto
k inicial x0 está suficientemente próximo a x∗ , la sucesión de puntos generada por
∞
el algoritmo x k=0 converge a x∗ con tasa de convergencia es cuadrática.
2) La sucesión {k∇ fk k}∞k=0 converge cuadráticamente a cero.
Demostración. 1) A partir de la definición de dkN y de la condición de optimalidad de 1er orden
∇ f (x∗ ) = 0n , tendremos:
xk + dkN − x∗ = xk − x∗ − (∇2 fk )−1 ∇ fk (57)
2
−1 n 2 k ∗
o
= ∇ fk ∇ fk x − x − (∇ fk − ∇ f∗ ) ,
donde ∇2 fk ≡ ∇2 f (xk ), ∇ fk ≡ ∇ f (xk ), y ∇ f∗ ≡ ∇ f (x∗ ).

Puesto que
Z 1
∇ fk − ∇ f∗ = ∇2 f x∗ + t xk − x∗ xk − x∗ dt,
0
se tiene

2 k ∗
∇ fk x − x − (∇ fk − ∇ f∗ ) (58)
Z 1 h i
∗ ∗ ∗

= 2 2
∇ fk − ∇ f x + t x − x k
x − x dt
k
0

Z 1
2 2 ∗ k ∗ k ∗
≤ ∇ f k − ∇ f x + t x − x x − x dt
0
2 Z 1 1 2
k ∗
≤ x − x L (1 − t) dt = L xk − x∗ ,
0 2
si xk ∈ B(x∗ ; β ) y donde L es la constante de Lipschitz para ∇2 f (x) en dicho entorno de x∗ .
−1
Puesto que ∇2 f (x) es continua; podemos tomar β suficientemente pequeño para garantizar
−1 −1
2
∇ f (x) ≤ 2 ∇2 f (x∗ ) (59)
para todo x ∈ B(x∗ ; β ).

Si xk ∈ B(x∗ ; β ), y sustituyendo en (57) y (58) se obtiene:

k+1
x − x∗ = xk + dkN − x∗ (60)
2
2 ∗ −1 k ∗
≤ L ∇ f (x ) x − x
2

= L̃ xk − x∗
28

2 ∗ −1
donde L̃ := L ∇ f (x ) .
Tomemos β suficientemente pequeño para que, además de (59) se cumpla que β L̃ < 1. Enton-
ces

k+1 ∗ k ∗ k ∗
x − x ≤ L̃ x − x x − x

k ∗ k ∗
≤ β L̃ x − x ≤ x − x ≤ β ,
donde la antepenúltima desigualdad se deduce k de que xk ∈ B(x∗ ; β ).

∞
Por lo tanto, si x ∈ B(x ; β ), se tendrá x k=0 ∈ B(x∗ ; β ), y además
0 ∗

k+1
x − x∗ ≤ β L̃ xk − x∗

≤ (β L̃)k+1 x0 − x∗ ,
de donde se desprende que xk → x∗ . De (60) se deuce la convergencia cuadrática.

2) Teniendo en cuenta las relaciones xk+1 − xk = dkN , y ∇ fk + (∇2 fk )dkN = 0n , obtenemos:

∇ f (xk+1 ) = ∇ f (xk+1 ) − ∇ f (xk ) − ∇2 f (xk )dkN
Z 1

= 2 k N k+1 k 2
0 ∇ f (x + tdk )(x − x ) dt − ∇ f (x )dk
k N
Z 1
2 k N 2 k N
≤ ∇ f (x + tdk ) − ∇ f (x ) dk dt
0
1 2
≤ L dkN
2
1
2

2

≤ L ∇2 f (xk )−1 ∇ f (xk )
2
2

2

≤ 2L ∇2 f (x∗ )−1 ∇ f (xk ) ,
donde la penúltima desigualdad la obtenemos por la fórmula (59). Y con esto hemos probado que
las normas de los gradientes convergen cuadráticamente a cero.
8.2. Convergencia global

Las limitaciones del método puro de Newton surgen de los siguientes hechos:
1. La convergencia en las primeras iteraciones puede ser lenta.
2. Puede fallar la convergencia a un mı́nimo local porque:
El hessiano sea singular (¡si ∇2 f (xk ) es singular, dkN no está definida!).

El tamaño de paso tk = 1 es ’demasiado grande’ (¡la aproximación cuadrática es ’me-
nos’ satisfactoria si nos alejamos en exceso de xk !)
29
Se trata de modificar el método de Newton puro con el propósito de ’forzar’ la convergencia
global, pero manteniendo la ’buena tasa’ de convergencia local. Una posibilidad simple consiste
en reemplazar la dirección de Newton por la dirección del descenso más rápido, cuando la primera
no está definida o no es de descenso.
Generalmente, ninguna de las variantes del método de Newton puro puede garantizar conver-
gencia rápida en las primeras iteraciones, pero hay procedimientos que pueden usar información
de 2o orden de forma efectiva, incluso cuando el hessiano no es definido positivo. Estos esquemas
se basan en modificaciones de la diagonal del hessiano, de forma que la dirección de búsqueda d k
se obtiene resolviendo el sistema

∇2 f (xk ) + ∆k d k = −∇ f (xk ),
cuando la dirección de Newton, dkN , no está definida o no es de descenso. ∆k es una matriz diagonal
que se elige de tal forma que ∇2 f (xk ) + ∆k sea definida positiva. A continuación describimos una
de las posibilidades más caracterı́sticas.
8.2.1. Métodos de las regiones de confianza (’trust region’ methods)

Recordemos que el método de Newton puro se basa en la minimización sobre d, de la aproxi-
mación cuadrática a f alrededor de xk , dada por:
1
fk (d) := f (xk ) + ∇ f (xk )T d + d T ∇2 f (xk )d.
2
Sabemos que fk (d) es una ’buena’ aproximación de f (xk + d) cuando d está en un ’pequeño’
entorno de 0n . El problema estriba en que la minimización irrestringida de fk (d) puede conducirnos
a un nuevo punto, xk+1 = xk +d k con d k ∈ argmin { fk (d) : d ∈ Rn } que esté lejos de dicho entorno.
Cobra, pues, sentido considerar una etapa de Newton restringida, d k , obtenida minimizando
fk (d) sobre un entorno ’conveniente’ de 0n , llamado región de confianza:
d k ∈ argmin { fk (d) : kdk ≤ γk }

donde γk es un escalar positivo. Aplicando las condiciones de KKT, tras formular la restricción
kdk ≤ γk como 12 d T Id ≤ 12 γk2 , puede probarse que la etapa restringida de Newton, d k , también
tiene que satisfacer un sistema de la forma

∇2 f (xk ) + δk I d = −∇ f (xk) ,
donde I es la matriz identidad, y δk es un escalar no-negativo. De esta forma se evidencia que

el presente método de determinación de d k corresponde a la estrategia de utilizar una corrección
’diagonal’ del hessiano.
Una importante observación que procede efectuar aquı́ es que incluso cuando ∇2 f (xk ) no es
definida positiva, la dirección restringida de Newton d k mejorará el coste, siempre que ∇ f (xk ) 6= 0n
y γk sea suficientemente pequeña. Para comprobar tal afirmación, observemos que para todo d tal
que kdk ≤ γk
f (xk + d) = fk (d) + o(γk2),
30
de forma que

1 T 2 k
k k
f (x + d ) = fk (d k
) + o(γk2 ) = k
f (x ) + mı́n ∇ f (x ) d + d ∇ f (x )d + o(γk2 )
k T
kdk≤γk 2
Ası́ pues, denotando
k
∇ f (x )
d˜k := −
∇ f (xk ) γk ,
se tendrá:
f (xk+1 ) = f (xk + d k )
1
≤ f (xk ) + ∇ f (xk )T d˜k + d˜kT ∇2 f (xk )d˜k + o(γk2 ) =
2 !
γk
k k k T 2 k k
f (x ) + γk − ∇ f (x ) + 2 ∇ f (x ) ∇ f (x )∇ f (x ) + o(γk ) .
2 f (xk )

Se aprecia que para γk suficientemente pequeño, el término − ∇ f (xk ) domina a los otros dos
términos en la expresión contenida entre paréntesis, mostrando que f (xk+1 ) < f (xk ).
La elección del valor inicial de γk es crucial en este esquema: si es elegido demasiado grande,
quizás se necesitarán numerosas reducciones de γk hasta que una mejora de la función objetivo sea
lograda; si, por el contrario, el valor inicial de γk es demasiado pequeño, la tasa de convergencia
puede ser muy pobre.
9. Problemas de Mı́nimos-Cuadrados
El problema del que nos vamos a ocupar es el siguiente
( )
1 2 1 m 2 n
(P) mı́n f (x) := kg(x)k = ∑ gi (x) ; s.a. x ∈ R , (61)
2 2 i=1
donde g = (g1 , . . ., gm )T : Rn → Rm , y gi ∈ C 1 , i = 1, 2, ..., m.
Si nustro objetivo es resolver la ecuación vectorial (o sistema de ecuaciones) g(x) = 0m , es
evidente que x∗ es una solución del tal sistema si y sólo si x∗ minimiza 12 kg(x)k2 , y el valor óptimo
es cero.
Otras muchas aplicaciones pueden encontrarse en campos tan diversos como el ajuste de cur-
vas, las redes neuronales, la clasificación de patrones, etc. (ver Bert95, págs 93-97).
Describiremos el método más comunmente usado para resolver el problema (61), conocido
como método de Gauss-Newton. Dado un punto xk , la forma pura del método de Gauss-Newton se
basa en linealizar la función g(.) alrededor del punto xk , es decir, considerar la función lineal
ℓk (x) := g(xk ) + ∇g(xk )T (x − xk ),
y minimizar, acto seguido, la norma de la función lineal ℓk (x). De esta forma

k+1 1 2 n
x = argmin kℓk (x)k : x ∈ R =
2
( ( ) )
1 g(xk ) 2 + 2g(xk )T ∇g(xk )T (x − xk )
argmin : x ∈ Rn .
2 +(x − xk )T ∇g(xk )∇g(xk )T (x − xk )
31
Asumiendo que la matriz, cuadrada de dimensiones n × n, ∇g(xk )∇g(xk )T sea invertible, el
anterior problema de minimización conduce a:
−1
xk+1 = xk − ∇g(xk )∇g(xk )T ∇g(xk )g(xk ). (62)
Nótese que si g es una función lineal, tenemos kg(x)k2 = kℓk (x)k2 y el método converge en
una simple iteración. Obsérvese también que la dirección utilizada en (62)
−1
k k T
− ∇g(x )∇g(x ) ∇g(xk )g(xk ),
es de descenso, puesto que ∇g(xk )g(xk )7 es el gradiente, en xk , de la función de coste 21 kg(x)k2 , y la

−1
matriz ∇g(xk )∇g(xk )T es definida positiva (bajo la hipótesis formulada de que sea invertible).
Para asegurar que se produzca el ’descenso’, en el caso de que la matriz ∇g(xk )∇g(xk )T sea
singular (también para ’reforzar’ la convergencia cuando dicha matriz está próxima a ser singular!),
el método implementado frecuentemente realiza la iteración
−1
xk+1 = xk − tk ∇g(xk )∇g(xk )T + ∆k ∇g(xk )g(xk ),
donde tk es elegido mediante alguna de las reglas de determinación del tamaño de salto, y ∆k es
una matriz diagonal tal que
∇g(xk )∇g(xk )T + ∆k
es definida positiva. En el conocido método de Levenberg-Marquardt ∆k es un múltiplo positivo de
la matriz identidad.
El método de Gauss-Newton guarda estrecha relación con el método de Newton. De hecho, el
hessiano de la función objetivo es
m
∇g(xk )∇g(xk )T + ∑ gi (xk )∇2 gi (xk ),
i=1
por lo que (62) equivaldrı́a a una iteración del método de Newton puro, pero omitiendo el término
de segundo orden
m
∑ gi(xk )∇2 gi(xk ). (63)
i=1
Ası́ pues, en el método de Gauss-Newton ahorramos el cómputo de este término, al precio de
algún deterioro en la tasa de convergencia. Por tanto, si el término (63) es relativamente pequeño,
cerca de un mı́nimo, la tasa de convergencia del método de Gauss-Newton es bastante satisfactoria.
Esto será particularmente cierto en aquellos casos en que g es prácticamente lineal, y también
cuando las componentes gi (x) son pequeñas, cerca de la solución.
En el caso en que m = n, y tratamos de resolver el sistema g(x) = 0n , el término omitido (63)
es nulo en la solución. En este caso, asumiendo que ∇g(xk ) es invertible, se cumple
−1 −1
k k T k k k T
∇g(x )∇g(x ) ∇g(x )g(x ) = ∇g(x ) g(xk ),
y la forma pura del método puro de Gauss-Newton (62) toma la forma:
−1
xk+1 = xk − ∇g(xk )T g(xk ),
que coincide con el método de Newton para resolver g(x) = 0n .
7 ∇g(xk )g(xk ) = ∑m k k
i=1 gi (x )∇gi (x )
32
10. Métodos de direcciones conjugadas
El propósito de esta familia de métodos es mejorar la tasa de convergencia del método de des-
censo más rápido, sin incurrir en la sobrecarga computacional del método de Newton.
Originalmente se desarrollaron para resolver el problema cuadrático

1 T T
mı́n f (x) = x Qx − b x
2
s.a. x ∈ Rn , (64)
donde Q es una matriz simétrica y definida positiva, o bien para resolver el sistema lineal
Qx = b.
Los métodos de direcciones conjugadas resuelven estos problemas en un máximo de n itera-

ciones. También se aplican a problemas de optimización en un entorno de un mı́nimo local x∗ tal
que ∇2 f (x∗ ) ≻ 0 (Bert95, pág. 118).
Definición 23. Dada una matriz n × n simétrica y definida positiva Q, decimos que el conjunto de
vectores no-nulos d 0 , d 1 , . . . , d k representan direcciones Q-conjugadas si
(d i )T Qd j = 0, ∀i, j, tal que i 6= j.
Lema 24. Si d 0 , d 1 , . . . , d k son Q-conjugadas serán linealmente independientes.

Demostración. Supongamos (sin pérdida de generalidad) que:
d 0 = t1 d 1 + . . . + tk d k .
Entonces
k
(d 0 )T Qd 0 = ∑ ti (d i )T Qd 0 = 0,
i=1
ya que diT Qd0 = 0, y esto contradice el hecho de que Q ≻ 0.

Para un conjunto (maximal) de direcciones Q-conjugadas, d 0 , d 1 , ..., d n−1, el método de direc-
ciones conjugadas destinado a resolver el problema (64), viene dado por
xk+1 = xk + tk d k , k = 0, 1, . . ., n − 1,
donde x0 es un punto inicial arbitrario, y tk se obtiene mediante una búsqueda lineal exacta, es decir
n o
f (xk + tk d k ) = mı́n f (xk + td k ) : t ∈ R . (65)
Proposición 25. Para cada k se verifica
xk+1 = argmin { f (x) : x ∈ Mk } , (66)
donde
Mk := x0 + span{d 0 , d 1 , ..., d k }.
En particular, xn minimiza f sobre Rn , puesto que Mn−1 = Rn .
33
Demostración. Por (65) se tiene
d f (xi + td i )
|t=ti = ∇ f (xi+1 )T d i = 0,
dt
y, para i = 0, 1, ..., k − 1,
!T
T k
∇ f (xk+1 )T d i = Qxk+1 − b di = xi+1 + ∑ t jd j Qd i − bT d i
j=i+1
T
= (xi+1 )T Qd i − bT d i = Qx i+1
−b d i = ∇ f (xi+1 )T d i ,
donde hemos tenido en cuenta que d i y d j , j = i + 1, ..., k, son Q-conjugadas. Combinando las dos
últimas igualdades resulta
∇ f (xk+1 )T d i = 0, i = 0, 1, . . ., k. (67)
De esta forma
∂ f (x0 + γ0 d 0 + . . . + γk d k )
= 0, i = 0, . . . , k,
∂ γi γ j =t j , j=0,1,...,k
y se obtiene la conclusión deseada.
Dado un conjunto de vectores linealmente independientes {v0 , v1 , ..., vk }, nos planteamos ahora
la tarea de construir un conjunto de direcciones Q-conjugadas {d 0 , d 1 , ..., d k } tal que
span{d 0 , d 1 , ..., d k } = span{v0 , v1 , ..., vk }. (68)
Para ello recurriremos a una variante del método Gram-Schmidt. Aplicaremos un mecanismo
recursivo, comenzando con
d 0 = v0 . (69)
Supongamos que, para algún i < k, disponemos ya de direcciones Q-conjugadas d 0 , d 1 , ..., d i
tales que
span{d 0 , d 1 , ..., d i} = span{v0 , v1 , ..., vi }. (70)

Definiremos ahora
i
d i+1 := vi+1 + ∑ ci+1,md m, (71)
m=0
eligiendo los coeficientes ci+1,m , m = 0, 1, ..., i, de forma que se garantice que d i+1 es Q-conjugada
a d 0 , d 1 , ..., d i. Esto sucederá si, para cada j = 0, 1, ..., i, se cumple
i
0 = (d i+1 )T Qd j = (vi+1 )T Qd j + ∑ ci+1,m(d m)T Qd j
m=0
i+1 T j j T j
= (v ) Qd + ci+1, j (d ) Qd ,
de donde
(vi+1 )T Qd j
ci+1, j = − , j = 0, 1, ..., i. (72)
(d j )T Qd j
Obsérvese que el denominador (d j )T Qd j es positivo, puesto que las direcciones d 0 , d 1 , ..., d i
son (por hipótesis de inducción) Q-conjugadas y, por tanto, no-nulas.
34
Nótese también que d i+1 6= 0n puesto que si fuese d i+1 = 0n tendrı́amos por (71) y (70)
vi+1 ∈ span{d 0 , d 1 , ..., d i} = span{v0 , v1 , ..., vi},
entrando en contradicción con la independencia lineal de los vectores v0 , v1 , ..., vk .

Finalmente, por (71),
vi+1 ∈ span{d 0 , d 1 , ..., d i, d i+1 },
mientras que
d i+1 ∈ span{d 0 , d 1 , ..., d i} + span{vi+1 }

= span{v0 , v1 , ..., vi} + span{vi+1 }
= span{v0 , v1 , ..., vi, vi+1 }.
Ası́ pues (70), se cumple también cuando i se incrementa a i + 1.

También merece la pena estudiar el caso en que los vectores v0 , v1 , ..., vi son linealmente in-
dependientes, pero el vector vi+1 depende linealmente de ellos. En este caso, el procedimiento
anterior (71), y las fórmulas (72) siguen siendo válidas, pero el nuevo vector d i+1 será nulo. De
hecho, a partir de (70) y (71), se tiene
d i+1 ∈ span{v0 , v1 , ..., vi, vi+1 }

= span{v0 , v1 , ..., vi},
y
i
d i+1 = ∑ γm d m . (73)
m=0
Premultiplicando (73) por (d j )T Q, j = 0, 1, ..., i, resulta γm = 0, m = 0, 1, ..., i, y d i+1 = 0n .

Podemos usar esta propiedad para construir un conjunto de direcciones Q-conjugadas que ge-
neran el mismo espacio que los vectores v0 , v1 , ..., vk , los cuales a priori no tienen porque ser
linealmente independientes. Cada vez que mediante (71) y (72) se genera una ’nueva’ dirección
d i+1 que es nula, será descartada, y se incorporará vi+2 .
10.1. El método del gradiente conjugado

Se aplica el método de Gram-Schmidt, recientemente descrito, a los vectores
vk = −gk ≡ −∇ f (xk ) = −(Qxk − b), k = 0, 1, ..., n − 1.
Ası́ pues, el método del gradiente conjugado progresa mediante iteraciones
xk+1 = xk + tk d k ,
donde tk se obtiene mediante minimización de f sobre la recta {xk + td k : t ∈ R}, y d k es obtenida

aplicando (71) a −gk y a las direcciones d 0 , d 1 , ..., d k−1 previamente determinadas, con coeficientes
dados por (72):
k−1
(gk )T Qd j j
d k = −gk + ∑ j T j
d . (74)
j=0 (d ) Qd
35
Obsérvese que d 0 = −g0 , y el método termina cuando llega a un punto xk tal que gk = 0n .
Lógicamente, el método también se detiene cuando d k = 0n , pero veremos que esto sólo puede
acontecer cuando gk = 0n .
La propiedad clave del método del gradiente conjugado estriba en que la fórmula (74) puede
ser simplificada de forma considerable. En particular todos salvo uno de los coeficientes de (74) se
anulan, y ello como consecuencia de (67), ecuación que establece que el gradiente gk es ortogonal
a d 0 , d 1 , ..., d k−1. De hecho tenemos la siguiente proposición:
Proposición 26. Las direcciones de búsqueda utilizadas en el método del gradiente conjugado son
d 0 = −g0 ,
d k = −gk + βk d k−1 , k = 1, 2, ..., n − 1,
con
(gk )T gk
βk := . (75)
(gk−1 )T gk−1
Además, el método termina en una solución óptima en un máximo de n etapas.
Demostración. Usuaremos la inducción para comprobar que los gradientes gk generados hasta la
terminación son linealmente independientes. El resultado es obvio k = 0. Supongamos, pues, que el
método no ha terminado después de k etapas, y que g0 , g1 , ..., gk−1 son linealmente independientes.
Entonces, y puesto que se trata de un método de direcciones conjugadas,
span{d 0 , d 1 , ..., d k−1} = span{g0 , g1 , ..., gk−1}.
Hay dos posibilidades:

i) gk = 0n , en cuyo caso el método termina.
ii) gk 6= 0n , en cuyo caso, por (67),
gk ⊥ span{d 0 , d 1 , ..., d k−1} ⇒ gk ⊥ span{g0 , g1 , ..., gk−1}, (76)
y ello conlleva que gk sea linealmente independiente de g0 , g1 , ..., gk−1.

Puesto que como máximo n gradientes linealmente independientes podrán ser generados, se
sigue que el gradiente será 0n después de n iteraciones, y el método termina obteniendo el mı́nimo
(global) de f .
Veamos ahora que (74) se simplifica en los términos indicados. Sea j tal que g j 6= 0n . Se
verifica, entonces,
g j+1 − g j = Q(x j+1 − x j ) = t j Qd j . (77)
Obsérvese que t j 6= 0, porque si fuese t j = 0 se tendrı́a g j+1 = g j , lo que implicarı́a (en virtud de
(76)) que g j = 0n (¡descartado por hipótesis!). Ası́ pues,

1 0, si j = 0, 1, ..., i − 2,
T j
(gi ) Qd = (gi )T (g j+1 − g j ) = 1 T
tj ti−1 (gi ) gi , si j = i − 1,
y también
1 j T
(d j )T Qd j = (d ) (g j+1 − g j ).
tj
36
Sustituyendo en (74) se obtiene
d k = −gk + βk d k−1 , (78)
con
1 T
tk−1 (gk ) gk
βk = 1 k−1 )T (g − g
(79)
tk−1 (d k k−1 )
(gk )T gk
= . (80)
(d k−1 )T (gk − gk−1 )
A partir de (78) se deduce

d k−1 = −gk−1 + βk−1 d k−2 .
Usando esta ecuación, la ortogonalidad de gk y gk−1 , y de d k−2 y gk − gk−1 (por (76)), el denomi-
nador de (80) se reduce a (gk−1 )T gk−1 , como pretendı́amos probar.
Obsérvese que la ortogonalidad de gk y gk−1 permite escribir la fórmula (75) como:
gTk (gk − gk−1 )

βk := . (81)
gTk−1 gk−1
Mientras que (75) y (81) son equivalentes en el caso cuadrático, en el caso no-cuadrático exis-
ten diferencias notables entre ambas fórmulas.
Aplicación a problemas no-cuadráticos El método del gradiente conjugado puede ser aplicado
al problema no-cuadrático
mı́n { f (x), s.a. x ∈ Rn },
en cuyo caso procede de la siguiente forma:
xk+1 = xk + tk d k ,
donde tk es obtenido mediante una búsqueda lineal exacta

f xk + tk d k = mı́n{ f xk + td k , t ∈ R}, (82)
y
d k := −∇ f (xk ) + βk d k−1 . (83)

La forma más común de calcular βk es a través de la fórmula

∇ f (xk )T ∇ f (xk ) − ∇ f (xk−1 )
βk = .
∇ f (xk−1 )T ∇ f (xk−1 )
(Compárese esta fórmula con (81)).
La dirección d k suministrada por (83) es de descenso:
2 2
k T k k k T k−1 k
∇ f (x ) d = − ∇ f (x ) + βk ∇ f (x ) d = − ∇ f (x ) ,
37
donde la primera igualdad se deduce de (83) y la segunda de (82).
El método del gradiente conjugado es a menudo empleado en problemas en que el número
de variables n es grande, y es frecuente que el método de repente comience a generar de repente
direcciones de búsqueda ineficientes. Por esta razón, es importante operar en ciclos de etapas que
usen direcciones çonjugadas”, con una primera iteración en el ciclo realizada mediante el método
de descenso más rápido. Un par de posibles polı́ticas para el ’reinicio’ es:
1. Reiniciar (un nuevo ciclo) con una etapa del método del descenso más rápido después de
exactamente n iteraciones.
2. Reiniciar con la correspondiente etapa del método del descenso más rápido bien si se han
realizado n iteraciones desde el reinicio último o si
2
k T k−1 k−1
∇ f (x ) ∇ f (x ) > γ ∇ f (x ) , (84)
donde γ es un escalar fijo con 0 < γ < 1. La relación anterior es un test de ’pérdida de con-
jugación’, puesto que si las direcciones generadas fuesen conjugadas entonces tendrı́amos
∇ f (xk )T ∇ f (xk−1 ) = 0.
11. Métodos Quasi-Newton

Son métodos del gradiente de la forma xk+1 = xk + tk d k , con
d k := −Dk ∇ f (xk ), (85)
donde Dk es una matriz simétrica y definida positiva que se ajusta en cada iteración de modo que d k
se aproxime progresivamente a la dirección de Newton. Por su parte, Dk se aproxima a (∇2 f )−1 .
Tı́picamente, su convergencia es rápida, y evitan los cálculos relativos a las segundas derivadas
que conlleva el método de Newton. Requieren el almacenamiento de la matriz Dk , y de los demás
elementos que intervienen en la obtención de Dk+1 a partir de Dk .
Una idea fundamental en los métodos Quasi-Newton es que cada dos puntos consecutivos, xk
y xk+1 , junto con sus gradientes, ∇ f (xk ) y ∇ f (xk+1 ), proporcionan información sobre la curvatura
de f , a través de la relación aproximada
qk ≈ ∇2 f (xk+1 )pk , (86)
donde
pk := xk+1 − xk ,
y
qk := ∇ f (xk+1 ) − ∇ f (xk ).
Obsérvese que si f es cuadrática, ∇2 f es constante, y (86) es una identidad.
En los métodos Quasi-Newton más populares, la matriz Dk+1 es obtenida a partir de Dk , y de

los vectores pk y qk , a través de la ecuación
pk (pk )T Dk qk (qk )T Dk
Dk+1 := Dk + − + ξk τk vk (vk )T , (87)
(pk )T qk (qk )T Dk qk
38
donde
pk Dk q k
vk : = − , (88)
(pk )T qT τk
τk : = (qk )T Dk qk , (89)
los escalares ξk satisfacen, ∀k,

0 ≤ ξk ≤ 1,
y D0 es una matriz simétrica definida positiva arbitraria.
Los escalares ξk parametrizan el método. Si ξk = 0 para todo k, obtendremos el método de
Davidon-Fletcher-Powell (DFP), que es históricamente el primer método Quasi-Newton. Si ξk =
1 para todo k, se obtiene el método de Broyden-Fletcher-Goldfarb-Shanno (BFGS), el cual se
considera el mejor método Quasi-Newton conocido hasta el presente (de propósito general).
Probaremos, a continuación, que bajo una condición débil, las matrices Dk generadas por (87)
son definidas positivas. Ello garantiza que la dirección de búsqueda d k dada por (85) es de descen-
so.
Proposición 27. Si Dk es definida positiva, y tk > 0 es elegida de tal modo que
∇ f (xk )T d k < ∇ f (xk+1 )T d k , (90)
entonces Dk+1 , dada por (87), también es definida positiva.
Observación 28. En particular, si tk es determinada mediante una minimización sobre la recta

{xk + td k : t ∈ R}, tendremos que ∇ f (xk+1 )T d k = 0 y (90) se cumple trivialmente.
Demostración. Observemos, en primera instancia, que (90) implica tk 6= 0 y qk 6= 0n . Ası́ pues,

(pk )T qk = tk (d k )T ∇ f (xk+1 ) − ∇ f (xk ) > 0. (91)
Esta desigualdad la obtenemos por (90) y por el hecho de que tk > 0.

Concluimos que ’todos’ los denominadores en (87), (88) y (89) son no-nulos (de hecho son
positivos), y Dk+1 está ’bien definida’. Ahora para cualquier z 6= 0n , se obtiene

k )T D z 2
(z T pk ) 2 (q k
zT Dk+1 z = zT Dk z + k T k − + ξk τk ((vk )T z)2 . (92)
(p ) q (qk )T Dk qk
Usando la notación 1 1
a := Dk2 , b := Dk2 qk ,
(92) se expresa como
kak2 kbk2 − (aT b)2 (zT pk )2

zT Dk+1 z = + + ξk τk ((vk )T z)2 . (93)
kbk2 (pk )T qk
A partir de (89) y de (91), junto con la desigualdad de Cauchy-Schwarz, deducimos que todos los
términos en el segundo miembro de (93) son no-negativos. Para probar que zT Dk+1 z es, de hecho,
positivo mostraremos que no se pueden satisfacer simultáneamente
kak2 kbk2 = (aT b)2 y zT pk = 0.
39
De hecho, si kak2 kbk2 = (aT b)2 , se tendrá a = λ b o, equivalentemente,
z = λ qk .
Puesto que z 6= 0n , se sigue que λ 6= 0, de forma que si zT pk = 0 tiene que cumplirse (qk )T pk = 0,
lo que es imposible en virtud de (90).
Proposición 29. Sean {xk }, {d k }, y {Dk } sucesiones generadas por el algoritmo Quasi-Newton
(85), (87) a (89), aplicado a minimizar la función
1
f (x) = xT Qx − bT x,
2
donde Q es simétrica y definida positiva, con tk elegido de manera que
f (xk + tk d k ) = mı́n{ f (xk + td k ) : t > 0}. (94)
Asumamos que ninguno de los puntos x0 , x1 , ..., xn−1 es un mı́nimo. Entonces se tiene que:
(i) Los vectores d 0 , d 1 , ..., d n−1 son Q-conjugados;
(ii) Dn = Q−1 .
Demostración. Probaremos que, para todo k,
(d i )T Qd j = 0, 0 ≤ i < j ≤ k, (95)
Dk+1 Qpi = pi , 0 ≤ i ≤ k. (96)
(95) establece (i), mientras que probaremos que (96) conduce a (ii). De hecho, y puesto que hemos
asumido que para i < n ninguno de los puntos xi es óptimo, y d i es una dirección de descenso
(por (85) y la proposición anterior), tenemos que pi 6= 0n . Puesto que pi = ti d i y d 0 , d 1 , . . . , d n−1
son Q-conjugados, se sigue que p0 , p1 , . . . , pn−1 son linealmente independientes y, ası́ pues, (96)
implica que Dn Q es igual a la matriz identidad.
Probaremos en primer lugar, que
Dk+1 Qpk = pk , ∀k. (97)
A partir de la ecuación Qpk = qk , y la fórmula (87), se obtiene
Dk+1 Qpk = Dk+1 qk

pk (pk )T qk Dk qk (qk )T Dk qk
= Dk q k + − + ξk τk vk (vk )T qk
= pk + ξk τk vk (vk )T qk .
A partir de (88) y (89) se deduce
(vk )T qk = − = 1 − 1 = 0,
(pk )T qk τk
y resulta
Dk+1 Qpk = pk
40
A continuación probaremos por inducción, y de forma simultánea (95) y (96). Para k = 0, (96) se
cumple en virtud de (97). De otro lado:
(d 1 )T Qd 0 = −∇ f (x1 )T D1 Qd 0
1 1
= − ∇ f (x1 )T (D1 Qp0 ) = − ∇ f (x1 )T p0 = ∇ f (x1 )T d 0 = 0.
t0 t0
Asumiremos que (95) y (96) se cumplen para k, y comprobaremos que también son válidas para
k + 1. Se tiene, para i < k,
∇ f (xk+1 ) = ∇ f (xi+1 ) + Q(pi+1 + . . . + pk ). (98)
Veamos que pi es ortogonal a cada vector presente en el miembro de la derecha en (98). De hecho
pi es ortogonal a Qpi+1 , . . ., Qpk dado que los vectores p0 , . . ., pk son Q-conjugados (pi = ti d i ), y
es ortogonal a ∇ f (xi+1 ) porque ti se determina mediante una minimización (94). Ası́ pues, de (98)
se deduce
pi ∇ f (xk+1 ) = 0, 0 ≤ i < k. (99)
A partir de esta igualdad, y de (96) (junto con la hipótesis de inducción):
(pi )T QDk+1 ∇ f (xk+1 ) = (pi )T ∇ f (xk+1 ) = 0, 0 ≤ i ≤ k, (100)
donde la primera igualdad la obtenemos por (96), y la segunda por (99) (el caso i = k, es conse-
cuencia de (94)), y puesto que pi = ti d i , y d k+1 = −Dk+1 ∇ f (xk+1 ), obtenemos de (100)
−ti (d i )T Qd k+1 = 0, 0 ≤ i ≤ k, donde ti 6= 0, (101)
y esto prueba (95) para k + 1.
A partir de la hipótesis de inducción relativa a (96) y por (101), tenemos para todo i tal que
0 ≤ i ≤ k:
(qk+1 )T Dk+1 Qpi = (qk+1 )T pi = (pk+1 )T Qpi = tk+1ti d k+1 Qd i = 0. (102)
De (87):
pk+1 (pk+1 )T qi Dk+1 qk+1 (qk+1 )T Dk+1 qi
Dk+2 qi = Dk+1 qi + −
(pk+1 )T qk+1 (qk+1 )T Dk+1 qk+1
+ξk+1 τk+1 vk+1 (vk+1 )T qi .
Puesto que (pk+1 )T qi = (pk+1 )T Qpi = 0, el segundo término en el miembro de la derecha de la
expresión anterior es cero. Similarmente:
(qk+1 )T Dk+1 qi = (qk+1 )T Dk+1 Qpi = (qk+1 )T pi = (pk+1 )T Qpi = 0,
(donde la antepenúltima igualdad se obtiene por la fórmula (96)) y el tercer término en el segundo
miembro de la expresión que estamos analizando también es cero.
Finalmente,
(pk+1 )T qi (qk+1 )T Dk+1 qi
(vk+1 )T qi = − = 0 − 0 = 0.
(pk+1 )T qk+1 τk+1
Ası́ pues
Dk+2 Qpi = Dk+2 qi = Dk+1 qi = Dk+1 Qpi = pi , 0 ≤ i ≤ k.
Por (97),
Dk+2 Qpk+1 = pk+1 ,
y queda verificado que (96)se cumple para k + 1.
41
11.1. Comparación de los métodos Quasi-Newton con otros métodos
La principal ventaja de los métodos Quasi-Newton estriba en que si las búsquedas lineales se
realizan con ’relativa’ precisión, estos algoritmos, no sólo ’tienden’ a generar direcciones conjuga-
das, sino que estas direcciones ’tienden’ a la del método de Newton, disfrutando de una rápida tasa
de convergencia en las inmediaciones de un mı́nimo local no-singular. Ello además, no depende
de la matriz inicial D0 , con lo que no es usualmente necesario el intercalar etapas de ’reinicio’ que
recurran al método de descenso más rápido.
Si las evaluaciones múltiples de la función objetivo y del gradiente a realizar durante las búsquedas
lineales son computacionalmente costosos, las ventajas computacionales del método del gradiente
conjugado vendrı́an compensadas por la rapidez de convergencia de los métodos Quasi-Newton.
12. Métodos que no usan derivadas

Los métodos del gradiente que hemos visto con anterioridad requieren al menos el cálculo
del gradiente ∇ f (xk ) y posiblemente el hessiano ∇2 f (xk ) en cada punto generado xk . En muchos
problemas, o bien estas derivadas no están disponibles en forma explı́cita, o bien vienen dadas
por expresiones muy complicadas. En estos casos, podrı́amos utilizar una aproximación de las
derivadas mediante diferencias finitas y aplicar el correspondiente método del gradiente usando
estas aproximaciones. En esta sección vamos a presentar otros métodos que no utilizan derivadas.
12.1. Método de descenso por coordenadas

En el método de descenso por coordenadas la función objetivo es minimizada a lo largo de una
dirección coordenada en cada iteración. El orden en que las direcciones coordenadas son elegidas
puede variar en el curso del algoritmo. Ası́, el método utiliza alguna de las direcciones coordenadas
e1 , e2 , . . . , en (o sus direcciones contrarias −ei ) como dirección de búsqueda. En el caso de que el
orden sea cı́clico, tras n iteraciones, el método vuelve a tomar e1 como dirección de búsqueda. Otra
variante es el método de doble barrido de Aitken (también llamado “back-and-forth”), que utiliza
las direcciones coordenadas en el siguiente orden
e1 , e2 , . . . , en−1 , en , en−1 , . . . , e2 , e1 , e2 , . . .
Estos métodos cı́clicos tienen la ventaja de no requerir ninguna información acerca de ∇ f para
determinar las direcciones de descenso.
Si el gradiente de f está disponible, tiene sentido elegir la dirección coordenada en base a ∇ fk .
Una técnica popular es el llamado método de Gauss-Southwell, donde en cada etapa es elegida
como dirección de búsqueda la dirección coordenada correspondiente a la componenente mayor
(en valor absoluto) del gradiente de f .
42
Figura 12: Método de descenso por coordenadas.
A pesar de parecer un método simple e intuitivo, puede ser bastante ineficiente. La experiencia
práctica demuestra que tı́picamente se requieren n iteraciones del método de descenso por coor-
denadas para igualar una iteración del método de descenso más rápido. De hecho, el método de
descenso de coordenadas con búsqueda lineal exacta puede iterar infinitamente sin aproximarse
nunca a un punto donde el gradiente de la función objetivo tienda a cero. Esta dificultad provie-
ne del hecho de que el gradiente ∇ fk puede volverse cada vez más perpendicular a la dirección
coordenada, y ası́, cos θk puede aproximarse suficientemente rápido a cero de manera que la con-
dición de Zoutendijk (21) es satisfecha aunque ∇ fk no se aproxime a cero. Sin embargo, este
método puede ser práctico en diversas situaciones ya que no requiere el cálculo del gradiente ∇ fk ,
y además, la velocidad de convergencia puede ser bastante aceptable si las variables no están “muy
interaccionadas” (es decir, si la matriz hessiana es casi diagonal).
12.2. El método simplex de Nelder y Mead

El método simplex8 de Nelder y Mead es un algoritmo de búsqueda directa, que se diferencia
bastante de los algoritmos de búsqueda lineal que hemos visto anteriormente. En una iteración
de este método, se parte de un simplex, que es la envoltura convexa de n + 1 puntos x0 , x1 , . . . , xn
afı́nmente independientes9.Sean xmin y xmax el “mejor” y el “peor” de los vértices del simplex, es
decir, aquellos vértices que satisfacen
f (xmin ) = mı́n f (xi ) y f (xmax ) = máx f (xi ).
i=0,1,...,n i=0,1,...,n
Sea x̂ el centroide (o baricentro) de la cara del simplex formada por todos los vértices que no
son xmax , es decir, !
n
1
x̂ := −xmax + ∑ xi .
n i=0
8 Para evitar la confusión con el método simplex de programación lineal es también llamado el algoritmo politopo.
9 Equivalentemente, x
1 − x0 , . . . , xn − x0 son linealmente independientes.
43
La iteración reemplaza el “peor” vértice xmax por uno “mejor”. Para ello se computa el punto
reflejado
xre f := 2x̂ − xmax ,
que está en la recta determinada por xmax y x̂, siendo simétrico a xmax respecto de x̂. Dependiendo
del valor de la función objetivo en xre f , en relación con el valor de la función objetivo en los
restantes puntos del simplex (excluido xmax ), un nuevo vértice xnew es obtenido, y un nuevo simplex
es formado reemplazando xmax por xnew , conservando los otros n vértices.
Algoritmmo 2 (Iteración del método simplex de Nelder y Mead).

xre f = 2x̂ − xmax 
if f (xmin ) > f (xre f ) : 



xexp = 2xre f − x̂ 


if f (xexp ) < f (xre f ) : Caso 1: xre f tiene coste mı́nimo
xnew = xexp 
 (intento de expansión)


else: 


xnew = xre f
elif f (xmin ) ≤ f (xre f ) < máx{ f (xi ) | xi 6= xmax } : Caso 2: xre f tiene coste intermedio
xnew = xre f (uso de la reflexión)

else: 



if f (xmax ) ≤ f (xre f ) : 

1 Caso 3: xre f tiene coste máximo
xnew = 2 (xmax + x̂)

 (contracción)
else: 


xnew = 12 (xre f + x̂)

Formar el nuevo simplex reemplazando xmax por xnew .
1
2
xref + x)
( xexp
xi xref
x
1
2
( xmax + x)
xmax xmin
Figura 13: Elecciones posibles para el nuevo punto xnew en el algoritmo simplex.
Una cuestión importante consiste en saber cuándo una solución “adecuada” ha sido encontrada.
Nelder y Mead sugirieron utilizar la desviación estándar de los valores de la función:
s
1 n 1 n
test = ∑
n i=0
( f (xi ) − M)2 , donde M = ∑ f (xi).
n + 1 i=0
44
El algoritmo se detendrı́a cuando el valor test fuera menor que cierto valor de tolerancia preasig-
nado. Esta regla de parada resulta ser razonable en aplicaciones estadı́sticas, donde este método
aún es utilizado. Otra posibilidad consistirı́a en detener el algoritmo cuando el valor de la función
en todos los puntos del simplex sea el mismo, es decir, cuando f (xmin ) = f (xmax ) (o cuando su
diferencia sea menor que cierto valor de tolerancia).
Cuando f no es convexa es posible que f (xnew ) > f (xmax ), no experimentándose una “mejora”
de la función objetivo en la correspondiente etapa. En este caso una modificación posible consistirı́a
en contraer el simplex hacia el mejor vértice xmin , reemplazando los vértices originales xi por
1
x̄i = (xi + xmin ), i = 0, 1, . . ., n.
2
Este método con la modificación descrita, funciona razonablemente bien en la práctica para pro-
blemas de dimensión pequeña (hasta 10), aunque no garantiza unas propiedades de convergencia
teóricamente deseables (un contraejemplo para la convergencia con n = 2 y f estrictamente con-
vexa es dado por McKinnon, ver [16]).
En la Figura 14 podemos ver el resultado de aplicar el método simplex a dos funciones utiliza-
das habitualmente en los tests de algoritmos.
5 1.5
2
1
-0
-1
0.5
-2
-3
-4
-0
-5
-5 -4 -3 -2 -1 -0 1 2 3 4 5 -1 -0.75 -0.5 -0.25 -0 0.25 0.5 0.75 1
Figura 14: Método simplex de Nelder y Mead aplicado a las funciones clásicas de Himmelblau
f (x, y) = (x2 + y − 11)2 + (x + y2 − 7)2 (izq.) y Rosenbrock f (x, y) = 100(y − x2 )2 + (1 − x)2 (der.).
Formas más generales de del Algoritmo 2 toman combinaciones convexas arbitrarias para
obtener los puntos calculados por el método: xre f = x̂ + λ (x̂ − xmax ), xexp = xre f + γ (xre f − x̂),
xnew = θ xmax + (1 − θ )x̂, o xnew = θ xre f + (1 − θ )x̂ para ciertas constantes λ , γ > 0 y θ ∈ (0, 1).
Otra modificación posible consiste en reiniciar el simplex actual tras realizarse varias etapas de
expansión (Caso 1, cuando xnew = xexp ), para ası́ evitar una deformación grande del simplex. En
este caso, los dos mejores puntos son retenidos, y la distancia entre ellos determina la longitud del
lado del nuevo simplex regular. Dado un punto x0 , es fácil obtener un simplex regular de longitud
δ > 0 con vértice en x0 . Basta tomar
δ √ δ √
α := √ (n − 1 + n + 1), β := √ (−1 + n + 1),
n 2 n 2
45
y definir
xi := x0 + (β , . . . , β , α , β , . . ., β )T , i = 1, . . . , n.
⇑
componenente i
Normalmente, el método parte de un simplex regular generado a partir de un punto inicial introdu-
cido, aplicando a continuación el Algoritmo 2.
13. Optimización con restricciones

13.1. Restricciones en forma de igualdad
Consideremos el problema de optimización (P) en el que las variables están sometidas a res-
tricciones en forma de igualdad
(P) := mı́n f (x) (103)

s.a. hi (x) = 0, i = 1, . . ., m,
donde f : Rn → R, hi : Rn → R, i = 1, 2, . . ., m (o, equivalentemente, h = (h1, . . . , hm )T : Rn → Rm ).

Representaremos por F el conjunto de soluciones factibles, i.e.
F := {x ∈ Rn : h(x) = 0m }.
Sea x∗ un mı́nimo local de (P). Supondremos, de ahora en adelante, que todas las funciones
involucradas ( f y hi , i = 1, . . ., m) son C 1 (W ), donde W es un abierto que contiene a x∗ .
Llamaremos matriz gradiente de h a la matriz n × m
∇h(x) := [∇h1 (x) ... ∇hm (x)] ,
mientras que la matriz jacobiana es la matriz m × n

 
∇h1 (x)T
 .. 
Jh (x) := ∇h(x)T =  . .
∇hm (x) T
Teorema 30. (Condición necesaria de optimalidad). Sea x∗ un mı́nimo local del problema (P)
introducido en (103), y asumamos que los gradientes de las restricciones, ∇h1 (x∗ ), . . ., ∇hm (x∗ ),
son linealmente independientes10 . Entonces existe un único vector λ ∗ = (λ1∗ , . . ., λm∗ )T , llamado
vector de multiplicadores de Lagrange, tal que:
m
∇ f (x∗ ) + ∑ λi∗ ∇hi (x∗ ) = ∇ f (x∗ ) + ∇h(x)λ ∗ = 0n . (104)
i=1
Si además f y h son funciones C 2 (W ), se cumplirá también

!
m
yT ∇2 f (x∗ ) + ∑ λi∗ ∇hi (x∗ ) y ≥ 0, ∀y ∈ V (x∗ ) (105)
i=1
10 Ello obliga a que m ≤ n. Se dice entonces que x∗ es un punto regular.
46
donde

V (x∗ ) : = y ∈ Rn : ∇hi (x∗ )T y = 0, i = 1, . . ., m
= {y ∈ Rn : Jh (x∗ )y = 0} .
Este teorema se conoce como teorema del los multiplicadores de Lagrange y los escalares
λ1∗ , λ2∗ , ..., λm∗ se denominan multiplicadores de Lagrange. De hecho, el sistema de ecuaciones
(104) es la base del llamado método de los multiplicadores de Lagrange, establecido por este autor
en 1788, en su libro Mécanique Analytique11 . Las dos pruebas más populares se basan, respectiva-
mente, en el teorema de la función implı́cita o en la consideración de una función de penalización.
A continuación daremos la segunda de estas pruebas.
Demostración. a) Introduzcamos, para cada k = 1, 2, . . ., la función Ψk : Rn → R definida como
k α
Ψk (x) := f (x) + kh(x)k2 + kx − x∗ k2 ,
2 2
donde α > 0 es arbitrario.
Sea ε > 0 tal que f (x∗ ) ≤ f (x) para todo x ∈ F ∩B(x∗ ; ε ), con B(x∗ ; ε ) := {x ∈ Rn : kx − x∗ k ≤ ε },
y sea
xk ∈ argminx∈B(x∗ ;ε ) Ψk (x).
Este punto xk existirá siempre puesto que estamos minimizando una función continua Ψk en el
compacto B(x∗ ; ε ). Tenemos
k α
Ψk (xk ) = f (xk ) + kh(xk )k2 + kxk − x∗ k2 ≤ Ψk (x∗ ) = f (x∗ ). (106)
2 2
b) Como {xk } ⊂ B(x∗ ; ε ), existirá un punto de acumulación de esta sucesión, x∗ ; es decir,
existirá una subsucesión {xkr } que converge a x∗ ∈ B(x∗ ; ε ). Veamos que
h(x) = lı́m h(xkr ) = 0m ,

r→∞
i.e. x∗ ∈ F. Si no fuera ası́, tendrı́amos
lı́m kh(xkr )k = kh(x)k > 0,

r→∞
y tomando lı́mites en (106) obtendrı́amos una contradicción puesto que

n α o α
lı́m f (xkr ) + kxkr − x∗ k2 = f (x) + kx − x∗ k2 ,
r→∞ 2 2
mientras que
kr
lı́m kh(xkr )k2 = +∞,
r→∞ 2
es decir, llegamos a la contradicción

kr 2 α ∗ 2
lı́m f (xkr ) + kh(xkr )k + kxkr − x k = +∞ ≤ f (x∗ ).
r→∞ 2 2
11 Presentado en su dı́a como una herramienta clave para encontrar el estado de equilibrio estable de un sistema
mecánico.
47
c) Puesto que a partir de (106) se deduce
α
f (xkr ) + kxkr − x∗ k2 ≤ f (x∗ ),
2
tomando lı́mites para r → ∞ resulta
α
f (x) + kx − x∗ k2 ≤ f (x∗ ).
2
Como f (x ) ≤ f (x ), al ser x ∈ B(x ; ε ) ∩ F, obtenemos kx∗ − x∗ k = 0, esto es x∗ = x∗ . Como
∗ ∗ ∗ ∗
x∗ es el único punto de acumulación de {xk }, resulta que

lı́m xk = x∗ .
k→∞
d) La convergencia de xk a x∗ entraña que para k grande, xk es un punto interior de B(x∗ ; ε ), y
xk es un mı́nimo local irrestringido de Ψk (·). A partir de la condición necesaria de optimalidad de
primer orden se deduce
0n = ∇Ψk (xk ) = ∇ f (xk ) + k∇h(xk )h(xk ) + α (xk − x∗ ) . (107)
Puesto que ∇h(x∗ ) tiene rango m, ∇h(xk ) también tendrá rango m si k es suficientemente grande
(porque hi ∈ C 1 (W ), i = 1, 2, ..., m) de manera que
∇h(xk )T ∇h(xk )
es una matrix m × m invertible. Ası́ pues, premultiplicando (107) por
−1
∇h(xk )T ∇h(xk ) ∇h(xk )T ,
resultará −1
kh(xk ) = − ∇h(xk )T ∇h(xk ) ∇h(xk )T {∇ f (xk ) + α (xk − x∗ )} .
Tomando lı́mites para k → ∞, vemos que la sucesión de vectores {kh(xk )} converge a
−1
λ ∗ := − ∇h(x∗ )T ∇h(x∗ ) ∇h(x∗ )T ∇ f (x∗ ).
Tomando lı́mites, también para k → ∞ en (107) resulta
0n = ∇ f (x∗ ) + ∇h(x∗ )λ ∗ ,
lo que prueba (104).
e) Utilizando, ahora, la condición necesaria de optimalidad de segundo orden, vemos que, para
k suficientemente grande, la matriz hessiana12
∇2 Ψk (xk ) = ∇2 f (xk ) + k∇h(xk )∇h(xk )T +
m
k ∑ hi (xk )∇2 hi (xk ) + α I.
i=1
∂ Ψk (x) ∂ f (x) ∂ h p (x)
12 Sabemos que ∂xj = ∂xj + k ∑mp=1 h p (x) ∂xj + α (x j − x∗j )
Por lo tanto: h i
∂ 2 Ψk (x) ∂ 2 f (x) m ∂ h p (x) ∂ h p (x) m ∂ 2 h p (x)
∂ xi ∂ x j = ∂ xi ∂ x j + k ∑ p=1 ∂ xi ∂ x j + ∑ p=1 h p (x) ∂ xi ∂ x j + αδi j

1, si i = j
δi j =
0, si i 6= j
Por lo tanto: T
∇2 Ψk (x) = ∇2 f (x) + k ∑mp=1 h p (x)∇2 h p (x) + k (∇h1 (x) . . . ∇hm (x)) ∇h1 (x)T . . . ∇hm (x)T
48
es semidefinida positiva, cualquiera que sea α > 0.
Fijemos y ∈ V (x∗ ) (esto es, ∇h(x∗ )T y = 0m ). Recordando que, para k suficientemente grande,
la matriz ∇h(xk )T ∇h(xk ) será invertible, una comprobación elemental nos permite observar que
−1
yk := y − ∇h(xk ) ∇h(xk )T ∇h(xk ) ∇h(xk )T y ∈ V (xk ). (108)
Puesto que ∇h(xk )T yk = 0m y que la matriz ∇2 Ψk (xk ) es semidefinida positiva, obtenemos

!
m
0 ≤ yTk ∇2 Ψk (xk )yk = yTk ∇2 f (xk ) + k ∑ hi (xk )∇2 hi (xk ) yk + α kyk k2 . (109)
i=1
Puesto que ∇h(x∗ )T y = 0m y xk → x∗ , de (108) se deduce yk → y.

De (109) tomando lı́mites y del hecho de que khi (xk ) → λi∗ cuando k → ∞, se desprende:
!
m
0 ≤ yT ∇2 f (x∗ ) + ∑ λi∗ ∇2 hi (x∗ ) y + α kyk2 .
i=1
Dado que α puede ser tomado arbitrariamente próximo a cero, obtenemos

!
m
0 ≤ yT ∇2 f (x∗ ) + ∑ λi∗ ∇2 hi (x∗ ) y.
i=1
Como y es un elemento genérico de V (x∗ ), el teorema está probado.

El ejemplo siguiente ilustra la situación en la que el punto x∗ no es regular, es decir, aquella
situación en que los gradientes ∇h1 (x∗ ), . . ., ∇hm (x∗ ) son linealmente dependientes.
Consideremos el problema en R2
(P) := mı́n f (x) = x1 + x2 (110)
h (x) = (x1 − 1)2 + x22 − 1 = 0
s.a. 1
h2 (x) = (x1 − 2)2 + x22 − 4 = 0
Se advierte que en el mı́nimo local (y global) x∗ = (0, 0)T el gradiente de la función objetivo,
∇ f (x∗ ) = (1, 1)T no puede ser expresado como una combinación lineal de los gradientes ∇h1 (x∗ ) =
(−2, 0)T y ∇h2 (x∗ ) = (−4, 0)T . Ası́ pues, la condición necesaria de 1er orden (104) no puede
satisfacerse, cualesquiera que sean λ1∗ y λ2∗ .
La dificultad radica en que el subespacio de las variaciones posibles de primer orden: V (x∗ ) =

2 1
y ∈ R2 : y = 0 tiene dimensión superior a la del conjunto de direcciones factibles verdaderas
y ∈ R : y = 0n .
En muchas ocasiones es conveniente escribir las condiciones de optimalidad en términos de la
función lagrangiana L : Rn+m → R, definida por
m
L (x, λ ) := f (x) + ∑ λi hi (x). (111)
i=1
Entonces, si x∗ es un mı́nimo local del problema (P), las condiciones necesarias de optimalidad
(104) y (105) junto con la condición de ‘factibilidad’ h(x∗ ) = 0m , se expresan compactamente
∇x L (x∗ , λ ∗ ) = 0n , ∇λ L (x∗ , λ ∗ ) = 0m , (112)
yT ∇2xx L (x∗ , λ ∗ ) y ≥ 0, ∀y ∈ V (x∗ ). (113)
49
Tal y como la experiencia en el caso irrestringido indica, una solución del sistema (de n + m
ecuaciones, con n + m incógnitas) (112) podrı́a incluso corresponder a un máximo.
Consideremos el problema
1
(P) := mı́n (x21 + x22 + x23 ) (114)
2
s.a. x1 + x2 + x3 = 3.
Las condiciones necesarias de optimalidad de primer orden (112) conducen al siguiente sistema
x∗1 + λ ∗ = 0,
x∗2 + λ ∗ = 0,
x∗3 + λ ∗ = 0,
x1 + x2 + x3 = 3.
Este es un sistema de cuatro ecuaciones con cuatro incógnitas (n + m = 3 + 1 = 4), con una
única solución
x∗1 = x∗2 = x∗3 = 1, λ ∗ = −1.

El gradiente de h es (1, 1, 1)T en cualquier punto factible, y todo punto factible será regular.
Ası́ pues, x∗ = (1, 1, 1)T es el único candidato a óptimo local. Además, puesto que ∇2xx L(x∗ , λ ∗ )
es la matriz identidad, la condición necesaria de segundo orden es trivialmente satisfecha. Por lo
tanto, ciertamente, x∗ = (1, 1, 1)T queda acreditado como único candidato a mı́nimo local.
Para tomar una decisión definitiva acerca de si x∗ es ciertamente un mı́nimo local, necesi-
tamos de las condiciones suficientes de optimalidad, aunque en este caso concreto también se
puede apelar a un sencillo argumento ‘variacional’, por el que resulta inmediato comprobar que
x∗ = (1, 1, 1)T es un mı́nimo local de la función f sobre {x : h(x) = 0} (y por lo tanto es, también
mı́nimo global, por convexidad de f ).
Sea z = (z1 , z2 , z3 )T tal que h(x∗ + z) = 0 (es decir, z es un vector de variaciones que preserva
la factibilidad). Tiene, pues, que verificarse
(x∗1 + z1 ) + (x∗2 + z2 ) + (x∗3 + z3 ) = 3 ⇒ z1 + z2 + z3 = 0. (115)
Entonces:
1 ∗
f (x∗ + z) = (x1 + z1 )2 + (x∗2 + z2 )2 + (x∗3 + z3 )2
2
1
= f (x∗ ) + (z1 + z2 + z3 ) + z21 + z22 + z23
| {z } 2| {z }
0 >0
∗
> f (x ).
Si en vez del problema inicial hubiésemos considerado el problema

1 2
mı́n − x1 + x22 + x23 , (116)
2
s.a x1 + x2 + x3 = 3,
50
las condiciones (104) hubiesen proporcionado
x∗ = (1, 1, 1)T y λ ∗ = 1.
Sin embargo, la condición necesaria de segundo orden (113) no es satisfecha, y como todo
punto factible es regular, no podrá existir mı́nimo local del problema (116).
Antes de establecer las condiciones suficientes de optimalidad para el problema (P) del princi-
pio del capı́tulo, estableceremos un lema previo:
Lema 31. Sean P y Q dos matrices simétricas n × n. Asumamos que Q es semidefinida positiva,
mientras que P es definida positiva sobre el espacio nulo de Q, esto es
xT Px > 0, ∀x 6= 0n tal que Qx = 0n .
Entonces, existe un escalar c tal que
P + cQ es definida positiva ∀c ≥ c. (117)
Demostración. Por ser Q semidefinida positiva, si existe c tal que P + cQ es definida positiva,
entonces se verifica ∀x 6= 0n y ∀c ≥ c :
0 < xT Px + cxT Qx ≤ xT Px + cxT Qx = xT (P + cQ)x,
luego (117) se cumple.

Asumamos lo contrario, es decir que no existe c ∈ R tal que P + cQ es definida positiva. En
particular no existirá k ∈ N tal que P +kQ sea definida positiva. Entonces, para todo número natural
k, existirá un vector xk tal que kxk k = 1 y
xTk Pxk + kxTk Qxk ≤ 0. (118)
Puesto que {xk } está contenda en un compacto, existirá una subsucesión {xkr } convergente a x∗
(kx∗ k = 1). Tomando lı́mites en (118) para k = kr y r → ∞:
xTkr Pxkr ≤ −kr xTkr Qxkr ≤ 0 ⇒ lı́m xTkr Pxkr = xT Px ≤ 0. (119)

r→∞
Ahora veamos que

lı́m xT Qxkr = 0.
r→∞ kr
Supongamos que no es ası́, en cuyo caso existirı́a un ε > 0 tal que para todo j ∈ N existe un kr j > j
tal que
xTkr Qxkr j ≥ ε ,
j
por lo que n o
lı́m xTkr Pxkr j + kr j xTkr Qxkr j = +∞,
j→∞ j j
lo cual contradice (118). En definitivas cuentas hemos probado que
xT Qx = 0. (120)
Veamos ahora que Qx = 0n , con lo que habremos llegado a una contradicción con la hipótesis
de partida.
51
Sean
0 = λ1 = λ2 = · · · = λi0−1 < λi0 ≤ · · · ≤ λn
los valores propios de Q, y sean x1 , x2 , . . . , xn vectores unitarios, mutuamente ortogonales, tales que
xi es un vector propio asociado a λi . Entonces ∀i
!
n
T T
0 = x Qx = x ∑ λixixTi x=
i=i0
n 2
= ∑ λi xT xi ⇒ x ⊥ xi , para i = i0 , . . . , in .
i=i0
Entonces !
n n
Qx = ∑ λixixTi x= ∑ λixi xT xi = 0n .
i=i0 i=i0
A continuación estableceremos las condiciones suficientes de optimalidad para el problema

(P). Proponemos una prueba basada en la noción de lagrangiano aumentado, base conceptual de
muchos algoritmos importantes, y que se define del siguiente modo
c
Lc (x, λ ) := f (x) + λ T h(x) + kh(x)k2 ,
2
con c ∈ R.
Esta función coincide con el lagrangiano ordinario del problema
c
mı́n f (x) + kh(x)k2 (121)
2
s.a. h(x) = 0m ,
problema que tiene los mismos mı́nimos locales que nuestro problema original de minimizar f (x)
sujeto a h(x) = 0m . El gradiente y el hessiano de Lc con respecto a x son:
∇x Lc (x, λ ) = ∇ f (x) + ∇h(x)(λ + ch(x)),

m
∇2xx Lc (x, λ ) = ∇ f (x) + ∑ (λi + chi (x)) ∇2 hi (x) + c∇h(x)∇h(x)T .
2
i=1
Teorema 32. (Condición suficiente de optimalidad) Asumamos que las funciones f y hi , i =

1, . . ., m, son de clase C 2 en un abierto W ⊂ Rn . Supongamos que x∗ ∈ W y λ ∗ ∈ Rm satisfa-
cen las siguientes condiciones:
∇x L(x∗ , λ ∗ ) = 0n , ∇λ L(x∗ , λ ∗ ) = 0m , (122)
yT ∇2xx L(x∗ , λ ∗ )y > 0, ∀y 6= 0n tal que ∇h(x∗ )T y = 0m . (123)

Entonces, x∗ es un mı́nimo local estricto del problema (P). Existirán, además, escalares γ > 0 y
ε > 0 tales que
γ
f (x) ≥ f (x∗ ) + kx − x∗ k2 , ∀x tal que h(x) = 0m y kx − x∗ k < ε . (124)
2
52
Demostración. Si x∗ y λ ∗ satisfacen la condición (122) se tendrá, dadas las relaciones probadas
anteriormente:
∇x Lc (x∗ , λ ∗ ) = ∇ f (x∗ ) + ∇h(x∗ ) (λ ∗ + ch(x∗ ))

= ∇x L(x∗ , λ ∗ ) = 0n , (125)
∇2xx Lc (x∗ , λ ∗ ) = ∇2xx L(x∗ , λ ∗ ) + c∇h(x∗ )∇h(x∗ )T . (126)
Por (123), tenemos que yT ∇2xx L(x∗ , λ ∗ )y > 0 para todo y tal que ∇h(x∗ )T y = 0 (lo que es equiva-
lente a que y pertenezca al espacio nulo de ∇h(x∗ )∇h(x∗ )T ). Aplicando el último lema, existirá un
c tal que, por (126),
∇2xx Lc (x∗ , λ ∗ ) es definida positiva ∀c > c. (127)
Aplicando las condiciones suficientes de optimalidad para el problema irrestringido, concluimos a
partir de (125) y (127) que, para c > c, x∗ es un mı́nimo local irrestringido de la función Lc (·, λ ∗)
y que, además, existen γ > 0 y ε > 0 tales que
γ
Lc (x, λ ∗ ) ≥ Lc (x∗ , λ ∗ ) + kx − x∗ k2 , ∀x tal que kx − x∗ k < ε .
2
Puesto que ∀x con h(x) = 0, tenemos Lc (x, λ ∗ ) = f (x), se sigue que
γ
f (x) ≥ f (x∗ ) + kx − x∗ k2 , ∀x tal que h(x) = 0m y kx − x∗ k < ε .
2
Ası́ pues, x∗ es un mı́nimo local (estricto) de f sobre h(x) = 0m , que verifica adicionalmente la
desigualdad (124).
Para ilustrar el último teorema, consideremos el siguiente problema de optimización con dos
variables:
1
(P) := mı́n f (x) = (x21 − x22 ) − x2 , (128)
2
s.a. x2 = 0.
Se comprueba, con facilidad, que x∗ = (0, 0)T y λ ∗ = 1 es el único par (x, λ ) que satisface las
condiciones (122) y (123). Obviamente x∗ = (0, 0)T es el único mı́nimo global del problema (P)
(que es equivalente a minimizar 21 x21 en R, y tomar x∗2 = 0).
El lagrangiano aumentado es:
1 2 c
Lc (x, λ ∗ ) = (x1 − x22 ) − x2 + λ ∗ x2 + x22 =
2 2
1 2 1
= x + (c − 1)x22
2 1 2
y x∗ es el único mı́nimo irrestringido de Lc (x, λ ∗ ), si c > c = 1.
13.2. Restricciones en forma de desigualdad

Consideremos el problema de Programación No-Lineal (abreviadamente, PNL) dado por:
(P) Min f (x)

(1.1)
s.a. gi (x) ≤ 0, i = 1, 2, ..., m,
53
donde x ∈ Rn es el vector de variables, f : Rn → R es la función objetivo de (P), y gi : Rn → R,
con i = 1, 2, ..., m, son las funciones que determinan las restricciones de (P) . A medida que se
vayan requiriendo, iremos incorporando ciertas hipótesis de continuidad y diferenciabilidad a estas
funciones. El conjunto factible de (P) será
F := {x ∈ Rn | gi (x) ≤ 0, i = 1, 2, ..., m}.
A lo largo de esta sección se presentan diferentes condiciones necesarias y condiciones sufi-

cientes para que un punto x∗ ∈ F sea óptimo local de (P)13 . De nuevo, x∗ ∈ F es óptimo local de
(P) si existe un entorno U ⊂ Rn de x∗ tal que f (x∗ ) ≤ f (x) para todo x ∈ F ∩U ; asimismo, se dice
que x∗ ∈ F es un óptimo global de (P) si f (x∗ ) ≤ f (x) para todo x ∈ F.
La condiciones de optimalidad, además de proporcionar técnicas analı́ticas de resolución de
problemas de PNL, constituyen una herramienta clave en la descripción de los métodos numéricos
de aproximación de las soluciones óptimas de dichos problemas. De hecho, la verificación de
ciertas condiciones de optimalidad suele utilizarse como criterio de parada en dichos métodos.
A este respecto, las condiciones de Karush-Kuhn-Tucker (que abreviamos por KKT) juegan un
papel destacado en optimización. Estas condiciones, bajo ciertas hipótesis adicionales sobre las
restricciones de (P) (referidas en la literatura como cualificaciones de restricciones), se convierten
en condiciones necesarias de optimalidad (local), proporcionando ası́ un método con el que obtener
todos los ‘candidatos’ a óptimos locales de (P) .
Con el propósito de establecer condiciones de optimalidad en la linea de la condiciones de
Lagrange, habremos de distinguir entre dos clases de restricciones que vienen asociadas a cada
x∗ ∈ F: el conjunto de restricciones activas en x∗ , aquellas que se satisfacen con igualdad en x∗ , y
el formado por las restantes (restricciones inactivas). Denotaremos por I (x∗ ) al conjunto de ı́ndices
asociados a las primeras; esto es,
I (x∗ ) := {i ∈ {1, 2, ..., m} | gi (x∗ ) = 0} .
Veamos que, bajo ciertas hipótesis de continuidad, en la búsqueda de óptimos locales de (P) po-
demos prescindir de las restricciones inactivas. En términos formales, si x∗ ∈ F es un óptimo local
/ I (x∗ ) , son continuas en x∗ , entonces el mismo punto es óptimo local del
de (P) , y las gi , con i ∈
problema
(PI(x∗ ) ) Min f (x)
s.a gi (x) ≤ 0, i ∈ I (x∗ ) .
En efecto, sea U ⊂ Rn un entorno de x∗ tal que f (x∗ ) ≤ f (x) , para todo x ∈ F ∩U, y sea V ⊂ Rn un
entorno de x∗ de forma que gi (x) < 0, para todo x ∈ V, con i ∈ / I (x∗ ) (la existencia de V se deduce
de la continuidad de estas funciones). Entonces, denotando por F al conjunto factible de (PI(x∗ ) ),
se tiene que f (x∗ ) ≤ f (x) , para todo x ∈ F ∩V ∩U, puesto que F ∩V ⊂ F.
Además, obviamente, x∗ también es óptimo local del problema que resulta de reemplazar en
(PI(x∗ ) ) las desigualdades por igualdades, pues F contedrı́a al nuevo conjunto factible.
En un primer acercamiento a la mencionadas condiciones de KKT, obsérvese que si x∗ ∈ F es
un óptimo local de (P) , f es diferenciable en x∗ , las gi , con i ∈ I (x∗ ) , son de clase C 1 en un entorno
13 Con el fin de simplificar la notación, supondremos que las funciones que describen el modelo (P) están definidas
en Rn . No obstante, todos los resultados incluidos en este tema que hacen referencia a óptimos locales de (P) serı́an
igualmente válidos en el caso en que dichas funciones estuvieran definidas en un abierto W ⊂ Rn , en cuyo caso, el
conjunto factible vendrı́a dado por F := {x ∈ W | gi (x) ≤ 0, i = 1, 2, ..., m} , y las definiciones de óptimo local y global
son idénticas a las expresadas en esta sección.
54
de x∗ , las gi , con i ∈
/ I (x∗ ) , son continuas en x∗ y el sistema de vectores {∇gi (x∗ ) : i ∈ I (x∗ )} es
linealmente independiente, entonces, atendiendo a los comentarios anteriores y en virtud de las
condiciones de Lagrange (104), deducimos la existencia de ciertos escalares λi∗ , i ∈ I (x∗ ) , tales
que
∇ f (x∗ ) + ∑ λi∗ ∇gi (x∗ ) = 0n . (1.4)
i∈I(x∗ )
(En el caso I (x∗ ) = 0,

/ quedarı́a ∇ f (x∗ ) = 0n ). Esta condición, sin embargo, se puede refinar, con-
cluyendo además que pueden tomarse λi∗ ≥ 0, i ∈ I (x∗ ) , lo que dará paso a las condiciones de KKT.
Observamos además que la hipótesis de independencia lineal del sistema {∇gi (x∗ ) : i ∈ I (x∗ )}
constituirá una de las cualificaciones de restricciones a las que nos referı́amos más arriba.
El caso de problemas de PNL con restricciones de desigualdad fue ya considerado por Fourier
en 1798, también en el contexto de la Mecánica Analı́tica, aportando algunas ideas fundamentales
acerca de las condiciones necesarias de optimalidad para cierto problema de equilibrio mecánico
que expresó en el formato (1.1). Estas condiciones, para dicho problema especı́fico, fueron demos-
tradas por Farkas en 1898 y expresadas en la misma forma (1.4), con λi∗ ≥ 0, i ∈ I (x∗ ) (véase
Prékopa (1980) para mayor detalle sobre los comienzos de la teorı́a de la optimización). El si-
guiente resultado14 , actualmente de referencia obligada en el campo de la Programación Lineal y
No-Lineal, proporciona la clave para establecer la no negatividad de λi , i ∈ I (x∗ ) .

Teorema 33 (Lema de Farkas, 1901). Sea σ := aTi x ≤ 0, i = 1, 2, ..., p un sistema de desigual-
dades lineales en la variable x ∈ Rn , donde ai ∈ Rn , i = 1, 2, ..., p. La desigualdad aT x ≤ 0 es una
consecuencia de σ (esto es, aT z ≤ 0 para todo z ∈ Rn tal que aTi z ≤ 0, i = 1, 2, ..., p) si y sólo si
existen ciertos λi ≥ 0, i = 1, 2, ..., p, tales que
p
a = ∑ λ i ai .
i=1
El tratamiento sistemático de los problemas de PNL con restricciones de desigualdad fue inicia-
do por Karush (1939), y Kuhn y Tucker (1951). Estos autores obtuvieron, de forma independiente,
las condiciones necesarias de optimalidad comentadas en párrafos anteriores bajo determinadas
hipótesis de cualificaciones de restricciones. Desde la publicación de Kuhn y Tucker (1951) dife-
rentes autores han dedicado un notable esfuerzo a la obtención de tales condiciones bajo diferentes
hipótesis de cualificación de restricciones como, por ejemplo, Cottle (1963), Abadie (1967), Man-
gasarian and Fromovitz (1967) y Guignard (1969). El material presentado aquı́ está inspirado en
los textos de Bazaraa et al. (1993), Bertsekas (1995), Fletcher (1987), y Luenberger (1989), ası́ co-
mo en el trabajo de Peterson (1973). Particularmente este último trabajo recoge una amplia gama
de cualificaciones de restricciones (introduce diecisiete de estas hipótesis) y analiza las conexio-
nes existentes entre ellas, dando lugar a diferentes cadenas de implicaciones que desembocan en
la hipótesis de cualificación de restricciones más débil, debida a Monique Guignard. La selección
de contenidos que hemos hecho en este tema obedece, por un lado, a cuestiones de simplicidad
y utilidad práctica, presentando una cadena principal de implicaciones con ciertas ramificaciones,
conectando ası́ determinadas cualificaciones de restricciones que suelen ser fácilmente verificables
en la práctica (como son las de Slater, Mangasarian, Mangasarian-Fromovitz y la que suele refe-
rirse como hı́potesis de independencia lineal). Por otro lado, hemos incorporado, por ejemplo, la
cualificación de restricciones de Kuhn y Tucker (1951), tanto por motivos históricos, como por el
14 Aunque la prueba de este resultado se encuentra en un trabajo de este autor publicado en húngaro en 1898, la
referencia más extendida es Farkas (1901).
55
valor teórico e interpretativo que añade al estudio de las restantes hipótesis de cualificaciones de
restricciones.
Finalmente hemos incorporado, en diferentes apéndices, algunos complementos del tema (co-
mo son las condiciones de Fritz-John, en el Apéndice A), detalles técnicos de algunas pruebas y
ejercicios (en Apéndice C), ası́ como la prueba completa del Teorema 58 (iii) (en el Apéndice B).
Particularmente, esta prueba, de marcado carácter técnico, ha sido incluida en un apéndice en un
intento de dar mayor fluidez al desarrollo del tema; no obstante, se incluyen algunas ideas sobre la
prueba tras el correspondiente enunciado.
En el Apéndice D se presentan una condición necesaria de optimalidad y otra condición sufi-
ciente, ambas de segundo orden. La condición suficiente dará pie, bajo hipótesis adecuadas, a una
interpretación de los multiplicadores de KKT que nos permitirá realizar determinado análisis de
sensibilidad del modelo.
A continuación presentamos aquellas herramientas del Análisis Convexo que son de especial
utilidad en las restantes secciones. Las incluimos aquı́ con el fin de hacer el tema autocontenido.
Definición 34. Un subconjunto no vacı́o de Rn , X , es un cono si para cualesquiera x ∈ X y λ ≥ 0

se tiene que λ x ∈ X .
Obsérvese que un cono no es necesariamente un conjunto n convexo, ni tampoco tiene

o porque ser
S T 2
un conjunto cerrado. Por ejemplo, el conjunto X = r∈N (x1 , x2 ) ∈ R | x2 = rx1 es un cono
y, sin embargo, no es un conjunto convexo, ni cerrado. Los conos convexos y cerrados juegan un
papel importante en el contexto de la optimización. Se comprueba fácilmente que el conjunto de
soluciones de un sistema homogéneo de desigualdades lineales, pongamos X = {x ∈ Rn | aTi x ≤ 0,
para todo i ∈ I} siendo I un conjunto de ı́ndices arbitrario (X = Rn , si I = 0),
/ es siempre un cono
convexo y cerrado (de hecho, es intersección de semiespacios cerrados).
Definición 35. Sea Y ⊂ Rn . Llamaremos cono polar (negativo) de Y al conjunto dado por

Y ◦ = z ∈ Rn | yT z ≤ 0, para todo y ∈ Y .
Los comentarios anteriores permiten afirmar que Y ◦ es siempre un cono convexo y cerrado.
Definición 36. Dado Y ⊂ Rn , denotaremos por cone (Y ) al cono convexo generado por Y, que
viene dado por
( )
p

cone (Y ) = ∑ λi yi λi ≥ 0, yi ∈ Y, i = 1, 2, ..., p, p ∈ N
i=1

(entendiendo que cone (0)

/ = {0n }).
Seguidamente presentamos una versión generalizada del Lema de Farkas para sistemas ho-
mogéneos con una colección arbitraria (posiblemente infinita) de desigualdades lineales.

Teorema 37 (Lema de Farkas generalizado). Sea σ := aTi x ≤ 0, i ∈ I un sistema de desigual-
dades lineales en la variable x ∈ Rn , donde I es un conjunto de ı́ndices arbitrario. La desigualdad
aT x ≤ 0 es una consecuencia de σ (esto es, aT z ≤ 0 si z ∈ Rn verifica aTi z ≤ 0 para todo i ∈ I) si,
y sólo si,
a ∈ cl (cone {ai , i ∈ I}) .
56
La siguiente proposición recoge algunas propiedades básicas acerca de conos polares que serán
utilizadas en el resto del tema.
Proposición 38. Sean Y, Z ⊂ Rn . Se verifican los siguientes enunciados:
(i) Si Y ⊂ Z, entonces Z ◦ ⊂ Y ◦ ;
(ii) Y ◦ = (cone (Y ))◦ = (cl (cone (Y )))◦ ;
(iii) Y ◦◦ (:= (Y ◦ )◦ ) = cl (cone (Y )) (Lema de Farkas generalizado);
(iv) Y ◦◦ = Y si y sólo si Y es un cono convexo y cerrado.
Las condiciones (i) y (ii) de la proposición anterior se obtienen fácilmente a partir de la defi-
nición de cono polar (negativo), mientras que (iv) es un consecuencia de (iii). Hemos destacado
el hecho de que la condición (iii) es una traducción del Lema del Farkas. En efecto, a ∈ Y ◦◦ , por
definición, si aT z ≤ 0, para todo z ∈ Rn tal que yT z ≤ 0, para todo y ∈ Y ; esto es, si aT x ≤ 0 es
consecuencia del sistema yT x ≤ 0, y ∈ Y . Ası́ pues, empleando la notación de cono polar, el
Lema de Farkas generalizado podrı́a enunciarse como: a ∈ Y ◦◦ si y sólo si a ∈ cl (cone (Y )).
Observación 39. Por su parte, el enunciado del Lema de Farkas para sistemas homogéneos finitos
(véase §1) se traducirı́a en los términos:
‘Si Y es finito, entonces Y◦◦ = cone (Y ) ’,
lo que se deduce del hecho de que todo cono finitamente generado es cerrado.
Dado el problema
(P) Min f (x)
s.a. gi (x) ≤ 0, i = 1, 2, ..., m,
la siguiente proposición expresa una primera condición necesaria de optimalidad local en términos
del llamado cono de las tangentes a F en x∗ , Tx∗ , que viene dado por:
n o
n r ∗ r r ∗
Tx := d ∈ R | d = lı́m λr (x − x ) ; λr > 0, x ∈ F para todo r, y lı́m x = x .
∗
r→∞ r→∞
Proposición 40. Si x∗ ∈ F es un óptimo local de (P) , y f es diferenciable en x∗ , entonces

−∇ f (x∗ ) ∈ Tx◦∗ .
Demostración. Veamos que ∇ f (x∗ )T d ≥ 0 para todo d ∈ Tx∗ . Pongamos d = lı́mr→∞ λr (xr − x∗ )
con λr > 0, xr ∈ F para todo r, y lı́mr→∞ xr = x∗ . Supongamos que d 6= 0 (en otro caso la desigual-
dad buscada es trivial), lo que permite suponer sin pérdida de generalidad que xr − x∗ 6= 0 para todo
r. Por la diferenciabilidad de f , podemos escribir
f (xr ) = f (x∗ ) + ∇ f (x∗ )T (xr − x∗ ) + o(kxr − x∗ k). (3.1)
Puesto que f (xr ) ≥ f (x∗ ) para r suficientemente grande, pongamos r ≥ r0 , (por ser x∗ óptimo local
de (P)), de (3.1) se deduce que ∇ f (x∗ )T (xr − x∗ ) + o(kxr − x∗ k) ≥ 0, para r ≥ r0 . Entonces,
r ∗
∗ T ∗ T r ∗ r ∗ o(kx − x k)
∇ f (x ) d = lı́m λr ∇ f (x ) (x − x ) + λr kx − x k ≥ 0,
r→∞ kxr − x∗ k
puesto que lı́mr→∞ λr kxr − x∗ k = kdk .
La condición que se establece en esta proposición, si bien en primera instancia no conduce a
un método práctico de resolución de problemas, será de gran utilidad teórica en el resto de esta
sección.
57
Definición 41. Se dice que x∗ ∈ F es un punto de KKT de (P) si existen escalares λi ≥ 0, i ∈ I (x∗ ),
tales que
−∇ f (x∗ ) = ∑ λi ∇gi (x∗ ) .
i∈I(x∗ )
(En otros términos, −∇ f (x∗ ) ∈ cone {∇gi (x∗ ) ; i ∈ I (x∗ )}).
En ocasiones nos referiremos a las condiciones
−∇ f (x∗ ) = ∑∗ λi ∇gi (x∗ ) , λi ≥ 0, i ∈ I (x∗ ) , x∗ ∈ F,

i∈I(x )
como condiciones de KKT15 . El conjunto Gx∗ que introducimos a continuación nos permitirá co-
nectar la condición necesaria de optimalidad presentada en la proposición 40 con las condiciones
de KKT16 : n o
Gx∗ := d ∈ Rn | ∇gi (x∗ )T d ≤ 0, i ∈ I (x∗ ) .
Observación 42. Sea x∗ ∈ F. Se tiene que x∗ es punto de KKT de (P) si, y sólo si,
−∇ f (x∗ ) ∈ G◦x∗ .
En efecto, basta observar que
cone {∇gi (x∗ ) , i ∈ I (x∗ )} = {∇gi (x∗ ) , i ∈ I (x∗ )}◦◦ = G◦x∗ ,
donde hemos utilizado la traducción del Lema de Farkas dada en la observación 39.
El siguiente ejemplo ilustra la condición necesaria de optimalidad establecida en la Proposición

40, al tiempo que muestra una situación en la que fallan las condiciones de KKT.
Ejemplo 43 (Kuhn y Tucker, 1951). . Consideremos el problema de PNL, en R2 , dado por:
(P) Min x1
s.a. x2 − x31 ≤ 0,
−x2 ≤ 0.
T
n T
o
x∗
Para = (0, 0) se comprueba fácilmente que Tx∗ = cone (1, 0) , mientras que Gx∗ coincide
n T
o
con el subespacio vectorial generado por (1, 0) . Ası́, −∇ f (x∗ ) = (−1, 0)T ∈ Tx◦∗ , mientras que
−∇ f (x∗ ) ∈
/ G◦x∗ , y por tanto no es un punto de KKT. Por otro lado, puede comprobarse fácilmente
∗
que x es óptimo local (de hecho global, pues todo punto factible verifica x31 ≥ x2 ≥ 0, y entonces
x1 ≥ 0). La Figura 15 ilustra gráficamente, entre otros, los conjuntos F, Tx◦∗ y G◦x∗ .
15 Las condiciones de KKT pueden, alternativamente, expresarse de la siguiente forma: −∇ f (x) = ∑m i=1 λi ∇gi (x) ,
λi gi (x) = 0, λi ≥ 0, i = 1, 2, ..., m, x ∈ F; en cuyo caso las condiciones λi gi (x) = 0, i = 1, 2, ..., m, son referidas como
condiciones de complementariedad.
16 Con el fin de dar mayor fluidez a la exposición, supondremos implı́citamente que, cuando aparezcan gradientes
en el texto, éstos existen. No obstante, en los enunciados formales (como teoremas, proposiciones, etc.) se explicitarán
las hipótesis de diferenciabilidad bajo las que estamos trabajando.
58
Go
∇ g1 ( x*) x*
T
x*
-∇ f ( x*) F
x* x*
To G
x* x*
∇g 2 ( x*)
Figura 15: Elementos asociados al problema del ejemplo 3.4
Atendiendo a la observación anterior, es obvio que la hipótesis Tx◦∗ = G◦x∗ hace que las condicio-
nes de KKT sean necesarias para que x∗ sea óptimo local. Por otro lado, la igualdad Tx◦∗ = G◦x∗ puede
expresarse equivalentemente por cl (cone (Tx∗ )) = Gx∗ . En efecto, si Tx◦∗ = G◦x∗ , entonces aplican-
do la proposición 38 (iii) y (iv) se tiene que cl (cone (Tx∗ )) = Tx◦◦ ◦◦
∗ = Gx∗ = Gx∗ . Recı́procamente,
◦
si cl (cone (Tx∗ )) = Gx∗ , entonces Tx◦∗ = (cl (cone (Tx∗ ))) = G◦x∗ , donde ahora hemos aplicado la
condición (ii) de la misma proposición. Hemos probado ası́ el siguiente teorema.
Teorema 44 (Condiciones de Karush-Kuhn-Tucker). Sea x∗ ∈ F es un óptimo local de (P) . Su-

pongamos que las funciones f y gi , con i ∈ I (x∗ ) , son diferenciables en x∗ , y que se verifica la
igualdad cl (cone (Tx∗ )) = Gx∗ . Entonces x∗ es un punto de KKT.
De este modo la condición ‘cl (cone (Tx∗ )) = Gx∗ ’ constituye una hipótesis de cualificación
de restricciones, que encontramos en la literatura como cualificación de restricciones de Guig-
nard (que abreviaremos por GCQ, del inglés Guignard’s constraint qualification). Esta hipótesis
de cualificación de restricciones es la más débil de todas las posibles, en el sentido de que si no
se cumple, puede encontrarse una función objetivo para la que x∗ es óptimo local del problema
correspondiente, y no es punto de KKT.
Seguidamente analizaremos diferentes cualificaciones de restricciones, con el fin de proporcio-
nar nuevas condiciones más operativas desde un punto de vista práctico. Para ello, consideremos
los siguientes conjuntos asociados a x∗ ∈ F:
n o
Gex∗ : = d ∈ Rn | ∇gi (x∗ )T d < 0, i ∈ I (x∗ ) ;

∃ε > 0, ∃α : [0, ε ] →F derivable en [0, ε [, con
Dx∗ : = d ∈ R n
.
α (0) = x∗ , y α ′ (0) = d
Asimismo consideraremos el conjunto dado por:

∃ε > 0, ∃α : [0, ε ] →F derivable en 0, con
Ax∗ := d ∈ R
n
.
α (0) = x∗ , y α ′ (0) = d
En ocasiones Ax∗ es referido como el conjunto de las direcciones admisibles en x∗ .
59
Observación 45. Puede comprobarse fácilmente que, asumiendo la diferenciabilidad de las fun-
ciones gi , i ∈ I (x∗ ) , en x∗ , y la continuidad en el mismo punto x∗ de las funciones gi , i ∈ / I (x∗ ) ,
se verifica el contenido G ex∗ ⊂ Dx∗ . Sin embargo, con el fin de facilitar el análisis de la relación
existente entre diferentes
cualificaciones de restricciones que vendrán asociadas a estos conjuntos,
probaremos que cl G ex∗ ⊂ Dx∗ . Obsérvese que este último enunciado no es consecuencia directa
de la inclusión Gex∗ ⊂ Dx∗ puesto que Dx∗ no es, en general, cerrado (véase Apéndice C).
Teorema 46. Sea x∗ ∈ F y supongamos que las funciones gi , con i ∈ I (x∗ ) , son diferenciables en
x∗ , y las funciones
gi , con i ∈ / I (x∗ ) , son continuas en x∗ . Se verifican las siguientes relaciones:
(i) cl Gex∗ = Gx∗ si y sólo si G
ex∗ 6= 0;
/

(ii) cl Gex∗ ⊂ Dx∗ ⊂ Ax∗ ⊂ Tx∗ ⊂ cl (cone (Tx∗ )) ⊂ Gx∗ .

Demostración. (i). Puesto que Gx∗ es siempre no vacio (0n ∈ Gx∗ ), si cl G ex∗ = Gx∗ , entonces
e ex∗ 6= 0/ y sea de ∈ Gex∗ . Veamos que Gx∗ ⊂
Gx∗ 6= 0.
hade ser / Recı́procamente, supongamos que G
cl Gex∗ (el otro contenido es inmediato, pues G ex∗ ⊂ Gx∗ y Gx∗ es cerrado). Para cualquier d ∈

Gx∗ se tiene que d r := 1 − 1r d + 1r de ∈ G ex∗ , para todo r = 1, 2, ..., puesto que ∇gi (x∗ )T d r =

1 − 1 ∇gi (x∗ )T d + 1 ∇gi (x∗ )T de< 0, para cada i ∈ I (x∗ ) . Ası́ pues, d = lı́mr→∞ d r ∈ cl G
r r
ex∗ .
(ii). Es obvio que Dx∗ ⊂ Ax∗ .
α (t)−α (0)
Además Ax∗ ⊂ Tx∗ , ya que si d ∈ Ax∗ podemos escribir d = lı́mt→0+ t para alguna fun-
ción α : [0, ε ] → F (siendo ε > 0), y en particular d = lı́mr→∞ εr (α (ε /r) − α (0)) ∈ Tx∗ .
Veamos ahora que cl (cone (Tx∗ )) ⊂ Gx∗ . Puesto que Gx∗ es un cono convexo y cerrado, bas-
tará probar que Tx∗ ⊂ Gx∗ . Sea d ∈ Tx∗ y pongamos d = lı́mr→∞ λr (xr − x∗ ) con λr > 0, xr ∈ F para
todo r, y lı́mr→∞ xr = x∗ . Por la diferenciabilidad de gi , para i ∈ I (x∗ ), se tiene que
gi (xr ) = gi (x∗ ) + ∇gi (x∗ )T (xr − x∗ ) + o(kxr − x∗ k), para r = 1, 2, ... (129)
Dado que gi (xr ) ≤ 0, para todo r ∈ N, multiplicando en (129) por λr y haciendo r → +∞ se tiene
que
∗ T ∗ T r ∗ r ∗ o(kxr − x∗ k)
∇gi (x ) d = lı́m λr ∇gi (x ) (x − x ) + kλr (x − x )k ≤ 0,
r→∞ kxr − x∗ k
concluyendo que d ∈ Gx∗ .
A continuación probaremos el contenido ‘cl G ex∗ ⊂ Dx∗ ’. Sea d ∈ cl G ex∗ , y sea de ∈ Gex∗ .
En primer lugar obsérvese que el mismo argumento utilizado en la prueba de (i) muestra que
d λ := (1 − λ ) d + λ de ∈ Gex∗ , para todo λ ∈ ]0, 1] . Además, bajo las hipótesis actuales, para cada
λ ∈ ]0, 1] existe cierto tλ > 0 tal que x∗ +td λ ∈ F para todo t ∈ [0,tλ ] . En efecto, fijemos λ ∈ ]0, 1] .
Para i ∈ I (x∗ ) , como consecuencia de la diferenciabilidad de gi en x∗ podemos escribir

gi x + td = gi (x∗ ) + t∇gi (x∗ )T d λ + o(t).
∗ λ
Puesto que ∇gi (x∗ )T d λ < 0, para t suficientemente pequeño (pongamos 0 < t ≤ tλ ,i , para cierto

tλ ,i > 0) tendremos que ∇gi (x∗ )T d λ + o(t) ∗
t < 0. Entonces, para t ∈ 0,tλ ,i , se cumplirá gi x + td
λ ≤
/ I (x∗ ) (esto es, gi (x∗ ) < 0), como consecuencia

0. Por otro lado, si i ∈ de la continuidad degi en x
∗
también deducimos la existencia de cierto tλ ,i > 0 tal que gi x∗ + td λ ≤ 0, para todo t ∈ 0,tλ ,i .
60

Basta tomar entonces tλ := mı́n tλ ,i , i = 1, 2, ..., m para asegurar que x∗ + td λ ∈ F para todo
t ∈ [0,tλ ] .
Definamos para cada λ ∈ ]0, 1]
n o
t λ := sup t > 0 | x∗ + td λ ∈ F, para todo t ∈ [0,t] y todo i = 1, 2, ..., m ,
(en el párrafo anterior se prueba que este conjunto es no vacı́o). Asimismo, para cada λ ∈ ]0, 1]
consideremos
Tλ := ı́nf t µ | µ ≥ λ .
A continuación veremos que Tλ > 0 para todo λ ∈ ]0, 1] . Razonando por reducción al absurdo
supongamos que Tλ0 = 0, para cierto λ0 ∈ ]0, 1] . Entonces, existe una sucesión t µr ⊂ ]0, +∞[,
asociada a la sucesión {µr } ⊂ [λ0 , 1] , tal que lı́mr→∞ t µr = 0. Además {µr } tendrá un subsucesión,
que denotaremos de la misma forma, convergente a cierto µ0 ≥ λ0 , y como consecuencia la su-
cesión {d µr } convergerá hacia d µ0 . Por otro lado, por la definición
de t µr , para cada r, existirán
b 1 ∗ b µ
ir ∈ {1, 2, ..., m} y tµr ∈ 0,t µr + r tales que gir x + tµr d > 0. Puesto que, ir ∈ {1, 2, ..., m} pa-
r
ra todo r, podemos suponer sin pérdida de generalidad que {ir } es constante (en otro caso, tendrı́a
una subsucesión constante y trabajarı́amos con dicha subsucesión). Poniendo entonces ir = i0 para
todo r, deducimos gi0 (x∗ ) ≥ 0 como consecuencia de la continuidad en x∗ de gi0 (obsérvese que
lı́mr→∞ (x∗ + b tµr d µr ) = x∗ ). La única posibilidad entonces es que i0 ∈ I (x∗ ) . Pero, aplicando ahora
la diferenciabilidad de gi0 en x∗ , tendremos, para todo r = 1, 2, ...,

0 < gi0 x∗ + b tµr d µr = gi0 (x∗ ) + b
tµr ∇gi (x∗ )T d µr + o btµr .
Si ahora, para cada r, dividimos por b tµr , y hacemos r → +∞, obtenemos ∇gi (x∗ )T d µ0 ≥ 0. Esta
desigualdad contradice el hecho de que d µ0 ∈ G ex∗ .
Ası́ pues, Tλ > 0 para todo λ ∈ ]0, 1] . Además, es una consecuencia directa de la definición
que Tλ es creciente en λ . Seguidamente distinguiremos dos casos.
n
Caso1. λ →0+ Tλ = T > 0. En este caso, podemos definir la curva α : [0, ε ] → R , siendo
Tlı́m
ε := mı́n 2 , 1 dada por

α (0) := x∗ , α (λ ) = x∗ + λ d λ = x∗ + λ (1 − λ ) d + λ de , para λ ∈ ]0, ε ] .
Ası́, α T (0) = d, α es diferenciable en [0, ε ] , y además α (λ ) ∈ F para todo λ ∈ [0, ε ] (puesto que
λ < T ≤ Tλ ≤ t λ ).
Caso2. lı́mλ →0+ Tλ = 0. Sea {λr } ⊂ ]0, 1] estrictamente decreciente y convergente a cero.
Puesto que la sucesión asociada Tλr también converge a cero, podemos suponer sin pérdida
T
de generalidad (tomando una subsucesión adecuada si es necesario) que Tλr+1 < 2λr , para todo r.
h T i
λ
Definiremos en este caso una curva diferenciable en 0, 21 de la siguiente manera:
 h i
 x∗ + td λr , T
si t ∈ Tλr+1 , 2λr , r = 1, 2, ...,
α (t) := i h
 x∗ + t (1 − ϕr (t)) d λr+1 + ϕr (t) d λr , si t ∈ Tλr+1 , T
2 λr+1 , r = 1, 2, ...,
hT i
λ
siendo α (0) := x∗ , y donde para cada r, ϕr : r+1 2 , Tλr+1 → [0, 1] esta dada por
T 2
λ
t − r+12
ϕr (t) := 2 2
.
Tλr+1
t− 2 + t − Tλr+1
61
Puede comprobarse que (los cálculos
h T i correspondientes se encuentran en el Apéndice C):
i) α (t) ∈ F para todo t ∈ 0, 2λ1 ;
h T i
ii) α es diferenciable (será de hecho de clase C 1 ) en el intervalo 0, 2λ1 ;
iii) α T (0) = d.
La relación de contenidos entre los conjuntos considerados en esta sección conduce a las si-
guientes hipótesis de cualificación de restricciones relativas a x∗ , y redunda en la relación de im-
plicaciones que se expresa a continuación (recuérdese que estamos suponiendo que las gi , con
i ∈ I (x∗ ) , son diferenciables en x∗ , y las gi , con i ∈
/ I (x∗ ) continuas en x∗ ):
Cualificación de
Abreviada por: Hipótesis:
restricciones de :

Mangasarian-Fromovitz ‘ cl Gex∗ = Gx∗ ’
MFCQ
(o también de Cottle) (⇔ Gex∗ 6= 0)
/
Kuhn-Tucker KTCQ ‘Dx∗ = Gx∗ ’
Arrow-Hurwicz-Uzawa AHUCQ ‘Ax∗ = Gx∗ ’
Abadie ACQ ‘Tx∗ = Gx∗ ’
Guignard GCQ ‘cl (cone (Tx∗ )) = Gx∗ ’
MFCQ ⇒ KTCQ ⇒ AHUCQ ⇒ ACQ ⇒ GCQ
Seguidamente introduciremos nuevas hipótesis de cualificación de restricciones, que consti-

tuirán condiciones suficientes para alguna de la mencionadas anteriormente, y que en determinados
casos prácticos pueden resultar más operativas. Una de ellas se basará en el siguiente teorema de
alternativa. Obsérvese además que el enunciado de este teorema presenta una caracterización de la
condición Gex∗ 6= 0/ (MFCQ).
Teorema 47 (de alternativa de Gordan). El sistema de desigualdades estrictas, en Rn , {aTi x <

0; i = 1, 2, ..., p} no tiene solución si y sólo si existen escalares λ1 , ..., λ p ≥ 0, con algún λi > 0
p
tales que ∑ λi ai = 0n .
i=1
T
Demostración. Supongamos que el sistema a x < 0; i = 1, 2, ..., p no tiene solución. En-
x
i
tonces si para algún xn+1 ∈ Rn+1 se tiene que aTi x + xn+1 ≤ 0, i = 1, 2, ..., p, debe ser xn+1 ≤ 0.
Ası́, en virtud del Lema de Farkas se deduce la existencia de ciertos λ1 , ..., λ p ≥ 0 tales que
p
0n ai
= ∑ λi .
1 i=1 1
p
Observando entoces las n primeras coordenadas de esta igualdad vectorial tenemos ∑i=1 λi ai = 0n ,
p
y la última expresa que ∑i=1 λi = 1. Hemos probado ası́ la condición ‘si’ del presente teorema.
p
Supongamos ahora que existen escalares λ1 , ..., λ p ≥ 0, no todos nulos, tales que ∑i=1 λi ai = 0n .
Si existiera algún x0 ∈ Rn verificando aT x0 < 0, i = 1, ..., p, alcanzarı́amos la contradicción 0 =
p
∑i=1 λi aT x0 < 0.
62
Proposición 48. Sea x∗ ∈ F, y supongamos que gi , i ∈ I (x∗ ) , son diferenciables en x∗ . Se verifican
las siguientes afirmaciones:
(i) Si los vectores {∇gi (x∗ ) , i ∈ I (x∗ )} son linealmente independientes, entonces G ex∗ 6= 0;
/
∗ n
(ii) Si las funciones gi , i ∈ I (x ) , son convexas y existe xb ∈ R tal que gi (b x) < 0, i ∈ I (x∗ ) ,
entonces G ex∗ 6= 0;
/
(iii) Si las funciones gi , i ∈ I (x∗ ) , son cóncavas, y gi , con i ∈
/ I (x∗ ) continuas en x∗ entonces
Dx∗ = Gx∗ .
Demostración. La condición (i) es consecuencia directa del Teorema de Gordan. Probemos (ii).
x) < 0, i ∈ I (x∗ ) . Puesto que las funciones gi , i ∈ I (x∗ ) , son convexas en Rn
Sea xb ∈ Rn tal que gi (b
y diferenciables en x∗ se tiene que
gi (x∗ ) + ∇gi (x∗ )T (x − x∗ ) ≤ gi (x) , para todo x ∈ Rn .
En particular ∇gi (x∗ )T (b x − x∗ ) = gi (x∗ ) + ∇gi (x∗ )T (b

x − x∗ ) ≤ gi (b
x) < 0, para todo i ∈ I (x∗ ) ; esto
es, xb− x∗ ∈ G ex∗ .
(iii). Supongamos que las funciones gi , i ∈ I (x∗ ) , son cóncavas (en Rn ) y veamos que Gx∗ ⊂
Dx∗ (el otro contenido ya fue establecido exigiendo únicamente la diferenciabilidad de las gi , con
i ∈ I (x∗ )). Sea d ∈ Gx∗ , esto es ∇gi (x∗ )T d ≤ 0, para todo i ∈ I (x∗ ) . La concavidad de las gi ,
i ∈ I (x∗ ) , junto con la diferenciabilidad de las mismas en x∗ implica que
gi (x) ≤ gi (x∗ ) + ∇gi (x∗ )T (x − x∗ ) , para todo x ∈ Rn .
Particularizando en los puntos de la forma x∗ + td, con t > 0, obtenemos:
gi (x∗ + td) ≤ gi (x∗ ) + t∇gi (x∗ )T d ≤ 0.
Por otro lado, puesto que las gi , con i ∈ / I (x∗ ) , son continuas en x∗ (y gi (x∗ ) < 0 para todo i ∈/
I (x∗ )), existe un t > 0, tal que gi (x∗ + td) < 0, para todo t ∈ [0,t] . Concluimos entonces que la
función α : [0,t] → Rn dada por α (t) = x∗ + td, verifica: α (t) ∈ F para todo t ∈ [0,t] , α (0) = x∗ ,
y obviamente α T (0) = d. Ası́ pues, d ∈ Dx∗ .
La proposición anterior proporciona en (i), (ii) y (iii) tres nuevas cualificaciones de restriccio-
nes, que expresamos a continuación, ası́ como sus conexiones con las introducidas previamente.
- Cualificación de restricciones de independencia lineal (LICQ): El sistema de vectores {∇gi (x∗ ), i ∈
I(x∗ )} es linealmente independiente.
- Cualificación de restricciones de Slater (SCQ): gi , i ∈ I (x∗ ) , son convexas y existe xb ∈ Rn tal
que gi (bx) < 0, i ∈ I (x∗ ) .
- Cualificación de restricciones de Mangasarian (MCQ): gi , i ∈ I (x∗ ) , son cóncavas.
Siendo x∗ ∈ F, gi , con i ∈ I (x∗ ) , diferenciables en x∗ , y gi , con i ∈
/ I (x∗ ) , continuas en x∗ ,
podemos presentar el siguiente esquema:
LICQ ⇒ MFCQ ⇒ KTCQ ⇒ AHUCQ ⇒ ACQ ⇒ GCQ

⇑ ⇑
SCQ MCQ
Corolario 49. Sea x∗ ∈ F un óptimo local de (P) y supongamos que las funciones f y gi , con
i ∈ I (x∗ ) , son diferenciables en x∗ , y que las gi ,con i ∈
/ I (x∗ ) , son continuas en x∗ . Si se cumple
alguna de las hipótesis indicadas en el esquema anterior, entonces x∗ es un punto de KKT.
63
Con el fin de ilustrar el teorema anterior, por un lado, y demostrar que no se verifica ninguno
de los recı́procos de las condiciones establecidas en el esquema previo, presentamos los siguientes
ejemplos.
Ejemplo 50. (MFCQ, ‘no LICQ, ni SCQ’). Consideremos el problema de PNL, en R2 , dado por:
(P) Min x1
s.a. x2 − x31 ≤ 0,
−x1 ≤ 0,
−x1 + x2 ≤ 0.
Para x∗ = (0, 0)T , el conjunto de ı́ndices activos viene dado por I (x∗ ) = {1, 2, 3}, y ∇g1 (x∗ ) =
(0, 1)T , ∇g2 (x∗ ) = (−1, 0)T , ∇g3 (x∗ ) = (−1, 1)T . Ası́, {∇gi (x∗ ) , i ∈ I (x∗ )} forman un sistema
linealmente dependiente, no teniéndose entonces la hipótesis LICQ. Tampoco se cumple SCQ,
n e 2
pues g1 no es convexa en R . Sin embargo Gx∗ = d ∈ R | d2 < 0, − d1 < 0, − d1 + d2 < 0 6= 0, /
luego se cumple MFCQ.
La Figura 16 muestra gráficamente el conjunto factible de (P) , y el conjunto G ex∗ . Obsérvese
∗
que x es un óptimo local de (P), y también un punto de KKT.
∇g1 ( x*)
∇g3 ( x*)
-∇ f ( x*)
x*
∇g2 ( x *) x*
F
G
x*
Figura 16: Elementos asociados al problema del ejemplo 3.11
Ejemplo 51. (KTCQ, ‘no MCQ, ni MFCQ’). Consideremos el problema de PNL, en R2 , dado por:
(P) Min x1
s.a. x2 − x31 ≤ 0,
−x1 ≤ 0,
−x2 ≤ 0.
T
/ pues ∇g1 (x∗ ) = (0, 1)T , y ∇g3 (x∗ ) = (0, −1)T ,
ex∗ = 0,
Tomemos x∗ = (0, 0) . Es inmediato que G
y por tanto no sencumpleoMFCQ. Tampoco se verifica MCQ pues g1 no es cóncava. Por otro
T
lado, Gx∗ = cone (1, 0)T ⊂ Dx∗ , pues x∗ + t (1, 0) ∈ F para todo t ∈ [0, +∞[ y, por tanto, se
T
cumple KTCQ. x∗ = (0, 0) es un óptimo local de (P), y punto de KKT. Obsérvese que éste sólo
se diferencia del Ejemplo 43 en que añade la restricción −x1 ≤ 0, la cual, por otro lado, es una
restricción redundante.
64
Ejemplo 52. (AHU, ‘no KTCQ’). Consideremos el problema de PNL, en R, dado por:
(P) Min x1
s.a. g1 (x1 ) ≤ 0,
g2 (x1 ) ≤ 0,
−x1 ≤ 0.

π
siendo g1 (x1 ) = x21 sin x1 , si x1 6= 0, g1 (x1 ) = 0, si x1 = 0, y siendo g2 (x1 ) = −g1 (x1 ) . Sea
x∗ = 0. Se tiene que Gx∗ = {d1 ∈ R |d1 ≥ 0} , puesto que g′1 (0) = g′2 (0) = 0.
En este caso F = 1k , k = 1, 2, ... ∪ {0} y obviamente no puede construirse ninguna curva
α : [0, ε ] → F, diferenciable en [0, ε ] y tal que α (0) = 0, y α ′ (0) = 1. De hecho si α : [0, ε ] → F
es continua en [0, ε ] , y α (0) = 0, entonces ha de ser α (t) = 0, para todo t ∈ [0, ε ] (pues la imagen
de un conjunto conexo mediante una función continua es un conexo), pero entonces α ′ (0) = 0.
Ası́ pues 1 ∈ Gx∗ \Dx∗ , y por tanto no se verifica KTCQ. Sin embargo, sı́ puede definirse una
función α : [0, ε ] → F, derivable en 0 y con α ′ (0) = 11, verificando
además que α (0) = 0. Por
1 1
ejemplo, sea α : [0, 1] → F, dada por α (t) = k , si t ∈ k+1 , k , k = 1, 2, ..., α (0) := 0. Se tiene que
1 1 1
α (t)−α (0) α (t) k
lı́mt→0+ t = 1, como consecuencia de que 1 ≤ t ≤ 1
= k+1
k , para todo t ∈ k+1 , k .
k+1
Ası́ pues, α ′ (0) = 1, y por tanto se verifica AHUCQ.
Ejemplo 53. (ACQ, ‘no AHUCQ’) Consideremos el problema de PNL, en R, dado por:
(P) Min x1
s.a. g1 (x1 ) ≤ 0,
g2 (x1 ) ≤ 0,
−x1 ≤ 0.
siendo g1 (x1 ) = x21 sin (π ln |x1 |) , six1 6= 0, g1 (x1 ) = 0, si x1 = 0, y siendo g2 (x1 ) = −g1 (x1 ) .
El conjunto factible de (P) es F = ek , k ∈ Z ∪ {0}. Si se considera x∗ = 0, se tiene que Tx∗ =
{x1 ∈ R |x1 ≥ 0} = Gx∗ , y por tanto se verifica ACQ. Sin embargo, en este caso no existe ninguna
función α : [0, ε ] → F, con α (0) = 0 y α ′ (0) = 1. De hecho, la única función α : [0, ε ] → F
diferenciable en 0, con α (0) = 0, es la función idénticamente nula (véase Apendice C).
Ejemplo 54. (GCQ, ‘no ACQ’) Consideremos el problema de PNL, en R2 , dado por:
(P) Min x1
s.a. x1 x2 ≤ 0,
−x1 x2 ≤ 0,
−x1 ≤ 0,
−x2 ≤ 0.

Es inmediato que F =n x ∈ R2o| x1 ≥ 0,n x2 = 0o ∪ x ∈ R2 | x1 = 0, x2 ≥ 0n . Ası́, para x∗o=
T T T T
02 , se tiene que Tx∗ = cone (1, 0) ∪cone (0, 1) , mientras que Gx∗ = cone (1, 0) , (0, 1) .

Por tanto, no se cumple ACQ, mientras que cl cone Tx∗ = Gx∗ , y por tanto sı́ se verifica GCQ.
Obsérvese que las hipótesis de cualificación de restricciones sólo involucran a las propias res-
tricciones, o directamente al conjunto factible, y al punto x∗ considerado. De este modo, en cuanto
65
se cumple alguna de ellas (como ocurrı́a en los ejemplos anteriores), podremos completar el pro-
blema (P) con cualquier función objetivo y tener la seguridad de que si x∗ es óptimo local, entonces
es punto de KKT.
Resolución de un problema de PNL aplicando las condiciones de KKT. En los ejemplos
anteriores estudiábamos si se verificaba alguna cualificación de restricciones, y si se cumplı́an o
no las condiciones de KKT, en un punto dado x∗ . Sin embargo, cuando nos enfrentamos a la re-
solución de un problema, no tendremos, a priori, ningún punto destacado sobre el que analizar
estas propiedades, de modo que tendremos que buscar todos los ‘candidatos’ a óptimos analizando
todas las posibles elecciones de ı́ndices activos. De este modo, atendiendo a los resultados presen-
tados en esta sección, consideraremos como candidatos a óptimos aquellos puntos en los que se
verifican simultáneamente alguna cualificación de restricciones y las condiciones de KKT, por un
lado, y aquéllos en los que no se verifica ninguna cualificación de restricciones. Ilustramos estos
comentarios con el siguiente ejemplo.
Ejemplo 55. Consideremos el problema de PNL, en R2 , dado por:
(P) Min x2
s.a. − x21 − x22 + 1 ≤ 0,
(x1 − 1)2 + x22 − 1 ≤ 0,
3
−2 x1 − 12 + x22 − 43 ≤ 0.
Analizando las diferentes elecciones de conjuntos de ı́ndices activos, obtenemos las siguientes
situaciones (obsérvese que, puesto que tenemos tres restricciones, tendremos que contemplar 23 =
8 casos).
(1) I (x) = 0./ Ningún punto verifica ∇ f (x) = 02 .
(2) I (x) = {1} . Puesto que g1 es cóncava, se verifica la cualificación de restricciones de Manga-
sarian, por lo que los posibles candidatos a óptimos en este caso serán los puntos de KKT. Ası́ pues,
0
1 T
planteamos el sistema −1 = λ1 −2x 1 T
−2x2 . La única solución con λ1 ≥ 0 es (x1 , x2 , λ1 ) = 0, 1, 2 ,
que no proporciona un punto factible. No tenemos ningún candidato.
(3) I (x) = {2} . En este caso se verifica la cualificación de restricciones de Slater (g2 es con-
vexa, y por ejemplo g2 (1, 0) = −1 < 0). Planteando las condiciones de KKT, encontramos una
T
solución (x1 , x2 , λ2)T = 1, −1, 12 , que no corresponde a este caso puesto que la tercera restric-
ción también es activa.
(4) I (x) = {3} . Se verifica la cualificación de restricciones de independencia lineal, pues la
T
única solución de ∇g3 (x) = 02 es x = 12 , 0 , que no es unpunto factible. Del sistema −∇ f (x) =
√ √
λ3 ∇g3 (x) , obtenemos las únicas soluciones (x1 , x2 , λ3 )T = 12 , 23 , − √13 , y (x1 , x2 , λ3 )T = 12 , −2 3 , √13 ;
el primero no es punto de KKT pues λ3 < 0. El segundo hace activas también a las dos primeras,
ası́ que no corresponde a este caso. Situaciones análogas presentan los casos (5) I (x) = {1, 2} y
(6) I (x) = {1, 3} .
(7) I (x) = {2, 3} . Se verifica LICQ, y las condiciones de KKT proporcionan como único can-
didato (realmente correspondiente a este caso) a (x1 , x2 , λ2 , λ3 )T = 1, −1, 21 , 0
Finalmente, en el caso I (x) = {1, 2, 3} no se verifican MCQ, SCQ, ni LICQ, sin embargo, √
puede
1 − 3
comprobarse que sı́ se verifica MFCQ. El único punto de KKT en este caso es x = 2 , 2 .
√
En resumen, disponemos de dos candidatos a óptimos locales: (1, −1) y 21 , −2 3 . En la Figu-
ra (17), en la que hemos representado el conjunto factible de (P) , puede apreciarse intuitivamente
66
√
1 − 3
que 2, 2 no es realidad un óptimo local17 .
1.5
F
0.5
-0.5
-1
-1.5
-1 -0.5 0 0.5 1 1.5 2
Figura 17: Ilustración del ejemplo 3.16
El punto x = (1, −1) , será un óptimo local de (P) , y de hecho global. En este caso particular no
hace falta realizar ningún cálculo adicional, pues F es un compacto. En esta situación, el teorema
de Weierstrass asegura que debe existir un óptimo global de (P) . Puesto que (1, −1) es el único
candidato, éste ha de ser un óptimo global de (P) .
Las condiciones de KKT, si bien se presentan como condiciones necesarias de optimalidad (ba-
jo alguna cualificación de restricciones), no son, sin embargo, suficientes, como puede observarse
en el ejemplo anterior. Por otro lado, como se muestra en el Apéndice D, bajo determinada con-
dición adicional, las condiciones de KKT se convierten en condiciones suficientes de optimalidad.
En cualquier caso, estos resultados hacen referencia a óptimos locales. La siguiente proposición
muestra como bajo determinadas hipótesis de convexidad, las condiciones de KKT serán suficien-
tes para garantizar, no sólo optimalidad local, sino directamente optimalidad global.
Teorema 56. Si x∗ es un punto de KKT de (P) y asumimos que las funciones f y gi , con i ∈ I (x∗ ) ,
son diferenciables en x∗ y convexas en Rn , entonces x∗ es un óptimo global de (P) .
Demostración. Bajo las hipótesis actuales podemos escribir, para todo x ∈ Rn ,
f (x) ≥ f (x∗ ) + ∇ f (x∗ )T (x − x∗ ) ,
gi (x) ≥ gi (x∗ ) + ∇gi (x∗ )T (x − x∗ ) , i ∈ I (x∗ ) .
Por otro lado, sean λi ≥ 0, i ∈ I (x∗ ) , tales que ∇ f (x∗ ) + ∑i∈I(x∗ ) λi ∇gi (x∗ ) = 0n . Entonces, del
sistema anterior de desigualdades obtenemos
f (x) + ∑∗ λi gi (x) ≥ f (x∗ ) , para todo x ∈ Rn .
i∈I(x )
En particular, si x ∈ F tendremos f (x) ≥ f (x∗ ) .

q
1
17 Estopuede formalizarse tomando, por ejemplo, la sucesión xr := 2 + 1r , − 3
4 + r13 , r = 2, 3..., que converge a
q
x = 2 , − 34 , y verifica xr ∈ F y f (xr ) < f (x) , para todo r ≥ 2.
1
67
13.3. Problemas de PNL con igualdades y desigualdades.
El objetivo de esta última subsección es señalar las diferencias que introduce en el estudio de
condiciones de optimalidad el hecho de añadir restricciones de igualdad a nuestro planteamiento.
Particularmente, en esta subsección trataremos con problemas de PNL de la forma:
(P) Min f (x)

s.a. gi (x) ≤ 0, i = 1, 2, ..., m, (130)
h j (x) = 0, j = 1, 2, ..., p.
En un principio podrı́amos pensar en reemplazar cada una de las igualdades h j (x) = 0 por dos
desigualdades h j (x) ≤ 0 y −h j (x) ≤ 0 y, una vez adaptado (P) al formato analizado en la sub-
sección anterior, aplicar entonces aquellos resultados. Este procedimiento es posible, y de hecho,
puesto que la región factible de (P) no se altera con esta nueva representación, dado x∗ ∈ F, los
conjuntos Dx∗ , Ax∗ , Tx∗ se definen de igual manera que en el caso anterior, tienen las mismas propie-
dades, y guardan la misma relación entre ellos (recuérdese ‘Dx∗ ⊂ Ax∗ ⊂ Tx∗ ’). Sin embargo, a partir
de esta representación en términos de desigualdades, la adaptación del conjunto que denotábamos
por G ex∗ nos darı́a siempre un conjunto vacio. De este modo, no dispondrı́amos de aquellas cua-
lificaciones de restricciones que se apoyaban en este conjunto. Ası́ pues, a la hora de introducir
cualificaciones de restricciones en la lı́nea de la anterior hipótesis ‘Gx∗ = 0’,
/ resultará conveniente
tratar las igualdades como tales.
Consideremos los siguientes conjuntos:
n o
Gex∗ : = d ∈ Rn | ∇gi (x∗ )T d < 0; i ∈ I (x∗ ) ;
n o
Gx∗ : = d ∈ Rn | ∇gi (x∗ )T d ≤ 0; i ∈ I (x∗ ) ;
n o
n ∗ T
Hx : = d ∈ R | ∇h j (x ) d = 0; j = 1, 2, ..., p ,
∗
donde ahora I (x∗ ) := {i ∈ {1, ..., m} | gi (x∗ ) = 0} .

Comenzaremos observando que el Teorema 44, que establecı́a las condiciones de KKT como
condiciones necesarias de optimalidad bajo la cualificación de restricciones de Guignard (que en
aquel momento se formulaba como ‘cl (cone (Tx∗ )) = Gx∗ ’), puede adaptarse fácilmente a este
nuevo contexto. Reproduciendo los pasos dados en la prueba de aquel teorema, considerando en
este caso cada igualdad h j (x) = 0 como dos desigualdades h j (x) ≤ 0 y −h j (x) ≤ 0, el nuevo
enunciado quedarı́a como sigue:
Teorema 57. Sea x∗ ∈ F un óptimo local del problema (130). Supongamos que las funciones
f , gi , con i ∈ I (x∗ ) , y h j , j = 1, ..., p, son diferenciables en x∗ , y que se verifica la igualdad
cl (cone (Tx∗ )) = Gx∗ ∩ Hx∗ . Entonces existen escalares λi ≥ 0, i ∈ I (x∗ ), µ j ∈ R, j = 1, 2, ..., p,
tales que
p
−∇ f (x∗ ) = ∑ λi ∇gi (x∗ ) + ∑ µ j ∇h j (x∗ ) .
i∈I(x∗ ) j=1
(Se dice que x∗ es un punto de KKT del problema (3.2)).
El siguiente resultado establece las relaciones de contenido existentes entre los conjuntos de
direcciones considerados en esta subsección, y que darán paso a las nuevas cualificaciones de
restricciones. Obsérvese que este nuevo enunciado adapta al contexto de los problemas (130) las
68
condiciones establecidas en el Teorema 46. En este punto señalamos que aparecerá una diferen-
cia notable con respecto al planteamiento anterior de problemas, únicamente con desigualdades.

ex∗ ∩ Hx∗ ⊂ Dx∗ ’)
Particularmente la adaptación de la condición (iii) de dicho Teorema 46 (‘cl G
requerirá ahora la aplicación del teorema de la función implı́cita.
Teorema 58. Sea x∗ un punto factible del problema (130). Supongamos que las funciones gi ,
con i ∈ I (x∗ ) , y h j , j = 1, ..., p, son diferenciables en x∗ . Entonces se verifican los siguientes
enunciados:
(i) Dx∗ ⊂ Ax∗ ⊂ Tx∗ ⊂ cl (cone (T x∗ )) ⊂ Gx∗∩ Hx∗ .
ex∗ ∩ Hx∗ 6= 0/ si y sólo si cl G
(ii) G ex∗ ∩ Hx∗ = Gx∗ ∩ Hx∗ .
(iii) Si adicionalmente suponemos que las funciones gi , con i ∈ / I (x∗
) son continuas, las h j,
j = 1, ..., p, son continuamente diferenciables en un entorno ∗ ∗
de x , y que ∇h j (x ) , j = 1, ..., p

es un sistema linealmente independiente, entonces cl G ex∗ ∩ Hx∗ ⊂ Dx∗ .
Idea de la prueba. (Los detalles técnicos de la demostración de (iii) se encuentran en el

Apéndice B). Las condiciones (i) y (ii) pueden probarse reproduciendo los pasos de la prueba de (i)
y (ii) en el Teorema 46. En la demostración de (iii) también se aplica dicho
teorema. Para ello,
en un
∗
primer paso, haciendo uso de la hipótesis de independencia lineal de ∇h j (x ) , j = 1, ..., p , y en
virtud del teorema de la función implı́cita veremos que el sistema de ecuaciones h j (x) = 0, j = 1, ..., p
define a p de las variables como funciones implı́citas de las restantes. De este modo se reduce la
dimensión del espacio de las variables al tiempo que el nuevo conjunto factible (en las nuevas va-
riables) viene descrito exclusivamente en términos de desigualdades.
Para
aplicar entonces el apar-
e
tado (iii) del Teorema 46, habrá que comprobar que si d ∈ cl Gx∗ ∩ Hx∗ , entonces el (sub)vector
cuyas coordenadas se corresponden con los ı́ndices de las nuevas variables también verifica una
propiedad análoga en relación con el nuevo sistema de desigualdades.
La relación de contenidos establecidos en el teorema anterior justifica que las siguientes condi-
ciones constituyen hipótesis de cualificaciones de restricciones para nuestro problema de PNL con
igualdades y desigualdades (bajo las adecuadas hipótesis de continuidad y diferenciabilidad). Asi-
mismo, garantiza la cadena de implicaciones existente entre ellas que expresamos a continuación.
Cualificación de
Abrev. por: Hipótesis:
restricciones de :

Mangasarian-Fromovitz ‘ ∇h j (x∗ ) , j = 1, ..., p L.I.
MFCQ ex∗ ∩ Hx∗ 6= 0)’
(o también de Cottle) yG /
Kuhn-Tucker KTCQ ‘Dx∗ = Gx∗ ∩ Hx∗ ’
Arrow-Hurwicz-Uzawa AHUCQ ‘Ax∗ = Gx∗ ∩ Hx∗ ’
Abadie ACQ ‘Tx∗ = Gx∗ ∩ Hx∗ ’
Guignard GCQ ‘cl (cone (Tx∗ )) = Gx∗ ∩ Hx∗ ’
‘{∇gi (x∗ ) , i ∈ I (x∗ ) ;
Independencia lineal LICQ
∇h j (x∗ ) , j = 1, ..., p} L.I.’
‘gi , i ∈ I (x∗ ) , cóncavas,
Mangasarian MCQ
h j , j = 1, ..., p lineales’
Supongamos que las funciones h j , j = 1, ..., p, son de clase C 1 en un entorno de x∗ , las gi , con
i ∈ I (x∗ ) , son diferenciables en x∗ y las funciones gi , con i ∈
/ I (x∗ ) , son continuas, entonces:
69
LICQ ⇒ MFCQ ⇒ KTCQ ⇒ AHUCQ ⇒ ACQ ⇒ GCQ
⇑
MCQ
Las pruebas de las implicaciones ‘LICQ⇒MFCQ’ y ‘MCQ⇒KTCQ’ se obtienen adaptando a
este nuevo planteamiento los argumentos dados en la Proposición 48.18
13.3.1. Apéndice A: Las condiciones de Fritz-John

Como complemento del material de esta sección presentamos una nueva condición necesaria
de optimalidad en la linea de las condiciones de KKT, aunque más débil. Como contrapartida, no
requiere ninguna cualificación de restricciones, y por tanto estará indicada cuando no dispongamos
de alguna de estas hipótesis. Como veremos a continuación, la nueva condición es consecuencia
inmediata de los resultados presentados anteriormente. Consideraremos de nuevo el problema
(P) Min f (x)
s.a. gi (x) ≤ 0, i = 1, 2, ..., m.
Teorema 59 (Condiciones de Fritz John). Sea x∗ un óptimo local de (P) , y supongamos que las
funciones f y gi , con i ∈ I (x∗ ) , son diferenciables en x∗ , y las gi , con i ∈
/ I (x∗ ) son continuas en
x∗ . Entonces existen escalares λ0 , λi ≥ 0, i ∈ I (x∗ ), no todos nulos, tales que
λ0 ∇ f (x∗ ) + ∑∗ λi ∇gi (x∗ ) = 0n .
i∈I(x )
Demostración. En las condiciones actuales, la Proposición 40 establece que −∇ f (x∗ ) ∈ Tx◦∗ . Por
ex∗ ⊂ Tx∗ , lo que implica que T ◦∗ ⊂ G
otro lado, en el Teorema 46 vimos que G e◦∗ . Ası́ pues,
x x
◦
−∇ f (x∗ ) ∈ G ex∗ .
En otros términos, ∇ ∗ T n ∗ T ∗
n f (x ) d ≥ 0 para todo d ∈ R verificando ∇g o i (x ) d < 0 para todo i ∈ I (x ) ;
esto es, el sistema ∇ f (x∗ )T d < 0; ∇gi (x∗ )T d < 0, i ∈ I (x∗ ) no tiene solución (en la variable
d ∈ Rn ). Entonces, en virtud del teorema de Gordan, existirán λ0 , λi ≥ 0, i ∈ I (x∗ ), no todos nulos,
tales que λ0 ∇ f (x∗ ) + ∑i∈I(x∗ ) λi ∇gi (x∗ ) = 0n .
El siguiente esquema pretende mostrar la relación existente entre las condiciones de Fritz-
John y otras condiciones necesarias de optimalidad introducidas en esta sección. Una vez más,
estamos asumiendo que x∗ es un óptimo local de (P) , que las funciones f y gi , con i ∈ I (x∗ ) ,
son diferenciables en x∗ , y las gi , con i ∈ / I (x∗ ) , son continuas en x∗ . Bajo estas hipótesis, dicho
esquema es consecuencia directa de la relación de contenidos

cl Gex∗ ⊂ Dx∗ ⊂ Ax∗ ⊂ Tx∗ ⊂ cl (cone (Tx∗ )) ⊂ Gx∗ ,
que establecı́amos más arriba.

18 Particularmente, la implicación ‘MCQ⇒KTCQ’ es consecuencia directa de la establecida en la condición
(iii) de esta proposición. Por su parte, la implicación ‘LICQ⇒MFCQ’, se obtiene a partir del siguiente teore-
ma de alternativa (que generaliza al Teorema de Gordan, por incluir restricciones de igualdad): ‘El sistema
{a′i x < 0, i = 1, 2, ..., s; a′i x = 0, i = s + 1, ..., r} no tiene solución si y sólo si existen escalares λ1 , ..., λs ≥ 0, con algún
s m
λi > 0 , y µs+1 ,...,µr ∈ R tales que ∑ λi ai + ∑ µi ai = 0n .’ Este resultado se obtiene prácticamente reproduciendo
i=1 i=s+1
los pasos de la demostración del Teorema de Gordan.
70
◦
Cond. de Fritz-John −∇ f (x∗ ) ∈ ex∗
G
∪
D◦x∗
∪
A◦x∗
∪
−∇ f (x∗ ) ∈ Tx◦∗
∪
Cond. de Karush-Kuhn-Tucker −∇ f (x∗ ) ¿ ∈ ? G◦x∗
13.3.2. Apéndice B: El teorema de la función implı́cita. Aplicación en la obtención de con-

diciones de optimalidad
Considérese un sistema de ecuaciones del tipo

f1 (x1 , ..., xn, y1 , ..., ym) = 0 
............................................. , (131)

fm (x1 , ..., xn, y1 , ..., ym ) = 0
o equivalentemente la ecuación vectorial
f (x, y) = 0m ,
donde f = ( f1 , ..., fm ) es una función vectorial definida y de clase C p (p ≥ 1) en un subconjunto

abierto W de Rn+m con valores en Rm , y donde x e y representan a los vectores (x1 , ..., xn) e
(y1 , ..., ym ) de Rn y Rm respectivamente. El siguiente teorema proporciona una condición suficiente
para que el sistema (131) defina a la variable y como función implı́cita de x en un entorno de una
solución particular de dicho sistema (a, b) = (a1 , ..., an, b1 , ..., bm).
Teorema 60. Sea f = ( f1 , ..., fm) : W −→ Rm una función de clase C p (p ≥ 1) en el conjunto

abierto W ⊂ Rn+m . Supongamos que en el punto (a, b) de W se verifican las condiciones siguien-
tes:
(i) f (a, b) = 0m ,
(ii) det ∇y f (a, b) 6= 0.
Entonces existen un entorno M × N de (a, b) , contenido en W, y una única función φ : M −→ N
tales que f (x, φ (x)) = 0m para todo x ∈ M. Esto es19 ,
{(x, y) ∈ M × N | f (x, y) = 0m } = {(x, φ (x)) | x ∈ M} .
En particular, φ (a) = b. Además φ es de clase C p en M.
13.3.3. Demostración del Theorem 58 (iii)

Veamos (iii). A lo largo de la prueba de este apartado, con el fin de simplificar la notación, su-
pondremos que I (x∗ ) = {1, 2, ..., s} (s ≤ m), y representaremos por g : Rn → Rs a la función vecto-
rial dada por g (x) = (gi (x))i=1,...,s , y por h : Rn → R p a la función dada por h (x) = (hi (x))i=1,...,p .
19 En estas condiciones diremos que la expresión y = φ (x) resuelve la ecuación f (x, y) = 0m en M × N.
71
Asimismo, para una función ϕ : Rk → Rl , representaremos por ∇ϕ (x) , a la matriz de orden k × l
k
que tiene en sus columnas los respectivos gradientes
en x∈ R ) de las ϕi , con i = 1, ..., l.
(evaluados

Comenzaremos observando que si d ∈ cl G ex∗ ∩ Hx∗ ⊂ cl G ex∗ ∩ Hx∗ , entonces ∇g (x∗ )T d ≤
0s , y ∇h (x∗ )T d = 0 p . Veamos que bajo las hipótesis de (iii) existe una curva α : [0, ε ] → F dife-
renciable en [0, 1] y tal que α (0) = x∗ , α ′ (0) = d.
En primer lugar, bajo la hipótesis de independencia lineal del sistema {∇h j (x∗ ) , j = 1, ..., p},
la matriz ∇h (x∗ ) tendrá una submatriz inversible de orden p. De nuevo, por simplicidad, supondre-
mos que esta submatriz, que denotaremos
por B, está formada por las p primeras filas de ∇h (x∗ ) .
B
Ası́, escribiremos ∇h (x∗ ) = , donde N recoge las n − p últimas filas de ∇h (x∗ ) . Del mismo
N
xB
modo, escribiremos x = , donde xB contiene las p primeras coordenadas de x ∈ Rn , y xN las
xN
restantes. Podemos suponer sin pérdida de generalidad quep < n, pues en otro caso, si p = n, en-
e
tonces Hx∗ = {0n } , y entonces Gx∗ ∩ Hx∗ = 0, e
/ y por tanto cl Gx∗ ∩ Hx∗ = 0. / Aplicando el teorema
de la función implı́cita (véase Apéndice B) a la ecuación vectorial h (x) = 0 p , y teniendo en cuenta
que h (x∗ ) = 0 p , concluimos la existencia de un entorno U ⊂ R p de x∗B , un entorno V ⊂ Rn−p de
x∗N y una única función φ : V → U verificando h (φ (xN ) , xN ) = 0 p , para todo xN ∈ V (en particular
φ (x∗N ) = x∗B ), siendo, además de clase C1 en V.
Consideremos entonces las nuevas funciones g : V → Rs , dada por g (xN ) = g (φ (xN ) , xN ) , y
h : V → R p , dada por h (xN ) = h (φ (xN ) , xN ) . Puesto que h es constantemente nula en V, entonces
0(n−p)×p = ∇h (x∗N ) . Por otro lado, aplicando la regla de la cadena, ∇h (x∗N ) = ∇φ (x∗N ) B + N, de
donde
∇φ (x∗N ) = −NB−1 .

dB
Además, si escribimos d = , de ∇h (x∗ )T d = 0 p , obtenemos que
dN
T
dB = − NB−1 dN ,
puesto que ∇h (x∗ )T d = 0 p . Entonces
∇g (x∗N ) = ∇φ (x∗N ) ∇xB g (x∗ ) + ∇xN g (x∗ ) = −NB−1 ∇xB g (x∗ ) + ∇xN g (x∗ ) ,
donde ∇xB g (x∗ ) recoge a las p primeras filas de ∇g (x∗ ) , y ∇xN g (x∗ ) a las n − p restantes. Ası́ pues,
T
∇g (x∗N )T dN = −∇xB g (x∗ )T NB−1 dN + ∇xN g (x∗ )T dN
= ∇xB g (x∗ )T dB + ∇xN g (x∗ )T dN = ∇g (x∗ )T d ≤ 0s .
Ahora estamos en condiciones de aplicar el apartado (iii) del Theorem 4620 , concluyendo la
existencia de una curva α : [0, ε ] → Rn−p diferenciable en [0, ε ] , y verificando que α (0) = x∗N ,
α ′ (0) = dN , y g (α (t)) ≤ 0s , para todo t ∈ [0, ε ] . Podemos suponer, sin pérdida de generalidad que
α (t) ∈ V, para todo t ∈ [0, ε ] , pues en otro caso tomarı́amos su restricción sobre cierto [0, δ ] , δ > 0,
y posteriormente, mediante un cambio de variable adecuado conseguirı́amos que la nueva curva
20 Enrigor, para aplicar directamente este teorema, g tendrı́a que estar definida en todo Rn−p . Esto sin embargo, no
supone ningún obstáculo, puesto que la única hipótesis que ha de cumplir g es la diferenciabilidad en xN . Podemos
extender entonces el dominio de g a Rn−p , definiéndola de manera arbitraria en Rn−p \V. Por otro lado, se comprueba
inmediatamente que existe deN tal que ∇g (xN )′ deN < 0s .
72
n
estuviera enlas condiciones
∗ la curva α : [0, ε ] → R , dada
indicadas. A partir de ésta, construimos
φ (α (t)) φ (xN )
por α (t) = , t ∈ [0, ε ] . Se tiene que α (0) = ∗ = x∗ , g (α (t)) = g (α (t)) ≤ 0s ,
α (t) xN
y podemos, de hecho, suponer sin perdida de generalidad21 que para aquellos ı́ndices i ∈ / I (x∗ )
también se verifica gi (α (t)) ≤ 0; ası́ pues, α (t) ∈ F, para todo t ∈ [0, ε ] . Además,
T
′ ∇φ (x∗N )T α ′ (0) −NB−1 dN
α (0) = = = d.
α ′ (0) dN
13.3.4. Apéndice C: Complementos diversos

Tx∗ es un cono cerrado, mientras que Dx∗ es un cono pero no es cerrado en general.
Es inmediato que ambos son conos. En efecto, si d ∈ Tx∗ , existen λr > 0, xr ∈ F, r = 1, 2, ...,
tales que d = lı́mr→∞ λr (xr − x∗ ) , y entonces λ d = lı́mr→∞ λ λr (xr − x∗ ) ∈ Tx∗ , para todo λ > 0;
por otro lado, si λ = 0, entonces puede ponerse λ d = 0n = lı́mr→∞ λr (x∗ − x∗ ) ∈ Tx∗ . Ası́ pues, Tx∗
es un cono.
Dx∗ también es un cono. En efecto, si d ∈ Dx∗ , existe una curva α : [0, ε ] → F, para algún ε > 0,
diferenciable en [0, ε ] y tal que α ′ (0) = d y α (0) = x∗ . Si λ > 0, entonces la curva β : [0, λε ] → F,
dada por β (t) = α (λ t), verifica β (0) = α (0) = x∗ , y β ′ (0) = λ α ′ (0) = λ d ∈ Dx∗ . Si λ = 0,
basta considerar α : [0, ε ] → F, constantemente
k igual a x∗ , y entonces λ d = 0n ∈ Dx∗ .
Tx∗ es cerrado. En efecto, sea d ⊂ Tx∗ convergente hacia cierto d ∈ Rn . Mediante un proceso
diagonal concluiremos que d ∈ Tx∗ . Pongamos

d k = lı́m λk,r xk,r − x∗ , k = 1, 2, ....
r→∞
k
Para cada k sea rk tal que d − λk,rk xk,rk − x∗ ≤ 1k . Entonces

lı́m λk,rk xk,rk − x∗ = d ∈ Tx∗ .
k→∞
2
Sin embargo Dx∗ no es cerrado en general. Basta considerar F = {x ∈ R | g1 (x1 , x2 ) = 0,
x1 − x22 ≥ 0}, siendo g1 (x1 , x2 ) = x21 sin π xx21 , si x1 6= 0, y g1 (0, x2 ) = 0. Ası́

[ 1
2
F = {02 } ∪ x ∈ R | x2 = rx1 , 0 ≤ x1 ≤ 2 ,
r∈Z
r
T
y entonces d r = r r12 , 1r = 1r , 1 ∈ Dx∗ , r = 1, 2, ..., y sin embargo (0, 1)T ∈ / Dx∗ .
Comprobación de la diferenciabilidad de α (t) de la prueba de (iii) en el Teorema 46

h T i
λ
Comprobaremos que la curva α : 0, 21 → Rn definida en la prueba de dicho teorema verifica
todas las propiedades allı́ anunciadas. En primer lugar, se comprueba inmediatamente que, si a < b,
a, b ∈ R, la función ϕ : [a, b] → [0, 1] definida por
(t − a)2
ϕ (t) :=
(t − a)2 + (t − b)2
21 En otro caso, de la continuidad en 0 de t 7→ g (α (t)) , para todo i ∈ / I (x) , y puesto que gi (α (0)) < 0, encon-
i
trarı́amos un δ > 0, tal que gi (α (t)) ≤ 0, para todo t ∈ [0, δ ] , y todo i ∈
/ I (x) . Como hemos indicado anteriormente,
bastarı́a entonces considerar la restricción de α a dicho intervalo, y luego realizar un cambio de variable adecuado.
73
verifica ϕ (a) = 0, ϕ (b) = 1, y

′ ′ ′ ′ a+b 2
0 = ϕ (a) = ϕ (b) < ϕ (t) ≤ ϕ = para todo t ∈ ]a, b[ .
2 b−a
En particular ϕ es estrictamente
h T creciente.
i
λ
La continuidad de α en 0, 21 se comprueba sin dificultad (para t = 0 se sigue de la acotación
i T i
α (t)−x∗ λ
de t en 0, 21 ). Además:
h T i h i
λ T
(1) α (t) ∈ F para todo t ∈ 0, 21 . En efecto, para t ∈ Tλr+1 , 2λr es evidente por la definición
iT h
λr+1 ∗ µ
de Tλ y, para t ∈ 2 , Tλr+1 , podemos escribir α (t) = x + td , con µ = (1 − ϕr (t)) λr+1 +
ϕr (t) λr ≥ λr+1 (a fortiori λr ↓ 0); con lo que α (t) ∈ F puesto que t < Tλr+1 ≤ Tµ .
h T i
(2) α es diferenciable (de hecho de clase C 1 ) en el intervalo 0, 2λ1 y α ′ (0) = d. En efecto,
se tiene
 i h
T
 d λr si t ∈ Tλr+1 , 2λr , r = 1, 2, ...,
α ′ (t) := i h
 d λr+1 + (ϕr (t) + t ϕ ′ (t)) d λr − d λr+1 , si t ∈ Tλr+1 , Tλ , r = 1, 2, ....
r 2 r+1
i T i
λ
Puesto que, para cada t0 ∈ 0, 21 , α es continua en t0 y lı́mt→t0 α ′ (t) existe, dicho lı́mite coinci-
de con α ′ (t0 ) (esta propiedad,icoordenada
i a coordenada, es consecuencia de la regla de L’Hôpital).
Tλ1
Ası́ pues, α es de clase C en 0, 2 . Además las propiedades de ϕr aseguran que |ϕr (t) + t ϕr′ (t)| ≤
1
iT h
λr+1 λr
5 para cada t ∈ 2 , Tλr+1 , r = 1, 2, .... Este hecho, junto con lı́mr→∞ d = d, nos conduce
a lı́mt→0 α ′ (t) = d y, de nuevo por lah regla ide L’Hôpital (aplicada coordenada a coordenada),
T
α ′ (0) = d. Luego α es de clase C 1 en 0, 2λ1 .
Complementos del Ejemplo 53
Sea α : [0, ρ ] → F (ρ > 0), derivable en 0, con α (0) = 0. Veamos que necesariamente α ′ (0) =
0. Supongamos, por reducción al absurdo, que α ′ (0) = v 6= 0. Entonces, en virtud de la continuidad
α (t)
de la función valor absoluto y habida cuenta de que α (0) = 0, se tiene lı́m = v > 0 (puesto
t→0+ t
que α (t) ∈ F, α (t) ≥ 0 = α (0) para todo t ∈ [0, ε ]), luego existe un δ0 > 0 tal que α (t) > 0 si
0 < t < δ0 , en cuyo caso, en virtud de la descripciónde F,ha de existir un kt ∈ Z tal que α (t) = ekt .
t 1 1
Por otro lado lı́m = > 0, luego fijado ε ∈ 0, (más tarde precisaremos el valor que de
t→0+ α (t) v v
ε )22 existe un δ ∈ ]0, δ0 [ tal que 0 < t < δ implica

1 kt 1
−ε e < t < + ε ekt . (132)
v v
22 Aunque en estos casos la elección del ε siempre queda motivada a posteriori, preferimos por motivos didácticos
fijar el valor de ε una vez que dicho valor esté motivado.
74

1 1
Elijamos ε de forma que k
+ε e t < − ε ekt +1 ; esto es,
v v
−1
1 1
+ε −ε < e.
v v
1
Por ejemplo, sea ε = . La fórmula (132) implica en particular que
5v
[
]0, δ [ ⊂ ]αk , βk [ ,
k∈Z
4ek 6ek
siendo αk := y βk := para cada k ∈ Z, lo que constituye una contradicción, pues la elección
5v 5v
de ε garantiza que βk < αk+1 para todo k ∈ Z. Nótese que, por ejemplo, la sucesión de números
β−r + α−r+1
positivos (pr )r∈N dada por pr = , r = 1, 2, ..., tiene lı́mite 0 cuando r → +∞, por lo
2 [
que para r suficientemente grande será pr ∈ ]0, δ [ \ ] αk , β k [ .
k∈Z
13.3.5. Apéndice D: Condiciones de segundo orden

El objetivo de esta sección es doble. Por un lado, pretende dar un paso más en detección de
óptimos locales de un problema de PNL, añadiendo nuevas condiciones a las presentadas en esta
sección (que ahora involucrarán derivadas de segundo orden); por otro lado pretende proporcionar,
bajo hipótesis adecuadas, una interpretación de los multiplicadores de KKT relacionada con el
análisis de sensibilidad del problema.
Comenzaremos estableciendo una condición necesaria de optimalidad de segundo orden. Ésta
podrı́a obtenerse a partir de su homóloga para el problema de optimización con restricciones de
igualdad. No obstante, con el fin de hacer el tema autocontenido, y al mismo tiempo proporcionar
las herramientas que darı́an pie a posibles generalizaciones, optaremos por una prueba directa,
basada en resultados anteriores.
Consideremos la función de Lagrange, L : Rn × Rm p
+ × R → R, asociada al problema:
(P) Min f (x) (133)

s.a. gi (x) ≤ 0, i = 1, 2, ..., m,
h j (x) = 0, j = 1, 2, ..., p,
que viene dada por L (x, λ , µ ) := f (x)+ λ T g (x)+ µ T h (x) , donde g (respectivamente, h) representa
a la función vectorial que tiene a las gi (respectivamente, a las h j ) como sus funciones coordenadas.
Asimismo denotaremos por ∇x L (x, λ , µ ) al gradiente, respecto de x, de L; esto es,
m p
∇x L (x, λ , µ ) = ∇ f (x) + ∑ λi ∇gi (x) + ∑ µ j ∇h j (x) .
i=1 j=1
Ası́ pues, las condiciones de KKT para el problema (133) pueden alternativamente expresarse
75
como23
∇x L (x, λ , µ ) = 0n ,
λ T g (x) = 0, λ ≥ 0m , (D.2)
g (x) ≤ 0m , h (x) = 0 p .
En los respectivos enunciados de la condición necesaria y condición suficiente establecidos en
esta subsección distinguiremos entre dos clases de restricciones activas asociadas a un punto de
KKT x∗ , y al vector λ ∗ que recoge los multiplicadores de KKT asociados a las restricciones de
desigualdad. Siguiendo la terminologı́a de Fletcher (1987), llamaremos restricciones fuertemente
activas (o también, no degeneradas) a las asociadas al conjunto de ı́ndices
I + (x∗ , λ ∗ ) := {i ∈ I (x∗ ) | λi∗ > 0} ,
mientras que el resto de restricciones de desigualdad activas son denominadas restricciones débil-
mente activas. En términos informales, esta distinción viene motivada por el hecho de que ésta
última clase de restricciones activas no desempeñan ningún papel en las condiciones de KKT (es-
tas condiciones se verifican, aun eliminando del planteamiento dichas restricciones).
En lo que sigue denotaremos por ∇2xx L (x, λ , µ ) a la matriz hessiana, respecto de x, de L; esto
es
m p
∇2xx L (x, λ , µ ) := ∇ f (x) + ∑ λi ∇ gi (x) + ∑ µ j ∇2 h j (x) ,
2 2
i=1 j=1
donde ∇2 f (x) , ∇2 gi (x) , i = 1, ..., m, ∇2 h j (x) , j = 1, ..., p denotan a las matrices hessianas de las
correspondientes funciones.
Teorema 61 (Condición necesaria de segundo orden). Sea x∗ un óptimo local del problema (P) , in-
troducido en (133). Supongamos que f , gi , i ∈ I (x∗ ) y h j , j =
1, ..., p, son de clase C 2 en un entorno
de x∗ , que gi , i ∈
/ I (x∗ ) son funciones continuas en x∗ , y que ∇gi (x∗ ) , i ∈ I (x∗ ) ; ∇h j (x∗ ) , j = 1, 2, ..., p
forma un sistema linealmente independiente24 . Entonces se verifican los siguientes enunciados:
(i) Existen unos únicos , λ ∗ ≥ 0m , µ ∗ ∈ R p , verificando
∇x L (x∗ , λ ∗ , µ ∗ ) = 0n , y λ ∗T g (x∗ ) = 0; (134)
(ii) Además, para todo d ∈ M (x∗ , λ ∗ ) , se tiene que d T ∇2xx L (x∗ , λ ∗ , µ ∗ ) d ≥ 0, siendo
  T 
  ∇gi (x∗ ) d ≤ 0, i ∈ I (x∗ ) \I + (x∗ , λ ∗ ) ; 
M (x∗ , λ ∗ ) := d ∈ Rn : ∇gi (x∗ )T d = 0, i ∈ I + (x∗ , λ ∗ ) ; .
  ∗ T 
∇h j (x ) d = 0, j = 1, 2, ..., p
23
Recuérdese que las condiciones de KKT para el problema (D.1) se formulan en los términos ‘existen x ∈ F y
λ i ≥ 0, i ∈ I (x) , µ j ∈ R, tales que ∇ f (x) + ∑i∈I(x) λ i ∇gi (x) + ∑ pj=1 µ j ∇h j (x) = 0n ’; considerando entonces λ i = 0,
′
para i ∈ {1, ..., m} \I (x) , tendremos unos vectores λ ≥ 0m , y µ ∈ R p tales que ∇x L x, λ , µ = 0n , con λ g (x) = 0.
′
Reciprocamente, si x ∈ F, λ ≥ 0m , µ ∈ R p verifican ∇x L x, λ , µ = 0n , con λ g (x) = 0, de esta última igualdad se
deduce que λ i gi (x) = 0 (puesto que λ i ≥ 0 y gi (x) ≤ 0), para todo i = 1, ..., m. Ası́ pues, si i ∈
/ I (x) , ha de ser λ i = 0,
de donde se obtienen inmediatamente las condiciones de KKT en el formato inicial.
24 Recordemos que esta hipótesis constituye la cualificación de restricciones que abreviábamos por LICQ. En esta
situación, se dice que x∗ es un punto regular de (P) .
76
Demostración. (i) ya ha sido probada más arriba, incluso bajo hipótesis más generales. Veamos
(ii).
Comenzaremos observando que, puesto que x∗ es un óptimo local de (P) , también lo será del
problema 25
b Min f (x)
(P)
s.a. gi (x) ≤ 0, i ∈ I (x∗ ) \I + (x∗ , λ ∗ ) ,
gi (x) = 0, i ∈ I + (x∗ , λ ∗ ) ,
h j (x) = 0, j = 1, 2, ..., p.
Distinguiremos con el sı́mbolo ‘b’ a los elementos asociados al problema (P). b Ası́, Fb será su con-
b
junto factible, y Tbx∗ , Gx∗ , H
bx∗ , representarán, respectivamente, el cono de las tangentes en x∗ , el
polar del conjunto formado por los gradientes en x∗ de las gi , con i ∈ I (x∗ ) \I + (x∗ , λ ∗ ) , y el orto-
gonal del conjunto formado por los gradientes, en x∗ , de las funciones que definen las igualdades.
Con esta notación, el conjunto M (x∗ , λ ∗ ) introducido bx∗ ∩ H
en (ii) no es otro que G bx∗ . Además, la

hipótesis de independencia lineal del sistema ∇gi (x∗ ) , i ∈ I (x∗ ) ; ∇h j (x∗ ) , j = 1, 2, ..., p pue-
de verse también como la cualificación de restricciones que denotábamos por LICQ, en x∗ , pa-
b Esta cualificación de restricciones implica la de Abadie, concluyéndose que
ra el problema (P).
Gbx∗ ∩ H
b = Tbx∗ .
Sea d ∈ M (x∗ , λ ∗ ) . De los comentarios anteriores, se deduce que d ∈ Tbx∗ . Ası́ pues, pongamos
d = lı́mr→∞ ρr (xr − x∗ ) , con xr ∈ Fb para todo r, y siendo {xr } convergente a x∗ . Las hipótesis
actuales de diferenciabilidad permiten escribir
f (xr ) = f (x∗ ) + ∇ f (x∗ )T (xr − x∗ )

+ 12 (xr − x∗ )T ∇2 f (x∗ ) (xr − x∗ ) + o(kxr − x∗ k2 ),
gi (xr ) = gi (x∗ ) + ∇gi (x∗ )T (xr − x∗ )
(D.3)
+ 12 (xr − x∗ )T ∇2 gi (x∗ ) (xr − x∗ ) + o(kxr − x∗ k2 ), i ∈ I + (x∗ , λ ∗ ) ,
h j (xr ) = h j (x∗ ) + ∇h j (x∗ )T (xr − x∗ )
+ 12 (xr − x∗ )T ∇2 h j (x∗ ) (xr − x∗ ) + o(kxr − x∗ k2 ), j = 1, ..., p.
Ası́ pues,
p
L (xr , λ ∗ , µ ∗ ) = f (xr ) + ∑ λi∗ gi (xr ) + ∑ µ ∗j h j (xr ) (D.4)
i∈I + (x∗ ,λ ∗ ) j=1
1
= f (x∗ ) + (xr − x∗ )T ∇2xx L (xr , λ ∗ , µ ∗ ) (xr − x∗ ) + o(kxr − x∗ k2 ).
2
b para todo r), f (xr ) ≥ f (x∗ ) para r suficiente-
Puesto que gi (xr ) = 0, para todo r (por ser xr ∈ F,
b se tiene que
mente grande (por ser x∗ óptimo local de (P)),
1 r
0≤ (x − x∗ )T ∇2xx L (xr , λ ∗ , µ ∗ ) (xr − x∗ ) + o(kxr − x∗ k2 ), para r ≥ r0 .
2
Multiplicando entonces, para cada r, por (ρr )2 , y haciendo r → +∞ concluimos que d T ∇2xx L (x∗ , λ ∗ , µ ∗ ) d ≥
0.
25 En la introducción del tema se presentó un argumento directo para probar un resultado análogo a esta observación.
77
Observación 62. En la práctica, en vez de verificar la condición (ii), resulta más sencillo com-
probar si se cumple otra más débil, a saber ‘si ∇2xx L (x∗ , λ ∗ , µ ∗ ) es semidefinida positiva o definida
positiva sobre el subespacio
n o
n ∗ T ∗ ∗ T
d ∈ R | ∇gi (x ) d = 0, i ∈ I (x ) ; ∇h j (x ) d = 0, j = 1, 2, ..., p ,
pues esta última puede ser analizada a través de un simple cáculo matricial.
Observación 63. La hipótesis de independencia lineal utilizada en el enunciado del teorema an-
terior, podrı́a reemplazarse por cualquier otra que suponga una cualificación de restricciones en
x∗ simultáneamente para los problemas (P) y (P), b y que en este último caso resulte ser una con-
dición suficiente para la cualificación de restricciones de Abadie. Este es el caso, por ejemplo, si
gi , i ∈ I + (x∗ , λ ∗ ) , y h j , j = 1, ..., m son lineales y gi , i ∈ I (x∗ ) \I + (x∗ , λ ∗ ) son cóncavas.
Teorema 64 (Condición suficiente de segundo orden). Sea x∗ ∈ F un punto de KKT del problema
(P) introducido en (133) y sean λ ∗ ≥ 0m , µ ∗ ∈ R p vectores de multiplicadores asociados a x∗
(esto es, (x∗ , λ ∗ , µ ∗ ) verifica las condiciones de KKT (134)). Supongamos que f , gi , i ∈ I (x∗ ) , h j ,
j = 1, ..., p son de clase C 2 en un entorno de x∗ , y que gi , i ∈ / I (x∗ ) son funciones continuas en x∗ .
Si además se verifica que d T ∇2xx L (x∗ , λ ∗ , µ ∗ ) d > 0 para todo d ∈ M (x∗ , λ ∗ ) \ {0n } , entonces x∗
es un óptimo local (estricto) de (P).
Demostración. Razonando por reducción al absurdo, supongamos que d T ∇2xx L (x∗ , λ ∗ , µ ∗ ) d > 0
para todo d ∈ M (x∗ , λ ∗ ) \ {0n } , y, sin embargo, x∗ no es un mı́nimo local estricto de (P) . Entonces
existe una sucesión {xr } ⊂ F\{x∗ } convergente a x∗ y tal que f (xr ) ≤ f (x∗ ) , para todo r; ası́ pues
L (xr , λ ∗ , µ ∗ ) ≤ f (x∗ ) , para todo r.

r
(x − x∗ )
Por otro lado, podemos suponer sin pérdida de generalidad que es convergente ha-
kxr − x∗ k
cia cierto d ∈ Rn (en otro caso tomarı́amos una subsucesión en estas condiciones). Es inmediato
que d ha de pertenecer al cono de las tangentes a F en x∗ , y por tanto d ∈ Gx∗ ∩ Hx∗ ; esto es,
∇gi (x∗ )T d ≤ 0, i ∈ I (x∗ ) , y ∇h j (x∗ )T d = 0, j = 1, 2, ..., p. De hecho d ∈ M (x∗ , λ ∗ ) . En efec-
to, si ∇gi (x∗ )T d < 0, para algún i ∈ I + (x∗ , λ ∗ ) , como consecuencia de las condiciones de KKT
tendrı́amos ∇ f (x∗ )T d > 0, encontrando una contradicción con la hipótesis actual ‘ f (xr ) ≤ f (x∗ ) ,
para todo r’ (de dicha hipótesis, y de la diferenciabilidad de f en x∗ , mediante un argumento
estándar (véase por ejemplo la demostración de la Proposición 40), se deduce ∇ f (x∗ )T d ≤ 0).
De nuevo por las hipótesis de diferenciabilidad, y por ser x∗ un punto de KKT, desarrollando
de forma idéntica a (D.3) y (D.4) obtenemos
1
L (xr , λ ∗ , µ ∗ ) = f (x∗ ) + (xr − x∗ )T ∇2xx L (xr , λ ∗ , µ ∗ ) (xr − x∗ ) + o(kxr − x∗ k2 )
2
∗
≤ f (x ) .
Por tanto
1 r
(x − x∗ )T ∇2xx L (xr , λ ∗ , µ ∗ ) (xr − x∗ ) + o(kxr − x∗ k2 ) ≤ 0.
2
Dividiendo entonces por kxr − x∗ k2 y haciendo r → +∞ concluimos d T ∇2xx L (x∗ , λ ∗ , µ ∗ ) d ≤ 0,
alcanzando de este modo una contradicción (recuérdese que d ∈ M (x∗ , λ ∗ )). Ası́ pues, x∗ es un
mı́nimo local estricto de (P) .
78
13.3.6. Interpretación de los multiplicadores de KKT
Imaginemos que deseamos construir una caja de cartón como la de la figura:
x2/2
solapa
x3
x2
x1 x2 /2
Supongamos que el beneficio que reporta para nosotros la construcción de dicha caja es propor-
cional a su volumen una vez cerrada, de forma que nos interesa minimizar f (x1 , x2 , x3 ) = −x1 x2 x3
(lo que equivale a maximizar el volumen). Supongamos asimismo que tenemos restringida la can-
tidad de material (área total), estando sujetos a la restricción
g (x1 , x2 , x3 ) = 2 (x1 + x2 ) (x2 + x3 ) − c0 ≤ 0,
siendo c0 una constante positiva, y por supuesto x1 ≥ 0, x2 ≥ 0 y x3 ≥ 0.
Dada la naturaleza del problema, en un óptimo local de problema tendrán que ser positivos x1 ,
x2 y x3 (pues si alguno de ellos fuese cero el volumen de la caja serı́a nulo, y evidentemente no
tendrı́amos un óptimo local). Esto significa que, con el fin de buscar puntos de KKT que pudieran
ser óptimos locales, podremos considerar x1 ≥ 0, x2 ≥ 0 y x3 ≥ 0 como restricciones inactivas.
Ası́, considerando la q restricción
q de q material
como la única activa, encontramos que el único
√
punto de KKT es x = 3 2 , 3 2 , 3 2 , teniéndose además que ∇g (x ) = 2c0 (1, 2, 1)T 6=
∗ 2 c0 1 c0 2 c0 ∗
q
03 . El multiplicador de KKT asociado es λ1∗ = 19 c20 . Poniendo λ ∗ = (λ1∗ , 0, 0, 0)T , se tiene que

la restricción de ∇2xx L (a) al subespacio v ∈ R3 | v1 + 2v2 + v3 = 0 es definida positiva, por lo
que en virtud de la condición suficiente de segundo orden, el problema considerado presenta en x∗
un óptimo local (puede comprobarse √ a partir de la definición que, de hecho,
√ se trata de un óptimo
∗ − 2 3/2 2 3/2
global), teniéndose f (x ) = 27 c0 (esto es un volumen máximo de 27 c0 ).
Llegados a este punto nos planteamos la siguiente pregunta: ¿Cuánto mejorarı́a nuestro objetivo
si pudiésemos disponer de una pequeña cantidad adicional, c − c0 , de área total? En otras palabras,
si tuviésemos la posibilidad de aumentar un poco el área total de la caja, ¿hasta qué precio por
unidad de área (expresado en las mismas unidades que el objetivo) estarı́amos dispuestos a pagar
por esa pequeña cantidad adicional de área? La respuesta√es sencilla: dicho precio es λ , puesto que
3/2
el ”beneficio cambiado de signo” es B (c0 ) = f (x∗ ) = −27 2 c0 , y se tiene
√ r
′ − 2 3 1/2 −1 c0
B (c0 ) = c = = −λ .
27 2 0 9 2
79
Veremos a continuación que, bajo hipótesis adecuadas, este resultado se verifica en general:
λi puede interpretarse como el “precio” (en las unidades de la función objetivo) que estarı́amos
dispuestos a pagar por unidad de incremento del miembro derecho de la i-ésima ligadura (pa-
ra incrementos pequeños), pues esa unidad producirı́a una mejora (disminución) del objetivo de,
aproximadamente, λi unidades.
Teorema 65. Sea x∗ un punto de KKT del problema (P) introducido en (133), y sean λ ∗ ≥ 0m
y µ ∗ ∈ R p vectores de multiplicadores asociados a x∗ . Supongamos que f , gi , i ∈ I (x∗ ) , h j , j =
1, ..., p son de clase C 2 en un entorno de x∗ , que gi , i ∈ / I (x∗ ) son funciones continuas en x∗ .
Supongamos además que se verifican las siguientes condiciones:
(h1) ∇gi (x∗ ) , i ∈ I (x∗ ) ; ∇h j (x∗ ) , j = 1, 2, ..., p forma un sistema linealmente indepen-
diente;
(h2) I (x∗ ) = I + (x∗ , λ ∗ ) (todas las restricciones activas son fuertemente activas; en este caso
M (x∗ , λ ∗ ) es un subespacio vectorial);
(h3) ∇2xx L (x∗ , λ ∗ , µ ∗ ) es definida positiva sobre el subespacio M (x∗ , λ ∗ ) (condición suficiente
de segundo orden).
n ∗ m+p de 0
existen un entorno V ⊂ R de x , y un entorno W ⊂ R
Entonces m+p , tales que para
β
todo ∈ W el problema parametrizado
θ
(P (β , θ )) Min f (x)
s.a. g(x) ≤ β ,
h (x) = θ ,
presenta en V un único óptimo local, que además es estricto, x (β , θ ) ; en particular x (0m , 0 p) = x∗ .

Además x∗ (·, ·) es de clase C 1 en V, y
∗
−λ
∇(β ,θ ) f (x (β , θ ))(β ,θ )= 0 ,0 = .
( m p) −µ ∗
Demostración. Las condiciones de KKT para el problema (P (β , θ )) pueden expresarse como
∇ f (x) + ∇g (x) λ + ∇h (x) µ = 0n ,

λi (gi (x) − βi ) = 0, i = 1, ..., m, (D.5)
h (x) − θ = 0 p ,
λ ≥ 0m , g (x) ≤ β . (D.6)
Obviaremos por el momento las condiciones dadas en (D.6) y nos centraremos en el sistema de
ecuaciones (D.5). Para β = 0m , y θ = 0 p , (x∗ , λ ∗ , µ ∗ ) es una solución de dicho sistema. Apli-
caremos entonces el teorema de la función implı́cita para mostrar que el sistema (D.5) define
localmente a (x, λ , µ )T como función implı́cita de (β , θ )T . Para ello hemos de verificar que la
matriz jacobiana del sistema, con respecto a (x, λ , µ )T , evaluada en (x∗ , λ ∗ , µ ∗ )T es no singular.
Esta matriz viene dada por:
 ∗ ∗ ∗ 
2
∇xx L (x , λ , µ ) ∇g (x∗ ) ∇h (x∗ )
 T
diag (gi (x∗ ) , i = 1, .., m) 0m×p 
J :=  λi∗ ∇gi (x∗ ) ,
i=1,...,m
∇h (x∗ )T 0 p×m 0 p×p
80

donde λi∗ ∇gi (x∗ )T representa a la matriz cuya i-ésima fila es λi∗ ∇gi (x∗ )T , y diag (gi (x∗ ) , i = 1, .., m)
i=1,...,m
la matriz diagonal cuyos elementos diagonales son precisamente {gi (x∗ ) , i = 1, .., m}.
T
Supongamos que J es singular, entonces existe uT , vT , wT ∈ Rn+m+p \ 0n+m+p tal que
T
J uT , vT , wT = 0n+m+p . En primer lugar nótese que u 6= 0n , pues de lo contrario, el sistema
T
formado por las n primeras ecuaciones de J uT , vT , wT = 0n+m+p , se traducirı́a en ∇g (x∗ ) v +
∇h (x∗ ) w = 0n , y del sistema formado por las m siguientes obtendrı́amos vi = 0, si i ∈ / I (x∗ ) ,
contradiciendo
ası́ (h1) , pues habrı́amos encontrado entonces una combinación lineal nula del
sistema ∇gi (x∗ ) , i ∈ I (x∗ ) ; ∇h j (x∗ ) , j = 1, 2, ..., p .
Veamos que además u ∈ M (x∗ , λ ∗ ) . Del bloque formado por las p últimas ecuaciones se tiene
que ∇h j (x∗ )T u = 0, para todo j = 1, ..., p. Atendiendo de nuevo al bloque de las m ecuaciones
anteriores a éstas, tendrı́amos λi∗ ∇gi (x∗ )T u + gi (x∗ ) vi = 0, para todo i = 1, ..., m. Ası́ pues, si
i ∈ I (x∗ ) , entonces ∇gi (x∗ )T u = 0, pues estamos suponiendo que λi∗ > 0, para todo i ∈ I (x∗ ) .
Entonces, multiplicando a izquierda por uT en
∇2xx L (x∗ , λ ∗ , µ ∗ ) u + ∇g (x∗ ) v + ∇h (x∗ ) w = 0n ,
concluimos que
uT ∇2xx L (x∗ , λ ∗ , µ ∗ ) u + uT ∇g (x∗ ) v + uT ∇h (x∗ ) w = uT ∇2xx L (x∗ , λ ∗ , µ ∗ ) u = 0n ,
puesto que uT ∇h (x∗ ) w = 0 (pues uT ∇h (x∗ ) = 01×p ), y uT ∇g (x∗ ) v = ∑m T ∗

i=1 u ∇gi (x ) vi = 0 (ya
T ∗ ∗
hemos visto que u ∇gi (x ) = 0, si i ∈ I (x ) , y nótese que vi = 0, si i ∈ ∗
/ I (x ) , como consecuencia
∗ ∗ T ∗
de λi ∇gi (x ) u + gi (x ) vi = 0).
Hemos encontrado ası́ u 6= 0n , con u ∈ M (x∗ , λ ∗ ) , y uT ∇2xx L (x∗ , λ ∗ , µ ∗ ) u = 0n , alcanzando
una contradicción con (h3) .
Una vez comprobado que J es no singular, estamos en condiciones de aplicar el teorema de la
función implı́cita, concluyendo la existencia de un entorno U ⊂ Rm+p de (λ ∗ , µ ∗ )T , un entorno
V ⊂ Rn de x∗ , y un entorno W ⊂ Rm+p de 0m+p , y unaúnica función Φ : W → V × U, tales
β
que (Φ (β , θ ) , β , θ ) resuelve el sistema (D.5) para todo ∈ W. Además, como parte de la
θ
tesis del teorema de la función implı́cita se obtiene que Φ es de clase C 1 en W. En lo que sigue
representaremos por (x (β , θ ) , λ (β , θ ) , µ (β , θ )) a Φ (β , θ ) . Puesto que λi∗ > 0, para todo i ∈
I (x∗ ) , y gi (x∗ ) < 0, para todo i ∈
/ I (x∗ ) , puede tomarse W suficientemente pequeño para garantizar
λi∗ (β , θ ) > 0, i ∈ I (x∗ ) (y por tanto gi (x (β , θ )) = βi ), y gi (x (β , θ )) < βi , si i ∈
/ I (x∗ ) , y por tanto
∗
λi (β , θ ) = 0, i ∈ ∗
/ I (x ) .
De este modo aseguramos que (D.6) también se cumple, y entonces (x (β , θ ) , λ (β , θ ) , µ (β , θ ))
verifica las condiciones de KKT para el problema (P (β , θ )) .
Asimismo, como consecuencia de la continuidad de Φ, puede probarse que el punto (x (β , θ ) , λ (β , θ ) , µ (β ,
sigue verificando la condición de optimalidad suficiente presentada en el Teorema 64.
En lo que sigue, ∇x (β , θ ) representará a la matriz, de orden (m + p) × n, que tiene en su i-
ésima columna ∇ (x∗i (β , θ )) , i = 1, ..., n, y ∇β x (β , θ ) y ∇θ x (β , θ ) las matrices que contienen por
columnas los grandientes de cada x∗i (β , θ ) con respecto a β y θ , respectivamente.
Finalmente, aplicando la regla de la cadena concluiremos que
∗
−λ
∇(β ,θ ) f (x (β , θ ))(β ,θ )=0 = .
m+p −µ ∗
81

En efecto, de la regla de la cadena obtenemos que ∇(β ,θ ) f (x (β , θ ))(β ,θ )=0 = ∇x (0m+p) ∇ f (x∗ ) .
m+p
Por otro lado, tenı́amos que ∇ f (x∗ ) = − (∇g (x∗ ) λ ∗ + ∇h (x∗ ) µ ∗ ) . Veamos,
∗
∗ ∗ λ
∇x (0m+p ) ∇g (x ) λ = ,y (D.7)
0p

∗ ∗ 0m
∇x (0m+p ) ∇h (x ) µ = , (D.8)
µ∗
y entonces habremos probado que
∗
∗ ∗ ∗ ∗ −λ
∇(β ,θ ) f (x (β , θ ))(β ,θ )=0 = −∇x (0m+p ) (∇g (x ) λ + ∇h (x ) µ ) = .
m+p −µ ∗
Resta entonces probar (D.7) y (D.8). Comenzaremos estableciendo (D.7) ; esto es
∇β x (0m+p ) ∇g (x∗ ) λ ∗ = λ ∗ , y
∇θ x (0m+p ) ∇g (x∗ ) λ ∗ = 0 p ,

∇β x (0m+p )
donde se ha considerado la partición ∇x (0m+p ) = . Obtendremos dichas desigual-
∇θ x (0m+p )
dades derivando respecto de βi y respecto de θ j en el sistema proporcionado por las condiciones
de complementariedad
{λk (β , θ ) (gk (x (β , θ )) − βk ) = 0, k = 1, ..., m}.
En efecto, si derivamos en cada una de las ecuaciones respecto de βi , sustituimos en el punto
(β , θ ) = 0m+p y luego sumamos, obtenemos
( ! ! )
m
∂ λk (β , θ ) ∂ x ( β , θ )
∑ gk (x∗ ) + λk∗
∇gk (x∗ ) − δik
k=1 ∂ β i (β ,θ )=0m+p ∂ β i (β ,θ )=0m+p
( ! )
m
∂ x (β , θ )
= ∑ λk∗ ∇gk (x∗ ) − λi∗ = 0,
k=1 ∂ β i (β ,θ )=0m+p

∂ λk (β ,θ )
donde δik := 1, i = k, δik := 0, i 6= k (obérvese que ∂ βi gk (x∗ ) = 0, para todo
(β ,θ )=0m+p
k, pues lo es trivialmente si k ∈ I (x∗ ) , y por otro lado, si k ∈ / I (x∗ ) , entonces λk (β , θ ) es cons-
tantemente nulo en un entorno de 0m+p ). Hemos probado ası́ que la coordenada (fila) i-ésima de
∇β x (0m+p ) ∇g (x∗ ) λ ∗ coincide con λi∗ , para todo i, y por tanto ∇β x (0m+p ) ∇g (x∗ ) λ ∗ = λ ∗ .
Por otro lado, derivando en el mismo sistema anterior con respecto a θ j , evaluando esta deri-
vada en (β , θ ) = 0m+p , y sumando obtenemos:
( ! ! )
m
∂ λk (β , θ ) ∂ x ( β , θ )
∑ gk (x∗ ) + λk∗
∇gk (x∗ )
k=1 ∂ θ j (β ,θ )=0m+p ∂ θ j (β ,θ )=0m+p
( ! )
m
∂ x (β , θ )
= ∑ λk∗ ∇gk (x∗ ) = 0.
k=1 ∂ θ j (β ,θ )=0m+p
Y por tanto ∇θ x (0m+p ) ∇g (x∗ ) λ ∗ = 0 p .

La igualdad indicada en (D.8) se deduce de h (x (β , θ )) = θ , para todo (β , θ ) ∈ W, puesto

que ∇(β ,θ )h (x (β , θ ))(β ,θ )=0 = ∇x (0m+p ) ∇h (x ) = 0m×p
∗
I p
. Ası́ pues, ∇x (0m+p ) ∇h (x∗ ) µ ∗ =
m+p
0m
µ∗ .
82
14. Métodos de penalización
Sea el problema de optimización con una única restricción

mı́n f (x)
(P)
s.a. h(x) = 0.
Supongamos que este problema se reemplaza por el siguiente problema irrestringido, donde
c > 0 es un número suficientemente grande,

mı́n { f (x) + ch2 (x)}
(Pc )
x ∈ Rn .
Intuitivamente vemos que una solución x∗ al problema anterior tiene que ser tal que h(x∗ )
sea próximo a cero (de no ser ası́, una pequeña disminución en el valor de h(x∗ ) producirı́a un
decrecimiento de la penalización que compensarı́a cualquier posible aumento de f (x)).
Consideremos, ahora, el problema con una única restricción en forma de desigualdad

e mı́n f (x)
(P)
s.a. g(x) ≤ 0.
Es claro que el término cg2 (x) no constituirá una penalización adecuada puesto que ‘casti-
gará’ a aquellos puntos factibles que satisfagan g(x) < 0. Una posibilidad razonable consiste en
reemplazar (P)e por el problema
 

 

mı́nn f (x) + c máx {0, g(x)} . (135)
x∈R  | {z }

+ ≡g (x)
Una dificultad asociada con la penalización introducida en (135) estriba en que la función
g+ (x) = máx {0, g(x)} puede no ser diferenciable en los puntos x tales que g(x) = 0. Una alternativa
2
serı́a considerar la penalización c (g+ (x)) , cuya derivada en cualquier x ∈ Rn es
2cg+ (x)g′ (x).
En general una función de penalización adecuada tiene que producir una penalización positiva
en los puntos infactibles, y ninguna penalización en los puntos factibles. Si las restricciones son
de la forma hi (x) = 0, i = 1, . . ., m, g j (x) ≤ 0, j = 1, . . . , r, entonces una función de penalización
adecuada serı́a
m r
α (x) := ∑ ψ (hi (x)) + ∑ φ g j (x) , (136)
i=1 j=1
donde ψ y φ son funciones continuas que satisfacen las condiciones
ψ (y) = 0 si y = 0, y ψ (y) > 0 si y 6= 0;

φ (y) = 0 si y ≤ 0, y φ (y) > 0 si y > 0. (137)
Tı́picamente, ψ y φ son de la forma
ψ (y) = |y| p
p
φ (y) = (máx {0, y}) p = y+ ,
83
donde p es un entero positivo. Ası́ pues, una función de penalización usual es la siguiente
m r p
α (x) = ∑ |hi (x)| p + ∑ g+j (x) .
i=1 j=1
Ejemplo 66. Consideremos el problema siguiente:

mı́n x
s.a. − x + 2 ≤ 0.
2
Sea α (x) = [g+ (x)] , es decir,

0, si x ≥ 2,
α (x) = 2
(−x + 2) , si x < 2.
1
El mı́nimo de f + cα se alcanza en 2 − 2c , que tiende al mı́nimo del problema original x∗ = 2
cuando c → ∞.
Ejemplo 67. Sea el problema
mı́n x21 + x22
s.a. x1 + x2 − 1 = 0.
T
La única solución óptima de este problema es x∗ = 12 , 12 , con valor asociado de la función
objetivo de 12 .
Ahora consideraremos el siguiente problema de penalización, con c > 0,
mı́n {x21 + x22 + c (x1 + x2 − 1)2 }
s.a. x = (x1 , x2 )T ∈ R2 .
Puesto que la función objetivo de este problema es convexa, cualquiera que sea c ≥ 0, una condi-
ción necesaria y suficiente de optimalidad es que su gradiente se anule, es decir:
x1 + c (x1 + x2 − 1) = 0,
x2 + c (x1 + x2 − 1) = 0.
c
Resolviendo este sistema obtenemos x1 = x2 = 1+2c , siendo evidente que la (única) solución ópti-
ma del problema de penalización se aproxima a la solución óptima del problema original a medida
que c → ∞.
14.1. Métodos que utilizan funciones de penalización exteriores

Nuestro problema es
(P) mı́n { f (x), s.a. h(x) = 0m , g(x) ≤ 0 p }.

De momento exigiremos solamente que las funciones involucradas f , hi , g j sean continuas. Al
problema (P) le llamaremos primal.
Sea α una función continua de la forma que satisfaga las propiedades (137). El método básico
de penalización intentarı́a resolver el problema dual
(D) máx {θ (µ ), s.a. µ ≥ 0},

donde
84
θ (µ ) := ı́nf { f (x) + µα (x) : x ∈ Rn } .
El teorema fundamental, que probaremos más abajo, establece que

ı́nf f (x)| x ∈ Rn , h(x) = 0m , g(x) ≤ 0 p = sup θ (µ ) = lı́m θ (µ ).
µ ≥0 µ →∞
La principal consecuencia de este resultado, es que el valor óptimo ’primal’ se puede aproxi-
mar, tanto como se quiera, calculando θ (µ ) con µ suficientemente grande. La desventaja de este
tipo de procedimientos es que si xµ es solución óptima del problema con valor óptimo θ (µ ), xµ
no será en general ’factible’ para (P). Por esta razón, hemos denominado a estas funciones de
penalización exterior.
El teorema fundamental al que nos acabamos de referir se basa en el siguiente lema:
Lema 68. Sean f , h1 , . . . , hm , g1 , . . . , g p funciones continuas (en Rn ), y sea α una función de
penalización (continua), del tipo definido en (136) y (137). Supongamos que, para cada µ > 0,
existe xµ tal que
θ (µ ) = f (xµ ) + µα (xµ ).
Entonces si representamos por v(P) y v(D) los correspondientes valores óptimos de los problemas
duales considerados; es decir, si

v(P) : = ı́nf f (x) : h(x) = 0m , g(x) ≤ 0 p ,
v(D) : = sup {θ (µ ) : µ ≥ 0} ,
se verifican las proposiciones siguientes:

(1) v(P) ≥ v(D) (desigualdad dual débil);
(2) f (xµ ) y θ (µ ) son funciones no-decrecientes de µ , y α (xµ ) es una función no-creciente de
µ.
Demostración. Sea x ∈ Rn , tal que h(x) = 0m y g(x) ≤ 0 p . Obviamente, para este vector x se
verifica α (x) = 0. Cualquiera que sea µ ≥ 0
f (x) ≡ f (x) + µα (x) ≥ ı́nf { f (y) + µα (y) | y ∈ Rn } ≡ θ (µ ),
y por lo tanto,
f (x) ≥ sup θ (µ ) ≡ v(D).
µ ≥0
Como la desigualdad última se verifica para todo x factible de (P), tomando ı́nfimos se deduce
v(P) ≥ v(D), con lo que queda probado (1).
Vamos ahora a probar (2). Sean 0 < λ < µ , y consideremos la definición de θ (µ ) y de xµ . Se
cumplirá:
f (xµ ) + λ α (xµ ) ≥ θ (λ ) ≡ f (xλ ) + λ α (xλ ), (138)

f (xλ ) + µα (xλ ) ≥ θ (µ ) ≡ f (xµ ) + µα (xµ ). (139)
Sumando estas desigualdades resulta:

(µ − λ ) α (xλ ) − α (xµ ) ≥ 0.
85
Puesto que µ > λ , tendrá que ser
α (xλ ) ≥ α (xµ ),
y α (xµ ) ciertamente es una función no-creciente de µ .
Sumando y restando µα (xµ ) al miembro de la izquierda de (139) se obtiene:
θ (µ ) + (λ − µ )α (xµ ) = f (xµ ) + µα (xµ ) + (λ − µ )α (xµ ) ≥ θ (λ ).
Puesto que µ > λ y α (xµ ) ≥ 0, se deduce que θ (µ ) ≥ θ (λ ), y θ es no-decreciente.

Finalmente, queda por demostrar f (xµ ) ≥ f (xλ ). De no ser ası́, se tendrı́a f (xµ ) < f (xλ ) y
f (xµ ) + λ α (xµ ) < f (xλ ) + λ α (xµ ) ≤ f (xλ ) + λ α (xλ ),
que contradice (138).

Proposición 69. Sean (P) y (D) los problemas duales definidos más arriba,
y supongamos
que se
verifican las mismas condiciones que en el último lema, ası́ como que xµ : µ ≥ 0 está contenido
en un compacto X . Entonces:
(a) v(P) = v(D) (igualdad dual);
(b) v(D) = lı́mµ ↑∞ θ (µ );
(c) Cualquier punto de acumulación de la sucesión xµk , con µk ↑ ∞, será solución óptima de
(P), y µk α (xµk ) → 0 cuando k → ∞.
Demostración. (b) Como θ (µ ) es no-decreciente
v(D) = sup θ (µ ) = lı́m θ (µ ).

µ ≥0 µ ↑∞
(a) Probemos, en primer lugar, que

lı́m α (xµ ) = 0. (140)
µ →∞
Sea y una solución factible de (P), y sea ε > 0. De acuerdo con nuestra notación x1 será un punto
tal que
θ (1) = f (x1 ) + α (x1 ).
Sea ahora cualquier µ tal que
1
µ≥ | f (y) − f (x1 )| + 2.
ε
Como µ ≥ 2 > 1, se tendrá f (xµ ) ≥ f (x1 ), por (2) en el lema previo. Ahora probaremos que
α (xµ ) < ε , y ello ciertamente conlleva que lı́mµ →∞ α (xµ ) = 0.
Razonando por reducción al absurdo, si fuese α (xµ ) ≥ ε ,
v(P) ≥ v(D) ≥ θ (µ ) = f (xµ ) + µα (xµ )

≥ f (x1 ) + µα (xµ ) ≥ f (x1 ) + | f (y) − f (x1 )| + 2ε
≥ f (x1 ) + f (y) − f (x1 ) + 2ε > f (y).
La desigualdad v(P) > f (y) es imposible, que y is factible para (P).

puesto
∗
Sea x un punto de acumulación de xµk , con µk ↑ ∞ (existirá por la hipótesis de que dicho
conjunto está contenido en un compacto). Sin pérdida de generalidad, escribiremos lı́mk→∞ xµk =
x∗ . Entonces:
v(D) = sup θ (µ ) ≥ θ (µk ) = f (xµk ) + µk α (xµk ) ≥ f (xµk ).
µ ≥0
86
Puesto que xµk → x∗ , y f es continua, tomando lı́mites en la última desigualdad:
v(D) ≥ lı́m f (xµk ) = f (x∗ ). (141)

k→∞
Puesto que µk ↑ ∞, por (140) se tiene
lı́m α (xµk ) = 0 = α (x∗ ).

k→∞
Por lo tanto, x∗ es factible para (P), y (141) implica (a).

(c) Finalmente, observemos que
µk α (xµk ) = θ (µk ) − f (xµk ), (142)
y cuando k → ∞, lı́mk→∞ θ (µk ) = v(D), mientras que lı́mk→∞ f (xµk ) = f (x∗ ) = v(P) = v(D). De
(142) se desprende
lı́m µk α (xµk ) = 0.
k→∞
Corolario 70. Si α (xµ ) = 0 para algún µ , entonces xµ es solución óptima del problema (P).
Demostración. Si α (xµ ) = 0, entonces xµ es factible para (P). Además se tiene
v(P) ≥ θ (µ ) = f (xµ ) + µα (xµ ) = f (xµ ),
de donde se sigue que xµ es óptima para (P), y v(P) = v(D) = f (xµ ).

A partir de la proposición anterior se sigue que la solución óptima xµ al problema de minimizar
f (x) + µα (x), x ∈ Rn , puede hacerse arbitrariamente próxima a una solución óptima del proble-
ma original sin más que tomar µ sufientemente grande. Ello motiva un esquema de algoritmo
consistente en resolver una sucesión de problemas de la forma
mı́n { f (x) + µk α (x) | x ∈ Rn } ,

para una sucesión de valores del parámetro {µk } que tienda a +∞.
Bajo ciertas condiciones pueden usarse las soluciones a la sucesión de ’problemas penalizados’
para recuperar los multiplicadores de KKT (Karush-Kuhn-Tucker) asociados con las restricciones
del problema original
(P) mı́n { f (x), s.a. h(x) = 0m , g(x) ≤ 0 p }.
Asumamos que la función de penalización α (.) es la introducida en (136) y (137) y que, adi-
cionalmente, ψ y φ son continuamente diferenciables, con φ ′ (y) ≥ 0 para todo y, y φ ′ (y) = 0 para
y ≤ 0. Asumamos, también, que las condiciones de la proposición anterior se satisfacen. Puesto
que xµ resuelve el problema de minimizar f (x) + µα (x) el gradiente de esta función tiene que
anularse en xµ , esto es:
m p
∇ f (xµ ) + ∑ µψ (hi (xµ ))∇hi (xµ ) + ∑ µφ ′ (g j (xµ ))∇g j (xµ ) = 0n .
′
(143)
i=1 j=1

Ahora sea x∗ un punto de acumulación de la sucesión xµk , con µk → ∞ a medida que k → ∞. Sin
pérdida de generalidad, escribiremos,
87
lı́m xµk = x∗ .
k→∞

Recordando que I(x∗) = j| g j (x∗ ) = 0 , si j ∈ / I(x∗ ) se tendrá g j (x∗ ) < 0, y para k suficientemente
grande g j (xµk ) < 0, lo que a su vez entraña µk φ ′ (g j (xµk )) = 0, por la hipótesis adicional que se ha
hecho en relación con φ ′ .
Ahora (143), con µ = µk , podrá reescribirse como:
m
0n = ∇ f (xµk ) + ∑ (vik )∇hi (xµk ) + ∑ ∗ (ukj )∇g j (xµk ),
i=1 j∈I(x )
donde vk y uk son vectores con componentes
vik : = µk ψ ′ (hi (xµk )), i = 1, . . ., m, (144)

j
uk : = µk φ ′ (g j (xµk )) ≥ 0, j ∈ I(x∗ ). (145)
Si x∗ es un punto regular, existirán unos multiplicadores ’únicos’ λi∗ con i = 1, . . . , m, µ ∗j ≥ 0 con

j ∈ I(x∗ ), tales que:
m
0n = ∇ f (x∗ ) + ∑ λi∗ ∇hi (x∗ ) + ∑∗ µ ∗j ∇g j (x∗ ).
i=1 j∈I(x )
Puesto que todas las funciones involucradas ( f , hi , g j , ψ , φ ) son continuamente diferenciables, y

xµk → x∗ , a partir de las últimas igualdades se deduce que:
λi∗ = lı́m µk ψ ′ (hi (xµk )), i = 1, . . . , m

k→∞
µ ∗j = lı́m µk φ ′ (g j (xµk )), j ∈ I(x∗ ).
k→∞
Por lo tanto, para k suficientemente grande, los multiplicadores dados en (144) y (145) pueden ser
usados para estimar los multiplicadores de KKT en el punto óptimo x∗ . Por ejemplo, si α es la
función de penalización cuadrática dada por
m p
α (x) = ∑ h2i (x) + ∑ (g′j (x))2 ,
i=1 j=1
es decir
ψ (y) = y2 ⇒ ψ ′ (y) = 2y,

φ (y) = (y+ )2 ⇒ φ ′ (y) = 2y+ ,
entonces
λi∗ = lı́m 2µk hi (xµk ), i = 1, . . ., m

k→∞
µ ∗j = lı́m 2µk g+j (xµk ), j ∈ I(x∗ ).
k→∞
88
En particular, observemos que si µ ∗j > 0, para un cierto j ∈ I(x∗ ) entonces g′j (xµk ) > 0 para k
suficientemente grande, lo que significa que la restricción g j (x) ≤ 0 es violada a lo largo de la
trayectoria que conduce a x∗ , y necesariamente:
lı́m g j (xµk ) = g j (x∗ ) = 0,

k→∞
porque si es factible, y por tanto g j (x∗ ) ≤ 0.
x∗
Extendiendo este argumento, si µ ∗j > 0, ∀ j∈ I(x∗ ), y λi∗ 6= 0, con i = 1, . . . , m, concluiremos
que todas las restricciones de (P) son violadas en los puntos xµk de la trayectoria (¡de la parte
final!).
Ejemplo 71. (revisitado) Recordemos que

µk
xµk = (1, 1)T ,
2µk + 1
con lo que calculamos
1
h(xµk ) = − ,
2µk + 1
por lo que
2µk
vk = 2µk h(xµk ) = − .
2µk + 1
Tomando lı́mites:
λ ∗ = lı́m vk = −1,
k→∞
que es el multiplicador de Lagrange asociado a la solución óptima:
1
x∗ = lı́m xµk = (1, 1)T .
k→∞ 2
89
15. Apéndice
15.1. Número de condición
Antes de nada, recordemos algunas nociones acerca del número de condición y la norma de
una matriz An×n cualquiera. Dada una norma k · k en Rn , su norma matricial inducida se define
como
kAk = máx kAxk.
kxk=1
El número de condición con respecto a una norma matricial k · k se define como

cond(A) = kAkkA−1 k,
si A es regular; y cond(A) = +∞ si A es singular. El número de condición tiene las siguientes
propiedades, entre otras:
cond(A) ≥ 1, ya que kAkkA−1k ≥ kA · A−1k = kIk = 1.
cond(A) = cond(A−1 ).
cond(λ A) = cond(A), para todo λ 6= 0.
Matrices con un número de condición cercano a 1 se dice que están bien condicionadas. En
caso contrario, si su número de condición es muy grande decimos que están mal condicionadas.
El número de condición es una medida de la estabilidad o sensibilidad de una matriz (o del sis-
tema linear que representa) a operaciones numéricas. Es decir, podemos decir que “desconfiamos”
en los resultados de computaciones con matrices mal condicionadas. Por ejemplo, supongamos
que tenemos un sistema Ax = b, con A ∈ Rn×n no singular y x̄ es una solución del sistema. Si
perturbamos A a Ã y b a b̃ y x̃ es la solución del sistema perturbado Ãx̃ = b̃ (suponiendo que Ã es
“todavı́a” invertible), se tiene

kx̄ − x̃k kA − Ãk kb − b̃k
≈ cond(A) + ,
kx̄k kAk kbk
(ver [9, Sección 2.7, págs. 80-81]). Veamos un ejemplo de problema mal condicionado: el sistema

1,00001 1 x1 2,00001
= (146)
1 1 x2 2
tiene como solución (exacta) x = (1, 1)T , pero si cambiamos el primer elemento de la derecha de
2,00001 a 2, la solución cambia drásticamente a x̃ = (0, 2)T . Podemos comprobar que el número de
condición de la matriz del sistema (con la norma inducida por la norma euclı́dea) es muy grande:
cond(A) ≈ 4 · 105 .
La norma matricial consistente con la norma euclı́dea de una matriz A viene dada por
q
kAk = ρ (AT A),
donde ρ (AT A) es el radio espectral de la matriz AT A, cuyo valor es el máximo de los valores
propios de la matriz AT A. Si A es una matriz simétrica y λ1 ≤ . . . ≤ λn son sus valores propios
(reales), se tendrá que
q q
kAk = ρ (A2 ) = máx{|λ1 |2 , |λn|2 } = máx{|λ1 |, |λn|}.
90
Obviamente, si A es simétrica y definida positiva, kAk = λn , y su número de condición será
1 λn
cond(A) = kAkkA−1k = λn · = .
λ1 λ1
91
Bibliografı́a
[1] J. A BADIE, On the Kuhn-Tucker Theorem, Nonlinear Programming, J. Abadie (Ed.), 1967.
[2] R. BARBOLLA , E. C ERD Á Y P. S ANZ, Optimización Matemática: Teorı́a, Ejemplos y Con-

traejemplos, Espasa Calpe, Madrid, 1991.
[3] M.S. BAZARAA , H.D. S HERALI Y C.M. S HETTY, Nonlinear Programming: Theory and
Algorithms, John Wiley & Sons, New York, 1993.
[4] D.P. B ERTSEKAS, Nonlinear Programming, Athena Scientific, Belmont, Massachusetts,

1995.
[5] J.F. B ONNANS , J.C. G ILBERT, C. L EMARECHAL , C. S AGASTIZABAL , Numerical optimi-

zation: Theoretical and practical aspects, Universitext, Springer-Verlag, Berlin, 2003.
[6] R.W. C OTTLE A Theorem of Fritz John in Mathematical Programming, RAND Corporation
Memo, RM-3858-PR, 1963.
[7] G Y. FARKAS Theorie der einfachen Ungleichungen, J. Reine Angew. Math., 124, pp.1-27,
1901.
[8] R. F LETCHER, Practical Methods of Optimization (2nd ed.), John Wiley and Sons, New York,
1987.
[9] G.H. G OLUB , C.F. VAN L OAN, Matrix computations, Johns Hopkins University Press, Bal-
timore, MD, 1996.
[10] M. G UIGNARD, Generalized Kuhn-Tucker Conditions for Mathematical Programming Pro-

blems in a Banach Space, SIAM J. Control, 7, pp. 232-241, 1969.
[11] F. J OHN, Extremum Problems with Inequalities as Side Conditions, Studies and Essays,
Courant Anniversary Volume, K.O. Friedrichs, O.E. Neugebauer, and J.J. Stoker (Ed.), Wiley-
InTerscience, New York, 1948.
[12] H.W. K UHN Y A.W. T UCKER, Nonlinear programming, Proc. 2nd Berkeley Symposium
on Mathematical Statistics and Probability, J. Neyman (Ed.), University of California Press,
Berkeley, Calif., 1951.
[13] D.G. L UENBERGER, Programación Lineal y No Lineal, Addison-Wesley Iberoamericana,

México, 1989.
[14] O.L. M ANGASARIAN Y S. F ROMOVITZ, The Fritz-John Necessary Optimality Conditions

in the Presence of Equality and Inequality Constraints, J. Mathematical Analysis and Ap-
plications, 17, pp. 37–47, 1967.
[15] G.P. M C C ORMICK, Nonlinear Programming: Theory, Algorithms and Applications, John
Wiley & Sons, New York, 1983.
[16] K. I. M. M C K INNON, Convergence of the Nelder–Mead Simplex Method to a Nonstationary

Point, SIAM J. on Optimization, 9 (1998), n.1, pp. 148–158.
92
[17] J. N OCEDAL , J. W RIGHT, Numerical Optimization, Springer Series in Operations Research,
Springer Verlag, New York, 1999.
[18] D.W. P ETERSON, A review of constraint qualifications in finite-dimensional spaces, SIAM

Review, vol. 15 n.3, 1973.
[19] A. P R ÉKOPA, On the development of optimization theory, American Mathematical Monthly,

87 (1980), pp. 527-542.
[20] R.T. ROCKAFELLAR, Convex Analysis, Princeton University Press, Princeton, NJ, 1970.
[21] Y.J. Z HU, Generalizations of some fundamental theorems on linear inequalities, Acta Math.
Sinica, 16 (1966), pp. 25-40.
93

Apuntes (Curso-09-10)

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apuntes (Curso-09-10)

Cargado por

Copyright:

Formatos disponibles

APUNTES DE

Marco Antonio López Cerdá

Departamento de Estadı́stica e Investigación Operativa

2. Métodos de búsqueda lineal 4

4. Convergencia de los métodos de búsqueda lineal 11

6. Análisis del modelo cuadrático 19

7. Resultados sobre la tasa de convergencia 24

8. El método de Newton y sus variaciones 27

10. Métodos de direcciones conjugadas 33

11. Métodos Quasi-Newton 38

12. Métodos que no usan derivadas 42

13. Optimización con restricciones 46

14. Métodos de penalización 83

(P) ≡ ( f , X ) := mı́n f (x)

siendo f : X → R, f ∈ C 2 (X ). Si X ≡ Rn se dice que (P) es un problema de optimización sin

1.1. Condiciones de optimalidad para el problema irrestringido

∇2 f (x∗ )  0 (Condición necesaria de 2o orden),

es decir, ∇2 f (x∗ ) es una matriz semidefinida positiva.

Demostración. Fijemos p ∈ Rn , p 6= 0n . Entonces

donde f ′ (x∗ ; p) representa la derivada direccional de la función f en el punto x∗ y en la dirección

f (x∗ + α p) − f (x∗ ) 1 T 2 ∗ o(α 2 )

Proposición 2. Supongamos que f es una función convexa y diferenciable en Rn . Entonces x∗ es

f (x) ≥ f (x∗ ) + ∇ f (x∗ )T (x − x∗ ), ∀x ∈ X .

Obviamente, si ∇ f (x∗ ) = 0n se verificará f (x) ≥ f (x∗ ), ∀x ∈ X .

Teorema 4. Sea f : Rn → R, f ∈ C 2 (W ), siendo W abierto de Rn . Supongamos que x∗ ∈ W y

f (x) ≥ f (x∗ ) + γ kx − x∗ k2 , ∀x ∈ B(x∗ ; ε ). (1)

(ii) Si ∇2 f (x∗ ) tiene valores propios de distintos signos, x∗ es un punto de silla.

Utilizando esta acotación, la condición de estacionariedad ∇ f (x∗ ) = 0n y el desarrollo de Taylor

2. Métodos de búsqueda lineal

mı́n f (xk + α pk ). (2)

Figura 1: Algoritmo de búsqueda lineal para minimizar una función f .

f ′ (xk ; pk ) = ∇ f (xk )T pk < 0. (4)

f (xk+1 ) = f (xk + α pk ) = f (xk ) + α ∇ f (xk )T pk + O(α 2 ) < f (xk ). (5)

Para simplificar, denotaremos ∇ f (xk ) ≡ ∇ fk .

2.1. Familia de métodos del gradiente

f ′ (xk ; pk ) = ∇ f (xk )T pk = −∇ f (xk )T Bk−1 ∇ fk pk < 0.

Los algoritmos más importantes son:

Bk = I, en el método de descenso más rápido (7);

Bk ≈ ∇2 fk , en los métodos quasi-Newton.

La idea del método de Newton es minimizar en cada iteración la aproximación de segundo

Figura 2: f (xk ) = 1/k converge a 0 y no al mı́nimo −1.

3.1. Condiciones de Wolfe

Figura 3: Condición de decrecimiento suficiente.

Figura 4: Condición de curvatura.

Las condiciones de decrecimiento suficiente y de curvatura se conocen conjuntamente como

Figura 5: Longitudes de paso que satisfacen las condiciones de Wolfe.

f (xk + αk pk ) ≤ f (xk ) + c1 αk ∇ fkT pk , (15a)

Proposición 7. Supongamos que f : Rn → R es continuamente diferenciable. Sea pk una dirección

∇ f (xk + α ′′ pk )T pk = c1 ∇ fkT pk > c2 ∇ fkT pk , (18)

f (xk ) + (1 − c)αk ∇ fkT pk ≤ f (xk + αk pk ) ≤ f (xk ) + cαk ∇ fkT pk , (19)

Figura 6: Condiciones de Goldstein.

Elegir ᾱ > 0, ρ , c ∈ ]0, 1[. Tomar α = ᾱ .

4. Convergencia de los métodos de búsqueda lineal

k∇ f (x) − ∇ f (y)k ≤ λ kx − yk, ∀x, y ∈ U.

(∇ fk+1 − ∇ fk )T pk ≥ (c2 − 1)∇ fkT pk .

Aplicando la condición de Lipschitz,

(∇ fk+1 − ∇ fk )T pk ≤ k∇ fk+1 − ∇ fk kkpk k ≤ λ αk kpk k2 .

Sustituyendo esta desigualdad en la primera condición de Wolfe (14a),

Usando la definición (20), podemos escribir esta relación como

Ejercicio 9. Sea f : Rn → R, con f ∈ C 2 (U ). Si la matriz hessiana ∇2 f está acotada sobre U ,

Solución: Para todo x, y ∈ U se tiene que

Tomando normas, obtenemos

|∇ f (x) − ∇ f (y)| = 4|x3 − y3 | = 4|x2 + xy + y2 | |x − y|.

Figura 7: ∇ f es Lipschitz continua en U sin serlo en todo el espacio.

∇2 f (x∗ ) 0 (Condición necesaria de 2o orden),

donde la antepenúltima desigualdad se deduce k de que xk ∈ B(x∗ ; β ).