Met Analiticos S

Métodos
Analíticos de
Búsqueda.
DERIVACIÓN
• El mínimo local del sistema restringido es el x1
punto A, C 5
• El máximo local del sistema restringido es el
4
punto B, B
En el punto A, la curva f(x1,x2) = cte., y la
• El máximo del sistema sin restricciones es el A
curva h(x ,x
punto C. 1 2 ) = 0 son tangentes y tienen 3
pendientes iguales. Por lo tanto, pequeños
cambios (diferenciales) en x1 y x2 (dx1 y dx2), h(x1,x2) = 0
producen un cambio similar en las variables
2
dependientes f(xdx dx1
1, x2)y h(x1,x2):
1
dx2 f
dx2 h
1
Tomando las derivadas totales de f y h se
f f
obtiene: df  dx1  dx2  0 x2
x1 x2
h h
Combinando ecuaciones se tiene:
dh  dx1  dx2  0, f h f h
x1 x2  0
x1 x2 x2 x1
ya que f es constante en los puntos A y B, y h Ésta es la ecuación a resolver en
es igual a cero. combinación con la ecuación de
En el caso con restricciones las primeras restricción para localizar los
derivadas f f no son cero. puntos estacionarios.
,
x1 x2
DERIVACIÓN
Caso general: n variables independientes y m ecuaciones de restricción
En general se buscan los puntos estacionarios de una función f(x1,x2,...,xn) sujeta a
m ecuaciones de restricción,
h1  x1 , x2 , , xn   0
h2  x1 , x2 , , xn   0
 
hm  x1 , x2 , , xn   0 donde n > m
En este caso: En forma compacta se puede escribir

f f f colocando m variables xi al lado izquierdo:
df  dx1  dx2    dxn  0
x1 x2 xn m
f n
f
h1 h h
 df   dxi    dxi
dh1  dx1  1 dx2    1 dxn  0 i 1 x i i  m 1 x i
x1 x2 xn m
hk n
h
  
i 1 xi
dxi    k dxi
i  m 1 xi
donde k = 1,2,...,m
h h h
dhm  m dx1  m dx2    m dxn  0
x1 x2 xn
(m+1) ecs. homogéneas y (n+1)
incógnitas, las diferenciales dxi
(i=1,...,n) y df.
DERIVACIÓN
Caso general: n variables independientes y m ecuaciones de restricción
troduciendo una notación para distinguir las variables del problema:
• Variables de estado: si = xi para i = 1,2, ..., m
• Variables de decisión: di = xi para i = m+1,...,n
• Grados de libertad: p = 1,2, ...,(n–m) donde p = n – m (g.l.)
escribiendo el problema con la nueva notación se tiene:

M
f P
f
 df   dsm   dd p El problema tiene M variables de
m 1 sm p 1 d p estado, P variables de decisión y
M
hk P
hk (M+P) variables independientes.

m 1 sm
dsm  
p 1 d p
dd p k = 1, 2, ..., M
Si las diferencias de decisión son especificadas, entonces el conjunto de ecuaciones

se puede resolver para un valor de df. Los valores de las diferenciales de estado
aseguran que el nuevo punto x + dx, esté dentro de la región admisible.
Las variables de decisión se pueden manipular libremente, mientras que las de
estado se ajustan automáticamente, de manera que el nuevo punto obtenido sea
admisible. Cada restricción adicional reduce el número de grados de libertad del
problema y al reducir el número de variables de decisión del problema, hace que
éste se simplifique. La dimensión de la región admisible, no es el número de
variables independientes, sino el número de grados de libertad del problema.
DERIVACIÓN
Método de Variación Restringida
Definiendo al Jacobiano como: mientras que su determinante
 h1 h1 
 s    h1 , , hm 
sm  J  0
 1  f   s1 , , sm 
J   
  s
 hm 
hm 
 s1 sm 
Primer caso:
Ambas ecuaciones en conjunto con la ecuación
Optimizar y(x1,x2,x3)
f(x1,x2,x3) = 0 se pueden resolver para obtener los
s.t. f(x1,x2,x3) = 0
puntos estacionarios.
n = 3,m = 1,p = n–m = 2
Se escoge x1 como var. de estado y
x2, x3 como var. de decisión.
y y
  y, f  x2 x1 y f y f
    0,
  x2 , x1  f f x2 x1 x1 x 2
x2 x1
y y
  y, f  x3 x1 y f y f
    0.
  x3 , x1  f f x3 x1 x1 x3
x3 x1
DERIVACIÓN
Definiendo al Jacobiano como: mientras que su determinante
 h1 h1 
 s    h1 , , hm 
sm  J  0
 1  f   s1 , , sm 
J   
  s
 hm 
hm 
 s1 sm 
Segundo caso:
Optimizar y(x1,x2,x3) En un sistema de tres ecuaciones con cuatro
s.t. f1(x1,x2,x3) = 0 incógnitas dy, dx1, dx2, dx3. Mediante eliminación
f2(x1,x2,x3) = 0 se obtienen las ecuaciones:
 y f1 f1 y    y  f 1 f 1  y 
El sistema de ecs. a resolver es:   dx
 1    dx 2  Adx1  Bdx 2  0
 x
 1 3  x  x  x 3   x
 2 3  x  x  x 3 
y y y 1 2
dy  dx1  dx 2  dx3  0  f1 f 2 f 2 f1   f 1  f 2 f 2  f 1 
 x1 x2  x3   dx
 1    dx 2  Cdx1  Ddx 2  0
 x
 1 3  x  x  x 3   x
 2 3  x  x  x 3 
en el punto estacionario: 1 2
Resolviendo para dx1 se obtiene:

f1 f f
dx1  1 dx2  1 dx3  0, [(A)(D) – (C)(B)]dx1 = 0
x1 x 2 x3 Si dx1  0 entonces AD – CB = 0 y esta ecuación en
f 2 f f
dx1  2 dx2  2 dx3  0. conjunto con las ecuaciones de restricción darán
x1 x 2 x3 como resultado los puntos estacionarios.
DERIVACIÓN
ondiciones Necesarias para un problema general (n variables con m restricciones). –
Cada restricción hj(x) = 0, j = 1,2,…,m, da pie a una ecuación lineal en las
variaciones dxi, i = 1,2,…, n. Así, habrá en total m ecuaciones lineales en n
variaciones. De aquí entonces que cualquier m variación pueda ser expresada en
términos de las restantes n – m variaciones. Estas expresiones pueden usarse para
expresar la diferencial de la función objetivo, df, en términos de las n – m
variaciones independientes. Dejando desaparecer los coeficientes de las variaciones
independientes en la ecuación df = 0, se pueden obtener las condiciones necesarias
para el óptimo restringido f f de
f la función
f dada.
Las Estas condiciones
variaciones son:
de las primeras m variables

xk x1 x2 xm (dx1, dx2,…, dxm) han sido expresadas en
h1 h1 h1 h1 términos de las variaciones de las restantes

xk x1 x2 xm n – m variables (dxm+1,dxm+2,…,dxn) al derivar
 f , h1 , h2 , , hm 
J   h2 h2 h2  h2  0 el Jacobiano anterior. Esto implica que la
 xk , x1 , x2 , x3 , xm  x x1 x2 xm siguiente relación debe satisfacerse.
k
 h , h , , hm 
0
  J 1 2
hm hm hm hm x ,
 1 2 x ,  , x m 

xk x1 x2 xm Las n – m ecuaciones dadas por el Jacobiano
representan las condiciones necesarias para
donde k = m+1, m+2,…,n el extremo de f(x) bajo las m restricciones de
igualdad, hj(x) = 0, j = 1,2,…,m.
DERIVACIÓN
ondiciones de Suficiencia para un problema general (n variables con m restricciones). –
Al eliminar las primeras m variables, usando las m restricciones de igualdad (esto es
posible, al menos en teoría!), la función objetivo puede hacerse que dependa
únicamente de las restantes variables, xm+1, xm+2,…, xn. Entonces la expansión de f
en series de Taylor, en términos de estas variables, alrededor del punto extremo x*
da n
 f  1 n n  2 f 
*
 *
  
f x  dx  f x    dxi    
 dxi dx j …(A)
2! i  m 1 j  m 1  xi x j 
i  m 1  xi  g
g
donde (f/xi)g se usa para denotar la derivada parcial de f con respecto de xi

(manteniendo el resto de las variables xm+1, xm+2,…, xi–1, xi+1, xi+2,…, xn como
constantes) cuando x1, x2,.., xm se les permite cambiar de tal forma que las
restricciones hj(x*+ dx) = 0, j = 1,2,..,m sean satisfechas; la segunda derivada,
Ejemplo: Ya que un
(2f/xixj)g, se usa para denotar n =significado
3 y m = 1, similar.
se pueden pensar en cualquiera de las m
min f(x) = f(x1,x2,x3) variables, digamos x1, para ser la dependiente y las restantes n –
s.t. h1(x) = x12 + x22+ x32 – 8 = 0m variables, a saber x2 y x3, como las independientes. De aquí la
derivada parcial restringida (f/x2)g, por ejemplo, significa que la
tasa de cambio de f con respecto a x2 (manteniendo la otra
variable independiente x3 constante) y al mismo tiempo permitir
x1 cambiar alrededor de x* para satisfacer la restricción g1(x) = 0.
En el presente caso, esto significa que dx1 se tiene que escoger
para satisfacer la relación
DERIVACIÓN
da n
 f  1 n n  2 f 
*
 
f x  dx  f x 
*
  
  dxi    dxi dx j   …(A)
2! i  m 1 j  m 1  xi x j 
i  m 1  xi  g
g
donde (f/xi)g se usa para denotar la derivada parcial de f con respecto de xi

(manteniendo el resto de las variables xm+1, xm+2,…, xi–1, xi+1, xi+2,…, xn como
constantes) cuando x1, x2,.., xm se les permite cambiar de tal forma que las
restricciones hj(x*+ dx) = 0, j = 1,2,..,m sean satisfechas; la segunda derivada,
Ejemplo: h1 * h1 * h1 *
(2f/xixj)g, se usa para denotar
min f(x) = f(x1,x2,x3) h1 un
x dx 
* significado
  h1  x *
 
x1

similar.
x  dx1 
x2
 x  dx 2 
 x3
 x  dx3  0
s.t. h1(x) = x12 + x22+ x32 – 8 = 0 esto es,
2 x1* dx1  2 x 2* dx 2  0
ya que h1(x*) = 0 en el óptimo y dx3 = 0 (x3 se mantuvo constante
DERIVACIÓN
da n
 f  1 n n  2 f 
 *
   
f x  dx  f x 
*
  dxi      dxi dx j …(A)
2! i  m 1 j  m 1  xi x j 
i  m 1  xi  g
g
Debe tenerse en cuenta que (f/xi)g tiene que ser cero para i = m+1, m+2,…, n ya
que las dxi que aparecen en la Ec. (A) son todas independientes. Así las condiciones
necesarias para la existencia de un óptimo restringido a x* se puede expresar
también como:  f 
   0, i  m  1, m  2,  , n
 x
 i g
DERIVACIÓN
Como en el caso de optimización de una función multivariable sin restricciones, uno
se puede dar cuenta que la condición suficiente para x* para un mínimo (máximo)
relativo restringido es que la forma cuadrática Q definida por
n n  2 f 
Q     dxi dx j

i  m 1 j  m 1   xi x j 
g
sea positiva (negativa) para todas las variaciones (que no desaparecen) dxi. La
matriz   2 f   2 f   2 f  
  2       
x
  m 1  g x  x
 m 1 m  2  g  xm 1xn  g 
  
 
  f 
2
  f 
2
 f  
2
      2  
x  x  x  x
 n m 1  g  n m  2  g  xn  g 
tiene que ser positiva (negativa) definida para tener Q positiva (negativa) para
todas las selecciones de dxi.
Es evidente que el cálculo de las derivadas restringidas (2f/xixj)g, son una difícil
tarea e incluso prohibitiva para problemas con más de tres restricciones. El método
es difícil de aplicar ya que las condiciones necesarias por sí mismas involucran la
evaluación de determinantes de orden m + 1.
MULTIPLICADORES DE LAGRANGE
z Se desea resolver:
z = f(x,y) max f(x1,x2)
Círculo
s.t. h(x1,x2) = x12+x22 = 1 unitario
De forma general, la restricción se puede
escribir como: h(x1,x2) = c, donde h es alguna
función y c es una constante.
En la figura, el máximo de f está en (0,0). Sin
z = f(x,y) sujeta a embargo, uno no estaría interesado en dicho
la restricción x2 + máximo, sino sólo en el de f(x1,x2) cuando
y2 = 1
(x1,x2) pertenezcan al círculo unitario, i.e.,
cuando x12+x22 = 1. El cilindro sobre x12+x22 = 1
intersecta la gráfica de z = f(x1,x2) en una curva
y que está contenida en dicha gráfica. El
problema de maximizar o minimizar f(x1,x2)
sujeta a la restricción x12+x22 = 1 equivale a
Punto en
x x2 + y 2 =
encontrar el punto en esta curva donde z es
Punto en x2 + y2 = 1
1 donde f donde f se maximiza
mayor o menor.
se
minimiza
Cuando f se restringe a S, de nuevo se tiene el
concepto de máximos locales o mínimos locales de f
(extremos locales), y un máximo global (valor mayor)
o un mínimo global (valor menor) debe ser un extremo
local.
z grad f(x0,y0,z0) = f(x0,y0,z0)
Si f, al restringirse a una superficie S,
tiene un máximo o un mínimo local en Plano tangente a S
x0, entonces f(x0) es perpendicular a S en
x0 superficie S
(x0,y0,z0)
Para un extremo de f que exista sobre h, el

f debe alinearse con el h. La curva f se
muestra en rojo, la restricción h en azul, y la y
intersección de f y h en azul claro. El
gradiente es un vector horizontal (i.e., no
tiene componente z) que muestra la x
dirección en la cual la función incrementa;
para h es perpendicular a la curva, la cual es
una línea recta en este caso. La línea negra
representa la dirección de los gradientes de f
y h en el punto óptimo y que son colineales.
 f 
Lo anterior significa que  los dos
x  
deben ser múltiplos uno del otro:

 
h
vectores
x  …(1)
donde  se le conoce como el multiplicador

de Lagrange.
Se desea resolver: Los gradientes de f y h en x* son:
min f(x1,x2) = x1 + x2 f(x*) = [1,1]
s.t. h(x1,x2) = x12+x22–1=0 h(x*) = [2x1,2x2]|x* = [–1.414,–1.414]
x2 El gradiente de la función objetivo f(x*) es ortogonal
1 al plano tangente de la restricción en x*. En general,
h(x*) es siempre ortogonal a este plano tangente, de
aquí que f(x*) y h(x*) sean colineales, esto es, caen
–1 1 en la misma línea pero apuntan en direcciones
x1 opuestas.
Considerar ahora el punto no-óptimo x1. El f(x1) es
no-ortogonal al plano tangente de la restricción en
x1, así que tiene un proyección diferente de cero en
x* = –(1/√2, 1/√2) –1 el plano. El negativo de este gradiente proyectado
también no es cero, lo cual indica que moviéndose
Figura A hacia abajo a lo largo del círculo reduce (mejora) la
Proyección
función objetivo. En un óptimo local, pequeños
incrementos o movimientos a lo largo de la
f(x1)
restricción (el círculo en este caso) lejos del óptimo
x1, no
óptim pueden mejorar el valor de la función objetivo, así
o que el gradiente proyectado deba ser cero. Ésto sólo
f(x*) f(x1) pasa cuando f(x*) es ortogonal al plano tangente.
optimu
m
x*
h(x*) Plano
Figura B tangente a x*
Se desea resolver:
min f(x1,x2) = x1 + x2 Retomando la ecuación (1):
s.t. h(x1,x2) = x12+x22–1=0 f(x*) = l*h(x*)
x2 se puede reescribir también como:
1 f(x*) + l*h(x*) = 0 …(1a)
Introduciendo ahora la función L(x,l) llamado
función lagrangeana:
–1 1 L(x,l) = f(x) + lh(x)
x1 entonces, la ec. (1a) se transforma en:
xL(x,l)|(x*,l*) = 0 …(2)
así, el gradiente de la función lagrangeana con
x* = –(1/√2, 1/√2) –1 respecto a x, evaluado en (x*,l*), es cero.
La ec.(2), junto con la condición de factibilidad
Figura A
Proyección h(x*) = 0
constituyen las condiciones necesarias de primer
f(x1) orden de optimalidad.
x1, no
óptim
o
f(x*) f(x1)
optimu
m
x*
h(x*) Plano
Figura B tangente a x*
Se desea resolver: En general se puede demostrar que, dada f(x1,x2),
min f(x1,x2) f  x1 , x2 
s.t. h(x1,x2) = 0 dx2 x1

dx1 f  x1 , x2 
En específico, sean: x2
f(x1,x2) = 2x1 + x1x2 + 3x2 f  x1 , x2 
h(x1,x2) = x12 + x2 – 3 = 0 dx1 x2
 ,
Para x1 = 1, resulta x2 = 2 y f(x1,x2) = dx2 f  x1 , x2 
10. x1
Por tanto, de la ecuación, aplicando estas expresiones a la función
2x1 + x1x2 + 3x2 = 10 f(x1,x2) = 2x1 + x1x2 + 3x2,
10  2 x1
x2  x ;
se puede resolver para x 23
se obtiene:
1 dx2 2  x2
dx2

16 
dx1  x1  3
2
dx1 x1  3
dx1 x 3
10  3 x2
x1 
 1
y resolver para x1: x1  3 dx2 2  x2
dx1

16 Cuando x1 = 1 y x2 = 2, la razón de cambio
 2  x2 
2
dx2
de x2 respecto a x2 es: 2  x2
  1
x1  3
Estas ecuaciones establecen la razón 16
de cambio de una variable con   1
 x1  3
2
respecto a la otra.
9 Por tanto, f g
dx1 x dx1 x
8
 2 ;  2 ,
dx2 f dx2 g
7
x1 x1
6 e igualando ambas expresiones:
f(x1,x2) = 18 f h f f
5 x x x x
 2   2 esto es :  1   2
4
f h h h
f(x1,x2) = 15
x1 x1 x1 x2
3 Denotando esta razón de cambio l, se obtiene:
2 f f
f(x1,x2) = 12  x2  x2 f h f h
 ;   , esto es :   0;  0
1 f h x1 x1 x 2 x 2
h(x1,x2) x1  x2
1 2 3 4 5 6 7
Haciendo L = f(x1,x2) – lg(x1,x2), se obtiene:
En algún punto la gráfica f(x1,x2) L f h El factor l es el multiplicador
  0 de Lagrange. La
tocará justamente a h(x1,x2). En dicho x1 x1 x1
punto las pendientes son iguales. La L  f h transformación del problema a
razón de cambio de x1 con respecto a    0. uno sin restricciones de la de
x2 en f será igual a la razón de cambio
x2 x2  x2 la forma:
min f(x1,x2) – lh(x1,x2),
de x1 con respecto a x2 en h.
se conoce como el Método de
Se desea resolver: MÉTODO
optimizar y(x1,x2,x3) o en una notación simplificada:
 
s.t. f1(x1,x2,x3) = 0 dy   y  1 f1  2 f 2  dx1   y  1 f1  2 f 2  dx2 
x1 x 2
f2(x1,x2,x3) = 0

Se ha definido:  y  1 f  2 f 2  dx3
x3
y y y
dy  dx1  dx2  dx3 La función y + l1f1 + l2f2 se considera como
x1 x2 x3
una nueva función L no restringida llamada
f1 f f
dx1  1 dx2  1 dx3  0 función aumentada o función de Lagrange.
x1 x2 x3
f 2 f f Es necesario encontrar los puntos
dx1  2 dx2  2 dx3  0 estacionarios de la nueva función
x1 x2 x3
Multiplicando la 2ª ec. por l1 y la
L(x1,x2,x3,l1,l2) en cinco variables, por lo que
3ª ec. por l2; donde l1 y l2 son hay que hacer igual aL cero lasLderivadas
0  f1  0
constantes arbitrarias a parciales: x1 1
determinar, y sumando estas tres L L
0  f2  0
ecs. se obtiene: x2 2
 y f1 f 2   y f1 f 2  L
dy    1  2  dx1    1  2  dx 2  0
 x1 x1 x1   x 2 x 2 x 2  x3
 y f1 f 2  Con n variables independientes y m
  1  2  dx3
 x3 x3 x3  ecuaciones de restricción, se debe resolver un
sistema de (m+n) ecuaciones para obtener
los puntos estacionarios.
INTERPRETACIÓN DE LOS
Para encontrar el significado físico de los multiplicadores de Lagrange,
considérese el siguiente problema de optimización involucrando una sola
restricción de igualdad:
min f(x) …(a)
s.t. h(x) = b o h(x) = b – h(x) = 0 …(b)
donde b es una constante.
Las condiciones necesarias a ser satisfechas para la solución del problema son:
f h
  0, i  1, 2, , n  (c)
 xi xi
h  0,  (d)
La solución para las Ecs. (c)-(d) son x*, l*, f*= f(x*)
Suponer que se quiere encontrar el efecto de una pequeña relajación o
endurecimiento de la restricción en el valor óptimo de la función objetivo (i.e., se
quiere encontrar el efecto de un pequeño cambio de b en f*). Por lo que se
db  dh
diferencia la Ec.
0 (b) para obtener:
o 
n
h
db  dh   dxi  (e)
 i 1 xi
Por lo que la Ec. (c) puede reescribirse como
f h f h
 i    i  0  (f )
xi xi xi xi
o
hi f xi
  , i  1, 2, , n  (g)
xi 
Sustituyendo la Ec (g) en la Ec. (e), se obtiene:
n
1 f df
db   dxi   (h)
i 1   xi 
ya que
n
f
df   dxi  (i)
i 1 x i
La Ec. (h) da entonces
df df 
 o   *
 ( j)
db db Así, l* denota la sensibilidad (o la tasa de
or
cambio) de f con respecto de b o el cambio
df    *db  (k)
marginal o incremental en f* con respecto de b
en x*. En otras palabras, l* indica qué tan
fuertemente está ligada la restricción en el
punto óptimo.
 Dependiendo del valor de l*(+,–,0) el siguiente
significado físico se puede atribuir a l*:
1. l* > 0. En este caso, un decremento unitario en b es
positivamente valorado, ya que se puede obtener un valor
más pequeño del mínimo de la función objetivo f. De hecho,
el decremento en f* será exactamente igual a l* ya que df =
l*(–1) = –l* < 0. De aquí, l* se puede interpretar como la
ganancia marginal en f* debido a un “endurecimiento” de
la restricción. Por otro lado, si b aumenta en una unidad, f
también lo hará a un nuevo nivel óptimo, con el aumento
del incremento en f* siendo determinado por la magnitud de
l* ya que df = l*(+1) > 0. En este caso, l* puede pensarse
como el (incremento) costo marginal en f* debido a un
relajamiento de la restricción.
2. l* < 0. En este caso, un incremento unitario en b es
positivamente valorado, ya que se puede disminuye el valor
óptimo de f. La ganancia marginal (reducción) en f*
debido a la relajación de la restricción por una unidad está
determinado por el valor de l* ya que df* = l*(+1) < 0. Si
disminuye el valor de b en una unidad, el costo marginal
(incremento) en f* por el “endurecimiento” de la restricción
es df* = l*(–1) > 0, ya que en este caso, el valor mínimo de
la función objetivo incrementa.
3. l* = 0. En este caso, cualquier cambio incremental en b no
tiene absolutamente ningún efecto en el valor óptimo de f y,
de aquí, la ec. de restricción no está vinculada. Ésto
significa que la optimización de f sujeta a h = 0 lleva al
mismo punto óptimo x* como en el caso de la optimización
sin restricciones de f.
CONDICIONES DE SUFICIENCIA
 Una condición suficiente para que f(x) tenga un
mínimo relativo en x* es que el cuadrático, Q,
definido por n n
2L
Q   dxi dx j
i 1 j 1  xi  x j
evaluado en x = x* debe ser positivo-definido
para todos los valores de dx para los cuales las
restricciones sean satisfechas. La prueba de esta
condición es similar que para la de la matriz
hessiana. n n
2L
 Si Q    x * , λ *  dxi dx j
i 1 j 1  xi  x j
es negativo para todas las elecciones de las

variaciones permisibles dxi, x* será un máximo
restringido de f(x).
 Se ha demostrado que una condición necesaria para que la forma
cuadrática Q sea positiva (negativa) definida para todas las
variaciones admisibles dx es que cada raíz del polinomio zi, definido
por el siguiente determinante, sean positivos
(n×m) (negativos):
L11  z L12 L13  L1n h11 h21  hm1  h10 h20 hm0 
  
L21 L22  z L23  L2 n h12 h22  hm 2  x1 x1 x1 
h x    
*
 
   0 
 h1 h20 hm0 
Ln1 Ln 2 Ln 3  Lnn  z h1n h2 n  hmn  x xn

xn 
0  n
h11 h12 h13  h1n 0 0  0
ht(x*) h21 h22 h23  h2 n 0 0  0
  0 (m×m)
hm1 hm 2 hm 3  hmn 0 0  0
donde
(m×n)
2 L
Lij 
xi x j
 x* , λ *  El determinante, en la expansión, lleva a un
polinomio de orden (n – m) en z. Si alguna de las
hi *
hij 
x j
 x  raíces de este polinomio son positivas mientras
que las otras negativas, el punto x* no es un punto
extremo.
Se desea resolver:
optimizar f(x)
s.t. hi(x) = 0 i = 1,2,…,m
Sea (x0,l0) un punto que satisface las Las conclusiones respecto a la naturaleza
condiciones necesarias. Para lo cual es de x0 dependen de los signos de las
necesario calcular el determinante del (n–m) raíces del polinomio en z. Si
arreglo: todas las raíces son:
 L11
0
z 0
L12  L10n  a) positivas, x0 es un mínimo
 0 
 L 21 L 0
22  z  L0
2 n h  x 0   b) negativas, x0 es un máximo
  0
 0 
 Ln1 L0n 2  L0nn  z 
 h  x0 
t
0  m  m  

2L
L11 
0
onde x1x1 es evaluada en (x0, l0) y
a matriz h es:
 h10 h20 hm0 
  
 x1 x1 x1 
h  x0     
 0 
 h1 h20 hm0 
 x 
 n xn xn 
 En la siguiente tabla se muestran las condiciones necesarias
y suficientes para la optimalidad
Problema Condiciones necesarias También suficientes si:

Una variable, no df
0 f(x) cóncava
restringido
dx
Multivariable, no f f(x) cóncava
restringido 0  j  1, 2,  , n 
x j
Restringido, sólo
f
restricciones de no 0  j  1, 2, , n  f(x) cóncava
negatividad x j
 o  0 si x j  0de
Condiciones  Karush-Kuhn- f(x) cóncava y gi(x)
Problema general Tucker convexa
restringido
(i = 1, 2,…,m)
OPTIMIZACIÓN MULTIVARIABLE CON
RESTRICCIONES DE DESIGUALDAD
 Condiciones de Karush–Kuhn–Tucker (KKT)
Un cono es un conjunto de puntos R, tal que, si (4,5)
x está en R, lTx está también en R para l ≥ 0. Un 5
cono convexo es un cono que está en un conjunto
(2,4)
convexo. 4
Se puede demostrar que el conjunto de todas
3
las combinaciones lineales no-negativas de un
conjunto finito de vectores es un cono convexo, esto 2
es, que el conjunto
1
R = {x|x = l1x1 + l2x2 + ... + lmxm, li≥0, i=1, (2,1)
..., m}
es un cono convexo. Los vectores x1, x2,..., xm se les 1 2 3 4 5
llama generadores del cono.

El cono está generado por los vectores [2,1] [2,4].
Así, cualquier vector que pueda ser expresado como
una combinación lineal no-negativa de estos
vectores cae en el cono. El vector [4,5] en el cono
está dado por
[4,5] = 1 × [2,1] + 1 × [2,4]
 Condiciones de Karush–Kuhn–Tucker (KKT):
Interpretación geométrica
En cualquier óptimo local restringido, ningún cambio (pequeño) permitido en
las variables del problema puede mejorar el valor de la función objetivo.
y
min f(x,y) = (x – 2)2 + (y – 1)2 2 –y + x2 ≤ 0
s.t. g1(x,y) = –y + x2 ≤ 0
g2(x,y) = x + y ≤ 2
g3(x,y) = y ≥0
• El óptimo se encuentra en la intersección x+y–2=0
de las restricciones 1 y 2 @ (1,1)

• Las restricciones 1 y 2 @ (1,1) son válidas
como igualdades, se les llama restricciones (2,1)
de atadura o activas en dicho punto. –f
• La restricción 3 es válida como una 1 Conjunto de (1,1 ● ●
restricción )
desigualdad estricta en (1,1), y es una
restricción inactiva, o de no-atadura, en
este punto.
Una restricción de igualdad es
siempre activa. Una restricción de y = 2x – 1, tangente a g1
desigualdad, ya sea del tipo “≤” o
“≥”, solamente es activa si, al ser
evaluada en condiciones
y = x2
óptimas, se mantiene la igualdad
entre el lado izquierdo y el lado x
derecho. 1 2
y
min f(x,y) = (x – 2)2 + (y – 1)2 2 –y + x2 ≤ 0
s.t. g1(x,y) = –y + x ≤ 0
2
g2(x,y) = x + y ≤ 2
g3(x,y) = y ≥0
• Se busca definir una dirección factible de x+y–2=0
búsqueda como un vector tal que un

movimiento diferencial a lo largo de éste no
viole las restricciones. (2,1)
• En (1,1) el conjunto de todas las direcciones –f
factibles cae entre la línea x + y – 2 = 0 y la 1
Conjunto de (1,1 ● ●
restricción )
línea tangente a y = x2 en (1,1), i.e., la línea y
= 2x – 1.
• El conjunto de direcciones factibles es el
cono generado por estas líneas
(sombreadas). y = 2x – 1, tangente a g1
• El vector –f apunta en la dirección de la
máxima razón de cambio (decremento) de f,
y un pequeño movimiento a lo largo de y = x2
cualquier dirección formando un ángulo
(definido como positivo) de menos de 90° con 1 2 x
min f(x,y) = (x – 2)2 + (y – 1)2
s.t. g1(x,y) = –y + x2 ≤ 0
g2(x,y) = x + y ≤ 2
g3(x,y) = y ≥0
 –f está contenido en el cono generado por g1
y g2. Si no lo estuviese: g2
 Si –f estuviese ligeramente encima de g2,
el ángulo sería de menos de 90° con una
dirección factible por debajo de la línea x + y –f
– 2 = 0.
(1,1 ●
)
 Si –f estuviera ligeramente debajo de g1, g1
haría un ángulo menor de 90° con una
dirección factible por encima de la línea y =
2x – 1.
Ningún caso puede ocurrir en el punto óptimo, y
ambos casos están excluidos si y sólo si –f cae
dentro del cono generado por g1 y g2. Lo
anterior es lo mismo que requerir que f caiga
entre el cono generado por –g1 y –g2.
min f(x,y) = (x – 2)2 + (y – 1)2
s.t. g1(x,y) = –y + x2 ≤ 0
g2(x,y) = x + y ≤ 2
g3(x,y) = y ≥0
 –f está contenido en el cono generado por g1 y g2. Si no lo
estuviese:
 Si –f estuviese ligeramente encima de g2, el ángulo sería de g2
menos de 90° con una dirección factible por debajo de la línea x
+ y – 2 = 0.
 Si –f estuviera ligeramente debajo de g1, haría un ángulo
menor de 90° con una dirección factible por encima de la línea y –f
= 2x – 1. (1,1 ●
Ningún caso puede ocurrir en el punto óptimo, y ambos casos están )
excluidos si y sólo si –f cae dentro del cono generado por g1 y g2. Lo g1
anterior es lo mismo que requerir que f caiga entre el cono generado
por –g1 y –g2.
Lo anterior lleva a decir que, si f y todas las gj

son diferenciables, una condición necesaria para
que un punto x* sea un mínimo restringido del
problema
min: f(x)
s.t. gj(x) ≤ cj, j = 1,...,r
*
Enunciado Algebraico
min f(x,y) = (x – 2)2 + (y – 1)2
g2
s.t. g1(x,y) = –y + x2 ≤ 0
(1,1)● –f
g2(x,y) = x + y ≤ 2
g1
g3(x,y) = y ≥0
 Para que f caiga dentro del cono descrito, debe ser una combinación lineal
no-negativa de los gradientes negativos de las restricciones de atadura; esto
f  u
es, deben existir multiplicadores de Lagrange x*j* tales  g j  x*  
  u *j que
  ...(1)
jI
donde
u *j  0, j  I ...(2)
e I es el conjunto de índices de las restricciones de desigualdad de atadura.
min f(x,y) = (x – 2)2 + (y – 1)2
g2
s.t. g1(x,y) = –y + x2 ≤ 0
(1,1)● –f
g2(x,y) = x + y ≤ 2
g1
g3(x,y) = y ≥0
 Para que f caiga dentro del cono descrito, debe ser una combinación lineal no-negativa de los gradientes
negativos de las restricciones de atadura; esto es, deben existir multiplicadores de
  
Lagrange
f x*  uju *tales
*
 gquex*  ...(1)
j  j  
jI
donde
e I es el conjunto de índices de las restricciones de desigualdad de atadura. u *j  0, jI ...(2)
 Estos resultados se pueden reelaborar para incluir todas las restricciones definiendo el
multiplicador uj* como cero si gj(x*) < cj. En el ejemplo, u3*, el multiplicador de la restricción g3,
es cero.
 Se puede decir que uj* ≥ 0 si gj(x*) = cj, y uj* = 0 si gj(x*) < cj, así el producto uj*[gj(x) – cj] es cero
para toda j. Esta propiedad de que las r
restricciones de desigualdad inactivas tengan
multiplicadores cero, se llama
entonces en:
f holgura   
x*  ucomplementaria.
j g j x
* *
 
Condiciones (1) y (2) se convierten
 0 ...(3)
j 1
Condiciones
* * *
  
u j  0, u j  g j x  c j   0 ...(4a) 
de Kuhn-Tucker
g j  x*   c j , j  1, , r ...(4b)
Multiplicadores de Lagrange
Las condiciones KTC están íntimamente relacionadas con los resultados clásicos de
los multiplicadores de Lagrange para problemas con restricciones de igualdad. A
r
partir de la forma lagrangiana:
L  x, u   f  x    u j  g j  x   c j 
j 1
donde uj son vistos como los multiplicadores de Lagrange para las restricciones de
desigualdad gj(x) ≤ cj. Las Ecs.(3) y (4) establecen que L(x,u) deben ser
estacionarios en x en (x*,u*) con los multiplicadores u* satisfaciendo las Ecs. (4). La
estacionalidad de L es la misma condición que en el caso de restricciones de
igualdad. Las condiciones adicionales
r en las Ec. (4) surgen porque las restricciones
*
 
en este caso son desigualdades.
*
 
f x   u j g j x *  0 ...(3)
j 1
Condiciones
u  0, u  g j  x   c j   0 ...(4a)
*
j
*
j
*
de Kuhn-Tucker
 
g x*  c ,
j j j  1, , r ...(4b)
 Condiciones Necesarias y Suficientes de Segundo Orden
Las condiciones KT se satisfacen en cualquier mínimo local o máximo así como en
los puntos de silla. Si (x*, l*, u*) es un punto de Kuhn-Tucker, y las condiciones de
segundo orden de suficiencia se satisfacen en dicho punto, la optimalidad está
garantizada. Las condiciones de segundo orden involucran la matriz de segundas
derivadas parciales con respecto de x (la matriz hessiana de la función de
Lagrange), y se pueden escribir como:
 
y t  2x L x * , λ * , u * y  0 ...(a)
para todos los vectores no-cero y tales que

J(x*)y = 0 ...(b)
donde J(x*) es la matriz cuyas filas son los gradientes de las restricciones que son
activas en x*. La ec. (b) define un conjunto de vectores y que son ortogonales a los
gradientes de las restricciones activas. Estos vectores constituyen el plano
tangente a las restricciones activas. De aquí, la ec. (a) requiere que la matriz
hessiana de la función de Lagrange sea positiva-definida para todos los vectores y
en este plano tangente. Si el signo “>” en la ec. (a) se reemplaza por “≥”,
entonces las ecs. (a)–(b) junto con las condiciones de KT son las condiciones
necesarias de segundo orden para un mínimo local.
Si no existen restricciones activas, entonces la ec. (a) debe ser válida para
todos los vectores y, y los multiplicadores l* y u* son cero, así x2L = x2f. Por lo
 Se busca resolver ahora:
min f(x)
s.t. gj(x) ≤ 0, j = 1,2,…,m…(a)
Las restricciones de desigualdad en Ec. (a) se transforman a
restricciones de igualdad al añadir variables de holgura no-
negativas, sj2, como
gj(x) + sj2 = 0, j = 1,2,…,m
donde los valores de las variables de holgura son
desconocidos (aún). El problema se convierte ahora en
min f(x)
s.t. Gj(x,s) = gj(x) + sj2 = 0, j = 1,2,…,m
donde s = [s1 s2 … sm]t es el vector de variables de holgura.
El problema se puede resolver por el método de los
multiplicadores de Lagrange. Para esto, m se construye la

función lagrangiana LL como
   
x, s, λ  f x   G x, s j j  
j 1
donde l = [l1 l2 … lm] es el vector de multiplicadores de
t
Lagrange
 Los puntos estacionarios de la función de Lagrange se encuentran
al resolver las siguientes ecuaciones (condiciones necesarias):
L f m g j
 x,s, λ      j  x   0,
x   i  1, 2, , n …(b)
xi xi j 1 xi
L …(c)
 x,s, λ   G j  x,s   g j  x   s 2j  0, j  1, 2, , m
 j
L …(d)
 x,s, λ   2 j s j  0, j  1, 2, , m
s j
Las ecs. (b)–(d) representan (n+2m) ecuaciones en las (n+2m)
incógnitas, x, l, y s. La solución de las ecs. (b)–(d) dan como
resultado el vector solución x*, el vector de multiplicadores de
Lagrange l*, y el vector de variables de holgura, s*.
Las ecs. (c) aseguran que las restricciones gj(x) ≤ 0, j=1,2,
…,m, sean satisfechas, mientras que las ecs. (d) implican que ya
sea que lj = 0 o que sj = 0. Si lj = 0, significa que la j-ésima
restricción es inactiva y de aquí que pueda ser ignorada. Por otro
lado, si sj = 0, ésto significa que la restricción es activa (gj = 0) en
el óptimo.
 Las restricciones se pueden dividir en dos subconjuntos, J1 y J2.
Sea J1 el conjunto de índices de aquellas restricciones que son
activas en el óptimo, y J2 incluye los índices de todas las
restricciones inactivas.
Así para j  J1, sj = 0 (las restricciones están activas), para j  J2, lj
f g j
= 0 (las restricciones
simplificar como xi j J1
están
j
xi
inactivas),
0, las
i  1, 2,  ,ecs.(b)
n se …(e)
pueden
…(f)
De igual forma, las Ecs. (c) se pueden escribir como …(g)

gj(x) = 0, j  J1
gj(x) + sj2 = 0, j  J2
Ecuaciones (e)–(g) representan n + p + (m – p) = n + m
ecuaciones en las n + m incógnitas xi (i = 1,2,…,n) lj (j  J1), y sj (j
 J2), donde p denota el número de restricciones activas.
 Asumiendo que las primeras p restricciones son activas, las ecs.
(e) se pueden expresar
f como g g g
  1 1  2 2     p p , i  1, 2,  , n …(h)
 xi  xi  xi  xi
que pueden escribirse colectivamente como
 f  1 g 1   2  g 2     p  g p , i  1, 2,  , n …(i)
donde f y gj son los gradientes de la función objetivo y de la j-
ésima restricción, respectivamente:
f = [f/x1, f/x2 … f/xn]t y gj = [gj/x1, gj/x2 … gj/xn]t
La ec. (h) indica que el negativo del gradiente de la función

objetivo se puede expresar como una combinación lineal de los
gradientes de las restricciones activas en el óptimo.

Met Analiticos S

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Met Analiticos S

Cargado por

Copyright:

Formatos disponibles

Métodos

En este caso: En forma compacta se puede escribir

escribiendo el problema con la nueva notación se tiene:

Si las diferencias de decisión son especificadas, entonces el conjunto de ecuaciones

Resolviendo para dx1 se obtiene:

donde (f/xi)g se usa para denotar la derivada parcial de f con respecto de xi

donde (f/xi)g se usa para denotar la derivada parcial de f con respecto de xi

Para un extremo de f que exista sobre h, el

donde  se le conoce como el multiplicador

es negativo para todas las elecciones de las

Problema Condiciones necesarias También suficientes si:

llama generadores del cono.

de las restricciones 1 y 2 @ (1,1)

búsqueda como un vector tal que un

Lo anterior lleva a decir que, si f y todas las gj

para todos los vectores no-cero y tales que

De igual forma, las Ecs. (c) se pueden escribir como …(g)

La ec. (h) indica que el negativo del gradiente de la función

También podría gustarte