Pauta I1 ICS3153

ICS 3153 Optimizaci
on Avanzada, Sem 2017-1

Prof. Jorge Vera
Interrogaci
on 1. Soluci
on
Pregunta 1 (10 puntos):

a) (4 pts) Considere el siguiente sistema de desigualdades:
AT x d, B T x > 0, bT x > 0, x 0.
Suponga que este sistema tiene al menos una solucion factible. Determine un sistema de desigualda-
des, derivado a partir de este, que sea inconsistente.
Solucion.
Para efecto de tener claridad y bien definidos los productos asociados supongamos que AT , B T Rnn .
Dado que el sistema tiene al menos una solucion factible, para una solucion en particular existen
variables w1 0, w2 > 0 y w3 > 0 tal que

T x
A I 0M 0V d
BT w 1
0M I 0V
w2
= 0 ,
bT 0TV 0TV 1 0
w3
donde 0M y 0V son una matriz y vectores de ceros respectivamente.

Aplicando el lema de farkas

A B b
I v1 v1
0M 0V
v2 0,

d 0 0 v2 < 0
0M I 0V
v3 v3
0TV 0TV 1
As, teniendo cuidado con las desigualdades estrictas, un sistema de desigualdades infactible es
Av1 + Bv2 + bv3 0

v1 0
, dT v1 < 0
v2 < 0
v3 < 0
b) (2 pts) Considere un cono convexo K Rn . Se define el cono polar de K como K o = {u Rn : uT x

0, x K}. Considere el siguiente cono:
K = {x Rn Rp : Ax 0}
donde A Rmn . Determine K o descrito en terminos de las filas o columnas de las matrices A.
Solucion.
Sea 1 , . . . , m las filas de A. S, i 0, tenemos que para todo i = 1, . . . m se cumple i i x 0.

As, podemos escribir que
( m
)
X
o n
K = u R : tal que u = i i con i 0 ,
i=1
es decir, todas las combinaciones lineales de las filas de A con ponderadores negativos.
1
c) (4 pts) En clases presentamos dos teoremas que explican la convergencia del Metodo de Newton: el
primero, que es el cl
asico, y el segundo, que fue enunciado por Kantorovich. Explique las diferencias
principales que existen entre los dos resultados y el porque el de Kantorovich es, potencialmente, m
as
u
til.
Solucion.
Una diferencia principal es que el teorema clasico nos asegura una convergencia cuadratica entre dos
iteraciones consecutivas si se cumplen sus condiciones y el de Kantorovich no necesariamente lo hace.
Existen hipotesis en com un como que H sea Lipschitz continuo, que la norma de H1 este acotada, donde
Kantorovich adem as agrega que la norma del paso este acotada, pero lo exigido por este u ltimo es en
el punto inicial de las iteraciones, a diferencia del clasico que las pide en el optimo. Kantorovich, desde
luego, es potencialmente m as u
til pues podemos escoger un punto inicial que cumpla sus condiciones
y asegurar, aunque sea m as lenta a priori, convergencia al punto optimo que buscamos.
Pregunta 2 (10 puntos)
Sean fi : Rn R, i = 1, . . . , p funciones dadas de la siguiente forma: fi (x) = iT x + bi , donde i Rn y
bi R. Considere la funci
on g(x) = m ax{f1 (x), f2 (x), . . . , fp (x)}.
a) (2 pts) Muestre que g es una funci
on convexa.
Solucion.
g(x + (1 )y) = max{fi (x + (1 )y)} (1)

= max{fi (x) + (1 )f (y))} (2)
max{fi (x)} + max{(1 )f (y))} (3)
= max{fi (x)} + (1 ) max{f (y))} (4)
= g(x) + (1 )g(y) (5)
De (1) a (2) por linealidad de las funciones fi , de (2) a (3) por propiedad del maximo, (3) a (4) por
linealidad del m
aximo(?).
b) (4 pts) Describa el conjunto g(x) para cualquier x Rn . (Ind: Le puede ser u
til interpretar graficamente
lo que pasa, para n = 1.)
Solucion. Tal como en la T1, definiendo I(x) = {i|g(x) = f (i)}
X
X
g(x) = i fi (x) i = 1, 0 i I(x)
iI(x) i
Esto puede ser visto de muchas maneras, como combinaciones lineales convexas de los vectores normales
a g(x). Como combinaciones lineales convexas de normales cuyos planos que separen el epigrafo de la
funci
on g en el punto x.
Esto en R queda facilmente expresado como combinacion convexa de dos derivadas por la izquierda y
derecha (en el caso que no coincidan). El problema en Rn tiene un grado mayor de dificultad, por eso
el problema desarrollado en n = 1 tiene puntaje de (2pts), mientras que la expresion con cualquier n
tiene todo el puntaje.
c) (4 pts) Considere ahora el siguiente problema de Optimizacion:
mn g(x)
s.a. Ax b
donde A Rmn , m > n, es una matriz de rango completo (todas sus columnas son linealmente
independientes). Vamos a suponer que P = {x : Ax b} es un conjunto acotado. Muestre como podra
encontrarse una constante L tal que
|g(x) g(y)| Lkx yk2 , x, y P
es decir, una constante de Lipschitz local para la funcion g.
2
Solucion.
Sabemos que para una bola alrededor del punto x, g(x), se cumple que:
g(y) g(x) T (y x)
Multiplicando por (1), tomando norma a ambos lados y usando C S tenemos:
|g(x) g(y)| kk2 kx yk2
Tenemos dos casos, si I(x) = 1, se reemplaza por fi para el i I(x). Esto tomando en cuenta
que si en x, I(x) = 1 entonces existe una bola abierta que tambien tiene I(y) = 1 (i.e. localmente).
Si estamos en x tal que I(x) > 1 no podemos hacer esto, de hecho localmente tenemos que lidiar con
muchas derivadas tomadas desde distintos x, maximizando en funcion de x tenemos:
|g(x) g(y)| max kk2 kx yk2

g(x)
Localmente tenemos entonces que la constante L es maxg(x) kk2 . Esto es un problema convexo
cuya solucion esta en una esquina del poligono, es decir un particular i tal que L = maxg(x) kk2 =
kfi k2
Pregunta 3 (8 puntos): Considere el problema de Optimizacion
mn (x)
xRn
donde
m
X
(x) = log(bi iT x)
i=1
n
y i R , i = 1, . . . , m, y los bi son escalares. Esta funcion es una forma general de la que tuvo que enfrentar
en la Tarea 2. El problema anterior es no restringido, aunque implcitamente lo esta ya que la funci on
est olo para puntos x que cumplan bi iT x > 0. Si se es cuidadoso, en los metodos, de siempre
a definida s
evaluar dentro de esa regi on, entonces no hay problemas.
Sea A la matriz cuyas filas son los vectores i Rn , i = 1, . . . , m. Se puede probar que
(x) = AT D(x)1 em , 2 (x) = AT D(x)2 A
donde em es el vector de Rm cuyas coordenadas son todas iguales a 1, y D(X) es una matriz diagonal de la
forma
b1 aT1 x

0 0
0 b2 aT2 x 0
. .

D(x) = .. . .. ..
0

.. .. .. T
. . . bm am x
a) (2 pts) Muestre que si x es tal que bi iT x > 0, y los i son tales que las columnas de A son linealmente
independientes (tiene rango m aximo), entonces 2 (x) es una matriz definida positiva.
Solucion.
Una forma posible de hacer lo pedido es verificar el signo de la forma cuadratica asociada. Entonces,
1
v T 2 (x)v = v T AT D2 (x)Av v T AT Av
(bi aTi x)2

max
i1,...,m
y como A tiene rango completo, entonces AT A es definida positiva, y por lo tanto v T AT Av > 0. Luego,
v T 2 (x)v > 0,
concluyendo as que 2 es definida positiva.
3
b) (2 pts) Escriba el detalle de las iteraciones del Metodo de Newton cuando se aplica a este problema,
usando un paso tk = 1. Escriba cualquier condicion adicional que deba imponerse o calcularse para
garantizar que el metodo este bien definido y funcione.
Soluci
on:
El algoritmo puede ser escrito como

Iniciar con x0 y k 0.
En iteraci
on k:
1
1. dk := AT D(xk )2 A AT D(xk )1 em si dk = 0 STOP.
2. xk+1 xk + dk , k k + 1,

donde, en terminos practicos, la condicion de parada en 1. se reemplaza por dk < para alguna
tolerancia escogida.
Podramos considerar cualquier condicion inicial que siga las hipotesis del teorema clasico de Newton
o el de Kantorovich pero asegurando que 2 exista, seainvertible
y acotado, ademas que sea Lipchitz
continuo en el optimo o en el punto inicial (mas que dk sea acotado en el u ltimo caso), con las
respectivas vecindades apropiadas se
naladas en cada teorema.
c) (4 pts) Explique de que forma los siguientes factores pueden afectar la velocidad de convergencia del
metodo de Newton para el problema de mn (x): i) los valores propios de la matriz AT A; ii) la zona
dentro del conjunto Ax b donde se debe evaluar la funcion (x). Nota: no necesita ser formal en lo
analtico aqu (mejor si lo es, sin embargo), pero sea muy claro en su respuesta, la que debe basarse en
propiedades matem aticas de los elementos involucrados.
Soluci
on
En caso que AT A tenga un valor propio muy grande, en valor absoluto y en comparacion con los
otros, el metodo tendra una convergencia esperada mas lenta dado un condicionamiento mas alto de la
matriz de iteracion 2 (x)1 . En caso que esten mas cercanos entre s, en valor absoluto, la velocidad
de convergencia sera m as r
apida. Esta conclusion sale del hecho que el condicionamiento en norma 2
es
|max (A)|
K2 (A) =
|mn (A)|
y que todos los condicionamientos son equiavlentes por definirse a traves de normas vectoriales en
espacios de dimensi
on finita.
En caso de evaluar en un conjnuto donde 2 1 sea cercano a ser no singular en el conjunto donde
se evalua, el metodo tendra una convergencia esperada mas lenta al optimo, que cuando partimos en
una zona que est a bien definido. Lo mismo que el caso anterior, si 2 (x)1 es cercano a ser singular su
valor propio mas chico, en valor absoluto, estara muy cerca al cero, por lo que el condicionamiento de
la matriz de iteracion es mas alto, y desde luego, como en todo metodo iterativo, tendra convergencia
mas lenta. Esto ocurre claramente si evaluamos puntos cercanos a la frontera de Ax b.
Pregunta 4 (10 puntos):
Considere el siguiente problema de Optimizacion:
mn f (x)
s.a. Ax = b
donde A Rmn , m < n b Rm y A tiene rango completo. La funcion f la asumiremos convexa. De momento
no sabemos resolver problemas con restricciones, sin embargo, proponemos la siguiente modificacion que se
puede aplicar a cualquier metodo de descenso:
4
on k, estamos en el punto xk y sea dk una direccion de descenso (puede ser, por ejemplo,
En la iteraci
k
f (x ) o la direcci on de Newton). A continuacion calculamos dk = P royL (dk ), donde P royL denota la
on ortogonal sobre el conjunto L = {u : Au = 0}. Luego, calculamos la siguiente iteracion como
proyecci
xk+1 = xk tk dk , donde tk es un paso adecuado (por ejemplo, resultado de un linesearch).
a) (2 pts) Muestre que, definido todo de ese modo, se garantiza que Axk = b, para todo k.
Solucion.
Suponiendo que Ax0 = b. Suponemos que Axk = b, probemos que Axk+1 por induccion:
Axk+1 = A(xk tk dk ) = Axk tk Adk = Axk
Ya que si dk esta en la proyeccion ortogonal entonces Adk = 0

b) (4 pts) Estudie si acaso es posible garantizar que dk sea direccion de descenso en caso que dk lo sea.
Solucion.
Notese que dk es solo una direccion de descenso, no necesariamente es f (xk ). No se puede garantizar,
existe el siguiente contraejemplo:

0 0 2 1 0
P royL (x) = , f (xk ) = , dk = , dk =
0 1 1 1 1
Notese que f dk = 1, es decir dk es direccion de descenso. Pero f dk = 1 es decir no es direccion

de descenso. Esto graficamente se veria como establecer un angulo de mas de 90 y menos de 180
entre dk y el espacio de las proyecciones, tomando justo al medio el f para que ambos esten por
separado en la direccion de descenso pero la proyeccion de dk vaya al otro lado.1
c) (4 pts) Suponga que dk se elige como la direccion de Newton para la funcion f en el punto xk . Que im-
pacto podra tener la modificaci
on introducida por la proyeccion en la eficiencia del metodo, comparado
con el no restringido? Justifique con precision su argumento.
Nota: Se puede probar que P royL (x) = (I AT (AAT )1 A)x.
Solucion.
Tenemos, dk = H(xk )1 f (xk ), luego:
xk+1 = xk tk dk (6)
k k T T 1 k
= x t (I A (AA ) A)d (7)
k k k k T T 1 k
= x t d + t A (AA ) Ad (8)
k k k 1 k k T T 1 k 1 k
= x t H(x ) f (x ) + t A (AA ) AH(x ) f (x ) (9)
Podemos observar dos terminos, uno correspondiente al metodo de newton usual y otro extra que es la
correccion del paso. El segundo termino no es gratuito, encontrar esa multiplicacion puede demorar mucho
mas tiempo del requerido. Sin embargo el metodo sigue siendo la mejor direccion de descenso de segundo
orden que sigue la restricci
on Ax = b, no tiene sentido para este caso un metodo que no siga esta restriccion.
Otro aspecto importante es que dependiendo de la estrutura de valores propios de la matriz AT (AAT )1 A
esto puede afectar la velocidad de convergencia del metodo.
1 Cortes
a de Genaro Leymuns

Pauta I1 ICS3153

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Pauta I1 ICS3153

Cargado por

Copyright:

Formatos disponibles

ICS 3153 Optimizaci

on Avanzada, Sem 2017-1

Pregunta 1 (10 puntos):

donde 0M y 0V son una matriz y vectores de ceros respectivamente.

Av1 + Bv2 + bv3 0

b) (2 pts) Considere un cono convexo K Rn . Se define el cono polar de K como K o = {u Rn : uT x

Sea 1 , . . . , m las filas de A. S, i 0, tenemos que para todo i = 1, . . . m se cumple i i x 0.

g(x + (1 )y) = max{fi (x + (1 )y)} (1)

|g(x) g(y)| Lkx yk2 , x, y P

es decir, una constante de Lipschitz local para la funcion g.

Multiplicando por (1), tomando norma a ambos lados y usando C S tenemos:

|g(x) g(y)| kk2 kx yk2

|g(x) g(y)| max kk2 kx yk2

(x) = AT D(x)1 em , 2 (x) = AT D(x)2 A

concluyendo as que 2 es definida positiva.

El algoritmo puede ser escrito como

Axk+1 = A(xk tk dk ) = Axk tk Adk = Axk

Ya que si dk esta en la proyeccion ortogonal entonces Adk = 0

Notese que f dk = 1, es decir dk es direccion de descenso. Pero f dk = 1 es decir no es direccion

Nota: Se puede probar que P royL (x) = (I AT (AAT )1 A)x.

También podría gustarte