Está en la página 1de 9

Ejercicio 1. Supongamos que A ∈ Rk×n .

Considere el problema
1
mı́nn kAx − bk22 + kxk1 . (1)
x∈R 2
Escribe los siguientes métodos para esta problema e indica si el método es factible. Es
decir, son los mapeos proximales involucrados sencillos? Por qué? Por qué no?

(a) forward-backward splitting para la formulación de arriba.

(b) forward-backward splitting para la formulación dual.

(c) primal-dual proximal splitting.

(d) Douglas-Rachford splitting.

Demostración.

a) Definimos las funciones F (x) = 12 kAx − bk22 y G (x) = kxk1 . Es sencillo ver que
F es Fréchet diferenciable en todo x ∈ Rn . Además, del ejemplo 6.22 [CV20, pg.
75] tenemos

∇F (x) = AT Ax − AT b , [proxτ G (x)]i = (|xi | − τ )+ sign (xi ) ,

para todo i = 1, ..., n. Ası́, la iteración del método f.b.s.m.1 es


 k+1   k k

x i
= prox τ k G x − τk ∇F x i
 T
 k T
 +
I − τk AT A xk − AT b ,
  
= I − τk A A x − A b − τk sign
i i

para todo i = 1, ..., n. Por tanto, el método es factible en el problema primal, ya


que el operador proximal es sencillo de obtener.

b) Para formular el problema dual consideramos F (x) = kxk1 , G (x) = 1


2
kx − bk22
y K = A. El problema dual2 es
1
máx − kyk22 − y T b − δB∞ (0,1) −AT y

(2)
y∈Rk 2
1
− mı́n kyk22 + y T b + δB∞ (0,1) −AT y


y∈Rk 2

Definimos el problema de minimización


1
kyk22 + y T b + δB∞ (0,1) −AT y .

mı́n (3)
y∈Rk 2

Consideramos: y 7→ Fe (y) = 21 kyk22 + y T b y y 7→ G



e (y) = δB∞ (0,1) −AT y . Por un
lado, es sencillo ver que Fe es Fréchet diferenciable y su derivada viene dado por

∇Fe (y) = y + b .
1
f.b.s.m. es la abreviatura de forward-backward splitting method.
2
De acuerdo a [CV20, pg. 55].

1
Por otro lado, para G,
e la definición de operador proximal nos dice que

1
kz − yk2 + δB∞ (0,1) −AT z

proxτ G (y) = argmin
z∈Rk 2
1
= argmin kz − yk2
k T
z∈R , A z∈B∞ (0,1) 2
= projC (y) ,

donde C = s ∈ Rk | AT s ∞ ≤ 1 . Es claro que C es convexo, ası́ por el Teore-
ma de la proyección existe un único ze ∈ C tal que

ze = projC (x) = proxτ G (x) .

Es decir, ze resuelve el problema de minimización



 mı́n 12 kz − yk2
 z∈Rk


ATi z − 1 ≤ 0


 s.a. −ATi z − 1 ≤ 0
i = 1, .., n.

donde ATi ∈ Rk son las i-ésimas filas de la matriz AT . Del Teorema 13 existen λi
y γi , con i = 1, ..., n, multiplicadores de Lagrange tal que satisfacen el siguiente
sistema de optimalidad
n
X n
X
ze − y + λi ATi − γi ATi = 0
i=1 i=1
ATi ze − 1 ≤ 0, ∀ i = 1, ..., n,
−ATi ze − 1 ≤ 0 , ∀ i = 1, ..., n,
γi , λi ≥ 0 , i ∈ Σ (e
z) ,
γi , λi = 0 , i ∈ Γ (e
z) .

Note que la dificultad recae en encontrar los multiplicadores que cumplen con el
sistema optimalidad. No podemos escribir explı́citamente el operador proximal
de G.
e La iteración de f.b.s.m., en general, viene dada por

y k+1 = proxτk G y k − τk y k − τk b = projC y k (1 − τk ) − τk b .


 

Finalmente, si y ∗ dada por el f.b.s.m. es la solución de (3), entonces −y ∗ es


solución del problema dual (2). Concluimos que el método f.b.s.m. no es factible
para resolver el problema dual, ya que encontrar la proyección sobre el conjunto
C puede ser complicado.

c) Definimos las funciones F (x) = kxk1 , G (x) = 21 kx − bk22 y K = A. Según el


ejemplo 6.22 [CV20, pg. 75] ontenemos el operador proximal de F .

[proxτ F (x)]i = (|xi | − τ )+ sign (xi ) , ∀ i = 1, ..., n .


3
Ya que cumple la condición de calificación de Mangasavian-Fromovitz.

2
Más aún, sabemos que el conjugado de G viene dado por
1
G∗ (y) = kyk22 + y T b .
2
Ası́, el operador proximal de G∗ es
y − σb
proxσG∗ (y) = .
1+σ
De modo que la iteración de p.d.p.s4 es

x − τ AT y k − τ + sign xk − τ AT y k
 k+1   k      
x i
= i
, ∀ i = 1, ..., n.
k k+1
i i
y + σ Ax −b
y k+1 = .
1+σ

Ası́, el método p.d.p.s. es factible, ya que los operadores proximales son sencillos
de obtener, tanto de G∗ como de F .

d) Consideramos las funciones definidas en (a). Para G, que es mas sencillo, tenemos
que el operador proximal es5 :

[proxτ G (x)]i = (|xi | − τ )+ sign (xi ) , ∀ i = 1, ..., n.

Para F , el calculo del operador proximal viene dado por la resolución de un


sistema lineal. Efectivamente, sabemos que dado un x ∈ Rn , el operador proximal
de F , proxτ F (x) = z, es la solución óptima del problema
1 τ
mı́nn kz − xk2 + kAx − bk22 .
z∈R 2 2
De donde, por el principio de Fermat6 tenemos que

z − x + τ AT Az − τ AT b = 0 I + τ AT A z = x + τ AT b .


Por tanto, la iteración de D.R.S7 viene dado por

I + τ AT A xk+1 = z k + λAT b

 k+1    +
= 2xk+1 − z k − τ sign 2xk+1 − z k ,
 
y i i i
∀ i = 1, ..., n.
k+1 k k+1 k+1
z =z +y −x .

En este caso, es método D.R.S también es factible, puesto que el operador pro-
ximal de G es sencillo de obtener, y el operador proximal de F viene dado por la
resolución de un sistema lineal8 .
4
Abreviatura de primal-dual proximal splitting.
5
Ver ejemplo 6.22 [CV20, pg. 75].
6
Ver [CV20, pg. 38]
7
Abreviatura de Douglas-Rachford splitting.
8
Aquı́ cabe mencionar que resolver el sistema lineal puede ser un reto si la matriz I + τ AT A no es
bien condicionada.

3
Ejercicio 2. Supongamos que D ∈ Rm×n . Considere el problema
1
mı́nn kx − bk22 + kDxk1 . (4)
x∈R 2
Escribe los siguientes métodos para esta problema e indica si el método es factible. Es
decir, son los mapeos proximales involucrados sencillos? Por qué? Por qué no?
(a) forward-backward splitting para la formulación de arriba.
(b) forward-backward splitting para la formulación dual.
(c) primal-dual proximal splitting.
(d) Douglas-Rachford splitting.
Demostración. Tanto para los literales (a), (b) y (d) consideramos las siguientes fun-
ciones F (x) = 12 kx − bk22 y G (x) = kDxk1 . En el literal (c) consideramos también F ,
pero G (y) = kyk1 y K = D.
a) Claramente F es Fréchet diferenciable, y su derivada viene dado por: ∇F (x) =
x − b. Sin embargo, el operador proximal de G, no es tan sencillo de obtener, ya
que no se tiene ninguna propiedad de la matriz D. La iteración de f.b.s.m., en
general, viene dada por
xk+1 = proxτk G xk − τk xk − τk b = proxτk G xk (1 − τk ) − τk b .
 

A continuación, veremos porqué el operador proximal es tan complicado de obte-


ner como el problema original. Por definición, del operador proximal, proxτ G (x),
es la solución del problema
1
mı́nn kz − xk2 + kτ Dzk1 (5)
z∈R 2

kz − xk2 + kuk1
( 1
mı́n m2
⇔ n
(z,u)∈R ×R (6)
s.a u = τ Dz
Del Lema 3.9 [CV20, pg. 32] sabemos que el funcional en (5) es coercivo9 . Más
aún, el Teorema 2.1 [CV20, pg. 13] garantiza la existencia de un minimizador de
(5). De modo que, existen (e e) ∈ Rn × Rm que minimiza (6). Fijemos u
z, u e = u en
(6),
1
2
kz − xk2
mı́nn
z∈R s.a u
e = τ Dz
Ya que la restricción es afı́n10 , para ze, existe y ∈ Rm , tal que
1
ze ∈ argmin kz − xk2 + y T (τ Dz − u
e)
z∈Rn 2
τ Dez=ue. (7)
9
Ya que toda norma el w.l.s.c, pero en Rn , convergencia débil es equivalente a convergencia fuerte,
de modo que la norma es l.s.c.
10
Condición de calificación.

4
De donde, ze = x − τ DT y. Reemplazando en (7), se tiene
1
τ Dx − τ 2 DDT y = u
e, ⇔ τ DDT y = Dx − ue
τ
Hemos encontrado, entonces, x − τ DT y = ze = proxτ G (x). Basta encontrar y y u
e.
Para ello, fijamos z = ze en (6), ası́, tenemos que
1 x − τ DT y − x 2

e = argmin kuk1 +
u
u∈Rm 2
τ2
DT y 2 .

= argmin kuk1 + 2
u∈Rm 2

En otras palabras, el par (y, u


e) resuelve el problema de minimización
τ 2 T 2

 mı́n
 (s,u)∈R m ×Rm
kuk 1 + 2
D s 2
(8)

s.a. τ DDT s = Dx − τ1 u

Esto nos indica que para obtener el operador proximal de G, ze = proxτ G (x), es
necesario resolver el problema de minimización auxiliar (8); el cual puede ser tan
complicado de resolver como el problema de minimización original. De modo que,
f.b.s.m. no es factible para resolver el problema primal.

b) Consideramos K = D, y formulamos el problema dual como sigue


1 DT y 2 + yDb

máx −δB∞ (0,1) (y) − 2
(9)
y∈R m 2
1 2
⇔ − mı́n δB∞ (0,1) (y) + DT y 2 − yDb
y∈Rk 2

Definimos el problema de minimización


1 DT y 2 − yDb .

mı́n δB∞ (0,1) (y) + 2
(10)
y∈Rk 2
2
Consideramos Fe (y) = 21 DT y 2 − yDb, y G e (y) = δB∞ (0,1) (y). Claramente Fe
es Fréchet diferenciable y su derivada es ∇Fe (y) = DDT y − Db. Además, del
ejemplo 6.22 [CV20, pg. 75] tenemos que el operador proximal de G e viene dado
por
  yi
proxτ Ge (y) i = , ∀ i = 1, ..., m.
máx {1, |yi |}

De modo que, la iteración de f.b.s.m e es


 k+1  h  i
k k
y i
= proxτk G
e y − τ k ∇Fe y
 k T k
i
y − τk DD y + τk Db i
= ,
máx {1, |[y k − τk DDT y k + τk Db]i |}

5
para todo i = 1, ..., m. Finalmente, basta multiplicar por el signo negativo a la
solución dada por f.b.s.m. para el problema (10) para obtener la solución del
problema dual. Es decir, si y ∗ es la solución dada por f.b.s.m. del problema (10),
entonces −y ∗ resuelve (9).
De modo que, f.b.s.m. es factible para el problema dual, ya que los operadores
proximales son sencillos de obtener.
c) Los operadores proximales de F y G, son sencillos de obtener. Usaremos el ejemplo
6.22 [CV20, pg. 75] para el operador proximal de G∗ , y para F usaremos el
principio de Fermat [CV20, pg. 38] junto con el Teorema 4.6 [CV20, pg. 39]:
x + τb
proxτ F (x) = ,
1+τ
yi
[proxσG∗ (y)]i = , ∀ i = 1, ..., m
máx {1, |yi |}
De modo que, la iteración de p.d.p.s. es
xk − τ D T y k + τ b
xk+1 =
 k 1 + τ  k+1 
 k+1  y i + σ Dx i
y i
= , ∀ i = 1, ..., m.
máx {1, [y k + σDxk+1 ]i }

El método p.d.p.s. es factible para resolver el problema de minimización plantea-


do, ya que los operadores proximales de G∗ y F son sencillos de obtener.
d) El operador proximal de F es sencillo de calcular,
x + τb
proxτ F (x) = .
1+λ
Al igual que vimos en el literal (a), el operador proximal de G es muy complicado
de obtener explı́citamente, puesto que el problema de minimizacion auxiliar (8)
es tan complicado como el problema de minimización original. Escribimos la
iteración del método D.R.S como sigue
zk + τ b
xk+1 = ,
1+τ    
k+1 k+1 k
 k 1−τ 2
y = proxτ G 2x −z = proxτ G z + b ,
1+τ 1+τ
z k+1 = z k + y k+1 − xk+1 .

De modo que el método D.R.S no es factible para resolver el problema de mini-


mización propuesto.

Ejercicio 3. Supongamos que D ∈ Rm×n y A ∈ Rk×n . Considere el problema


1
mı́nn kAx − bk22 + kDxk1 . (11)
x∈R 2

6
Forward-backward ya no se puede prácticamente aplicar al problema primal ni al dual:
los mapeos proximales serı́an difı́ciles. Cómo se puede reformular el problema tal que
primal-dual proximal splitting sea factible, es decir, tal que todas las matrices entrarı́an
en K? Formule el algoritmo resultante.
Demostración. Desarrollamos el término cuadrático de la función de costo en de (11)
de tal forma que obtenemos problema equivalente:
1 1
mı́nn kbk2 + kAxk2 − hAx, bi + kDxk1 . (12)
x∈R 2 2

Definimos las funciones F : Rn → R, G : Rk × Rm → R y K ∈ L Rn , Rk × Rm , tal
que
1
F (x) = kbk22 ,
2
1
G (y, w) = kyk2 − hy, bi + kwk1
2
K (x) = (I1 ◦ A + I2 ◦ D) (x) = (Ax, Dx) ,
donde Ij , j = 1, 2, son las inyecciones canónicas. Claramente, F y G son propias,
convexas y semicontinuas inferior. Ası́, el problema (12) se define como
mı́n F (x) + G (Kx) .
x∈Rn

POr un lado, el operador proximal de F es sencillo, y viene dado por


proxτ F (x) = x .
Por otro lado, el conjugado de G viene dado por11
1
G∗ (r, s) = kr + bk22 + δB∞ (0,1) (s) .
2
Luego, gracias al Lema 6.20 [CV20, pg. 73] y el ejemplo 6.22 [CV20, pg. 75], el
operador proximal de G∗ se obtiene de manera sencilla como se sigue12
 r − σb 
 1+σ 
proxσG∗ (r, s) =   .
 
m 
 si 
máx {1, |si |} i=1
Finalmente, el adjunto de K viene dado por
K ∗ (r, s) = AT ◦ P1 + DT ◦ P2 (r, s) = AT r + DT s .


Ahora podemos escribir la iteración de p.d.p.s como sigue


xk+1 = xk − τ AT rk − τ DT sk
rk + σAxk − σb
rk+1 =
1 + σ 
 k+1  s + σDxk i
k
s i
= , ∀ i = 1, ..., m.
máx {1, |[sk + σDxk ]i |}

11
Usando la regla de la suma para el conjugado, hoja de ejercicios # 3.
12 p
Usaremos la siguiente notación para un vector en Rp , x = (xi )i=1 .

7
Teorema 1. Sea x ∈ Rn una solución local de


 mı́n F (x)
gi (x) ≤ 0



h (x) = 0
s.a. j
i = 1, ..., m ,




j = 1, ..., p .

donde F : Rn → R, gi : Rn → R y hj : Rn → R, para todo i = 1, ..., m, y para


todo j = 1, ..., p. en la cual se satisface una condición de calificación. Entonces existen
multiplicadores de Lagrange, λ ∈ Rm , µ ∈ Rp , tal que:
m p
X X
∇F (x) + λi ∇gi (x) + µj ∇hi (x) = 0, (13)
i=1 j=1

hj (x) = 0 , j = 1, ..., p, (14)


gi (x) ≤ 0 , i = 1, ..., m, (15)
λi ≥ 0 , i ∈ Σ (x) , (16)
λi = 0 , i ∈ Γ (x) . (17)

donde Σ y Γ son los conjuntos activos e inactivos en x, respectivamente.

8
Bibliografı́a

[CV20] Christian Clason and Tuomo Valkonen. Introduction to nonsmooth analysis


and optimization, 2020.

También podría gustarte