Algoritmos proximales para problemas de optimización con regularización L1 y norma euclídea

Ejercicio 1. Supongamos que A ∈ Rk×n .
Considere el problema
1
mı́nn kAx − bk22 + kxk1 . (1)
x∈R 2
Escribe los siguientes métodos para esta problema e indica si el método es factible. Es
decir, son los mapeos proximales involucrados sencillos? Por qué? Por qué no?
(a) forward-backward splitting para la formulación de arriba.
(b) forward-backward splitting para la formulación dual.
(c) primal-dual proximal splitting.
(d) Douglas-Rachford splitting.
Demostración.
a) Definimos las funciones F (x) = 12 kAx − bk22 y G (x) = kxk1 . Es sencillo ver que
F es Fréchet diferenciable en todo x ∈ Rn . Además, del ejemplo 6.22 [CV20, pg.
75] tenemos
∇F (x) = AT Ax − AT b , [proxτ G (x)]i = (|xi | − τ )+ sign (xi ) ,
para todo i = 1, ..., n. Ası́, la iteración del método f.b.s.m.1 es

k+1 k k

x i
= prox τ k G x − τk ∇F x i
T
k T
+
I − τk AT A xk − AT b ,

= I − τk A A x − A b − τk sign
i i
para todo i = 1, ..., n. Por tanto, el método es factible en el problema primal, ya

que el operador proximal es sencillo de obtener.
b) Para formular el problema dual consideramos F (x) = kxk1 , G (x) = 1

2
kx − bk22
y K = A. El problema dual2 es
1
máx − kyk22 − y T b − δB∞ (0,1) −AT y

(2)
y∈Rk 2
1
− mı́n kyk22 + y T b + δB∞ (0,1) −AT y

⇔
y∈Rk 2
Definimos el problema de minimización

1
kyk22 + y T b + δB∞ (0,1) −AT y .

mı́n (3)
y∈Rk 2
Consideramos: y 7→ Fe (y) = 21 kyk22 + y T b y y 7→ G

e (y) = δB∞ (0,1) −AT y . Por un
lado, es sencillo ver que Fe es Fréchet diferenciable y su derivada viene dado por
∇Fe (y) = y + b .
1
f.b.s.m. es la abreviatura de forward-backward splitting method.
2
De acuerdo a [CV20, pg. 55].
1
Por otro lado, para G,
e la definición de operador proximal nos dice que
1
kz − yk2 + δB∞ (0,1) −AT z

proxτ G (y) = argmin
z∈Rk 2
1
= argmin kz − yk2
k T
z∈R , A z∈B∞ (0,1) 2
= projC (y) ,

donde C = s ∈ Rk | AT s ∞ ≤ 1 . Es claro que C es convexo, ası́ por el Teore-
ma de la proyección existe un único ze ∈ C tal que
ze = projC (x) = proxτ G (x) .
Es decir, ze resuelve el problema de minimización


 mı́n 12 kz − yk2
 z∈Rk


ATi z − 1 ≤ 0


 s.a. −ATi z − 1 ≤ 0
i = 1, .., n.

donde ATi ∈ Rk son las i-ésimas filas de la matriz AT . Del Teorema 13 existen λi
y γi , con i = 1, ..., n, multiplicadores de Lagrange tal que satisfacen el siguiente
sistema de optimalidad
n
X n
X
ze − y + λi ATi − γi ATi = 0
i=1 i=1
ATi ze − 1 ≤ 0, ∀ i = 1, ..., n,
−ATi ze − 1 ≤ 0 , ∀ i = 1, ..., n,
γi , λi ≥ 0 , i ∈ Σ (e
z) ,
γi , λi = 0 , i ∈ Γ (e
z) .
Note que la dificultad recae en encontrar los multiplicadores que cumplen con el
sistema optimalidad. No podemos escribir explı́citamente el operador proximal
de G.
e La iteración de f.b.s.m., en general, viene dada por
y k+1 = proxτk G y k − τk y k − τk b = projC y k (1 − τk ) − τk b .

Finalmente, si y ∗ dada por el f.b.s.m. es la solución de (3), entonces −y ∗ es

solución del problema dual (2). Concluimos que el método f.b.s.m. no es factible
para resolver el problema dual, ya que encontrar la proyección sobre el conjunto
C puede ser complicado.
c) Definimos las funciones F (x) = kxk1 , G (x) = 21 kx − bk22 y K = A. Según el

ejemplo 6.22 [CV20, pg. 75] ontenemos el operador proximal de F .
[proxτ F (x)]i = (|xi | − τ )+ sign (xi ) , ∀ i = 1, ..., n .

3
Ya que cumple la condición de calificación de Mangasavian-Fromovitz.
2
Más aún, sabemos que el conjugado de G viene dado por
1
G∗ (y) = kyk22 + y T b .
2
Ası́, el operador proximal de G∗ es
y − σb
proxσG∗ (y) = .
1+σ
De modo que la iteración de p.d.p.s4 es
x − τ AT y k − τ + sign xk − τ AT y k
k+1 k
x i
= i
, ∀ i = 1, ..., n.
k k+1
i i
y + σ Ax −b
y k+1 = .
1+σ
Ası́, el método p.d.p.s. es factible, ya que los operadores proximales son sencillos
de obtener, tanto de G∗ como de F .
d) Consideramos las funciones definidas en (a). Para G, que es mas sencillo, tenemos
que el operador proximal es5 :
[proxτ G (x)]i = (|xi | − τ )+ sign (xi ) , ∀ i = 1, ..., n.
Para F , el calculo del operador proximal viene dado por la resolución de un

sistema lineal. Efectivamente, sabemos que dado un x ∈ Rn , el operador proximal
de F , proxτ F (x) = z, es la solución óptima del problema
1 τ
mı́nn kz − xk2 + kAx − bk22 .
z∈R 2 2
De donde, por el principio de Fermat6 tenemos que
z − x + τ AT Az − τ AT b = 0 I + τ AT A z = x + τ AT b .

⇔
Por tanto, la iteración de D.R.S7 viene dado por
I + τ AT A xk+1 = z k + λAT b

k+1 +
= 2xk+1 − z k − τ sign 2xk+1 − z k ,

y i i i
∀ i = 1, ..., n.
k+1 k k+1 k+1
z =z +y −x .
En este caso, es método D.R.S también es factible, puesto que el operador pro-
ximal de G es sencillo de obtener, y el operador proximal de F viene dado por la
resolución de un sistema lineal8 .
4
Abreviatura de primal-dual proximal splitting.
5
Ver ejemplo 6.22 [CV20, pg. 75].
6
Ver [CV20, pg. 38]
7
Abreviatura de Douglas-Rachford splitting.
8
Aquı́ cabe mencionar que resolver el sistema lineal puede ser un reto si la matriz I + τ AT A no es
bien condicionada.
3
Ejercicio 2. Supongamos que D ∈ Rm×n . Considere el problema
1
mı́nn kx − bk22 + kDxk1 . (4)
x∈R 2
Escribe los siguientes métodos para esta problema e indica si el método es factible. Es
decir, son los mapeos proximales involucrados sencillos? Por qué? Por qué no?
(a) forward-backward splitting para la formulación de arriba.
(b) forward-backward splitting para la formulación dual.
(c) primal-dual proximal splitting.
(d) Douglas-Rachford splitting.
Demostración. Tanto para los literales (a), (b) y (d) consideramos las siguientes fun-
ciones F (x) = 12 kx − bk22 y G (x) = kDxk1 . En el literal (c) consideramos también F ,
pero G (y) = kyk1 y K = D.
a) Claramente F es Fréchet diferenciable, y su derivada viene dado por: ∇F (x) =
x − b. Sin embargo, el operador proximal de G, no es tan sencillo de obtener, ya
que no se tiene ninguna propiedad de la matriz D. La iteración de f.b.s.m., en
general, viene dada por
xk+1 = proxτk G xk − τk xk − τk b = proxτk G xk (1 − τk ) − τk b .

A continuación, veremos porqué el operador proximal es tan complicado de obte-

ner como el problema original. Por definición, del operador proximal, proxτ G (x),
es la solución del problema
1
mı́nn kz − xk2 + kτ Dzk1 (5)
z∈R 2
kz − xk2 + kuk1
( 1
mı́n m2
⇔ n
(z,u)∈R ×R (6)
s.a u = τ Dz
Del Lema 3.9 [CV20, pg. 32] sabemos que el funcional en (5) es coercivo9 . Más
aún, el Teorema 2.1 [CV20, pg. 13] garantiza la existencia de un minimizador de
(5). De modo que, existen (e e) ∈ Rn × Rm que minimiza (6). Fijemos u
z, u e = u en
(6),
1
2
kz − xk2
mı́nn
z∈R s.a u
e = τ Dz
Ya que la restricción es afı́n10 , para ze, existe y ∈ Rm , tal que
1
ze ∈ argmin kz − xk2 + y T (τ Dz − u
e)
z∈Rn 2
τ Dez=ue. (7)
9
Ya que toda norma el w.l.s.c, pero en Rn , convergencia débil es equivalente a convergencia fuerte,
de modo que la norma es l.s.c.
10
Condición de calificación.
4
De donde, ze = x − τ DT y. Reemplazando en (7), se tiene
1
τ Dx − τ 2 DDT y = u
e, ⇔ τ DDT y = Dx − ue
τ
Hemos encontrado, entonces, x − τ DT y = ze = proxτ G (x). Basta encontrar y y u
e.
Para ello, fijamos z = ze en (6), ası́, tenemos que
1 x − τ DT y − x 2

e = argmin kuk1 +
u
u∈Rm 2
τ2
DT y 2 .

= argmin kuk1 + 2
u∈Rm 2
En otras palabras, el par (y, u

e) resuelve el problema de minimización
τ 2 T 2

 mı́n
 (s,u)∈R m ×Rm
kuk 1 + 2
D s 2
(8)

s.a. τ DDT s = Dx − τ1 u

Esto nos indica que para obtener el operador proximal de G, ze = proxτ G (x), es
necesario resolver el problema de minimización auxiliar (8); el cual puede ser tan
complicado de resolver como el problema de minimización original. De modo que,
f.b.s.m. no es factible para resolver el problema primal.
b) Consideramos K = D, y formulamos el problema dual como sigue

1 DT y 2 + yDb

máx −δB∞ (0,1) (y) − 2
(9)
y∈R m 2
1 2
⇔ − mı́n δB∞ (0,1) (y) + DT y 2 − yDb
y∈Rk 2
Definimos el problema de minimización

1 DT y 2 − yDb .

mı́n δB∞ (0,1) (y) + 2
(10)
y∈Rk 2
2
Consideramos Fe (y) = 21 DT y 2 − yDb, y G e (y) = δB∞ (0,1) (y). Claramente Fe
es Fréchet diferenciable y su derivada es ∇Fe (y) = DDT y − Db. Además, del
ejemplo 6.22 [CV20, pg. 75] tenemos que el operador proximal de G e viene dado
por
yi
proxτ Ge (y) i = , ∀ i = 1, ..., m.
máx {1, |yi |}
De modo que, la iteración de f.b.s.m e es

k+1 h i
k k
y i
= proxτk G
e y − τ k ∇Fe y
k T k
i
y − τk DD y + τk Db i
= ,
máx {1, |[y k − τk DDT y k + τk Db]i |}
5
para todo i = 1, ..., m. Finalmente, basta multiplicar por el signo negativo a la
solución dada por f.b.s.m. para el problema (10) para obtener la solución del
problema dual. Es decir, si y ∗ es la solución dada por f.b.s.m. del problema (10),
entonces −y ∗ resuelve (9).
De modo que, f.b.s.m. es factible para el problema dual, ya que los operadores
proximales son sencillos de obtener.
c) Los operadores proximales de F y G, son sencillos de obtener. Usaremos el ejemplo
6.22 [CV20, pg. 75] para el operador proximal de G∗ , y para F usaremos el
principio de Fermat [CV20, pg. 38] junto con el Teorema 4.6 [CV20, pg. 39]:
x + τb
proxτ F (x) = ,
1+τ
yi
[proxσG∗ (y)]i = , ∀ i = 1, ..., m
máx {1, |yi |}
De modo que, la iteración de p.d.p.s. es
xk − τ D T y k + τ b
xk+1 =
k 1 + τ k+1
k+1 y i + σ Dx i
y i
= , ∀ i = 1, ..., m.
máx {1, [y k + σDxk+1 ]i }
El método p.d.p.s. es factible para resolver el problema de minimización plantea-

do, ya que los operadores proximales de G∗ y F son sencillos de obtener.
d) El operador proximal de F es sencillo de calcular,
x + τb
proxτ F (x) = .
1+λ
Al igual que vimos en el literal (a), el operador proximal de G es muy complicado
de obtener explı́citamente, puesto que el problema de minimizacion auxiliar (8)
es tan complicado como el problema de minimización original. Escribimos la
iteración del método D.R.S como sigue
zk + τ b
xk+1 = ,
1+τ
k+1 k+1 k
k 1−τ 2
y = proxτ G 2x −z = proxτ G z + b ,
1+τ 1+τ
z k+1 = z k + y k+1 − xk+1 .
De modo que el método D.R.S no es factible para resolver el problema de mini-

mización propuesto.
Ejercicio 3. Supongamos que D ∈ Rm×n y A ∈ Rk×n . Considere el problema

1
mı́nn kAx − bk22 + kDxk1 . (11)
x∈R 2
6
Forward-backward ya no se puede prácticamente aplicar al problema primal ni al dual:
los mapeos proximales serı́an difı́ciles. Cómo se puede reformular el problema tal que
primal-dual proximal splitting sea factible, es decir, tal que todas las matrices entrarı́an
en K? Formule el algoritmo resultante.
Demostración. Desarrollamos el término cuadrático de la función de costo en de (11)
de tal forma que obtenemos problema equivalente:
1 1
mı́nn kbk2 + kAxk2 − hAx, bi + kDxk1 . (12)
x∈R 2 2

Definimos las funciones F : Rn → R, G : Rk × Rm → R y K ∈ L Rn , Rk × Rm , tal
que
1
F (x) = kbk22 ,
2
1
G (y, w) = kyk2 − hy, bi + kwk1
2
K (x) = (I1 ◦ A + I2 ◦ D) (x) = (Ax, Dx) ,
donde Ij , j = 1, 2, son las inyecciones canónicas. Claramente, F y G son propias,
convexas y semicontinuas inferior. Ası́, el problema (12) se define como
mı́n F (x) + G (Kx) .
x∈Rn
POr un lado, el operador proximal de F es sencillo, y viene dado por

proxτ F (x) = x .
Por otro lado, el conjugado de G viene dado por11
1
G∗ (r, s) = kr + bk22 + δB∞ (0,1) (s) .
2
Luego, gracias al Lema 6.20 [CV20, pg. 73] y el ejemplo 6.22 [CV20, pg. 75], el
operador proximal de G∗ se obtiene de manera sencilla como se sigue12
 r − σb 
 1+σ 
proxσG∗ (r, s) =  .
 
m 
 si 
máx {1, |si |} i=1
Finalmente, el adjunto de K viene dado por
K ∗ (r, s) = AT ◦ P1 + DT ◦ P2 (r, s) = AT r + DT s .

Ahora podemos escribir la iteración de p.d.p.s como sigue

xk+1 = xk − τ AT rk − τ DT sk
rk + σAxk − σb
rk+1 =
1 + σ
k+1 s + σDxk i
k
s i
= , ∀ i = 1, ..., m.
máx {1, |[sk + σDxk ]i |}
11
Usando la regla de la suma para el conjugado, hoja de ejercicios # 3.
12 p
Usaremos la siguiente notación para un vector en Rp , x = (xi )i=1 .
7
Teorema 1. Sea x ∈ Rn una solución local de


 mı́n F (x)
gi (x) ≤ 0



h (x) = 0
s.a. j
i = 1, ..., m ,




j = 1, ..., p .

donde F : Rn → R, gi : Rn → R y hj : Rn → R, para todo i = 1, ..., m, y para

todo j = 1, ..., p. en la cual se satisface una condición de calificación. Entonces existen
multiplicadores de Lagrange, λ ∈ Rm , µ ∈ Rp , tal que:
m p
X X
∇F (x) + λi ∇gi (x) + µj ∇hi (x) = 0, (13)
i=1 j=1
hj (x) = 0 , j = 1, ..., p, (14)

gi (x) ≤ 0 , i = 1, ..., m, (15)
λi ≥ 0 , i ∈ Σ (x) , (16)
λi = 0 , i ∈ Γ (x) . (17)
donde Σ y Γ son los conjuntos activos e inactivos en x, respectivamente.
8
Bibliografı́a
[CV20] Christian Clason and Tuomo Valkonen. Introduction to nonsmooth analysis

and optimization, 2020.

Algoritmos proximales para problemas de optimización con regularización L1 y norma euclídea

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Algoritmos proximales para problemas de optimización con regularización L1 y norma euclídea

Cargado por

Copyright:

Formatos disponibles

Ejercicio 1. Supongamos que A ∈ Rk×n .

(a) forward-backward splitting para la formulación de arriba.

(b) forward-backward splitting para la formulación dual.

(c) primal-dual proximal splitting.

(d) Douglas-Rachford splitting.

∇F (x) = AT Ax − AT b , [proxτ G (x)]i = (|xi | − τ )+ sign (xi ) ,

para todo i = 1, ..., n. Ası́, la iteración del método f.b.s.m.1 es

para todo i = 1, ..., n. Por tanto, el método es factible en el problema primal, ya

b) Para formular el problema dual consideramos F (x) = kxk1 , G (x) = 1

Definimos el problema de minimización

Consideramos: y 7→ Fe (y) = 21 kyk22 + y T b y y 7→ G

ze = projC (x) = proxτ G (x) .

Es decir, ze resuelve el problema de minimización

y k+1 = proxτk G y k − τk y k − τk b = projC y k (1 − τk ) − τk b .

Finalmente, si y ∗ dada por el f.b.s.m. es la solución de (3), entonces −y ∗ es

c) Definimos las funciones F (x) = kxk1 , G (x) = 21 kx − bk22 y K = A. Según el

[proxτ F (x)]i = (|xi | − τ )+ sign (xi ) , ∀ i = 1, ..., n .

[proxτ G (x)]i = (|xi | − τ )+ sign (xi ) , ∀ i = 1, ..., n.

Para F , el calculo del operador proximal viene dado por la resolución de un

Por tanto, la iteración de D.R.S7 viene dado por

A continuación, veremos porqué el operador proximal es tan complicado de obte-

En otras palabras, el par (y, u

b) Consideramos K = D, y formulamos el problema dual como sigue

Definimos el problema de minimización

De modo que, la iteración de f.b.s.m e es

El método p.d.p.s. es factible para resolver el problema de minimización plantea-

De modo que el método D.R.S no es factible para resolver el problema de mini-

Ejercicio 3. Supongamos que D ∈ Rm×n y A ∈ Rk×n . Considere el problema

POr un lado, el operador proximal de F es sencillo, y viene dado por

Ahora podemos escribir la iteración de p.d.p.s como sigue

donde F : Rn → R, gi : Rn → R y hj : Rn → R, para todo i = 1, ..., m, y para

hj (x) = 0 , j = 1, ..., p, (14)

donde Σ y Γ son los conjuntos activos e inactivos en x, respectivamente.

[CV20] Christian Clason and Tuomo Valkonen. Introduction to nonsmooth analysis

También podría gustarte