Está en la página 1de 5

Ejercicio 1.

Considere el problema
1
mı́nn kAx − bk2 + kxk1 ,
x∈R 2
donde A ∈ Rm×n , y da respuesta a las siguientes preguntas:
(a) Para cuales valores del tamaño de paso τ converge forward-backward splitting
aplicado a este problema?
(b) Cómo puedes aplicar PDPS a este problema, y para cuales valores de los tamaños
del paso τ , σ converge el método?
Demostración.
(a) Consideramos F (x) = 12 kAx − bk2 y G (x) = kxk1 para el método forward-
backward splitting. Es sencillo ver que F es Fréchet diferenciable y su derivada
es ∇F (x) = AT Ax − AT b. Más aún, ∇F es L-Lipschitz, efectivamente

k∇F (x) − ∇F (x)k = AT Ax − AT b − AT Ay + AT b

= AT A (x − y)

≤ AT A kx − yk

donde AT A es la norma inducida por la norma vectorial 2. Ya que AT A
 
es diagonalizable tenemos que1 AT A ≤ ρ AT A , donde ρ AT A es el ra-
T
dio espectral
 de A
A, adicionalmente
T para toda norma
 inducida se tiene que
T T T
ρ A A ≤ A A , de modo que A A = ρ A A . De modo que, la constante


de Lipschitz continuidad es L = ρ AT A . Luego, del Teorema 9.6 [CV20, pg.
−1
111] el algoritmo forward-backward splitting converge si τ < 2ρ AT A .

(b) Consideramos las funciones F (x) = kxk1 , G (x) = 21 kx − bk22 y K = A; ası́


podemos aplicar PDSP al problema de minimización. Ahora, calculemos la norma
del operador K ∈ L ((Rn , k · k2 ) , (Rm , k · k2 )).
kAxk2
kKkL(Rn ,Rm ) = sup
x6=0 kxk2

Gracias a que AT A es diagonalizable, cada x ∈ Rn se puede escribir como la


combinación lineal de los vectores propios de AT A. Entonces para 0 6= x ∈ Rn ,
se tiene

kAxk22 = hAx, Axi = hx, AT Axi ≤ ρ AT A kxk22 .




Podemos entonces escribir la norma de K como2


p
kKkL(Rn ,Rm ) = ρ (AT A).

El Corolario 9.13 [CV20, pg. 116] nos indica que el método PDPS converge si
τ σ < ρ(A1T A) .
1
Gracias a que usamos la norma matricial inducida por la norma vectorial 2.
2
Tomando x como el vector propio asociado al valor propio mas grande de AT A.

1
Ejercicio 2. Sean F : Rn → R y G : Rm → R convexas, propias y semicontinuas
inferiores. Sea también K ∈ Rm×n . Consideramos el problema

mı́n F (x) + G (Kx)


x∈Rn

y definimos un método primal-dual por

0 ∈ H uk+1 + M uk+1 − uk
 
(1)

donde usamos la notación u = (x, y) y H es como para PDPS y GIST,


 
∂F (x) + K T y
H (x, y) :=
∂G∗ (y) − Kx

pero como el precondicionador tomamos


 −1 
τ I KT
M :=
K σ −1 I

Escribe el método en forma explı́cita (usando mapeos


 kproximales)
y desarrolla condi-
ciones para la convergencia (débil) de la sucesión u k∈N generado por el método.
Toma en cuenta que el signo de K en M es distinto a M para PDPS.

Demostración. Consideremos la k-ésima iteración De (1) se tiene que

0 ∈ ∂F xk+1 + K T y k+1 + τ −1 xk+1 − xk + K T y k+1 − y k


  

0 ∈ ∂G∗ y k+1 − Kxk+1 + K xk+1 − xk + σ −1 y k+1 − y k ,


  

de donde

xk − τ K T 2y k+1 − y k ∈ xk+1 + τ ∂F xk+1


 

y k + σKxk ∈ y k+1 + σ∂G∗ y k+1 .




De la definición del operador proximal proxτ F ( · ) = (I + τ ∂F )−1 ( · ), definimos la


iteración del método como
 k+1 
 y = proxσG∗ y k + σKxk
y k+1 = 2y k+1 − y k 
= proxτ F xk − τ K T y k+1
 k+1
x

Luego, para que el método sea convergente basta dar condiciones para K de modo
que cumpla el Lema 9.11 [CV20, pg. 115]. Es sencillo ver que M es auto-adjunto y
acotado.

hM u, vi = hτ −1 x + K T y, v1 i + hKx + σ −1 y, v2 i = hu, M vi ,
kM uk = τ −1 x + K T y + Kx + σ −1 y ≤ C kuk ,

 
donde C = 1 + kKkL(Rn ×Rm ) máx {τ −1 , σ −1 } > 0.

2
Ahora, para que M sea definida positiva se tiene que cumplir τ kKk2L(Rn ×Rm ) < 1 y
σ < 1. En efecto, sea u = (x, y) ∈ Rn × Rm , cualquiera. Entonces
hM u, ui = hτ −1 x + K T y, xi + hKx + σ −1 y, yi
= τ −1 kxk2 + σ −1 kyk2 + 2hKx, yi.
Consideramos el término hKx, yi. Tenemos la siguiente acotación
2hKx, yi = kKxk2 + kyk2 − kKx − yk2
≥ kKxk2 + kyk2 − 2 kKxk2 − 2 kyk2
≥ − kKk2L(Rn ×Rm ) kxk2 − kyk2 .
Usando esta acotación, tenemos que
hM u, ui ≥ τ −1 kxk2 + σ −1 kyk2 − kKk2L(Rn ×Rm ) kxk2 − kyk2 (2)
 
= τ −1 − kKk2L(Rn ×Rm ) kxk2 + σ −1 − 1 kyk2

(3)
e kxk2 + kyk2

=C (4)
n  o
donde Ce = mı́n τ −1 − kKk2 n m , (σ −1 − 1) > 0. Ası́, hM u, ui ≥ C e kuk2 , para
L(R ×R )
todo u ∈ Rn × Rm . Esto muestra que M es positiva definida. Con estas hipótesis,
y usando el Corolario 9.13 [CV20, pg. 116], aseguramos la convergencia del método
generado por H y M de este ejercicio.

Ejercicio 3. Sean G : Rn → R y F : Rn → R convexas, propias y semicontinuas infe-


riormente. Sea F además diferenciable con ∇F L-Lipschitz. Proporcionanado ejemplos
especı́ficos de G y F , muestra la falta de convergencia del método de forward-backward
splitting (o descenso del gradiente si G ≡ 0) cuando el tamaño del paso no cumple
τ L ≤ 2.
Demostración. Consideramos el caso unidimensional F (t) = t2 y G ≡ 0. Es claro que,
F y G son convexas, propias y semicontinuas3 . Más aún, sabemos que el problema
mı́n F (t) + G (t) ⇔ mı́n t2
t∈R t∈R

tiene un mı́nimo global en t = 0. Además, f es diferenciable con derivada f 0 (t) = 2t


y la constante de Lipschitz continuidad de la derivada es L = 2. Al considerar G ≡
0, tenemos que proxτk G (x) = x. Por tanto, el método forward-backward splitting se
transforma en el método de descenso del gradiente. Consideremos el paso τk = 1, para
todo k ∈ N, y t0 un punto inicial. Note que generamos la siguiente iteración
t1 = t0 − 2t0 = −t0
t2 = t1 − 2t1 = −t1 = t0
.
.
.
tk+1 = tk − 2tk = −tk = (−1)k+1 t0
3
Son continuas y por tanto semicontinuas inferior.

3
Note que si k → ∞, tk+1 diverge. Esto muestra que el método diverge con un tamaño
de paso que no cumple τ L < 2.

Figura 1: Iteraciones vs Valor t en la iteración.

Este ejemplo se puede generalizar para Rn , tomando la norma euclidiana al cua-


drado y siguiendo los mismos pasos.

Ejercicio 4. Continuando del Ejercicio 5 de Hoja #4, muestra usando el teorema de


Browder que el método de descenso de gradiente converge a un minimizador de f .

Demostración. Por un lado, tenemos que todo x∗ que minimiza f cumple el principio de
Fermat [CV20, pg. 38], además del Teorema 4.6 [CV20, pg. 39] tenemos que ∇f (x∗ ) =
0. Con esto podemos mostrar que todo mininizador de f es un punto fijo de T = I−τ ∇f
y viceversa, efectivamente

T (x∗ ) = x∗ − τ ∇f (x∗ ) = x∗ .

Por otro lado, del ejercicio 5 de la hoja #4 sabemos que T es firmemente no ex-
pansivo sı́ y solo sı́ τ L ≤ 1; más aún, del Teorema 6.15 [CV20, pg. 70] tenemos que
f es (1/2)-average sı́ y solo sı́ τ L ≤ 1. Ası́, usando el teorema de punto fijo de Brow-
der [CV20, pg.  120] tenemos que la sucesión del método de descenso del gradiente,
k+1 k 4
x = T x , converge fuertemente a x e, punto fijo de T . Es decir, el método de
descenso del gradiente converge a un minimizador de f

4
El teorema de punto fijo de Browder nos da convergencia débil, sin embargo, en Rn , la convergencia
débil y fuerte son equivalentes.

4
Bibliografı́a

[CV20] Christian Clason and Tuomo Valkonen. Introduction to nonsmooth analysis


and optimization, 2020.

También podría gustarte