Ridge 1

Clase: Métodos de Regularización
Mauricio Castro C.
mcastro@mat.uc.cl
Departamento de Estadística, Pontificia Universidad Católica de Chile
TÓPICOS APLICADOS EN ESTADÍSTICA

Segundo Semestre 2023
Regresion Ridge
Regresión Ridge
I Recordemos mínimos cuadrados (LS) para estimar coeficientes de

regresión β1 , . . . , βp .
Regresión Ridge

Pn Pp 2
I La idea es minimizar RSS = i=1 yi − β0 − j=1 βj xij .
Regresión Ridge

Pn Pp 2
I Regresión Ridge (RR) es similar a LS.

Regresión Ridge

Pn Pp 2
I Regresión Ridge (RR) es similar a LS.
I La diferencia es que los coeficientes se minimizan de otra forma.

Regresión Ridge
Pp
I Coeficientes estimados en RR: RSS + λ j=1 β2j
Regresión Ridge
Pp
I λ > 0 es el parámetro de penalización (tuning parameter) y el

multiplicador de Lagrange.
Regresión Ridge
Pp

I Nota:
Regresión Ridge
Pp

I Nota: RR busca estimar parámetros usando LS + una parte que

busca “contraer” al parámetro.
Regresión Ridge
Pp

I Nota: RR busca estimar parámetros usando LS + una parte que

busca “contraer” al parámetro.
Pp
I λ j=1 β2j es la penalización por contracción.
Regresión Ridge
Pp
I λ j=1 β2j es pequeño cuando β1 , . . . , βp son cercanos a 0.
Regresión Ridge
Pp
I Tiene el efecto de contraer las estimaciones de βj hacia 0.

Regresión Ridge
Pp
I λ sirve para controlar el efecto de este término en la estimación.

Regresión Ridge
Pp
I λ sirve para controlar el efecto de este término en la estimación.
I λ = 0 implica que no hay penalización.

Regresión Ridge
I λ −→ ∞ tiene un alto impacto en la estimación.

Regresión Ridge
I λ −→ ∞ tiene un alto impacto en la estimación.Los coeficientes

estimados serán cercanos a 0.
b R para cada valor de λ.

I RR genera diferentes conjuntos de β λ
Regresión Ridge


I Elección de λ es crucial.
Regresión Ridge


I Elección de λ es crucial.
I Observar que no se penaliza β0 .

Regresión Ridge
I Consideremos el caso general de LS donde:
φq (β) = (Y − Xβ)> (Y − Xβ) + λpq (β)

Regresión Ridge
φq (β) = (Y − Xβ)> (Y − Xβ) + λpq (β)
Pr
I Podemos definir pq (β) = j=1 |βj |q .
Regresión Ridge
φq (β) = (Y − Xβ)> (Y − Xβ) + λpq (β)
Pr
I Podemos definir pq (β) = j=1 |βj |q .
I pq (β) limita la norma `q de los parámetros en el modelo como

Pp
j=1 |βj | 6 c.
q
Regresión Ridge
Regresión Ridge
I φq (β) es una función convexa suave cuando q > 1 y convexa

cuando q = 1. Luego se puede minimizar.
Regresión Ridge

I Cuando q < 1, la minimización es más complicada (φq (β) no es

convexa).
Regresión Ridge


convexa).
I En esta notación, RR ocurre cuando q = 2.

Regresión Ridge


convexa).
I En p = 2, el estimador RR es el punto en el contorno de RSS,

b el cual toca el círculo β2 + β2 6 c.
centrado en β 1 2
Regresión Ridge


convexa).
I En p = 2, el estimador RR es el punto en el contorno de RSS,

b el cual toca el círculo β2 + β2 6 c.
centrado en β 1 2
I c controla el tamaño del círculo y cuanto vamos a contraer β

b sobre
el origen.
Regresión Ridge
I El valor de c determina el valor de λ.

Regresión Ridge
I De hecho c es una cota superior para la norma `2 (en el caso de RR)

de los coeficientes.
Regresión Ridge

I Una cota muy pequeña (un valor chico de c) corresponde a un valor

grande de λ (y viceversa).
Regresión Ridge


I Preg: ¿Por que no considerar β21 + β22 = c en lugar de β21 + β22 6 c?.
Regresión Ridge


I Resp: La solución optimal ocurre cuando el punto más bajo de la

función objetivo intersecta la superficie de la restricción.
Regresión Ridge


I Resp: La solución optimal ocurre cuando el punto más bajo de la

función objetivo intersecta la superficie de la restricción. Si
“relajamos” la restricción y hacemos crecer la `2 “circunferencia”
hasta que alcance el objetivo, se tendrá la solución.
Regresión Ridge
I Más adelante veremos por que en el caso q = 1 no es tan fácil de

optimizar, a pesar de que la función sigue siendo convexa.
Regresión Ridge

I Lo que sucede es que no es diferenciable.

Regresión Ridge

I Y el problema es que |β| no es diferenciable en 0.

Regresión Ridge

I Y el problema es que |β| no es diferenciable en 0.
I Por lo tanto se necesitan técnicas de optimización más complejas

(p.e., gradient descent algorithm).
Regresión Ridge
Regresión Ridge
I En resumen, lo que se busca es minimizar RSS sujeto a ||β||2 6 c

(||β|| = β> β).
Regresión Ridge

(||β|| = β> β).
I Sea entonces φ2 (β) = (Y − Xβ)> (Y − Xβ) + λβ> β

Regresión Ridge

(||β|| = β> β).
I Derivando φ2 (β) con respecto a β e igualando a 0 se tiene que:

Regresión Ridge

(||β|| = β> β).
b R = X> Y
(X> X + λIp )β λ
Regresión Ridge

(||β|| = β> β).
b R = X> Y
(X> X + λIp )β λ
I Notar que la restricción β> β 6 c sobre β es una hiper-esfera

centrada en el origen con un radio acotado c.
Regresión Ridge
I Considere la descomposición SVD de X (n × p).

Regresión Ridge
I X = UΛ1/2 V> , Λ = diag (λ1 , . . . , λj ), UU> = U> U = In ,

VV> = V> V = Ip .
Regresión Ridge

VV> = V> V = Ip .
I X> X = VΛV> .
Regresión Ridge

VV> = V> V = Ip .
I X> X = VΛV> .
I λj son los autovalores ordenados de X> X.

Regresión Ridge
I Sea P = XV = UΛ1/2 . Además P> P = Λ y k = λ.

Regresión Ridge
b R = (X> X + kIp )−1 X> Y.

I β k
Regresión Ridge
b R = (X> X + kIp )−1 X> Y.

I β k
I Note que, usando lo anterior
bR
β = (X> X + kIp )−1 X> Y
k
Regresión Ridge
b R = (X> X + kIp )−1 X> Y.

I β k
bR
β = (X> X + kIp )−1 X> Y
k
= (VΛV> + kVV> )−1 VΛ1/2 U> Y
Regresión Ridge
b R = (X> X + kIp )−1 X> Y.

I β k
bR
β = (X> X + kIp )−1 X> Y
k
= (VΛV> + kVV> )−1 VΛ1/2 U> Y
= V(Λ + kIp )−1 Λ1/2 U> Y
Regresión Ridge
b R = (X> X + kIp )−1 X> Y.

I β k
bR
β = (X> X + kIp )−1 X> Y
k
= (VΛV> + kVV> )−1 VΛ1/2 U> Y
= V(Λ + kIp )−1 Λ1/2 U> Y
= V(Λ + kIp )−1 P> Y
Regresión Ridge
b R = (X> X + kIp )−1 X> Y.

I β k
bR
β = (X> X + kIp )−1 X> Y
k
= (VΛV> + kVV> )−1 VΛ1/2 U> Y
= V(Λ + kIp )−1 Λ1/2 U> Y
= V(Λ + kIp )−1 P> Y
I Ahora, hagamos α = V> β (β = Vα).

Regresión Ridge
I Notemos que Y = Xβ + ≡ Pα + .
Regresión Ridge
b = (P> P)−1 P> Y = Λ−1 V> X> Y.

I El estimador LS es α
Regresión Ridge
b = (P> P)−1 P> Y = Λ−1 V> X> Y.

R
bR
I Sin embargo, de acuerdo a α = V> β, tenemos que α >b
k = V βk .
Regresión Ridge
b = (P> P)−1 P> Y = Λ−1 V> X> Y.

R
bR
k = V βk .
I Pero,
R
bR
α k = V> β
b
k
Regresión Ridge
b = (P> P)−1 P> Y = Λ−1 V> X> Y.

R
bR
k = V βk .
I Pero,
R
bR
α k = V> β
b
k
= (Λ + kIp )−1 P> Y
Regresión Ridge
b = (P> P)−1 P> Y = Λ−1 V> X> Y.

R
bR
k = V βk .
I Pero,
R
bR
α k = V> β
b
k
= (Λ + kIp )−1 P> Y
= (Λ + kIp )−1 Λα
b
Regresión Ridge
I Conclusión: El estimador RR es “más pequeño” que el estimador LS.

Regresión Ridge
I Para un coeficiente j particular:

Regresión Ridge
λj
bR
αjk = α
bj
λj + k
Regresión Ridge
λj
bR
αjk = α
bj
λj + k
I Mientras más pequeño λj ,

Regresión Ridge
λj
bR
αjk = α
bj
λj + k
I Mientras más pequeño λj , la contracción hacia 0 es mayor.

Regresión Ridge
λj
bR
αjk = α
bj
λj + k
I Mientras más pequeño λj , la contracción hacia 0 es mayor.
b R ? Si, pero no es evidente.

I ¿Puedo concluir lo mismo para β k
Regresión Ridge
b R ) + Sesgo2 (β
I Error Cuadrático Medio (ECM): Var(β b R ).
k k
Regresión Ridge
b R ) + Sesgo2 (β
k k
R
b ) = σ2 Pp λj
I Var(βk j=1 (λj +k)2
Regresión Ridge
b R ) + Sesgo2 (β
k k
R
b ) = σ2 Pp λj
b R ) = k2 P p
I Sesgo2 (β αj R
(si k −→ ∞, Sesgo2 (β
b ) −→ β> β).
k j=1 (λj +k)2 k
Regresión Ridge
b R ) + Sesgo2 (β
k k
R
b ) = σ2 Pp λj
b R ) = k2 P p
I Sesgo2 (β αj R
b ) −→ β> β).
k j=1 (λj +k)2 k
R Pp σ2 λj +k2 α2j
I ECM(β
b )=
k j=1 (λj +k)2 .
Regresión Ridge
b R ) + Sesgo2 (β
k k
R
b ) = σ2 Pp λj
b R ) = k2 P p
I Sesgo2 (β αj R
b ) −→ β> β).
k j=1 (λj +k)2 k
R Pp σ2 λj +k2 α2j
I ECM(β
b )=
k j=1 (λj +k)2 .
I λj es el j-ésimo mayor autovalor X> X, αj es el j-ésimo elemento de

α y σ2 es la varianza del error.

Ridge 1

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ridge 1

Cargado por

Copyright:

Formatos disponibles

Clase: Métodos de Regularización

Departamento de Estadística, Pontificia Universidad Católica de Chile

TÓPICOS APLICADOS EN ESTADÍSTICA

I Recordemos mínimos cuadrados (LS) para estimar coeficientes de

I Recordemos mínimos cuadrados (LS) para estimar coeficientes de

I Recordemos mínimos cuadrados (LS) para estimar coeficientes de

I Regresión Ridge (RR) es similar a LS.

I Recordemos mínimos cuadrados (LS) para estimar coeficientes de

I Regresión Ridge (RR) es similar a LS.

I La diferencia es que los coeficientes se minimizan de otra forma.

I λ > 0 es el parámetro de penalización (tuning parameter) y el

I λ > 0 es el parámetro de penalización (tuning parameter) y el

I λ > 0 es el parámetro de penalización (tuning parameter) y el

I Nota: RR busca estimar parámetros usando LS + una parte que

I λ > 0 es el parámetro de penalización (tuning parameter) y el

I Nota: RR busca estimar parámetros usando LS + una parte que

I Tiene el efecto de contraer las estimaciones de βj hacia 0.

I Tiene el efecto de contraer las estimaciones de βj hacia 0.

I λ sirve para controlar el efecto de este término en la estimación.

I Tiene el efecto de contraer las estimaciones de βj hacia 0.

I λ sirve para controlar el efecto de este término en la estimación.

I λ = 0 implica que no hay penalización.

I λ −→ ∞ tiene un alto impacto en la estimación.

I λ −→ ∞ tiene un alto impacto en la estimación.Los coeficientes

b R para cada valor de λ.

I λ −→ ∞ tiene un alto impacto en la estimación.Los coeficientes

b R para cada valor de λ.

I λ −→ ∞ tiene un alto impacto en la estimación.Los coeficientes

b R para cada valor de λ.

I Observar que no se penaliza β0 .

I Consideremos el caso general de LS donde:

φq (β) = (Y − Xβ)> (Y − Xβ) + λpq (β)

I Consideremos el caso general de LS donde:

φq (β) = (Y − Xβ)> (Y − Xβ) + λpq (β)

I Consideremos el caso general de LS donde:

φq (β) = (Y − Xβ)> (Y − Xβ) + λpq (β)

I pq (β) limita la norma `q de los parámetros en el modelo como

I φq (β) es una función convexa suave cuando q > 1 y convexa

I φq (β) es una función convexa suave cuando q > 1 y convexa

I Cuando q < 1, la minimización es más complicada (φq (β) no es

I φq (β) es una función convexa suave cuando q > 1 y convexa

I Cuando q < 1, la minimización es más complicada (φq (β) no es

I En esta notación, RR ocurre cuando q = 2.

I φq (β) es una función convexa suave cuando q > 1 y convexa

I Cuando q < 1, la minimización es más complicada (φq (β) no es

I En esta notación, RR ocurre cuando q = 2.

I En p = 2, el estimador RR es el punto en el contorno de RSS,

I φq (β) es una función convexa suave cuando q > 1 y convexa

I Cuando q < 1, la minimización es más complicada (φq (β) no es

I En esta notación, RR ocurre cuando q = 2.

I En p = 2, el estimador RR es el punto en el contorno de RSS,

I c controla el tamaño del círculo y cuanto vamos a contraer β

I El valor de c determina el valor de λ.

I El valor de c determina el valor de λ.

I De hecho c es una cota superior para la norma `2 (en el caso de RR)

I El valor de c determina el valor de λ.

I De hecho c es una cota superior para la norma `2 (en el caso de RR)

I Una cota muy pequeña (un valor chico de c) corresponde a un valor

I El valor de c determina el valor de λ.

I De hecho c es una cota superior para la norma `2 (en el caso de RR)

I Una cota muy pequeña (un valor chico de c) corresponde a un valor

I El valor de c determina el valor de λ.