Está en la página 1de 72

Clase: Métodos de Regularización

Mauricio Castro C.
mcastro@mat.uc.cl

Departamento de Estadística, Pontificia Universidad Católica de Chile

TÓPICOS APLICADOS EN ESTADÍSTICA


Segundo Semestre 2023
Regresion Ridge
Regresión Ridge

I Recordemos mínimos cuadrados (LS) para estimar coeficientes de


regresión β1 , . . . , βp .
Regresión Ridge

I Recordemos mínimos cuadrados (LS) para estimar coeficientes de


regresión β1 , . . . , βp .

Pn  Pp 2
I La idea es minimizar RSS = i=1 yi − β0 − j=1 βj xij .
Regresión Ridge

I Recordemos mínimos cuadrados (LS) para estimar coeficientes de


regresión β1 , . . . , βp .

Pn  Pp 2
I La idea es minimizar RSS = i=1 yi − β0 − j=1 βj xij .

I Regresión Ridge (RR) es similar a LS.


Regresión Ridge

I Recordemos mínimos cuadrados (LS) para estimar coeficientes de


regresión β1 , . . . , βp .

Pn  Pp 2
I La idea es minimizar RSS = i=1 yi − β0 − j=1 βj xij .

I Regresión Ridge (RR) es similar a LS.

I La diferencia es que los coeficientes se minimizan de otra forma.


Regresión Ridge

Pp
I Coeficientes estimados en RR: RSS + λ j=1 β2j
Regresión Ridge

Pp
I Coeficientes estimados en RR: RSS + λ j=1 β2j

I λ > 0 es el parámetro de penalización (tuning parameter) y el


multiplicador de Lagrange.
Regresión Ridge

Pp
I Coeficientes estimados en RR: RSS + λ j=1 β2j

I λ > 0 es el parámetro de penalización (tuning parameter) y el


multiplicador de Lagrange.

I Nota:
Regresión Ridge

Pp
I Coeficientes estimados en RR: RSS + λ j=1 β2j

I λ > 0 es el parámetro de penalización (tuning parameter) y el


multiplicador de Lagrange.

I Nota: RR busca estimar parámetros usando LS + una parte que


busca “contraer” al parámetro.
Regresión Ridge

Pp
I Coeficientes estimados en RR: RSS + λ j=1 β2j

I λ > 0 es el parámetro de penalización (tuning parameter) y el


multiplicador de Lagrange.

I Nota: RR busca estimar parámetros usando LS + una parte que


busca “contraer” al parámetro.

Pp
I λ j=1 β2j es la penalización por contracción.
Regresión Ridge

Pp
I λ j=1 β2j es pequeño cuando β1 , . . . , βp son cercanos a 0.
Regresión Ridge

Pp
I λ j=1 β2j es pequeño cuando β1 , . . . , βp son cercanos a 0.

I Tiene el efecto de contraer las estimaciones de βj hacia 0.


Regresión Ridge

Pp
I λ j=1 β2j es pequeño cuando β1 , . . . , βp son cercanos a 0.

I Tiene el efecto de contraer las estimaciones de βj hacia 0.

I λ sirve para controlar el efecto de este término en la estimación.


Regresión Ridge

Pp
I λ j=1 β2j es pequeño cuando β1 , . . . , βp son cercanos a 0.

I Tiene el efecto de contraer las estimaciones de βj hacia 0.

I λ sirve para controlar el efecto de este término en la estimación.

I λ = 0 implica que no hay penalización.


Regresión Ridge

I λ −→ ∞ tiene un alto impacto en la estimación.


Regresión Ridge

I λ −→ ∞ tiene un alto impacto en la estimación.Los coeficientes


estimados serán cercanos a 0.

b R para cada valor de λ.


I RR genera diferentes conjuntos de β λ
Regresión Ridge

I λ −→ ∞ tiene un alto impacto en la estimación.Los coeficientes


estimados serán cercanos a 0.

b R para cada valor de λ.


I RR genera diferentes conjuntos de β λ

I Elección de λ es crucial.
Regresión Ridge

I λ −→ ∞ tiene un alto impacto en la estimación.Los coeficientes


estimados serán cercanos a 0.

b R para cada valor de λ.


I RR genera diferentes conjuntos de β λ

I Elección de λ es crucial.

I Observar que no se penaliza β0 .


Regresión Ridge

I Consideremos el caso general de LS donde:

φq (β) = (Y − Xβ)> (Y − Xβ) + λpq (β)


Regresión Ridge

I Consideremos el caso general de LS donde:

φq (β) = (Y − Xβ)> (Y − Xβ) + λpq (β)

Pr
I Podemos definir pq (β) = j=1 |βj |q .
Regresión Ridge

I Consideremos el caso general de LS donde:

φq (β) = (Y − Xβ)> (Y − Xβ) + λpq (β)

Pr
I Podemos definir pq (β) = j=1 |βj |q .

I pq (β) limita la norma `q de los parámetros en el modelo como


Pp
j=1 |βj | 6 c.
q
Regresión Ridge
Regresión Ridge

I φq (β) es una función convexa suave cuando q > 1 y convexa


cuando q = 1. Luego se puede minimizar.
Regresión Ridge

I φq (β) es una función convexa suave cuando q > 1 y convexa


cuando q = 1. Luego se puede minimizar.

I Cuando q < 1, la minimización es más complicada (φq (β) no es


convexa).
Regresión Ridge

I φq (β) es una función convexa suave cuando q > 1 y convexa


cuando q = 1. Luego se puede minimizar.

I Cuando q < 1, la minimización es más complicada (φq (β) no es


convexa).

I En esta notación, RR ocurre cuando q = 2.


Regresión Ridge

I φq (β) es una función convexa suave cuando q > 1 y convexa


cuando q = 1. Luego se puede minimizar.

I Cuando q < 1, la minimización es más complicada (φq (β) no es


convexa).

I En esta notación, RR ocurre cuando q = 2.

I En p = 2, el estimador RR es el punto en el contorno de RSS,


b el cual toca el círculo β2 + β2 6 c.
centrado en β 1 2
Regresión Ridge

I φq (β) es una función convexa suave cuando q > 1 y convexa


cuando q = 1. Luego se puede minimizar.

I Cuando q < 1, la minimización es más complicada (φq (β) no es


convexa).

I En esta notación, RR ocurre cuando q = 2.

I En p = 2, el estimador RR es el punto en el contorno de RSS,


b el cual toca el círculo β2 + β2 6 c.
centrado en β 1 2

I c controla el tamaño del círculo y cuanto vamos a contraer β


b sobre
el origen.
Regresión Ridge

I El valor de c determina el valor de λ.


Regresión Ridge

I El valor de c determina el valor de λ.

I De hecho c es una cota superior para la norma `2 (en el caso de RR)


de los coeficientes.
Regresión Ridge

I El valor de c determina el valor de λ.

I De hecho c es una cota superior para la norma `2 (en el caso de RR)


de los coeficientes.

I Una cota muy pequeña (un valor chico de c) corresponde a un valor


grande de λ (y viceversa).
Regresión Ridge

I El valor de c determina el valor de λ.

I De hecho c es una cota superior para la norma `2 (en el caso de RR)


de los coeficientes.

I Una cota muy pequeña (un valor chico de c) corresponde a un valor


grande de λ (y viceversa).

I Preg: ¿Por que no considerar β21 + β22 = c en lugar de β21 + β22 6 c?.
Regresión Ridge

I El valor de c determina el valor de λ.

I De hecho c es una cota superior para la norma `2 (en el caso de RR)


de los coeficientes.

I Una cota muy pequeña (un valor chico de c) corresponde a un valor


grande de λ (y viceversa).

I Preg: ¿Por que no considerar β21 + β22 = c en lugar de β21 + β22 6 c?.

I Resp: La solución optimal ocurre cuando el punto más bajo de la


función objetivo intersecta la superficie de la restricción.
Regresión Ridge

I El valor de c determina el valor de λ.

I De hecho c es una cota superior para la norma `2 (en el caso de RR)


de los coeficientes.

I Una cota muy pequeña (un valor chico de c) corresponde a un valor


grande de λ (y viceversa).

I Preg: ¿Por que no considerar β21 + β22 = c en lugar de β21 + β22 6 c?.

I Resp: La solución optimal ocurre cuando el punto más bajo de la


función objetivo intersecta la superficie de la restricción. Si
“relajamos” la restricción y hacemos crecer la `2 “circunferencia”
hasta que alcance el objetivo, se tendrá la solución.
Regresión Ridge

I Más adelante veremos por que en el caso q = 1 no es tan fácil de


optimizar, a pesar de que la función sigue siendo convexa.
Regresión Ridge

I Más adelante veremos por que en el caso q = 1 no es tan fácil de


optimizar, a pesar de que la función sigue siendo convexa.

I Lo que sucede es que no es diferenciable.


Regresión Ridge

I Más adelante veremos por que en el caso q = 1 no es tan fácil de


optimizar, a pesar de que la función sigue siendo convexa.

I Lo que sucede es que no es diferenciable.

I Y el problema es que |β| no es diferenciable en 0.


Regresión Ridge

I Más adelante veremos por que en el caso q = 1 no es tan fácil de


optimizar, a pesar de que la función sigue siendo convexa.

I Lo que sucede es que no es diferenciable.

I Y el problema es que |β| no es diferenciable en 0.

I Por lo tanto se necesitan técnicas de optimización más complejas


(p.e., gradient descent algorithm).
Regresión Ridge
Regresión Ridge

I En resumen, lo que se busca es minimizar RSS sujeto a ||β||2 6 c


(||β|| = β> β).
Regresión Ridge

I En resumen, lo que se busca es minimizar RSS sujeto a ||β||2 6 c


(||β|| = β> β).

I Sea entonces φ2 (β) = (Y − Xβ)> (Y − Xβ) + λβ> β


Regresión Ridge

I En resumen, lo que se busca es minimizar RSS sujeto a ||β||2 6 c


(||β|| = β> β).

I Sea entonces φ2 (β) = (Y − Xβ)> (Y − Xβ) + λβ> β

I Derivando φ2 (β) con respecto a β e igualando a 0 se tiene que:


Regresión Ridge

I En resumen, lo que se busca es minimizar RSS sujeto a ||β||2 6 c


(||β|| = β> β).

I Sea entonces φ2 (β) = (Y − Xβ)> (Y − Xβ) + λβ> β

I Derivando φ2 (β) con respecto a β e igualando a 0 se tiene que:

b R = X> Y
(X> X + λIp )β λ
Regresión Ridge

I En resumen, lo que se busca es minimizar RSS sujeto a ||β||2 6 c


(||β|| = β> β).

I Sea entonces φ2 (β) = (Y − Xβ)> (Y − Xβ) + λβ> β

I Derivando φ2 (β) con respecto a β e igualando a 0 se tiene que:

b R = X> Y
(X> X + λIp )β λ

I Notar que la restricción β> β 6 c sobre β es una hiper-esfera


centrada en el origen con un radio acotado c.
Regresión Ridge

I Considere la descomposición SVD de X (n × p).


Regresión Ridge

I Considere la descomposición SVD de X (n × p).

I X = UΛ1/2 V> , Λ = diag (λ1 , . . . , λj ), UU> = U> U = In ,


VV> = V> V = Ip .
Regresión Ridge

I Considere la descomposición SVD de X (n × p).

I X = UΛ1/2 V> , Λ = diag (λ1 , . . . , λj ), UU> = U> U = In ,


VV> = V> V = Ip .

I X> X = VΛV> .
Regresión Ridge

I Considere la descomposición SVD de X (n × p).

I X = UΛ1/2 V> , Λ = diag (λ1 , . . . , λj ), UU> = U> U = In ,


VV> = V> V = Ip .

I X> X = VΛV> .

I λj son los autovalores ordenados de X> X.


Regresión Ridge

I Sea P = XV = UΛ1/2 . Además P> P = Λ y k = λ.


Regresión Ridge

I Sea P = XV = UΛ1/2 . Además P> P = Λ y k = λ.

b R = (X> X + kIp )−1 X> Y.


I β k
Regresión Ridge

I Sea P = XV = UΛ1/2 . Además P> P = Λ y k = λ.

b R = (X> X + kIp )−1 X> Y.


I β k

I Note que, usando lo anterior

bR
β = (X> X + kIp )−1 X> Y
k
Regresión Ridge

I Sea P = XV = UΛ1/2 . Además P> P = Λ y k = λ.

b R = (X> X + kIp )−1 X> Y.


I β k

I Note que, usando lo anterior

bR
β = (X> X + kIp )−1 X> Y
k
= (VΛV> + kVV> )−1 VΛ1/2 U> Y
Regresión Ridge

I Sea P = XV = UΛ1/2 . Además P> P = Λ y k = λ.

b R = (X> X + kIp )−1 X> Y.


I β k

I Note que, usando lo anterior

bR
β = (X> X + kIp )−1 X> Y
k
= (VΛV> + kVV> )−1 VΛ1/2 U> Y
= V(Λ + kIp )−1 Λ1/2 U> Y
Regresión Ridge

I Sea P = XV = UΛ1/2 . Además P> P = Λ y k = λ.

b R = (X> X + kIp )−1 X> Y.


I β k

I Note que, usando lo anterior

bR
β = (X> X + kIp )−1 X> Y
k
= (VΛV> + kVV> )−1 VΛ1/2 U> Y
= V(Λ + kIp )−1 Λ1/2 U> Y
= V(Λ + kIp )−1 P> Y
Regresión Ridge

I Sea P = XV = UΛ1/2 . Además P> P = Λ y k = λ.

b R = (X> X + kIp )−1 X> Y.


I β k

I Note que, usando lo anterior

bR
β = (X> X + kIp )−1 X> Y
k
= (VΛV> + kVV> )−1 VΛ1/2 U> Y
= V(Λ + kIp )−1 Λ1/2 U> Y
= V(Λ + kIp )−1 P> Y

I Ahora, hagamos α = V> β (β = Vα).


Regresión Ridge

I Notemos que Y = Xβ +  ≡ Pα + .
Regresión Ridge

I Notemos que Y = Xβ +  ≡ Pα + .

b = (P> P)−1 P> Y = Λ−1 V> X> Y.


I El estimador LS es α
Regresión Ridge

I Notemos que Y = Xβ +  ≡ Pα + .

b = (P> P)−1 P> Y = Λ−1 V> X> Y.


I El estimador LS es α

R
bR
I Sin embargo, de acuerdo a α = V> β, tenemos que α >b
k = V βk .
Regresión Ridge

I Notemos que Y = Xβ +  ≡ Pα + .

b = (P> P)−1 P> Y = Λ−1 V> X> Y.


I El estimador LS es α

R
bR
I Sin embargo, de acuerdo a α = V> β, tenemos que α >b
k = V βk .

I Pero,
R
bR
α k = V> β
b
k
Regresión Ridge

I Notemos que Y = Xβ +  ≡ Pα + .

b = (P> P)−1 P> Y = Λ−1 V> X> Y.


I El estimador LS es α

R
bR
I Sin embargo, de acuerdo a α = V> β, tenemos que α >b
k = V βk .

I Pero,
R
bR
α k = V> β
b
k
= (Λ + kIp )−1 P> Y
Regresión Ridge

I Notemos que Y = Xβ +  ≡ Pα + .

b = (P> P)−1 P> Y = Λ−1 V> X> Y.


I El estimador LS es α

R
bR
I Sin embargo, de acuerdo a α = V> β, tenemos que α >b
k = V βk .

I Pero,
R
bR
α k = V> β
b
k
= (Λ + kIp )−1 P> Y
= (Λ + kIp )−1 Λα
b
Regresión Ridge

I Conclusión: El estimador RR es “más pequeño” que el estimador LS.


Regresión Ridge

I Conclusión: El estimador RR es “más pequeño” que el estimador LS.

I Para un coeficiente j particular:


Regresión Ridge

I Conclusión: El estimador RR es “más pequeño” que el estimador LS.

I Para un coeficiente j particular:

λj
bR
αjk = α
bj
λj + k
Regresión Ridge

I Conclusión: El estimador RR es “más pequeño” que el estimador LS.

I Para un coeficiente j particular:

λj
bR
αjk = α
bj
λj + k

I Mientras más pequeño λj ,


Regresión Ridge

I Conclusión: El estimador RR es “más pequeño” que el estimador LS.

I Para un coeficiente j particular:

λj
bR
αjk = α
bj
λj + k

I Mientras más pequeño λj , la contracción hacia 0 es mayor.


Regresión Ridge

I Conclusión: El estimador RR es “más pequeño” que el estimador LS.

I Para un coeficiente j particular:

λj
bR
αjk = α
bj
λj + k

I Mientras más pequeño λj , la contracción hacia 0 es mayor.

b R ? Si, pero no es evidente.


I ¿Puedo concluir lo mismo para β k
Regresión Ridge

b R ) + Sesgo2 (β
I Error Cuadrático Medio (ECM): Var(β b R ).
k k
Regresión Ridge

b R ) + Sesgo2 (β
I Error Cuadrático Medio (ECM): Var(β b R ).
k k

R
b ) = σ2 Pp λj
I Var(βk j=1 (λj +k)2
Regresión Ridge

b R ) + Sesgo2 (β
I Error Cuadrático Medio (ECM): Var(β b R ).
k k

R
b ) = σ2 Pp λj
I Var(βk j=1 (λj +k)2

b R ) = k2 P p
I Sesgo2 (β αj R
(si k −→ ∞, Sesgo2 (β
b ) −→ β> β).
k j=1 (λj +k)2 k
Regresión Ridge

b R ) + Sesgo2 (β
I Error Cuadrático Medio (ECM): Var(β b R ).
k k

R
b ) = σ2 Pp λj
I Var(βk j=1 (λj +k)2

b R ) = k2 P p
I Sesgo2 (β αj R
(si k −→ ∞, Sesgo2 (β
b ) −→ β> β).
k j=1 (λj +k)2 k

R Pp σ2 λj +k2 α2j
I ECM(β
b )=
k j=1 (λj +k)2 .
Regresión Ridge

b R ) + Sesgo2 (β
I Error Cuadrático Medio (ECM): Var(β b R ).
k k

R
b ) = σ2 Pp λj
I Var(βk j=1 (λj +k)2

b R ) = k2 P p
I Sesgo2 (β αj R
(si k −→ ∞, Sesgo2 (β
b ) −→ β> β).
k j=1 (λj +k)2 k

R Pp σ2 λj +k2 α2j
I ECM(β
b )=
k j=1 (λj +k)2 .

I λj es el j-ésimo mayor autovalor X> X, αj es el j-ésimo elemento de


α y σ2 es la varianza del error.

También podría gustarte