Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Mauricio Castro C.
mcastro@mat.uc.cl
Pn Pp 2
I La idea es minimizar RSS = i=1 yi − β0 − j=1 βj xij .
Regresión Ridge
Pn Pp 2
I La idea es minimizar RSS = i=1 yi − β0 − j=1 βj xij .
Pn Pp 2
I La idea es minimizar RSS = i=1 yi − β0 − j=1 βj xij .
Pp
I Coeficientes estimados en RR: RSS + λ j=1 β2j
Regresión Ridge
Pp
I Coeficientes estimados en RR: RSS + λ j=1 β2j
Pp
I Coeficientes estimados en RR: RSS + λ j=1 β2j
I Nota:
Regresión Ridge
Pp
I Coeficientes estimados en RR: RSS + λ j=1 β2j
Pp
I Coeficientes estimados en RR: RSS + λ j=1 β2j
Pp
I λ j=1 β2j es la penalización por contracción.
Regresión Ridge
Pp
I λ j=1 β2j es pequeño cuando β1 , . . . , βp son cercanos a 0.
Regresión Ridge
Pp
I λ j=1 β2j es pequeño cuando β1 , . . . , βp son cercanos a 0.
Pp
I λ j=1 β2j es pequeño cuando β1 , . . . , βp son cercanos a 0.
Pp
I λ j=1 β2j es pequeño cuando β1 , . . . , βp son cercanos a 0.
I Elección de λ es crucial.
Regresión Ridge
I Elección de λ es crucial.
Pr
I Podemos definir pq (β) = j=1 |βj |q .
Regresión Ridge
Pr
I Podemos definir pq (β) = j=1 |βj |q .
I Preg: ¿Por que no considerar β21 + β22 = c en lugar de β21 + β22 6 c?.
Regresión Ridge
I Preg: ¿Por que no considerar β21 + β22 = c en lugar de β21 + β22 6 c?.
I Preg: ¿Por que no considerar β21 + β22 = c en lugar de β21 + β22 6 c?.
b R = X> Y
(X> X + λIp )β λ
Regresión Ridge
b R = X> Y
(X> X + λIp )β λ
I X> X = VΛV> .
Regresión Ridge
I X> X = VΛV> .
bR
β = (X> X + kIp )−1 X> Y
k
Regresión Ridge
bR
β = (X> X + kIp )−1 X> Y
k
= (VΛV> + kVV> )−1 VΛ1/2 U> Y
Regresión Ridge
bR
β = (X> X + kIp )−1 X> Y
k
= (VΛV> + kVV> )−1 VΛ1/2 U> Y
= V(Λ + kIp )−1 Λ1/2 U> Y
Regresión Ridge
bR
β = (X> X + kIp )−1 X> Y
k
= (VΛV> + kVV> )−1 VΛ1/2 U> Y
= V(Λ + kIp )−1 Λ1/2 U> Y
= V(Λ + kIp )−1 P> Y
Regresión Ridge
bR
β = (X> X + kIp )−1 X> Y
k
= (VΛV> + kVV> )−1 VΛ1/2 U> Y
= V(Λ + kIp )−1 Λ1/2 U> Y
= V(Λ + kIp )−1 P> Y
I Notemos que Y = Xβ + ≡ Pα + .
Regresión Ridge
I Notemos que Y = Xβ + ≡ Pα + .
I Notemos que Y = Xβ + ≡ Pα + .
R
bR
I Sin embargo, de acuerdo a α = V> β, tenemos que α >b
k = V βk .
Regresión Ridge
I Notemos que Y = Xβ + ≡ Pα + .
R
bR
I Sin embargo, de acuerdo a α = V> β, tenemos que α >b
k = V βk .
I Pero,
R
bR
α k = V> β
b
k
Regresión Ridge
I Notemos que Y = Xβ + ≡ Pα + .
R
bR
I Sin embargo, de acuerdo a α = V> β, tenemos que α >b
k = V βk .
I Pero,
R
bR
α k = V> β
b
k
= (Λ + kIp )−1 P> Y
Regresión Ridge
I Notemos que Y = Xβ + ≡ Pα + .
R
bR
I Sin embargo, de acuerdo a α = V> β, tenemos que α >b
k = V βk .
I Pero,
R
bR
α k = V> β
b
k
= (Λ + kIp )−1 P> Y
= (Λ + kIp )−1 Λα
b
Regresión Ridge
λj
bR
αjk = α
bj
λj + k
Regresión Ridge
λj
bR
αjk = α
bj
λj + k
λj
bR
αjk = α
bj
λj + k
λj
bR
αjk = α
bj
λj + k
b R ) + Sesgo2 (β
I Error Cuadrático Medio (ECM): Var(β b R ).
k k
Regresión Ridge
b R ) + Sesgo2 (β
I Error Cuadrático Medio (ECM): Var(β b R ).
k k
R
b ) = σ2 Pp λj
I Var(βk j=1 (λj +k)2
Regresión Ridge
b R ) + Sesgo2 (β
I Error Cuadrático Medio (ECM): Var(β b R ).
k k
R
b ) = σ2 Pp λj
I Var(βk j=1 (λj +k)2
b R ) = k2 P p
I Sesgo2 (β αj R
(si k −→ ∞, Sesgo2 (β
b ) −→ β> β).
k j=1 (λj +k)2 k
Regresión Ridge
b R ) + Sesgo2 (β
I Error Cuadrático Medio (ECM): Var(β b R ).
k k
R
b ) = σ2 Pp λj
I Var(βk j=1 (λj +k)2
b R ) = k2 P p
I Sesgo2 (β αj R
(si k −→ ∞, Sesgo2 (β
b ) −→ β> β).
k j=1 (λj +k)2 k
R Pp σ2 λj +k2 α2j
I ECM(β
b )=
k j=1 (λj +k)2 .
Regresión Ridge
b R ) + Sesgo2 (β
I Error Cuadrático Medio (ECM): Var(β b R ).
k k
R
b ) = σ2 Pp λj
I Var(βk j=1 (λj +k)2
b R ) = k2 P p
I Sesgo2 (β αj R
(si k −→ ∞, Sesgo2 (β
b ) −→ β> β).
k j=1 (λj +k)2 k
R Pp σ2 λj +k2 α2j
I ECM(β
b )=
k j=1 (λj +k)2 .