Está en la página 1de 89

Modelo de regresión múltiple

Alvaro José Flórez


1 Escuelade Estadística
Facultad de Ingeniería

Noviembre 2021 - marzo 2022


1 Caso de estudio

2 Regresión lineal múltiple


Estimación de parámetros

3 Pruebas de hipótesis
ANOVA
Pruebas sobre coecientes individuales de regresión
Pruebas de hipótesis general lineal

4 Intervalos de conanza en regresión múltiple


Intervalos de conanza para los coecientes
Intervalo de conanza para la respuesta media
Intervalo de predicción para una observación futura

5 Coecientes normalizados de regresión

6 Multicolinealidad
Peso al nacer

Los datos Birthweight.csv (campus virtual) contiene información


de 42 recién nacidos y 11 variables. Por ahora estamos interesados
en la relación entre el peso del recién nacido (en kg, Birthweight)
y la edad gestacional del bebé al nacer (en semanas, Gestation).

El objetivo es predecir el peso al nacer en función de la edad


gestacional, por lo cual se postula el siguiente modelo:

Birthweighti = β0 + β1 Gestationi + εi , para i = 1, . . . , 42,

con εi ∼ N 0, σ 2 y cov(εj , εk ) = 0, para todo j 6= k.



Peso al nacer

Ahora consideremos 2 covariables: la edad gestacional del bebé al


nacer (en semanas, Gestation) y el peso de la madre antes del
embarazo (en kgs, mppwt).

Entonces, el modelo es:

Birthweighti = β0 +β1 Gestationi +β2 mppwti +εi , para i = 1, . . . , 42,

con εi ∼ N 0, σ 2 y cov(εj , εk ) = 0, para todo j 6= k.



Peso al nacer

34 38 42

4.0
Birthweight

3.0
2.0
42

Gestation
38
34

75
65
mppwt

55
45
2.0 3.0 4.0 45 55 65 75
Modelo de regresión lineal múltiple

En general, se puede relacionar la variable respuesta (y ), con p − 1


covariables o variables predictoras. El modelo:

yi = β0 + β1 xi1 + β2 xi2 + . . . + βi,p−1 xi,p−1 + εi , i = 1, . . . , n,

con xi = (1, xi1 , xi2 , . . . , xi,p−1 )0 .

Supuestos: εi ∼ N 0, σ 2 y cov(εj , εk ) = 0, para todo j 6= k.




Este modelo el nombre de modelo de regresión lineal múltiple. Los


parámetros βj , j = 0, . . . , p − 1, se llaman coecientes de regresión.
Modelo de regresión lineal múltiple
Consideremos dos puntos:
• xi,j = (1, xi1 , xi2 , . . . , xij , . . . , xi,p−1 )0
• xi,j+1 = (1, xi1 , xi2 , . . . , (xij + 1), . . . , xi,p−1 )0

Entonces tenemos que:

E(Y |xi,j ) = β0 + β1 xi1 + β2 xi2 + . . . + βj xij + . . . + βp−1 xi,p−1

E(Y |xi,j+1 ) = β0 +β1 xi1 +β2 xi2 +. . .+βj (xij +1)+. . .+βp−1 xi,p−1
Por lo tanto E(Y |xi,j+1 ) − E(Y |xi,j ) = βj .

βj representa el cambio esperado en la respuesta y por cambio


unitario en xj cuando todas las demás covariables xi (i 6= j)
se mantiene constantes.
Modelo de regresión lineal múltiple
Modelo de regresión lineal múltiple

Modelos con estructuras más complejas pueden analizarse con


técnicas de regresión lineal múltiple. Por ejemplo:

Modelo polinómico:

yi = β0 + β1 xi + β2 x2i + . . . + βp−1 xp−1


i + εi

Modelo de interacción:

yi = β0 + β1 xi1 + β2 xi2 + β3 xi1 xi2 + εi

Todo modelo de regresión que es lineal en los parámetros (β ) es un


modelo de regresión lineal, independientemente de la supercie que
genera.
Modelo de regresión lineal múltiple
Modelo de regresión lineal múltiple
Modelo:

yi =β0 + β1 xi1 + β2 xi2 + . . . + βi,p−1 xi,p−1 + εi


p−1
X
=β0 + βij xij + εi , i = 1, . . . , n,
j=1

con εi ∼ N 0, σ 2 y cov(εj , εk ) = 0, para todo j 6= k




Datos:

observación respuesta covariables


i Y X1 X2 ... Xp−1
1 y1 x11 x12 ... x1,p−1
2 y2 x21 x22 ... x2,p−1
.. .. .. .. .. ..
. . . . . .
n y1 xn1 xn2 ... xn,p−1
Estimación por mínimos cuadrados

La función de mínimos cuadrados:


n
X
S(β) = e2i
i=1
 2
n
X p−1
X
= yi − β0 − βj xij 
i=1 j=1

Debemos minimizar la función S(β) con respecto a β0 , β1 , . . . , βp−1 .


Estimación por mínimos cuadrados

El estimador de mínimos cuadrados satisface:


 
n p−1
∂S X X
= −2 yi − βb0 − βbj xij  = 0
∂β0 βb0 ,βb1 ,...,βbp−1
i=1 j=1

y
 
n p−1
∂S X X
= −2 yi − βb0 − βbj xij  xij = 0,
∂βj βb0 ,βb1 ,...,βbp−1
i=1 j=1

para j = 1, . . . , p − 1.
Estimación por mínimos cuadrados

Ecuaciones normales de mínimos cuadrados:


n
X n
X n
X n
X
nβb0 + βb1 xi1 + βb2 xi2 + . . . + βbp−1 xi,p−1 = yi
i=1 i=1 i=1 i=1
n
X n
X n
X n
X Xn
βb0 xi1 + βb1 x2i1 + βb2 xi1 xi2 + . . . + βbk xi1 xi,p−1 = xi1 yi
i=1 i=1 i=1 i=1 i=1
..
.
n
X n
X n
X n
X n
X
βb0 xi,p−1 + βb1 xi1 xi,p−1 + βb2 xi2 xi,p−1 + . . . + βbp−1 xi1 x2i,p−1 = xik yi
i=1 i=1 i=1 i=1 i=1
Modelo de regresión lineal múltiple
Notación matricial:
y = Xβ + ε
donde:
 
    β0  
y1 1 x11 x12 . . . x1,p−1  β1  ε1
 y2  1 x21 x22 . . . x2,p−1     ε2 
 β2 
y =  .  ,X =  . .. .. . . ..  , β =   , ε =  ..  .
     
 ..   .. . . . .   ..  .
 . 
yn 1 xn1 xn2 . . . xn,p−1 εn
βp−1

Supuesto: ε ∼ N 0, σ 2 I .

Modelo de regresión lineal múltiple
Notación matricial:
y = Xβ + ε
donde:
 
    β0  
y1 1 x11 x12 . . . x1,p−1  β1  ε1
 y2  1 x21 x22 . . . x2,p−1     ε2 
 β2 
y =  .  ,X =  . .. .. . . ..  , β =   , ε =  ..  .
     
 ..   .. . . . .   ..  .
 . 
yn 1 xn1 xn2 . . . xn,p−1 εn
βp−1

Supuesto: ε ∼ N 0, σ 2 I .


Por lo tanto, debemos encontrar βb que minimice:


n
X
S(β) = e2i = e0 e = (y − Xβ)0 (y − Xβ).
i=1
Estimación por mínimos cuadrados

Debemos minimizar:
n
X
S(β) = e2i = e0 e = (y − Xβ)0 (y − Xβ).
i=1
=y y − β 0 X 0 y − y 0 Xβ + β 0 X 0 Xβ
0

=y 0 y − 2β 0 X 0 y + β 0 X 0 Xβ.
Estimación por mínimos cuadrados

Debemos minimizar:
n
X
S(β) = e2i = e0 e = (y − Xβ)0 (y − Xβ).
i=1
=y y − β 0 X 0 y − y 0 Xβ + β 0 X 0 Xβ
0

=y 0 y − 2β 0 X 0 y + β 0 X 0 Xβ.

Por lo tanto, βb debe satisfacer:



∂S
= −2X 0 y + 2X 0 X βb = 0.
∂β βb
Estimación por mínimos cuadrados
Ecuaciones normales de mínimos cuadrados:

X 0 X βb = X 0 y.

En mas detalle,
Pn Pn
. . . P ni=1 xi,p−1
 P   b   Pn 
n i=1 xi1 i=1 xi2 β0 i=1 yi
P n P n 2
P n n P n
i=1 xi1 i=1 xi1 i=1 xi1 xi2 ... i=1 xi1 xi,p−1   β1  i=1 xi1 yi 
  b   
.. .. .. .. ..  .  =  ..
 
. . . . .   ..   .
 
 
Pn Pn Pn Pn 2 Pn
i=1 xi,p−1 i=1 xi1 xi,p−1 i=1 xi2 xi,p−1 . . . i=1 xi,p−1 βbp−1 i=1 xi,p−1 yi
Estimación por mínimos cuadrados
Ecuaciones normales de mínimos cuadrados:

X 0 X βb = X 0 y.

En mas detalle,
Pn Pn
. . . P ni=1 xi,p−1
 P   b   Pn 
n i=1 xi1 i=1 xi2 β0 i=1 yi
P n P n 2
P n n P n
i=1 xi1 i=1 xi1 i=1 xi1 xi2 ... i=1 xi1 xi,p−1   β1  i=1 xi1 yi 
  b   
.. .. .. .. ..  .  =  ..
 
. . . . .   ..   .
 
 
Pn Pn Pn Pn 2 Pn
i=1 xi,p−1 i=1 xi1 xi,p−1 i=1 xi2 xi,p−1 . . . i=1 xi,p−1 βbp−1 i=1 xi,p−1 yi

Por lo cual, el estimador por mínimos cuadrados es:

βb = (X 0 X)−1 X 0 y.

Es necesario que X sea de rango completo (es decir que no haya


dependencia lineal entre las covariables).
Estimación por mínimos cuadrados

Por lo tanto la estimación puntual de y es:

yb =X βb
=X(X 0 X)−1 X 0 y = Hy.

La matriz H = X(X 0 X)−1 X 0 es llamada matriz hat. Esta matriz


desempeña un papel importante en el análisis de regresión. H es
simétrica e idempotente.
Peso al nacer

Ahora consideremos 2 covariables: la edad gestacional del bebé al


nacer (en semanas, Gestation) y el peso de la madre antes del
embarazo (en kgs, mppwt).

Entonces, el modelo es:

Birthweighti = β0 +β1 Gestationi +β2 mppwt+εi , para i = 1, . . . , 42,

con εi ∼ N 0, σ 2 y cov(εj , εk ) = 0, para todo j 6= k.



Peso al nacer

Ecuaciones normales:
  b   
42.00 1646.00 2397.69 β0 135.95
βb1  = 5378.18
1646.00 64794.00 94162.15   
2397.69 94162.15 139006.14 βb2 7818.15

Resolviendo para βb:


   −1  
βb0 42.00 1646.00 2397.69 135.95
β1  = 1646.00 64794.00 94162.15  5378.18
b  
βb2 2397.69 94162.15 139006.14 7818.15

Finalmente, βb = (−3.978, 0.167, 0.011)0


Propiedades de los mínimos cuadrados

Valor esperado de βb:


b =E (X 0 X)−1 X 0 y = E X 0 X)−1 X 0 (Xβ + ε)
   
E(β)
=E (X 0 X)−1 X 0 Xβ + (X 0 X)−1 X 0 ε = β
 

Por lo tanto, βb es un estimador insesgado de β


Propiedades de los mínimos cuadrados

Matriz de covarianza de βb:

Var(β)
b =V (X 0 X)−1 X 0 y
 
0
=(X 0 X)−1 X 0 Var(y) (X 0 X)−1 X 0


=σ 2 (X 0 X)−1 X 0 X(X 0 X)−1 = σ 2 (X 0 X)−1

Si C = (X 0 X)−1 , tenemos que


• Var(βbj ) = σ 2 cjj
• Cov(βbi , βbj ) = σ 2 cij
Teorema Gauss-Markov

El estimador de mínimos cuadrados ordinarios (MCO) de β ,

βb = (X 0 X)−1 X 0 y,

con varianza,
Var(β)
b = σ 2 (X 0 X)−1 ,

es el mejor estimador lineal insesgado (BLUE). (ver apéndice C.4.


del texto guía).

Esto quiere decir que es el estimador con menor varianza entre la


clase de estimador insesgados que son combinaciones lineales de y .
Estimador de σ 2

El estimador de σ 2 está basado en la suma de cuadrados de los


residuos:
n
X n
X
SSres = (yi − yb)2 = e0 e = (y − ybi )0 (y − ybi )
i=1 i=1
= (y − Hy)0 (y − Hy)
=y 0 (I − H)0 (I − H) y
=y 0 (I − H) y.

¾Cuál es el valor esperado de SSres ?


Recordemos que ...

Theorem (Valor esperado de una forma cuadrática)


Sea x un vector de dimensión n de variables aleatorias, y sea A una
matriz simétrica (n × n). Si E(x) = µ y Var(x) = Σ, entonces:

E(x0 Ax) = tr(AΣ) + µ0 Aµ.


Recordemos que ...

Theorem (Valor esperado de una forma cuadrática)


Sea x un vector de dimensión n de variables aleatorias, y sea A una
matriz simétrica (n × n). Si E(x) = µ y Var(x) = Σ, entonces:

E(x0 Ax) = tr(AΣ) + µ0 Aµ.

En nuestro caso...

Sabemos que E(y) = Xβ y Var(y) = σ 2 I , entonces:

E y 0 (I − H)y = σ 2 tr (I − H) + β 0 X 0 (I − H)Xβ
 
Estimador de σ 2

Sabemos que E(y) = Xβ y Var(y) = σ 2 I , entonces:

E y 0 (I − H)y =σ 2 tr (I − H) + β 0 X 0 (I − H)Xβ
 

=(n − p)σ 2
Estimador de σ 2

Sabemos que E(y) = Xβ y Var(y) = σ 2 I , entonces:

E y 0 (I − H)y =σ 2 tr (I − H) + β 0 X 0 (I − H)Xβ
 

=(n − p)σ 2

Por lo tanto un estimator insesgado de σ 2 es:


SSres
b2 = M Sres =
σ ,
n−p

La suma de cuadrados de los residuos también se puede expresar


como:
SSres = y 0 y − βb0 X 0 y.
Peso al nacer

Tenemos que y 0 y = 456.521 y :



135.95
βb0 X 0 y = −3.978 0.167 0.011 5378.18 = 449.12


7818.15

Entonces, SSres = 456.521 − 449.12 = 7.401.

Por lo tanto, σ
b2 = 7.401
42−3 = 0.19.
Pruebas de hipótesis

Después de estimar el modelo podemos preguntarnos:


• ¾el modelo hace un buen ajuste de los datos?
• ¾cuales regresores especícos parecen importantes?

Las pruebas de hipótesis requiere que ε ∼ N (0, σ 2 I).


ANOVA

Prueba general de ajuste del modelo:

H0 : β1 = β2 = . . . = βp−1 = 0
H1 : βj 6= 0, al menos para una j
ANOVA

Prueba general de ajuste del modelo:

H0 : β1 = β2 = . . . = βp−1 = 0
H1 : βj 6= 0, al menos para una j

Rechazar H0 implica que al menos una covariable (x1 , x2 , . . . , xp−1 )


tiene un aporte signicativo al modelo.
Recordemos que en regresión simple...
¾Qué tanto de la variabilidad de los datos es explicada por el

modelo de regresión?

yi − ȳ = (yi − ybi ) + (b
yi − ȳ).
ANOVA
Igual que en modelo lineal simple, descomponemos la varianza total:

SST = SSreg + SSres .


donde:
n
X 1 0 0 1
SSreg = yi − ȳ)2 = (Hy −
(b 1 y) (Hy − 10 y),
n n
i=1

n
X
SSres = (yi − ybi )2 = (y − Hy)0 (y − Hy),
i=1
y
n
X 1 1
SST = (yi − ȳ)2 = (y − 10 y)0 (y − 10 y)
n n
i=1
ANOVA
Si H0 es cierta, tenemos que:
SSreg
• σ2
∼ χ2 . k
SSres
• σ2
∼ χn−p .
2 (ver apéndices C.2.4 y C.3 del libro guía)
ANOVA
Si H0 es cierta, tenemos que:
SSreg
• σ2
∼ χ2 . k
SSres
• σ2
∼ χn−p .
2 (ver apéndices C.2.4 y C.3 del libro guía)
Recordemos que...

Si y ∼ N (µ, σ 2 I) y A es una matriz simétrica e idempotente con


rango p, entonces y 0 Ay se distribuye χ2 no-central con p g.l. y
λ = µ0 Aµ/σ 2 .

Si V ∼ χν , W ∼ χη , además V y W son independientes, entonces:

V /ν
∼ Fν,η .
W/η
ANOVA

Si H0 es cierta, tenemos que:


SSreg
• σ2
∼ χ2 . p−1
SSres
• σ2
∼ χ2n−p .
Por lo tanto:
SSreg /(p − 1) M Sreg
F0 = = ∼ Fp−1,n−p .
SSres /(n − p) M Sres

Tengamos en cuenta que:


• E(SSres ) = σ 2 ,
β 0 Xc0 Xc β
• E(SSreg ) = σ 2 + σ2
,
donde Xc es la matriz de X centrada (la columna j de Xc es xj −x̄j )
ANOVA

Si H0 no es cierta, tenemos que:

F0 sigue una distribución F no-central con p − 1 y n − p grados de


libertad y parámetro de no centralidad:
β 0 Xc0 Xc β
λ=
σ2
Esto indica que el valor F0 es grande si al menos un βj es diferente
de cero.
ANOVA

Fuente de var. sum. cuadr. g.l cuadr. med. F0


SSreg M Sreg
Regresión SSreg = βb0 X 0 y − n1 y 0 J y M Sreg =

p−1 k M Sres
SSres
Residuos SSres = y 0 y − βX
b 0y n−p M Sres = n−k−1
Total SST = y 0 y − n1 y 0 J y

n−1

donde J es una matriz con todas sus entradas iguales a 1.


ANOVA

Coeciente de determinación:
SSres
R2 = 1 −
SST

Coeciente de determinación ajustado:

2 SSres /(n − p)
Radj =1−
SST /(n − 1)

R2 solo aumenta si la variable agregada en el modelo reduce el


adj
M Sres .
Peso al nacer

Tabla ANOVA:
Fuente de var. sum. cuadr. g.l cuadr. med. F0 valor-p
Regresión 9.058 2 4.529 23.87 0.000
Residuos 7.401 39 0.19
Total 16.459 41

R2 = 0.55 y Radj
2 = 0.527.

Recordemos que en el modelo con la covariable peso tenemos que


R2 = 0.535 y Radj
2 = 0.523.
Pruebas de hipótesis individuales

Hipótesis a probar:

H0 :βj = 0
H1 :βj 6= 0
Pruebas de hipótesis individuales

Hipótesis a probar:

H0 :βj = 0
H1 :βj 6= 0

Estadístico de prueba:

βbj
t0 = p ,
σb2 cjj

donde cjj es la entrada (j, j) de la matriz (X 0 X)−1 .

Rechazamos H0 si |t0 | > tα/2,n−p .


Peso al nacer

efecto parm. est. error stdr. valor-t valor-p


(Intercept) β0 -3.9775 1.0533 -3.78 0.0005
Gestation β1 0.1675 0.0266 6.30 0.0000
mppwt β2 0.0114 0.0098 1.17 0.2490
Suma extra de cuadrados

Consideremos el modelo con k covariables:

y = Xβ + ε,

y dividamos β :  
β1
β= .
β2
donde β1 es un vector (p − r) × 1 y β2 es un vector r × 1.

Queremos probar:

H0 :β2 = 0
H1 :β2 6= 0
Suma extra de cuadrados
Modelo completo modelo reducido

y = X1 β1 + X2 β2 + ε y = X1 β1 + ε
Suma extra de cuadrados
Modelo completo modelo reducido

y = X1 β1 + X2 β2 + ε y = X1 β1 + ε

Para el modelo completo tenemos que βb = (X 0 X)−1 X 0 y ,

y 0 y − βb0 X 0 y
 
1
b0 0
SSreg (β) = β X y − y 0 J y y M Sres =
n n−p

Para el modelo reducido tenemos que βb1 = (X10 X1 )−1 X10 y ,


 
1
SSreg (β1 ) = βb10 X10 y − y0J y
n
Suma extra de cuadrados

La suma de cuadrados de la regresión debida a β2 dado que β1 ya


está en el modelo es,

SSreg (β2 |β1 ) = SSreg (β) − SSreg (β1 )


Esta suma de cuadrados se llama suma extra de cuadrados debida a
β2 .

Por lo tanto podemos probar H0 : β2 = 0 usando:


SSreg (β2 |β1 )/r
F0 = .
M Sres
Suma extra de cuadrados

Si H0 es cierta (β2 = 0), F0 ∼ Fr,n−p .

Si H0 no es cierta (β2 6= 0), F0 sigue una distribución F no central


con:
1 0 0
β2 X2 I − X1 (X10 X1 )−1 X10 X2 β2 .

λ= 2
σ
Suma extra de cuadrados

Si H0 es cierta (β2 = 0), F0 ∼ Fr,n−p .

Si H0 no es cierta (β2 6= 0), F0 sigue una distribución F no central


con:
1 0 0
β2 X2 I − X1 (X10 X1 )−1 X10 X2 β2 .

λ= 2
σ
Por lo tanto, si F0 > Fα,r,n−p se rechaza H0 . Es decir, algún
componente de β2 es diferente de cero.
Peso al nacer

Consideremos el siguiente modelo:

Birthweighti =β0 + β1 Gestationi + β2 mppwt + β3 Gestation2i +


β4 mppwt2i + β5 Gestationi ppwti + εi ,

con εi ∼ N 0, σ 2 y cov(εj , εk ) = 0, para todo j 6= k.




Queremos probar: H0 : β2 = (β3 , β4 , β5 )0 = 0


Peso al nacer

Tenemos que: β = (β0 , β1 , β2 , β3 , β4 , β5 )0


• β1 = (β0 , β1 , β2 )0
• β2 = (β3 , β4 , β5 )0
Peso al nacer

Tenemos que: β = (β0 , β1 , β2 , β3 , β4 , β5 )0


• β1 = (β0 , β1 , β2 )0
• β2 = (β3 , β4 , β5 )0

Entonces,
• SSreg (β2 |β1 ) = SSreg (β)−SSreg (β1 ) = 9.299−9.058 = 0.24
• SSres (β) = 7.1607
Por lo tanto,
SSreg (β2 |β1 )/(3) 0.08
F0 = = = 0.403.
SSres (β)/(42 − 6) 0.199

El valor-p es 0.752, por lo tanto no se rechaza H0 .


Prueba de hipótesis general lineal

Consideremos el modelo completo:

y = Xβ + ε.
Prueba de hipótesis general lineal

Consideremos el modelo completo:

y = Xβ + ε.

Prueba de hipótesis:

H0 : T β = 0,

donde T es una matriz (m × p), tal que r de las m ecuaciones de


T β son independientes.
Ejemplo
Modelo completo:

y = β0 + β1 x1 + β2 x2 + β3 x3 + ε.

Queremos probar H0 : β1 − β3 = 0. Entonces:


 
β0
 β1 
H0 : T β = 0 1 0 −1 β2  = β1 − β3 = 0

β3
Modelo reducido:
y =β0 + β1 x1 + β2 x2 + β1 x3 + ε
=β0 + β1 (x1 + x3 ) + β2 x2 + ε
=γ0 + γ1 (x1 + x3 ) + γ2 x2 + ε
Ejemplo
Modelo completo:

y = β0 + β1 x1 + β2 x2 + β3 x3 + ε.

Queremos probar H0 : β1 − β3 = 0, β2 = 0. Entonces:

 
  β0    
0 1 0 −1 β1  β1 − β3 0
H0 : T β =   = =
0 0 1 0 β2  β2 0
β3

Modelo reducido:
y =β0 + β1 x1 + (0)x2 + β1 x3 + ε
=β0 + β1 (x1 + x3 ) + ε
=γ0 + γ1 (x1 + x3 ) + ε
Prueba de hipótesis general lineal

Para el modelo completo tenemos que βb = (X 0 X)−1 X 0 y y

SSres (FM) = y 0 y − βb0 X 0 y.

El modelo reducido se obtiene a partir de las r ecuaciones de T β ,

y = Zγ + ε,

donde Z es una matriz n × (p − r) y γ es un vector (p − r) × 1.

Tenemos que γ
b = (Z 0 Z)−1 Z 0 y y

SSres (RM) = y 0 y − γ
b 0 Z 0 y.
Prueba de hipótesis general lineal

Para probar H0 : T β = 0 se utiliza la diferencia de sumas de


cuadrados de los residuos:

SSH = SSres (RM ) − SSres (F M ),

y el estadístico de prueba es:


SSH /r
F0 = .
SSres (F M )/(n − p)
−1
βb0 T 0 T (X 0 X)−1 T 0

T β/r
b
=
SSres (F M )/(n − p)

Se rechaza H0 si F0 > Fα,r,n−p .


Prueba de hipótesis general lineal

Una pequeña generalización:

H0 :T β = c
H1 :T β 6= c

Estadístico de prueba es:


−1
(T βb − c)0 T (X 0 X)−1 T 0

(T βb − c)/r
F0 =
SSres (F M )/(n − p)

Se rechaza H0 si F0 > Fα,r,n−p .


Intervalos de conanza para los coecientes

Recordemos que :

βb ∼ N β, σ 2 C , donde C = (X 0 X)−1


Por lo tanto, el estadístico:

βbj − βj
p ∼ tn−p , para j = 0, . . . , p − 1.
b2 cjj
σ

Entonces, el intervalo de conanza del 100(1 − α) % para βj es:


q q
βbj − t(1−α/2),n−p σb2 cjj ≤ βj ≤ βbj + t(1−α/2),n−p σb2 cjj .
Peso al nacer

I.C. 95 %
efecto parm. est lim. inf. lim. sup.
intercepto β0 -3.977 -6.108 -1.846
gestation β1 0.167 0.113 0.221
mppwt β2 0.011 -0.008 0.0311
Intervalo de conanza para la respuesta
media
Sea x0 = (1, x01 , x02 , . . . , x0,p−1 )0 un vector donde se quiere hacer
una predicción.

La estimación puntual es:

yb0 = x00 βb

Bajo el supuesto de normalidad, tenemos que:

yb0 ∼ N x00 β, σ 2 x00 Cx0 ,




Entonces, el intervalo de conanza del 100(1 − α) % para E(y|x0 )


es:
q q
yb0 −t(1−α/2),n−p σb2 x00 Cx0 ≤ E(y|x0 ) ≤ yb0 +t(1−α/2),n−p σb2 x00 Cx0 .
Intervalo de conanza para una observación
futura
Sea x0 = (1, x01 , x02 , . . . , x0,p−1 )0 un vector donde se quiere hacer
una predicción.

La estimación puntual es:

yb0 = x00 βb

Bajo el supuesto de normalidad, tenemos que:

yb0 ∼ N x00 β, σ 2 (1 + x00 Cx0 ) ,


 

Entonces, el intervalo de conanza del 100(1 − α) % para y0 (y|x0 )


es:
q q
yb0 −t1− α2 ,n−p σb2 (1 + x00 Cx0 ) ≤ y0 ≤ yb0 +t1− α2 ,n−p σb2 (1 + x00 Cx0 ).
Peso al nacer

Predicción en el punto x0 = (1, 36, 50)0

La estimación puntual es x00 βb = 2.621 y tenemos que


x00 (X 0 X)x0 = 0.0714

el intervalo de conanza del 100(1 − α) % para E(y|x0 ) es:


p p
2.621−2.022 0.19(0.0714) ≤ E(y|x0 ) ≤ 2.621+2.022 0.19(0.0714).

2.386 ≤ E(y|x0 ) ≤ 2.857.


Peso al nacer

Predicción en el punto x0 = (1, 36, 50)0

La estimación puntual es x00 βb = 2.621 y tenemos que


x00 (X 0 X)x0 = 0.0714

el intervalo de predicción del 100(1 − α) % para y0 es:


p p
2.621 − 2.022 0.19(1.0714) ≤ y0 ≤ 2.621 + 2.022 0.19(1.0714).

1.710 ≤ y0 ≤ 3.534.
Extrapolación oculta
Al pronosticar una nueva respuesta en un punto dado x0 se debe
tener cuidado de no extrapolar fuera de la región de los datos
originales.
Peso al nacer
Predicción en los puntos:
Covariable 1 2 3 4
gestation 32 36 38 46
mppwt 75 50 60 55
Peso de la madre pre−embarazo (kg)

80
70
60
50

30 35 40 45
Extrapolación oculta
Se dene el conjunto convexo mínimo que contiene todos los n datos
originales (xi1 , xi2 , . . . , xi,p−1 ), i = 1, 2, . . . , n como la envolvente de
las covariables (RV H ).

Si un punto x01 , x02 , . . . , . . . , x0,p−1 está dentro o en la frontera de la


RVH, una prediccón o una estimación implica interpolación, mientras
que si está fuera de la RVH, se está extrapolando.
Extrapolación oculta
Se dene el conjunto convexo mínimo que contiene todos los n datos
originales (xi1 , xi2 , . . . , xi,p−1 ), i = 1, 2, . . . , n como la envolvente de
las covariables (RV H ).

Si un punto x01 , x02 , . . . , . . . , x0,p−1 está dentro o en la frontera de la


RVH, una prediccón o una estimación implica interpolación, mientras
que si está fuera de la RVH, se está extrapolando.

Una aproximación es a través de la matriz H . El conjunto de puntos


x que satisfacen, x0 (X 0 X)−1 x ≤ máx(hii ), es un elipsoide que
encierra todos los puntos dentro de la RV H .

Entonces, un punto de predicción x0 está fuera de la RVH si h00 >


máx hii , donde:

h00 = x00 (X 0 X)−1 x0 .


Peso al nacer
Predicción en los puntos:
Covariable 1 2 3 4
gestation 32 36 38 46
mppwt 75 50 60 55
h00 0.465 0.071 0.036 0.208
El máximo valor de la diagonal de H es máx(hii ) = 0.228.
Peso de la madre pre−embarazo (kg)

80
70
60
50

30 35 40 45

Edad gestacional (semanas)


Coecientes normalizados de regresión

Dado que las unidades de medida de las covariables son generalmente


diferentes, la comparación de los coecientes es complicada.

En el ejemplo, tenemos que:

Birthweighti = β0 +β1 Gestationi +β2 mppwti +εi , para i = 1, . . . , 42,

Gestationi se mide en semanas y mppwti en kilogramos.

Por lo general, la unidad de medida de βj es:


la unidad de medida de y
la unidad de medida de xj
Coecientes normalizados de regresión

Una opción es hacer un escalamiento normal unitario a las


covariables:
xij − x̄
zij = , i = 1, 2, . . . , n j = 1, 2, . . . , p − 1,
sj

y la variable respuesta:
yi − ȳ
yi∗ = ,
sy

donde:
Pn Pn
− x̄)2
i=1 (xij − ȳ)2
i=1 (yi
s2j = and s2y = .
n−1 n−1
Coecientes normalizados de regresión

Con estas variables, se puede ajustar el modelo:

yi∗ = b1 zi1 + b2 zi2 + . . . + bp−1 zi,p−1 ,

El estimador por MCO:

b = (Z 0 Z)Z 0 y ∗ .
b
Coecientes normalizados de regresión

Otra opción es hacer un escalamiento de longitud unitaria a las


covariables:
xij − x̄
wij = 1/2
, i = 1, 2, . . . , n j = 1, 2, . . . , p − 1,
Sjj

y la variable respuesta:
yi − ȳ
yi0 = p ,
SST

donde: n
X
SSjj = (xij − x̄)2 .
i=1
Coecientes normalizados de regresión

Con estas variables, se puede ajustar el modelo:

yi0 = b1 wi1 + b2 wi2 + . . . + bk wi,p−1 ,

El estimador por MCO:

b = (W 0 W )W 0 y 0 .
b

El elemento (i, j) de la matrix (W 0 W ) es la correlación de xi y xj .


El elemento j del vector W 0 y 0 es la correlación entre y y xj .
Coecientes normalizados de regresión

Los coecientes b b son llamados coecientes de regresión


estandarizados. Se puede probar que:
 1/2
SST
βbj = bbj , j = 1, 2, . . . , p − 1,
Sjj
y
p−1
X
βb0 = ȳ − βbj x̄j .
j=1
Recordemos que...

El determinante de una matriz cuadrada A y se denota como |A|.


Por ejemplo, para una matriz (2 × 2) el determinante está denido
como:
 
a a
A = 11 12 |A| = a11 a22 − a12 a21
a21 a22
Para matrices de orden superior del determinante de obtiene a partir
de combinaciones lineales de sub-matrices de orden 2 × 2.

Si |A| = 0, la matriz A es singular. |A| 6= 0 la matriz es de rango


completo.
Multicolinealidad

Se considera una variable aleatoria Y que puede ser modelada como:

yi = β0 + β1 x1i + ... + βp xi,p−1 + εi

La estimación de los coecientes por MCO:

β̂ = (X 0 X)−1 X 0 Y
Por lo tanto es necesario que la matriz X 0 X sea no
singular. En caso contrario, no es posible encontrar la inversa
y las ecuaciones normales no tendrán una única solución. Cuando
sucede esto se debe a que hay al menos una columna de X
linealmente dependiente.
Multicolinealidad

En regresión se utiliza las palabras multicolinealidad cuando hay una


dependencia aproximada en las columnas de X o en otras palabras,
cuando las variables explicativas del modelo están altamente
correlacionadas entre sí.

Colinealidad aproximada:

P
c0 − j6=k xj cj
xk ≈
ck
Multicolinealidad

En regresión se utiliza las palabras multicolinealidad cuando hay una


dependencia aproximada en las columnas de X o en otras palabras,
cuando las variables explicativas del modelo están altamente
correlacionadas entre sí.

Colinealidad aproximada:

P
c0 − j6=k xj cj
xk ≈
ck
La falta de ortogonalidad no es necesariamente un inconveniente,
el problema es cuando la relación lineal entre los regresores es casi
perfecta, lo que provoca problemas en las inferencias que se hagan.
Ejemplo

Considere el modelo:

y = X1 β + ε y y = X2 β + ε

con ε ∼ N (0, σ 2 I). Donde:


   
1 1 1 1
1 5 1 2
X1 =   y X2 =  
2 1 2 4
2 5 2 5
Ejemplo

Calculando el estimador de los coecientes de regresión


estandarizados, tenemos que:
 −1  
2 0 −1 2 1 0 2 1 0
V (b1 ) = σ0 (W1 W1 ) = σ0
b = σ0
0 1 0 1
y
 −1  
1 0.95 10 9.49
b2 ) = σ02 (W20 W2 )−1 = σ02
V (b = σ02
0.95 1 9.49 10
Multicolinealidad

La diagonal de la matriz (X 0 X)−1 son llamados los factores de


inación de la varianza (VIF) y es una medida importante para la
detección de multicolinealidad.

Se puede demostrar que el VIF de βj se puede calcular como:


1
VIFj =
1 − Rj2

donde Rj2 es el coeciente de determinación obtenido ajustado una


regresión de xj sobre las demás covariables.

Generalmente, un VIF mayor de 10 indica problemas graves de


multicolinealidad.
Multicolinealidad

Los modelos estimados por MCO cuando hay multicolinealidad


proporcionan malas predicciones y son muy sensibles a los datos en
la muestra.
Ejercicio

Considere de nuevo los datos de los precios de venta de las casas.


data(table.b4) de la librería MPV.
• Ahora considere un modelo para el precio de venta de la casa
con las siguientes covariables: X3, X4, X6 y X8. ¾la inclusión
estas covariables mejora el ajuste? ¾por qué?
• Interprete los coecientes estimados, ¾estas covariables tienen
un aporte signicativo dentro del modelo?
• Elimine las covariable que considere innecesarias y compare
con el modelo completo usando una prueba de hipótesis.
• A partir del modelo, ¾cuál es el precio medio de venta de las
casas con las siguientes características: X3=8, X4=1.5, X6=6 y
X6=40?

También podría gustarte