Modelo de Regresion Multiple

Modelo de regresión múltiple
Alvaro José Flórez

1 Escuelade Estadística
Facultad de Ingeniería
Noviembre 2021 - marzo 2022

1 Caso de estudio
2 Regresión lineal múltiple

Estimación de parámetros
3 Pruebas de hipótesis
ANOVA
Pruebas sobre coecientes individuales de regresión
Pruebas de hipótesis general lineal
4 Intervalos de conanza en regresión múltiple

Intervalos de conanza para los coecientes
Intervalo de conanza para la respuesta media
Intervalo de predicción para una observación futura
5 Coecientes normalizados de regresión
6 Multicolinealidad
Peso al nacer
Los datos Birthweight.csv (campus virtual) contiene información

de 42 recién nacidos y 11 variables. Por ahora estamos interesados
en la relación entre el peso del recién nacido (en kg, Birthweight)
y la edad gestacional del bebé al nacer (en semanas, Gestation).
El objetivo es predecir el peso al nacer en función de la edad

gestacional, por lo cual se postula el siguiente modelo:
Birthweighti = β0 + β1 Gestationi + εi , para i = 1, . . . , 42,
con εi ∼ N 0, σ 2 y cov(εj , εk ) = 0, para todo j 6= k.

Peso al nacer
Ahora consideremos 2 covariables: la edad gestacional del bebé al

nacer (en semanas, Gestation) y el peso de la madre antes del
embarazo (en kgs, mppwt).
Entonces, el modelo es:
Birthweighti = β0 +β1 Gestationi +β2 mppwti +εi , para i = 1, . . . , 42,

Peso al nacer
34 38 42
4.0
Birthweight
3.0
2.0
42
Gestation
38
34
75
65
mppwt
55
45
2.0 3.0 4.0 45 55 65 75
Modelo de regresión lineal múltiple
En general, se puede relacionar la variable respuesta (y ), con p − 1

covariables o variables predictoras. El modelo:
yi = β0 + β1 xi1 + β2 xi2 + . . . + βi,p−1 xi,p−1 + εi , i = 1, . . . , n,
con xi = (1, xi1 , xi2 , . . . , xi,p−1 )0 .
Supuestos: εi ∼ N 0, σ 2 y cov(εj , εk ) = 0, para todo j 6= k.

Este modelo el nombre de modelo de regresión lineal múltiple. Los

parámetros βj , j = 0, . . . , p − 1, se llaman coecientes de regresión.
Consideremos dos puntos:
• xi,j = (1, xi1 , xi2 , . . . , xij , . . . , xi,p−1 )0
• xi,j+1 = (1, xi1 , xi2 , . . . , (xij + 1), . . . , xi,p−1 )0
Entonces tenemos que:
E(Y |xi,j ) = β0 + β1 xi1 + β2 xi2 + . . . + βj xij + . . . + βp−1 xi,p−1
E(Y |xi,j+1 ) = β0 +β1 xi1 +β2 xi2 +. . .+βj (xij +1)+. . .+βp−1 xi,p−1
Por lo tanto E(Y |xi,j+1 ) − E(Y |xi,j ) = βj .
βj representa el cambio esperado en la respuesta y por cambio

unitario en xj cuando todas las demás covariables xi (i 6= j)
se mantiene constantes.
Modelos con estructuras más complejas pueden analizarse con

técnicas de regresión lineal múltiple. Por ejemplo:
Modelo polinómico:
yi = β0 + β1 xi + β2 x2i + . . . + βp−1 xp−1

i + εi
Modelo de interacción:
yi = β0 + β1 xi1 + β2 xi2 + β3 xi1 xi2 + εi
Todo modelo de regresión que es lineal en los parámetros (β ) es un

modelo de regresión lineal, independientemente de la supercie que
genera.
Modelo:
yi =β0 + β1 xi1 + β2 xi2 + . . . + βi,p−1 xi,p−1 + εi

p−1
X
=β0 + βij xij + εi , i = 1, . . . , n,
j=1
con εi ∼ N 0, σ 2 y cov(εj , εk ) = 0, para todo j 6= k

Datos:
observación respuesta covariables

i Y X1 X2 ... Xp−1
1 y1 x11 x12 ... x1,p−1
2 y2 x21 x22 ... x2,p−1
.. .. .. .. .. ..
. . . . . .
n y1 xn1 xn2 ... xn,p−1
Estimación por mínimos cuadrados
La función de mínimos cuadrados:

n
X
S(β) = e2i
i=1
 2
n
X p−1
X
= yi − β0 − βj xij 
i=1 j=1
Debemos minimizar la función S(β) con respecto a β0 , β1 , . . . , βp−1 .

El estimador de mínimos cuadrados satisface:

 
n p−1
∂S X X
= −2 yi − βb0 − βbj xij  = 0
∂β0 βb0 ,βb1 ,...,βbp−1
i=1 j=1
y
 
n p−1
∂S X X
= −2 yi − βb0 − βbj xij  xij = 0,
∂βj βb0 ,βb1 ,...,βbp−1
i=1 j=1
para j = 1, . . . , p − 1.
Ecuaciones normales de mínimos cuadrados:

n
X n
X n
X n
X
nβb0 + βb1 xi1 + βb2 xi2 + . . . + βbp−1 xi,p−1 = yi
i=1 i=1 i=1 i=1
n
X n
X n
X n
X Xn
βb0 xi1 + βb1 x2i1 + βb2 xi1 xi2 + . . . + βbk xi1 xi,p−1 = xi1 yi
i=1 i=1 i=1 i=1 i=1
..
.
n
X n
X n
X n
X n
X
βb0 xi,p−1 + βb1 xi1 xi,p−1 + βb2 xi2 xi,p−1 + . . . + βbp−1 xi1 x2i,p−1 = xik yi
i=1 i=1 i=1 i=1 i=1
Notación matricial:
y = Xβ + ε
donde:
 
    β0  
y1 1 x11 x12 . . . x1,p−1  β1  ε1
 y2  1 x21 x22 . . . x2,p−1     ε2 
 β2 
y =  .  ,X =  . .. .. . . ..  , β =   , ε =  ..  .
     
 ..   .. . . . .   ..  .
 . 
yn 1 xn1 xn2 . . . xn,p−1 εn
βp−1
Supuesto: ε ∼ N 0, σ 2 I .

Notación matricial:
y = Xβ + ε
donde:
 
    β0  
y1 1 x11 x12 . . . x1,p−1  β1  ε1
 y2  1 x21 x22 . . . x2,p−1     ε2 
 β2 
y =  .  ,X =  . .. .. . . ..  , β =   , ε =  ..  .
     
 ..   .. . . . .   ..  .
 . 
yn 1 xn1 xn2 . . . xn,p−1 εn
βp−1
Supuesto: ε ∼ N 0, σ 2 I .

Por lo tanto, debemos encontrar βb que minimice:

n
X
S(β) = e2i = e0 e = (y − Xβ)0 (y − Xβ).
i=1
Debemos minimizar:
n
X
S(β) = e2i = e0 e = (y − Xβ)0 (y − Xβ).
i=1
=y y − β 0 X 0 y − y 0 Xβ + β 0 X 0 Xβ
0
=y 0 y − 2β 0 X 0 y + β 0 X 0 Xβ.
Debemos minimizar:
n
X
S(β) = e2i = e0 e = (y − Xβ)0 (y − Xβ).
i=1
=y y − β 0 X 0 y − y 0 Xβ + β 0 X 0 Xβ
0
=y 0 y − 2β 0 X 0 y + β 0 X 0 Xβ.
Por lo tanto, βb debe satisfacer:

∂S
= −2X 0 y + 2X 0 X βb = 0.
∂β βb
X 0 X βb = X 0 y.
En mas detalle,
Pn Pn
. . . P ni=1 xi,p−1
 P   b   Pn 
n i=1 xi1 i=1 xi2 β0 i=1 yi
P n P n 2
P n n P n
i=1 xi1 i=1 xi1 i=1 xi1 xi2 ... i=1 xi1 xi,p−1   β1  i=1 xi1 yi 
  b   
.. .. .. .. ..  .  =  ..
 
. . . . .   ..   .
 
 
Pn Pn Pn Pn 2 Pn
i=1 xi,p−1 i=1 xi1 xi,p−1 i=1 xi2 xi,p−1 . . . i=1 xi,p−1 βbp−1 i=1 xi,p−1 yi
X 0 X βb = X 0 y.
En mas detalle,
Pn Pn
. . . P ni=1 xi,p−1
 P   b   Pn 
n i=1 xi1 i=1 xi2 β0 i=1 yi
P n P n 2
P n n P n
i=1 xi1 i=1 xi1 i=1 xi1 xi2 ... i=1 xi1 xi,p−1   β1  i=1 xi1 yi 
  b   
.. .. .. .. ..  .  =  ..
 
. . . . .   ..   .
 
 
Pn Pn Pn Pn 2 Pn
i=1 xi,p−1 i=1 xi1 xi,p−1 i=1 xi2 xi,p−1 . . . i=1 xi,p−1 βbp−1 i=1 xi,p−1 yi
Por lo cual, el estimador por mínimos cuadrados es:
βb = (X 0 X)−1 X 0 y.
Es necesario que X sea de rango completo (es decir que no haya

dependencia lineal entre las covariables).
Por lo tanto la estimación puntual de y es:
yb =X βb
=X(X 0 X)−1 X 0 y = Hy.
La matriz H = X(X 0 X)−1 X 0 es llamada matriz hat. Esta matriz

desempeña un papel importante en el análisis de regresión. H es
simétrica e idempotente.
Peso al nacer
Ahora consideremos 2 covariables: la edad gestacional del bebé al

nacer (en semanas, Gestation) y el peso de la madre antes del
embarazo (en kgs, mppwt).
Entonces, el modelo es:
Birthweighti = β0 +β1 Gestationi +β2 mppwt+εi , para i = 1, . . . , 42,

Peso al nacer
Ecuaciones normales:
  b   
42.00 1646.00 2397.69 β0 135.95
βb1  = 5378.18
1646.00 64794.00 94162.15   
2397.69 94162.15 139006.14 βb2 7818.15
Resolviendo para βb:

   −1  
βb0 42.00 1646.00 2397.69 135.95
β1  = 1646.00 64794.00 94162.15  5378.18
b  
βb2 2397.69 94162.15 139006.14 7818.15
Finalmente, βb = (−3.978, 0.167, 0.011)0

Propiedades de los mínimos cuadrados
Valor esperado de βb:

b =E (X 0 X)−1 X 0 y = E X 0 X)−1 X 0 (Xβ + ε)

E(β)
=E (X 0 X)−1 X 0 Xβ + (X 0 X)−1 X 0 ε = β

Por lo tanto, βb es un estimador insesgado de β

Propiedades de los mínimos cuadrados
Matriz de covarianza de βb:
Var(β)
b =V (X 0 X)−1 X 0 y

0
=(X 0 X)−1 X 0 Var(y) (X 0 X)−1 X 0

=σ 2 (X 0 X)−1 X 0 X(X 0 X)−1 = σ 2 (X 0 X)−1
Si C = (X 0 X)−1 , tenemos que

• Var(βbj ) = σ 2 cjj
• Cov(βbi , βbj ) = σ 2 cij
Teorema Gauss-Markov
El estimador de mínimos cuadrados ordinarios (MCO) de β ,
βb = (X 0 X)−1 X 0 y,
con varianza,
Var(β)
b = σ 2 (X 0 X)−1 ,
es el mejor estimador lineal insesgado (BLUE). (ver apéndice C.4.

del texto guía).
Esto quiere decir que es el estimador con menor varianza entre la

clase de estimador insesgados que son combinaciones lineales de y .
Estimador de σ 2
El estimador de σ 2 está basado en la suma de cuadrados de los

residuos:
n
X n
X
SSres = (yi − yb)2 = e0 e = (y − ybi )0 (y − ybi )
i=1 i=1
= (y − Hy)0 (y − Hy)
=y 0 (I − H)0 (I − H) y
=y 0 (I − H) y.
¾Cuál es el valor esperado de SSres ?

Recordemos que ...
Theorem (Valor esperado de una forma cuadrática)

Sea x un vector de dimensión n de variables aleatorias, y sea A una
matriz simétrica (n × n). Si E(x) = µ y Var(x) = Σ, entonces:
E(x0 Ax) = tr(AΣ) + µ0 Aµ.

Recordemos que ...
Theorem (Valor esperado de una forma cuadrática)

Sea x un vector de dimensión n de variables aleatorias, y sea A una
matriz simétrica (n × n). Si E(x) = µ y Var(x) = Σ, entonces:
E(x0 Ax) = tr(AΣ) + µ0 Aµ.
En nuestro caso...
Sabemos que E(y) = Xβ y Var(y) = σ 2 I , entonces:
E y 0 (I − H)y = σ 2 tr (I − H) + β 0 X 0 (I − H)Xβ

Estimador de σ 2
E y 0 (I − H)y =σ 2 tr (I − H) + β 0 X 0 (I − H)Xβ

=(n − p)σ 2
Estimador de σ 2
E y 0 (I − H)y =σ 2 tr (I − H) + β 0 X 0 (I − H)Xβ

=(n − p)σ 2
Por lo tanto un estimator insesgado de σ 2 es:

SSres
b2 = M Sres =
σ ,
n−p
La suma de cuadrados de los residuos también se puede expresar

como:
SSres = y 0 y − βb0 X 0 y.
Peso al nacer
Tenemos que y 0 y = 456.521 y :


135.95
βb0 X 0 y = −3.978 0.167 0.011 5378.18 = 449.12

7818.15
Entonces, SSres = 456.521 − 449.12 = 7.401.
Por lo tanto, σ
b2 = 7.401
42−3 = 0.19.
Pruebas de hipótesis
Después de estimar el modelo podemos preguntarnos:

• ¾el modelo hace un buen ajuste de los datos?
• ¾cuales regresores especícos parecen importantes?
Las pruebas de hipótesis requiere que ε ∼ N (0, σ 2 I).

ANOVA
Prueba general de ajuste del modelo:
H0 : β1 = β2 = . . . = βp−1 = 0
H1 : βj 6= 0, al menos para una j
ANOVA
Prueba general de ajuste del modelo:
H0 : β1 = β2 = . . . = βp−1 = 0
H1 : βj 6= 0, al menos para una j
Rechazar H0 implica que al menos una covariable (x1 , x2 , . . . , xp−1 )

tiene un aporte signicativo al modelo.
Recordemos que en regresión simple...
¾Qué tanto de la variabilidad de los datos es explicada por el
modelo de regresión?
yi − ȳ = (yi − ybi ) + (b
yi − ȳ).
ANOVA
Igual que en modelo lineal simple, descomponemos la varianza total:
SST = SSreg + SSres .

donde:
n
X 1 0 0 1
SSreg = yi − ȳ)2 = (Hy −
(b 1 y) (Hy − 10 y),
n n
i=1
n
X
SSres = (yi − ybi )2 = (y − Hy)0 (y − Hy),
i=1
y
n
X 1 1
SST = (yi − ȳ)2 = (y − 10 y)0 (y − 10 y)
n n
i=1
ANOVA
Si H0 es cierta, tenemos que:
SSreg
• σ2
∼ χ2 . k
SSres
• σ2
∼ χn−p .
2 (ver apéndices C.2.4 y C.3 del libro guía)
ANOVA
SSreg
• σ2
∼ χ2 . k
SSres
• σ2
∼ χn−p .
2 (ver apéndices C.2.4 y C.3 del libro guía)
Recordemos que...
Si y ∼ N (µ, σ 2 I) y A es una matriz simétrica e idempotente con

rango p, entonces y 0 Ay se distribuye χ2 no-central con p g.l. y
λ = µ0 Aµ/σ 2 .
Si V ∼ χν , W ∼ χη , además V y W son independientes, entonces:
V /ν
∼ Fν,η .
W/η
ANOVA

SSreg
• σ2
∼ χ2 . p−1
SSres
• σ2
∼ χ2n−p .
Por lo tanto:
SSreg /(p − 1) M Sreg
F0 = = ∼ Fp−1,n−p .
SSres /(n − p) M Sres
Tengamos en cuenta que:

• E(SSres ) = σ 2 ,
β 0 Xc0 Xc β
• E(SSreg ) = σ 2 + σ2
,
donde Xc es la matriz de X centrada (la columna j de Xc es xj −x̄j )
ANOVA
Si H0 no es cierta, tenemos que:
F0 sigue una distribución F no-central con p − 1 y n − p grados de

libertad y parámetro de no centralidad:
β 0 Xc0 Xc β
λ=
σ2
Esto indica que el valor F0 es grande si al menos un βj es diferente
de cero.
ANOVA
Fuente de var. sum. cuadr. g.l cuadr. med. F0

SSreg M Sreg
Regresión SSreg = βb0 X 0 y − n1 y 0 J y M Sreg =

p−1 k M Sres
SSres
Residuos SSres = y 0 y − βX
b 0y n−p M Sres = n−k−1
Total SST = y 0 y − n1 y 0 J y

n−1
donde J es una matriz con todas sus entradas iguales a 1.

ANOVA
Coeciente de determinación:
SSres
R2 = 1 −
SST
Coeciente de determinación ajustado:
2 SSres /(n − p)
Radj =1−
SST /(n − 1)
R2 solo aumenta si la variable agregada en el modelo reduce el

adj
M Sres .
Peso al nacer
Tabla ANOVA:
Fuente de var. sum. cuadr. g.l cuadr. med. F0 valor-p
Regresión 9.058 2 4.529 23.87 0.000
Residuos 7.401 39 0.19
Total 16.459 41
R2 = 0.55 y Radj
2 = 0.527.
Recordemos que en el modelo con la covariable peso tenemos que

R2 = 0.535 y Radj
2 = 0.523.
Pruebas de hipótesis individuales
Hipótesis a probar:
H0 :βj = 0
H1 :βj 6= 0
Pruebas de hipótesis individuales
Hipótesis a probar:
H0 :βj = 0
H1 :βj 6= 0
Estadístico de prueba:
βbj
t0 = p ,
σb2 cjj
donde cjj es la entrada (j, j) de la matriz (X 0 X)−1 .
Rechazamos H0 si |t0 | > tα/2,n−p .

Peso al nacer
efecto parm. est. error stdr. valor-t valor-p

(Intercept) β0 -3.9775 1.0533 -3.78 0.0005
Gestation β1 0.1675 0.0266 6.30 0.0000
mppwt β2 0.0114 0.0098 1.17 0.2490
Suma extra de cuadrados
Consideremos el modelo con k covariables:
y = Xβ + ε,
y dividamos β :
β1
β= .
β2
donde β1 es un vector (p − r) × 1 y β2 es un vector r × 1.
Queremos probar:
H0 :β2 = 0
H1 :β2 6= 0
Modelo completo modelo reducido
y = X1 β1 + X2 β2 + ε y = X1 β1 + ε
Modelo completo modelo reducido
y = X1 β1 + X2 β2 + ε y = X1 β1 + ε
Para el modelo completo tenemos que βb = (X 0 X)−1 X 0 y ,
y 0 y − βb0 X 0 y

1
b0 0
SSreg (β) = β X y − y 0 J y y M Sres =
n n−p
Para el modelo reducido tenemos que βb1 = (X10 X1 )−1 X10 y ,

1
SSreg (β1 ) = βb10 X10 y − y0J y
n
La suma de cuadrados de la regresión debida a β2 dado que β1 ya

está en el modelo es,
SSreg (β2 |β1 ) = SSreg (β) − SSreg (β1 )

Esta suma de cuadrados se llama suma extra de cuadrados debida a
β2 .
Por lo tanto podemos probar H0 : β2 = 0 usando:

SSreg (β2 |β1 )/r
F0 = .
M Sres
Si H0 es cierta (β2 = 0), F0 ∼ Fr,n−p .
Si H0 no es cierta (β2 6= 0), F0 sigue una distribución F no central

con:
1 0 0
β2 X2 I − X1 (X10 X1 )−1 X10 X2 β2 .

λ= 2
σ
Si H0 es cierta (β2 = 0), F0 ∼ Fr,n−p .
Si H0 no es cierta (β2 6= 0), F0 sigue una distribución F no central

con:
1 0 0
β2 X2 I − X1 (X10 X1 )−1 X10 X2 β2 .

λ= 2
σ
Por lo tanto, si F0 > Fα,r,n−p se rechaza H0 . Es decir, algún
componente de β2 es diferente de cero.
Peso al nacer
Consideremos el siguiente modelo:
Birthweighti =β0 + β1 Gestationi + β2 mppwt + β3 Gestation2i +

β4 mppwt2i + β5 Gestationi ppwti + εi ,

Queremos probar: H0 : β2 = (β3 , β4 , β5 )0 = 0

Peso al nacer
Tenemos que: β = (β0 , β1 , β2 , β3 , β4 , β5 )0

• β1 = (β0 , β1 , β2 )0
• β2 = (β3 , β4 , β5 )0
Peso al nacer
Tenemos que: β = (β0 , β1 , β2 , β3 , β4 , β5 )0

• β1 = (β0 , β1 , β2 )0
• β2 = (β3 , β4 , β5 )0
Entonces,
• SSreg (β2 |β1 ) = SSreg (β)−SSreg (β1 ) = 9.299−9.058 = 0.24
• SSres (β) = 7.1607
Por lo tanto,
SSreg (β2 |β1 )/(3) 0.08
F0 = = = 0.403.
SSres (β)/(42 − 6) 0.199
El valor-p es 0.752, por lo tanto no se rechaza H0 .

Prueba de hipótesis general lineal
Consideremos el modelo completo:
y = Xβ + ε.
Consideremos el modelo completo:
y = Xβ + ε.
Prueba de hipótesis:
H0 : T β = 0,
donde T es una matriz (m × p), tal que r de las m ecuaciones de

T β son independientes.
Ejemplo
Modelo completo:
y = β0 + β1 x1 + β2 x2 + β3 x3 + ε.
Queremos probar H0 : β1 − β3 = 0. Entonces:

 
β0
β1 
H0 : T β = 0 1 0 −1 β2  = β1 − β3 = 0

β3
Modelo reducido:
y =β0 + β1 x1 + β2 x2 + β1 x3 + ε
=β0 + β1 (x1 + x3 ) + β2 x2 + ε
=γ0 + γ1 (x1 + x3 ) + γ2 x2 + ε
Ejemplo
Modelo completo:
y = β0 + β1 x1 + β2 x2 + β3 x3 + ε.
Queremos probar H0 : β1 − β3 = 0, β2 = 0. Entonces:
 
β0
0 1 0 −1 β1  β1 − β3 0
H0 : T β =   = =
0 0 1 0 β2  β2 0
β3
Modelo reducido:
y =β0 + β1 x1 + (0)x2 + β1 x3 + ε
=β0 + β1 (x1 + x3 ) + ε
=γ0 + γ1 (x1 + x3 ) + ε
Para el modelo completo tenemos que βb = (X 0 X)−1 X 0 y y
SSres (FM) = y 0 y − βb0 X 0 y.
El modelo reducido se obtiene a partir de las r ecuaciones de T β ,
y = Zγ + ε,
donde Z es una matriz n × (p − r) y γ es un vector (p − r) × 1.
Tenemos que γ
b = (Z 0 Z)−1 Z 0 y y
SSres (RM) = y 0 y − γ
b 0 Z 0 y.
Para probar H0 : T β = 0 se utiliza la diferencia de sumas de

cuadrados de los residuos:
SSH = SSres (RM ) − SSres (F M ),
y el estadístico de prueba es:

SSH /r
F0 = .
SSres (F M )/(n − p)
−1
βb0 T 0 T (X 0 X)−1 T 0

T β/r
b
=
Se rechaza H0 si F0 > Fα,r,n−p .

Una pequeña generalización:
H0 :T β = c
H1 :T β 6= c
Estadístico de prueba es:

−1
(T βb − c)0 T (X 0 X)−1 T 0

(T βb − c)/r
F0 =
Se rechaza H0 si F0 > Fα,r,n−p .

Intervalos de conanza para los coecientes
Recordemos que :
βb ∼ N β, σ 2 C , donde C = (X 0 X)−1

Por lo tanto, el estadístico:
βbj − βj
p ∼ tn−p , para j = 0, . . . , p − 1.
b2 cjj
σ
Entonces, el intervalo de conanza del 100(1 − α) % para βj es:

q q
βbj − t(1−α/2),n−p σb2 cjj ≤ βj ≤ βbj + t(1−α/2),n−p σb2 cjj .
Peso al nacer
I.C. 95 %
efecto parm. est lim. inf. lim. sup.
intercepto β0 -3.977 -6.108 -1.846
gestation β1 0.167 0.113 0.221
mppwt β2 0.011 -0.008 0.0311
Intervalo de conanza para la respuesta
media
Sea x0 = (1, x01 , x02 , . . . , x0,p−1 )0 un vector donde se quiere hacer
una predicción.
La estimación puntual es:
yb0 = x00 βb
Bajo el supuesto de normalidad, tenemos que:
yb0 ∼ N x00 β, σ 2 x00 Cx0 ,

Entonces, el intervalo de conanza del 100(1 − α) % para E(y|x0 )

es:
q q
yb0 −t(1−α/2),n−p σb2 x00 Cx0 ≤ E(y|x0 ) ≤ yb0 +t(1−α/2),n−p σb2 x00 Cx0 .
Intervalo de conanza para una observación
futura
Sea x0 = (1, x01 , x02 , . . . , x0,p−1 )0 un vector donde se quiere hacer
una predicción.
La estimación puntual es:
yb0 = x00 βb
Bajo el supuesto de normalidad, tenemos que:
yb0 ∼ N x00 β, σ 2 (1 + x00 Cx0 ) ,

Entonces, el intervalo de conanza del 100(1 − α) % para y0 (y|x0 )

es:
q q
yb0 −t1− α2 ,n−p σb2 (1 + x00 Cx0 ) ≤ y0 ≤ yb0 +t1− α2 ,n−p σb2 (1 + x00 Cx0 ).
Peso al nacer
Predicción en el punto x0 = (1, 36, 50)0
La estimación puntual es x00 βb = 2.621 y tenemos que

x00 (X 0 X)x0 = 0.0714
el intervalo de conanza del 100(1 − α) % para E(y|x0 ) es:

p p
2.621−2.022 0.19(0.0714) ≤ E(y|x0 ) ≤ 2.621+2.022 0.19(0.0714).
2.386 ≤ E(y|x0 ) ≤ 2.857.

Peso al nacer
Predicción en el punto x0 = (1, 36, 50)0
La estimación puntual es x00 βb = 2.621 y tenemos que

x00 (X 0 X)x0 = 0.0714
el intervalo de predicción del 100(1 − α) % para y0 es:

p p
2.621 − 2.022 0.19(1.0714) ≤ y0 ≤ 2.621 + 2.022 0.19(1.0714).
1.710 ≤ y0 ≤ 3.534.
Extrapolación oculta
Al pronosticar una nueva respuesta en un punto dado x0 se debe
tener cuidado de no extrapolar fuera de la región de los datos
originales.
Peso al nacer
Predicción en los puntos:
Covariable 1 2 3 4
gestation 32 36 38 46
mppwt 75 50 60 55
Peso de la madre pre−embarazo (kg)
80
70
60
50
30 35 40 45
Se dene el conjunto convexo mínimo que contiene todos los n datos
originales (xi1 , xi2 , . . . , xi,p−1 ), i = 1, 2, . . . , n como la envolvente de
las covariables (RV H ).
Si un punto x01 , x02 , . . . , . . . , x0,p−1 está dentro o en la frontera de la

RVH, una prediccón o una estimación implica interpolación, mientras
que si está fuera de la RVH, se está extrapolando.
Se dene el conjunto convexo mínimo que contiene todos los n datos
originales (xi1 , xi2 , . . . , xi,p−1 ), i = 1, 2, . . . , n como la envolvente de
las covariables (RV H ).
Si un punto x01 , x02 , . . . , . . . , x0,p−1 está dentro o en la frontera de la

RVH, una prediccón o una estimación implica interpolación, mientras
que si está fuera de la RVH, se está extrapolando.
Una aproximación es a través de la matriz H . El conjunto de puntos

x que satisfacen, x0 (X 0 X)−1 x ≤ máx(hii ), es un elipsoide que
encierra todos los puntos dentro de la RV H .
Entonces, un punto de predicción x0 está fuera de la RVH si h00 >

máx hii , donde:
h00 = x00 (X 0 X)−1 x0 .

Peso al nacer
Predicción en los puntos:
Covariable 1 2 3 4
gestation 32 36 38 46
mppwt 75 50 60 55
h00 0.465 0.071 0.036 0.208
El máximo valor de la diagonal de H es máx(hii ) = 0.228.
Peso de la madre pre−embarazo (kg)
80
70
60
50
30 35 40 45
Edad gestacional (semanas)

Coecientes normalizados de regresión
Dado que las unidades de medida de las covariables son generalmente

diferentes, la comparación de los coecientes es complicada.
En el ejemplo, tenemos que:
Birthweighti = β0 +β1 Gestationi +β2 mppwti +εi , para i = 1, . . . , 42,
Gestationi se mide en semanas y mppwti en kilogramos.
Por lo general, la unidad de medida de βj es:

la unidad de medida de y
la unidad de medida de xj
Una opción es hacer un escalamiento normal unitario a las

covariables:
xij − x̄
zij = , i = 1, 2, . . . , n j = 1, 2, . . . , p − 1,
sj
y la variable respuesta:
yi − ȳ
yi∗ = ,
sy
donde:
Pn Pn
− x̄)2
i=1 (xij − ȳ)2
i=1 (yi
s2j = and s2y = .
n−1 n−1
Con estas variables, se puede ajustar el modelo:
yi∗ = b1 zi1 + b2 zi2 + . . . + bp−1 zi,p−1 ,
El estimador por MCO:
b = (Z 0 Z)Z 0 y ∗ .
b
Otra opción es hacer un escalamiento de longitud unitaria a las

covariables:
xij − x̄
wij = 1/2
, i = 1, 2, . . . , n j = 1, 2, . . . , p − 1,
Sjj
y la variable respuesta:
yi − ȳ
yi0 = p ,
SST
donde: n
X
SSjj = (xij − x̄)2 .
i=1
Con estas variables, se puede ajustar el modelo:
yi0 = b1 wi1 + b2 wi2 + . . . + bk wi,p−1 ,
El estimador por MCO:
b = (W 0 W )W 0 y 0 .
b
El elemento (i, j) de la matrix (W 0 W ) es la correlación de xi y xj .

El elemento j del vector W 0 y 0 es la correlación entre y y xj .
Los coecientes b b son llamados coecientes de regresión

estandarizados. Se puede probar que:
1/2
SST
βbj = bbj , j = 1, 2, . . . , p − 1,
Sjj
y
p−1
X
βb0 = ȳ − βbj x̄j .
j=1
Recordemos que...
El determinante de una matriz cuadrada A y se denota como |A|.

Por ejemplo, para una matriz (2 × 2) el determinante está denido
como:

a a
A = 11 12 |A| = a11 a22 − a12 a21
a21 a22
Para matrices de orden superior del determinante de obtiene a partir
de combinaciones lineales de sub-matrices de orden 2 × 2.
Si |A| = 0, la matriz A es singular. |A| 6= 0 la matriz es de rango

completo.
Multicolinealidad
Se considera una variable aleatoria Y que puede ser modelada como:
yi = β0 + β1 x1i + ... + βp xi,p−1 + εi
La estimación de los coecientes por MCO:
β̂ = (X 0 X)−1 X 0 Y
Por lo tanto es necesario que la matriz X 0 X sea no
singular. En caso contrario, no es posible encontrar la inversa
y las ecuaciones normales no tendrán una única solución. Cuando
sucede esto se debe a que hay al menos una columna de X
linealmente dependiente.
Multicolinealidad
En regresión se utiliza las palabras multicolinealidad cuando hay una

dependencia aproximada en las columnas de X o en otras palabras,
cuando las variables explicativas del modelo están altamente
correlacionadas entre sí.
Colinealidad aproximada:
P
c0 − j6=k xj cj
xk ≈
ck
Multicolinealidad
En regresión se utiliza las palabras multicolinealidad cuando hay una

dependencia aproximada en las columnas de X o en otras palabras,
cuando las variables explicativas del modelo están altamente
correlacionadas entre sí.
Colinealidad aproximada:
P
c0 − j6=k xj cj
xk ≈
ck
La falta de ortogonalidad no es necesariamente un inconveniente,
el problema es cuando la relación lineal entre los regresores es casi
perfecta, lo que provoca problemas en las inferencias que se hagan.
Ejemplo
Considere el modelo:
y = X1 β + ε y y = X2 β + ε
con ε ∼ N (0, σ 2 I). Donde:

   
1 1 1 1
1 5 1 2
X1 =   y X2 =  
2 1 2 4
2 5 2 5
Ejemplo
Calculando el estimador de los coecientes de regresión

estandarizados, tenemos que:
−1
2 0 −1 2 1 0 2 1 0
V (b1 ) = σ0 (W1 W1 ) = σ0
b = σ0
0 1 0 1
y
−1
1 0.95 10 9.49
b2 ) = σ02 (W20 W2 )−1 = σ02
V (b = σ02
0.95 1 9.49 10
Multicolinealidad
La diagonal de la matriz (X 0 X)−1 son llamados los factores de

inación de la varianza (VIF) y es una medida importante para la
detección de multicolinealidad.
Se puede demostrar que el VIF de βj se puede calcular como:

1
VIFj =
1 − Rj2
donde Rj2 es el coeciente de determinación obtenido ajustado una

regresión de xj sobre las demás covariables.
Generalmente, un VIF mayor de 10 indica problemas graves de

multicolinealidad.
Multicolinealidad
Los modelos estimados por MCO cuando hay multicolinealidad

proporcionan malas predicciones y son muy sensibles a los datos en
la muestra.
Ejercicio
Considere de nuevo los datos de los precios de venta de las casas.

data(table.b4) de la librería MPV.
• Ahora considere un modelo para el precio de venta de la casa
con las siguientes covariables: X3, X4, X6 y X8. ¾la inclusión
estas covariables mejora el ajuste? ¾por qué?
• Interprete los coecientes estimados, ¾estas covariables tienen
un aporte signicativo dentro del modelo?
• Elimine las covariable que considere innecesarias y compare
con el modelo completo usando una prueba de hipótesis.
• A partir del modelo, ¾cuál es el precio medio de venta de las
casas con las siguientes características: X3=8, X4=1.5, X6=6 y
X6=40?

Modelo de Regresion Multiple

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Modelo de Regresion Multiple

Cargado por

Copyright:

Formatos disponibles

Modelo de regresión múltiple

Alvaro José Flórez

Noviembre 2021 - marzo 2022

2 Regresión lineal múltiple

4 Intervalos de conanza en regresión múltiple

5 Coecientes normalizados de regresión

Los datos Birthweight.csv (campus virtual) contiene información

El objetivo es predecir el peso al nacer en función de la edad

Birthweighti = β0 + β1 Gestationi + εi , para i = 1, . . . , 42,

con εi ∼ N 0, σ 2 y cov(εj , εk ) = 0, para todo j 6= k.

Ahora consideremos 2 covariables: la edad gestacional del bebé al

Entonces, el modelo es:

Birthweighti = β0 +β1 Gestationi +β2 mppwti +εi , para i = 1, . . . , 42,

con εi ∼ N 0, σ 2 y cov(εj , εk ) = 0, para todo j 6= k.

En general, se puede relacionar la variable respuesta (y ), con p − 1

yi = β0 + β1 xi1 + β2 xi2 + . . . + βi,p−1 xi,p−1 + εi , i = 1, . . . , n,

con xi = (1, xi1 , xi2 , . . . , xi,p−1 )0 .

Supuestos: εi ∼ N 0, σ 2 y cov(εj , εk ) = 0, para todo j 6= k.

Este modelo el nombre de modelo de regresión lineal múltiple. Los

Entonces tenemos que:

E(Y |xi,j ) = β0 + β1 xi1 + β2 xi2 + . . . + βj xij + . . . + βp−1 xi,p−1

βj representa el cambio esperado en la respuesta y por cambio

Modelos con estructuras más complejas pueden analizarse con

yi = β0 + β1 xi + β2 x2i + . . . + βp−1 xp−1

yi = β0 + β1 xi1 + β2 xi2 + β3 xi1 xi2 + εi

Todo modelo de regresión que es lineal en los parámetros (β ) es un

yi =β0 + β1 xi1 + β2 xi2 + . . . + βi,p−1 xi,p−1 + εi

con εi ∼ N 0, σ 2 y cov(εj , εk ) = 0, para todo j 6= k

observación respuesta covariables

La función de mínimos cuadrados:

Debemos minimizar la función S(β) con respecto a β0 , β1 , . . . , βp−1 .

El estimador de mínimos cuadrados satisface:

Ecuaciones normales de mínimos cuadrados:

Por lo tanto, debemos encontrar βb que minimice:

Por lo tanto, βb debe satisfacer:

Por lo cual, el estimador por mínimos cuadrados es:

Es necesario que X sea de rango completo (es decir que no haya

Por lo tanto la estimación puntual de y es:

La matriz H = X(X 0 X)−1 X 0 es llamada matriz hat. Esta matriz

Ahora consideremos 2 covariables: la edad gestacional del bebé al

Entonces, el modelo es:

Birthweighti = β0 +β1 Gestationi +β2 mppwt+εi , para i = 1, . . . , 42,

con εi ∼ N 0, σ 2 y cov(εj , εk ) = 0, para todo j 6= k.

Resolviendo para βb:

Finalmente, βb = (−3.978, 0.167, 0.011)0

Valor esperado de βb:

Por lo tanto, βb es un estimador insesgado de β

Matriz de covarianza de βb:

=σ 2 (X 0 X)−1 X 0 X(X 0 X)−1 = σ 2 (X 0 X)−1

Si C = (X 0 X)−1 , tenemos que

El estimador de mínimos cuadrados ordinarios (MCO) de β ,

es el mejor estimador lineal insesgado (BLUE). (ver apéndice C.4.

Esto quiere decir que es el estimador con menor varianza entre la

El estimador de σ 2 está basado en la suma de cuadrados de los

¾Cuál es el valor esperado de SSres ?

Theorem (Valor esperado de una forma cuadrática)

E(x0 Ax) = tr(AΣ) + µ0 Aµ.

Theorem (Valor esperado de una forma cuadrática)

E(x0 Ax) = tr(AΣ) + µ0 Aµ.

Sabemos que E(y) = Xβ y Var(y) = σ 2 I , entonces:

Sabemos que E(y) = Xβ y Var(y) = σ 2 I , entonces:

Sabemos que E(y) = Xβ y Var(y) = σ 2 I , entonces:

4 Intervalos de conanza en regresión múltiple

5 Coecientes normalizados de regresión

Coeciente de determinación ajustado:

Entonces, el intervalo de conanza del 100(1 − α) % para βj es:

Entonces, el intervalo de conanza del 100(1 − α) % para E(y|x0 )

Entonces, el intervalo de conanza del 100(1 − α) % para y0 (y|x0 )

el intervalo de conanza del 100(1 − α) % para E(y|x0 ) es: