Está en la página 1de 24

Regresión múltiple

Demostraciones

Elisa Mª Molanes López


El modelo de regresión múltiple
El modelo que se plantea en regresión múltiple es el siguiente:

yi = β0 + β1 x1i + β2 x2i + . . . + βk xki + ui

donde x1 , x2 , . . . , xk son las variables independientes o explicativas.


La variable respuesta depende de las variables explicativas y de una
componente de error que se distribuye según una normal: ui = N (0, σ 2 )

El ajuste del modelo se realiza por el método de máxima verosimilitud o el


método de mínimos cuadrados. En el caso de distribución normal de errores,
ambos métodos coinciden, como ya se vió en regresión simple.
El modelo de regresión múltiple
El valor que el modelo estimado predice para la observación i-ésima es:

ŷi = β̂0 + β̂1 x1i + β̂2 x2i + . . . + β̂k xki

y el error cometido en esa predicción es:

ei = yi − ŷi = yi − (β̂0 + β̂1 x1i + β̂2 x2i + . . . β̂k xki )

donde β̂0 , β̂1 , . . . , β̂k son los valores estimados del modelo.

El criterio de mínimos cuadrados asigna a β̂0 , β̂1 , . . . , β̂k el valor que


minimiza la suma de errores al cuadrado de todas las observaciones.
Notación
⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞
y1 ŷ1 β0 β̂0 e1
⎜ y2 ⎟ ⎜ ŷ2 ⎟ ⎜ β1 ⎟ ⎜ β̂1 ⎟ ⎜ e2 ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
Y =⎜ .. ⎟ Ŷ = ⎜ .. ⎟ β=⎜ .. ⎟ β̂ = ⎜ .. ⎟ e=⎜ .. ⎟
⎝ . ⎠ ⎝ . ⎠ ⎝ . ⎠ ⎝ . ⎠ ⎝ . ⎠
yn ŷn βk β̂k en

X es la denominada matriz de diseño, de dimensión n x (k+1)

⎛ ⎞ ⎛ ⎞
1 x11 x21 ··· xk1 xj1
⎜ 1 x12 x22 ··· xk2 ⎟ ³ ´ ⎜ xj2 ⎟
⎜ ⎟= ~1, X
~ 1, X
~ 2, . . . , X ~j = ⎜
~ k , siendo X ⎟
X=⎜ .. .. .. .. .. ⎟ ⎜ .. ⎟
⎝ . . . . . ⎠ ⎝ . ⎠
1 x1n x2n ··· xkn xjn
Forma matricial del modelo
La expresión matricial del modelo de regresión múltiple es la siguiente:

Y = Xβ + U
El modelo estimado también puede expresarse en forma matricial:

Ŷ = X β̂
Y − Ŷ = e
Ajuste por mínimos cuadrados
ei = yi − ŷi = yi − (β̂0 + β̂1 x1i + β̂2 x2i + . . . β̂k xki )

Son los parámetros estimados del modelo

Como en regresión simple, el criterio de mínimos cuadrados asigna a


los parámetros del modelo el valor que minimiza la suma de errores al
cuadrado de todas las observaciones.

La suma de errores al cuadrado es S:

Pn Pn ³ ´2
2
S= i=1 ei = i=1 yi − (β̂0 + β̂1 x1i + β̂2 x2i + . . . + β̂k xki )
Ajuste por mínimos cuadrados
Al igual que en regresión simple, la estrategia que seguimos para
calcular el mínimo de S es:
• derivar S con respecto a los parámetros,
• igualar a cero cada derivada,
• y resolver el sistema de ecuaciones que resulta (y en el que las
incógnitas vienen dadas por los k+1 parámetros que queremos estimar).

∂xT a ∂aT Xa
Teniendo en cuenta que: ∂a =x ∂a = 2Xa
Es una matriz simétrica,
Denota traspuesta

En términos matriciales, resulta que: de dimensión (k+1)x(k+1)


de una matriz

∂S
∂β= −X T Y − X T Y + 2(X T X)β Su rango debe ser máximo
T T para ser invertible, es decir:
→X Y = (X X)β rango(X T X) = k + 1

Así que, β̂ = (X T X)−1 X T Y


Ajuste por mínimos cuadrados
Que el rango(X T X) = k + 1 es equivalente a pedir que ninguna de las
variables explicativas se pueda escribir como combinación lineal de las demás.

Son las ecuaciones normales de la regresión

∂S
∂β = −2X T Y + 2(X T X)β = ~0

De ellas se deduce que:


Pn Los errores de predicción
i=1 ei = 0 suman cero
Pn
i=1 ei xij = 0, j = 1, . . . , k La covarianza entre los errores
de predicción y cada variable
explicativa es cero
Ajuste por mínimos cuadrados
Al igual que en regresión simple, ahora necesitamos estimar la varianza, σ 2 ,
del error aleatorio U
Un estimador razonable es, en principio, la varianza de los errores de predicción
(también conocidos con el nombre de residuos del modelo):
2 1 T 1
Pn 2
σ̂ = n e e = n i=1 ei
Sin embargo, este estimador es sesgado para σ 2, lo que significa que:
E(σ̂ 2 ) = σ 2

El sesgo se define como la diferencia entre la media del estimador


y el verdadero valor del parámetro que se quiere estimar.

Usaremos, por tanto, la varianza residual para estimar σ 2, que sí es un estimador


2
insesgado de σ 2, es decir, centrado en torno a σ
1
Pn
ŝ2R = n−(k+1) e2
i=1 i
Relaciones entre las variables
β̂ = (X T X)−1 X T Y

Ŷ = X β̂ = X(X T X)−1 X T Y = HY

A esta matriz le vamos a llamar H y se le conoce con el nombre de matriz de


proyección.
Este nombre quedará justificado una vez veamos la interpretación geométrica
de la estimación.

Las propiedades de la matriz H son las siguientes:


• Es idempotente: HH = H
• Es simétrica: HT = H
• Tiene el mismo rango que X: (k+1)
Relaciones entre las variables
Es sencillo ver que el error de predicción se puede escribir en forma
matricial en términos de H
e = Y − Ŷ = Y − HY = (I − H)Y

La expresión Ŷ = HY , indica que la matriz H (la cual es idempotente),


transforma el vector de observaciones Y en el vector de valores ajustados
(o predicciones) Ŷ

Una matriz idempotente realiza una proyección, por lo que la regresión va a


ser una proyección.
Para entender mejor cómo es esa proyección, vamos a estudiar las
relaciones existentes entre e, Y e Ŷ .
Relaciones entre las variables
El vector de residuos es perpendicular al vector de valores ajustados y
a la matriz de diseño. Veámoslo:

e⊥Ŷ
eT Ŷ = [(I − H)Y ]T HY = Y T (I − H)HY = Y T HY − Y T HHY = 0

e⊥X
eT X = [(I − H)Y ]T X = Y T (I − H)X = Y T (X − X(X T X)−1 X T X) = 0

Así que el modelo de regresión Ŷ = HY proyecta el vector de observaciones sobre


el subespacio vectorial de las columnas de la matriz X (es decir el subespacio de las
variables independientes).
El vector de residuos es perpendicular a cada columna de X y al vector de predicción Ŷ
Interpretación geométrica
En el espacio formado por las variables, el método de mínimos cuadrados equivale a
encontrar un vector en dicho espacio que esté lo más próximo posible al vector de
observaciones.

Ŷ es la proyección ortogonal de Y sobre dicho espacio

Vector de observaciones Y e Vector de residuos


Esp(X) Vector de valores ajustados.
Está en Esp(X)

Subespacio vectorial generado por la columnas de X.


Es decir, por los vectores columna de las variables explicativas
Distribución de β̂
β̂ = (X T X)−1 X T Y

Le llamaremos matriz A

Sabemos que el vector de observaciones Y se distribuye según una normal


multivariante de media Xβ
y de matriz de varianzas covarianzas σ 2 In

Y ∼ Nn (Xβ, σ 2 In )

β̂ es una combinación lineal de las componentes del vector Y , así que


β̂ también se distribuye según una variable aleatoria normal.
A continuación, calcularemos su media y matriz de varianzas y covarianzas
Distribución de β̂
³ ´ ¡ T −1 T ¢
E β̂ = E (X X) X Y = (X T X)−1 X T E(Y ) = (X T X)−1 X T Xβ = β

β̂ es un estimador centrado de β

V ar(β̂) = V ar(AY ) = A · V ar(Y ) · AT = (X T X)−1 X T V ar(Y )X(X T X)−1


= (X T X)−1 X T σ 2 X(X T X)−1 = σ 2 (X T X)−1

β̂ ∼ Nk+1 (β, σ 2 (X T X)−1 )

β̂i ∼ N (βi , σ 2 qii )


qii es el elemento i-ésimo de la diagonal de la matriz (X T X)−1
Distribución de β̂
2
La estimación de σ la hacíamos a través de la varianza residual

1
Pn
ŝ2R = n−(k+1) e2
i=1 i

2 2
De manera que, estimaremos la varianza de β̂i ∼ N (βi , σ qii ) mediante ŝR qii

La raíz cuadrada de ŝ2R qii nos da el error estándar de β̂i

p √
SE(β̂i ) = ŝ2R qii = ŝR qii

(n−k−1)ŝ2R
Se puede demostrar que: σ2 ∼ χ2n−k−1
Contraste t
Hemos visto que: β̂i ∼ N (βi , σ 2 qii ). Por tanto, estandarizando, se obtiene que:

β̂i −βi

σ qii ∼ N (0, 1)
N (0,1)
Una variable t de Student con k grados de libertad se define así: tk =√ 1 2
k χk

β̂i −βi

σ qii β̂i −βi
t= r = √
ŝR qii ∼ tn−k−1
1 (n−k−1)ŝ2
R
n−k−1 σ2

El valor de t va a contrastar si βi = 0, (hipóteis nula, H0) frente a la hipótesis


alternativa ( βi = 0 ), es decir si el valor de este parámetro en la población es
realmente cero o no.

De ser cierta esta hipótesis, entonces la variable Xi no influiría sobra la variable


respuesta Y.
Contraste t
β̂i −βi
Sabemos que: t = √
ŝR qii ∼ tn−k−1

Ahora, bajo la hipótesis nula (H0), sabemos que βi = 0

β̂i β̂i
t= √
ŝR qii = SE(β̂1 )
∼ tn−k−1 bajo H0

Así que, si se cumple H0, el valor de t debe provenir de una tn-k-1.

Para n>30 la distribución tn-k-1 deja una probabilidad del 95% en el intervalo [-2,2].

Si |t|>2, se rechaza la hipótesis nula y diremos que la variable i-ésima influye en la


respuesta.
Intervalos de confianza
β̂i −βi
Sabemos que: t =
SE(β̂i )
∼ tn−k−1

Así que, podemos afirmar que:

β̂i −βi
P (−tα/2 ≤ SE(β̂i )
≤ tα/2 ) = 1 − α

P (β̂i − tα/2 SE(β̂i ) ≤ βi ≤ β̂i + tα/2 SE(β̂i )) = 1 − α

Con confianza 1 − α , βi ∈ β̂i ± tα/2 SE(β̂i )


Cuando n>30 y α = 0.05 el intervalo se convierte en: βi ∈ β̂i ± 2SE(β̂i )
Descomposición de variabilidad
Vamos a comenzar descomponiendo la variabilidad total de Y:
Pn
VT = i=1 (yi − ȳ)2

yi = yˆi + ei → (yi − ȳ)2 = ((ŷi − ȳ) + ei )2 = (ŷi − ȳ)2 + e2i + 2(ŷi − ȳ)ei

Pn 2
Pn 2
Pn 2
Pn
VT = i=1 (yi − ȳ) = i=1 (ŷi − ȳ) + i=1 ei + i=1 2(ŷi − ȳ)ei

V T = V E + V NE
Por las ecuaciones normales, este término vale cero.
Coef. de determinación y coef. de
determinación corregido por g.l.
2 VE R2 x100 proporciona el porcentaje de variabilidad de Y que
R = VT explica el modelo de regresión ajustado.

El coef. de determinación así definido presenta el inconveniente de que al


incluir nuevas variables en el modelo aumenta su valor, incluso cuando éstas
no resultan significativas.
Este problema hace que R2 no sea un válido como criterio para decidir qué
variables explicativas deben ser incluidas o excluidas en el modelo final.

Definimos, el coef. de determinación corregido por grados de libertad para evitar


este problema

n−1 V N E/(n−k−1)
R̄2 = 1 − (1 − R2 ) n−k−1 = 1 − ( VVNTE ) n−k−1
n−1
=1− V T /(n−1)
Contraste de regresión F
Este contraste, sirve en regresión múltiple para comprobar si el modelo explica
una parte significativa de la variabilidad de Y

Se puede demostrar que si β1 = β2 = . . . = βk = 0 el cociente


Pn 2
i=1 (ŷi −ȳ)
V E/k
V N E/n−k−1 = Pn k 2
e
∼ Fk,n−k−1
i=1 i
n−k−1

se distribuye según una distribución F de Snedecor con (k, n-k-1) g.l.


Tabla ANOVA
En dicha tabla se descompone la variabilidad de la respuesta en función de la
variabilidad explicada y no explicada por la regresión ajustada.
También se obtiene el valor del estadístico de contraste F

Cuadrado medio = SC/g.l.

Suma de Grados de
Fuentes de Varianza
Cuadrados Libertad Test F
variación (cuadrado medio)
(SC) (g.l)

Explicada por los Pn ŝ2e


(ŷ − ȳ)2 k ŝ2e
regresores VE i=1 i ŝ2R
Residual Pn
VNE (yi − ŷi )2 n-k-1 ŝ2R
i=1

Total Pn 2 n-1 Ŝy2


i=1 (yi − ȳ)
Contraste de regresión F
H0 : β1 = β2 = . . . = βk = 0
H1 : βj = 0 para al menos un j

No rechazo

Rechazo
Fk,n−k−1 =
ŝ2e
ŝ2R

También podría gustarte