Reg Multiple PDF

Regresión múltiple
Demostraciones
Elisa Mª Molanes López

El modelo de regresión múltiple
El modelo que se plantea en regresión múltiple es el siguiente:
yi = β0 + β1 x1i + β2 x2i + . . . + βk xki + ui
donde x1 , x2 , . . . , xk son las variables independientes o explicativas.

La variable respuesta depende de las variables explicativas y de una
componente de error que se distribuye según una normal: ui = N (0, σ 2 )
El ajuste del modelo se realiza por el método de máxima verosimilitud o el

método de mínimos cuadrados. En el caso de distribución normal de errores,
ambos métodos coinciden, como ya se vió en regresión simple.
El modelo de regresión múltiple
El valor que el modelo estimado predice para la observación i-ésima es:
ŷi = β̂0 + β̂1 x1i + β̂2 x2i + . . . + β̂k xki
y el error cometido en esa predicción es:
ei = yi − ŷi = yi − (β̂0 + β̂1 x1i + β̂2 x2i + . . . β̂k xki )
donde β̂0 , β̂1 , . . . , β̂k son los valores estimados del modelo.
El criterio de mínimos cuadrados asigna a β̂0 , β̂1 , . . . , β̂k el valor que

minimiza la suma de errores al cuadrado de todas las observaciones.
Notación
⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞
y1 ŷ1 β0 β̂0 e1
⎜ y2 ⎟ ⎜ ŷ2 ⎟ ⎜ β1 ⎟ ⎜ β̂1 ⎟ ⎜ e2 ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
Y =⎜ .. ⎟ Ŷ = ⎜ .. ⎟ β=⎜ .. ⎟ β̂ = ⎜ .. ⎟ e=⎜ .. ⎟
⎝ . ⎠ ⎝ . ⎠ ⎝ . ⎠ ⎝ . ⎠ ⎝ . ⎠
yn ŷn βk β̂k en
X es la denominada matriz de diseño, de dimensión n x (k+1)
⎛ ⎞ ⎛ ⎞
1 x11 x21 ··· xk1 xj1
⎜ 1 x12 x22 ··· xk2 ⎟ ³ ´ ⎜ xj2 ⎟
⎜ ⎟= ~1, X
~ 1, X
~ 2, . . . , X ~j = ⎜
~ k , siendo X ⎟
X=⎜ .. .. .. .. .. ⎟ ⎜ .. ⎟
⎝ . . . . . ⎠ ⎝ . ⎠
1 x1n x2n ··· xkn xjn
Forma matricial del modelo
La expresión matricial del modelo de regresión múltiple es la siguiente:
Y = Xβ + U
El modelo estimado también puede expresarse en forma matricial:
Ŷ = X β̂
Y − Ŷ = e
Ajuste por mínimos cuadrados
ei = yi − ŷi = yi − (β̂0 + β̂1 x1i + β̂2 x2i + . . . β̂k xki )
Son los parámetros estimados del modelo
Como en regresión simple, el criterio de mínimos cuadrados asigna a

los parámetros del modelo el valor que minimiza la suma de errores al
cuadrado de todas las observaciones.
La suma de errores al cuadrado es S:
Pn Pn ³ ´2
2
S= i=1 ei = i=1 yi − (β̂0 + β̂1 x1i + β̂2 x2i + . . . + β̂k xki )
Al igual que en regresión simple, la estrategia que seguimos para
calcular el mínimo de S es:
• derivar S con respecto a los parámetros,
• igualar a cero cada derivada,
• y resolver el sistema de ecuaciones que resulta (y en el que las
incógnitas vienen dadas por los k+1 parámetros que queremos estimar).
∂xT a ∂aT Xa
Teniendo en cuenta que: ∂a =x ∂a = 2Xa
Es una matriz simétrica,
Denota traspuesta
En términos matriciales, resulta que: de dimensión (k+1)x(k+1)

de una matriz
∂S
∂β= −X T Y − X T Y + 2(X T X)β Su rango debe ser máximo
T T para ser invertible, es decir:
→X Y = (X X)β rango(X T X) = k + 1
Así que, β̂ = (X T X)−1 X T Y

Que el rango(X T X) = k + 1 es equivalente a pedir que ninguna de las
variables explicativas se pueda escribir como combinación lineal de las demás.
Son las ecuaciones normales de la regresión
∂S
∂β = −2X T Y + 2(X T X)β = ~0
De ellas se deduce que:

Pn Los errores de predicción
i=1 ei = 0 suman cero
Pn
i=1 ei xij = 0, j = 1, . . . , k La covarianza entre los errores
de predicción y cada variable
explicativa es cero
Al igual que en regresión simple, ahora necesitamos estimar la varianza, σ 2 ,
del error aleatorio U
Un estimador razonable es, en principio, la varianza de los errores de predicción
(también conocidos con el nombre de residuos del modelo):
2 1 T 1
Pn 2
σ̂ = n e e = n i=1 ei
Sin embargo, este estimador es sesgado para σ 2, lo que significa que:
E(σ̂ 2 ) = σ 2
El sesgo se define como la diferencia entre la media del estimador

y el verdadero valor del parámetro que se quiere estimar.
Usaremos, por tanto, la varianza residual para estimar σ 2, que sí es un estimador

2
insesgado de σ 2, es decir, centrado en torno a σ
1
Pn
ŝ2R = n−(k+1) e2
i=1 i
Relaciones entre las variables
β̂ = (X T X)−1 X T Y
Ŷ = X β̂ = X(X T X)−1 X T Y = HY
A esta matriz le vamos a llamar H y se le conoce con el nombre de matriz de

proyección.
Este nombre quedará justificado una vez veamos la interpretación geométrica
de la estimación.
Las propiedades de la matriz H son las siguientes:

• Es idempotente: HH = H
• Es simétrica: HT = H
• Tiene el mismo rango que X: (k+1)
Es sencillo ver que el error de predicción se puede escribir en forma
matricial en términos de H
e = Y − Ŷ = Y − HY = (I − H)Y
La expresión Ŷ = HY , indica que la matriz H (la cual es idempotente),

transforma el vector de observaciones Y en el vector de valores ajustados
(o predicciones) Ŷ
Una matriz idempotente realiza una proyección, por lo que la regresión va a

ser una proyección.
Para entender mejor cómo es esa proyección, vamos a estudiar las
relaciones existentes entre e, Y e Ŷ .
El vector de residuos es perpendicular al vector de valores ajustados y
a la matriz de diseño. Veámoslo:
e⊥Ŷ
eT Ŷ = [(I − H)Y ]T HY = Y T (I − H)HY = Y T HY − Y T HHY = 0
e⊥X
eT X = [(I − H)Y ]T X = Y T (I − H)X = Y T (X − X(X T X)−1 X T X) = 0
Así que el modelo de regresión Ŷ = HY proyecta el vector de observaciones sobre

el subespacio vectorial de las columnas de la matriz X (es decir el subespacio de las
variables independientes).
El vector de residuos es perpendicular a cada columna de X y al vector de predicción Ŷ
Interpretación geométrica
En el espacio formado por las variables, el método de mínimos cuadrados equivale a
encontrar un vector en dicho espacio que esté lo más próximo posible al vector de
observaciones.
Ŷ es la proyección ortogonal de Y sobre dicho espacio
Vector de observaciones Y e Vector de residuos
Ŷ
Esp(X) Vector de valores ajustados.
Está en Esp(X)
Subespacio vectorial generado por la columnas de X.

Es decir, por los vectores columna de las variables explicativas
Distribución de β̂
β̂ = (X T X)−1 X T Y
Le llamaremos matriz A
Sabemos que el vector de observaciones Y se distribuye según una normal

multivariante de media Xβ
y de matriz de varianzas covarianzas σ 2 In
Y ∼ Nn (Xβ, σ 2 In )
β̂ es una combinación lineal de las componentes del vector Y , así que

β̂ también se distribuye según una variable aleatoria normal.
A continuación, calcularemos su media y matriz de varianzas y covarianzas
³ ´ ¡ T −1 T ¢
E β̂ = E (X X) X Y = (X T X)−1 X T E(Y ) = (X T X)−1 X T Xβ = β
β̂ es un estimador centrado de β
V ar(β̂) = V ar(AY ) = A · V ar(Y ) · AT = (X T X)−1 X T V ar(Y )X(X T X)−1

= (X T X)−1 X T σ 2 X(X T X)−1 = σ 2 (X T X)−1
β̂ ∼ Nk+1 (β, σ 2 (X T X)−1 )
β̂i ∼ N (βi , σ 2 qii )

qii es el elemento i-ésimo de la diagonal de la matriz (X T X)−1
2
La estimación de σ la hacíamos a través de la varianza residual
1
Pn
ŝ2R = n−(k+1) e2
i=1 i
2 2
De manera que, estimaremos la varianza de β̂i ∼ N (βi , σ qii ) mediante ŝR qii
La raíz cuadrada de ŝ2R qii nos da el error estándar de β̂i
p √
SE(β̂i ) = ŝ2R qii = ŝR qii
(n−k−1)ŝ2R
Se puede demostrar que: σ2 ∼ χ2n−k−1
Contraste t
Hemos visto que: β̂i ∼ N (βi , σ 2 qii ). Por tanto, estandarizando, se obtiene que:
β̂i −βi
√
σ qii ∼ N (0, 1)
N (0,1)
Una variable t de Student con k grados de libertad se define así: tk =√ 1 2
k χk
β̂i −βi
√
σ qii β̂i −βi
t= r = √
ŝR qii ∼ tn−k−1
1 (n−k−1)ŝ2
R
n−k−1 σ2
El valor de t va a contrastar si βi = 0, (hipóteis nula, H0) frente a la hipótesis

alternativa ( βi = 0 ), es decir si el valor de este parámetro en la población es
realmente cero o no.
De ser cierta esta hipótesis, entonces la variable Xi no influiría sobra la variable

respuesta Y.
Contraste t
β̂i −βi
Sabemos que: t = √
ŝR qii ∼ tn−k−1
Ahora, bajo la hipótesis nula (H0), sabemos que βi = 0
β̂i β̂i
t= √
ŝR qii = SE(β̂1 )
∼ tn−k−1 bajo H0
Así que, si se cumple H0, el valor de t debe provenir de una tn-k-1.
Para n>30 la distribución tn-k-1 deja una probabilidad del 95% en el intervalo [-2,2].
Si |t|>2, se rechaza la hipótesis nula y diremos que la variable i-ésima influye en la

respuesta.
Intervalos de confianza
β̂i −βi
Sabemos que: t =
SE(β̂i )
∼ tn−k−1
Así que, podemos afirmar que:
β̂i −βi
P (−tα/2 ≤ SE(β̂i )
≤ tα/2 ) = 1 − α
P (β̂i − tα/2 SE(β̂i ) ≤ βi ≤ β̂i + tα/2 SE(β̂i )) = 1 − α
Con confianza 1 − α , βi ∈ β̂i ± tα/2 SE(β̂i )

Cuando n>30 y α = 0.05 el intervalo se convierte en: βi ∈ β̂i ± 2SE(β̂i )
Descomposición de variabilidad
Vamos a comenzar descomponiendo la variabilidad total de Y:
Pn
VT = i=1 (yi − ȳ)2
yi = yˆi + ei → (yi − ȳ)2 = ((ŷi − ȳ) + ei )2 = (ŷi − ȳ)2 + e2i + 2(ŷi − ȳ)ei
Pn 2
Pn 2
Pn 2
Pn
VT = i=1 (yi − ȳ) = i=1 (ŷi − ȳ) + i=1 ei + i=1 2(ŷi − ȳ)ei
V T = V E + V NE
Por las ecuaciones normales, este término vale cero.
Coef. de determinación y coef. de
determinación corregido por g.l.
2 VE R2 x100 proporciona el porcentaje de variabilidad de Y que
R = VT explica el modelo de regresión ajustado.
El coef. de determinación así definido presenta el inconveniente de que al

incluir nuevas variables en el modelo aumenta su valor, incluso cuando éstas
no resultan significativas.
Este problema hace que R2 no sea un válido como criterio para decidir qué
variables explicativas deben ser incluidas o excluidas en el modelo final.
Definimos, el coef. de determinación corregido por grados de libertad para evitar

este problema
n−1 V N E/(n−k−1)
R̄2 = 1 − (1 − R2 ) n−k−1 = 1 − ( VVNTE ) n−k−1
n−1
=1− V T /(n−1)
Contraste de regresión F
Este contraste, sirve en regresión múltiple para comprobar si el modelo explica
una parte significativa de la variabilidad de Y
Se puede demostrar que si β1 = β2 = . . . = βk = 0 el cociente

Pn 2
i=1 (ŷi −ȳ)
V E/k
V N E/n−k−1 = Pn k 2
e
∼ Fk,n−k−1
i=1 i
n−k−1
se distribuye según una distribución F de Snedecor con (k, n-k-1) g.l.

Tabla ANOVA
En dicha tabla se descompone la variabilidad de la respuesta en función de la
variabilidad explicada y no explicada por la regresión ajustada.
También se obtiene el valor del estadístico de contraste F
Cuadrado medio = SC/g.l.
Suma de Grados de
Fuentes de Varianza
Cuadrados Libertad Test F
variación (cuadrado medio)
(SC) (g.l)
Explicada por los Pn ŝ2e

(ŷ − ȳ)2 k ŝ2e
regresores VE i=1 i ŝ2R
Residual Pn
VNE (yi − ŷi )2 n-k-1 ŝ2R
i=1
Total Pn 2 n-1 Ŝy2

i=1 (yi − ȳ)
Contraste de regresión F
H0 : β1 = β2 = . . . = βk = 0
H1 : βj = 0 para al menos un j
No rechazo
Rechazo
Fk,n−k−1 =
ŝ2e
ŝ2R

Reg Multiple PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Reg Multiple PDF

Cargado por

Copyright:

Formatos disponibles

Regresión múltiple

Elisa Mª Molanes López

yi = β0 + β1 x1i + β2 x2i + . . . + βk xki + ui

donde x1 , x2 , . . . , xk son las variables independientes o explicativas.

El ajuste del modelo se realiza por el método de máxima verosimilitud o el

ŷi = β̂0 + β̂1 x1i + β̂2 x2i + . . . + β̂k xki

y el error cometido en esa predicción es:

ei = yi − ŷi = yi − (β̂0 + β̂1 x1i + β̂2 x2i + . . . β̂k xki )

El criterio de mínimos cuadrados asigna a β̂0 , β̂1 , . . . , β̂k el valor que

X es la denominada matriz de diseño, de dimensión n x (k+1)

Son los parámetros estimados del modelo

Como en regresión simple, el criterio de mínimos cuadrados asigna a

La suma de errores al cuadrado es S:

En términos matriciales, resulta que: de dimensión (k+1)x(k+1)

Así que, β̂ = (X T X)−1 X T Y

Son las ecuaciones normales de la regresión

De ellas se deduce que:

El sesgo se define como la diferencia entre la media del estimador

Usaremos, por tanto, la varianza residual para estimar σ 2, que sí es un estimador

A esta matriz le vamos a llamar H y se le conoce con el nombre de matriz de

Las propiedades de la matriz H son las siguientes:

La expresión Ŷ = HY , indica que la matriz H (la cual es idempotente),

Una matriz idempotente realiza una proyección, por lo que la regresión va a

Así que el modelo de regresión Ŷ = HY proyecta el vector de observaciones sobre

Ŷ es la proyección ortogonal de Y sobre dicho espacio

Vector de observaciones Y e Vector de residuos

Subespacio vectorial generado por la columnas de X.

Sabemos que el vector de observaciones Y se distribuye según una normal

β̂ es una combinación lineal de las componentes del vector Y , así que

V ar(β̂) = V ar(AY ) = A · V ar(Y ) · AT = (X T X)−1 X T V ar(Y )X(X T X)−1

β̂ ∼ Nk+1 (β, σ 2 (X T X)−1 )

β̂i ∼ N (βi , σ 2 qii )

La raíz cuadrada de ŝ2R qii nos da el error estándar de β̂i

El valor de t va a contrastar si βi = 0, (hipóteis nula, H0) frente a la hipótesis

De ser cierta esta hipótesis, entonces la variable Xi no influiría sobra la variable

Ahora, bajo la hipótesis nula (H0), sabemos que βi = 0

Así que, si se cumple H0, el valor de t debe provenir de una tn-k-1.

Si |t|>2, se rechaza la hipótesis nula y diremos que la variable i-ésima influye en la

Así que, podemos afirmar que:

P (β̂i − tα/2 SE(β̂i ) ≤ βi ≤ β̂i + tα/2 SE(β̂i )) = 1 − α

Con confianza 1 − α , βi ∈ β̂i ± tα/2 SE(β̂i )

El coef. de determinación así definido presenta el inconveniente de que al

Definimos, el coef. de determinación corregido por grados de libertad para evitar

Se puede demostrar que si β1 = β2 = . . . = βk = 0 el cociente

se distribuye según una distribución F de Snedecor con (k, n-k-1) g.l.

Cuadrado medio = SC/g.l.

Explicada por los Pn ŝ2e

Total Pn 2 n-1 Ŝy2

También podría gustarte