Está en la página 1de 29

Regresión Lineal Múltiple

1
Similitudes con regresión simple

 0 es el intercepto
 1 a k son k parámetros de pendiente
 u es el término de error o residual
 El supuesto de media condicional cero se mantiene:
E(u|x1,x2, …,xk) = 0
 Igual que antes, minimizamos la suma de residuales cuadrados, de modo que
tenemos k+1 condiciones de primer orden (o k+1 parámetros a estimar)

2
Interpretación de la regresión múltiple

yˆ  ˆ0  ˆ1 x1  ˆ2 x2  ...  ˆk xk , de modo que


yˆ  ˆ x  ˆ x  ...  ˆ x ,
1 1 2 2 k k

y si mantenemos x2 ,..., xk constantes, implica que


yˆ  ˆ x , es decir, cada  tiene
1 1

una interpretación ceteris paribus

3
 interpretada como una “derivada
parcial”
Considere el caso donde k  2, i.e.
yˆ  ˆ  ˆ x  ˆ x , entonces
0 1 1 2 2

ˆ1    rˆi1 yi   rˆ2


i1 , donde rˆi1 son
son los residuales de una regresión
auxiliar : xˆ1  ˆ0  ˆ2 xˆ2 4
…“derivada parcial”

 La ecuación anterior implica que “regresar y en x1 y x2” tiene el


mismo estimador para x1 que regresar y en los residuales de una
regresión de x1 en x2
 Es decir, al relacionar x1 con y, solamente capturamos la información
de xi1 que no está relacionada con xi2.
 Estimamos el efecto de x1 en y después de controlar o aislar el efecto
de x2

5
Estimación simple vs. múltiple

~ ~ ~
Compare la regresión simple y   0  1 x1
con la regresión multiple yˆ  ˆ0  ˆ1 x1  ˆ2 x2
~
En general, 1  ˆ1 a menos que :
ˆ  0 (i.e. x no tenga un efecto parcial significativo)
2 2

o bien x1 y x2 no tengan correlación alguna en la muestra.

6
Suma de cuadrados: Terminología
Podemos separar cada observación en un componente
explicado (sistemático) y un componente no explicado :
yi  yˆ i  uˆi De modo que podemos definir lo siguiente :

 iy  y  2
es la Suma Total de cuadrados : SST
 
 yi  y es la Suma Explicada de cuadrados : SSE
ˆ 2

 i es la Suma Residual de cuadrados : SSR


ˆ
u 2

Lo cual implica que SST  SSE  SSR

SST es la suma de “desviaciones al cuadrado” de las observaciones


de la muestra: es proporcional, más no igual, a VAR(y).
7
Bondad de ajuste: R2

 ¿Cómo saber qué tan bueno es el ajuste entre la regresión y los datos
de la muestra?
 Podemos calcular la proporción de la Suma de cuadrados totales (SST)
que es “explicada” por el modelo.
 Esto es la llamada R-cuadrada de una regresión:
R2 = SSE/SST = 1 – SSR/SST

8
Bondad de ajuste: R2
2
R también puede definirse como el cuadrado
del coeficiente de correlación entre los valores
observados, yi , y los valores predichos, yˆ i :
   y  y   yˆ  yˆ 
2

  y  y    yˆ  yˆ  
i i
R 2
 2 2
i i

9
R-cuadrada: discusión

 R2 nunca decrecerá conforme incluyamos más


variables explicativas a la regresión, y por lo general
aumentará (así sea marginalmente).
 ¿Por qué? Incluir variables adicionales aumenta la SSE
aunque no sean significativas.
 Dado que R2 típicamente aumenta con el número de
variables independientes, no es por sí sola un buen
criterio para comparar modelos.

10
 no sesgadas:
supuestos Gauss-Markov
1. Modelo poblacional es lineal en sus parámetros:
y = 0 + 1x1 + 2x2 +…+ kxk + u
2. Muestra aleatoria de tamaño n,
{(xi1, xi2,…, xik, yi): i=1, 2, …, n}, representativa de la
población, de modo que el modelo muestral es:
yi = 0 + 1xi1 + 2xi2 +…+ kxik + ui
3. E(u|x1, x2,… xk) = 0, lo cual implica que todas las
variables explicativas son exógenas (no
endogeneidad).
4. Ninguna variable x es constante ni tiene una
correlación lineal exacta con otra (no
multicolinealidad).
11
Demasiadas vs. pocas variables

 ¿Si incluimos variables que “no pertenecen al modelo


poblacional” en nuestra especificación o modelo?
 No tiene impacto en el resto de las  estimadas: MCO
permanece sin sesgo.
 ¿Si excluimos variables que “sí pertenecen al modelo”?
 En general, los estimadores MCO tendrán un sesgo de
variable omitida.

12
Sesgo de variable omitida
Supongamos que el " verdadero" modelo es :
y   0  1 x1   2 x2  u , pero
~ ~ ~
estimamos y     x  u , entonces
0 1 1

~
1   x
i1  x1  yi
(*)
 x  x1 
2
i1

...ie, la estimación del “modelo incorrecto”.


Comparémoslo con la  del “modelo correcto”
13
Sesgo de variable omitida
(continuación)
Retomando el modelo " verdadero":
yi   0  1 xi1   2 xi 2  ui ,
de modo que el numerador de (*) es :
  x  x     x   x  u 
i1 1 0 1 i1 2 i2 i

    x  x      x  x x    x  x1 ui
2
1 i1 1 2 i1 1 i2 i1

14
Sesgo de variable omitida
(continuación)
~
  1   2  x  x x   x
i1 1 i2 i1  x1  ui
  x  x     x  x1  
2 2
i1 1 i1

dado que E(ui )  0,


al calcular valor esperado, tenemos

 
~
E 1  1   2
 x  x x
i1 1 i2

  x  x  
2
i1 1
15
Sesgo de variable omitida
(continuación)
Consideremos la regresión de x2 en x1 :
~ ~ ~ ~
x2   0   1 x1 donde  1 
 x  x x
i1 1 i2

  x  x  
2
i1 1
~
 1 denota el impacto de x1 en x2
 
~
de modo que E 1  1   2 1
~
~
i.e., 1 tiene un sesgo.
16
Sesgo positivo o negativo en 1

Corr(x1, x2) > 0 Corr(x1, x2) < 0


1 > 0) 1 < 0)
2 > 0 Sesgo positivo Sesgo negativo
(overestimation)

2 < 0 Sesgo negativo Sesgo positivo


(underestimation)
17
Sesgo de variable omitida: resumen

 Dos casos donde el sesgo es igual a cero:


 2 = 0, es decir, x2 no pertenecía al modelo poblacional
 x1 y x2 no están correlacionados en la muestra
 Si la correlación entre (x2, x1) y entre (x2, y) es del mismo
signo, el sesgo es positivo.
 Si omites una variable x2 que se mueve en el mismo
sentido que x1, y ésta afecta positivamente a y, 1
capturará parte de dicho impacto (sobre- estimada).
 Si la correlación entre (x2, x1) y entre (x2, y) es de signo
opuesto, el sesgo es negativo.
18
El caso más general:
sesgo en todas las i
 Técnicamente, sólo podemos anticipar el signo de
este sesgo cuando el resto de las variables
explicativas incluidas no están correlacionadas entre
sí ni con la variable omitida
 Si esto no se cumple, el sesgo afecta a todas las i
estimadas, dependiendo de las covarianzas entre las
variables incluidas y con la variable omitida.
 Aún así, resulta útil calcular el sesgo de variable
omitida asumiendo que las otras x no están
correlacionadas, aún cuando este supuesto no se
cumpla.
19
Varianza de los estimadores MCO

 Ya vimos que la “distribución muestral” de los


estimadores está centrada en torno a los “verdaderos”
parámetros (insesgamiento).
 ¿Qué tan dispersa será la distribución de los estimadores?
 Para analizar esto, requerimos el 5º supuesto Gauss-
Markov:
 Var(u|x1, x2,…, xk) = 2
conocido como homoscedasticidad (homoskedasticity):
varianza constante.

20
Varianza de MCO (cont.)

 Sea x igual al vector de variables (x1, x2,…xk)


 Suponer que Var(u|x) = 2 también implica que Var(y| x)
= 2

 Los 4 supuestos requeridos para insesgamiento, más el


supuesto de homoscedasticidad son los llamados
supuestos Gauss-Markov.

21
Varianza de MCO (cont.)
Dados los 5 supuestos Gauss - Markov :

   2
Var ˆ j  , donde
SST j 1  R j 
2

SST j    xij  x j  y R es la R
2 2 2
j

de una regresión de x j en todas las otras x

Es decir, SSTj captura la varianza de xi, mientras que R2j


captura la correlación entre xj y las otras x del modelo.
22
Componentes de la Varianza de MCO

 Varianza del error: a mayor 2, mayor varianza de los


estimadores MCO.
 Varianza muestral: a mayor SSTj, menor varianza de los
estimadores MCO.
 A mayor tamaño de muestra, mayor SSTj y mayor
precisión de los estimadores.
 Correlación entre las variables explicativas: a mayor Rj2,
mayor varianza de los estimadores MCO.
 Si dos variables x son altamente correlacionadas, sus b
serán poco precisas.
 Mayor varianza de los estimadores equivale a decir menor
precisión o menor eficiencia.
23
Error de especificación y eficiencia de
los estimadores MCO
   2
~ ~ ~ ~
Comparemos el modelo " incorrecto": y     x , dondeVar  
0 1 1 1
SST 1

   2
Mientras que para el modelo " correcto": Var ˆ j  ,
SSTj 1  R j 
2

 
~
De modo que, en general: Var 1  Var ˆ1  
(a menos que x1 y x2 no estén correlacionados)

Estimar el modelo incorrecto produce una 1 sesgada (por la variable


omitida) ¡pero de menor varianza (mayor precisión)!
Un modelo con variables omitidas puede ser engañosamente preciso.
Este es el llamado trade-off entre sesgo y eficiencia. 24
Trade-off entre sesgo y eficiencia

 La varianza del estimador es menor en el modelo


“incorrecto” pero, a menos que 2 = 0, este modelo
será sesgado.
 Un modelo con variables omitidas puede ser
engañosamente preciso y posiblemente sesgado.
 Un modelo con demasiadas variables puede ser
engañosamente impreciso: pierdes más grados de
libertad y enfrentas mayor multicolinearidad.
 Conforme el tamaño de la muestra aumenta, la
varianza de cada estimador disminuye, haciendo que
las diferencias en eficiencia sean relativamente
menos importantes.
25
Estimación de la varianza del error
 No conocemos la varianza del error, 2, porque no observamos los
errores de la población, ui
 Lo que observamos son los residuales (estimados) del modelo
muestral:
uˆi  yi  ˆ0  ˆ1 x1i  ...  ˆk xki

 Pero podemos usar los residuales estimados para construir un


estimador de la varianza del error.

26
Varianza del error (cont)

ˆ    uˆ
2
  n  k  1  SSR df
2
i

thus, se ˆ   ˆ  SST 1  R  


j j
2 12
j

 gl = n – (k + 1), o bien gl = n – k – 1
 gl (i.e. grados de libertad) son el (número de
observaciones) – (número de parámetros estimados)
 A mayores grados de libertad, mayor precisión de
los estimadores.
27
Supuestos Gauss-Markov
1. Modelo poblacional es lineal en sus parámetros:
y = 0 + 1x1 + 2x2 +…+ kxk + u
2. Muestra aleatoria de tamaño n,
{(xi1, xi2,…, xik, yi): i=1, 2, …, n}, representativa de la
población, de modo que el modelo muestral es:
yi = 0 + 1xi1 + 2xi2 +…+ kxik + ui
3. E(u|x1, x2,… xk) = 0, lo cual implica que todas las
variables explicativas son exógenas (no
endogeneidad).
4. Ninguna variable x es constante ni tiene una
correlación lineal exacta con otra (no
multicolinealidad).
28
Teorema Gauss-Markov

 Dados los 5 supuestos Gauss-Markov, puede demostrarse que MCO es “MELI”


(BLUE):
 Mejor Estimador Lineal Insesgado
 Best Linear Unbiased Estimator
 De modo que, si los supuestos G-M se sostienen, usar MCO es una buena idea.
 Si, además de estos 5 supuestos,
u ~ N(0, 2)  MCO es el mejor estimador (lineal o no lineal) insesgado.

29