Está en la página 1de 29

Regresión Lineal Múltiple

yi = 0 + 1x1i + 2x2i + . . . kxki + ui


A. Estimación
Javier Aparicio
División de Estudios Políticos, CIDE
javier.aparicio@cide.edu

Curso de Verano ENCUP

http://publiceconomics.wordpress.com/verano2009
Julio 2009
1
Similitudes con regresión simple
 0 es el intercepto
 1 a k son k parámetros de pendiente
 u es el término de error o residual
 El supuesto de media condicional cero se
mantiene:
E(u|x1,x2, …,xk) = 0
 Igual que antes, minimizamos la suma de
residuales cuadrados, de modo que tenemos
k+1 condiciones de primer orden (o k+1
parámetros a estimar)
2
Interpretación de la regresión
múltiple
yˆ  ˆ0  ˆ1 x1  ˆ2 x2  ...  ˆk xk , de modo que
yˆ  ˆ x  ˆ x  ...  ˆ x ,
1 1 2 2 k k

y si mantenemos x2 ,..., xk constantes, implica que


yˆ  ˆ x , es decir, cada  tiene
1 1

una interpretación ceteris paribus

3
 interpretada como una “derivada
parcial”
Considere el caso donde k  2, i.e.
yˆ  ˆ  ˆ x  ˆ x , entonces
0 1 1 2 2

ˆ1    rˆi1 yi   rˆ2


i1 , donde rˆi1 son
son los residuales de una regresión
auxiliar : xˆ1  ˆ0  ˆ2 xˆ2
4
…“derivada parcial”

 La ecuación anterior implica que “regresar y


en x1 y x2” tiene el mismo estimador para x1
que regresar y en los residuales de una
regresión de x1 en x2
 Es decir, al relacionar x1 con y, solamente
capturamos la información de xi1 que no está
relacionada con xi2.
 Estimamos el efecto de x1 en y después de
controlar o aislar el efecto de x2
5
Estimación simple vs. múltiple

~ ~ ~
Compare la regresión simple y   0  1 x1
con la regresión multiple yˆ  ˆ0  ˆ1 x1  ˆ2 x2
~
En general, 1  ˆ1 a menos que :
ˆ  0 (i.e. x no tenga un efecto parcial significativo)
2 2

o bien x1 y x2 no tengan correlación alguna en la muestra.

6
Suma de cuadrados: Terminología
Podemos separar cada observación en un componente
explicado (sistemático) y un componente no explicado :
yi  yˆ i  uˆi De modo que podemos definir lo siguiente :
  y  y  es la Suma Total de cuadrados : SST
2
i

  yˆ  y  es la Suma Explicada de cuadrados : SSE


2
i

 uˆ es la Suma Residual de cuadrados : SSR


2
i

Lo cual implica que SST  SSE  SSR


SST es la suma de “desviaciones al cuadrado” de las observaciones
de la muestra: es proporcional, más no igual, a VAR(y).

7
Bondad de ajuste: R2
 ¿Cómo saber qué tan bueno es el ajuste
entre la regresión y los datos de la muestra?
 Podemos calcular la proporción de la Suma
de cuadrados totales (SST) que es
“explicada” por el modelo.
 Esto es la llamada R-cuadrada de una
regresión:
R2 = SSE/SST = 1 – SSR/SST

8
Bondad de ajuste: R2
2
R también puede definirse como el cuadrado
del coeficiente de correlación entre los valores
observados, yi , y los valores predichos, yˆ i :
   y  y   yˆ  yˆ 
2

  y  y    yˆ  yˆ  
i i
R 2
 2 2
i i

9
R-cuadrada: discusión
 R2 nunca decrecerá conforme incluyamos más
variables explicativas a la regresión, y por lo general
aumentará (así sea marginalmente).
 ¿Por qué? Incluir variables adicionales aumenta la
SSE aunque no sean significativas.
 Dado que R2 típicamente aumenta con el número
de variables independientes, no es por sí sola un
buen criterio para comparar modelos.

10
 no sesgadas:
supuestos Gauss-Markov
1. Modelo poblacional es lineal en sus parámetros:
y = 0 + 1x1 + 2x2 +…+ kxk + u
2. Muestra aleatoria de tamaño n,
{(xi1, xi2,…, xik, yi): i=1, 2, …, n}, representativa de la
población, de modo que el modelo muestral es:
yi = 0 + 1xi1 + 2xi2 +…+ kxik + ui
3. E(u|x1, x2,… xk) = 0, lo cual implica que todas las
variables explicativas son exógenas (no
endogeneidad).
4. Ninguna variable x es constante ni tiene una
correlación lineal exacta con otra (no
multicolinealidad).

11
Demasiadas vs. pocas variables

 ¿Si incluimos variables que “no pertenecen


al modelo poblacional” en nuestra
especificación o modelo?
 No tiene impacto en el resto de las 
estimadas: MCO permanece sin sesgo.
 ¿Si excluimos variables que “sí pertenecen
al modelo”?
 En general, los estimadores MCO tendrán un
sesgo de variable omitida.
12
Sesgo de variable omitida
Supongamos que el " verdadero" modelo es :
y   0  1 x1   2 x2  u , pero
~ ~ ~
estimamos y     x  u, entonces
0 1 1

~
1   x
i1  x1  yi
(*)
 x  x1 
2
i1

...ie, la estimación del “modelo incorrecto”.


Comparémoslo con la  del “modelo correcto”

13
Sesgo de variable omitida
(continuación)
Retomando el modelo " verdadero":
yi   0  1 xi1   2 xi 2  ui ,
de modo que el numerador de (*) es :
  x  x     x   x  u 
i1 1 0 1 i1 2 i2 i

    x  x      x  x x    x  x1 ui
2
1 i1 1 2 i1 1 i2 i1

14
Sesgo de variable omitida
(continuación)
~
  1   2  x  x x   x
i1 1 i2 i1  x1  ui
  x  x     x  x1  
2 2
i1 1 i1

dado que E(ui )  0,


al calcular valor esperado, tenemos

 
~
E 1  1   2
 x  x x
i1 1 i2

  x  x  
2
i1 1

15
Sesgo de variable omitida
(continuación)
Consideremos la regresión de x2 en x1 :
~ ~ ~ ~
x2   0   1 x1 donde  1 
 x  x x
i1 1 i2

  x  x  
2
i1 1
~
 1 denota el impacto de x1 en x2
 
~
de modo que E 1  1   2 1
~
~
i.e., 1 tiene un sesgo.

16
Sesgo positivo o negativo en 1

Corr(x1, x2) > 0 Corr(x1, x2) < 0


1 > 0) 1 < 0)
2 > 0 Sesgo positivo Sesgo negativo
(overestimation)

2 < 0 Sesgo negativo Sesgo positivo


(underestimation)

17
Sesgo de variable omitida: resumen
 Dos casos donde el sesgo es igual a cero:
 2 = 0, es decir, x2 no pertenecía al modelo poblacional
 x1 y x2 no están correlacionados en la muestra
 Si la correlación entre (x2, x1) y entre (x2, y) es del
mismo signo, el sesgo es positivo.
 Si omites una variable x2 que se mueve en el mismo
sentido que x1, y ésta afecta positivamente a y, 1
capturará parte de dicho impacto (sobre- estimada).
 Si la correlación entre (x2, x1) y entre (x2, y) es de
signo opuesto, el sesgo es negativo.

18
El caso más general:
sesgo en todas las i
 Técnicamente, sólo podemos anticipar el signo de
este sesgo cuando el resto de las variables
explicativas incluidas no están correlacionadas
entre sí ni con la variable omitida
 Si esto no se cumple, el sesgo afecta a todas las i
estimadas, dependiendo de las covarianzas entre
las variables incluidas y con la variable omitida.
 Aún así, resulta útil calcular el sesgo de variable
omitida asumiendo que las otras x no están
correlacionadas, aún cuando este supuesto no se
cumpla.

19
Varianza de los estimadores MCO
 Ya vimos que la “distribución muestral” de los
estimadores está centrada en torno a los
“verdaderos” parámetros (insesgamiento).
 ¿Qué tan dispersa será la distribución de los
estimadores?
 Para analizar esto, requerimos el 5º supuesto
Gauss-Markov:
 Var(u|x1, x2,…, xk) = 2
conocido como homoscedasticidad
(homoskedasticity): varianza constante.
20
Varianza de MCO (cont.)

 Sea x igual al vector de variables (x1, x2,…xk)


 Suponer que Var(u|x) = 2 también implica
que Var(y| x) = 2

 Los 4 supuestos requeridos para


insesgamiento, más el supuesto de
homoscedasticidad son los llamados
supuestos Gauss-Markov.

21
Varianza de MCO (cont.)
Dados los 5 supuestos Gauss - Markov :

   2
Var ˆ j  , donde
SST j 1  R j 
2

SST j    xij  x j  y R es la R
2 2 2
j

de una regresión de x j en todas las otras x

Es decir, SSTj captura la varianza de xi, mientras que R2j


captura la correlación entre xj y las otras x del modelo.

22
Componentes de la Varianza de
MCO
 Varianza del error: a mayor 2, mayor varianza de
los estimadores MCO.
 Varianza muestral: a mayor SSTj, menor varianza
de los estimadores MCO.
 A mayor tamaño de muestra, mayor SSTj y mayor
precisión de los estimadores.
 Correlación entre las variables explicativas: a mayor
Rj2, mayor varianza de los estimadores MCO.
 Si dos variables x son altamente correlacionadas,
sus b serán poco precisas.
 Mayor varianza de los estimadores equivale a decir
menor precisión o menor eficiencia.

23
Error de especificación y eficiencia de
los estimadores MCO
   2
~ ~ ~ ~
Comparemos el modelo " incorrecto": y     x , donde Var  
0 1 1 1
SST 1

   2
Mientras que para el modelo " correcto": Var ˆ j  ,
SST j 1  R j 
2

~
 
De modo que, en general: Var 1  Var ˆ1  
(a menos que x1 y x2 no estén correlacionados)

Estimar el modelo incorrecto produce una 1 sesgada (por la variable


omitida) ¡pero de menor varianza (mayor precisión)!
Un modelo con variables omitidas puede ser engañosamente preciso.
Este es el llamado trade-off entre sesgo y eficiencia.

24
Trade-off entre sesgo y eficiencia
 La varianza del estimador es menor en el modelo
“incorrecto” pero, a menos que 2 = 0, este modelo
será sesgado.
 Un modelo con variables omitidas puede ser
engañosamente preciso y posiblemente sesgado.
 Un modelo con demasiadas variables puede ser
engañosamente impreciso: pierdes más grados de
libertad y enfrentas mayor multicolinearidad.
 Conforme el tamaño de la muestra aumenta, la
varianza de cada estimador disminuye, haciendo
que las diferencias en eficiencia sean relativamente
menos importantes.

25
Estimación de la varianza del error
 No conocemos la varianza del error, 2, porque no
observamos los errores de la población, ui
 Lo que observamos son los residuales (estimados)
del modelo muestral:

uˆi  yi  ˆ0  ˆ1 x1i  ...  ˆk xki


 Pero podemos usar los residuales estimados para
construir un estimador de la varianza del error.

26
Varianza del error (cont)

ˆ    uˆ
2
  n  k  1  SSR df
2
i

thus, se ˆ   ˆ  SST 1  R  


j j
2 12
j

 gl = n – (k + 1), o bien gl = n – k – 1
 gl (i.e. grados de libertad) son el (número de
observaciones) – (número de parámetros
estimados)
 A mayores grados de libertad, mayor precisión de
los estimadores.
27
Supuestos Gauss-Markov
1. Modelo poblacional es lineal en sus parámetros:
y = 0 + 1x1 + 2x2 +…+ kxk + u
2. Muestra aleatoria de tamaño n,
{(xi1, xi2,…, xik, yi): i=1, 2, …, n}, representativa de la
población, de modo que el modelo muestral es:
yi = 0 + 1xi1 + 2xi2 +…+ kxik + ui
3. E(u|x1, x2,… xk) = 0, lo cual implica que todas las
variables explicativas son exógenas (no
endogeneidad).
4. Ninguna variable x es constante ni tiene una
correlación lineal exacta con otra (no
multicolinealidad).

28
Teorema Gauss-Markov
 Dados los 5 supuestos Gauss-Markov, puede
demostrarse que MCO es “MELI” (BLUE):
 Mejor Estimador Lineal Insesgado
 Best Linear Unbiased Estimator
 De modo que, si los supuestos G-M se
sostienen, usar MCO es una buena idea.
 Si, además de estos 5 supuestos,
u ~ N(0, 2)  MCO es el mejor estimador
(lineal o no lineal) insesgado.

29

También podría gustarte