Documentos de Académico
Documentos de Profesional
Documentos de Cultura
http://publiceconomics.wordpress.com/verano2009
Julio 2009
1
Similitudes con regresión simple
0 es el intercepto
1 a k son k parámetros de pendiente
u es el término de error o residual
El supuesto de media condicional cero se
mantiene:
E(u|x1,x2, …,xk) = 0
Igual que antes, minimizamos la suma de
residuales cuadrados, de modo que tenemos
k+1 condiciones de primer orden (o k+1
parámetros a estimar)
2
Interpretación de la regresión
múltiple
yˆ ˆ0 ˆ1 x1 ˆ2 x2 ... ˆk xk , de modo que
yˆ ˆ x ˆ x ... ˆ x ,
1 1 2 2 k k
3
interpretada como una “derivada
parcial”
Considere el caso donde k 2, i.e.
yˆ ˆ ˆ x ˆ x , entonces
0 1 1 2 2
~ ~ ~
Compare la regresión simple y 0 1 x1
con la regresión multiple yˆ ˆ0 ˆ1 x1 ˆ2 x2
~
En general, 1 ˆ1 a menos que :
ˆ 0 (i.e. x no tenga un efecto parcial significativo)
2 2
6
Suma de cuadrados: Terminología
Podemos separar cada observación en un componente
explicado (sistemático) y un componente no explicado :
yi yˆ i uˆi De modo que podemos definir lo siguiente :
y y es la Suma Total de cuadrados : SST
2
i
7
Bondad de ajuste: R2
¿Cómo saber qué tan bueno es el ajuste
entre la regresión y los datos de la muestra?
Podemos calcular la proporción de la Suma
de cuadrados totales (SST) que es
“explicada” por el modelo.
Esto es la llamada R-cuadrada de una
regresión:
R2 = SSE/SST = 1 – SSR/SST
8
Bondad de ajuste: R2
2
R también puede definirse como el cuadrado
del coeficiente de correlación entre los valores
observados, yi , y los valores predichos, yˆ i :
y y yˆ yˆ
2
y y yˆ yˆ
i i
R 2
2 2
i i
9
R-cuadrada: discusión
R2 nunca decrecerá conforme incluyamos más
variables explicativas a la regresión, y por lo general
aumentará (así sea marginalmente).
¿Por qué? Incluir variables adicionales aumenta la
SSE aunque no sean significativas.
Dado que R2 típicamente aumenta con el número
de variables independientes, no es por sí sola un
buen criterio para comparar modelos.
10
no sesgadas:
supuestos Gauss-Markov
1. Modelo poblacional es lineal en sus parámetros:
y = 0 + 1x1 + 2x2 +…+ kxk + u
2. Muestra aleatoria de tamaño n,
{(xi1, xi2,…, xik, yi): i=1, 2, …, n}, representativa de la
población, de modo que el modelo muestral es:
yi = 0 + 1xi1 + 2xi2 +…+ kxik + ui
3. E(u|x1, x2,… xk) = 0, lo cual implica que todas las
variables explicativas son exógenas (no
endogeneidad).
4. Ninguna variable x es constante ni tiene una
correlación lineal exacta con otra (no
multicolinealidad).
11
Demasiadas vs. pocas variables
~
1 x
i1 x1 yi
(*)
x x1
2
i1
13
Sesgo de variable omitida
(continuación)
Retomando el modelo " verdadero":
yi 0 1 xi1 2 xi 2 ui ,
de modo que el numerador de (*) es :
x x x x u
i1 1 0 1 i1 2 i2 i
x x x x x x x1 ui
2
1 i1 1 2 i1 1 i2 i1
14
Sesgo de variable omitida
(continuación)
~
1 2 x x x x
i1 1 i2 i1 x1 ui
x x x x1
2 2
i1 1 i1
~
E 1 1 2
x x x
i1 1 i2
x x
2
i1 1
15
Sesgo de variable omitida
(continuación)
Consideremos la regresión de x2 en x1 :
~ ~ ~ ~
x2 0 1 x1 donde 1
x x x
i1 1 i2
x x
2
i1 1
~
1 denota el impacto de x1 en x2
~
de modo que E 1 1 2 1
~
~
i.e., 1 tiene un sesgo.
16
Sesgo positivo o negativo en 1
17
Sesgo de variable omitida: resumen
Dos casos donde el sesgo es igual a cero:
2 = 0, es decir, x2 no pertenecía al modelo poblacional
x1 y x2 no están correlacionados en la muestra
Si la correlación entre (x2, x1) y entre (x2, y) es del
mismo signo, el sesgo es positivo.
Si omites una variable x2 que se mueve en el mismo
sentido que x1, y ésta afecta positivamente a y, 1
capturará parte de dicho impacto (sobre- estimada).
Si la correlación entre (x2, x1) y entre (x2, y) es de
signo opuesto, el sesgo es negativo.
18
El caso más general:
sesgo en todas las i
Técnicamente, sólo podemos anticipar el signo de
este sesgo cuando el resto de las variables
explicativas incluidas no están correlacionadas
entre sí ni con la variable omitida
Si esto no se cumple, el sesgo afecta a todas las i
estimadas, dependiendo de las covarianzas entre
las variables incluidas y con la variable omitida.
Aún así, resulta útil calcular el sesgo de variable
omitida asumiendo que las otras x no están
correlacionadas, aún cuando este supuesto no se
cumpla.
19
Varianza de los estimadores MCO
Ya vimos que la “distribución muestral” de los
estimadores está centrada en torno a los
“verdaderos” parámetros (insesgamiento).
¿Qué tan dispersa será la distribución de los
estimadores?
Para analizar esto, requerimos el 5º supuesto
Gauss-Markov:
Var(u|x1, x2,…, xk) = 2
conocido como homoscedasticidad
(homoskedasticity): varianza constante.
20
Varianza de MCO (cont.)
21
Varianza de MCO (cont.)
Dados los 5 supuestos Gauss - Markov :
2
Var ˆ j , donde
SST j 1 R j
2
SST j xij x j y R es la R
2 2 2
j
22
Componentes de la Varianza de
MCO
Varianza del error: a mayor 2, mayor varianza de
los estimadores MCO.
Varianza muestral: a mayor SSTj, menor varianza
de los estimadores MCO.
A mayor tamaño de muestra, mayor SSTj y mayor
precisión de los estimadores.
Correlación entre las variables explicativas: a mayor
Rj2, mayor varianza de los estimadores MCO.
Si dos variables x son altamente correlacionadas,
sus b serán poco precisas.
Mayor varianza de los estimadores equivale a decir
menor precisión o menor eficiencia.
23
Error de especificación y eficiencia de
los estimadores MCO
2
~ ~ ~ ~
Comparemos el modelo " incorrecto": y x , donde Var
0 1 1 1
SST 1
2
Mientras que para el modelo " correcto": Var ˆ j ,
SST j 1 R j
2
~
De modo que, en general: Var 1 Var ˆ1
(a menos que x1 y x2 no estén correlacionados)
24
Trade-off entre sesgo y eficiencia
La varianza del estimador es menor en el modelo
“incorrecto” pero, a menos que 2 = 0, este modelo
será sesgado.
Un modelo con variables omitidas puede ser
engañosamente preciso y posiblemente sesgado.
Un modelo con demasiadas variables puede ser
engañosamente impreciso: pierdes más grados de
libertad y enfrentas mayor multicolinearidad.
Conforme el tamaño de la muestra aumenta, la
varianza de cada estimador disminuye, haciendo
que las diferencias en eficiencia sean relativamente
menos importantes.
25
Estimación de la varianza del error
No conocemos la varianza del error, 2, porque no
observamos los errores de la población, ui
Lo que observamos son los residuales (estimados)
del modelo muestral:
26
Varianza del error (cont)
ˆ uˆ
2
n k 1 SSR df
2
i
gl = n – (k + 1), o bien gl = n – k – 1
gl (i.e. grados de libertad) son el (número de
observaciones) – (número de parámetros
estimados)
A mayores grados de libertad, mayor precisión de
los estimadores.
27
Supuestos Gauss-Markov
1. Modelo poblacional es lineal en sus parámetros:
y = 0 + 1x1 + 2x2 +…+ kxk + u
2. Muestra aleatoria de tamaño n,
{(xi1, xi2,…, xik, yi): i=1, 2, …, n}, representativa de la
población, de modo que el modelo muestral es:
yi = 0 + 1xi1 + 2xi2 +…+ kxik + ui
3. E(u|x1, x2,… xk) = 0, lo cual implica que todas las
variables explicativas son exógenas (no
endogeneidad).
4. Ninguna variable x es constante ni tiene una
correlación lineal exacta con otra (no
multicolinealidad).
28
Teorema Gauss-Markov
Dados los 5 supuestos Gauss-Markov, puede
demostrarse que MCO es “MELI” (BLUE):
Mejor Estimador Lineal Insesgado
Best Linear Unbiased Estimator
De modo que, si los supuestos G-M se
sostienen, usar MCO es una buena idea.
Si, además de estos 5 supuestos,
u ~ N(0, 2) MCO es el mejor estimador
(lineal o no lineal) insesgado.
29