Documentos de Académico
Documentos de Profesional
Documentos de Cultura
yi = b0 + b1xi + ui
Javier Aparicio
División de Estudios Políticos, CIDE
javier.aparicio@cide.edu
Primavera 2011
http://www.cide.edu/investigadores/aparicio/metodos.html
1
Contenido
2
y = b0 + b1x + u
3
Algunos supuestos
4
Media condicional = 0
5
E(y|x) es una funcion lineal de x: para cada x,
la predicción de y es E(y|x)
y
f(y)
. E(y|x) = b + b x
0 1
.
x1 x2
6
Mínimos Cuadrados Ordinarios (MCO)
7
Línea de regresión, observaciones y errores
y E(y|x) = b0 + b1x
y4 .{
u4
y3 .} u3
y2 u2 {.
y1 .} u1
x1 x2 x3 x4 x
8
Derivación de estimadores MCO /OLS
Cov(x,u) = E(xu) = 0
9
…continuación MCO/OLS
10
Derivación de MCO usando el
Método de Momentos (MOM)
(Breviario: el 1º, 2º, 3º y 4º momentos de una función de distribución
de una variable aleatoria son la media, varianza, sesgo y kurtosis,
respectivamente.)
El método de momentos consiste en imponer las
restricciones de momentos, asumidas como ciertas
para la población, en los momentos de la muestra.
¿Pero cómo? Recuerden que un estimador
muestral de E(X), la media de una población, es
simplemente la media aritmética de la muestra.
11
Derivación de MCO / OLS
n
n 1
i 1
y i
ˆ
b 0 ˆ x 0
b1 i (1ª)
n
n 1
i i 0 1i
x
i 1
y ˆ bˆ x 0
b (2ª )
12
Estimador MCO / OLS: intercepto
Dada la definición de media muestral y las
propiedades de la sumatorias, podemos reescribir la
primera restricción como sigue:
n
n 1
i 1
y ˆ
b
i 0 ˆ x 0
b1 i
ˆ ˆ
y b 0 b1 x ,
o bien
bˆ y bˆ x
0 1
13
Derivación de MCO / OLS
Y ahora, sustituyendo b0 en la segunda restricción, tenemos:
n
n 1 xi yi bˆ0 bˆ1 xi 0
i 1
n
i i
x y
i 1
y ˆ x bˆ x 0
b 1 1 i
n n
x
i i y y ˆ
b 1 xi xi x
i 1 i 1
Aquí hay un paso “mágico” ver apéndice A.7 y A.8.
n n
xi x yi y b1 xi x
ˆ 2
i 1 i 1
14
…estimador MCO / OLS: pendiente b1
n n
b̂1 xi x xi x yi y
2
i 1 i 1
n
x x y
i i y
cov( x, y )
bˆ1 i 1
n
x x
2 var( x)
i
i 1
n
x x 0
2
toda vez que x tenga varianza : i
i 1
15
Sobre el estimador MCO de b1
b1, es la covarianza muestral entre x y y, dividida
entre la varianza muestral de x.
Si x y y están correlacionados positivamente, b1
será positivo (pues la varianza del denominador
siempre es positiva).
Si x y y están correlacionados negativamente, b1
será negativo.
Si x y y no tienen correlación alguna, b1 no será
estadísticamente distinto de cero (volveremos a
esto más tarde).
Obviamente, requerimos que x tenga cierta varianza
en la muestra.
16
MCO / OLS
y1
}
. û1
x1 x2 x3 x4 x
18
Un enfoque alternativo:
Minimizar residuales al cuadrado
Siguiendo la idea de ajustar una línea de regresión,
podemos plantear un problema de minimización.
Es decir, buscar parámetros b tales que minimicen
la siguiente expresión:
n n
ui yi b 0 b1 xi
ˆ ˆ 2
ˆ 2
i 1 i 1
19
...continuación
Usando cálculo para resolver un problema de
minimización con dos parámetros resulta en dos
condiciones de primer orden (FOC)–similares a
las restricciones de momentos vistas antes, pero
ahora multiplicadas por n:
n
y
i 1
ˆ
b
i 0 ˆ x 0
b 1 i
n
i i 0 1i
x y
i 1
ˆ bˆ x 0
b
20
Propiedades algebraicas de MCO / OLS
21
Propiedades algebraicas
(matemáticamente)
n
n uˆ i
x uˆ
i 1
i i 0 por tanto, cov (x,u) 0
y bˆ0 bˆ1 x
22
Suma de cuadrados: Terminología
Podemos separar cada observació n en un componente
explicado (sistemáti co) y un componente no explicado :
yi yˆ i uˆi De modo que podemos definir lo siguiente :
y y es la Suma Total de cuadrados : SST
2
i
23
Demostración: SST = SSE + SSR
SST yi y yi yˆ i yˆ i y
2 2
uˆi yˆ i y
2
uˆ 2 uˆi yˆ i y yˆ i y
2 2
i
24
Bondad de ajuste: R 2
25
Haciendo regresiones con stata
Hemos visto como derivar las fórmulas para
calcular estimadores MCO de nuestros
parámetros de interés b.
Podemos calcularlos “a mano” (muy tedioso),
o aplicar estas fórmulas en una hoja de
cálculo como excel (algo tedioso), o bien
usar un paquete estadístico estándar como
stata (muy fácil)
Para correr una regresión de y en x en stata:
regress y x1 x2 x3 (ver ejemplo)
26
Sesgo y eficiencia de MCO
27
Supuestos Gauss-Markov I:
Insesgamiento de MCO/OLS
1. El modelo poblacional es lineal en sus
parámetros: y = b0 + b1x + u
2. Muestra aleatoria de tamaño n,
{(xi, yi): i=1, 2, …, n}, representativa de la
población, de modo que el modelo muestral
es: yi = b0 + b1xi + ui
3. Media condicional cero: E(u|x) = 0 y por
tanto E(ui|xi) = 0
4. Varianza(xi ) > 0
28
Insesgamiento de MCO
x x y
bˆ1 i
2
i
, donde
s x
s xi x
2 2
x
29
Insesgamiento de MCO (cont.)
Sustituyendo para yi, el numerador de la expresión anterior
puede descomponerse como sigue:
x x y x x b b x u
i i i 0 1 i i
x x b x x b x x x u
i 0 i 1 i i i
b x x b x x x x x u
0 i 1 i i i i
30
Insesgamiento de MCO (cont.)
Por estadístic a básica, sabemos que :
x x 0, y
i
x x x x x s x2
2
i i i
s x2
31
Insesgamiento de MCO (cont.)
Finalmente , si definimos d i xi x , de modo que
1
b i b1 2 d i ui , y aplicamos valor esperado :
ˆ
sx
ˆ 1
E b1 b1 2 d i E ui b1
sx
El operador E(.) aplica a ui, el único componente aleatorio de la
expresión.
El valor esperado de la b1 estimada es el “verdadero” parámetro
poblacional—toda vez que los 4 supuestos Gauss-Markov se
cumplan.
32
Insesgamiento: resumen
35
Homoscedasticidad
y
f(y|x)
. E(y|x) = b + b x
0 1
.
x1 x2
36
Heteroscedasticidad
f(y|x)
.
. E(y|x) = b0 + b1x
.
x1 x2 x3 x
37
Varianza de MCO (cont.)
ˆ 1
Var b1 Var b1
2 d i ui
x
s
2 2
2 Var d i ui
1 1
sx
2
sx
i Varui
d 2
2 2
1 1
2
sx
d s s sx2
i
2 2 2
d i
2
2
1 2 s2 ˆ
s 2
2 sx 2 Var b1
sx sx
38
Varianza de MCO: resumen
39
Estimación de la varianza del error
40
Estimación de la varianza del error
uˆi yi bˆ0 bˆ1 xi , y sustituyen do para yi
b b x u bˆ bˆ x
0 1 i i 0 1 i
ui bˆ0 b 0 bˆ1 b1 xi
por insesgamie nto, ambos paréntesis se eliminan.. .
de modo que un estimador insesgado de s 2 es :
1 SSR
sˆ
2
n 2 uˆi
2
n 2
41
Estimación de la varianza del error
s s error estándar de la regresión
ˆ ˆ 2
se bˆ1
sˆ
x x
i
2
1
2
42
Apéndice A.
Propiedades del operador Suma
43
Apéndice A.
Propiedades del operador Suma
44