Regresion Lineal Simple

Regresión Lineal con regresor único
Leonardo F. Sánchez Aragón
18 de octubre de 2017
Outline
1. Aspectos generales del modelo de regresion
2. Estimacion por Minimos Cuadrados Ordinarios
3. Propiedades Numericas del Estimador MCO
4. Suma de Cuadrados y Medidas de Ajuste
5. Distribución asintótica del estimador MCO
6. Distribución muestral exacta con error normalmente distribuido
7. Variables Dummies
9. Pruebas de Hipótesis
10. Mı́nimos Cuadrados Ponderados
11. Teorema de Gauss Markov
Un distrito escolar reduce el tamaño de sus clases de educación
primaria: cuál es su efecto sobre las calificaciones de sus
estudiantes en los exámenes estandarizados?
I Esta pregunta versa sobre el efecto desconocido del cambio de
una variable X sobre otra variable Y
I Una repuesta cuantitativa: qué variación esperarı́a que
sucedies sobre las puntuaciones d elos examenes?
∆Calificaciones
β=
∆tamano
I Si conocemos el valor de β podemos dar respuesta a la
pregunta.
I Esta ecuacion es la definicion de la pendiente de una recta:
Calificaciones = β0 + β1 Tamano
I Si conocieramos los valores β0 y β1 no solo seria posible

determinar la variacion de las calificaciones asociada a una
variacion del tamaño de clases, sino que podemos predecir la
calificacion media en el examen dado el tamaño de la clases.
I El tamaño de la clases es el unico determinante de las
calificaciones. Dos distritos con similar tamaño de clases
promedio, pudieran tener calificaciones diferentes, por que?
I Estos otros factores permite reescribir a ecuacion anterior
como
Calificaciones = β0 + β1 Tamano + otrosFactores

1.1 Caracterı́sticas del modelo
La relacion teorica o poblacional entre dos variables es
Yi = β0 + β1 Xi + ui
I β0 es el término constante de esta recta.

I β1 es la pendiente de la ecuación.
I Xi es la variable independiente, exógena o regresor
I Yi es la variables dependiente, endógena o regresando
I ui es el término de error.
I β0 + β1 Xi es la lı́nea de regresion poblacional.
1.1 Caracterı́sticas del modelo
1. El modelo econométrico es estocástico.

2. El modelo econométrico es lineal en los coeficientes. Algunas
relaciones no lineales pueden convertirse en lineales
(logaritmos)
3. Los coeficientes β0 y β1 son constantes en el tiempo.
4. Existe una relación causal desde las variables explicativas
hacia la endógena.
5. β0 y β1 son parámetros poblacionales del modelo de regresión
lineal.
2. Estimador de Mı́nimos Cuadrados Ordinarios
2. Estimador de Mı́nimos Cuadrados Ordinarios
2.1 Derivación de los estimadores MCO
Suponga que dispone de una muestra alaeatoria de n observaciones
(Xi , Yi ) para todo i = 1, ..., n,
n
X
mı́n SRC = (Yi − βˆ0 − βˆ1 Xi )2
β̂0 ,β̂1 i=1
Las condiciones de primer orden son

n
∂SRC X
= (Yi − βˆ0 − βˆ1 Xi ) = 0
∂ βˆ0 i=1
n
∂SRC X
= (Yi − βˆ0 − βˆ1 Xi )Xi = 0
∂ βˆ1 i=1
Los estimadores MCO de la pendiente y el intercepto son
βˆ0 = Ȳ − βˆ1 X̄
Pn
i=1 (Yi − Ȳ )(Xi − X̄ )
βˆ1 = Pn 2
i=1 (Xi − X̄ )
Otras maneras de presentar el β̂1 son

Pn
yi xi
β̂1 = Pi=1 n
x2
Pni=1 i
Yi xi
= Pi=1 n 2
i=1 xi
Xn
= Yi wi
i=1
Donde yi = Yi − Ȳ y xi = Xi − X̄ . Además, wi = Pnxi 2 . La

i=1 xi
ultima expresion del β̂1 permite interprestar al coeficiente como el
promedio ponderado (wi ) de las observaciones Yi .
I Linea de regresion poblacional
E (Yi |Xi ) = β0 + β1 Xi
I Término de error
ui = Yi − E (Yi |Xi )
I Linea de regresion muestral
Ŷi = β̂0 + β̂1 Xi
I Término de residuo
ûi = Yi − Ŷi
3. Propiedades Numéricas de los estimadores MCO
1. La lı́nea de regresión muestral pasa por el par ordenado (X̄ , Ȳ )
Ȳ = βˆ0 + βˆ1 X̄
2. Si
Pnel modelo de regresión tiene término constante, entonces
i=1 ûi = 0
n
X n
X
ûi = (Yi − βˆ0 − βˆ1 Xi )
i=1 i=1
n
X n
X
= Yi − nβˆ0 − βˆ1 Xi
i=1 i=1
Xn n
X
= Yi − n(Ȳ − βˆ1 X̄ ) − βˆ1 Xi = 0
i=1 i=1
3. Propiedades Numéricas del estimador MCO
Pn
3. i=1 Xi ûi =0
n
X n
X
Xi ûi = Xi (Yi − βˆ0 − βˆ1 Xi )
i=1 i=1
n
X n
X
= Xi (Yi − Ȳ ) − βˆ1 (Xi − X̄ )Xi
i=1 i=1
n
X n
X
= xi yi − βˆ1 xi2
i=1 i=1
= 0
3. Propiedades Numéricas del estimador MCO
¯
4. Ȳ = Ŷ .
Partiendo de que Yi = Ŷi + ûi
n n
1X 1X
Ȳ = Ŷi + ûi
n n
i=1 i=1
n
1X
= Ŷi = Ŷ¯
n
i=1
Pn
5. i=1 Ŷi ûi =0
n
X n
X n
X n
X
Ŷi ûi = (βˆ0 + βˆ1 Xi )ûi = βˆ0 ûi + βˆ1 Xi ûi = 0
i=1 i=1 i=1 i=1
4. Suma de cuadrados
I La Suma Total al Cuadrado (STC) mide el tamaño de las
fluctuaciones experimentadas por la variable Y alrededor de
su valor medio Ȳ ,
X n
(Yi − Ȳ )2
i=1
I La Suma Explicada al Cuadrado (SEC) mide el tamaño de las
fluctuaciones experimentadas por la variable Ŷ alrededor de
su valor medio Ȳ ,
X n
(Ŷi − Ȳ )2
i=1
I La Suma Residual al Cuadrado (SRC) mide el error del
modelo en su intento de explicar la evolución de la variable Y ,
X n
ûi2
i=1
4.1 Descomposición de la suma de cuadrados
El valor de la variable dependiente para la observación i es
Yi = βˆ0 + βˆ1 Xi + ûi

Yi − Ȳ = βˆ1 (Xi − X̄ ) + ûi
2
(Yi − Ȳ )2 = βˆ1 (Xi − X̄ )2 + ûi 2 + 2βˆ1 (Xi − X̄ )ûi
n n n n
X 2X X X
(Yi − Ȳ )2 = βˆ1 (Xi − X̄ )2 + ûi 2 + 2βˆ1 (Xi − X̄ )ûi
i=1 i=1 i=1 i=1
n n n
X 2 X X
(Yi − Ȳ )2 = βˆ1 (Xi − X̄ )2 + ûi 2
i=1 i=1 i=1
Xn n
X n
X
(Yi − Ȳ )2 = (Ŷi − Ȳ )2 + ûi 2
i=1 i=1 i=1
STC = SEC + SRC
4.2 Medidas de Ajuste
Una vez estimada la linea de regresión, es posible preguntarse en

qué medida esta regresión lineal describe correctamente los datos.
I Recoge el regresor mucha o poca proporción de la variación de
la variable dependiente?
I Estn las observaciones muy agrupadas alrededor de la lı́nea de
regresión o se encuentran dispersas?
I El R 2 y el error estandar de la regresion miden la bondad del
ajuste de la lı́nea de regresion muestral MCO a los datos.
4.3 El R 2 de la regresión
I El R 2 mide qué porcentaje de la variación de Y es explicada

por la variación de X , y se calcula como,
SEC
R2 =
STC
2 Pn
βˆ1 (Xi − X̄ )2
= Pn i=1 2
i=1 (Yi − Ȳ )
Pn
SRC ûi 2
= 1− = 1 − Pn i=1 2
STC i=1 (Yi − Ȳ )
I El R 2 no tiene unidad, se lo presenta en % de STC.

I El R 2 oscila entre 0 (sin ajuste) y 1 (ajuste perfecto).
4.4 El Error Standard de la Regresion (ESR)
The ESR mide la dispersión de los residuos, es (casi) la desviación
standard muestral de los residuos
v
u n
u 1 X
ESR = t ûi2
n−2
i=1
I El ESR tienes las unidades de u, las cuales son las unidades de

Y
I Mide el error promedio que comete la linea de regresion
muestral.
I La root mean squared error (RMSE) esta estrechamente
relacionado con el ESR:
v
u n
u1 X
RMSE = t ûi2
n
i=1
I La división para n − 2 es la corrección por grados de libertad.
5. Distribución asintótica del estimador MCO
Supuesto de Mı́nimos Cuadrados Ordinarios:
1. La distribución condicional de ui dado Xi tiene media igual a

cero. E (ui |Xi ) = 0.
2. (Xi , Yi ) para todo i = 1, ..., n son independientes e
identicamente distribuidos.
3. Los datos atı́picos no son muy comunes: E (X 4 ) < ∞ y
E (Y 4 ) < ∞
5.1 Esperanza de β̂1
Se asume que E (ui |Xi ) = 0, entonces se demuestra que el
estimador βˆ1 es insesgado.
Pn Pn
i=1 Yi xi (β0 + β1 Xi + ui )xi
β̂1 = Pn 2
= i=1 Pn 2
x
i=1 i i=1 xi
Pn
xi ui
= β1 + Pi=1 n 2
i=1 xi
Tomando la esperanza a ambos lados de la expresión

Pn Pn
xi ui xi E (ui |Xi )
E (βˆ1 ) = β1 + E Pi=1 n 2
= β 1 + E i=1
P n 2
i=1 xi i=1 xi
= β1
En el último término del lado derecho se obtine usando la Ley de

Expectativas Iteradas.
5.2 Distribución ainstótica de β̂1
Partimos de
Pn
X (Xi − X̄ )ui
β̂1 = wi Yi = β1 + Pi=1
n 2
i=1 (Xi − X̄ )
I X̄ es un estimador consistente de µX , si n → ∞
1 Pn 1 Pn
i=1 (Xi − X̄ )ui → n i=1 (Xi − µX )ui = v̄
I
n
I Por el primer supuesto v̄ = 0
I Por el segundo supuesto vi es iid, entonces
σv̄2 = n1 var ((Xi − µX )ui ) = n1 σv2
I Por el tercer supuesto la varianza es finita.
Por lo tanto,
√ v̄
n ∼ N(0, 1)
σv
5.2 Distribución ainstótica de β̂1
De acuerdo al Terorema del Lı́mite Central tenemos que,
√ v̄
n ∼ N(0, 1)
σv
Asi podemos derivar que

σv
v̄ ∼ N 0,
n
1
v̄ n σv
∼ N 0, 2 2
σX2 (σX )
1
v̄ σv
β1 + ∼ N β1 , n 2 2
σX2 (σX )
Es decir, 1 2
n σv
β̂1 ∼ N β1 ,
(σX2 )2
5.3 Estimación de var (β̂1 )
Cuando n es grande, la var (β̂1 ) es
var [(Xi − µx )ui ] σv2

var (β̂1 ) = =
n(σX2 )2 n(σX2 )2
Un estimador consistente de var (β̂1 ) se lo obtiene al reemplazar el

valor poblacional de σv2 y de σX2 por los estimadores, es decir
1 Pn 2
1 σ̂v2 1 n−2 i=2 vˆi
var
ˆ (β̂1 ) = = x 1 Pn
n (σ̂X2 )2 n [ n i=1 (Xi − X̄ )2 ]2
La raiz cuadrada de la ultima expresion es el error estandard
varianza heterocedastico-robusto para β̂1 , es decir
s
1 Pn 2
ˆ 1 n−2 i=1 ûi
SE (β1 ) = x P
n n1 ni=1 (Xi − X̄ )2
5.4 Gráfico con errores heterocedasticos
6. Distribución muestral exacta con error normalmente
distribuido
I En muestras pequenas, la distribucion del estimador MCO

depende de la distribucion del error de regresion, y por lo
general son mas complicadas.
I Sin embargo con dos supuestos adicionales estas
distribuciones son mas sencillas.
Supuesto adicionales,
4. var (ui |Xi ) = σu2 (homocedasticidad)
5. La distribución condicional de ui dado Xi es normal (errores
normales)
6. Distribución muestral exacta con error normalmente
distribuido
Gráfico que muestra var (ui |Xi ) = σu2 (homocedasticidad).
6.1 Esperanza condicional de β̂1
Dada que la distribución de los errores es normal condicionado a
Xi , desmostraremos que el estimador βˆ1 es condicionalmente
insesgado. Pn
x i ui
β̂1 = β1 + Pi=1n 2
i=1 xi
Tomando la esperanza condicionada a X a ambos lados de la
expresión
Pn
i=1 xi u)

E (β̂1 |X1 , ..., Xn ) = β1 + E Pn X , ..., Xn
2 1
i=1 xi
Pn
xi E (ui |X1 , ..., Xn )
= β1 + i=1 Pn 2
i=1 xi
= β1
En el último término del lado derecho se obtine usando el supuesto

1.
6.2 Varianza condicional de β̂1
Dada que los errores se distribuyen de forma independiente ,
condicioando a X1 , ..., Xn , tenemos que
Pn
x i ui
β̂1 = β1 + Pi=1
n 2
i=1 xi
Tomando la varaianza condicionada a X a ambos lados de la

expresión
Pn
i=1 xi u)

V (β̂1 |X1 , ..., Xn ) = V Pn 2 1
X , ..., Xn
i=1 xi
Pn 2
Pn
i=1 xi V (ui |X1 , ..., Xn ) 2 x2
= 2 = σu i=1 i 2
Pn 2
Pn 2
i=1 xi i=1 xi
σ2
= Pn u 2
i=1 xi
6.3 Distribucion de β̂1
I De acuerdo alos supuesto del MCO (1-5), ui ∼ iidN(0, σu2 ).

I Ademas, ui y Xi estan independientemente distribuidas.
I β̂1 es interpretado como una suma ponderada de variables
aleatorias normalmente distribuida, puede ser expresado como.
Pn
x i ui
β̂1 = β1 + Pi=1
n 2
i=1 xi
I Se deduce que
σu2

β̂1 ∼ N β1 , P 2
xi
I Es decir, que el estimador β̂1 tiene una distribucion normal
condicioando a los valores de X1 , ..., Xn .
6.4 ¿Homocedasticidad o Heterocedasticidad? The bottom
line:
I Si los errores son homocedasticos o heteroscedasticos y utiliza

errores estndar heterocedasticos-robustos, est bien
I Si los errores son heterocedasticos y usa la frmula de
homocedasticidad para errores estndar, sus errores estndar
sern incorrectos (el estimador de homoscedastico de la
varianza de β̂1 es inconsistente si hay heteroscedasticidad).
I Las dos frmulas coinciden (cuando n es grande) en el caso
especial de homocedasticidad.
I Por lo tanto, siempre debe usar errores estndar robustos de
heteroscedasticidad.
7. Regresión cuando X es binaria
I Algunas veces un regresos es binario:

I X = 1 si la clase tiene tamaño pequeño, = 0 si no
I X = 1 si es mujer, = 0 si es hombre
I X = 1 si recibe tratamiento (droga experimental), = 0 si no
I Los regresores binarios son llamados algunas veces variables
dummy
I Hasta ahora, β1 ha sido llamada pendientes, pero esto no
tiene sentido si X es binaria.
I ¿Cómo interpretamos el coeficiente cuando la variable X es
binaria?
7.1 Interpretacion del coeficiente β1 cuando el regresor es
binaria
Cuando Xi = 0, Yi = β0 + ui
1. La media de Yi es β0
2. Es decir, E (Yi |Xi = 0)
Cuando Xi = 1, Yi = β0 + β1 + ui
1. La media de Yi es β0 + β1
2. Es decir, E (Yi |Xi = 1) = β0 + β1
Entonces:
β1 = E (Yi |Xi = 1) − E (Yi |Xi = 0)

= diferencia poblacional de las media de ambos grupos
Example

1 STR ≤ 20
I Sea Di =
0 STR > 20
I Regresion de MCO: TestScore = 650,0 + 7,4 D
(1,3) (1,8)
Computo de la medias por grupo
sȲsmall − Ȳlarge
Diferencias en medias:
r
= 657.4 - 650.0 = 7,4
2 2
ss s 19,42 17,92
Error Standard SE = + l = + = 1,8
ns nl 238 182
7.2 Resumen: regresion cuando Xi es binaria (0/1)
Yi = β0 + β1 X1 + u1
I β0 = el promedio de Y cuando X = 0
I β0 + β1 = promedio de Y cuando X = 1
I β1 = diferencia en el promedio de los grupos, X =1 menos X
=0
I SE(βˆ1 ) tiene la interpretacion usual.
I t-statistico, intervalos de confianza se construyen como es
usual.
8. Pruebas de Hipótesis
I El objetivo es probar la hipótesis β1 = 0, usando data para

alcanzar una conclusión tentativa si la hipótesis nula es
correcta o no.
I Hipótesis Nula y alternativa de 2-colas:
H0 : β1 = β1,0 vs H1 : β1 6= β1,0
donde β1,0 es el valor hipotetizado bajo la nula.

I La hipótesis nula y la alternativa de 1-cola:
H0 : β1 = β1,0 vs H1 : β1 < β1,0

8.1 Aproximación general: construccion del t-estadı́stico y
el cálculo del p-value (o compara con los valores crı́ticos de
la N(0,1))
I En general
estimador - valor de la hipotesis
t=
error estandar del estimador
I Para probar β1 ,
βˆ1 − β1,0
t=
SE (βˆ1 )
donde SE(βˆ1 ) = la raı́z cuadrada de la varianza para la
distribución muestral de βˆ1
8.1 Resumen: Para probar H0 : β1 = β1,0 v. H1 : β1 6= β1,0
I Construir el t-stadı́stico
βˆ1 − β1,0 βˆ1 − β1,0

t= = q
SE (βˆ1 ) σ̂ 2
β̂1
I Rechazar al 5 % de significancia si | t |> 1,96

I El p-value p = Pr[| t |>| t act |] es la probabilidad en las colas
a partir de | t act |] hacia el infinito; se rechaza al 5 %
significancia si el p-value is < 5 %.
I Este procedimiento depende de que cuando n es grande la
distribución muestral de βˆ1 sea normal; por lo general n = 50
es suficientemente grande para tener una excelente
aproximación.
8.2 Ejemplo: Test Scores and STR, California data
I La linea de regresión estiamda es:
TestScore = 698,9 − 2,28 × STR
I STATA reporta los errores standards:
SE (βˆ0 ) = 10,4
SE (βˆ1 ) = 0,52
I El t-statistic para la hipotesis H0 : β10 = 0, se calcula
βˆ1 − β1,0 −2,28 − 0

t= = = −4,38
SE (β̂1 ) 0,52
I Al 1 % de signficancia para una prueba alternativa de 2-colas,
el valor critico es 2.58, por lo que se rechaza el valor de la
hipotesis nuala al 1 % de significancia.
I Alternativamente, podemos calcular el p-value.
8.2 Ejemplo: Calculo del pvalue en STATA
El p-value es el área a la izquierda de -4.38 más el área a la

derecha de 4.38.
STATA:
En la lı́nea de comando se escribe: display 2*ttail(n-k-1,abs(t)).
El resultado que arroja (0.00001) es el p-value asociado al
t-estadı́stico (aproximacion usando la normal standard debido al
tamana muestral grande).
8.3 Intervalo de confianza para β1
Recordemos que la confianza al 95 % es, equivalente a:
I El conjunto de puntos que no pueden ser rechazados al 5 % de
significancia;
I Una función A set-valued function of the data (an interval
that is a function of the data) that contains the true
parameter value 95 % of the time in repeated samples.
Puesto que el t-estadı́stico para β1 es N(0,1) para muestras
grandes, construir un intervalo de confianza al 95 % para β1 es
similar al caso de la media muestral:
Intervalo de confianza al 95 %
β1 = βˆ1 ± 1,96xSE (βˆ1 )

8.4 Ejemplo: Intervalo de confianza
I Linea de regresión estimada:
TestScore = 698,9 − 2,28xSTR
I SE (βˆ0 ) = 10,4 y SE (βˆ1 ) = 0,52

I Intervalo de confianza al 95 % para βˆ1 :
β̂1 ± 1,96 × SE (β̂1 ) = 2,28 ± 1,96 × 0,52

= (−3,3; −1,26)
I Las siguientes afirmaciones son equivalentes (Por qué?)

I El intervalo de confianza al 95 % no incluye al cero;
I La hipótesis β1 = 0 es rechazada al 5 %.
8.5 Resumen de la inferencia estadı́stica para β0 y β1
I Estimación:
1. Estimador por MCO βˆ0 y βˆ1
2. βˆ0 y βˆ1 tienen una distribución muestral aproximadamente
normal para muestras grandes.
I Pruebas:
1. H0 : β1 = β1,0 v. β1 6= β1,0 (β1,0 is the value of β1 under H0 )
2. t= (βˆ1 − β1,0 )/SE (βˆ1 )
3. p-value = área bajo la curva normal standard a partir de t act
(grande n)
I Intervalo de confianza:
1. Ijntervalo de confianza al 95 % para β1 : βˆ1 ±1,96xSE (βˆ1 )
2. Este es el conjunto de β1 que no es rechazao al 5 %.
3. El intervalo de confianza de 95 % contiene el verdadero valor
de β1 en el 95 % de todas las muestras.
8.6 Implicaciones prácticas
I Si n < 30 los valores crı́ticos de t suelen ser más grande que

los valores crı́ticos para una N(0, 1).
I Si n < 50 y creemos que u es homocedasticos y distribuido
normal, entonces use la distribucion tn−2 en vez de la N(0, 1)
para pruebas de hipotesis e intervalos de confianza.
I Si n > 50 podemos invocar al Teorema del Lı́mite Central
para evaluar hipótesis y construir intervalos de confianza
usando la distribución normal.
8.7. Manera convencional de reportar los resultados de la
regresion
TestScore= 698.9 - 2.28 x STR, R 2 = .05, SER = 18.6

(10.4)(0.52)
Esta expresion da muchas información

I La linea de regresión estimada es
TestScore = 698.9 - 2.28 x STR
I El error standard de β̂0 es 10.4
I El error standard def β̂1 es 0.52
I El R 2 es .05; el error standard de la regresión es 18.6
9. Mı́nimos Cuadrados Ponderados
I Bajo los primeros supuestos de MCO el estimador es eficiente

entre todos los estiamdores lineales en Y y condicionalmente
insesgados.
I MCP es más eficiente que el estimador MCO cuando los
errores son heterocedásticos.
I MCP rqueiere conocer la forma funcional de la varianza
condicional var (ui |Xi )
I Se analizan dos casos:
1. cuando la var (ui |Xi ) es conocida con un factor de
proporcionalidad
2. cuando la forma funcional de var (ui |Xi ) es conocida pero esta
en funcion de parámetros desconocidos con un factor de
proporcionalidad
9.1 MCP con heterocedasticidad conocida
I Suponga que var (ui |Xi ) = λh(Xi ), donde λ es una constante
y h(Xi ) es una funcion conocida.En este caso el estimador
MCP se obtiene mediante:
1. Dividir las variables dependiente y el regresor por la raı́z
cuadrada de h(Xi ).
2. Realizar la estimación MCO de la variable Y transformada
versus el regresos transformado.
I Por ejemplo, si el modelo es Yi = β0 + β1 Xi + ui , la
transformación serı́a:
Yi = β0 + β1 Xi + ui
Y β0 Xi ui
p i = p + β1 p +p
h(Xi ) h(Xi ) h(Xi ) h(Xi )
Ỹi = β0 X̃0i + β1 X̃1i + ũi
9.1 MCP con heterocedasticidad conocida
I En stata se estimaria el siguiente modelo: regress Ỹi X̃0i X̃1i .
I La variable X̃0i toma el lugar del intercepto
I La varianza condicional del nuevo termino de error seria

ui var (ui |Xi )
var (ũi |Xi ) = var p |Xi = p
h(Xi ) h(Xi )
λh(Xi )
= =λ
h(Xi )
I Por lo que la varianza de los nuevos errores h(Xi ) es
homocedastica.
I Si los 4 primeros supuesto se cumplen, y siguiende el teorema
de Gauss Markov, la estimaciones MCO sobre el modelo
transformado serán MELI.
9.2 MCP con heterocedasticidad de forma funcional
conocida: MCP factibles
I En la práctica la función h(Xi ) es desconocida por lo que no

puede realizarse las transformaciones a las variables del
modelo.
I Si lavar (ui |Xi ) tiene una forma funcional conocida, entonces
el estimador MCP puede calcular utilizando dicha función.
I Algunos ejemplos de formas funcionales para la varianza de u.
1. La varianza de u es cuadrática en X : var (ui |Xi ) = θ0 + θ1 Xi2 ,
donde θ0 y θ1 son desconocidad y mayores a cero. Por que?
2. La varianza depende de una tercera variable:
var (ui |Xi , Wi ) = θ0 + θ1 Wi , MCP es consistente si
E (ui |Xi , Wi ) = 0
9.2 MCP con heterocedasticidad de forma funcional
conocida: MCP factibles
El metodo de MCP factible consta de cinco pasos:
1. Regresión de Yi sobre Xi mediante MCO y obtenga los
residuos ûi .
2. Estime un modelo para la función de la varianza condicional.
Por ejemplo si var (ui |Xi ) = θ0 + θ1 Xi2 , se usaria a ûi2 como
un estimador consiste de var (ui |Xi ).
3. Se calculan los valores estimados de ûi2 = θ0 + θ1 Xi2 + vi y
con ello tuvieramos el valor esperado de la función de varianza
condicional.
4. Se realiza la transformación de las variables Yi y Xi dividiendo
cada una por la raı́z cuadrada de la varianza estimada en el
paso anterior.
5. Se estima por MCO el modelo transformado, los coeficiente
estiamdao serian las estimaciones MCP.
I Si los tres supuesos de Mı́nimos Cuadrados se cumplen y si el
error es homocedástico, entonces el estimador MCO de β̂1
tiene la menor varianza condicionada a X1 , X2 , ..., Xn , de entre
todos los estimadores lineales (funciones lineales de
Y1 , Y2 , ..., Yn ). Es decir, el estimador MCO de es el Mejor
Estimador Lineal Insesgado (MELI).
I Recordemos que
Pn
xi ui
β̂1 = β1 + Pi=1 n 2
i=1 xi
n
1X
β̂1 − β1 = wi ui
n
i=1
I El teorema plantea que entre todas las posibles opciones de

wi el peso que MCO asigna genera la menor varianza de β̂1 .
I Bajo los supuestos 1-4, ( las tres básicos más

homocedasticidad), βˆ1 tiene a varianza más pequeña entre
todos los estimadores lineales (estimadores que son funciones
lineales de Y1 , ..., Yn ). Esto es el Teorema de Gauss-Markov.
I Bajo los supuestos 1-5 (los tres básicos, más el de
homocedasticidad y la normalidad de los errores), βˆ1 tiene la
varianza más pequeña entre todos los estimadores consistente
(estimadores que son no solo funcion lineal de Y 1 , ..., Yn ),
sino tambien lo NO lineales, a medida que n − > ∞.
I Este resultado dice que si los errores son homocedásticos y se
distribuyen normal (además de los 3 supuestos básicos), MCO
es la mejor opción que cualquier otro estimadorr consistente.
10.1 Limitaciones de MCO
El estimador MCO tiene importantes limitaciones.

1. La condición de homocedasticidad usalmente no se cumple.
2. El resultado es solo para estimadores lineales.
3. El resultado más fuerte requiere que los errores sean
homocedásticos y se distirbuyan normalmente.
4. MCO es mas sensible a datos atipicos qye otros estiamdores,
los cuales pueden generar varainzas mas pequenas (por
ejemplo el estimador de mı́nima desviación absoluta).
Resumen y evaluación final
I La pregunta inicial de la polı́tica:
I Supongamos que se contratan nuevos maestros, por lo que la
relación estudiante-profesor cae 1 alumno por clase. ¿Cuál es
el efecto de esta intervención polı́tica (”tratamiento”) en los
puntajes de los exámenes?
I ¿Son convincentes nuestro resultados del análisis de regresión
usando los datos de California?
I En realidad, los distritos con poco STR tienden a ser los que
tienen muchos otros recursos y familias con mayores ingresos,
lo que les brinda a los niños más oportunidades de aprendizaje
fuera de la escuela ... esto sugiere que corr (ui , STRi ) > 0, por
lo que E (ui |Xi ) 6= 0.
I Parece que hemos omitido algunos factores, o variables, de
nuestro análisis, y esto ha sesgado nuestros resultados ...

Regresion Lineal Simple

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion Lineal Simple

Cargado por

Copyright:

Formatos disponibles

Regresión Lineal con regresor único

Leonardo F. Sánchez Aragón

I Si conocieramos los valores β0 y β1 no solo seria posible

Calificaciones = β0 + β1 Tamano + otrosFactores

La relacion teorica o poblacional entre dos variables es

I β0 es el término constante de esta recta.

1. El modelo econométrico es estocástico.

Las condiciones de primer orden son

Los estimadores MCO de la pendiente y el intercepto son

Otras maneras de presentar el β̂1 son

Donde yi = Yi − Ȳ y xi = Xi − X̄ . Además, wi = Pnxi 2 . La

I Linea de regresion poblacional

I Linea de regresion muestral

Ŷi = β̂0 + β̂1 Xi

Yi = βˆ0 + βˆ1 Xi + ûi

Una vez estimada la linea de regresión, es posible preguntarse en

I El R 2 mide qué porcentaje de la variación de Y es explicada

I El R 2 no tiene unidad, se lo presenta en % de STC.

I El ESR tienes las unidades de u, las cuales son las unidades de

Supuesto de Mı́nimos Cuadrados Ordinarios:

1. La distribución condicional de ui dado Xi tiene media igual a

Tomando la esperanza a ambos lados de la expresión

En el último término del lado derecho se obtine usando la Ley de

var [(Xi − µx )ui ] σv2

Un estimador consistente de var (β̂1 ) se lo obtiene al reemplazar el

I En muestras pequenas, la distribucion del estimador MCO

En el último término del lado derecho se obtine usando el supuesto

Tomando la varaianza condicionada a X a ambos lados de la

I De acuerdo alos supuesto del MCO (1-5), ui ∼ iidN(0, σu2 ).

I Si los errores son homocedasticos o heteroscedasticos y utiliza

I Algunas veces un regresos es binario:

β1 = E (Yi |Xi = 1) − E (Yi |Xi = 0)

Computo de la medias por grupo

I El objetivo es probar la hipótesis β1 = 0, usando data para

donde β1,0 es el valor hipotetizado bajo la nula.

H0 : β1 = β1,0 vs H1 : β1 < β1,0

βˆ1 − β1,0 βˆ1 − β1,0

I Rechazar al 5 % de significancia si | t |> 1,96

βˆ1 − β1,0 −2,28 − 0

El p-value es el área a la izquierda de -4.38 más el área a la

β1 = βˆ1 ± 1,96xSE (βˆ1 )

I Linea de regresión estimada:

TestScore = 698,9 − 2,28xSTR

I SE (βˆ0 ) = 10,4 y SE (βˆ1 ) = 0,52

β̂1 ± 1,96 × SE (β̂1 ) = 2,28 ± 1,96 × 0,52

I Las siguientes afirmaciones son equivalentes (Por qué?)

I Si n < 30 los valores crı́ticos de t suelen ser más grande que

TestScore= 698.9 - 2.28 x STR, R 2 = .05, SER = 18.6

Esta expresion da muchas información

I Bajo los primeros supuestos de MCO el estimador es eficiente

I En la práctica la función h(Xi ) es desconocida por lo que no

I El teorema plantea que entre todas las posibles opciones de

I Bajo los supuestos 1-4, ( las tres básicos más

El estimador MCO tiene importantes limitaciones.

También podría gustarte