Está en la página 1de 57

Regresión Lineal con regresor único

Leonardo F. Sánchez Aragón

18 de octubre de 2017
Outline
1. Aspectos generales del modelo de regresion
2. Estimacion por Minimos Cuadrados Ordinarios
3. Propiedades Numericas del Estimador MCO
4. Suma de Cuadrados y Medidas de Ajuste
5. Distribución asintótica del estimador MCO
6. Distribución muestral exacta con error normalmente distribuido
7. Variables Dummies
9. Pruebas de Hipótesis
10. Mı́nimos Cuadrados Ponderados
11. Teorema de Gauss Markov
1. Aspectos generales del modelo de regresion
Un distrito escolar reduce el tamaño de sus clases de educación
primaria: cuál es su efecto sobre las calificaciones de sus
estudiantes en los exámenes estandarizados?
I Esta pregunta versa sobre el efecto desconocido del cambio de
una variable X sobre otra variable Y
I Una repuesta cuantitativa: qué variación esperarı́a que
sucedies sobre las puntuaciones d elos examenes?
∆Calificaciones
β=
∆tamano
I Si conocemos el valor de β podemos dar respuesta a la
pregunta.
I Esta ecuacion es la definicion de la pendiente de una recta:

Calificaciones = β0 + β1 Tamano
1. Aspectos generales del modelo de regresion

I Si conocieramos los valores β0 y β1 no solo seria posible


determinar la variacion de las calificaciones asociada a una
variacion del tamaño de clases, sino que podemos predecir la
calificacion media en el examen dado el tamaño de la clases.
I El tamaño de la clases es el unico determinante de las
calificaciones. Dos distritos con similar tamaño de clases
promedio, pudieran tener calificaciones diferentes, por que?
I Estos otros factores permite reescribir a ecuacion anterior
como

Calificaciones = β0 + β1 Tamano + otrosFactores


1. Aspectos generales del modelo de regresion
1.1 Caracterı́sticas del modelo

La relacion teorica o poblacional entre dos variables es

Yi = β0 + β1 Xi + ui

I β0 es el término constante de esta recta.


I β1 es la pendiente de la ecuación.
I Xi es la variable independiente, exógena o regresor
I Yi es la variables dependiente, endógena o regresando
I ui es el término de error.
I β0 + β1 Xi es la lı́nea de regresion poblacional.
1.1 Caracterı́sticas del modelo

1. El modelo econométrico es estocástico.


2. El modelo econométrico es lineal en los coeficientes. Algunas
relaciones no lineales pueden convertirse en lineales
(logaritmos)
3. Los coeficientes β0 y β1 son constantes en el tiempo.
4. Existe una relación causal desde las variables explicativas
hacia la endógena.
5. β0 y β1 son parámetros poblacionales del modelo de regresión
lineal.
2. Estimador de Mı́nimos Cuadrados Ordinarios
2. Estimador de Mı́nimos Cuadrados Ordinarios
2.1 Derivación de los estimadores MCO
Suponga que dispone de una muestra alaeatoria de n observaciones
(Xi , Yi ) para todo i = 1, ..., n,
n
X
mı́n SRC = (Yi − βˆ0 − βˆ1 Xi )2
β̂0 ,β̂1 i=1

Las condiciones de primer orden son


n
∂SRC X
= (Yi − βˆ0 − βˆ1 Xi ) = 0
∂ βˆ0 i=1
n
∂SRC X
= (Yi − βˆ0 − βˆ1 Xi )Xi = 0
∂ βˆ1 i=1
2.1 Derivación de los estimadores MCO

Los estimadores MCO de la pendiente y el intercepto son

βˆ0 = Ȳ − βˆ1 X̄
Pn
i=1 (Yi − Ȳ )(Xi − X̄ )
βˆ1 = Pn 2
i=1 (Xi − X̄ )
2.1 Derivación de los estimadores MCO

Otras maneras de presentar el β̂1 son


Pn
yi xi
β̂1 = Pi=1 n
x2
Pni=1 i
Yi xi
= Pi=1 n 2
i=1 xi
Xn
= Yi wi
i=1

Donde yi = Yi − Ȳ y xi = Xi − X̄ . Además, wi = Pnxi 2 . La


i=1 xi
ultima expresion del β̂1 permite interprestar al coeficiente como el
promedio ponderado (wi ) de las observaciones Yi .
2.1 Derivación de los estimadores MCO
2.1 Derivación de los estimadores MCO

I Linea de regresion poblacional

E (Yi |Xi ) = β0 + β1 Xi

I Término de error

ui = Yi − E (Yi |Xi )

I Linea de regresion muestral

Ŷi = β̂0 + β̂1 Xi

I Término de residuo
ûi = Yi − Ŷi
3. Propiedades Numéricas de los estimadores MCO
1. La lı́nea de regresión muestral pasa por el par ordenado (X̄ , Ȳ )

Ȳ = βˆ0 + βˆ1 X̄

2. Si
Pnel modelo de regresión tiene término constante, entonces
i=1 ûi = 0

n
X n
X
ûi = (Yi − βˆ0 − βˆ1 Xi )
i=1 i=1
n
X n
X
= Yi − nβˆ0 − βˆ1 Xi
i=1 i=1
Xn n
X
= Yi − n(Ȳ − βˆ1 X̄ ) − βˆ1 Xi = 0
i=1 i=1
3. Propiedades Numéricas del estimador MCO

Pn
3. i=1 Xi ûi =0
n
X n
X
Xi ûi = Xi (Yi − βˆ0 − βˆ1 Xi )
i=1 i=1
n
X n
X
= Xi (Yi − Ȳ ) − βˆ1 (Xi − X̄ )Xi
i=1 i=1
n
X n
X
= xi yi − βˆ1 xi2
i=1 i=1
= 0
3. Propiedades Numéricas del estimador MCO
¯
4. Ȳ = Ŷ .
Partiendo de que Yi = Ŷi + ûi
n n
1X 1X
Ȳ = Ŷi + ûi
n n
i=1 i=1
n
1X
= Ŷi = Ŷ¯
n
i=1
Pn
5. i=1 Ŷi ûi =0
n
X n
X n
X n
X
Ŷi ûi = (βˆ0 + βˆ1 Xi )ûi = βˆ0 ûi + βˆ1 Xi ûi = 0
i=1 i=1 i=1 i=1
4. Suma de cuadrados
I La Suma Total al Cuadrado (STC) mide el tamaño de las
fluctuaciones experimentadas por la variable Y alrededor de
su valor medio Ȳ ,
X n
(Yi − Ȳ )2
i=1
I La Suma Explicada al Cuadrado (SEC) mide el tamaño de las
fluctuaciones experimentadas por la variable Ŷ alrededor de
su valor medio Ȳ ,
X n
(Ŷi − Ȳ )2
i=1
I La Suma Residual al Cuadrado (SRC) mide el error del
modelo en su intento de explicar la evolución de la variable Y ,
X n
ûi2
i=1
4.1 Descomposición de la suma de cuadrados
El valor de la variable dependiente para la observación i es

Yi = βˆ0 + βˆ1 Xi + ûi


Yi − Ȳ = βˆ1 (Xi − X̄ ) + ûi
2
(Yi − Ȳ )2 = βˆ1 (Xi − X̄ )2 + ûi 2 + 2βˆ1 (Xi − X̄ )ûi
n n n n
X 2X X X
(Yi − Ȳ )2 = βˆ1 (Xi − X̄ )2 + ûi 2 + 2βˆ1 (Xi − X̄ )ûi
i=1 i=1 i=1 i=1
n n n
X 2 X X
(Yi − Ȳ )2 = βˆ1 (Xi − X̄ )2 + ûi 2
i=1 i=1 i=1
Xn n
X n
X
(Yi − Ȳ )2 = (Ŷi − Ȳ )2 + ûi 2
i=1 i=1 i=1
STC = SEC + SRC
4.2 Medidas de Ajuste

Una vez estimada la linea de regresión, es posible preguntarse en


qué medida esta regresión lineal describe correctamente los datos.
I Recoge el regresor mucha o poca proporción de la variación de
la variable dependiente?
I Estn las observaciones muy agrupadas alrededor de la lı́nea de
regresión o se encuentran dispersas?
I El R 2 y el error estandar de la regresion miden la bondad del
ajuste de la lı́nea de regresion muestral MCO a los datos.
4.3 El R 2 de la regresión

I El R 2 mide qué porcentaje de la variación de Y es explicada


por la variación de X , y se calcula como,
SEC
R2 =
STC
2 Pn
βˆ1 (Xi − X̄ )2
= Pn i=1 2
i=1 (Yi − Ȳ )
Pn
SRC ûi 2
= 1− = 1 − Pn i=1 2
STC i=1 (Yi − Ȳ )

I El R 2 no tiene unidad, se lo presenta en % de STC.


I El R 2 oscila entre 0 (sin ajuste) y 1 (ajuste perfecto).
4.4 El Error Standard de la Regresion (ESR)
The ESR mide la dispersión de los residuos, es (casi) la desviación
standard muestral de los residuos
v
u n
u 1 X
ESR = t ûi2
n−2
i=1

I El ESR tienes las unidades de u, las cuales son las unidades de


Y
I Mide el error promedio que comete la linea de regresion
muestral.
I La root mean squared error (RMSE) esta estrechamente
relacionado con el ESR:
v
u n
u1 X
RMSE = t ûi2
n
i=1
I La división para n − 2 es la corrección por grados de libertad.
5. Distribución asintótica del estimador MCO

Supuesto de Mı́nimos Cuadrados Ordinarios:

1. La distribución condicional de ui dado Xi tiene media igual a


cero. E (ui |Xi ) = 0.
2. (Xi , Yi ) para todo i = 1, ..., n son independientes e
identicamente distribuidos.
3. Los datos atı́picos no son muy comunes: E (X 4 ) < ∞ y
E (Y 4 ) < ∞
5.1 Esperanza de β̂1
Se asume que E (ui |Xi ) = 0, entonces se demuestra que el
estimador βˆ1 es insesgado.
Pn Pn
i=1 Yi xi (β0 + β1 Xi + ui )xi
β̂1 = Pn 2
= i=1 Pn 2
x
i=1 i i=1 xi
Pn
xi ui
= β1 + Pi=1 n 2
i=1 xi

Tomando la esperanza a ambos lados de la expresión


 Pn   Pn 
xi ui xi E (ui |Xi )
E (βˆ1 ) = β1 + E Pi=1 n 2
= β 1 + E i=1
P n 2
i=1 xi i=1 xi
= β1

En el último término del lado derecho se obtine usando la Ley de


Expectativas Iteradas.
5.2 Distribución ainstótica de β̂1
Partimos de
Pn
X (Xi − X̄ )ui
β̂1 = wi Yi = β1 + Pi=1
n 2
i=1 (Xi − X̄ )

I X̄ es un estimador consistente de µX , si n → ∞
1 Pn 1 Pn
i=1 (Xi − X̄ )ui → n i=1 (Xi − µX )ui = v̄
I
n
I Por el primer supuesto v̄ = 0
I Por el segundo supuesto vi es iid, entonces
σv̄2 = n1 var ((Xi − µX )ui ) = n1 σv2
I Por el tercer supuesto la varianza es finita.
Por lo tanto,
√ v̄
n ∼ N(0, 1)
σv
5.2 Distribución ainstótica de β̂1
De acuerdo al Terorema del Lı́mite Central tenemos que,
√ v̄
n ∼ N(0, 1)
σv
Asi podemos derivar que
 
σv
v̄ ∼ N 0,
n
 1 
v̄ n σv
∼ N 0, 2 2
σX2 (σX )
 1 
v̄ σv
β1 + ∼ N β1 , n 2 2
σX2 (σX )
Es decir,  1 2 
n σv
β̂1 ∼ N β1 ,
(σX2 )2
5.3 Estimación de var (β̂1 )
Cuando n es grande, la var (β̂1 ) es

var [(Xi − µx )ui ] σv2


var (β̂1 ) = =
n(σX2 )2 n(σX2 )2

Un estimador consistente de var (β̂1 ) se lo obtiene al reemplazar el


valor poblacional de σv2 y de σX2 por los estimadores, es decir
1 Pn 2
1 σ̂v2 1 n−2 i=2 vˆi
var
ˆ (β̂1 ) = = x 1 Pn
n (σ̂X2 )2 n [ n i=1 (Xi − X̄ )2 ]2
La raiz cuadrada de la ultima expresion es el error estandard
varianza heterocedastico-robusto para β̂1 , es decir
s
1 Pn 2
ˆ 1 n−2 i=1 ûi
SE (β1 ) = x P
n n1 ni=1 (Xi − X̄ )2
5.4 Gráfico con errores heterocedasticos
6. Distribución muestral exacta con error normalmente
distribuido

I En muestras pequenas, la distribucion del estimador MCO


depende de la distribucion del error de regresion, y por lo
general son mas complicadas.
I Sin embargo con dos supuestos adicionales estas
distribuciones son mas sencillas.
Supuesto adicionales,
4. var (ui |Xi ) = σu2 (homocedasticidad)
5. La distribución condicional de ui dado Xi es normal (errores
normales)
6. Distribución muestral exacta con error normalmente
distribuido
Gráfico que muestra var (ui |Xi ) = σu2 (homocedasticidad).
6.1 Esperanza condicional de β̂1
Dada que la distribución de los errores es normal condicionado a
Xi , desmostraremos que el estimador βˆ1 es condicionalmente
insesgado. Pn
x i ui
β̂1 = β1 + Pi=1n 2
i=1 xi
Tomando la esperanza condicionada a X a ambos lados de la
expresión
 Pn
i=1 xi u)


E (β̂1 |X1 , ..., Xn ) = β1 + E Pn X , ..., Xn
2 1
i=1 xi
Pn
xi E (ui |X1 , ..., Xn )
= β1 + i=1 Pn 2
i=1 xi
= β1

En el último término del lado derecho se obtine usando el supuesto


1.
6.2 Varianza condicional de β̂1
Dada que los errores se distribuyen de forma independiente ,
condicioando a X1 , ..., Xn , tenemos que
Pn
x i ui
β̂1 = β1 + Pi=1
n 2
i=1 xi

Tomando la varaianza condicionada a X a ambos lados de la


expresión
 Pn
i=1 xi u)


V (β̂1 |X1 , ..., Xn ) = V Pn 2 1
X , ..., Xn
i=1 xi
Pn 2
Pn
i=1 xi V (ui |X1 , ..., Xn ) 2 x2
=  2 = σu  i=1 i 2
Pn 2
Pn 2
i=1 xi i=1 xi

σ2
= Pn u 2
i=1 xi
6.3 Distribucion de β̂1

I De acuerdo alos supuesto del MCO (1-5), ui ∼ iidN(0, σu2 ).


I Ademas, ui y Xi estan independientemente distribuidas.
I β̂1 es interpretado como una suma ponderada de variables
aleatorias normalmente distribuida, puede ser expresado como.
Pn
x i ui
β̂1 = β1 + Pi=1
n 2
i=1 xi

I Se deduce que
σu2
 
β̂1 ∼ N β1 , P 2
xi
I Es decir, que el estimador β̂1 tiene una distribucion normal
condicioando a los valores de X1 , ..., Xn .
6.4 ¿Homocedasticidad o Heterocedasticidad? The bottom
line:

I Si los errores son homocedasticos o heteroscedasticos y utiliza


errores estndar heterocedasticos-robustos, est bien
I Si los errores son heterocedasticos y usa la frmula de
homocedasticidad para errores estndar, sus errores estndar
sern incorrectos (el estimador de homoscedastico de la
varianza de β̂1 es inconsistente si hay heteroscedasticidad).
I Las dos frmulas coinciden (cuando n es grande) en el caso
especial de homocedasticidad.
I Por lo tanto, siempre debe usar errores estndar robustos de
heteroscedasticidad.
7. Regresión cuando X es binaria

I Algunas veces un regresos es binario:


I X = 1 si la clase tiene tamaño pequeño, = 0 si no
I X = 1 si es mujer, = 0 si es hombre
I X = 1 si recibe tratamiento (droga experimental), = 0 si no
I Los regresores binarios son llamados algunas veces variables
dummy
I Hasta ahora, β1 ha sido llamada pendientes, pero esto no
tiene sentido si X es binaria.
I ¿Cómo interpretamos el coeficiente cuando la variable X es
binaria?
7.1 Interpretacion del coeficiente β1 cuando el regresor es
binaria
Cuando Xi = 0, Yi = β0 + ui
1. La media de Yi es β0
2. Es decir, E (Yi |Xi = 0)

Cuando Xi = 1, Yi = β0 + β1 + ui
1. La media de Yi es β0 + β1
2. Es decir, E (Yi |Xi = 1) = β0 + β1

Entonces:

β1 = E (Yi |Xi = 1) − E (Yi |Xi = 0)


= diferencia poblacional de las media de ambos grupos
Example

1 STR ≤ 20
I Sea Di =
0 STR > 20
I Regresion de MCO: TestScore = 650,0 + 7,4 D
(1,3) (1,8)

Computo de la medias por grupo

sȲsmall − Ȳlarge
Diferencias en medias:
r
= 657.4 - 650.0 = 7,4
2 2
ss s 19,42 17,92
Error Standard SE = + l = + = 1,8
ns nl 238 182
7.2 Resumen: regresion cuando Xi es binaria (0/1)

Yi = β0 + β1 X1 + u1
I β0 = el promedio de Y cuando X = 0
I β0 + β1 = promedio de Y cuando X = 1
I β1 = diferencia en el promedio de los grupos, X =1 menos X
=0
I SE(βˆ1 ) tiene la interpretacion usual.
I t-statistico, intervalos de confianza se construyen como es
usual.
8. Pruebas de Hipótesis

I El objetivo es probar la hipótesis β1 = 0, usando data para


alcanzar una conclusión tentativa si la hipótesis nula es
correcta o no.
I Hipótesis Nula y alternativa de 2-colas:

H0 : β1 = β1,0 vs H1 : β1 6= β1,0

donde β1,0 es el valor hipotetizado bajo la nula.


I La hipótesis nula y la alternativa de 1-cola:

H0 : β1 = β1,0 vs H1 : β1 < β1,0


8.1 Aproximación general: construccion del t-estadı́stico y
el cálculo del p-value (o compara con los valores crı́ticos de
la N(0,1))

I En general
estimador - valor de la hipotesis
t=
error estandar del estimador
I Para probar β1 ,
βˆ1 − β1,0
t=
SE (βˆ1 )
donde SE(βˆ1 ) = la raı́z cuadrada de la varianza para la
distribución muestral de βˆ1
8.1 Resumen: Para probar H0 : β1 = β1,0 v. H1 : β1 6= β1,0

I Construir el t-stadı́stico

βˆ1 − β1,0 βˆ1 − β1,0


t= = q
SE (βˆ1 ) σ̂ 2
β̂1

I Rechazar al 5 % de significancia si | t |> 1,96


I El p-value p = Pr[| t |>| t act |] es la probabilidad en las colas
a partir de | t act |] hacia el infinito; se rechaza al 5 %
significancia si el p-value is < 5 %.
I Este procedimiento depende de que cuando n es grande la
distribución muestral de βˆ1 sea normal; por lo general n = 50
es suficientemente grande para tener una excelente
aproximación.
8.2 Ejemplo: Test Scores and STR, California data
I La linea de regresión estiamda es:
TestScore = 698,9 − 2,28 × STR
I STATA reporta los errores standards:

SE (βˆ0 ) = 10,4

SE (βˆ1 ) = 0,52
I El t-statistic para la hipotesis H0 : β10 = 0, se calcula

βˆ1 − β1,0 −2,28 − 0


t= = = −4,38
SE (β̂1 ) 0,52
I Al 1 % de signficancia para una prueba alternativa de 2-colas,
el valor critico es 2.58, por lo que se rechaza el valor de la
hipotesis nuala al 1 % de significancia.
I Alternativamente, podemos calcular el p-value.
8.2 Ejemplo: Calculo del pvalue en STATA

El p-value es el área a la izquierda de -4.38 más el área a la


derecha de 4.38.
STATA:
En la lı́nea de comando se escribe: display 2*ttail(n-k-1,abs(t)).
El resultado que arroja (0.00001) es el p-value asociado al
t-estadı́stico (aproximacion usando la normal standard debido al
tamana muestral grande).
8.3 Intervalo de confianza para β1
Recordemos que la confianza al 95 % es, equivalente a:
I El conjunto de puntos que no pueden ser rechazados al 5 % de
significancia;
I Una función A set-valued function of the data (an interval
that is a function of the data) that contains the true
parameter value 95 % of the time in repeated samples.
Puesto que el t-estadı́stico para β1 es N(0,1) para muestras
grandes, construir un intervalo de confianza al 95 % para β1 es
similar al caso de la media muestral:

Intervalo de confianza al 95 %

β1 = βˆ1 ± 1,96xSE (βˆ1 )


8.4 Ejemplo: Intervalo de confianza

I Linea de regresión estimada:

TestScore = 698,9 − 2,28xSTR

I SE (βˆ0 ) = 10,4 y SE (βˆ1 ) = 0,52


I Intervalo de confianza al 95 % para βˆ1 :

β̂1 ± 1,96 × SE (β̂1 ) = 2,28 ± 1,96 × 0,52


= (−3,3; −1,26)

I Las siguientes afirmaciones son equivalentes (Por qué?)


I El intervalo de confianza al 95 % no incluye al cero;
I La hipótesis β1 = 0 es rechazada al 5 %.
8.5 Resumen de la inferencia estadı́stica para β0 y β1

I Estimación:
1. Estimador por MCO βˆ0 y βˆ1
2. βˆ0 y βˆ1 tienen una distribución muestral aproximadamente
normal para muestras grandes.
I Pruebas:
1. H0 : β1 = β1,0 v. β1 6= β1,0 (β1,0 is the value of β1 under H0 )
2. t= (βˆ1 − β1,0 )/SE (βˆ1 )
3. p-value = área bajo la curva normal standard a partir de t act
(grande n)
I Intervalo de confianza:
1. Ijntervalo de confianza al 95 % para β1 : βˆ1 ±1,96xSE (βˆ1 )
2. Este es el conjunto de β1 que no es rechazao al 5 %.
3. El intervalo de confianza de 95 % contiene el verdadero valor
de β1 en el 95 % de todas las muestras.
8.6 Implicaciones prácticas

I Si n < 30 los valores crı́ticos de t suelen ser más grande que


los valores crı́ticos para una N(0, 1).
I Si n < 50 y creemos que u es homocedasticos y distribuido
normal, entonces use la distribucion tn−2 en vez de la N(0, 1)
para pruebas de hipotesis e intervalos de confianza.
I Si n > 50 podemos invocar al Teorema del Lı́mite Central
para evaluar hipótesis y construir intervalos de confianza
usando la distribución normal.
8.7. Manera convencional de reportar los resultados de la
regresion

TestScore= 698.9 - 2.28 x STR, R 2 = .05, SER = 18.6


(10.4)(0.52)

Esta expresion da muchas información


I La linea de regresión estimada es
TestScore = 698.9 - 2.28 x STR
I El error standard de β̂0 es 10.4
I El error standard def β̂1 es 0.52
I El R 2 es .05; el error standard de la regresión es 18.6
9. Mı́nimos Cuadrados Ponderados

I Bajo los primeros supuestos de MCO el estimador es eficiente


entre todos los estiamdores lineales en Y y condicionalmente
insesgados.
I MCP es más eficiente que el estimador MCO cuando los
errores son heterocedásticos.
I MCP rqueiere conocer la forma funcional de la varianza
condicional var (ui |Xi )
I Se analizan dos casos:
1. cuando la var (ui |Xi ) es conocida con un factor de
proporcionalidad
2. cuando la forma funcional de var (ui |Xi ) es conocida pero esta
en funcion de parámetros desconocidos con un factor de
proporcionalidad
9.1 MCP con heterocedasticidad conocida
I Suponga que var (ui |Xi ) = λh(Xi ), donde λ es una constante
y h(Xi ) es una funcion conocida.En este caso el estimador
MCP se obtiene mediante:
1. Dividir las variables dependiente y el regresor por la raı́z
cuadrada de h(Xi ).
2. Realizar la estimación MCO de la variable Y transformada
versus el regresos transformado.
I Por ejemplo, si el modelo es Yi = β0 + β1 Xi + ui , la
transformación serı́a:

Yi = β0 + β1 Xi + ui
Y β0 Xi ui
p i = p + β1 p +p
h(Xi ) h(Xi ) h(Xi ) h(Xi )
Ỹi = β0 X̃0i + β1 X̃1i + ũi
9.1 MCP con heterocedasticidad conocida
I En stata se estimaria el siguiente modelo: regress Ỹi X̃0i X̃1i .
I La variable X̃0i toma el lugar del intercepto
I La varianza condicional del nuevo termino de error seria
 
ui var (ui |Xi )
var (ũi |Xi ) = var p |Xi = p
h(Xi ) h(Xi )
λh(Xi )
= =λ
h(Xi )
I Por lo que la varianza de los nuevos errores h(Xi ) es
homocedastica.
I Si los 4 primeros supuesto se cumplen, y siguiende el teorema
de Gauss Markov, la estimaciones MCO sobre el modelo
transformado serán MELI.
9.2 MCP con heterocedasticidad de forma funcional
conocida: MCP factibles

I En la práctica la función h(Xi ) es desconocida por lo que no


puede realizarse las transformaciones a las variables del
modelo.
I Si lavar (ui |Xi ) tiene una forma funcional conocida, entonces
el estimador MCP puede calcular utilizando dicha función.
I Algunos ejemplos de formas funcionales para la varianza de u.
1. La varianza de u es cuadrática en X : var (ui |Xi ) = θ0 + θ1 Xi2 ,
donde θ0 y θ1 son desconocidad y mayores a cero. Por que?
2. La varianza depende de una tercera variable:
var (ui |Xi , Wi ) = θ0 + θ1 Wi , MCP es consistente si
E (ui |Xi , Wi ) = 0
9.2 MCP con heterocedasticidad de forma funcional
conocida: MCP factibles
El metodo de MCP factible consta de cinco pasos:
1. Regresión de Yi sobre Xi mediante MCO y obtenga los
residuos ûi .
2. Estime un modelo para la función de la varianza condicional.
Por ejemplo si var (ui |Xi ) = θ0 + θ1 Xi2 , se usaria a ûi2 como
un estimador consiste de var (ui |Xi ).
3. Se calculan los valores estimados de ûi2 = θ0 + θ1 Xi2 + vi y
con ello tuvieramos el valor esperado de la función de varianza
condicional.
4. Se realiza la transformación de las variables Yi y Xi dividiendo
cada una por la raı́z cuadrada de la varianza estimada en el
paso anterior.
5. Se estima por MCO el modelo transformado, los coeficiente
estiamdao serian las estimaciones MCP.
10. Teorema de Gauss Markov
I Si los tres supuesos de Mı́nimos Cuadrados se cumplen y si el
error es homocedástico, entonces el estimador MCO de β̂1
tiene la menor varianza condicionada a X1 , X2 , ..., Xn , de entre
todos los estimadores lineales (funciones lineales de
Y1 , Y2 , ..., Yn ). Es decir, el estimador MCO de es el Mejor
Estimador Lineal Insesgado (MELI).
I Recordemos que
Pn
xi ui
β̂1 = β1 + Pi=1 n 2
i=1 xi
n
1X
β̂1 − β1 = wi ui
n
i=1

I El teorema plantea que entre todas las posibles opciones de


wi el peso que MCO asigna genera la menor varianza de β̂1 .
10. Teorema de Gauss Markov

I Bajo los supuestos 1-4, ( las tres básicos más


homocedasticidad), βˆ1 tiene a varianza más pequeña entre
todos los estimadores lineales (estimadores que son funciones
lineales de Y1 , ..., Yn ). Esto es el Teorema de Gauss-Markov.
I Bajo los supuestos 1-5 (los tres básicos, más el de
homocedasticidad y la normalidad de los errores), βˆ1 tiene la
varianza más pequeña entre todos los estimadores consistente
(estimadores que son no solo funcion lineal de Y 1 , ..., Yn ),
sino tambien lo NO lineales, a medida que n − > ∞.
I Este resultado dice que si los errores son homocedásticos y se
distribuyen normal (además de los 3 supuestos básicos), MCO
es la mejor opción que cualquier otro estimadorr consistente.
10.1 Limitaciones de MCO

El estimador MCO tiene importantes limitaciones.


1. La condición de homocedasticidad usalmente no se cumple.
2. El resultado es solo para estimadores lineales.
3. El resultado más fuerte requiere que los errores sean
homocedásticos y se distirbuyan normalmente.
4. MCO es mas sensible a datos atipicos qye otros estiamdores,
los cuales pueden generar varainzas mas pequenas (por
ejemplo el estimador de mı́nima desviación absoluta).
Resumen y evaluación final
I La pregunta inicial de la polı́tica:
I Supongamos que se contratan nuevos maestros, por lo que la
relación estudiante-profesor cae 1 alumno por clase. ¿Cuál es
el efecto de esta intervención polı́tica (”tratamiento”) en los
puntajes de los exámenes?
I ¿Son convincentes nuestro resultados del análisis de regresión
usando los datos de California?
I En realidad, los distritos con poco STR tienden a ser los que
tienen muchos otros recursos y familias con mayores ingresos,
lo que les brinda a los niños más oportunidades de aprendizaje
fuera de la escuela ... esto sugiere que corr (ui , STRi ) > 0, por
lo que E (ui |Xi ) 6= 0.
I Parece que hemos omitido algunos factores, o variables, de
nuestro análisis, y esto ha sesgado nuestros resultados ...

También podría gustarte