Documentos de Académico
Documentos de Profesional
Documentos de Cultura
(SW Capítulo 4)
4-1
¿Qué nos dicen los datos sobre el nº de alumnos por clase
y las puntuaciones en los tests (Test Scores)?
Variables:
• Puntuaciones en un test de 5º curso que combina
lectura y matemáticas: nota media en cada distrito
4-3
¿Los distritos con menor nº de alumnos por clase (STR más
bajos) tienen puntuaciones más altas?
4-4
Pregunta de interés (policy question) sobre la relación
entre el nº de alumnos por clase y las calificaciones:
4-5
Esto sugiere que nos gustaría trazar una recta sobre la nube
de puntos de Notas vs. STR,... pero ¿cómo?
4-6
Un poco de notación y terminología
(Secciones 4.1 y 4.2)
4-9
¿Por qué utilizar MCO en lugar de algún otro estimador?
-------------------------------------------------------------------------
| Robust
testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+----------------------------------------------------------------
str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671
_cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057
-------------------------------------------------------------------------
¿Cómo podemos:
• cuantificar la variabilidad muestral asociada a βˆ1 ?
• utilizar βˆ1 para contrastar hipótesis como β1 = 0?
• construir un intervalo de confianza para β1?
Población
población de interés (ej: todos los distritos escolares)
Variables aleatorias: Y, X
Ej: (Notas, STR)
4-17
El modelo de Regresión Lineal Poblacional (Sección 4.3)
4-20
Nuestra tarea: caracterizar la distribución muestral del
estimador MCO. Para hacer esto, necesitamos tres hipótesis:
4-22
Ejemplo: Hipótesis A1 en el ejemplo del nº de alumnos
Notasi = β0 + β1STRi + ui, ui = otros factores
“Otros factores:”
• implicación de los padres
• otras oportunidades de aprendizaje (clases extra,..)
• ambiente familiar que fomente la lectura
• renta familiar como proxy útil para muchos de estos
factores
4-24
Mínimos cuadrados: Hipótesis A3:
4-25
1. El marco probabilístico en la regresión lineal
2. Estimación: la distribución muestral de βˆ1
(Sección 4.4)
3. Contrastes de hipótesis
4. Intervalos de confianza
4-26
La distribución muestral de βˆ1 : un poco de álgebra:
Yi = β0 + β1Xi + ui
Y = β0 + β1 X + u
entonces: Yi – Y = β1(Xi – X ) + (ui – u )
Por tanto:
n
∑( X i − X )(Yi − Y )
βˆ1 = i =1
n
∑ i
( X
i =1
− X ) 2
∑( X i − X )[ β1 ( X i − X ) + (ui − u )]
= i =1
n
∑ i
( X
i =1
− X ) 2
4-27
n
∑( X i − X )[ β1 ( X i − X ) + (ui − u )]
βˆ1 = i =1
n
∑ i
( X
i =1
− X ) 2
n n
∑( X i − X )( X i − X ) ∑( X i − X )(ui − u )
= β1 i =1
n
+ i =1
n
∑ i
( X
i =1
− X ) 2
∑ i
( X
i =1
− X ) 2
por tanto,
n
∑( X i − X )(ui − u )
βˆ1 – β1 = i =1
n
∑ i
( X − X
i =1
) 2
4-28
Podemos simplificar la fórmula teniendo en cuenta que:
n n
n
∑
i =1
( X i − X )(u i − u ) = ∑ ( X i − X )u i – ∑ ( X i − X ) u
i =1 i =1
n
= ∑( X
i =1
i − X )u i .
Por tanto:
n
1 n
∑ ( X i − X )u i ∑
n i =1
vi
ˆ
β1 – β1 = n
i =1
=
n −1 2
∑ i =1
(Xi − X ) 2
n
sX
4-29
1 n
∑
n i =1
vi
βˆ1 – β1 = , donde vi = (Xi – X )ui
n −1 2
sX
n
4-30
Ahora E(vi/ s X2 ) = E[(Xi – X )ui/ s X2 ] = 0
n 1 n
vi
∑E 2 = 0
Por tanto, ˆ
E( β1 – β1) =
n − 1 n i =1 s X
con lo que:
E( βˆ1 ) = β1
4-31
Cálculo de la varianza de βˆ1 :
1 n
∑
n i =1
vi
ˆ
β 1 – β1 =
n −1 2
sX
n
ˆ var( v )
var( β1 ) =
nσ X2
4-32
La distribución muestral exacta es complicada, pero cuando
el tamaño muestral es grande tenemos buenas
aproximaciones, que además son bastante sencillas:
p
(1) Puesto que var( βˆ1 ) ∝ 1/n y E( βˆ1 ) = β1, βˆ1 → β1
4-33
1 n
∑
n i =1
vi
βˆ1 – β1 =
n −1 2
sX
n
Cuando n es grande:
• vi = (Xi – X )ui ≅ (Xi – µX)ui, que es i.i.d. (¿por qué?) y
tiene dos momentos, esto es, var(vi) < ∞ (¿por qué?). Por
1 n
tanto, ∑ vi se distribuye N(0,var(v)/n) cuando n es
n i =1
grande
• s X2 es aproximadamente igual a σ X2 cuando n es grande
n −1 1
• =1– ≅ 1 cuando n es grande
n n
Teniendo todo esto en cuenta:
4-34
Aproximación asintótica (n grande) de la distribución de βˆ1 :
1 n 1 n
∑
n i =1
vi ∑
n i =1
vi
ˆ
β1 β1
– = ≅ ,
n −1 2 σX 2
sX
n
σ v2
que se distribuye aproximadamente N(0, ).
n (σ X )
2 2
ˆ var[( X i − µ x )ui ]
β1 se distribuye aproximadamente N(β1, )
nσ X 4
4-35
Recordemos brevemente la distribución muestral de Y :
Para (Y1,…,Yn) i.i.d. con 0 < σ Y2 < ∞,
• La distribución exacta (muestras finitas) de Y tiene media
µY (“Y es un estimador insesgado de µY”) y varianza σ Y2 /n
• Excepto su media y su varianza, la distribución exacta de
Y es complicada y depende de la distribución de Y
p
• Y → µY (ley de los grandes números)
Y − E (Y )
• se distribuye aproximadamente N(0,1) (TCL)
var(Y )
4-36
Conclusiones paralelas para el estimador MCO de βˆ1 :
4-37
4-38
1. El marco probabilístico en la regresión lineal
2. Estimación
3. Contrastes de hipótesis (Sección 4.5)
4. Intervalos de confianza
4-42
Recordemos la expresión de la varianza de βˆ1 (n grande):
var[( X − µ ) u ] σ 2
var( βˆ1 ) = i x i
= v
n (σ X2 ) 2 nσ X4
1 estimador de σ 2
σˆ β2ˆ = × v
1
n (estimador de σ X2 )2
1 n
1 ∑
n − 2 i =1
( X i − X ) 2 2
uˆi
= × 2
.
n 1 n 2
n ∑( X i − X )
i =1
4-43
1 n
1 ∑
n − 2 i =1
( X i − X ) 2 2
uˆi
σˆ = ×
2
βˆ1 2
.
n 1 n 2
n ∑( X i − X )
i =1
4-44
Regresemos al cálculo del estadístico t:
4-45
Ejemplo: Notas y STR, datos de California
4-49
Información de la regresión estimada:
4-52
Yi = β0 + β1Xi + ui, donde X es binaria (Xi = 0 ó 1):
• Cuando Xi = 0: Yi = β0 + ui
• Cuando Xi = 1: Yi = β0 + β1 + ui
Por tanto:
• Cuando Xi = 0, la media de Yi es β0
• Cuando Xi = 1, la media de Yi es β0 + β1
es decir:
• E(Yi|Xi=0) = β0
• E(Yi|Xi=1) = β0 + β1
consecuentemente:
β1 = E(Yi|Xi=1) – E(Yi|Xi=0)
= diferencia en la media poblacional de ambos grupos
4-53
Ejemplo: Notas y STR, datos de California
Sea
1 si STRi ≤ 20
Di =
0 si STRi > 20
4-55
Resumen: regresión cuando Xi es binaria (0/1)
Yi = β0 + β1Xi + ui
• β0 = media de Y dado X = 0
• β0 + β1 = media de Y dado X = 1
• β1 = diferencia de medias, X =1 menos X = 0
• SE( βˆ1 ) tiene la interpretación usual
• t e IC construidos de la forma habitual
• Ésta es otra forma de hacer análisis de diferencias de
medias
• El análisis de regresión es especialmente útil cuando
disponemos de regresores adicionales
4-56
Otros Estadísticos de la Regresión (Sección 4.8)
4-57
El R2
Escribamos Yi como la suma de la predicción MCO + residuo
MCO:
Yi = Yˆi + uˆi
SCT
n n
donde SCE = ∑ (Yˆi − Yˆ ) y SCT =
i =1
2
∑ i
(Y
i =1
− Y ) 2
.
4-58
El R2:
4-59
El Error Estándar de la Regresión (SER)
1 n
SER = ∑
n − 2 i =1
( ˆ
ui − ˆ
ui ) 2
1 n 2
= ∑
n − 2 i =1
uˆi
1 n
(la segunda igualdad viene de ∑ uˆi = 0).
n i =1
4-60
1 n 2
SER = ∑
n − 2 i =1
uˆi
El SER:
• Se mide en unidades de u, que son unidades de Y
• Mide la dispersión de la distribución of u
• Mide el “tamaño” medio del residuo MCO (el “error”
medio cometido por la regresión MCO)
• La raíz cuadrada del error cuadrático medio (RMSE)
está muy relacionada con el SER:
1 n 2
RMSE = ∑
n i =1
uˆi
4-66
Ejemplo real de heteroscedasticidad en Economía Laboral:
ganancias medias por hora vs. años de educación
(fuente: Current Population Survey 1999)
Average Hourly Earnings Fitted values
60
Average hourly earnings
40
20
0
5 10 15 20
Years of Education
Scatterplot and OLS Regression Line
4-67
¿Son heteroscedásticos los datos del nº de alumnos por clase?
4-71
La fórmula “sólo válida con homoscedasticidad” del error
estándar de βˆ1 y la que es “robusta a la heteroscedasticidad”
(la fórmula que es válida con heteroscedasticidad) difieren en
general: obtenemos errores estándar distintos con ambas
fórmulas.
La fórmula “sólo con homoscedasticidad” de los
errores estándar es la que suelen utilizar por
defecto los paquetes informáticos – a veces la única
(e.g. Excel). Para obtener la general, “robusta a la
heteroscedasticidad”, debemos anular la primera.
Si no lo hacemos y de hecho hay heteroscedasticidad,
obtendremos errores estándar, así como t e IC, erróneos.
4-72
Puntos críticos:
• No hay problema con utilizar la fórmula de
heteroscedasticidad cuando los errores son
homoscedásticos.
• Si utilizamos la fórmula de homoscedasticidad con errores
heteroscedásticos, los errores estándar serán incorrectos.
• Ambas fórmulas coinciden (cuando n es grande) en el
caso especial de homoscedasticidad.
• Conclusión: deberíamos utilizar siempre la fórmula de
heteroscedasticidad – convencionalmente, Errores
estándar robustos a la heteroscedasticidad.
4-73
SE robustos a la heteroscedasticidad en STATA
4-74
Resumen y Valoración (Sección 4.10)
• Cuestión inicial de política educativa:
Suponga que se contratan nuevos profesores con la
intención de disminuir el ratio estudiante-profesor en
un estudiante por clase. ¿Qué efecto tendrá esta
medida sobre las notas de los estudiantes?
• ¿Da nuestra regresión una respuesta convincente?
Realmente no – Aquellos distritos con menor STR
suelen ser los que tienen más recursos y renta familiar,
proporcionándoles mayores oportunidades de
aprendizaje fuera del colegio … lo que sugiere que
corr(ui,STRi) > 0, y por tanto E(ui|Xi)≠0.
4-75
Digresión sobre Causalidad