Documentos de Académico
Documentos de Profesional
Documentos de Cultura
(SW Capítulos 4 y 5)
vs. grandes
• Pero Δ no contesta del todo nuestra pregunta política
•
Más bien, lo que nos interesa es
•
Pero esto es la pendiente de una recta que relaciona la nota del
test (Test score) y STR (número de alumnos por clase)
4-1
•
Así que tenemos que estimar este pendiente de algún modo…
Queremos trazar una recta a través del grafico de dispersión
de Test score vs. STR – ¿pero cómo?
4-2
Esquema de los capítulos 4 y 5 SW:
4-3
10. Implicaciones prácticas de heterosquedasticidad y
homosquedasticidad
1. Teoría de la probabilidad para la Regresión lineal
Población
Población de interés (ej: todos los distritos escolares posibles)
Variables aleatorias: Y, X
Ej: (Test Score, STR)
4-4
El quid de la cuestión es que suponemos que existe una
relación lineal en la población que relaciona X y Y; Esta
relación lineal es la “regresión lineal poblacional”
Datos y muestreo
Los objetos poblacionales (“parámetros”) β0 y β1 son
desconocidos; así que para hacer inferencias sobre estos
parámetros desconocidos necesitamos recopilar datos
4-5
El muestreo aleatorio simple implica que {(Xi, Yi)}, i = 1,…,
n, son independientes i idénticamente distribuidos (i.i.d.).
(Nota: (Xi, Yi) se distribuyen independientemente de (Xj, Yj)
para observaciones distintas de i y j.)
4-6
2. La Regresión Lineal Poblacional
Yi = β0 + β1Xi + ui, i = 1,…, n
•
X es la variable independiente o regresor
•
Y es la variable dependiente
• β0 = intersección
• β1 = pendiente
•
ui = “término de error”
•
El término de error consiste en factores omitidos, o
posibles errores de medida al medir Y. En general, estos
factores omitidos son otros factores que influencian a Y, a
parte de X 4-7
•
4-8
¿Cuáles son algunos de los factores omitidos en el ejemplo del
tamaño de clase?
=
= cambio en Test debido a un cambio unitario de
STR
4-9
• ¿Por qué son β0 y β1 parámetros “poblacionales”?
• Nos gustaría conocer el valor de β1 en la población.
• No conocemos β1, así que lo tenemos que estimar con los
datos.
4-10
3. El Estimador MCO
¿Cómo podemos estimar β0 y β1 con los datos?
Recuerda que era el estimador de mínimos cuadrados de µY:
resuelve,
4-11
•
El estimador MCO minimiza la diferencia cuadrada media
entre los valores reales de Yi y la predicción (valor predicho)
basándose en la línea estimada.
•
Este problema de minimización puede resolverse usando
cálculo (Ap. 4.2).
4-12
• El resultado es el estimador MCO de β0 y β1:
4-13
4-14
4-15
¿Por qué usar MCO en vez de otro estimador?
•
MCO es una generalización de la media muestral: si la “recta”
es sólo una intersección (no X), entonces el estimador MCO es
simplemente la media muestral de Y1,…Yn ( ).
•
Como , el estimador MCO tiene algunas buenas propiedades:
bajo ciertos supuestos, es no sesgado (esto es, E( ) = β1), y
tiene una distribución más concentrada que otros candidatos
para estimador de β1 (más sobre luego)
•
Además, es el que utiliza todo el mundo – el “lenguaje” común
de la regresión lineal.
4-16
4. Otros Estadísticos de la Regresión
4-17
4-18
Algunas propiedades algebraicas más de MCO:
EER =
RECM =
4-23
Esto mide lo mismo que EER – la única diferencia es la
división por 1/n en vez de 1/(n–2).
Nota técnica: por qué dividir por n–2 en vez de n–1?
EER =
•
La división por n–2 es un ajuste por los “grados de libertad”
como la división por n–1 en que corrige un ligero sesgo
hacia abajo; la diferencia es que, en EER, se han estimado
dos parámetros (β0 y β1, por y ), mientras que en
sólo se ha estimado uno (µY, por ).
4-24
•
cuando n es grande, la diferencia es negligible tanto si se usa
n, n–1, o n–2– aunque la fórmula convencional usa n–2
cuando hay un único regresor.
4-25
5. Aplicación a los datos de Nota del Test-Tamaño Clase en
California
4-26
Pendiente estimado = = – 2,28
Intersección estimada = = 698,9
Recta de regresión estimada: = 698,9 – 2,28*STRi
4-27
Interpretación del pendiente estimado y de la intersección
= 698,9 – 2,28*STRi
•
Distritos con un alumno más por profesor tienen de media notas
del test (Test Scores) que son 2,28 puntos inferiores.
•
Esto es, = –2,28
•
La intersección (tomada literalmente) significa que, de acuerdo
con esta recta de regresión estimada, distritos con cero alumnos
por profesor tendrían una nota del test (predicha) de 698.9.
•
Esta interpretación no tiene sentido – extrapola la recta fuera
del rango de los datos en esta aplicación, la intersección no
tiene ningún significado económico.
4-28
Valores predichos y residuos:
-------------------------------------------------------------------------
| Robust
testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+----------------------------------------------------------------
str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671
_cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057
-------------------------------------------------------------------------
4-30
6. Regresión cuando X es binaria (0/1)
4-31
Yi = β0 + β1Xi + ui, donde X es binario (Xi = 0 o 1):
• cuando Xi = 0: Yi = β0 + ui
• cuando Xi = 1: Yi = β0 + β1 + ui
entonces:
• cuando X = 0, la media de Y es β
i i 0
• cuando Xi = 1, la media de Yi es β0 + β1
Esto es:
• E(Y |X =0) = β
i i 0
• E(Yi|Xi=1) = β0 + β1
Así que:
4-32
β1 = E(Yi|Xi=1) – E(Yi|Xi=0)
= diferencia poblacional de la media de los grupos
Ejemplo: Datos TestScore y STR, para California
Sea:
Di =
Yi = 650,0 + 7,4×Di
(1,3) (1,8)
4-33
Diferencia de las medias de los grupos = 7.4;
SE = 1.83 t = 7.4/1.83 = 4.05
4-34
Comparemos los resultados de la regresión con las medias de
los grupos, calculadas directamente:
Tamaño de la Nota media ( ) Dev.Std. (sY) N
Clase
Small (pequeño) 657.4 19.4 238
STR > 20
Large (grande) 650.0 17.9 182
STR ≥ 20
Estimación:
= 657,4 – 650,0 = 7,4
4-35
Test Δ=0:
=(3,8;11,0)
¡Es exactamente igual que en la regresión!
4-36
Resumen: regresión cuando Xi es binaria (0/1)
Yi = β0 + β1Xi + ui
• β0 = media de Y dado que X = 0
• β0 + β1 = media de Y dado que X = 1
• β1 = diferencia entre las medias de los grupos, X =1 menos X = 0
•
SE( ) tiene la interpretación usual
•
t-estadísticos e intervalos de confianza se construyen como
siempre
•
Esta es otra forma de hacer análisis de diferencia de medias
La formulación como regresión es especialmente útil cuando
tenemos regresores adicionales (lo vemos enseguida…)
4-37
La recta de regresión MCO es una estimación, calculada
usando nuestra muestra de datos; una muestra distinta habría
producido un valor distinto para .
Cómo podemos:
•
Cuantificar la incertidumbre muestral asociada a ?
• usar para contrastar hipótesis como β1 = 0?
• Construir un intervalo de confianza para β1?
4-40
Discutiremos estos supuestos en orden.
4-41
Supuesto #1 de los Mínimos Cuadrados: E(u|X = x) = 0.
Para cualquier valor dado de X, la media de u es cero
4-42
4-43
Ejemplo: Supuesto #1 y tamaño de la clase
Test Scorei = β0 + β1STRi + ui, ui = otros factores
“Otros factores:”
•
Implicación de los padres
•
Oportunidades de aprendizaje externas (clases extra de mates,..)
•
Entorno familiar que incentiva la lectura
•
El ingreso familiar es una buena proxy para estos factores
4-44
correlacionados). ¡Este supuesto no es inocuo! Volveremos a él
muy a menudo.
Nota: “income” significa ingreso
4-45
Supuesto #2 de los Mínimos Cuadrados:
(Xi,Yi), i = 1,…,n son i.i.d.
4-46
Otro ejemplo de muestras no-i.i.d. es cuando tenemos
observaciones que pertenecen a un grupo o cluster y que
comparten un elemento común del término de error
4-47
Supuesto #3 de los Mínimos Cuadrados :
4-48
4-49
4-50
4-51
4-52