ch4 Fede

Introducción a la Regressión Lineal
(SW Capítulos 4 y 5)
Problema empírico: Tamaño de la clase y resultado educativo

•
Pregunta política¿Qué efecto tiene reducir en uno el número de
alumnos por clase? ¿Y por 8 alumnos/clase?
• Examinamos Δ = diferencia de las medias, para clases pequeñas
vs. grandes
• Pero Δ no contesta del todo nuestra pregunta política
•
Más bien, lo que nos interesa es
•
Pero esto es la pendiente de una recta que relaciona la nota del
test (Test score) y STR (número de alumnos por clase)
4-1
•
Así que tenemos que estimar este pendiente de algún modo…
Queremos trazar una recta a través del grafico de dispersión
de Test score vs. STR – ¿pero cómo?
4-2
Esquema de los capítulos 4 y 5 SW:
1. La teoría de la probabilidad para la regresión lineal

2. El modelo de regresión lineal con un solo regresor poblacional
3. El estimador de Mínimos Cuadrados Ordinarios (MCO)
4. Otras estadísticas de la regresión: bondad de ajuste, propiedades
algebraicas
5. Aplicación al ejemplo de las notas del test y tamaño clase
6. Regresión con variables dicótomas
7. Las suposiciones de los Mínimos Cuadrados
8. La distribución muestral de los estimadores MCO
9. Contrastes de hipótesis y intervalos de confianza
4-3
10. Implicaciones prácticas de heterosquedasticidad y
homosquedasticidad
1. Teoría de la probabilidad para la Regresión lineal
Población
Población de interés (ej: todos los distritos escolares posibles)
Variables aleatorias: Y, X
Ej: (Test Score, STR)
Distribución conjunta de (Y,X)
4-4
El quid de la cuestión es que suponemos que existe una
relación lineal en la población que relaciona X y Y; Esta
relación lineal es la “regresión lineal poblacional”
Datos y muestreo
Los objetos poblacionales (“parámetros”) β0 y β1 son
desconocidos; así que para hacer inferencias sobre estos
parámetros desconocidos necesitamos recopilar datos
Muestreo aleatorio simple:

Escogemos n entidades al azar de la población de interés, y
observamos (registramos) X y Y para cada entidad
4-5
El muestreo aleatorio simple implica que {(Xi, Yi)}, i = 1,…,
n, son independientes i idénticamente distribuidos (i.i.d.).
(Nota: (Xi, Yi) se distribuyen independientemente de (Xj, Yj)
para observaciones distintas de i y j.)
4-6
2. La Regresión Lineal Poblacional
Yi = β0 + β1Xi + ui, i = 1,…, n
•
X es la variable independiente o regresor
•
Y es la variable dependiente
• β0 = intersección
• β1 = pendiente
•
ui = “término de error”
•
El término de error consiste en factores omitidos, o
posibles errores de medida al medir Y. En general, estos
factores omitidos son otros factores que influencian a Y, a
parte de X 4-7
•
Ej.: La recta de regresión poblacional y el término de error
4-8
¿Cuáles son algunos de los factores omitidos en el ejemplo del
tamaño de clase?
La recta de regression poblacional en el ejemplo del tamaño

de clase:
Test Score = β0 + β1STR
β1 = pendiente de la recta de regresión poblacional
=
= cambio en Test debido a un cambio unitario de
STR
4-9
• ¿Por qué son β0 y β1 parámetros “poblacionales”?
• Nos gustaría conocer el valor de β1 en la población.
• No conocemos β1, así que lo tenemos que estimar con los
datos.
4-10
3. El Estimador MCO
¿Cómo podemos estimar β0 y β1 con los datos?
Recuerda que era el estimador de mínimos cuadrados de µY:
resuelve,
Por analogía, nos centraremos en el estimador de mínimos

cuadrados (“mínimos cuadrados ordinarios” o “MCO”) de
los parámetros desconocidos β0 y β1, que resuelven,
4-11
•
El estimador MCO minimiza la diferencia cuadrada media
entre los valores reales de Yi y la predicción (valor predicho)
basándose en la línea estimada.
•
Este problema de minimización puede resolverse usando
cálculo (Ap. 4.2).
4-12
• El resultado es el estimador MCO de β0 y β1:
Derivación de los estimadores MCO (Ap. 4.2):
4-13
4-14
4-15
¿Por qué usar MCO en vez de otro estimador?
•
MCO es una generalización de la media muestral: si la “recta”
es sólo una intersección (no X), entonces el estimador MCO es
simplemente la media muestral de Y1,…Yn ( ).
•
Como , el estimador MCO tiene algunas buenas propiedades:
bajo ciertos supuestos, es no sesgado (esto es, E( ) = β1), y
tiene una distribución más concentrada que otros candidatos
para estimador de β1 (más sobre luego)
•
Además, es el que utiliza todo el mundo – el “lenguaje” común
de la regresión lineal.
4-16
4. Otros Estadísticos de la Regresión
Una pregunta natural es cómo de bien se “ajusta” (o explica) la

recta de regresión a los datos. Hay dos estadísticos que
proporcionan medidas complementarias de la calidad del ajuste:
•
El R2 de la regresión mide la fracción de la varianza de Y que
se explica por X; no tiene unidades y su rango va de cero (nada
de ajuste) a uno (ajuste perfecto)
•
El error estándar de la regresión mide el ajuste – el tamaño
típico del residuo de la regresión – en las unidades de Y.
4-17
4-18
Algunas propiedades algebraicas más de MCO:
Suma Total de Cuadrados = SS Residual + SS Explicado

Nota: SS = suma de cuadrados (del inglés” sum of squares”)
4-19
4-20
4-21
(b) El Error Estándar de la Regresión (EER)
El error estándar de la regresión es (casi) la desviación
estándar muestral de los residuos de MCO:
EER =
(la segunda igualdad se cumple porque = 0).

4-22
EER=
The EER:
•
Tiene las unidades de u, que son las mismas unidades de Y
•
Mide la dispersión de la distribución de u
•
Mide el “tamaño” medio del residuo MCO (el “error”
medio hecho por la recta de regresión MCO)
•
La raíz del error cuadrado medio (RECM) está
estrechamente relacionado con EER:
RECM =
4-23
Esto mide lo mismo que EER – la única diferencia es la
división por 1/n en vez de 1/(n–2).
Nota técnica: por qué dividir por n–2 en vez de n–1?
EER =
•
La división por n–2 es un ajuste por los “grados de libertad”
como la división por n–1 en que corrige un ligero sesgo
hacia abajo; la diferencia es que, en EER, se han estimado
dos parámetros (β0 y β1, por y ), mientras que en
sólo se ha estimado uno (µY, por ).
4-24
•
cuando n es grande, la diferencia es negligible tanto si se usa
n, n–1, o n–2– aunque la fórmula convencional usa n–2
cuando hay un único regresor.
4-25
5. Aplicación a los datos de Nota del Test-Tamaño Clase en
California
Muestra: Todos los distritos escolares de California (n = 420)

en 1998
Datos:
Y=5th curso notas (Stanford-9 prueba de rendimiento ,
combinado con mates y lectura), media del distrito
X=Ratio alumnos-profes (STR) = no. De alumnos en el
distrito dividido por no. profesores equivalentes a tiempo
completo
4-26
Pendiente estimado = = – 2,28
Intersección estimada = = 698,9
Recta de regresión estimada: = 698,9 – 2,28*STRi
4-27
Interpretación del pendiente estimado y de la intersección
= 698,9 – 2,28*STRi
•
Distritos con un alumno más por profesor tienen de media notas
del test (Test Scores) que son 2,28 puntos inferiores.
•
Esto es, = –2,28
•
La intersección (tomada literalmente) significa que, de acuerdo
con esta recta de regresión estimada, distritos con cero alumnos
por profesor tendrían una nota del test (predicha) de 698.9.
•
Esta interpretación no tiene sentido – extrapola la recta fuera
del rango de los datos en esta aplicación, la intersección no
tiene ningún significado económico.
4-28
Valores predichos y residuos:
Uno de los distritos del conjunto de datos es Antelope, CA,

para el que STR = 19,33 y Test Score = 657,8
Valor predicho: = 698,9 – 2,28*19,33 = 654,8
residuo: = 657,8 – 654,8 = 3,0
4-29
regresión MCO: STATA output
regress testscr str, robust
Regression with robust standard errors Number of obs = 420

F( 1, 418) = 19.26
Prob > F = 0.0000
R-squared = 0.0512
Root MSE = 18.581
-------------------------------------------------------------------------
| Robust
testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+----------------------------------------------------------------
str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671
_cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057
-------------------------------------------------------------------------
Fíjense el bajo R-squared y el alto (relativo a ) Root MSE. Lo

que esto significa es que hay otros factores importantes que afectan
a las notas del test, aparte del tamaño de la clase (diferencias en la
composición del alumnado, calidad de la escuela, suerte, etc.)
4-30
6. Regresión cuando X es binaria (0/1)
En muchas aplicaciones interesantes el regresor es binario:

•
X = 1 si mujer, = 0 si hombre
•
X = 1 si tratado (medicamento experimental), = 0 si no
•
X = 1 si clase pequeña, = 0 si no
Hasta ahora, β1 ha sido llamada “pendiente” pero esto no tiene

sentido si X es binaria
¿Cómo interpretamos la regresión con un regresor binario?
4-31
Yi = β0 + β1Xi + ui, donde X es binario (Xi = 0 o 1):
• cuando Xi = 0: Yi = β0 + ui
• cuando Xi = 1: Yi = β0 + β1 + ui
entonces:
• cuando X = 0, la media de Y es β
i i 0
• cuando Xi = 1, la media de Yi es β0 + β1
Esto es:
• E(Y |X =0) = β
i i 0
• E(Yi|Xi=1) = β0 + β1
Así que:
4-32
β1 = E(Yi|Xi=1) – E(Yi|Xi=0)
= diferencia poblacional de la media de los grupos
Ejemplo: Datos TestScore y STR, para California
Sea:
Di =
El estimador MCO de la recta de regresión relacionando

TestScore a D (con errores estándar en paréntesis) es:
Yi = 650,0 + 7,4×Di
(1,3) (1,8)
4-33
Diferencia de las medias de los grupos = 7.4;
SE = 1.83 t = 7.4/1.83 = 4.05
4-34
Comparemos los resultados de la regresión con las medias de
los grupos, calculadas directamente:
Tamaño de la Nota media ( ) Dev.Std. (sY) N
Clase
Small (pequeño) 657.4 19.4 238
STR > 20
Large (grande) 650.0 17.9 182
STR ≥ 20
Estimación:
= 657,4 – 650,0 = 7,4
4-35
Test Δ=0:
Intervalo de confianza al 95% =
=(3,8;11,0)
¡Es exactamente igual que en la regresión!
4-36
Resumen: regresión cuando Xi es binaria (0/1)
Yi = β0 + β1Xi + ui
• β0 = media de Y dado que X = 0
• β0 + β1 = media de Y dado que X = 1
• β1 = diferencia entre las medias de los grupos, X =1 menos X = 0
•
SE( ) tiene la interpretación usual
•
t-estadísticos e intervalos de confianza se construyen como
siempre
•
Esta es otra forma de hacer análisis de diferencia de medias
La formulación como regresión es especialmente útil cuando
tenemos regresores adicionales (lo vemos enseguida…)
4-37
La recta de regresión MCO es una estimación, calculada
usando nuestra muestra de datos; una muestra distinta habría
producido un valor distinto para .
Cómo podemos:
•
Cuantificar la incertidumbre muestral asociada a ?
• usar para contrastar hipótesis como β1 = 0?
• Construir un intervalo de confianza para β1?
Nuestra labor: caracterizar la distribución muestral del

estimador MCO. Para ello, hacemos tres supuestos:
4-38
4-39
7. Los Supuestos de los Mínimos Cuadrados
(Concepto clave 4.3)
1. La distribución condicional de u dado X tiene media cero,

esto es, E(u|X = x) = 0.
2. (Xi,Yi), i =1,…,n, son i.i.d.
3. X y u tienen cuatro momentos finitos, esto es:
4-40
Discutiremos estos supuestos en orden.
4-41
Supuesto #1 de los Mínimos Cuadrados: E(u|X = x) = 0.
Para cualquier valor dado de X, la media de u es cero
4-42
4-43
Ejemplo: Supuesto #1 y tamaño de la clase
Test Scorei = β0 + β1STRi + ui, ui = otros factores
“Otros factores:”
•
Implicación de los padres
•
Oportunidades de aprendizaje externas (clases extra de mates,..)
•
Entorno familiar que incentiva la lectura
•
El ingreso familiar es una buena proxy para estos factores
Así E(u|X=x) = 0 significa E(Family Income|STR) = constante (lo

que implica que el ingreso familiar y STR no están
4-44
correlacionados). ¡Este supuesto no es inocuo! Volveremos a él
muy a menudo.
Nota: “income” significa ingreso
4-45
Supuesto #2 de los Mínimos Cuadrados:
(Xi,Yi), i = 1,…,n son i.i.d.
Esto se cumple automáticamente si la entidad (individuo,

distrito) se obtiene a través de un muestreo aleatorio simple:
se selecciona la entidad y entonces, para esa entidad, X y Y
son observadas (registradas).
La fuente más común de muestras no-i.i.d. es cuando los
datos se obtienen a lo largo del tiempo (“datos de series
temporales”) esto introducirá alguna complicaciones extra.
4-46
Otro ejemplo de muestras no-i.i.d. es cuando tenemos
observaciones que pertenecen a un grupo o cluster y que
comparten un elemento común del término de error
4-47
Supuesto #3 de los Mínimos Cuadrados :
Dado que Yi = β0 + β1Xi + ui, el supuesto #3 se puede expresar

de forma equivalente como, y .
El supuesto #3 es en general plausible. Un dominio finito de

los datos implica que los cuartos momentos sean finitos. (Las
notas de los test estandarizados lo cumplen automáticamente;
STR, ingreso familiar, etc. también lo cumplen).
4-48
4-49
4-50
4-51
4-52

ch4 Fede

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ch4 Fede

Cargado por

Copyright:

Formatos disponibles

Introducción a la Regressión Lineal

Problema empírico: Tamaño de la clase y resultado educativo

1. La teoría de la probabilidad para la regresión lineal

Distribución conjunta de (Y,X)

Muestreo aleatorio simple:

Ej.: La recta de regresión poblacional y el término de error

La recta de regression poblacional en el ejemplo del tamaño

β1 = pendiente de la recta de regresión poblacional

Por analogía, nos centraremos en el estimador de mínimos

Derivación de los estimadores MCO (Ap. 4.2):

Una pregunta natural es cómo de bien se “ajusta” (o explica) la

Suma Total de Cuadrados = SS Residual + SS Explicado

(la segunda igualdad se cumple porque = 0).

Muestra: Todos los distritos escolares de California (n = 420)

Uno de los distritos del conjunto de datos es Antelope, CA,

Regression with robust standard errors Number of obs = 420

Fíjense el bajo R-squared y el alto (relativo a ) Root MSE. Lo

En muchas aplicaciones interesantes el regresor es binario:

Hasta ahora, β1 ha sido llamada “pendiente” pero esto no tiene

¿Cómo interpretamos la regresión con un regresor binario?

El estimador MCO de la recta de regresión relacionando

Intervalo de confianza al 95% =

Nuestra labor: caracterizar la distribución muestral del

1. La distribución condicional de u dado X tiene media cero,

Así E(u|X=x) = 0 significa E(Family Income|STR) = constante (lo

Esto se cumple automáticamente si la entidad (individuo,

Dado que Yi = β0 + β1Xi + ui, el supuesto #3 se puede expresar

El supuesto #3 es en general plausible. Un dominio finito de

También podría gustarte