Está en la página 1de 52

Introducción a la Regressión Lineal

(SW Capítulos 4 y 5)

Problema empírico: Tamaño de la clase y resultado educativo



Pregunta política¿Qué efecto tiene reducir en uno el número de
alumnos por clase? ¿Y por 8 alumnos/clase?
• Examinamos Δ = diferencia de las medias, para clases pequeñas

vs. grandes
• Pero Δ no contesta del todo nuestra pregunta política


Más bien, lo que nos interesa es

Pero esto es la pendiente de una recta que relaciona la nota del
test (Test score) y STR (número de alumnos por clase)
4-1

Así que tenemos que estimar este pendiente de algún modo…
Queremos trazar una recta a través del grafico de dispersión
de Test score vs. STR – ¿pero cómo?

4-2
Esquema de los capítulos 4 y 5 SW:

1. La teoría de la probabilidad para la regresión lineal


2. El modelo de regresión lineal con un solo regresor poblacional
3. El estimador de Mínimos Cuadrados Ordinarios (MCO)
4. Otras estadísticas de la regresión: bondad de ajuste, propiedades
algebraicas
5. Aplicación al ejemplo de las notas del test y tamaño clase
6. Regresión con variables dicótomas
7. Las suposiciones de los Mínimos Cuadrados
8. La distribución muestral de los estimadores MCO
9. Contrastes de hipótesis y intervalos de confianza

4-3
10. Implicaciones prácticas de heterosquedasticidad y
homosquedasticidad
1. Teoría de la probabilidad para la Regresión lineal

Población
Población de interés (ej: todos los distritos escolares posibles)

Variables aleatorias: Y, X
Ej: (Test Score, STR)

Distribución conjunta de (Y,X)

4-4
El quid de la cuestión es que suponemos que existe una
relación lineal en la población que relaciona X y Y; Esta
relación lineal es la “regresión lineal poblacional”

Datos y muestreo
Los objetos poblacionales (“parámetros”) β0 y β1 son
desconocidos; así que para hacer inferencias sobre estos
parámetros desconocidos necesitamos recopilar datos

Muestreo aleatorio simple:


Escogemos n entidades al azar de la población de interés, y
observamos (registramos) X y Y para cada entidad

4-5
El muestreo aleatorio simple implica que {(Xi, Yi)}, i = 1,…,
n, son independientes i idénticamente distribuidos (i.i.d.).
(Nota: (Xi, Yi) se distribuyen independientemente de (Xj, Yj)
para observaciones distintas de i y j.)

4-6
2. La Regresión Lineal Poblacional
Yi = β0 + β1Xi + ui, i = 1,…, n


X es la variable independiente o regresor

Y es la variable dependiente
• β0 = intersección
• β1 = pendiente

ui = “término de error”

El término de error consiste en factores omitidos, o
posibles errores de medida al medir Y. En general, estos
factores omitidos son otros factores que influencian a Y, a
parte de X 4-7

Ej.: La recta de regresión poblacional y el término de error

4-8
¿Cuáles son algunos de los factores omitidos en el ejemplo del
tamaño de clase?

La recta de regression poblacional en el ejemplo del tamaño


de clase:
Test Score = β0 + β1STR

β1 = pendiente de la recta de regresión poblacional

=
= cambio en Test debido a un cambio unitario de
STR

4-9
• ¿Por qué son β0 y β1 parámetros “poblacionales”?
• Nos gustaría conocer el valor de β1 en la población.
• No conocemos β1, así que lo tenemos que estimar con los
datos.

4-10
3. El Estimador MCO
¿Cómo podemos estimar β0 y β1 con los datos?
Recuerda que era el estimador de mínimos cuadrados de µY:
resuelve,

Por analogía, nos centraremos en el estimador de mínimos


cuadrados (“mínimos cuadrados ordinarios” o “MCO”) de
los parámetros desconocidos β0 y β1, que resuelven,

4-11

El estimador MCO minimiza la diferencia cuadrada media
entre los valores reales de Yi y la predicción (valor predicho)
basándose en la línea estimada.

Este problema de minimización puede resolverse usando
cálculo (Ap. 4.2).

4-12
• El resultado es el estimador MCO de β0 y β1:

Derivación de los estimadores MCO (Ap. 4.2):

4-13
4-14
4-15
¿Por qué usar MCO en vez de otro estimador?

MCO es una generalización de la media muestral: si la “recta”
es sólo una intersección (no X), entonces el estimador MCO es
simplemente la media muestral de Y1,…Yn ( ).

Como , el estimador MCO tiene algunas buenas propiedades:
bajo ciertos supuestos, es no sesgado (esto es, E( ) = β1), y
tiene una distribución más concentrada que otros candidatos
para estimador de β1 (más sobre luego)

Además, es el que utiliza todo el mundo – el “lenguaje” común
de la regresión lineal.

4-16
4. Otros Estadísticos de la Regresión

Una pregunta natural es cómo de bien se “ajusta” (o explica) la


recta de regresión a los datos. Hay dos estadísticos que
proporcionan medidas complementarias de la calidad del ajuste:

El R2 de la regresión mide la fracción de la varianza de Y que
se explica por X; no tiene unidades y su rango va de cero (nada
de ajuste) a uno (ajuste perfecto)

El error estándar de la regresión mide el ajuste – el tamaño
típico del residuo de la regresión – en las unidades de Y.

4-17
4-18
Algunas propiedades algebraicas más de MCO:

Suma Total de Cuadrados = SS Residual + SS Explicado


Nota: SS = suma de cuadrados (del inglés” sum of squares”)
4-19
4-20
4-21
(b) El Error Estándar de la Regresión (EER)
El error estándar de la regresión es (casi) la desviación
estándar muestral de los residuos de MCO:

EER =

(la segunda igualdad se cumple porque = 0).


4-22
EER=
The EER:

Tiene las unidades de u, que son las mismas unidades de Y

Mide la dispersión de la distribución de u

Mide el “tamaño” medio del residuo MCO (el “error”
medio hecho por la recta de regresión MCO)

La raíz del error cuadrado medio (RECM) está
estrechamente relacionado con EER:

RECM =
4-23
Esto mide lo mismo que EER – la única diferencia es la
división por 1/n en vez de 1/(n–2).
Nota técnica: por qué dividir por n–2 en vez de n–1?

EER =


La división por n–2 es un ajuste por los “grados de libertad”
como la división por n–1 en que corrige un ligero sesgo
hacia abajo; la diferencia es que, en EER, se han estimado
dos parámetros (β0 y β1, por y ), mientras que en
sólo se ha estimado uno (µY, por ).

4-24

cuando n es grande, la diferencia es negligible tanto si se usa
n, n–1, o n–2– aunque la fórmula convencional usa n–2
cuando hay un único regresor.

4-25
5. Aplicación a los datos de Nota del Test-Tamaño Clase en
California

Muestra: Todos los distritos escolares de California (n = 420)


en 1998
Datos:
Y=5th curso notas (Stanford-9 prueba de rendimiento ,
combinado con mates y lectura), media del distrito
X=Ratio alumnos-profes (STR) = no. De alumnos en el
distrito dividido por no. profesores equivalentes a tiempo
completo

4-26
Pendiente estimado = = – 2,28
Intersección estimada = = 698,9
Recta de regresión estimada: = 698,9 – 2,28*STRi
4-27
Interpretación del pendiente estimado y de la intersección
= 698,9 – 2,28*STRi

Distritos con un alumno más por profesor tienen de media notas
del test (Test Scores) que son 2,28 puntos inferiores.


Esto es, = –2,28

La intersección (tomada literalmente) significa que, de acuerdo
con esta recta de regresión estimada, distritos con cero alumnos
por profesor tendrían una nota del test (predicha) de 698.9.

Esta interpretación no tiene sentido – extrapola la recta fuera
del rango de los datos en esta aplicación, la intersección no
tiene ningún significado económico.

4-28
Valores predichos y residuos:

Uno de los distritos del conjunto de datos es Antelope, CA,


para el que STR = 19,33 y Test Score = 657,8
Valor predicho: = 698,9 – 2,28*19,33 = 654,8
residuo: = 657,8 – 654,8 = 3,0
4-29
regresión MCO: STATA output
regress testscr str, robust

Regression with robust standard errors Number of obs = 420


F( 1, 418) = 19.26
Prob > F = 0.0000
R-squared = 0.0512
Root MSE = 18.581

-------------------------------------------------------------------------
| Robust
testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+----------------------------------------------------------------
str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671
_cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057
-------------------------------------------------------------------------

Fíjense el bajo R-squared y el alto (relativo a ) Root MSE. Lo


que esto significa es que hay otros factores importantes que afectan
a las notas del test, aparte del tamaño de la clase (diferencias en la
composición del alumnado, calidad de la escuela, suerte, etc.)

4-30
6. Regresión cuando X es binaria (0/1)

En muchas aplicaciones interesantes el regresor es binario:



X = 1 si mujer, = 0 si hombre

X = 1 si tratado (medicamento experimental), = 0 si no

X = 1 si clase pequeña, = 0 si no

Hasta ahora, β1 ha sido llamada “pendiente” pero esto no tiene


sentido si X es binaria

¿Cómo interpretamos la regresión con un regresor binario?

4-31
Yi = β0 + β1Xi + ui, donde X es binario (Xi = 0 o 1):

• cuando Xi = 0: Yi = β0 + ui
• cuando Xi = 1: Yi = β0 + β1 + ui
entonces:
• cuando X = 0, la media de Y es β
i i 0
• cuando Xi = 1, la media de Yi es β0 + β1
Esto es:
• E(Y |X =0) = β
i i 0
• E(Yi|Xi=1) = β0 + β1
Así que:
4-32
β1 = E(Yi|Xi=1) – E(Yi|Xi=0)
= diferencia poblacional de la media de los grupos
Ejemplo: Datos TestScore y STR, para California
Sea:

Di =

El estimador MCO de la recta de regresión relacionando


TestScore a D (con errores estándar en paréntesis) es:

Yi = 650,0 + 7,4×Di
(1,3) (1,8)
4-33
Diferencia de las medias de los grupos = 7.4;
SE = 1.83 t = 7.4/1.83 = 4.05

4-34
Comparemos los resultados de la regresión con las medias de
los grupos, calculadas directamente:
Tamaño de la Nota media ( ) Dev.Std. (sY) N
Clase
Small (pequeño) 657.4 19.4 238
STR > 20
Large (grande) 650.0 17.9 182
STR ≥ 20

Estimación:
= 657,4 – 650,0 = 7,4

4-35
Test Δ=0:

Intervalo de confianza al 95% =

=(3,8;11,0)
¡Es exactamente igual que en la regresión!

4-36
Resumen: regresión cuando Xi es binaria (0/1)

Yi = β0 + β1Xi + ui
• β0 = media de Y dado que X = 0
• β0 + β1 = media de Y dado que X = 1
• β1 = diferencia entre las medias de los grupos, X =1 menos X = 0

SE( ) tiene la interpretación usual

t-estadísticos e intervalos de confianza se construyen como
siempre

Esta es otra forma de hacer análisis de diferencia de medias
La formulación como regresión es especialmente útil cuando
tenemos regresores adicionales (lo vemos enseguida…)
4-37
La recta de regresión MCO es una estimación, calculada
usando nuestra muestra de datos; una muestra distinta habría
producido un valor distinto para .
Cómo podemos:

Cuantificar la incertidumbre muestral asociada a ?
• usar para contrastar hipótesis como β1 = 0?
• Construir un intervalo de confianza para β1?

Nuestra labor: caracterizar la distribución muestral del


estimador MCO. Para ello, hacemos tres supuestos:
4-38
4-39
7. Los Supuestos de los Mínimos Cuadrados
(Concepto clave 4.3)

1. La distribución condicional de u dado X tiene media cero,


esto es, E(u|X = x) = 0.
2. (Xi,Yi), i =1,…,n, son i.i.d.
3. X y u tienen cuatro momentos finitos, esto es:

4-40
Discutiremos estos supuestos en orden.

4-41
Supuesto #1 de los Mínimos Cuadrados: E(u|X = x) = 0.
Para cualquier valor dado de X, la media de u es cero

4-42
4-43
Ejemplo: Supuesto #1 y tamaño de la clase
Test Scorei = β0 + β1STRi + ui, ui = otros factores

“Otros factores:”

Implicación de los padres

Oportunidades de aprendizaje externas (clases extra de mates,..)

Entorno familiar que incentiva la lectura

El ingreso familiar es una buena proxy para estos factores

Así E(u|X=x) = 0 significa E(Family Income|STR) = constante (lo


que implica que el ingreso familiar y STR no están

4-44
correlacionados). ¡Este supuesto no es inocuo! Volveremos a él
muy a menudo.
Nota: “income” significa ingreso

4-45
Supuesto #2 de los Mínimos Cuadrados:
(Xi,Yi), i = 1,…,n son i.i.d.

Esto se cumple automáticamente si la entidad (individuo,


distrito) se obtiene a través de un muestreo aleatorio simple:
se selecciona la entidad y entonces, para esa entidad, X y Y
son observadas (registradas).
La fuente más común de muestras no-i.i.d. es cuando los
datos se obtienen a lo largo del tiempo (“datos de series
temporales”) esto introducirá alguna complicaciones extra.

4-46
Otro ejemplo de muestras no-i.i.d. es cuando tenemos
observaciones que pertenecen a un grupo o cluster y que
comparten un elemento común del término de error

4-47
Supuesto #3 de los Mínimos Cuadrados :

Dado que Yi = β0 + β1Xi + ui, el supuesto #3 se puede expresar


de forma equivalente como, y .

El supuesto #3 es en general plausible. Un dominio finito de


los datos implica que los cuartos momentos sean finitos. (Las
notas de los test estandarizados lo cumplen automáticamente;
STR, ingreso familiar, etc. también lo cumplen).

4-48
4-49
4-50
4-51
4-52

También podría gustarte