Está en la página 1de 78

Introducción a la Regresión Lineal

(SW Capítulo 4)

Problema: Nº de alumnos por clase y resultados escolares


Política educativa: ¿Qué efecto tiene en dichos resultados
reducir el nº de alumnos en 1 estudiante por clase? ¿y en 8?
• ¿Cúal es la medida correcta de los resultados escolares?
 Satisfacción de los padres
 Desarrollo personal del estudiante
 Bienestar futuro en la edad adulta
 Ganancias futuras en la edad adulta
 Resultados en varios tests estándar

4-1
¿Qué nos dicen los datos sobre el nº de alumnos por clase
y las puntuaciones en los tests (Test Scores)?

Datos de puntuaciones en California en 1998

Escuelas primarias en distintos distritos (n = 420)

Variables:
• Puntuaciones en un test de 5º curso que combina
lectura y matemáticas: nota media en cada distrito

• Ratio estudiante-profesor (STR: Student-teacher ratio):


nº de estudiantes en el distrito dividido por el nº de
profesores a tiempo completo
4-2
Un primer vistazo a los datos de notas en California:

4-3
¿Los distritos con menor nº de alumnos por clase (STR más
bajos) tienen puntuaciones más altas?

4-4
Pregunta de interés (policy question) sobre la relación
entre el nº de alumnos por clase y las calificaciones:

• ¿Qué efecto tiene sobre las calificaciones reducir el ratio


STR en un estudiante por clase?

• Objeto de interés: ∆ Notas


∆ STR

• Esto es la pendiente de la recta que relaciona las notas con


el ratio estudiante/profesor STR.

4-5
Esto sugiere que nos gustaría trazar una recta sobre la nube
de puntos de Notas vs. STR,... pero ¿cómo?

4-6
Un poco de notación y terminología
(Secciones 4.1 y 4.2)

La recta de regresión poblacional:


Notas = β0 + β1 STR
β1 = pendiente de la recta de regresión poblacional
∆ Notas
=
∆ STR
= cambio en las notas ante un cambio unitario en STR

• ¿Por qué son β0 y β1 parámetros “poblacionales”?


• Nos gustaría conocer el valor poblacional de β1
• No conocemos β1, debemos estimarlo utilizando datos
4-7
• ¿Cómo podemos estimar β0 y β1 a partir de los datos?

Recordemos: Y es el estimador de mínimos cuadrados de µY:


Y es la solución del problema:
n
min m ∑ (Yi − m ) 2
i =1

Análogamente, nos centraremos en el estimador de mínimos


cuadrados (MCO: mínimos cuadrados ordinarios) de los
parámetros desconocidos β0 y β1.

Dicho estimador resuelve el siguiente problema:


n
min b0 ,b1 ∑ [Yi − (b0 + b1 X i )]2
i =1
4-8
El estimador MCO resuelve el problema:
n
min b0 ,b1 ∑ [Yi − (b0 + b1 X i )]2
i =1

• El estimador MCO minimiza el promedio del cuadrado de


la diferencia entre los valores observados Yi y la
predicción (valor ajustado) basada en la recta estimada.

• Este problema de minimización puede resolverse


utilizando el cálculo elemental (ver Apéndice 4.2)

• El resultado de este problema es el estimador MCO de


β0 y β1.

4-9
¿Por qué utilizar MCO en lugar de algún otro estimador?

• MCO es una generalización de la media muestral: si la


“recta” que buscamos es un valor constante (sin variable
X), el estimador MCO es simplemente la media muestral
de Y1,…Yn (Y ).
• Al igual que Y , el estimador MCO tiene algunas “buenas”
propiedades: bajo ciertas condiciones, es insesgado (esto
es, E( βˆ1 ) = β1), y su distribución muestral tiene menor
varianza que la de otros posibles estimadores de β1
• Y no menos importante, este estimador es el que todo el
mundo utiliza, el “lenguaje” común de la regresión lineal.
4-10
4-11
Aplicación a los datos de California:
Puntuaciones – Nº de alumnos por clase

Pendiente estimada = βˆ1 = – 2.28


Término constante estimado = βˆ0 = 698.9
Regresión lineal estimada: Notas = 698.9 – 2.28×STR
4-12
Interpretación del término constante y la pendiente estimados

Notas = 698.9 – 2.28×STR


• Los distritos con un estudiante más por clase tienen en media
puntuaciones 2.28 puntos más bajas.
∆ Notas
= − 2 . 28
• Esto es: ∆ STR
• El término constante (tomado literalmente) significa que, de
acuerdo a la recta estimada, los distritos con 0 estudiantes por
profesor tendrían una puntuación (estimada) de 698.9.
• Esta interpretación del término constante no tiene sentido en
esta aplicación - extrapola la recta fuera del rango de los datos
- no tiene significado económico.
4-13
Valores ajustados (estimados) y residuos:

Uno de los distritos en los datos es Antelope, CA, para el


cual STR = 19.33 y Notas = 657.8

valor estimado: YˆAntelope = 698.9 – 2.28×19.33 = 654.8


residuo: uˆ Antelope = 657.8 – 654.8 = 3.0
4-14
Regresión MCO: STATA output

regress testscr str, robust

Regression with robust standard errors Number of obs = 420


F( 1, 418) = 19.26
Prob > F = 0.0000
R-squared = 0.0512
Root MSE = 18.581

-------------------------------------------------------------------------
| Robust
testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+----------------------------------------------------------------
str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671
_cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057
-------------------------------------------------------------------------

Notas = 698.9 – 2.28×STR

(discutiremos más en detalle estos resultados)


4-15
La recta de regresión MCO es una estimación calculada
usando nuestra muestra de datos; con otra muestra de datos
habríamos obtenido un valor diferente de βˆ1 .

¿Cómo podemos:
• cuantificar la variabilidad muestral asociada a βˆ1 ?
• utilizar βˆ1 para contrastar hipótesis como β1 = 0?
• construir un intervalo de confianza para β1?

Como en la estimación de la media, seguimos 4 pasos:


1. El marco probabilístico en la regresión lineal
2. Estimación
3. Contrastes de hipótesis
4. Intervalos de confianza
4-16
1. El marco probabilístico en la regresión lineal

Población
población de interés (ej: todos los distritos escolares)

Variables aleatorias: Y, X
Ej: (Notas, STR)

Distribución conjunta de (Y,X)


El punto clave es que suponemos que existe en la población
una relación lineal que relaciona X e Y; esta relación lineal
es la “regresión lineal poblacional”

4-17
El modelo de Regresión Lineal Poblacional (Sección 4.3)

Yi = β0 + β1Xi + ui, i = 1,…, n

• X es la variable independiente ó regresor


• Y es la variable dependiente
• β0 = término independiente
• β1 = pendiente
• ui = “término de error”
• El término de error consiste en factores omitidos o
posibles errores de medida en Y. En general, estos
factores omitidos son otros factores que afectan a Y,
distintos de la variable X.
4-18
Ej.: La recta de regresión poblacional y el término de error

¿Cuáles son algunos de los factores omitidos en este ejemplo?


4-19
Datos y muestreo:
Los objetos poblacionales (“parámetros”) β0 y β1 son
desconocidos; por tanto, para hacer inferencia sobre estos
parámetros debemos recoger datos relevantes.

Muestreo aleatorio simple:


Elegir aleatoriamente n elementos de la población de
interés y observar (registrar) X e Y para cada una de ellos.

El muestreo aleatorio simple implica que {(Xi, Yi)}, i = 1,…, n},


son independientes e idénticamente distribuidos (i.i.d.).
(Nota: (Xi, Yi) se distribuyen independientemente de (Xj, Yj) para
observaciones i y j diferentes).

4-20
Nuestra tarea: caracterizar la distribución muestral del
estimador MCO. Para hacer esto, necesitamos tres hipótesis:

Las hipótesis de Mínimos Cuadrados

A1. La distribución condicional de u dado X tiene media 0,


esto es, E(u|X = x) = 0.
A2. (Xi,Yi), i =1,…,n, son i.i.d.
A3. X y u tienen cuartos momentos, esto es:
E(X4) < ∞ y E(u4) < ∞.
Discutiremos cada una de estas hipótesis.
4-21
Mínimos cuadrados: Hipótesis A1: E(u|X = x) = 0.
Para cualquier valor dado de X, la media de u es cero

4-22
Ejemplo: Hipótesis A1 en el ejemplo del nº de alumnos
Notasi = β0 + β1STRi + ui, ui = otros factores

“Otros factores:”
• implicación de los padres
• otras oportunidades de aprendizaje (clases extra,..)
• ambiente familiar que fomente la lectura
• renta familiar como proxy útil para muchos de estos
factores

Por tanto, E(u|X=x) = 0 implica que E(Family Income|STR) =


constante (lo que implica que la renta familiar y STR están
incorrelados). Esta hipótesis no es inocua!. Volveremos a ella a
menudo.
4-23
Mínimos cuadrados: Hipótesis A2:
(Xi,Yi), i = 1,…,n son i.i.d.

Esto ocurre automáticamente si el elemento (individuo,


distrito) proviene de un muestreo aleatorio simple: el
elemento es seleccionado, y entonces X e Y son observados y
registrados.

Un caso en el que no encontraremos muestras i.i.d es cuando


los datos son recogidos a lo largo del tiempo (“series
temporales”); esto introduce complicaciones adicionales.

4-24
Mínimos cuadrados: Hipótesis A3:

E(X4) < ∞ y E(u4) < ∞

Dado que Yi = β0 + β1Xi + ui, A3 puede escribirse de forma


equivalente como, E(X4) < ∞ y E(Y4) < ∞.

En general, A3 es una hipótesis plausible. Un dominio finito


de los datos implica cuartos momentos finitos. (Las
puntuaciones estandarizadas satisfacen esta hipótesis; STR,
renta familiar, etc. también).

4-25
1. El marco probabilístico en la regresión lineal
2. Estimación: la distribución muestral de βˆ1
(Sección 4.4)
3. Contrastes de hipótesis
4. Intervalos de confianza

Como ocurre con Y , βˆ1 tiene una distribución muestral.


• ¿Qué es E( βˆ1 )? (es donde está centrada)
• ¿Qué es var( βˆ1 )? (medida de la variabilidad muestral)
• ¿Qué es la distribución muestral en muestras finitas?
• ¿Qué es la distribución muestral en muestras grandes?

4-26
La distribución muestral de βˆ1 : un poco de álgebra:
Yi = β0 + β1Xi + ui
Y = β0 + β1 X + u
entonces: Yi – Y = β1(Xi – X ) + (ui – u )
Por tanto:
n

∑( X i − X )(Yi − Y )
βˆ1 = i =1
n

∑ i
( X
i =1
− X ) 2

∑( X i − X )[ β1 ( X i − X ) + (ui − u )]
= i =1
n

∑ i
( X
i =1
− X ) 2

4-27
n

∑( X i − X )[ β1 ( X i − X ) + (ui − u )]
βˆ1 = i =1
n

∑ i
( X
i =1
− X ) 2

n n

∑( X i − X )( X i − X ) ∑( X i − X )(ui − u )
= β1 i =1
n
+ i =1
n

∑ i
( X
i =1
− X ) 2
∑ i
( X
i =1
− X ) 2

por tanto,
n

∑( X i − X )(ui − u )
βˆ1 – β1 = i =1
n

∑ i
( X − X
i =1
) 2

4-28
Podemos simplificar la fórmula teniendo en cuenta que:
n n
 n 

i =1
( X i − X )(u i − u ) = ∑ ( X i − X )u i –  ∑ ( X i − X )  u
i =1  i =1 
n
= ∑( X
i =1
i − X )u i .

Por tanto:
n
1 n
∑ ( X i − X )u i ∑
n i =1
vi
ˆ
β1 – β1 = n
i =1
=
 n −1 2
∑ i =1
(Xi − X ) 2

 n 
 sX

donde vi = (Xi – X )ui.

4-29
1 n

n i =1
vi
βˆ1 – β1 = , donde vi = (Xi – X )ui
 n −1 2
  sX
 n 

Ahora calculamos la media y la varianza de βˆ1 :


 1  n −1 2 
n
E( βˆ1 – β1) = E  ∑ v i   sX 
 n i =1  n  
 n   1 n vi 
= E  ∑ 2 
 n − 1   n i =1 s X 
 n  1 n  vi 
=  ∑E  2 
 n − 1  n i =1  s X 

4-30
Ahora E(vi/ s X2 ) = E[(Xi – X )ui/ s X2 ] = 0

porque E(ui|Xi=x) = 0 (ver detalles en Apéndice 4.3)

 n  1 n
 vi 
 ∑E 2  = 0
Por tanto, ˆ
E( β1 – β1) = 
 n − 1  n i =1  s X 
con lo que:
E( βˆ1 ) = β1

Es decir, βˆ1 es un estimador insesgado de β1.

4-31
Cálculo de la varianza de βˆ1 :
1 n

n i =1
vi
ˆ
β 1 – β1 =
 n −1 2
  sX
 n 

Este cálculo se simplifica suponiendo que n es grande (por


tanto, s X2 puede reemplazarse por σ X2 ); el resultado es,

ˆ var( v )
var( β1 ) =
nσ X2

(Para más detalles, ver Apéndice. 4.3.)

4-32
La distribución muestral exacta es complicada, pero cuando
el tamaño muestral es grande tenemos buenas
aproximaciones, que además son bastante sencillas:

p
(1) Puesto que var( βˆ1 ) ∝ 1/n y E( βˆ1 ) = β1, βˆ1 → β1

(2) Cuando n es grande, la distribución muestral de βˆ1 se


aproxima bien por una distribución normal
(TCL: Teorema Central del Límite)

4-33
1 n

n i =1
vi
βˆ1 – β1 =
 n −1 2
  sX
 n 
Cuando n es grande:
• vi = (Xi – X )ui ≅ (Xi – µX)ui, que es i.i.d. (¿por qué?) y
tiene dos momentos, esto es, var(vi) < ∞ (¿por qué?). Por
1 n
tanto, ∑ vi se distribuye N(0,var(v)/n) cuando n es
n i =1
grande
• s X2 es aproximadamente igual a σ X2 cuando n es grande
n −1 1
• =1– ≅ 1 cuando n es grande
n n
Teniendo todo esto en cuenta:
4-34
Aproximación asintótica (n grande) de la distribución de βˆ1 :

1 n 1 n

n i =1
vi ∑
n i =1
vi
ˆ
β1 β1
– = ≅ ,
 n −1 2 σX 2

  sX
 n 
σ v2
que se distribuye aproximadamente N(0, ).
n (σ X )
2 2

Puesto que vi = (Xi – X )ui, podemos escribir esto como:

ˆ var[( X i − µ x )ui ]
β1 se distribuye aproximadamente N(β1, )
nσ X 4

4-35
Recordemos brevemente la distribución muestral de Y :
Para (Y1,…,Yn) i.i.d. con 0 < σ Y2 < ∞,
• La distribución exacta (muestras finitas) de Y tiene media
µY (“Y es un estimador insesgado de µY”) y varianza σ Y2 /n
• Excepto su media y su varianza, la distribución exacta de
Y es complicada y depende de la distribución de Y
p
• Y → µY (ley de los grandes números)
Y − E (Y )
• se distribuye aproximadamente N(0,1) (TCL)
var(Y )

4-36
Conclusiones paralelas para el estimador MCO de βˆ1 :

Bajo las tres hipótesis de Mínimos Cuadrados,


• La distribución muestral exacta (muestras finitas) de βˆ1
tiene media β1 (“ βˆ1 es un estimador insesgado de β1”), y
var( βˆ1 ) es inversamente proporcional a n.
• Excepto su media y su varianza, la distribución exacta de
βˆ1 es complicada y depende de la distribución de (X,u)
p
• βˆ1 → β1 (ley de los grandes números)
βˆ1 − E ( βˆ1 )
• se distribuye aproximadamente N(0,1) (CLT)
var( βˆ )
1

4-37
4-38
1. El marco probabilístico en la regresión lineal
2. Estimación
3. Contrastes de hipótesis (Sección 4.5)
4. Intervalos de confianza

Suponga que alguien escéptico sugiere que reducir el número


de estudiantes por clase no tiene efecto en el aprendizaje, o
más específicamente, en las calificaciones. Esta persona
escéptica, por tanto, defiende esta hipótesis:
H0: β1 = 0
Queremos contrastar esta hipótesis usando los datos, alcanzar
algún tipo de conclusión acerca de si es correcta o incorrecta.
4-39
Hipótesis nula e hipótesis alternativa de doble cola:
H0: β1 = 0 vs. H1: β1 ≠ 0
o, de forma más general:
H0: β1 = β1,0 vs. H1: β1 ≠ β1,0
donde β1,0 es el valor del parámetro β1 bajo la hipótesis nula.

Hipótesis nula y alternativa de una sola cola:


H0: β1 = β1,0 vs. H1: β1 < β1,0

En economía, casi siempre es posible encontrar problemas en los


que el efecto de una variable podría ir en cualquier dirección, por
lo que es habitual centrarse en alternativas bilaterales.
4-40
Recordemos que el contraste de la media poblacional basado
en Y :
Y − µY ,0
t=
sY / n
rechaza la hipótesis nula si |t| >1.96.

donde el denominador es la raíz cuadrada de un estimador de


la varianza del estimador.
4-41
Si lo aplicamos a una hipótesis sobre β1:
estimador - valor hipotético
t=
error estándar del estimador
es decir
βˆ1 − β1,0
t=
SE ( βˆ1 )
en donde β1,0 es el valor hipotético de β1 bajo la hipótesis
nula (por ejemplo, si es cero, entonces, β1,0 = 0.)

¿Qué es SE( βˆ1 )?


SE( βˆ1 ) = la raíz cuadrada de un estimador de la
varianza de la distribución muestral de βˆ1

4-42
Recordemos la expresión de la varianza de βˆ1 (n grande):

var[( X − µ ) u ] σ 2
var( βˆ1 ) = i x i
= v
n (σ X2 ) 2 nσ X4

donde vi = (Xi – µ x )ui. El estimador de la varianza de βˆ1 :

1 estimador de σ 2
σˆ β2ˆ = × v
1
n (estimador de σ X2 )2
1 n
1 ∑
n − 2 i =1
( X i − X ) 2 2
uˆi
= × 2
.
n 1 n 2
 n ∑( X i − X ) 
 i =1 
4-43
1 n
1 ∑
n − 2 i =1
( X i − X ) 2 2
uˆi
σˆ = ×
2
βˆ1 2
.
n 1 n 2
 n ∑( X i − X ) 
 i =1 

De acuerdo, esta fórmula es desagradable, pero:


• No es necesario memorizarla
• El ordenador la calcula automáticamente
• SE( βˆ1 ) = σˆ β2ˆ es una salida típica del programa
1

• Es menos complicada de lo que parece. El numerador


estima var(v), el denominador estima var(X).

4-44
Regresemos al cálculo del estadístico t:

βˆ1 − β1,0 βˆ1 − β1,0


t= =
ˆ
SE ( β1 ) σˆ β2ˆ
1

• Rechazo al 5% de significación si |t| > 1.96


• El valor-p es p = Pr[|t| > |tcalculado|] = probabilidad en las
colas de la normal por encima de |tcal|
• Las dos afirmaciones anteriores son aproximaciones para
muestras grandes; típicamente n = 50 es lo
suficientemente grande como para que la aproximación
sea excelente.

4-45
Ejemplo: Notas y STR, datos de California

Regresión Estimada: Notas = 698.9 – 2.28×STR

Salidas del programa:

SE( βˆ0 ) = 10.4 SE( βˆ1 ) = 0.52


βˆ1 − β1,0 −2.28 − 0
t que contrasta β1,0 = 0: = = –4.38
SE ( βˆ1 ) 0.52

• Al nivel del 1%, el valor crítico de dos colas es 2.58; por


tanto, rechazamos la nula al 1% de significación.
• Alternativamente, podemos calcular el valor-p…
4-46
4-47
El valor-p en la aproximación normal de muestras grandes al
estadístico-t es 0.00001 (10–5)

1. El marco probabilístico en la regresión lineal


2. Estimación
3. Contrastes de hipótesis
4. Intervalos de confianza (Sección 4.6)

En general, si la distribución muestral del estimador es normal


para n grande, entonces podemos construir el intervalo de
confianza al 95% como:
estimador ± 1.96×error estándar
Es decir, el intervalo de confianza al 95% para β1 es,
{ βˆ ± 1.96×SE( βˆ )}
1 1
4-48
Ejemplo: Puntuaciones y STR, datos de California
Regresión estimada: Notas = 698.9 – 2.28×STR

SE( βˆ0 ) = 10.4 SE( βˆ1 ) = 0.52

Intervalo de confianza al 95% para β1:

{ βˆ1 ± 1.96×SE( βˆ1 )} = {–2.28 ± 1.96×0.52}


= (–3.30, –1.26)
Afirmaciones equivalentes:
• El IC al 95% no incluye al cero;
• La hipótesis β1 = 0 se rechaza al 5%

4-49
Información de la regresión estimada:

Ponemos el error estándar en paréntesis debajo de la estimación

Notas = 698.9 − 2.28×STR


(10.4) (0.52)

Esta expresión significa que:


• La regresión estimada es
Notas = 698.9 − 2.28×STR
• El error estándar de βˆ0 es 10.4
• El error estándar de βˆ1 es 0.52
4-50
Regresión MCO: STATA output

regress testscr str, robust

Regression with robust standard errors Number of obs = 420


F( 1, 418) = 19.26
Prob > F = 0.0000
R-squared = 0.0512
Root MSE = 18.581
-------------------------------------------------------------------------
| Robust
testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+----------------------------------------------------------------
str | -2.279808 .5194892 -4.38 0.000 -3.300945 -1.258671
_cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057
-------------------------------------------------------------------------
Es decir:
Notas = 698.9 − 2.28×STR
(10.4) (0.52)
t (β1 = 0) = –4.38, valor-p = 0.000
Intervalo de confianza al 95% para β1 es (–3.30, –1.26)
4-51
Regresión cuando X es binaria (Sección 4.7)

Algunas veces un regresor es binario:


• X = 1 si “mujer,” = 0 si “hombre”
• X = 1 si “en tratamiento médico,” = 0 si no
• X = 1 si “clase con pocos alumnos,” = 0 si no

Hasta ahora, hemos denominado “pendiente” a β1, pero en


este caso no tendría sentido.

¿Cómo interpretamos la regresión con un regresor binario?

4-52
Yi = β0 + β1Xi + ui, donde X es binaria (Xi = 0 ó 1):

• Cuando Xi = 0: Yi = β0 + ui
• Cuando Xi = 1: Yi = β0 + β1 + ui
Por tanto:
• Cuando Xi = 0, la media de Yi es β0
• Cuando Xi = 1, la media de Yi es β0 + β1
es decir:
• E(Yi|Xi=0) = β0
• E(Yi|Xi=1) = β0 + β1
consecuentemente:
β1 = E(Yi|Xi=1) – E(Yi|Xi=0)
= diferencia en la media poblacional de ambos grupos
4-53
Ejemplo: Notas y STR, datos de California
Sea
1 si STRi ≤ 20
Di = 
0 si STRi > 20

La estimación por MCO de la regresión que relaciona Notas


con D (con errores estándar en paréntesis) es:

Notas = 650.0 + 7.4×D


(1.3) (1.8)

Diferencia de medias entre grupos = 7.4;


SE = 1.8 t = 7.4/1.8 = 4.0
4-54
Comparamos los resultados de la regresión con los de las
medias de grupos calculadas directamente:
Tamaño de clase Nota media (Y ) Desv.Est.(sY) N
Pequeño (STR < 20) 657.4 19.4 238
Grande (STR ≥ 20) 650.0 17.9 182

Estimación: Ypequeño − Ygrande = 657.4 – 650.0 = 7.4


Yp − Yg 7.4
Test ∆=0: t= = = 4.05
SE (Yp − Yg ) 1.83
Intervalo al 95% = {7.4 ± 1.96×1.83} = (3.8, 11.0)
El mismo resultado que en la regresión!
Notas = 650.0 + 7.4×D
(1.3) (1.8)

4-55
Resumen: regresión cuando Xi es binaria (0/1)
Yi = β0 + β1Xi + ui

• β0 = media de Y dado X = 0
• β0 + β1 = media de Y dado X = 1
• β1 = diferencia de medias, X =1 menos X = 0
• SE( βˆ1 ) tiene la interpretación usual
• t e IC construidos de la forma habitual
• Ésta es otra forma de hacer análisis de diferencias de
medias
• El análisis de regresión es especialmente útil cuando
disponemos de regresores adicionales

4-56
Otros Estadísticos de la Regresión (Sección 4.8)

Una pregunta natural es si la línea de regresión explica o se


“ajusta” bien a los datos. Hay dos estadísticos de la regresión que
proporcionan medidas complementarias sobre la calidad del
ajuste:

• El R2 de la regresión mide la fracción de la varianza de Y que


es explicada por X; no posee unidades de medida y su rango
se encuentra entre cero (sin ajuste) y uno (ajuste perfecto)
• El error estándar de la regresión mide el ajuste – el tamaño
típico de un residuo de la regresión – en unidades de Y.

4-57
El R2
Escribamos Yi como la suma de la predicción MCO + residuo
MCO:
Yi = Yˆi + uˆi

El R2 es la fracción de la varianza muestral de Yi “explicada”


por la regresión, esto es, por Yˆi :
SCE
R =
2

SCT
n n
donde SCE = ∑ (Yˆi − Yˆ ) y SCT =
i =1
2
∑ i
(Y
i =1
− Y ) 2
.

4-58
El R2:

• R2 = 0 significa que SCE = 0, es decir X no explica nada


de la variación de Y
• R2 = 1 significa que SCE = SCT, o Y = Yˆ , es decir X
explica toda la variación de Y
• 0 ≤ R2 ≤ 1
• En la regresión con un sólo regresor (el caso en el que
estamos), R2 es el cuadrado del coeficiente de correlación
entre X e Y

4-59
El Error Estándar de la Regresión (SER)

El error estándar de la regresión es (casi) la desviación


estándar muestral de los residuos MCO:

1 n
SER = ∑
n − 2 i =1
( ˆ
ui − ˆ
ui ) 2

1 n 2
= ∑
n − 2 i =1
uˆi

1 n
(la segunda igualdad viene de ∑ uˆi = 0).
n i =1
4-60
1 n 2
SER = ∑
n − 2 i =1
uˆi

El SER:
• Se mide en unidades de u, que son unidades de Y
• Mide la dispersión de la distribución of u
• Mide el “tamaño” medio del residuo MCO (el “error”
medio cometido por la regresión MCO)
• La raíz cuadrada del error cuadrático medio (RMSE)
está muy relacionada con el SER:
1 n 2
RMSE = ∑
n i =1
uˆi

Que mide lo mismo – la única diferencia es la división por


n en lugar de por (n–2).
4-61
Nota: ¿por qué se divide por (n–2) y no por (n–1)?
1 n 2
SER = ∑
n − 2 i =1
uˆi

• La división por (n–2) es una corrección de “grados de


libertad” como lo es la división por (n–1) en sY2 ; la
diferencia es que, en el SER, se han estimado dos
parámetros (β0 y β1 mediante βˆ0 y βˆ1 ), mientras que en sY2
sólo se ha sido estimado uno (µY mediante Y ).
• Cuando n es grande, es indiferente dividir por n, (n–1), ó
(n–2) – aunque la fórmula convencional utiliza (n–2)
cuando hay un único regresor.
• Detalles en Sección 15.4
4-62
Ejemplo de R2 y SER

Notas = 698.9 − 2.28×STR, R2 = 0.05, SER = 18.6


(10.4) (0.52)
El coeficiente de la pendiente es estadísticamente
significativo y grande, aun cuando STR explica sólo una
fracción pequeña de la variación en las notas.
4-63
Nota Práctica: Heteroscedasticidad, Homoscedasticidad,
y Fórmula de los Errores Estándar de βˆ0 y βˆ1
(Sección 4.9)

• ¿Qué significan estos dos términos?


• Consecuencias de la homoscedasticidad
• Cálculo de los errores estándar

¿Qué significan estos dos términos?


Si var(u|X=x) es constante – es decir, la varianza de la
distribución condicional de u dado X no depende de X,
entonces u es homoscedástica. En otro caso, u será
heteroscedástica.
4-64
Homoscedasticidad en un gráfico:

• E(u|X=x) = 0 (u satisface la Hipótesis A1 de MCO)


• La varianza de u no cambia con (depende de) x
4-65
Heteroscedasticidad en un gráfico:

• E(u|X=x) = 0 (u satisface la Hipótesis A1 de MCO)


• La varianza de u depende de x.

4-66
Ejemplo real de heteroscedasticidad en Economía Laboral:
ganancias medias por hora vs. años de educación
(fuente: Current Population Survey 1999)
Average Hourly Earnings Fitted values

60
Average hourly earnings

40

20

0
5 10 15 20
Years of Education
Scatterplot and OLS Regression Line

4-67
¿Son heteroscedásticos los datos del nº de alumnos por clase?

Difícil de decir…son casi homoscedásticos, aunque la


dispersión parece menor para valores grandes de STR.
4-68
Hasta ahora, hemos supuesto (sin decirlo expresamente) que
u es heteroscedástica:

Recordemos las tres hipótesis de MCO:


1. La distribución condicional de u dado X tiene media
cero, esto es, E(u|X = x) = 0.
2. (Xi,Yi), i =1,…,n, son i.i.d.
3. X y u poseen momentos finitos de cuarto orden.

Heteroscedasticidad y homoscedasticidad hacen referencia a


var(u|X=x). Puesto que no hemos supuesto explícitamente
homoscedasticidad, permitimos implícitamente
heteroscedasticidad.
4-69
¿Y si los errores fuesen de hecho homoscedásticos?:
• Podríamos probar algunos teoremas de MCO (en
particular, el teorema de Gauss-Markov, que dice que
MCO es el estimador con menor varianza entre aquellos
que son funciones lineales de (Y1,…,Yn); véase Sección
15.5).
• Las fórmulas de la var( βˆ1 ) y del error estándar se
simplifican (Apéndice. 4.4): Si var(ui|Xi=x) = σ u2 ,
entonces
var[( X − µ ) u ] σ 2
var( βˆ1 ) = i x i
= … = u
n (σ X2 ) 2 nσ X2
Nota: var( βˆ ) es inversamente proporcional a var(X):
1

mayor dispersión en X significa mayor información sobre βˆ1 .


4-70
Fórmula general del error estándar de βˆ1 : es la de
1 n
1 ∑
n − 2 i =1
( X i − X ) 2 2
uˆi
σˆ = ×
2
βˆ1 2
.
n 1 n 2
 n ∑( X i − X ) 
 i =1 

Caso especial con homoscedasticidad:


1 n 2
1 ∑
n − 2 i =1
uˆi
σˆ = × n
2
βˆ1
.
n 1
∑ i
n i =1
( X − X ) 2

A veces se dice que la fórmula de abajo es más simple.

4-71
La fórmula “sólo válida con homoscedasticidad” del error
estándar de βˆ1 y la que es “robusta a la heteroscedasticidad”
(la fórmula que es válida con heteroscedasticidad) difieren en
general: obtenemos errores estándar distintos con ambas
fórmulas.
La fórmula “sólo con homoscedasticidad” de los
errores estándar es la que suelen utilizar por
defecto los paquetes informáticos – a veces la única
(e.g. Excel). Para obtener la general, “robusta a la
heteroscedasticidad”, debemos anular la primera.
Si no lo hacemos y de hecho hay heteroscedasticidad,
obtendremos errores estándar, así como t e IC, erróneos.
4-72
Puntos críticos:
• No hay problema con utilizar la fórmula de
heteroscedasticidad cuando los errores son
homoscedásticos.
• Si utilizamos la fórmula de homoscedasticidad con errores
heteroscedásticos, los errores estándar serán incorrectos.
• Ambas fórmulas coinciden (cuando n es grande) en el
caso especial de homoscedasticidad.
• Conclusión: deberíamos utilizar siempre la fórmula de
heteroscedasticidad – convencionalmente, Errores
estándar robustos a la heteroscedasticidad.

4-73
SE robustos a la heteroscedasticidad en STATA

regress testscr str, robust

Regression with robust standard errors Number of obs = 420


F( 1, 418) = 19.26
Prob > F = 0.0000
R-squared = 0.0512
Root MSE = 18.581
-------------------------------------------------------------------------
| Robust
testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+----------------------------------------------------------------
str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671
_cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057
-------------------------------------------------------------------------

¡¡¡Utiliza la opción “, robust” !!!

4-74
Resumen y Valoración (Sección 4.10)
• Cuestión inicial de política educativa:
Suponga que se contratan nuevos profesores con la
intención de disminuir el ratio estudiante-profesor en
un estudiante por clase. ¿Qué efecto tendrá esta
medida sobre las notas de los estudiantes?
• ¿Da nuestra regresión una respuesta convincente?
Realmente no – Aquellos distritos con menor STR
suelen ser los que tienen más recursos y renta familiar,
proporcionándoles mayores oportunidades de
aprendizaje fuera del colegio … lo que sugiere que
corr(ui,STRi) > 0, y por tanto E(ui|Xi)≠0.

4-75
Digresión sobre Causalidad

La pregunta original (¿cuál es el efecto cuantitativo de una


intervención que reduzca el nº de alumnos por clase?) es una
cuestión sobre un efecto causal: el efecto sobre Y que tiene la
aplicación de una unidad de tratamiento es β1.

• Pero ¿qué es, exactamente, un efecto causal?


• La definición de sentido común no es suficientemente
precisa para nuestros propósitos.
• En este curso, lo definiremos como el efecto que se mide
en un experimento aleatorio controlado ideal.
4-76
Experimento Aleatorio Controlado Ideal (EACI)
• Ideal: los sujetos siguen el protocolo del tratamiento –
cumplimiento perfecto, información sin error, etc.!
• Aleatorio: se asignan los sujetos de la población de
interés aleatoriamente al grupo de control o tratamiento
(sin factores de confusión)
• Controlado: con un grupo de control se puede medir el
efecto diferencial del tratamiento
• Experimento: el tratamiento es asignado como parte del
experimento: los sujetos no tienen elección, con el fin de
evitar que se dé una “causalidad inversa” cuando los
sujetos eligen aquel tratamiento que piensan que les
funcionará mejor.
4-77
De vuelta con el nº de alumnos por clase:
• ¿Cómo sería un EACI que midiese el efecto sobre las notas de
una reducción de STR?
• ¿En qué difiere el análisis de regresión basado en datos
observados del ideal?
o El tratamiento no está asignado aleatoriamente
o En USA – con nuestros datos observados – los distritos de
mayor renta suelen ser aquellos con menor nº de alumnos
por clase y mejores notas.
o Como resultado es posible que E(ui|Xi=x) ≠ 0.
o Si es así, no se cumpliría la hipótesis A1 de MCO.
o βˆ sesgado: la omisión de variables hace que, para explicar
1

las notas, el nº de alumnos por clase parezca parezca más


importante de lo que realmente es.
4-78

También podría gustarte