Sesión 7

ECONOMETRÍA I
SESIÓN 7: Principios del modelo de regresión lineal general I

Regresión lineal con varios regresores
Profesor: Javier Hualde
1
ÍNDICE
1. Sesgo de variable omitida
2. Causalidad y análisis de regresión
3. Regresión múltiple y MCO
4. Medidas de ajuste
2
SESIÓN VII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL I –
SESGO DE VARIABLE OMITIDA
 En un modelo de regresión el error recoge otros factores o variables que infuencian la variable
dependiente, pero que no están recogidos explícitamente en la función de regresión
 Siempre hay variables omitidas
 En nuestro ejemplo empírico muchos factores aparecen recogidos en el error
 Características de las escuelas en el distrito: calidad del profesorado, uso de ordenadores,…
 Características de los estudiantes en el distrito: ingresos familiares, porcentaje de no nativos,…
 Ejemplo de la problemática
 Estudiantes no nativos no dominan el inglés ⟹ peor desempeño
 Distritos con clases grandes tienen un porcentaje mayor de inmigración
 Con los datos observacionales puede parecer que distritos con menor REM lo hacen mejor pero
quizás no sea por el bajo REM sino porque hay menos población inmigrante (correlación no
implica causalidad)
 En algunas ocasiones, la omisión de estas variable puede implicar un sesgo en el estimador MCO
3
 El sesgo del MCO que ocurre cuando hay un factor omitido relevante se denomina sesgo de variable omitida
 Para que esto ocurra, la variable omitida “W” debe satisfacer dos condiciones:
 W es un determinante de Y (es decir, W es parte of u)
 W está correlado con el regresor X (es decir, corr(W,X) ≠ 0)
 Ejemplos
 Porcentaje de estudiantes de inglés no nativos
 A mayor porcentaje de estudiantes no nativos, peores resultados académicos
 Correlación muestral con REM de 0,19 (distritos con grandes comunidades de
inmigrantes suelen tener menos recursos para la educación)
 Hora del día de la prueba
 Puede afectar los resultados del examen
 No parece correlacionada con REM ⟹ no genera sesgo de variable omitida
 Espacio de aparcamiento por alumno
 No parece afectar los resultados del examen ⟹ no genera sesgo de variable omitida
 Pero relacionado con REM
4
 Desde el punto de vista del MCO, si 𝑐𝑜𝑣 𝑋𝑖 , 𝑢𝑖 ≠ 0 ⟹ E(𝑢𝑖 𝑋𝑖 no puede ser constante, así que el Supuesto 1 de
mínimos cuadrados no se cumple
 Si 𝑐𝑜𝑣 𝑋𝑖 , 𝑢𝑖 ≠ 0 se produce el sesgo de variable omitida
 ¿Cuál es la dirección del sesgo?
 ¿Qué sugiere el sentido común?
 Haremos una derivación formal
 Recordemos que
𝑛 𝑛 −1 𝑛
(𝑋
𝑖=1 𝑖 − 𝑋)(𝑢 𝑖 − 𝑢) 𝑋 𝑢
𝑖=1 𝑖 𝑖 − 𝑛 𝑋 𝑢 𝑛 𝑖=1 𝑋𝑖 𝑢𝑖 − 𝑋 𝑢
β1 = β1 + 𝑛 2
= β1 + 𝑛 2 2
= β1 + −1 𝑛 2 2
(𝑋
𝑖=1 𝑖 − 𝑋) 𝑋
𝑖=1 𝑖 −𝑛( 𝑋) 𝑛 𝑖=1 𝑖 −(𝑋)
𝑋
 Aplicando la Ley de los grandes números y el Teorema de Slutzky
𝑝 𝐸 𝑋𝑖 𝑢𝑖 − 𝐸 𝑋𝑖 𝐸 𝑢𝑖 𝑐𝑜𝑣 𝑋𝑖 , 𝑢𝑖
β1 β1 + = β1 +
𝐸 𝑋𝑖2 − 𝐸 𝑋𝑖 2 𝑣𝑎𝑟 𝑋𝑖
 Si el Supuesto 1 se cumple, 𝑐𝑜𝑣 𝑋𝑖 , 𝑢𝑖 = 0 ⟹ β1 consistente

5
Fórmula del sesgo de variable omitida
𝑝 𝑐𝑜𝑣 𝑋𝑖 , 𝑢𝑖 σ𝑢
β1 β1 + = β1 + ρ𝑋𝑢
𝑣𝑎𝑟 𝑋𝑖 σ𝑋
donde:
 ρ𝑋𝑢 : 𝑐𝑜𝑟𝑟(𝑋𝑖 , 𝑢𝑖 )
 σ𝑢 : 𝑣𝑎𝑟 𝑢𝑖
 σ𝑋 : 𝑣𝑎𝑟 𝑋𝑖
 Si una variable omitida es relevante (determinante de Y y correlacionada con X) ⟹ ρ𝑋𝑢 ≠ 0 ⟹ β1 es inconsistente
(y también sesgado)
 Problema en muestras pequeñas y grandes
 La dirección del sesgo depende del signo de ρ𝑋𝑢
 En el ejemplo empírico posiblemente ρ𝑋𝑢 < 0 porque REM positivamente correlacionada con el porcentaje de no
nativos (que como implica peores notas entra en el error con signo negativ0)
 β1 sesgado hacia un número más negativo (sobrevaloración del efecto tamaño de clase)
6
SESIÓN VII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL I – SESGO
DE VARIABLE OMITIDA
Solución del sesgo de variable omitida mediante la division de los datos en grupos
Estamos interesados en el efecto REM sobre Notas manteniendo constantes otros factores (ceteris paribus)
Solución: centrarnos en distritos con porcentajes similares de alumnos de estudiantes de inglés (no nativos)
 Distritos con bajo porcentaje de

estudiantes de inglés tienen mayores
notas
 Distritos con bajo porcentaje de
estudiantes de inglés tienen clases más
pequeñas
 Entre los distritos con similar porcentaje
de estudiantes de inglés el efecto del
tamaño de clase es menor que el efecto
global
 El análisis refuerza la preocupación sobre
un posible sesgo de variable omitida
7
CAUSALIDAD Y ANÁLISIS DE REGRESIÓN
 El anterior ejemplo muestra que, si hay una variable omitida que satisface los dos requisitos de sesgo
de variable omitida, el MCO en la regresión con un único regresor es sesgado e inconsistente
 Así que, incluso si n es grande, β1 no será cercano a β1
 Esta discusión da lugar da lugar a una pregunta muy profunda: ¿cómo definimos β1 ?
 En otras palabras, ¿ qué es lo que queremos estimar cuando diseñamos una regresión?
 Hay (por lo menos) tres respuestas posibles a esta pregunta
8
1. Queremos estimar la pendiente de una recta que cruza una nube de puntos en un gráfico de dos variables
 Se trata de un resumen de los datos al que no pretendemos dar ningún significado sustantivo
 Útil a veces, pero no demasiado interesante desde un punto de vista científico
2. Queremos hacer predicciones sobre el valor de Y para un individuo que no está en el conjunto de datos para el
que conocemos el valor de X
 La predicción es algo esencial para los economistas
 Se puede predecir de forma excelente usando métodos de regresión sin tener un conocimiento
preciso de efectos causales
3. Queremos estimar el efecto causal ceteris paribus en Y de un cambio en X

 Las preguntas más interesantes suelen ser causales
 El objetivo principal de este curso es la estimación de efectos causales usando métodos de
regresión
9
Pero, ¿qué es exactamento un efecto causal?
 “Causalidad” es un concepto muy complejo!
 En realidad la causalidad interesante es la causalidad ceteris paribus, es decir, manteniendo

fijos factores relevantes
 Podemos tomar un enfoque práctico para definir causalidad
Un efecto causal se define como el efecto medido en un experimento aleatorizado

controlado ideal
10
Experimento aleatorizado controlado ideal
 Ideal: todos los sujetos cumplen el protocolo diseñado para aplicar el tratamiento. Perfecto
cumplimiento, sin errores en la recopilación de datos, abandonos,…
 Aleatorizado: los participantes en el experimento (sujetos de la población de interés) son asignados

de manera aleatoria al grupo de control, que no recibe el tratamiento, y al grupo de tratamiento,
que sí lo recibe
 Controlado: tener un grupo de control permite medir el efecto diferencial del tratamiento
 Experimento: el tratamiento es asignado como parte del experimento. Los sujetos no tienen
elección, por lo que se evita el problema de “causalidad reversa”, debido a que los sujetos eligen el
tratamiento que creen que funciona mejor
11
En nuestro ejemplo empírico…
 Es tremendamente interesante pensar en un experimento aleatorizado controlado ideal

para medir el efecto sobre las Notas de reducir el REM
 En ese experimento, los estudiantes serían asignados aleatoriamente a clases que tendrían
diferentes tamaños
 Dado que la asignación es aleatoria, todas las características de los estudiantes (y de esta
forma ui) se distribuiría independientemente de REMi
 De esta forma, E(ui|REMi)=0 ⟹ el Supuesto 1 se cumpliría para un experimento

aleatorizado controlado ideal
12
¿Cómo difieren nuestros datos observacionales de esta situación ideal?
 El tratamiento no se asigna aleatoriamente
 Consideremos el porcentaje de estudiantes de inglés (PctEI) en el distrito. Es realista pensar que

esta variable satisfaga los dos requisitos de sesgo de variable omitida: W= PctEI es
1. un determinante de Y y
2. correlacionada con el regresor X
 De esta forma, los grupos de “control” y de “tratamiento” difieren de una forma sistemática
 Específicamente corr(REM,PctEI) ≠ 0
13
 Aleatorización + grupo de control implica que cualquier diferencia entre los grupos de control y de
tratamiento es aleatoria, no está ligada de forma sistemática al tratamiento
 Podemos eliminar la diferencia en PctEI entre los grupos de control (clase grande) y de
tratamiento (clase pequeña) examinando el efecto del tamaño de la clase en distritos con el
mismo PctEI
 Si la única diferencia sistemática entre los dos grupos es el PctEI, dentro de cada grupo con
el mismo PctEI lograríamos un experimento aleatorizado controlado
 Ésta es una forma de “controlar” por el efecto de PctEI cuando estimamos el efecto de REM
sobre las Notas
14
Tres formas de evitar el sesgo de variable omitida
1. Llevar a cabo un experimento aleatorizado controlado en el que el tratamiento (REM) se asigne

aleatoriamente: el PctEI es un determinante de la variable Notas, pero PctEI no está correlacionado con
REM (esta solución no suele ser factible)
2. Adoptar el enfoque de “tabulación cruzada”, con elecciones más y más finas de REM y PctEI
 En cada grupo todas las clases tienen el mismo PctEI, y de esta forma se controla por PctEI
 El problema aquí es la escasez de datos y la existencia de otros factores relevantes como la
educación de los padres o el ingreso familiar
3. Usar una regresión en la que la variable omitida (PctEI) deje de serlo: incluir PctEI como un regresor
adicional en una regresión múltiple
15
REGRESIÓN MÚLTIPLE Y MCO
 Extiende el modelo de regresión simple incluyendo variables adicionales como regresores

 Este modelo permite estimar el efecto sobre 𝑌𝑖 de la variación de una variable manteniendo
constantes el resto de regresores
 Supongamos que solo hay dos regresores
Yi = β0 + β1X1i + β2X2i + ui , i = 1,…,n

 Y es la variable dependiente
 X1 , X2 son las dos variables independientes (regresores)
 (Yi , X1i , X2i) denota la i-ésima observación de Y, X1, y X2.
 β0 = término constante poblacional
 β1 = efecto causal de interés/efecto sobre Y de un cambio en X1 manteniendo X2 (y u) constante
 β2 = efecto sobre Y de un cambio en X2 manteniendo X1 (y u) constante
 ui = error (recoge otros factores que afectan Y) 16
Interpretación de los coeficientes en regresión multiple
Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n
 Se incrementa X1 en ΔX1 manteniendo X2 (y el error) constante
 Recta de regresión poblacional antes del cambio:
Y = β0 + β1X1 + β2X2 + u
 Recta de regresión poblacional después del cambio:
Y + ΔY = β0 + β1(X1 + ΔX1) + β2X2 + u
 Diferencia
ΔY
ΔY = β1ΔX1 ⟹ β1 = (manteniendo X2 y u constantes)
ΔX1
 Similarmente
ΔY
ΔY = β2ΔX2 ⟹ β2 = (manteniendo X1 y u constantes)
ΔX2
 β0 = valor predicho de Y cuando X1 = X2 = 0

17
18
El estimador MCO en regresión multiple
 Con dos regresores, el estimador MCO resuelve

𝑛
2
β0 , β1 , β2 = 𝑎𝑟𝑔𝑚𝑖𝑛𝑏0 ,𝑏1 ,𝑏2 𝑌𝑖 − 𝑏0 − 𝑏1 𝑋1𝑖 − 𝑏2 𝑋2𝑖
𝑖=1
 El estimador MCO minimiza la suma de los cuadrados de las discrepancias entre los valores de Yi
y los valores predichos basados en la recta estimada
 Este problema de minimización se resuelve usando cálculo
• De aquí se derivan los estimadores MCO de β0 , β1 y β2

19
20
Siguiendo con nuestro ejemplo empírico (output de Gretl)
Modelo de regresión simple
𝑁𝑜𝑡𝑎𝑠𝑖 = 698,9 − 2,28 × 𝑅𝐸𝑀𝑖
 Preocupación por sesgo de variable omitida

 Posible sobreestimación del efecto de REM sobre Notas
Modelo de regresión múltiple
𝑁𝑜𝑡𝑎𝑠𝑖 = 698,9 − 1,10 × 𝑅𝐸𝑀𝑖 − 0,65 × 𝑃𝑐𝑡𝐸𝐼𝑖
 -1,10: efecto estimado de una variación unitaria en 𝑅𝐸𝑀𝑖

manteniendo constante (o controlando por) 𝑃𝑐𝑡𝐸𝐼𝑖
 Similar conclusión a “tabulación cruzada” con ventajas:
 extensible a más variables
 estimación cuantitativa de reducción en una unidad 21
MEDIDAS DE AJUSTE
Similares ideas a las discutidas en el modelo de regresión simple, usando un estadístico adicional: el
𝑅2 ajustado (𝑅 2 )
Recordemos que
Yi = 𝑌𝑖 + 𝑢𝑖 ⟹ valor observado = valor ajustado + residuo
El error estándar de la regresión (ESR)
 Estima la desviación típica del error del modelo
𝑛
1
𝐸𝑆𝑅 = 𝑠𝑢 𝑑𝑜𝑛𝑑𝑒 𝑠𝑢2 = 𝑢𝑖2
𝑛−𝑘−1
𝑖=1
 La única diferencia con respecto a la definición para el modelo simple es el divisor (𝑛 − 𝑘 − 1) en vez de
(𝑛 − 2)
 Razón: ajuste por el número de parámetros que se estiman (k+1)
22
MEDIDAS DE AJUSTE
El 𝑹𝟐
 Proporción de la varianza muestral de Y explicada por los regresores
 Misma formula que en el modelo simple
𝑆𝐸 𝑆𝑅
𝑅2 = =1−
𝑆𝑇 𝑆𝑇
 ¡Importante! En regresión multiple el 𝑅2 nunca disminuye (y prácticamente siempre aumenta)
cada vez que se añade un regresor (¿por qué?)
 La respuesta está en la propia definición de estimadores MCO
 No es por tanto una buena medida de bondad de ajuste
23
MEDIDAS DE AJUSTE
El 𝑹𝟐 ajustado (𝑹𝟐 )
 Corrige el problema del 𝑅2 “penalizando” la inclusión de un nuevo regresor
 Definición
2
𝑛 − 1 𝑆𝑅 𝑠𝑢
𝑅2 = 1 − × =1− 2
𝑛 − 𝑘 − 1 𝑆𝑇 𝑠𝑌
 El 𝑅 2 no necesariamente crece cuando se añade un nuevo regresor (dos efectos contrapuestos)
 𝑅 2 < R2
 El 𝑅 2 puede ser negativo
 Fiarse mucho del 𝑅 2 para introducir o no un regresor adicional puede ser un error (aunque depende
de nuestro objetivo). Generalmente se debe incluir un regresor adicional si permite estimar mejor
el efecto causal de interés
24
MEDIDAS DE AJUSTE
Siguiendo con nuestro ejemplo empírico (output de Gretl)
Modelo de regresión simple
 𝑅2 = 0,05
 𝑅 2 = 0,05
 𝐸𝑆𝑅 = 18,58
Modelo de regresión múltiple
 𝑅2 = 0,43
 𝑅 2 = 0,42
 𝐸𝑆𝑅 = 14,46
25

Sesión 7

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Sesión 7

Cargado por

Copyright:

Formatos disponibles

ECONOMETRÍA I

SESIÓN 7: Principios del modelo de regresión lineal general I

Profesor: Javier Hualde

 Si el Supuesto 1 se cumple, 𝑐𝑜𝑣 𝑋𝑖 , 𝑢𝑖 = 0 ⟹ β1 consistente

 Distritos con bajo porcentaje de

 Así que, incluso si n es grande, β1 no será cercano a β1

 Hay (por lo menos) tres respuestas posibles a esta pregunta

3. Queremos estimar el efecto causal ceteris paribus en Y de un cambio en X

 “Causalidad” es un concepto muy complejo!

 En realidad la causalidad interesante es la causalidad ceteris paribus, es decir, manteniendo

 Podemos tomar un enfoque práctico para definir causalidad

Un efecto causal se define como el efecto medido en un experimento aleatorizado

 Aleatorizado: los participantes en el experimento (sujetos de la población de interés) son asignados

 Es tremendamente interesante pensar en un experimento aleatorizado controlado ideal

 De esta forma, E(ui|REMi)=0 ⟹ el Supuesto 1 se cumpliría para un experimento

 El tratamiento no se asigna aleatoriamente

 Consideremos el porcentaje de estudiantes de inglés (PctEI) en el distrito. Es realista pensar que

Tres formas de evitar el sesgo de variable omitida

1. Llevar a cabo un experimento aleatorizado controlado en el que el tratamiento (REM) se asigne

 Extiende el modelo de regresión simple incluyendo variables adicionales como regresores

Yi = β0 + β1X1i + β2X2i + ui , i = 1,…,n

 β0 = valor predicho de Y cuando X1 = X2 = 0

 Con dos regresores, el estimador MCO resuelve

 Este problema de minimización se resuelve usando cálculo

• De aquí se derivan los estimadores MCO de β0 , β1 y β2

𝑁𝑜𝑡𝑎𝑠𝑖 = 698,9 − 2,28 × 𝑅𝐸𝑀𝑖

 Preocupación por sesgo de variable omitida

Modelo de regresión múltiple

𝑁𝑜𝑡𝑎𝑠𝑖 = 698,9 − 1,10 × 𝑅𝐸𝑀𝑖 − 0,65 × 𝑃𝑐𝑡𝐸𝐼𝑖

 -1,10: efecto estimado de una variación unitaria en 𝑅𝐸𝑀𝑖

Modelo de regresión simple

Modelo de regresión múltiple

También podría gustarte