Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Sesión 7
Sesión 7
1
ÍNDICE
1. Sesgo de variable omitida
2. Causalidad y análisis de regresión
3. Regresión múltiple y MCO
4. Medidas de ajuste
2
SESIÓN VII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL I –
SESGO DE VARIABLE OMITIDA
En un modelo de regresión el error recoge otros factores o variables que infuencian la variable
dependiente, pero que no están recogidos explícitamente en la función de regresión
Siempre hay variables omitidas
En nuestro ejemplo empírico muchos factores aparecen recogidos en el error
Características de las escuelas en el distrito: calidad del profesorado, uso de ordenadores,…
Características de los estudiantes en el distrito: ingresos familiares, porcentaje de no nativos,…
Ejemplo de la problemática
Estudiantes no nativos no dominan el inglés ⟹ peor desempeño
Distritos con clases grandes tienen un porcentaje mayor de inmigración
Con los datos observacionales puede parecer que distritos con menor REM lo hacen mejor pero
quizás no sea por el bajo REM sino porque hay menos población inmigrante (correlación no
implica causalidad)
En algunas ocasiones, la omisión de estas variable puede implicar un sesgo en el estimador MCO
3
SESIÓN VII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL I –
SESGO DE VARIABLE OMITIDA
El sesgo del MCO que ocurre cuando hay un factor omitido relevante se denomina sesgo de variable omitida
Para que esto ocurra, la variable omitida “W” debe satisfacer dos condiciones:
W es un determinante de Y (es decir, W es parte of u)
W está correlado con el regresor X (es decir, corr(W,X) ≠ 0)
Ejemplos
Porcentaje de estudiantes de inglés no nativos
A mayor porcentaje de estudiantes no nativos, peores resultados académicos
Correlación muestral con REM de 0,19 (distritos con grandes comunidades de
inmigrantes suelen tener menos recursos para la educación)
Hora del día de la prueba
Puede afectar los resultados del examen
No parece correlacionada con REM ⟹ no genera sesgo de variable omitida
Espacio de aparcamiento por alumno
No parece afectar los resultados del examen ⟹ no genera sesgo de variable omitida
Pero relacionado con REM
4
SESIÓN VII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL I –
SESGO DE VARIABLE OMITIDA
Desde el punto de vista del MCO, si 𝑐𝑜𝑣 𝑋𝑖 , 𝑢𝑖 ≠ 0 ⟹ E(𝑢𝑖 𝑋𝑖 no puede ser constante, así que el Supuesto 1 de
mínimos cuadrados no se cumple
Si 𝑐𝑜𝑣 𝑋𝑖 , 𝑢𝑖 ≠ 0 se produce el sesgo de variable omitida
¿Cuál es la dirección del sesgo?
¿Qué sugiere el sentido común?
Haremos una derivación formal
Recordemos que
𝑛 𝑛 −1 𝑛
(𝑋
𝑖=1 𝑖 − 𝑋)(𝑢 𝑖 − 𝑢) 𝑋 𝑢
𝑖=1 𝑖 𝑖 − 𝑛 𝑋 𝑢 𝑛 𝑖=1 𝑋𝑖 𝑢𝑖 − 𝑋 𝑢
β1 = β1 + 𝑛 2
= β1 + 𝑛 2 2
= β1 + −1 𝑛 2 2
(𝑋
𝑖=1 𝑖 − 𝑋) 𝑋
𝑖=1 𝑖 −𝑛( 𝑋) 𝑛 𝑖=1 𝑖 −(𝑋)
𝑋
Aplicando la Ley de los grandes números y el Teorema de Slutzky
𝑝 𝐸 𝑋𝑖 𝑢𝑖 − 𝐸 𝑋𝑖 𝐸 𝑢𝑖 𝑐𝑜𝑣 𝑋𝑖 , 𝑢𝑖
β1 β1 + = β1 +
𝐸 𝑋𝑖2 − 𝐸 𝑋𝑖 2 𝑣𝑎𝑟 𝑋𝑖
El anterior ejemplo muestra que, si hay una variable omitida que satisface los dos requisitos de sesgo
de variable omitida, el MCO en la regresión con un único regresor es sesgado e inconsistente
Esta discusión da lugar da lugar a una pregunta muy profunda: ¿cómo definimos β1 ?
En otras palabras, ¿ qué es lo que queremos estimar cuando diseñamos una regresión?
8
SESIÓN VII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL I –
CAUSALIDAD Y ANÁLISIS DE REGRESIÓN
1. Queremos estimar la pendiente de una recta que cruza una nube de puntos en un gráfico de dos variables
Se trata de un resumen de los datos al que no pretendemos dar ningún significado sustantivo
Útil a veces, pero no demasiado interesante desde un punto de vista científico
2. Queremos hacer predicciones sobre el valor de Y para un individuo que no está en el conjunto de datos para el
que conocemos el valor de X
La predicción es algo esencial para los economistas
Se puede predecir de forma excelente usando métodos de regresión sin tener un conocimiento
preciso de efectos causales
10
SESIÓN VII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL I –
CAUSALIDAD Y ANÁLISIS DE REGRESIÓN
Experimento aleatorizado controlado ideal
Ideal: todos los sujetos cumplen el protocolo diseñado para aplicar el tratamiento. Perfecto
cumplimiento, sin errores en la recopilación de datos, abandonos,…
Controlado: tener un grupo de control permite medir el efecto diferencial del tratamiento
Experimento: el tratamiento es asignado como parte del experimento. Los sujetos no tienen
elección, por lo que se evita el problema de “causalidad reversa”, debido a que los sujetos eligen el
tratamiento que creen que funciona mejor
11
SESIÓN VII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL I –
CAUSALIDAD Y ANÁLISIS DE REGRESIÓN
En nuestro ejemplo empírico…
En ese experimento, los estudiantes serían asignados aleatoriamente a clases que tendrían
diferentes tamaños
Dado que la asignación es aleatoria, todas las características de los estudiantes (y de esta
forma ui) se distribuiría independientemente de REMi
12
SESIÓN VII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL I –
CAUSALIDAD Y ANÁLISIS DE REGRESIÓN
¿Cómo difieren nuestros datos observacionales de esta situación ideal?
De esta forma, los grupos de “control” y de “tratamiento” difieren de una forma sistemática
Específicamente corr(REM,PctEI) ≠ 0
13
SESIÓN VII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL I –
CAUSALIDAD Y ANÁLISIS DE REGRESIÓN
Aleatorización + grupo de control implica que cualquier diferencia entre los grupos de control y de
tratamiento es aleatoria, no está ligada de forma sistemática al tratamiento
Podemos eliminar la diferencia en PctEI entre los grupos de control (clase grande) y de
tratamiento (clase pequeña) examinando el efecto del tamaño de la clase en distritos con el
mismo PctEI
Si la única diferencia sistemática entre los dos grupos es el PctEI, dentro de cada grupo con
el mismo PctEI lograríamos un experimento aleatorizado controlado
Ésta es una forma de “controlar” por el efecto de PctEI cuando estimamos el efecto de REM
sobre las Notas
14
SESIÓN VII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL I –
CAUSALIDAD Y ANÁLISIS DE REGRESIÓN
15
SESIÓN VII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL I –
REGRESIÓN MÚLTIPLE Y MCO
18
SESIÓN VII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL I –
REGRESIÓN MÚLTIPLE Y MCO
El estimador MCO en regresión multiple
El estimador MCO minimiza la suma de los cuadrados de las discrepancias entre los valores de Yi
y los valores predichos basados en la recta estimada
20
SESIÓN VII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL I –
REGRESIÓN MÚLTIPLE Y MCO
Siguiendo con nuestro ejemplo empírico (output de Gretl)
Modelo de regresión simple
La única diferencia con respecto a la definición para el modelo simple es el divisor (𝑛 − 𝑘 − 1) en vez de
(𝑛 − 2)
Razón: ajuste por el número de parámetros que se estiman (k+1)
22
SESIÓN VII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL I –
MEDIDAS DE AJUSTE
El 𝑹𝟐
Proporción de la varianza muestral de Y explicada por los regresores
Misma formula que en el modelo simple
𝑆𝐸 𝑆𝑅
𝑅2 = =1−
𝑆𝑇 𝑆𝑇
¡Importante! En regresión multiple el 𝑅2 nunca disminuye (y prácticamente siempre aumenta)
cada vez que se añade un regresor (¿por qué?)
La respuesta está en la propia definición de estimadores MCO
No es por tanto una buena medida de bondad de ajuste
23
SESIÓN VII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL I –
MEDIDAS DE AJUSTE
El 𝑹𝟐 ajustado (𝑹𝟐 )
Corrige el problema del 𝑅2 “penalizando” la inclusión de un nuevo regresor
Definición
2
𝑛 − 1 𝑆𝑅 𝑠𝑢
𝑅2 = 1 − × =1− 2
𝑛 − 𝑘 − 1 𝑆𝑇 𝑠𝑌
El 𝑅 2 no necesariamente crece cuando se añade un nuevo regresor (dos efectos contrapuestos)
𝑅 2 < R2
El 𝑅 2 puede ser negativo
Fiarse mucho del 𝑅 2 para introducir o no un regresor adicional puede ser un error (aunque depende
de nuestro objetivo). Generalmente se debe incluir un regresor adicional si permite estimar mejor
el efecto causal de interés
24
SESIÓN VII - PRINCIPIOS DEL MODELO DE REGRESIÓN LINEAL GENERAL I –
MEDIDAS DE AJUSTE
Siguiendo con nuestro ejemplo empírico (output de Gretl)
𝑅2 = 0,05
𝑅 2 = 0,05
𝐸𝑆𝑅 = 18,58
𝑅2 = 0,43
𝑅 2 = 0,42
𝐸𝑆𝑅 = 14,46
25