Clase 4 Modelos de regresin simple y mltiple (Parte B) INEGI, Aguascalientes Septiembre-Octubre 2005 2 Agenda de la Clase 4 Objetivo: Aprender a realizar y interpretar regresiones lineales en STATA (Parte 2)
Diagnsticos para confirmar los supuestos clsicos de OLS Soluciones para la violacin de los supuestos Multicollinealidad Heteroscedasticidad Forma funcional incorrecta Variables omitidas Prueba de hiptesis
3 Diagnsticos (1) Ho: No Heteroscedasticidad de los errores Verificar el supuesto que la varianza de los errores es constante y no es funcin de los regresores Se conoce como la prueba Breush-Pagan Su mecnica es simple: Utiliza los residuos Los eleva al cuadrado Corre una regresin con estos residuos al cuadrado contra las variables independientes hettest
4 Heteroscedasticidad Errores heteroscedasticos Errores homoscedasticos 5 Diagnsticos (2) Ho: Forma funcional correcta Verifica que la forma funcional es correcta Se conoce como RESET test (Regression specification error test) Su mecnica es simple: Se agregan los polinomios de valores ajustados para Y
Se corre este nuevo modelo alternativo Se compara el modelo alternativo contra el modelo original usando un estadstico F (el objetivo es estar seguros que el modelo alternativo no es mejor del tradicional en trminos de capacidad explicativas) Si el modelo alternativo es preferido al segundo entonces tenemos un problema de especificacin ovtest
2 3 4 .... y x yhat yhat yhat o | c = + + + + + + 6 Diagnsticos (3) Ho: Ausencia de multicollinealidad No es un test estadstico como los dos precedentes! Multicollinealidad es un problema de grado: mas sutil que los dos previossiempre existe algn grado de multicollinealidad La prueba presenta la proporcin de varianza total de cada una de las variables independientes no explicada por las dems variables (variance inflation factor) Su mecnica es simple: Se crean regresiones como la siguiente Donde los Xi y Xj son regresores del modelo original Se calcula el R-squared vif = 1- R-squared Valores altos de vif indican que la variacin en Xi no esta explicada por las dems variables No multicollinealidad vif Testar correlacin entre variables independientes Importante: Un comn indicador de la presencia de multicollinealidad es cuando los parmetros cambian mucho al incluir/excluir determinados regresores
i j x x o | c = + + 7 Violacin de los supuestos (1) Multicollinealidad Problema de grado Siempre existe alguna correlacin entre los regresores Atencin a los sntomas clsicos Solucin: Eliminar una o ms variables que estn correlacionadas Heteroscedasticidad La varianza de los errores no es constante Los intervalos de confianza para pruebas de hp no son constantes Imposible hacer inferencia estadstica de forma apropiada Es normalmente el problema ms simple Solucin: Se resuelve utilizando la tcnica de Huber-White que permite calcular errores estndar robustos (corrigiendo por heteroscedasticidad) reg ., robust
8 Violacin de los supuestos (2) Especificacin incorrecta Problema grave y no simple solucin Forma funcional incorrecta Variables omitidas Restricciones implcitas (mismo coeficiente para hombres y mujeres, para zonas urbanas y rurales, para sectores distintos, etc.) Falta de trminos de interaccin Solucin: Usar teora econmica + intuicin Trade-off entre parsimonia (facilita interpretacin clara de los parmetros y es beneficiosa en grados de libertad) y flexibilidad/complejidad (toma en cuenta diferencias en parmetros que son omitidas en modelos ms simples y reduce/elimina el problema de especificacin incorrecta)
9 Violacin de los supuestos (3) Sesgo debido a variables omitidas El modelo correcto es el siguiente
Estimamos el modelo siguiente
Se puede demostrar que el sesgo es igual a:
Donde depende de la correlacin entre x y z: y x o | c = + + y x z o | c = + + + E | | o ( = (
0 z z o o c = + + 10 Violacin de los supuestos (4) Sesgo debido a variables omitidas Corr(x,z)>0 Corr(x,z)<0 >0 Sesgo positivo Sesgo negativo <0 Sesgo negativo Sesgo positivo 11 Pruebas de hiptesis
Testar hiptesis acerca de los parmetros de nuestro modelo Significancia de cada uno de los parmetros Test acerca de combinacin lineal de los parmetros test See CH. 4 woolrdidge 117 - 12 Preguntas de revisin (1) 1. Una hp. generalmente aceptada es que estudiantes en clases de tamao menor tienen mayor xito, obviamente controlando por otras variables que puedan influenciar el xito escolar Usar los datos meap93 sobre 408 escuelas secundarias en Michigan para el ano 1993 Inicialmente consideramos: math10=f(totcomp, staff, enroll) donde math10 es porcentaje estudiante que pasaron el examen de matemtica, totcomp las compensaciones para staff, staff es el staff por 1000 estudiantes, enroll es el numero de estudiantes en la escuela Correr la regression y discutir el coeficiente de enroll Testar la Ho: Beta(enroll)=0 contra la Hi: Beta(enroll)<0 (test de una cola) cannot reject Testar la Ho: Beta(totcomp)=0 contra Hi: Beta(totcomp)=0 (test de dos colas) reject Testar la Ho: Beta(staff)=0 contra Hi: Beta(staff)>0 cannot reject Cambiamos forma funcional: math10=f(lntotcomp, lnstaff, lnenroll) Analizar los nuevos resultados y interprearlos (recordar que es un modelo nivel-log (dividir beta por cien de forma a obtener el cambio en la variable dependiente cuanto la independiente cambia de 1%) Cuales de los dos modelos preferimos? Como podemos escojer 2. Cual de los siguientes 3 problemas tiene el grave efecto de que los parmetros estimados son sesgados? a. Heteroscedasticidad b. Omisin de una variable relevante c. Correlacin de 0.95 entre dos variables independientes
13 Test de una cola 14 Test de dos colas 15 Preguntas de revisin (2) 3. Usando los datos hprice2 podemos evaluar el impacto de la contaminacin sobre los precios de las casas Consideramos primero el siguiente modelo: logprice=f(nox, dist, rooms, stratio) donde nox mide el nivel de contaminacin (oxido de nitrogeno), dist es la distancia de los principales centros de empleo, rooms numero de cuartos, stratio es ratio promedio estudiantes/profesores en las escuelas cercanas Que nos esperamos? Correr la regresin y comentar los resultados Cual podria ser la correlacin entre nox y rooms? Si no incluimos rooms que sesgo podriamos tener en el beta(nox)? Consideramos ahora el modelo logprice=f(nox, dist, rooms, rooms_squared, stratio) y tambien logprice=f(nox, dist, rooms_squared, stratio) Sntomas de multicollinealidad? Como interpretamos los resultados? Cuales modelos preferimos? 16 Preguntas de revisin (3) 4. Un problema de mucho inters es analizar que impacto tiene fumar durante el embarazo sobre la salud de los nios. Un indicador de salud de los nios es el peso al momento de nacer. Usar los datos de bwght Visto que hay otros factores, ademas del numero de cigarros fumados, que pueden afectar el peso del nino y estar correlacionados con el numero de cigarros fumados, cuales son estos factores que deberiamos de tomar en cuenta? Por ejemplo consideramos: ingreso de la familia (proxy de mejor acesso a cuidados y servicios medicos durante el emabarazo), nutricion de la madre, etc. Consideramos la ecuacion bwght=f(cigs, faminc) Cual es el signo esperado de faminc? Esperamos que cigs y faminc estn correlacionados? Que correlacin tendrn: positiva o negativa? Usando los datos bwght estimamos la ecuacin precedente con y sin incluir faminc. Analizar las diferencias y comentarlas a la luz de la cuestin de variables relevante omitidas
17 Referencias Jeffrey M. Wooldridge: Introductory Econometrics: A Modern Approach, 2 nd Edition Captulos 3-6