Está en la página 1de 17

1

Introduccin a STATA y Econometra


Clase 4 Modelos de regresin
simple y mltiple (Parte B)
INEGI, Aguascalientes
Septiembre-Octubre 2005
2
Agenda de la Clase 4
Objetivo: Aprender a realizar y interpretar
regresiones lineales en STATA (Parte 2)

Diagnsticos para confirmar los supuestos clsicos
de OLS
Soluciones para la violacin de los supuestos
Multicollinealidad
Heteroscedasticidad
Forma funcional incorrecta
Variables omitidas
Prueba de hiptesis

3
Diagnsticos (1)
Ho: No Heteroscedasticidad de los errores
Verificar el supuesto que la varianza de los
errores es constante y no es funcin de los
regresores
Se conoce como la prueba Breush-Pagan
Su mecnica es simple:
Utiliza los residuos
Los eleva al cuadrado
Corre una regresin con estos residuos al cuadrado
contra las variables independientes
hettest


4
Heteroscedasticidad
Errores heteroscedasticos Errores homoscedasticos
5
Diagnsticos (2)
Ho: Forma funcional correcta
Verifica que la forma funcional es correcta
Se conoce como RESET test (Regression specification
error test)
Su mecnica es simple:
Se agregan los polinomios de valores ajustados para Y


Se corre este nuevo modelo alternativo
Se compara el modelo alternativo contra el modelo original
usando un estadstico F (el objetivo es estar seguros que el
modelo alternativo no es mejor del tradicional en trminos de
capacidad explicativas)
Si el modelo alternativo es preferido al segundo entonces
tenemos un problema de especificacin
ovtest





2 3 4
.... y x yhat yhat yhat o | c = + + + + + +
6
Diagnsticos (3)
Ho: Ausencia de multicollinealidad
No es un test estadstico como los dos precedentes!
Multicollinealidad es un problema de grado: mas sutil que los dos
previossiempre existe algn grado de multicollinealidad
La prueba presenta la proporcin de varianza total de cada una de
las variables independientes no explicada por las dems variables
(variance inflation factor)
Su mecnica es simple:
Se crean regresiones como la siguiente
Donde los Xi y Xj son regresores del modelo original
Se calcula el R-squared vif = 1- R-squared
Valores altos de vif indican que la variacin en Xi no esta explicada por
las dems variables No multicollinealidad
vif
Testar correlacin entre variables independientes
Importante: Un comn indicador de la presencia de
multicollinealidad es cuando los parmetros cambian mucho
al incluir/excluir determinados regresores



i j
x x o | c = + +
7
Violacin de los supuestos (1)
Multicollinealidad
Problema de grado
Siempre existe alguna correlacin entre los regresores
Atencin a los sntomas clsicos
Solucin:
Eliminar una o ms variables que estn correlacionadas
Heteroscedasticidad
La varianza de los errores no es constante Los intervalos de
confianza para pruebas de hp no son constantes Imposible
hacer inferencia estadstica de forma apropiada
Es normalmente el problema ms simple
Solucin:
Se resuelve utilizando la tcnica de Huber-White que permite
calcular errores estndar robustos (corrigiendo por
heteroscedasticidad)
reg ., robust


8
Violacin de los supuestos (2)
Especificacin incorrecta
Problema grave y no simple solucin
Forma funcional incorrecta
Variables omitidas
Restricciones implcitas (mismo coeficiente para hombres y
mujeres, para zonas urbanas y rurales, para sectores
distintos, etc.)
Falta de trminos de interaccin
Solucin:
Usar teora econmica + intuicin
Trade-off entre parsimonia (facilita interpretacin clara de los
parmetros y es beneficiosa en grados de libertad) y
flexibilidad/complejidad (toma en cuenta diferencias en
parmetros que son omitidas en modelos ms simples y
reduce/elimina el problema de especificacin incorrecta)



9
Violacin de los supuestos (3)
Sesgo debido a variables omitidas
El modelo correcto es el siguiente

Estimamos el modelo siguiente


Se puede demostrar que el sesgo es igual a:


Donde depende de la correlacin entre x y z:
y x o | c = + +
y x z o | c = + + +
E | | o
(
=
(

0
z z o o c = + +
10
Violacin de los supuestos (4)
Sesgo debido a variables omitidas
Corr(x,z)>0 Corr(x,z)<0
>0
Sesgo positivo Sesgo negativo
<0
Sesgo negativo Sesgo positivo
11
Pruebas de hiptesis

Testar hiptesis acerca de los parmetros de
nuestro modelo
Significancia de cada uno de los parmetros
Test acerca de combinacin lineal de los parmetros
test
See CH. 4 woolrdidge 117 -
12
Preguntas de revisin (1)
1. Una hp. generalmente aceptada es que estudiantes en clases de tamao
menor tienen mayor xito, obviamente controlando por otras variables
que puedan influenciar el xito escolar
Usar los datos meap93 sobre 408 escuelas secundarias en Michigan para el
ano 1993
Inicialmente consideramos: math10=f(totcomp, staff, enroll) donde math10 es
porcentaje estudiante que pasaron el examen de matemtica, totcomp las
compensaciones para staff, staff es el staff por 1000 estudiantes, enroll es el
numero de estudiantes en la escuela
Correr la regression y discutir el coeficiente de enroll
Testar la Ho: Beta(enroll)=0 contra la Hi: Beta(enroll)<0 (test de una cola)
cannot reject
Testar la Ho: Beta(totcomp)=0 contra Hi: Beta(totcomp)=0 (test de dos colas)
reject
Testar la Ho: Beta(staff)=0 contra Hi: Beta(staff)>0
cannot reject
Cambiamos forma funcional: math10=f(lntotcomp, lnstaff, lnenroll)
Analizar los nuevos resultados y interprearlos (recordar que es un modelo
nivel-log (dividir beta por cien de forma a obtener el cambio en la variable
dependiente cuanto la independiente cambia de 1%)
Cuales de los dos modelos preferimos? Como podemos escojer
2. Cual de los siguientes 3 problemas tiene el grave efecto de que los
parmetros estimados son sesgados?
a. Heteroscedasticidad
b. Omisin de una variable relevante
c. Correlacin de 0.95 entre dos variables independientes


13
Test de una cola
14
Test de dos colas
15
Preguntas de revisin (2)
3. Usando los datos hprice2 podemos evaluar el impacto
de la contaminacin sobre los precios de las casas
Consideramos primero el siguiente modelo: logprice=f(nox,
dist, rooms, stratio) donde nox mide el nivel de contaminacin
(oxido de nitrogeno), dist es la distancia de los principales
centros de empleo, rooms numero de cuartos, stratio es ratio
promedio estudiantes/profesores en las escuelas cercanas
Que nos esperamos?
Correr la regresin y comentar los resultados
Cual podria ser la correlacin entre nox y rooms? Si no
incluimos rooms que sesgo podriamos tener en el beta(nox)?
Consideramos ahora el modelo logprice=f(nox, dist, rooms,
rooms_squared, stratio) y tambien logprice=f(nox, dist,
rooms_squared, stratio)
Sntomas de multicollinealidad?
Como interpretamos los resultados? Cuales modelos
preferimos?
16
Preguntas de revisin (3)
4. Un problema de mucho inters es analizar que
impacto tiene fumar durante el embarazo sobre la
salud de los nios. Un indicador de salud de los nios
es el peso al momento de nacer.
Usar los datos de bwght
Visto que hay otros factores, ademas del numero de cigarros
fumados, que pueden afectar el peso del nino y estar
correlacionados con el numero de cigarros fumados, cuales son
estos factores que deberiamos de tomar en cuenta?
Por ejemplo consideramos: ingreso de la familia (proxy de mejor
acesso a cuidados y servicios medicos durante el emabarazo),
nutricion de la madre, etc.
Consideramos la ecuacion bwght=f(cigs, faminc)
Cual es el signo esperado de faminc?
Esperamos que cigs y faminc estn correlacionados? Que
correlacin tendrn: positiva o negativa?
Usando los datos bwght estimamos la ecuacin precedente con y
sin incluir faminc. Analizar las diferencias y comentarlas a la luz
de la cuestin de variables relevante omitidas



17
Referencias
Jeffrey M. Wooldridge: Introductory
Econometrics: A Modern Approach, 2
nd
Edition
Captulos 3-6

También podría gustarte