Está en la página 1de 21

1

Introduccin a STATA y Econometra


Clase 3 Modelos de regresin
simple y mltiple (Parte A)
INEGI, Aguascalientes
Septiembre-Octubre 2005

Agenda de la Clase 3

Objetivo: Aprender a realizar y interpretar regresiones


lineales en STATA (Parte 1)
Que es una regresin y en que consiste el modelo de
mnimos cuadrados ordinarios (OLS)
Asunciones clsicas del modelo OLS
Forma funcional
Goodness of fit
Prediccin
Dummy
Trminos de interaccin

Regresin lineal (1)


Existe un modelo terico o podemos derivar en
base a experiencia/intuicin
Relacin entre X y Y

y x

X: Variable independiente, variable explicativa, variable de


control, regressor,
Y: Variable dependiente, variable explicada, variable respuesta,
regressand
: Error, disturbace
: slope parameter
: intercept parameter
y x if 0

Ceteris paribus:
Investigamos las determinantes de inters
Mantener constantes otras posibles determinantes

Regresin lineal (2)

Asunciones del modelo


Restriccin sobre el comportamiento del error
E()=0 .no es restrictiva si incluimos constante
E(|x) =0
Crucial que no haya correlacin
Tener informacin sobre x no nos dice nada acerca de (si fuera el
contrario deberamos de incluir esta informacin extra en el modelo)
En el error no pueden quedar variables que estn
relacionadas con variables explicativas incluidas en el modelo!

Supuestos clsicos

Normalidad de los residuos


Homoscedasticidad
No autocorrelacion
No multicollinealidad
Apropiada forma funcional

Regresin lineal (3)


Mnimos cuadrados ordinarios
Encontramos los de nuestra ecuacin
modelo tal que la sumatoria de los errores al
cuadrado sea minimizada
min i 2
i

reg y x

De esta forma obtenemos los fitted values

yi xi
Y los residuos

i yi yi yi xi

Regresin lineal (4)

Regresin lineal (5)

Forma funcional

Podemos incluir non-linealidades en nuestro modelo definiendo


apropiadamente las variables independientes
Transformacin logartmica
Log-nivel: log(y)= + x +
%y=(100* )* x
Log-Log: log(y)= + log(x) +
es elasticidad: %y= * %y
Nivel-log: y= + log(x) +
y= (/100) * %y

Goodness of fit

Indicador que nos diga cuan bien nuestro modelo se ajusta a los datos
Cuan bien cambios X nos permite explicar cambios en Y
Cuanto es que dejamos sin explicar, o sea est explicado por el error
SST: suma de los cuadrados de y
SST= SSE + SSR (1)
SSE: variacion de y explicada por x
SSR: variacion de y no explicada por x sino por el error
Dividimos (1) por SST 1 = SSE/SST + SSR/SST
R2= SSE/SST
Fraccin de la variacin muestral en y explicada por x (varia entre 0 y 1)

Regresin lineal (5)

Regresin lineal (5A)

Regresin lineal (6)

10

Regresin lineal (7)

11

Regresin lineal (8)

12

Prediccin
Creamos una nueva variable yhat
predict yhat [if e(sample)]

Podemos calcular los residuos tambien


residuals = yhat - y

Dummy

yi xi

i yi yi yi xi

Es una variable indicador (categrica)


Siempre es binaria: toma valores discretos normalmente
0 o 1 (!!)
Puede tener impacto sobre intercepto (alfa), sobre la
pendiente (beta) as como sobre ambas

xi: reg
xi: reg
xi: reg
xi: reg

i.dummy_var
i.dummy_var*i.var1
i.dummy_var*var1
i.dummy_var|var1

IMPORTANTE: Una de las categoras debe de ser


excluida (ver ejemplo sector)

Regresin lineal (9)

13

Dummy: impacto sobre intercepto

14

Dummy: impacto sobre pendiente

15

Regresin lineal (10)

16

Interaccin
Adems de la interaccin con dummy podemos
modelar la interaccin entre regressores
Hace parte del trabajo de bsqueda de la
especificacin ms apropiada
reg y x z x*z

y x z x z
Interpretacin

y
z
x

Interaccin entre regresores

%lnhlinc
100 (.171 .002 experience)
yschooling

17

18

Preguntas de revisin (1)


1.

Cual es el aumento promedio (en porcentaje) del ingreso si un


individuo tiene carrera profesional completa? Antes de responder
y utilizar STATA discutir que nos esperamos como respuesta
Y para los individuos que solo tienen primaria completa?
Usando los datos GPA2 sobre 4,137 estudiantes universitarios

2.
3.

Estimamos la regresion: colgpa =f(hrsperc, sat) donde

colgpa es la nota en la universidad, hrspec es el percentile al momento


de graduacin (5 siendo el mas alto) y sat nota final en la secudaria
Que nos esperamos?
Porque hsperc tiene un coeficiente negativo?
Cual es el GPA esperado para un estudiante con hsperc=20 y sat=1050
Dos estudiantes A y B se graduaron en el mismo porcentile, pero
estudiante A obtuvo en el SAT 140 maas que B. Cual es la diferencia
esperada en el GPA entre los dos?
Manteniendo hsperc constate hsperc, cual es la diferencia en SAT que
deberia de haber para que la diferencia en colgpa fuera de .50?

19

Preguntas de revisin (2)


4.

Usando los datos WAGE2 sobre hombres trabajadores

Estimamos la regresin: educ =f(sibs, meduc, feduc) donde

5.

educ es anos de escolaridad, meduc indica anos de escolaridad de la madre, feduc


escolaridad del padre, sibs numero de hermanos
Que nos esperamos?
Corremos la regresin. Comentar el coeficiente de sibs
De cuanto tiene que aumentar sibs para que los anos de educacin esperados se
reduzcan de 1?
Discutir la interpretacin del coeficiente de meduc
Suponer que individuo A no tiene hermanos y ambos sus padres tienen 12 anos de
educacin. Otro individuo, B, tampoco tiene hermanos y sus padres tienen ambos 16
anos de educacin. Cual es la diferencia esperando de educacin entre A y B?

Considerar el modelo de Biddle y Hamermesh (1990) para evaluar tradeoff entre tiempo pasado durmiendo y trabajando, y las determinantes del
tiempo pasado durmiendo:
sleep = f(totwrk, educ, age)

Si existe un trade-off entre dormir y trabajar cual es el signo esperado del parmetro
de totwrk?
Que signos esperamos tenga los parmetros de las otras variables?
Usar los datos sleep75 y estimar la regresin con el precedente modelo
Si un individuo trabaja 5 horas ms por semana cuantos minutos menos esperamos
duerma? Consideran que este trade-off es grande?
Discutir el signo y el coeficiente de la variable educ
Diramos que totwork, educ, y age explican mucho de la variacin en sleep?
Cuales otros factores pueden afectar las horas empleadas para el sueno? Creen
que estas estn correlacionadas con totwrk?

20

Preguntas de revisin (3)


6.

Una de las crticas ms importantes al tipo de anlisis


que se realiz en el ejercicio 3, es que la variable
independiente que mide el nivel de educacin
("yschooling") no es del todo aleatoria (la aleatoriedad
en las variables independientes es un supuesto OLS).
Los crticos aseguran que el nivel de educacin est
determinado por otras variables como la escolaridad
de los padres, la regin, el tipo de hogar y hasta el
ingreso. Cmo podra probar esta hiptesis sobre el
nivel de educacin y as contribuir en la discusin?
(Plantee un nuevo modelo con el nivel de educacin
como variable dependiente.)

21

Referencias

Jeffrey M. Wooldridge: Introductory


Econometrics: A Modern Approach, 2nd Edition

Capitulos 1-3

También podría gustarte