Tarea Est

IN3401-1 Estadística para la Economía y la Gestión
Profesor Marcelo Olivares - P. Auxiliar a cargo: Angélica Córdova

Realizado por Juan Guillermo Obando Rojel
PARTE 1.
1. Se realizó una regresión múltiple tomando como variable dependiente a Ln(wage). En
la siguiente tabla se pueden observar los comandos utilizados y los coeficientes generados
(Coef.) junto con los respectivos errores estándar. En la Esquina superior derecha se observa el
valor de R2 (R-squared).
r(198);
. gen ln_wage=ln(wage)
. reg ln_wage polytech college highgrad pexper exper swage educ male
Source SS df MS Number of obs = 403

F( 8, 394) = 245.52
Model 54.0663669 8 6.75829586 Prob > F = 0.0000
Residual 10.8455079 394 .02752667 R-squared = 0.8329
Adj R-squared = 0.8295
Total 64.9118748 402 .161472325 Root MSE = .16591
ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]
polytech -.0490474 .0318956 -1.54 0.125 -.1117542 .0136594

college .0862262 .0324898 2.65 0.008 .0223511 .1501013
highgrad -.0635072 .0279278 -2.27 0.024 -.1184133 -.0086011
pexper -.0057996 .0008273 -7.01 0.000 -.0074261 -.004173
exper .0165606 .0047683 3.47 0.001 .0071861 .0259351
swage .0000333 2.12e-06 15.73 0.000 .0000291 .0000374
educ .0244308 .0052216 4.68 0.000 .0141652 .0346965
male .1254107 .0216768 5.79 0.000 .0827941 .1680273
_cons 9.261397 .0871684 106.25 0.000 9.090023 9.43277
.
Figura 1.1.
2. A continuación de analizaremos los supuestos necesarios que garantizan los siguientes

aspectos:
2.1 El Estimador de Mínimos Cuadrados Ordinarios es consistente:

La consistencia de un estimador es una propiedad que garantiza que, a medida que crece el
set de datos, el valor estimado se aproxima (converge) al valor real. Para garantizar esto se
necesita de 4 supuestos básicos:
a) El Modelo poblacional puede expresarse como un modelo lineal en los
parámetros.
b) Se tiene una muestra poblacional de n observaciones que sigue el modelo
poblacional de a).
c) No hay colinealidad perfecta. Este supuesto tiene la importancia de garantizar que
los coeficientes de regresión sean calculables. Para explicarlo mejor,
sabemos que (bajo el supuesto d), se tiene que:
( )
̂ →
( )
luego, ( ) garantiza que la expresión anterior esté bien definida y esto
último es una consecuencia directa de la colinealidad no-perfecta.
d) El error esperado es 0, para cualquier valor en las covariables. Este supuesto tiene
una implicación importante que ya se mencionó en c), ya que esto asegura que la
covarianza entre los errores y las covariables es nula, es decir, no están
correlacionadas.
2.2 Los errores estándar reportados son correctos:

Para que los errores reportados estén correctos se requiere, además de los supuestos
anteriores, del supuesto de Homocedasticidad. Bajo Heterocedasticidad se tiene que
la varianza de la muestra Var (ˆ MCO )   2 ( X ' X ) 1 , luego la estimación realizada
mediante MCO se vuelve incorrecta, ocasionando problemas en los test de hipótesis y
en los cálculos de intervalos de confianza, por ejemplo (Errores en Inferencia).
3. Para evaluar la significancia conjunta de las co-variables, haremos uso del comando
test.
. test male= educ= swage= exper= highgrad= college= polytech= pexper=0
( 1) - educ + male = 0
( 2) - swage + male = 0
( 3) - exper + male = 0
( 4) - highgrad + male = 0
( 5) - college + male = 0
( 6) - polytech + male = 0
( 7) - pexper + male = 0
( 8) male = 0
F( 8, 394) = 245.52
Prob > F = 0.0000
En este caso se evalúa las hipótesis son:
Donde Cxxxx indica el coeficiente de la regresión para la covarible ‘xxxx’.

 Como el número de restricciones es 8, el número de parámetros a estimar es 9

r(198); (con el intercepto) y el número de observaciones es 403, tenemos que el
estadístico utilizado sigue una distribución Fisher F(8,403-9)=F(8,394), bajo la
. gen ln_wage=ln(wage)
hipótesis nula.
. reg ln_wage polytech college highgrad pexper exper swage educ male
 Para rechazar la hipótesis nula, se requiere que el p-valor sea menor a 0.05. Como
Source
en este caso elSS df
p-valor (Prob>F) MS
es 0.0000, Number of
se rechaza la hipótesis nulaobs
para= un 403
F( 8, 394) = 245.52
nivel de significancia
Model 54.0663669 del 5%. 8 6.75829586 Prob > F = 0.0000
4. Si se analiza la Tabla de Coeficientes de la Figura 1.2. se puede evaluar la significancia
Adj R-squared de = las
0.8295
covariables Total 64.9118748
en la regresión. 402 .161472325 Root MSE = .16591
polytech -.0490474 .0318956 -1.54 0.125 -.1117542 .0136594

college .0862262 .0324898 2.65 0.008 .0223511 .1501013
highgrad -.0635072 .0279278 -2.27 0.024 -.1184133 -.0086011
pexper -.0057996 .0008273 -7.01 0.000 -.0074261 -.004173
exper .0165606 .0047683 3.47 0.001 .0071861 .0259351
swage .0000333 2.12e-06 15.73 0.000 .0000291 .0000374
educ .0244308 .0052216 4.68 0.000 .0141652 .0346965
male .1254107 .0216768 5.79 0.000 .0827941 .1680273
_cons 9.261397 .0871684 106.25 0.000 9.090023 9.43277
. Figura 1.2. Tabla de Coeficientes.
Para evaluar dicha significancia es se debe observa la columna P>|t| de la tabla que
nos indica el p-valor del siguiente test para cada covariable i:
En este caso Ci denota el coeficiente de la covarible i (college, highgrad, etc.). El

estadístico utilizado es el siguiente y sigue una distribución t-student:
̂
√ (̂)
N: Número de observaciones, K el número de parámetros a estimar (N-K=403-9=394).
- Para este test el criterio de rechazo utilizado será que el intervalo de confianza no
contenga a 0.
- Se observa que sólo para polytech el intervalo contiene a 0, luego no se puede
rechazar la hipótesis nula para el coeficiente y se concluye que Cpolytech no es
significativo para un nivel del significancia del 5% (es igual a 0). En todos los demás
casos los coeficientes resultan estadísticamente significativos.
5. Para analizar cómo influyen los coeficientes en el valor de la variable Ln(wage),

observemos la siguiente tabla, que nos indica el signo asociado al coeficiente de la covariable.
Covariable Signo del Coefiente

College +
highgrad -
Pexper -
exper +
swage +
educ +
male +
Figura 1.3. Coeficientes
- Parece lógico que el salario aumente cuando el trabajador completa los estudios
de College. Lo mismo con los años de experiencia (exper), los años de educación
(educ), o el salario de partida. Incluso que ‘male’ tenga asociado un coeficiente
positivo es algo esperable y bastante común en países como el nuestro.
- Sin embargo, para el caso de la covariable pexper (años de experiencia previa) se
esperaría una correlación positiva con el salario. Esto último podría sugerir que dos
o más covariables están correlacionada, exper y pexper por ejemplo.
- En el caso de Highgrad se entiende que el coeficiente sea negativo, pues en
relación al promedio de los trabajadores quienes sólo completan los estudios
secundarios tienden a ganar menos. Esto último tiene sentido además por la
forma de nuestro set de datos, donde en general un individuo sólo posee el valor 1
en Highgrad, en College o en Polytech excluyentemente.
6. Ahora deseamos estimar el salario esperado para una persona con 12 años de
educación, con 4 años de experiencia y 2 años en su trabajo actual. El resto de los valores de las
covariables se asumen iguales al promedio. Haciendo uso del comando sum para cada variable
independiente se obtienen los valores promedio. Luego, haciendo uso del comando predict se
obtienen los siguientes valores:
Ln(wage) Desv. Estándar

10.27645 0.0486689
Luego haciendo uso del método delta, construiremos un intervalo de confianza al 95%.
En este caso ( ), entonces:
( ) ( )
El intervalo de confianza viene de:
√ ( ( ) ( )) → ( ( ) )
Los valores son ( ) ( )

( ) ( ) ;
= = =0.95457071, donde ‘s’ es la desviación estándar obtenida.
Luego:
√ ( ) → ( )
Finalmente, el intervalo de confianza al 95% para wage queda:
Notemos que en este caso se ha usado 1.96 por ser un método asintótico.
7. Para evaluar si la multicolinealidad es un problema, primero se genera una matriz de

correlaciones.
. pwcorr male educ exper pexper swage highgrad college polytech, star(0.05)
male educ exper pexper swage highgrad college
male 1.0000
educ 0.4948* 1.0000
exper -0.0572 -0.0430 1.0000
pexper 0.1264* -0.0674 0.0413 1.0000
swage 0.5234* 0.6994* -0.0993* 0.1275* 1.0000
highgrad -0.4917* -0.5228* 0.0048 -0.0325 -0.4596* 1.0000
college 0.0863 0.3008* 0.0268 -0.0453 0.2546* -0.3077* 1.0000
polytech 0.3062* 0.2664* 0.0278 -0.0239 -0.1039* -0.5096* -0.2239*
polytech
polytech 1.0000
Figura 1.4. Matriz de Correlaciones

Generaremos el Factor de Inflación de la Varianza (VIF) para cada caso.
. vif
Variable VIF 1/VIF
swage 3.80 0.262841

educ 3.07 0.326197
polytech 2.94 0.340270
highgrad 2.77 0.361518
male 1.71 0.583359
college 1.62 0.616729
pexper 1.10 0.911562
exper 1.02 0.982148
Mean VIF 2.25
Figura 1.4.1 VIF
Usando el criterio estudiado (VIF>10), se asume que no hay problemas de multicolinealidad

significativos.
8.
8.1 En esta parte se desea evaluar si es más conveniente una regresión sobre el Logaritmo
natural de wage, en vez de sobre la variable monto (wage). Al realizar los gráficos
cuantil-cuantil sobre los residuos, se observa que la variable cuyos residuos se
aproximan más a un comportamiento Normal es Ln_monto. Luego se justifica la
utilización de la misma, porque lo anterior sugiere la obtención de mejores
estimaciones al cumplirse éste supuesto estudiado.
1
.5
Residuals
0
-.5
-.5 0 .5
Inverse Normal
Figura 1.5. Gráfico cuantil-cuantil para ln_wage.

60000
40000
Residuals
20000
0
-20000
-20000 -10000 0 10000 20000

Inverse Normal
Figura 1.6. Gráfico cuantil-cuantil para wage.
8.2 Para esta parte, se propone el siguiente modelo de regresión, donde se ha añadido el
coeficiente asociado a una nueva variable . Esta nueva variable parece
convincente en el sentido que intenta capturar el efecto ponderador de los años de experiencia
sobre los salarios esperados.
( )
Así, imponiendo , se obtiene un modelo anidado que es idéntico al modelo inicial.
8.3 Para verificar que el modelo irrestricto sea más conveniente que el anidado (realice
mejores predicciones), se hace uso de un Test de Fisher en el que se desea testear la siguiente
hipótesis:
SSR es la suma de los cuadrados residuales para los casos irrestrictos (U) y
restringidos (R). El estadístico del test es el siguiente:
( )
( ) ( )
( )
Donde nuevamente N es el número de observaciones (403), K es el número de

parámetros estimados del modelo sin restricciones (10) y Q es el número de restricciones (1).
( ) ( )
( )
Como el valor del estadístico es mayor que el valor del mismo para un 95%
de confiabilidad 0,739783051, se tiene que el p-valor es menor que 0.005, luego se rechaza la hipótesis
y se concluye que agregar la covariable mejora las predicciones en el modelo. Además,
2
en las tablas se observa que R ajustado es mayor cuando se incorpora esta covariable (0.838 vs 0.829).
Se concluye que el modelo mejora.
. generate swpex = swage*pexper
. reg ln_wage male educ swage exper pexper highgrad college polytech swpex

F( 9, 393) = 231.71
Model 54.6188592 9 6.06876213 Prob > F = 0.0000
Total 64.9118748 402 .161472325 Root MSE = .16184
male .1138514 .0212935 5.35 0.000 .0719879 .1557149

educ .0169384 .0053482 3.17 0.002 .0064238 .027453
swage .0000442 3.15e-06 14.03 0.000 .000038 .0000504
exper .0179848 .0046615 3.86 0.000 .0088202 .0271494
pexper .0025781 .0019946 1.29 0.197 -.0013433 .0064996
highgrad -.0267152 .0283951 -0.94 0.347 -.0825404 .0291101
college .1174923 .0324146 3.62 0.000 .0537646 .18122
polytech .0001567 .0329048 0.00 0.996 -.0645348 .0648482
swpex -5.30e-07 1.15e-07 -4.59 0.000 -7.57e-07 -3.03e-07
_cons 9.1448 .0887359 103.06 0.000 8.970344 9.319256
Figura 1.7. Tabla de Regresión Nuevo Modelo
9. Para evaluar la homocedasticidad gráficamente, se hizo uso del comando scatter en STATA
para cada covariable. Se sabe que una manera de verificar la Homocedasticidad es observando que los
residuos sean más o menos los mismos para cada valor de la variable independiente. Esto se traduce
gráficamente en lo siguiente: tenemos Homocedasticidad si, al observar los gráficos de los residuos,
encontramos que, para cada valor de la variable dependiente, el ancho del clúster de puntos es el
mismo.
Figura 1.7.1 Un ejemplo de Heterocedasticidad

1
.5
.5
Residuals
Residuals
0
0
-.5
-.5
10000 20000 30000 40000 50000 60000 5 10 15 20
starting wage years on current job
1
1
.5
.5
Residuals
Residuals
0
0
-.5
-.5
0 .2 .4 .6 .8 1 0 .2 .4 .6 .8 1
=1 if high school graduate =1 if male
1
1
.5
.5
Residuals
Residuals
0
0
-.5
-.5
5 10 15 20
0 10 20 30 40 highest grade completed
previous experience
1
1
.5
.5
Residuals
Residuals
0
0
-.5
-.5
0 .2 .4 .6 .8 1 0 .2 .4 .6 .8 1
=1 if a polytech =1 if college graduate
Figura 1.8. Gráficos Residuales

Entonces, al observar los gráficos vemos que no hay crecimientos o decrecimientos considerables en
los residuos que sugieran problemas de heterocedasticidad.
Comprobemos también haciendo el Test de White. Este test tiene las siguientes hipótesis:
Usando STATA, se genera la siguiente tabla:
. imtest, white
White's test for Ho: homoskedasticity

against Ha: unrestricted heteroskedasticity
chi2(34) = 43.50
Prob > chi2 = 0.1275
Cameron & Trivedi's decomposition of IM-test
Source chi2 df p
Heteroskedasticity 43.50 34 0.1275

Skewness 10.04 8 0.2622
Kurtosis 1.73 1 0.1890
Total 55.26 43 0.0995
Como el p-valor del test es mayor que 0.005 (0.1275), entonces NO se verifica la
heterocedasticidad, es decir, no se puede rechazar la hipótesis de Homocedasticidad para un 95% de
confiabilidad. Esto último es importante para lograr una estimación mejor en MCO y para evitar
errores significativos en el cálculo del estimador de la matriz de varianzas y covarianzas de los
estimadores de mínimos cuadrados.
PARTE 2.
1. En esta parte de la tarea, se pide estudiar de qué manera la educación afecta los
salarios. Para ello se utilizó se quitó la variable polytech por no ser significativa al nivel
evaluado en la PARTE 1. Se utilizó LN (wage) como variable dependiente y se aplicaron
transformaciones a algunas variables. Las justificaciones para estas decisiones son las
siguientes:
 Recordemos que la elasticidad de y con respecto a x está dado por:
( ) ( )
Entonces, mediría el efecto porcentual de variar en un 1% x. Este razonamiento se usará

para las variables de Salario de partida (swage), pues es una variable que se mueve en un
rango más amplio de valores. Otro aspecto interesante de aplicar log a swage es que
disminuye la dispersión y con ello se puede evitar problemas de Heterocedasticidad.
 Otra relación importante de la que se hizo uso es la siguiente:

( )
En este caso indica el crecimiento porcentual de y cuando se aumenta una unidad de

x. Por esto, se ha aplicado esta relación a las variables educ, highgrad y college, pexper, male.
La interpretación en estos casos nos permite estudiar el efecto porcentual sobre el salario de
la educación. Así, un incremento de un año en la educación producirá un incremento salarial
de %. En el caso de Highgrad y College la interpretación es también evidente, es decir,
muestra cuánto aumenta en porcentaje el salario si se completan o no los estudios de
Secundaria o College.
Luego, al correr la regresión de este modelo, un modelo con un R2 superior al de la

regresiones anteriores (0.85). Estos y otros resultados se muestran en la siguiente tabla
generada con STATA:
. reg ln_wage male educ ln_swage exper pexper highgrad college

F( 7, 395) = 326.63
Model 55.3495647 7 7.90708067 Prob > F = 0.0000
Total 64.9118748 402 .161472325 Root MSE = .15559
male .0468617 .0206406 2.27 0.024 .0062825 .0874409

educ .0104853 .0044925 2.33 0.020 .001653 .0193175
ln_swage .9149583 .0377881 24.21 0.000 .8406673 .9892493
exper .0168347 .0044705 3.77 0.000 .0080457 .0256237
pexper -.0066313 .0007791 -8.51 0.000 -.008163 -.0050995
highgrad -.0182102 .0200384 -0.91 0.364 -.0576054 .021185
college .0726044 .0260976 2.78 0.006 .0212968 .123912
_cons 1.18566 .3390201 3.50 0.001 .5191502 1.852169
Figura 2.1 Regresión para medir efectos de la educación.

Tarea Est

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tarea Est

Cargado por

Copyright:

Formatos disponibles

IN3401-1 Estadística para la Economía y la Gestión

Profesor Marcelo Olivares - P. Auxiliar a cargo: Angélica Córdova

Source SS df MS Number of obs = 403

ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

polytech -.0490474 .0318956 -1.54 0.125 -.1117542 .0136594

2. A continuación de analizaremos los supuestos necesarios que garantizan los siguientes

2.1 El Estimador de Mínimos Cuadrados Ordinarios es consistente:

2.2 Los errores estándar reportados son correctos:

. test male= educ= swage= exper= highgrad= college= polytech= pexper=0

En este caso se evalúa las hipótesis son:

Donde Cxxxx indica el coeficiente de la regresión para la covarible ‘xxxx’.

 Como el número de restricciones es 8, el número de parámetros a estimar es 9

ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

polytech -.0490474 .0318956 -1.54 0.125 -.1117542 .0136594

. Figura 1.2. Tabla de Coeficientes.

En este caso Ci denota el coeficiente de la covarible i (college, highgrad, etc.). El

N: Número de observaciones, K el número de parámetros a estimar (N-K=403-9=394).

5. Para analizar cómo influyen los coeficientes en el valor de la variable Ln(wage),

Covariable Signo del Coefiente

Ln(wage) Desv. Estándar

El intervalo de confianza viene de:

Los valores son ( ) ( )

Finalmente, el intervalo de confianza al 95% para wage queda:

7. Para evaluar si la multicolinealidad es un problema, primero se genera una matriz de

male educ exper pexper swage highgrad college

Figura 1.4. Matriz de Correlaciones

Generaremos el Factor de Inflación de la Varianza (VIF) para cada caso.

Variable VIF 1/VIF

swage 3.80 0.262841

Mean VIF 2.25

Figura 1.4.1 VIF

Usando el criterio estudiado (VIF>10), se asume que no hay problemas de multicolinealidad

Figura 1.5. Gráfico cuantil-cuantil para ln_wage.

-20000 -10000 0 10000 20000

Figura 1.6. Gráfico cuantil-cuantil para wage.

Así, imponiendo , se obtiene un modelo anidado que es idéntico al modelo inicial.

Donde nuevamente N es el número de observaciones (403), K es el número de

Source SS df MS Number of obs = 403

ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

male .1138514 .0212935 5.35 0.000 .0719879 .1557149

Figura 1.7. Tabla de Regresión Nuevo Modelo

Figura 1.7.1 Un ejemplo de Heterocedasticidad

Figura 1.8. Gráficos Residuales

Usando STATA, se genera la siguiente tabla:

White's test for Ho: homoskedasticity

Cameron & Trivedi's decomposition of IM-test

Heteroskedasticity 43.50 34 0.1275

Total 55.26 43 0.0995

 Recordemos que la elasticidad de y con respecto a x está dado por:

Entonces, mediría el efecto porcentual de variar en un 1% x. Este razonamiento se usará

 Otra relación importante de la que se hizo uso es la siguiente:

En este caso indica el crecimiento porcentual de y cuando se aumenta una unidad de

Luego, al correr la regresión de este modelo, un modelo con un R2 superior al de la

Source SS df MS Number of obs = 403

ln_wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

male .0468617 .0206406 2.27 0.024 .0062825 .0874409

Figura 2.1 Regresión para medir efectos de la educación.

También podría gustarte