Está en la página 1de 8

Taller resuelto de STATA BASICA:

Nombre: --------------------------
Fecha : --------------------------

Estimar la función por estrategias de mínimos cuadrados ordinarios (MCO): Salario =


β 0 + β 1 Edad+ β2 Mujer+ β3 Horas+ε u

Antes de estimar el modelo de regresión es importante mirar gráficamente la relación


entre las variables independiente con la variable dependiente. No obstante, primero
miraremos estadísticas descriptivas de las variables

Variabl Std.
e Obs Mean Dev Min Max
1,462,88 150137 13,000,0
salario 262 1 9 0 00
38.6412 12.5765
edad 262 2 5 20 99
48.3244 11.4810
horas 262 3 2 8 105

De la tabla anterior, se logra deducir, que la media de salario de la muestra es de


1.462.881 pesos colombianos, donde hay personas que no devengan dinero y el máximo
es de 13.000.000 millones de pesos. De la misma manera, la edad promedio de las
personas es de 38.64 años, en un intervalo de 20 a 99 años. Así mismo, las personas
trabajan en promedio 48 horas a la semana.
Ahora bien, graficaremos histogramas de las variables, para mirar su distribución.
Variable Salario.
1.000e-06

5.000e-07
Density

0
Kernel density estimate

0 5000000 10000000 15000000


salario

Kernel density estimate


Normal density
kernel = epanechnikov, bandwidth = 1.4e+05

El estimador de densidad de kernel junto con el histograma, nos muestra que hay
muchos valores atípicos que puedan estar afectando a la variable, o muchos datos
extremos. Por eso se decide aplicarle logaritmo natural al salario.
Density
.8

.6

.4

.2

Histograma del Logaritmo natural del salario.


1

11 12 13 14 15 16
ln_salary
Density
.6

.4

.2

0
Kernel density estimate

10 12 14 16
ln_salary

Kernel density estimate


Normal density
kernel = epanechnikov, bandwidth = 0.1246

Esto logra mostrar que los valores del logaritmo natural del salario se comportan mas
como una variable normal y mas eficiente estimar con ella.
Density
.03

.02

.01

20 40 60 80 100
edad
Density
.03

.02

.01

Kernel density estimate

20 40 60 80 100
edad

Kernel density estimate


Normal density
kernel = epanechnikov, bandwidth = 3.7166
La variable Edad, esta muy bien especificada y sus valores se ajustan de una buena
manera.

Density
.08

.06

.04

.02

0
Con la variable horas de trabajo, tenemos un histograma de la siguiente manera

0 20 40 60 80 100
horas
Density
.08

.06

.04

.02
.1

Kernel density estimate

0 20 40 60 80 100
horas

Kernel density estimate


Normal density
kernel = epanechnikov, bandwidth = 1.7525

Ahora bien, antes de estimar miraremos si existe correlación alguna entre las variables
con el comando correlate, donde valores cercanos a 1 muestra correlación perfecta y nos
presenta una idea de cómo será el comportamiento de las variables independiente con la
variable dependiente
Correlate salario mujer edad horas
salario 1
mujer -0.0898 1
edad 0.1476 -0.0757 1
horas -0.0899 -0.1399 -0.1087 1

Si miramos, la correlación entre el salario y las demás variables, podemos mirar que
esperamos un comportamiento negativo del salario, si la persona es mujer, pero positiva
por año mas de edad, cosa contraria al numero de horas trabajadas.

ln_salary

100

50 edad

0
100

50 horas

0
10 12 14 16 0 50 100

Visto de mejor manera en anterior grafico


Ahora bien si hacemos la regresión con el valor natural de los salario tenemos:

--------------------------------------------------------------
(1) (2)
salario ln_salary
--------------------------------------------------------------
mujer -277375.2 -0.148
(-186292.2) (--0.0885)
edad 15632.4* 0.00539
(-7373.8) (-0.0035)
horas -11589.3 -0.000363
(-8134.3) (-0.00385)
_cons 1548035.4** 13.81***
(-541703) (-0.257)
------------------------------------------------------------------
N 262 260
R-SQ 0.036 0.022
adj. R-SQ 0.024 0.01
-----------------------------------------------------------------
Stand errors in parentheses
* p<0.05, ** p<0.01, *** p<0.001

Estimación con R
Call: formula1 <- salario ~ mujer + edad + horas
lm(formula = formula1, data = datos)

Coeficientes:
(Intercept) mujer edad horas
1548035 -277375 15632 -11589

Interpretación de los resultados:

Para el primer modelo, que es un modelo nivel – nivel, no salieron significativas las
variable dicotómica mujer, ni el número de horas trabajadas, ambos con coeficientes
negativos, lo que mostraba una relación negativa, es decir que ante un aumento en las
horas trabajadas, se vería un disminución en -11589.3 del salario de las personas. Y con
respecto al efecto sobre las mujeres, ser mujer tiene una disminución no significativa
sobre el salario en -277375.2
.
No obstante, ante el aumento de un año mas en el promedio de edad de las personas, el
salario logra aumentar en 15632.4, con un nivel de significancia del 10%.
Seguidamente, el vector de constantes, tiene un valor significativo y positivo. Este
vector solo recoge todas las demás variables no observables que explican el modelo

El modelo numero dos (2), en el cual se hace la regresión con el logaritmo natural del
salario de las personas, ninguna variable independiente resulto significativa al modelo.
Aunque comparte, las mismas tendencias que el anterior modelo.

Pruebas de test
estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of salario
chi2(1) = 50.24
Prob > chi2 = 0.0000
El modelo (1) tiene problemas de heteroscedasticidad, es decir se debe rechazar la
hipótesis nula. Al momento de hacerlo en R. el resultado luego de la regresión auxiliar
es:

p_valor <- 1 - pchisq(estad_chi2,df=1)


> p_valor
[1] 0.03469463

Al momento de evaluar la autocorrelación, donde la si el p valor es igual a cero, no se


puede rechazar la hipótesis nula, de que hay correlación serial entre las variables.

p_valor_BG <- 1 - pchisq(estad_chi2_BG, 1)


> p_valor_BG
[1] 0.3476373

No existe problemas de correlación serial entre las variables, pero el modelo presenta
problemas de heteroscedasticidad, se procede a estimar el modelo por medio de los
mínimos cuadrados generalizados.
Results
Dependent variable:
salario_est
intercepto_est 1,472,389.000***
(36,807.990)
mujer_est -313,976.500***
(16,865.490)
edad_est 16,999.670***
(901.892)
horas_est -11,001.520***
(805.054)
Observations 262
R 2
0.999
Adjusted R2 0.999
Residual Std. Error 0.993 (df = 258)
F Statistic 59,007.800*** (df = 4; 258)
Note: p p p<0.01
* ** ***
Los estimadores luego de haber realizado el estimador de mínimos cuadrados
generalizados, es el siguiente, todos los beta, resultaron siendo estadísticamente
significativos al 99%. La estimacion sobre las mujeres, es que si es mujer, se tiene un
efecto negativo de 313.976 sobre el salario, es decir que las mujeres tienen una menor
proporción de salarios que los que no lo son.
En cuanto a la edad, un año mas de edad tiene un efecto positivo y significativo del
16.999 sobre el salario y por ultimo un aumento en las horas trabajadas en un unidad,
disminuyen en 11.001 el salario de las personas.

También podría gustarte