Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Para poder realizar este ejercicio, se utilizará la base de datos “Mroz”, la cual se
encuentra en el libro de Woldridge. Dentro de esta base de datos encontramos 22
variables, cada una con 753 observaciones.
Para esta tarea se usará el programa STATA de inicio a fin, y los resultados serán
comprobados en Eviews.
1. INLF: Variable bivariada que indica que una mujer casada participó en la
fuerza de trabajo durante 1975.
a. Inlf=1: si una mujer informa haber trabajado, fuera de la casa, por un
salario, durante 1075.
b. Inlf=8: su una mujer informa no haber trabajado durante 1975.
2. KIDSLT6: Cantidad de hijos menores a 6 años de edad.
3. KIDSGE6: Cantidad de hijos entre 6 y 18 años.
4. AGE: Edad en años.
5. EDUC: Años de educación.
6. EXPER: Años de experiencia en el mercado laboral.
7. NWIFEINC: Ingresos del esposo, expresado en miles de dólares.
Educ: Es una variable continua, en donde nos dice que, en nuestros datos,
como mínimo las señoras han tenido 5 años de estudios y como máximo 17
años.
Nwifeinc: El ingreso de los esposos, para nuestra data nos dice que el
mínimo valor es negativo, es decir, que hay casos en los que el salario de
las esposas está por encima al salario de los esposos. Además, el valor
máximo es 96, en donde seguro la esposa no tiene ingresos.
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 + 𝛽4 𝑋4 + 𝛽5 𝑋5 + 𝛽6 𝑋6 + 𝛽7 𝑋7
Donde:
ESTIMACIONES:
Kidslt6: Tiene como coeficiente -0.2618, pero esto significa que, si una
mujer tiene 1 niño adicional menor a 6 años, la probabilidad de pertenecer
al mercado laboral se reduce a un 26.18%.
Kidsge6: Tiene como coeficiente 0.01301, lo que significa, si una mujer
tiene 1 niño adicional entre 6 y 18 años, la probabilidad de pertenecer al
mercado laboral se aumenta en 1.3%.
Age: Tiene como coeficiente -0.01609, lo que nos dice, si una mujer cumple
un año más de vida, la probabilidad de pertenecer al mercado laboral se
reduce en un 1.61%,
Educ: Tiene como coeficiente 0.037, lo que nos dice que por cada año de
estudio adicional que tengan las mujeres, su probabilidad de pertenecer al
mercado laboral se incremente en un 3.7%
Exper: Tiene de coeficiente 0.0395, es decir, que por cada año adicional de
experiencia en el mercado laboral, la probabilidad de la mujer a pertenecer
al mercado laboral se incrementa en 3.95%.
Nwifeinc: Tiene como coeficiente -0.0034, lo que significa, que por cada
incremento de una unidad en el salario del esposo expresado en miles, la
probabilidad de la mujer a pertenecer al mercado laboral se verá reducido
en 0.34%
En este caso todos los coeficientes se encuentran en el rango de [-1, 1], pero nada
garantiza que existan casos en la que esto no se cumpla, debido a que en el modelo
lineal no existen restricciones de este tipo, la cual es necesaria cumplir, debido a que si
excede de ese rango al multiplicar por 100, y transformarse en probabilidades, excedería
del 100% lo cual no puede suceder.
Además, no podemos garantizar que los coeficientes sean el impacto para un cambio
real de la variable, debido a que la variación marginal de una regresión lineal es directo,
y con una variable dependiente dicotómica, habrá casos en las que los cambios no se
darán en una unidad, en donde el impacto no será el mismo.
Luego de eso, vemos una bondad de ajuste baja de 26.42%, donde la variable de
nuestros errores explicaría en medida a nuestra variable dependiente. Además,
presenta una probabilidad de casi 0% para la hipótesis nula de que los parámetros sean
iguales a 0, es decir, en su conjunto todas las variables son significativas en el modelo.
MODELO DE REGRESIÓN LOGIT
La regresión logit utiliza una función de distribución acumulativa (FDA) de tipo logístico.
La regresión logística se basa en la suposición de que la variable dependiente
categórica refleja una variable subyacente cualitativa. Y deduce la función de enlace a
partir de la función binominal.
Este modelo más acorde a la condición de las variables (variable dependiente binaria).
Este método de estimación ya no busca reducir los errores cuadrático, al estimar este
modelo tenemos los siguientes resultados:
En este modelo como hemos podido ver, en la parte superior no tenemos el ANOVA
que se veía en el modelo de regresión lineal, sino que ahora tenemos un modelo de
máxima verosimilitud, que a partir de las interacciones donde ya no se presenta más
cambios es el que se toma como modelo nulo para poder estimar el coeficiente de Chi2.
El valor log likelihood, es el valor usado para hallar el valor de Chi2 y el Pseudo R2
(medida de bondad de ajuste), este último es el equivalente del R^2 del modelo de
regresión lineal.
Para saber cómo se obtienen los valores del lado de la derecha de las iteraciones y su
interpretación, realizamos los siguientes cálculos:
1. Primero en STATA, hacemos la regresión LOGIT, y vemos cuánto vale cada
modelo (modelo nulo y completo).
2. Dentro de esos resultados, podemos ver que el ítem “e (11)”, el cual representa
al modelo completo y el ítem “e (11_0)” es el modelo nulo.
𝐿𝑟 𝐶ℎ𝑖2(7) = 226.216
Dentro del valor de la Chi2, vemos que se usan 7 grados de libertad, los cuales son
representados por la cantidad de las variables explicativas, además podemos analizar
su probabilidad, la cual es casi 0% para la hipótesis nula de que los parámetros de estos
co3ficientes son iguales a 0, es decir que en su conjunto las variables son significativas
en el modelo.
b. Pseudo R2:
𝑃𝑠𝑒𝑢𝑑𝑜 𝑅2 = 1 − (𝑒(11)/𝑒(11_0))
𝑃𝑠𝑒𝑢𝑑𝑜 𝑅2 = 0.21968
En un sentido similar al valor del R^2, podemos decir que las variables independientes
explican en un 21.97% a las variable dependiente. Este análisis no es muy convincente,
porque estamos en un modelo de logaritmo, para dos opciones de respuesta de nuestra
variable dependiente, ya que lo que queremos es una probabilidad relacionada a ella.
Debido a este, es mejor analizar el valor, R^2 cuenta, el cual lo hallamos de la siguiente
manera:
Dicho de otra forma, 347 y 207 es el número de predicciones correctas, mientras que
118 y 81 es el número de predicciones erróneas.
Para saber el valor del R^2 cuenta, es necesario usar la siguiente fórmula:
347 + 207
𝑅 2 𝐶𝑢𝑒𝑛𝑡𝑎 = = 0.7357
753
El valor del R^2 Cuenta es de 0.7357, es decir que el modelo tiene un porcentaje de
acierto del 73.57%. El modelo usa para acertar la sensibilidad (probabilidad de acertar
en las mujeres que trabajaban) y especificidad (probabilidad de acertar en las mujeres
que no trabajaban).
Los Odds Ratio pueden ser leídos como la cantidad de veces de probabilidad de ocurrir
un evento, es decir con nuestras variables:
Kidslt6: Una mujer con un niño menor a 6 años, tiene 4 veces más la
probabilidad de no pertenecer al mercado laboral.
Kidsge6: Si una mujer tiene un niño entre 6 y 18 años, la probabilidad de
pertenecer al mercado laboral es 1.06 veces más que de no pertenecer al
mercado laboral
Age: Con cada año que tiene de edad la mujer, tiene 1.09 veces más la
probabilidad de no pertenecer al mercado laboral
Educ: Por un año más de educación de las mujeres, la probabilidad de
pertenecer al mercado laboral es 1.24 veces mayor a no pertenecer al
mercado laboral
Exper: Por un año más de experiencia de las mujeres, la probabilidad de
pertenecer al mercado laboral es 1.22 veces mayor a no pertenecer al
mercado laboral.
Nwifeinc: Con cada mil dólares del sueldo del esposo, la probabilidad de no
pertenecer al mercado laboral por parte de las mujeres es 1.02 veces más
que la probabilidad de pertenecer.
Por último, hallamos un cuadro de probabilidades marginales para cada variable, para
ver cuál es la probabilidad por un aumento unitario en las variables:
Los resultados que hemos podido ver a continuación, pueden ser analizados, por cada
variable, dando el siguiente análisis:
El valor log likelihood, es el valor usado para hallar el valor de Chi2 y el Pseudo R2
(medida de bondad de ajuste), este último es el equivalente del R^2 del modelo de
regresión lineal.
Para saber cómo se obtienen los valores del lado de la derecha de las iteraciones y su
interpretación, realizamos los siguientes cálculos:
4. Primero en STATA, hacemos la regresión LOGIT, y vemos cuánto vale cada
modelo (modelo nulo y completo).
5. Dentro de esos resultados, podemos ver que el ítem “e (11)”, el cual representa
al modelo completo y el ítem “e (11_0)” es el modelo nulo.
6. Calculamos cada valor:
a. Lr Chi2 (7):
𝐿𝑟 𝐶ℎ𝑖2(7) = 227.14
Dentro del valor de la Chi2, vemos que se usan 7 grados de libertad, los cuales son
representados por la cantidad de las variables explicativas, además podemos analizar
su probabilidad, la cual es casi 0% para la hipótesis nula de que los parámetros de estos
co3ficientes son iguales a 0, es decir que en su conjunto las variables son significativas
en el modelo.
b. Pseudo R2:
𝑃𝑠𝑒𝑢𝑑𝑜 𝑅2 = 1 − (𝑒(11)/𝑒(11_0))
𝑃𝑠𝑒𝑢𝑑𝑜 𝑅2 = 0.22058
En un sentido similar al valor del 𝑹𝟐 , podemos decir que las variables independientes
explican en un 22.06% a las variable dependiente. Este análisis no es muy convincente,
porque estamos en un modelo de logaritmo, para dos opciones de respuesta de nuestra
variable dependiente, ya que lo que queremos es una probabilidad relacionada a ella.
Dicho de otra forma, 348 y 205 es el número de predicciones correctas, mientras que
120 y 80 es el número de predicciones erróneas.
Para saber el valor del 𝑹𝟐 cuenta, es necesario usar la siguiente fórmula:
348 + 205
𝑅 2 𝐶𝑢𝑒𝑛𝑡𝑎 =
753
= 0.7344
Por último, hallamos un cuadro de probabilidades marginales para cada variable, para
ver cuál es la probabilidad por un aumento unitario en las variables:
Los resultados que hemos podido ver a continuación, pueden ser analizados, por cada
variable, dando el siguiente análisis:
Para comenzar con el análisis, compararemos los 𝑹𝟐 Cuenta asociados a cada uno,
debido a que es su prueba de bondad de ajuste:
𝑹𝟐 – LOGIT 𝑹𝟐 – PROBIT
73.57% 73.44%
Al poder comparar ambas bondades de ajuste, que por cierto son muy similares,
podemos inferir que el modelo LOGIT, es el que más aciertos tiene para nuestras
variables, pero con una diferencia casi mínima.
Otra manera para saber cuál es el modelo que más se ajusta para nuestra regresión, es
con el índice de Akaike, el cual se realiza de la siguiente manera:
LOGIT
PROBIT
La regla de decisión con respecto a este índice, es ver cual tiene el AIC y BIC más alto,
comparando ambos cuadros, podemos ver que el modelo LOGIT es mayor al modelo
PROBIT, en una cantidad menor, pero lo es. Además, esto ya lo veníamos viendo por
el 𝑹𝟐 Cuenta, en donde el LOGIT también superaba al PROBIT por una cantidad nada
grande.
MATRIZ DE COMPARACIÓN DE MODELOS:
En el modelo LOGIT, tenemos una situación muy similar, debido a que la variable
kidsge6 es no significativa en el modelo al igual que la constante, la variable
nwifeinc es significativa a un 95%, la variable expersq es significativa a un 99%,
mientras que las demás variables son significativas a un 99.9%.
En el modelo PROBIT, repetimos los mismos resultados que el modelo LOGIT,
la variable kidsge6 es no significativa en el modelo al igual que la constante, la
variable nwifeinc es significativa a un 95%, la variable expersq es significativa a
un 99%, mientras que las demás variables son significativas a un 99.9%.
CONCLUSIONES:
El modelo PROBIT al igual que el modelo LOGIT, le dan un gran ajuste al modelo en su
conjunto y en la mayoría de sus variables, además de tener una gran cantidad de datos
acertados.