Está en la página 1de 15

PONTIFICIA UNIVERSIDAD JAVERIANA DE CALI

FACULTAD DE CIENCIAS ECONÓMICAS Y


ADMINISTRATIVAS
PROGRAMA DE ECONOMÍA
ECONOMETRIA I

Marcela Vargas Sánchez


Cód. 0218633
Marcevargas2713@javerianacali.edu.co

Taller 2

En algunos casos es necesario incluir variables predictoras de tipo cualitativo dentro de un


modelo de regresión lineal, por ejemplo el género (masculino o femenino). Puesto que una
variable cualitativa no tiene una escala natural de medida, se debe asignar un conjunto de
niveles a una variable cualitativa para tener en cuenta el efecto que pueda tener la variable
sobre la respuesta (Montgomery and Vining, 2002).

Este tipo de variable suele llamarse variable indicadora o dummy. Este trabajo tiene como
objetivo mostrar el manejo de variables indicadoras dentro de un modelo de regresión lineal
y como se interpretan los coeficientes de un modelo con estas características. Para esto se
propone como ejemplo la siguiente base de datos.

Tager et al. (1983) realizaron un estudio dirigido a evaluar la función pulmonar de niños en
exposición al humo de cigarrillo (fumadores activos o pasivos). La base de datos
BaseDatos.txt, que corresponde a una parte de la original, contiene información sobre la
capacidad pulmonar de niños entre 3 y 15 años medida con el Volumen Espiratorio Forzado
(FEV - Forced Expiratory Volume) (litros) y de las siguientes variables medidas a cada niño:

• Age Edad (Años)


• Height Estatura (pulgadas)
• Sex Género (Masculino-Femenino)
• Smoker Fumador (Si-No)

Ajuste un modelo de regresión lineal usando como respuesta la variable FEV y como
variables de predicción una de las dos variables cuantitativas (Edad (Age) o Estatura
(Height)) y una de las dos variables cualitativas (Género (Sex) o Fumador (Smoker)).

Se recomienda considerar en el modelo ajustado los posibles efectos de interacción entre


variables de predicción.

Para la estimación del modelo debe tener en cuenta el aporte de las variables predictoras
dentro del mismo y la calidad del ajuste, así como el cumplimiento de los supuestos. En caso
de no cumplimiento de los supuestos realizar la transformación adecuada.
Desarrollo

1. Estimación del modelo en R-Studio

En esta regresión con todas las variables el modelo explica: Adjusted R²=72.52%

1) Edad (Variable de predicción cuantitativa):

Coeficientes: 0.041969 t= 1.898 Pr(>|t|)= 0.05962***

Esta variable tiene peso de casi 2% en el modelo, y su probabilidad demuestra que se


rechaza la ho. Aunque la edad no tiene mucha significancia, si aporta al modelo.

2) Height(Variable de predicción cuantitativa):

Coeficientes : 0.106778 t= 9.968 Pr (>|t|) = <2ev-16**

Esta variable tiene peso de casi 10% en el modelo, y su probabilidad demuestra que
se rechaza la ho. Es la variable que más aporta al modelo, por lo que la altura es un
factor determinante a la hora de evaluar los resultados de la regresión lineal.

3) SexMale (variable cualitativa):

Coeficientes : 0.290409 t= 2.784 Pr (>|t|) = 0.00608


Esta variable tiene peso de casi 3% en el modelo, y su probabilidad demuestra que se
rechaza la ho, esta variable tiene significancia en el modelo, lo que quiere decir que
la condición de tener sexo masculino aumenta el 3% en la probabilidad de Volumen
Espiratorio Forzado

4) SmokerNon (variable cualitativa):

Coeficientes : 0.06374 t= 0.067 Pr (>|t|) = 0.94642

Esta variable tiene un pobre peso en el modelo, y su probabilidad demuestra que se


pese a que se rechaza la ho. Esta variable tiene poca significancia en el modelo, lo
que quiere decir que la condición de tener no ser fumador no es determinante a la
hora de medir el Volumen Espiratorio Forzado.

2. Regresión lineal con las variables edad, altura y sexo

En esta regresión con todas las variables el modelo explica: Adjusted R²=72.71%

1) Edad (Variable de predicción cuantitativa):

Coeficientes: 0.04154 t= 1.969 Pr(>|t|)= 0.05084

Esta variable tiene peso de casi 2% en el modelo, y su probabilidad demuestra que se


rechaza la ho. Aunque la edad no tiene mucha significancia, si aporta al modelo.

2) Height(Variable de predicción cuantitativa):


Coeficientes : 0.10668 t= 10.078 Pr (>|t|) = <2ev-16***

Esta variable tiene peso de más del 10% en el modelo, y su probabilidad demuestra
que se rechaza la ho. Es la variable que más aporta al modelo, por lo que la altura es
un factor determinante a la hora de evaluar los resultados de la regresión lineal.

3) SexMale (variable cualitativa):

Coeficientes : 0.21026 t= 2.836 Pr (>|t|) = 0.00521**

Esta variable tiene peso de casi 3% en el modelo, y su probabilidad demuestra que se


rechaza la ho, esta variable tiene significancia en el modelo, lo que quiere decir que
la condición de tener sexo masculino aumenta el 3% en la probabilidad de Volumen
Espiratorio Forzado

3. Comprobación

De acuerdo con los resultados obtenidos se determina que este es el orden de significancia
de las variables, en el modelo:

240,74 Age Menor AIC


236,62 Sex
165,25 Height
4. Modelo ajustado con las dos variables con menor AIC,

Age y Sex

En esta regresión con todas las variables el modelo explica: Adjusted R²=54.29%

1) Edad (Variable de predicción cuantitativa):

Coeficientes : 0.21352 t= 13.298 Pr (>|t|) = <2ev-16***

2) SexMale (variable cualitativa):

Coeficientes : 0.35232 t=3.740 Pr (>|t|) = 0.000262**

Con las variables edad y sexo, aunque son significantes en esta regresión lineal, el modelo
evaluado con estas dos variables tiene un nivel medio a la hora de explicar la FEV, la edad
tiene un peso de 13% en la explicación del modelo.

Height y Sex
En esta regresión con todas las variables el modelo explica: Adjusted R²=72.18%

1) Height (Variable de predicción cuantitativa):

Coeficientes : 0.123544 t= 19.657 Pr (>|t|) = <2ev-16***

2) SexMale (variable cualitativa):

Coeficientes : 0.177466 t= 2.433 Pr (>|t|) = 0.0162*

Con las variables altura y sexo, esta regresión lineal explica en un nivel alto a la hora de
explicar la capacidad la FEV, la variable altura tiene bastante significancia con t=20% sobre
el modelo. Por lo que la altura continúa siendo la variable con más peso en el modelo.

Age y Smoker

En esta regresión con todas las variables el modelo explica: Adjusted R²=50.07%

1) Edad (Variable de predicción cuantitativa):

Coeficientes : 0.20089 t= 9.875 Pr (>|t|) = <2ev-16***

2) Fumador (variable cualitativa):

Coeficientes : -0.05633 t= -0.449 Pr (>|t|) = 0.6542

Con las variables edad y ser fumador , esta regresión lineal explica en un nivel apenas medio
la capacidad la FEV, la variable edad tiene bastante significancia sobre el modelo y la
variable fumador (signo negativo) tiene un efecto de disminución sobre la FEV, Por lo que
en este modelo la edad resulta ser significativa.
Height y Smoker:

En esta regresión con todas las variables el modelo explica: Adjusted R²=71.08%

1) Altura (Variable de predicción cuantitativa):

Coeficientes : 0.12872 t= 16.631 Pr (>|t|) = <2ev-16***

2) Fumador (variable cualitativa):

Coeficientes : 0.002529 t= 0.028 Pr (>|t|) = 0.978

Con las variables altura y ser fumador , esta regresión lineal explica en un nivel alto la
capacidad la FEV, la variable Height sigue siendo la variable con más significancia en los
modelos evaluados con t=16%. Por lo que este modelo se considera bueno a la hora de
explicar la FEV con un Adjusted R²=71.08%.

5. Ajuste del modelo con inserción de variables dummy

a. Con el objetivo de mejorar el modelo se introducen la clasificación de sexo o se es


hombre o mujer y el producto de una variable predictora cuantitativa con una
cualitativa.

• Hombre=1 o mujer=0
• HeightxMale
En esta regresión con todas las variables ( Height, sex y HeightxMale )el modelo explica:
Adjusted R²=72.80%
Es el mejor modelo hasta ahora***

1) Altura (Variable de predicción cuantitativa):

Coeficientes : 0.10645 t= 10.376 Pr (>|t|) = <2ev-16**

3) SexMale (variable cualitativa):

Coeficientes : -1.48662 t= -1.864 Pr (>|t|) = 0.0644

2) HeightxMale (variable cualitativa):

Coeficientes : 0.02701 t= 2.095 Pr (>|t|) = 0.0379*

Con las variables altura y altura si es hombre , esta regresión lineal explica en un nivel alto
la capacidad la FEV, la variable Height sigue siendo la variable con más significancia en los
modelos evaluados. Por lo que este modelo se considera bueno a la hora de explicar la FEV
con un Adjusted R²=72.08%.

b. Con el objetivo de mejorar el modelo se introducen la clasificación de si es fumador


o no, y el producto de una variable predictora cuantitativa con una cualitativa.

• Fumador(Current)=1 o No fumador(Non)=0
• AgexSmokerCurrent
En esta regresión con todas las variables ( Age, Smoker y AgexSmokerCurrent )el modelo
explica: Adjusted R²=53.06%

1) Edad (Variable de predicción cuantitativa):

Coeficientes : 0.22947 t= 10.621 Pr (>|t|) = <2ev-16**

2) Smoker (variable cualitativa):

Coeficientes : -2.12881 t= 0.65 Pr (>|t|) = 0.0644

3) AgexSmokerCurrent (variable cualitativa):

Coeficientes : 0.02701 t= -0.01289 Pr (>|t|) = 0.0379*

Con las variables edad y ser fumador , esta regresión lineal explica en nivel medio la
capacidad la FEV, la variable Age teniendo bastante significancia con un t aproximado de
11%. Por lo que este modelo se considera aceptable a la hora de explicar la FEV con un
Adjusted R²=53.06%.

c. Con el objetivo de mejorar el modelo se introducen la clasificación de si es fumador


o no, y el producto de una variable predictora cuantitativa con una cualitativa.

• Fumador(Current)=1 o No fumador(Non)=0
• HeightxSmokerCurrent
En esta regresión con todas las variables ( Height, Smoker y HeightxSmokerCurrent )el
modelo explica: Adjusted R²=71.24%

1) Altura (Variable de predicción cuantitativa):

Coeficientes : 0.11976 t= 14.951 Pr (>|t|) = <2ev-16***

2) Smoker (variable cualitativa):

Coeficientes : 1.89995 t= 1.368 Pr (>|t|) = 0.173

3) HeightxSmokerCurrent (variable cualitativa):

Coeficientes : 0.02926 t= 1.369 Pr (>|t|) = 0.173

Con las variables altura y ser fumador , esta regresión lineal explica en nivel alto la
capacidad la FEV, la variable Altura se confirma como la variable de mayor significancia en
todas las evaluaciones del modelo, en este caso con t=15%. Por lo que este modelo se
considera bueno a la hora de explicar la FEV con un Adjusted R²=71.24%.
6. Anova del modelo Height, sex y su ajuste con la variable Heigthxsex

Res. Df : 148
Df: 2
Estadística F: 1.4898
P Value : 0.226

El estadístico F, para la significación conjunta del modelo1 y el modelo 2 donde se incluye


la variable que representa la altura cuando se es hombre, con 1 y 148 Df, es aproximadamente
4.4 con un p-value 0.04.
Respuesta

El mejor modelo es el modelo 8:

1. Represente gráficamente la relación entre la variable dependiente Y y X distinguiendo


por las categorías de la variable dummy.
2. Defina teóricamente el modelo.

FEV = 𝜷𝟎 + 𝜷𝟏 Height + 𝜷𝟐 𝐀𝐠𝐞 +𝜷𝟑 SexMale + 𝜷𝟒 Smoker + u

3. Defina teóricamente los modelos para cada categoría de la variable dummy

a. FEV = 𝛽0 + 𝛽1 Height + 𝛽3 SexMale + 𝛽5 HeightxMale + u


b. FEV = 𝛽0 + 𝛽2 Age + 𝛽4 Smoker + 𝛽6 AgexSmokerCurrent + u
c. FEV = 𝛽0 + 𝛽1 Height + 𝛽4 Smoker + 𝛽7HeightxSmokerCurrent + u

4. Estime el modelo y presente los resultados

FEV = 𝜷𝟎 + 𝜷𝟏 Height + 𝜷𝟑 SexMale + 𝜷𝟓 HeightxMale + u


FEV = -3.95832 + 0.10645Height - 1.48662 SexMale + 0.022701HeightxMale +

5. Interprete todo lo referente al modelo de estimación. (Coeficientes, Linealidad, R2, etc)

En esta regresión con todas las variables ( Height, sex y HeightxMale )el modelo explica:
Adjusted R²=72.80%
Es el mejor modelo
1. Altura (Variable de predicción cuantitativa):

Coeficientes : 0.10645 t= 10.376 Pr (>|t|) = <2ev-16**

2. SexMale (variable cualitativa):

Coeficientes : -1.48662 t= -1.864 Pr (>|t|) = 0.0644

3. HeightxMale (variable cualitativa):

Coeficientes : 0.02701 t= 2.095 Pr (>|t|) = 0.0379*

Con las variables altura , sexo y altura si es hombre , esta regresión lineal explica en un
nivel alto la capacidad la FEV, la variable Height sigue siendo la variable con más
significancia en los modelos evaluados.
Por lo que este modelo se considera bueno a la hora de explicar la FEV con un Adjusted
R²=72.08%.

Interpretación:

Un pulgada adicional en la altura de un hombre incrementara en un 0.2701 litros más en el


FVE comparado con una mujer.

Siendo la altura una variable muy determinante a la hora de estimar el modelo, la variación
entre hombres y mujeres es la siguiente:

• Coeficiente variable siendo hombre:

0.10645
0.02701

[1] 0.13346

• Coeficiente variable siendo mujer

0.10645
Recomendación

El mejor modelo, se obtiene al hacer la regresión lineal con el logaritmo de FEV (logFEV) y
el logaritmo de la mejor variable, la más significativa (LogHeight)

También podría gustarte