Taller 3

También podría gustarte

Está en la página 1de 8

Universidad del Valle

Facultad de Ingenierı́a
Escuela de Estadı́stica
Programa Académico de Estadı́stica
Modelo Lineal General I
Alumno: Luis Alberto Rodrı́guez Vélez Cód: 1922682
. Claudia Camila Alvarez Mendez Cód: 1528899

Taller 3 - Evaluación de los Supuestos

La base de datos BigMac2003 del paquete alr4 de R pertenece al informe “Prices and Earnings
Around the Globe”del banco “The Union Bank of Switzerland”, en el cuál se analizan muchas
variables económicas de 70 ciudades del mundo en 2003. En particular, la base datos tiene las si-
guientes variables:

◦ BigMac: Minutos de trabajo para comprar una hamburguesa Big Mac (basado en el salario pro-
medio de 13 ocupaciones).

◦ Bread: Minutos de trabajo para comprar un kilo de pan.

◦ Rice: Minutos de trabajo para comprar un kilo de arroz.

◦ Bus: El costo (más bajo) de transporte público de 10 km.

◦ FoodIndex: Indice de precios de alimentos (ciudad base: Zurich= 100).

◦ Apt: Alquiler mensual de un apartamento de tres habitaciones (en dolares).

El objetivo es predecir la variable BigMac en función de las otras variables. Para ello, debe ajustar
el siguiente modelo:

BigM aci = β0 + β1 Breadi + β2 Ricei + β3 Busi + β4 F oodIndexi + β5 Apti + εi (1)


donde εi ∼ N (0, σ 2 )

1. Construya gráficos de dispersión para ver la relación entre las variables ¿ Los gráficos dan indicios
que la relación de las variables es lineal? ¿ Anticipa algún incumplimiento de los supuestos?

R/ Para esta base de datos se tienen en cuenta 70 ciudades del mundo en 2003.

1
Figura 1: Diagrama de dispersión múltiple

En la Figura 1 se puede observar que la covariable que presenta una mayor relación lineal con res-
pecto a la variable BigMac es Rice con una correlación positiva de 0.696, además se visualiza que
tiene unos cuantos datos dispersos y la mayorı́a de datos se concentran en cierta parte, también
presenta una relación lineal positiva no tan fuerte con Bread con una correlación de 0.545. Por otro
lado se tiene una relación lineal negativa no tan fuerte con las covariables FoodIndex, Bus y Apt con
un correlación de -0.575, -0.543 , -0.541 respectivamente. Presenta también pocos datos dispersos.
Aparentemente se puede observar que si hay incumplimientos en los supuestos ya que en múltiples
variables se ven datos muy dispersos, aunque eso se puede saber con mas exactitud a medida que
se desarrolle el informe.

2. Ajuste el modelo (1) y verifique el cumplimiento de los supuestos. Use gráficos y pruebas formales.

R/ Ajuste del modelo:


BigM aci = β0 + β1 Breadi + β2 Ricei + β3 Busi + β4 F oodIndexi + β5 Apti + εi
En primer lugar se hace el calculo de los coeficientes estimados del modelo, los cuales toman los
siguientes resultados:

Estimate Str.Error t value P r(> |t|)


Intercepto 35.324609 9.477239 3.727 0.000416
Bread 0.424508 0.164074 3.727 0.011993
Rice 0.977562 0.181537 5.385 1.14e-06
FoodIndex -0.475795 0.146994 -3.237 0.001929
Bus -1.294523 3.910715 -0.331 0.741728
Apt 0.003972 0.007883 0.504 0.616098

Cuadro 1: Coeficientes del Modelo

2
R2 = 0.6612
2
RAdj = 0.6344

Estadı́stico F = 24.59

Valor - P = 1.207e-13

El Valor-P del modelo es significativo (1.207e-13) por lo que se puede aceptar que el modelo es
bueno y si funciona para explicar la variable BigMac. R2 indica que el modelo es capaz de explicar
el 66.12 % de la variabilidad observada sobre los Minutos de trabajo para comprar una hamburguesa
Big Mac. El RAdj2 explica menos esta variabilidad.

Figura 2: Gráfico de Residuos VS Valores Ajustados

Para hacer cumplimiento al primer supuesto que habla de la correcta especificación del modelo se
observa la Figura 2, en la cual se evidencia que sı́ se cumple este supuesto, ya que aparentemente hay
una buena relación lineal con respecto a la variable BigMac y las covariables, también se evidencia
unos cuantos datos atı́picos.

3
Figura 3: Gráfico de Residuos VS Covariables

En la Figura 3 se observa por separado si existe relación lineal con las covariables, se evidencia
que efectivamente existe una relación lineal fuerte con estas, confirmando lo dicho anteriormente.
Además se observa que con la covariable Rice la linea trata de seguir esos datos que se pueden
suponer como atı́picos, sin embargo sigue teniendo una relación lineal aceptable.

Figura 4: Gráfico de Residuos2 VS Covariables

4
Para el cumplimiento del segundo supuesto se analiza la Figura 4, en donde se hace un análisis
de forma individual (también se puede observar de manera conjunta con la Figura 5), se observa
entonces, que la varianza permanece constante para las covariables Bus, FoodIndex y Apt lo que
da cumplimiento a este supuesto. Por otro lado la covariable Bread presenta datos dispersos por lo
cual la linea se abre un poco al final y se observa también datos atı́picos, lo mismo ocurre para Rice,
se puede decir que para estas dos ultimas covariables existe un problema de heterocedasticidad ya
que la varianza de los errores no es constante en todas sus observaciones.

Figura 5: Gráfico de Residuos2 VS Valores Ajustados

Para el tercer supuesto debemos asumir independencia de los datos, por lo tanto se cumple este
supuesto.

Figura 6: QQplot

5
El cuarto supuesto habla de la distribución normal de los errores, el cual se puede verificar con
la Figura 6 y con la prueba Shapiro-Wilk. Observando el gráfico la distribución de los errores, se
evidencia que este no es normal y se confirma con la prueba Shapiro-Wilk, la cual indica que no
presentan normalidad, por lo tanto no se cumple este supuesto.

> shapiro.test(res.std)

Shapiro-Wilk normality test

data: res.std
W = 0.88205, p-value = 9.259e-06

3. Construya gráficos de residuos parciales ¿ Hay indicios de posibles curvaturas?

R/

Figura 7: Gráficos de Residuos Parciales

Se observa en todas las covariables que las lineas están muy próximas (azul y lila) indicando que
no presentan problemas de posibles curvaturas, también se observa que en todas hay existencia de
datos atı́picos (aunque muy pocos).

4. Usando el método de Box-Cox encuentre una transformación de potencia para la variable res-
puesta. Ajuste de nuevo el modelo con la variable respuesta transformada y verifique nuevamente
los supuestos ¿ La transformación proporciona buenos resultados?

R/ El primer gráfico que observa e la Figura 8 muestra que no hay relación lineal entre la variable
respuesta y sus covariables, los datos se ven muy dispersos lo cual no ayuda para el primer supuesto.

6
Para el tercer supuesto asumiremos independencia entre las variables. En cuanto a la normalidad,
el cuarto supuesto habla de la distribución normal de los errores, viendo la tercera gráfica de la
Figura 8, observamos que esto se podrı́a cumplir. Usando una la prueba Shapiro-Wilk se evidencia
que los datos si se distribuyen normalmente.

> shapiro.test(res.std2)

Shapiro-Wilk normality test

data: res.std2
W = 0.97829, p-value = 0.2729

Figura 8: Gráfico

Se puede decir entonces, la transformación proporciona buenos resultados.

5. Remueva las covariables que considere no significativas y ajuste un modelo reducido (justifique el
modelo propuesto usando pruebas de hipótesis) ¿ Usando el estadı́stico PRESS, el modelo reducido
proporciona mejores predicciones?

R/ Modelo reducido

Con el análisis realizado se observó que las covariables que menos aportan al modelo son Bus y Apt,
por tal razón no serán tenidas en cuenta para el modelo reducido.

7
Estimate Str.Error t value P r(> |t|)
Intercepto 35.24124 8.65384 4.072 0.000129 ***
Bread 0.42003 0.14434 2.910 0.004944 **
Rice 0.97300 0.17233 5.646 3.89e-07 ***
FoodIndex -0.44717 0.09941 -4.498 2.90e-05 ***

Cuadro 2: Coeficientes del Modelo Reducido

R2 = 0.6591
2
RAdj = 0.6434

Estadı́stico F = 41.9

Valor - P = 3.429e-15

El Valor-P del modelo es significativo (3.429e-15) por lo que se puede aceptar que el modelo es
bueno y si funciona para explicar la variable BigMac. R2 indica que el modelo es capaz de explicar
el 65.91 % de la variabilidad observada sobre los Minutos de trabajo para comprar una hamburguesa
Big Mac. El RAdj2 explica un poco menos esta variabilidad.

Como las covariables Bus = β3 y Apt = β5 no se tienen en cuenta para este nuevo modelo reducido, es
coherente pensar que β3 = β5 = 0, lo cual permite un planteamiento de las hipótesis de investigación.

H0 : β3 = β5 = 0 vs H1 : β3 6= 0, β5 6= 0

En este caso, el modelo se presentan de con la siguiente configuración:

Modelo reducido

BigM aci = β0 + β1 Breadi + β2 Ricei + β4 F oodIndexi + εi (2)


Se procede a calcular el estadı́stico PRESS para las dos modelos (1) y (2):

Para el modelo no reducido PRESS = 32323.34 y para el modelo reducido PRESS = 31275.83.

Según los datos del PRESS, el modelo reducido tiene mejor capacidad de predicción, por lo tanto
será mejor que el modelo completo, aunque se destaca que la diferencia se podrı́a considerar mı́nima.

También podría gustarte