Está en la página 1de 13

Estadistica Tarea 9

Estadística (Universidad Politécnica Salesiana)


Tarea 9

#Los datos que se muestran en el archivo reg1.csv son rendimiento de kilometraje de

#gasolina (en millas por gal´on) y desplazamiento del motor (em cent´ımetros c´ubicos) para

#una muestra de 20 autom´oviles.

datos <− read.csv('reg1.csv', sep = ';',dec = ',')

#a Cree una variable EngineDispln3 que contenga el desplazamiento del motor en pulgadas
c´ubicas. Una p´ulgada c´ubica es equivalente a 16.3871 cent´ımetros c´ubicos.

#Redondee al entero mas cercano.

datos <− datos %>%

mutate(EngineDispln3 = round(EngineDisp/16.3871,0))

#b Construya el diagrama de dispersi´on para las dos variables mpg y EngineDispln3

# Boxplot mpg

boxplot(datos$MPG)

# Box plot EngineDispln3

boxplot(datos$EngineDispln3)

#c Calcule el coeficiente de correlaci´on entre las dos variables mpg y EngineDispln3

cor(datos$MPG,df$EngineDispln3)

#d Ajuste un modelo lineal simple que relacione millas de carretera por gal´on (y) al

#desplazamiento del motor (x) utilizando m´ınimos cuadrados.

model <− lm(MPG~EngineDispln3, data = datos)

summary(model)
#e Encuentre una estimaci´on del rendimiento medio de kilometraje

#de gasolina en carretera para un autom´ovil con un desplazamiento del motor de 150 pulg

predict(model,data.frame('EngineDispln3' = c(150)))

#f Obtenga el valor ajustado de y y el residuo correspondiente para un autom´ovil, el

#Ford Escort, con un desplazamiento del motor de 114 pulgadas c´ubicas.

des <− which(datos$EngineDispln3 == 114)

y <− datos$MPG[des]

y_1 <− predict(model,data.frame('EngineDispln3' = c(114)))

cat(' Valor Verdadero : ',y,'\n',

'Valor Ajustado : ',y_1,'\n',

'Residuo : ',y−y_1)

#g ¿como interpreta el coeficiente de determinacion de este modelo?

summary(model)

# nos indica que la variable EngineDispln3 explica el modelo en un

# 20.11% a la variable dependiente es decir a MPG

#pregunta 2

# En el archivo reg2.csv presenta datos sobre el precio de venta y los impuestos anuales

#para 24 casas.

d2 <− read.csv('reg2.csv',sep = ';', dec = ',')

#a Suponiendo que un modelo de regresion lineal simple es apropiado, obtener el ajuste

#de mınimos cuadrados relacionando el precio de venta con impuestos pagados.


model2 <− lm(Precio_miles~Tax_miles,data = d2)

#b Encuentre el precio de venta medio dado que los impuestos pagados son x = 7, 50.

predict(model2,data.frame(Tax_miles = 7.5))

#c Calcule el valor ajustado de y correspondiente a x = 5,8980. Encuentre el residuo


correspondiente.

index <− which(d2$Tax_miles == 5.8980)

y <− d2$Precio_miles[index]

y_h2 <− predict(model2,data.frame(Tax_miles = 5.8980))

cat(' Valor Verdadero : ',y,'\n',

'Valor Ajustado : ',y_h2,'\n',

'Residuo : ',y−y_h2)

#d Calcule el y ajustado para cada valor de xi usado para ajustar el modelo. Luego

#construya una grafica de y versus el correspondiente valor observado yi

y_hats2 <− predict(model2,data.frame(Tax_miles = d2$Tax_miles))

plot(d2$Precio_miles,y_hats2)

#e Encuentre los residuos para el modelo de mınimos cuadrados

residuos2 <− d2$Precio_miles − y_hats2

#f Elabore una grafica de probabilidad normal de los residuales e interprete esta presentacion

# Estandarizando los residuos


model2_standares <− rstandard(model2)

qqnorm(model2_standares,

xlab = 'Residuos Estandarizados',

ylab = 'Distribucion normal')

qqline(model2_standares)

# el modelo que se observa se distribuyen como una normal dado que los residuos
estandarizados se

# estan muy cercanos a la linea diagonal que representa a la distribucion normal

#g Grafique los residuos contra y y contra x. ¿Parece que se cumple el supuesto de

#varianza constante?

par(mfrow = c(1,2))

plot(y_hats2,residuos2,

xlab = 'Valores ajustados',

ylab = 'Residuos')

plot(d22$Tax_miles,residuos2,

xlab = 'X',

ylab = 'Residuos')

par(mfrow = c(1,1))

# Dado que los puntos del grafico de dispersion se encuentrna muy dispersos es dificil

# confirmar de que la varianza se comporta como una constante,

# se debe realizar una prueba de homocedasticidad

#h ¿Que proporcion de la variabilidad total se explica por el modelo de regresion?

summary(model2)
# el modelo de regresion lineal explica el 76.73% de la variabilidad total

#pregunta 3

#Se cree que la cantidad de libras de vapor utilizadas por mes por una planta qu´ımica est´a

#relacionada con la temperatura ambiente promedio (en grados Farenheit) para ese mes.

#El uso y la temperatura del a˜no pasado se muestran en el archivo reg3.csv.

df3 <− read.csv('reg3.csv', sep = ';', dec = ',')

#a Suponiendo que un modelo de regresi´on lineal simple es apropiado, ajustar el modelo

#de regresi´on que relaciona el uso de vapor (y) con la temperatura media (x).

model3 <− lm(Libras_Miles~Temp,data = df3)

#b ¿Cual es la estimacion del uso de vapor esperado cuando la temperatura promedio

#es de 55 ◦F?

predict(model3, data.frame(Temp = 55))

#c ¿Que cambio en el uso medio de vapor se espera cuando la temperatura promedio

#mensual cambia en 1 ◦F?

model3$coefficients['Temp']

#d Suponga que la temperatura promedio mensual es 47 ◦F. Calcule el valor ajustado

#de y y el residuo correspondiente.

index <− which(df3$Temp == 47)

y <− df3$Libras_Miles[index]
y_hat <− predict(model3,data.frame(Temp = 47))

cat(' Valor Verdadero : ',y,'\n',

'Valor Ajustado : ',y_hat,'\n',

'Residuo : ',y−y_hat)

#e Calcule el y ajustado para cada valor de xi usado para ajustar el modelo. Luego

#construya una grafica de y versus el correspondiente valor observado yi

y_hats3 <− predict(model3,data.frame(Temp = df3$Temp))

plot(df3$Libras_Miles,y_hats3)

#f Encuentre los residuos para el modelo de mınimos cuadrados.

residuos3 <− df3$Libras_Miles − y_hats3

#g Elabore una grafica de probabilidad normal de los residuales e interprete esta presentacion

model3_stdres <− rstandard(model3)

qqnorm(model3_stdres,

xlab = 'Residuos Estandarizados',

ylab = 'Distribucion normal')

qqline(model3_stdres)

# en la grafica gran parte de los residuos no se encuentran sobre la linea

# diagonal lo que nos indica que no hay normalidad en los residiuos

#h Grafique los residuos contra y y contra x. ¿Parece que se cumple el supuesto de

#varianza constante?

par(mfrow = c(1,2))
plot(y_hats3,residuos3,

xlab = 'Valores ajustados',

ylab = 'Residuos')

plot(df3$Temp,residuos3,

xlab = 'X',

ylab = 'Residuos')

par(mfrow = c(1,1))

# De acuerdo a la grafica realizada podemos observar que los puntos rondan un valor
constante

# como se mustra el comportamiento de diferentes por lo que se puede decir

# que se cumple el supuesto de varianza constante

#i ¿Que proporcion de la variabilidad total se explica por el modelo de regresion?

summary(model3)

# El modelo explica el 99.99% de la variabilidad

#Pregunta 4

df4 <− read.csv('todas2018.csv', encoding = 'utf8')

#a) Realice un diagrama de dispersion del numero de empleados contra la utilidad.

plot(df4$EMPLEADOS,df4$UTlLlDAD)

#b) Determine la correlacion entre el n´umero de empleados y la utilidad

cor(df4$EMPLEADOS,df4$UTlLlDAD)

#c) Establezca un modelo de regresion lineal simple donde la variable dependiente sea

#la utilidad y la independiente sea el numero de empleados. lnterprete sus resultados.

model4_1 <− lm(UTlLlDAD~EMPLEADOS,data = df4)


summary(model4_1)

# se observa que la variable independiente es significativa

# que tiene un p−valor menor al 5%, se observa que el modleo explica el 0.851%

# de la variabilidad

# Por otro lado, se puede decir que si la empresa contata un empleado más la utilidad

# aumentara¡ en 202.01 unidades monetarias

#d) lncluya en su modelo de regresion las ventas. lnterprete sus resultados

model4_2 <− lm(UTlLlDAD~EMPLEADOS+VENTAS,data = df4)

summary(model4_2)

#se puede observar que al ingresar la variable ventas, la variable empleados deja de ser
significativa, mientras que

# la variabel ventas si es significativa.

#Por otro lado, si observamos el estaditico F, podemos decir que el modelo es significativo de
manera global

# En cuanto al al r−cuadrado podemos observar que el modelo explica el 49.2% de la

# variabilidad

#e) Adicione en su modelo de regresion del literal anterior el sector productivo al que

#pertenece la empresa. lnterprete sus resultados.

model4_3 <− lm(UTlLlDAD~EMPLEADOS+VENTAS+factor(SECTOR_PROD),data = df4)

summary(model4_3)

# Las variables que son significativas para el modelo son Ventas, como las siguientes
# categorias de la variable sector productivo que son las categorias construccion e inmobiliaria

# el modeleo explica el 49.27% de la vairabilidad

#Pregunta 5

df5 <−read.csv('tourism.csv', sep = ';')

#a

model5 <− lm(expenses~age,data = df5)

# Supuesot de independencia

plot(model5$residuals)

# dado que en el los residuos no presenta un patron definido podemos decir que se

# cumple el supuesot de independencia entre los errores

# Supuesto de Normalidad

# Test de normalidad

shapiro.test(model5$residuals)

# Considerando un nivel de significancia de 5%, podemos aceptar la hipotesis nula,

# lo que implica que el modelo cumple con el supuesto de normalidad

# Supuesto de Homocedasticidad o vairanza cosntante

# Test de homocedaticidad

bptest(model5)

# Dado que el nivel de significancia elegido es de 5%, no se rechaza la hipotsis nula,

# por lo que se puede afirmar que el modleo cumple el supuesto de homocedasticidad


# Test de multicolinealidad

# elmodelo es univariado

# Supuesto de no relacion entes las variables exlicativa y el error

plot(model5$residuals,df5$age)

# no se muestra ningn patron conocido se asume que se cumple este supuesto

#b

model5_b <− lm(expenses~age+satisfaction+stay,data = df5)

# Supuesot de independencia

plot(model5_b$residuals)

# Supuesto de Normalidad

# Test de normalidad

shapiro.test(model5_b$residuals)

# Supuesto de Homocedasticidad o vairanza cosntante

# Test de homocedaticidad

bptest(model5_b)

# Test de multicolinealidad

vif(model5_b)

# Supuesto de no relacion entes las variables exlicativa y el error

plot(model5_b$residuals,df5$age)
#c

model5_c <− lm(expenses~age+satisfaction+stay+accommodation,data = df5)

# Supuesot de independencia

plot(model5_c$residuals)

# Supuesto de Normalidad

# Test de normalidad

shapiro.test(model5_c$residuals)

# Supuesto de Homocedasticidad o vairanza cosntante

# Test de homocedaticidad

bptest(model5_c)

# Test de multicolinealidad

vif(model5_c)

# Supuesto de no relación entes las variables exlicativa y el error

plot(model5_c$residuals,df5$age)

#d

model5_d <− lm(expenses~age+satisfaction+stay+accommodation+sex,data = df5)

# SUpuesot de independencia

plot(model5_d$residuals)

# Supuesto de Normalidad

# Test de normalidad

shapiro.test(model5_d$residuals)
# Supuesto de Homocedasticidad o vairanza cosntante

# Test de homocedaticidad

bptest(model5_d)

# Test de multicolinealidad

vif(model5_d)

# los supuesto de no relacion entes las variables exlicativa y el error

plot(model5_d$residuals,df5$age)

También podría gustarte