Está en la página 1de 13

lOMoAR cPSD| 15394286

Jesus Pereira M
lOMoAR cPSD| 15394286

Tarea 9

#Los datos que se muestran en el archivo reg1.csv son rendimiento de kilometraje de


#gasolina (en millas por gal´on) y desplazamiento del motor (em cent´ımetros c´ubicos) para
#una muestra de 20 autom´oviles.

datos <− read.csv('reg1.csv', sep = ';',dec = ',')

#a Cree una variable EngineDispln3 que contenga el desplazamiento del motor en pulgadas
c´ubicas. Una p´ulgada c´ubica es equivalente a 16.3871 cent´ımetros c´ubicos.
#Redondee al entero mas cercano.

datos <− datos %>%


mutate(EngineDispln3 = round(EngineDisp/16.3871,0))

#b Construya el diagrama de dispersi´on para las dos variables mpg y


EngineDispln3# Boxplot mpg
boxplot(datos$MPG)

# Box plot EngineDispln3


boxplot(datos$EngineDispln3
)

#c Calcule el coeficiente de correlaci´on entre las dos variables mpg y EngineDispln3

cor(datos$MPG,df$EngineDispln3)

#d Ajuste un modelo lineal simple que relacione millas de carretera por gal´on (y) al
#desplazamiento del motor (x) utilizando m´ınimos cuadrados.

model <− lm(MPG~EngineDispln3, data =


datos)summary(model)

Jesus Pereira M
lOMoAR cPSD| 15394286

#e Encuentre una estimaci´on del rendimiento medio de kilometraje


#de gasolina en carretera para un autom´ovil con un desplazamiento del motor de 150 pulg
predict(model,data.frame('EngineDispln3' = c(150)))

#f Obtenga el valor ajustado de y y el residuo correspondiente para un autom´ovil, el


#Ford Escort, con un desplazamiento del motor de 114 pulgadas c´ubicas.

des <− which(datos$EngineDispln3 == 114)

y <− datos$MPG[des]
y_1 <− predict(model,data.frame('EngineDispln3' = c(114)))

cat(' Valor Verdadero : ',y,'\n',


'Valor Ajustado : ',y_1,'\n',
'Residuo : ',y−y_1)

#g ¿como interpreta el coeficiente de determinacion de este modelo?


summary(model)

# nos indica que la variable EngineDispln3 explica el modelo en un


# 20.11% a la variable dependiente es decir a MPG

#pregunta 2
# En el archivo reg2.csv presenta datos sobre el precio de venta y los impuestos anuales
#para 24 casas.

d2 <− read.csv('reg2.csv',sep = ';', dec = ',')

#a Suponiendo que un modelo de regresion lineal simple es apropiado, obtener el ajuste


#de mınimos cuadrados relacionando el precio de venta con impuestos pagados.

Jesus Pereira M
lOMoAR cPSD| 15394286

model2 <− lm(Precio_miles~Tax_miles,data = d2)

#b Encuentre el precio de venta medio dado que los impuestos pagados son x = 7, 50.
predict(model2,data.frame(Tax_miles = 7.5))

#c Calcule el valor ajustado de y correspondiente a x = 5,8980. Encuentre el residuo


correspondiente.
index <− which(d2$Tax_miles == 5.8980)

y <− d2$Precio_miles[index]
y_h2 <− predict(model2,data.frame(Tax_miles = 5.8980))

cat(' Valor Verdadero : ',y,'\n',


'Valor Ajustado : ',y_h2,'\n',
'Residuo : ',y−y_h2)

#d Calcule el y ajustado para cada valor de xi usado para ajustar el modelo. Luego
#construya una grafica de y versus el correspondiente valor observado yi

y_hats2 <− predict(model2,data.frame(Tax_miles = d2$Tax_miles))

plot(d2$Precio_miles,y_hats2)

#e Encuentre los residuos para el modelo de mınimos cuadrados

residuos2 <− d2$Precio_miles − y_hats2

#f Elabore una grafica de probabilidad normal de los residuales e interprete esta presentacion

# Estandarizando los residuos

Jesus Pereira M
lOMoAR cPSD| 15394286

model2_standares <− rstandard(model2)

qqnorm(model2_standares,

xlab = 'Residuos Estandarizados',


ylab = 'Distribucion normal')
qqline(model2_standares)

# el modelo que se observa se distribuyen como una normal dado que los residuos
estandarizados se
# estan muy cercanos a la linea diagonal que representa a la distribucion normal

#g Grafique los residuos contra y y contra x. ¿Parece que se cumple el supuesto de


#varianza constante?

par(mfrow = c(1,2))
plot(y_hats2,residuos2,
xlab = 'Valores ajustados',
ylab = 'Residuos')
plot(d22$Tax_miles,residuos2,
xlab = 'X',
ylab =
'Residuos')
par(mfrow = c(1,1))

# Dado que los puntos del grafico de dispersion se encuentrna muy dispersos es dificil
# confirmar de que la varianza se comporta como una constante,
# se debe realizar una prueba de homocedasticidad

#h ¿Que proporcion de la variabilidad total se explica por el modelo de regresion?


summary(model2)

Jesus Pereira M
lOMoAR cPSD| 15394286

# el modelo de regresion lineal explica el 76.73% de la variabilidad total

#pregunta 3
#Se cree que la cantidad de libras de vapor utilizadas por mes por una planta qu´ımica est´a
#relacionada con la temperatura ambiente promedio (en grados Farenheit) para ese mes. #El
uso y la temperatura del a˜no pasado se muestran en el archivo reg3.csv.

df3 <− read.csv('reg3.csv', sep = ';', dec = ',')

#a Suponiendo que un modelo de regresi´on lineal simple es apropiado, ajustar el modelo


#de regresi´on que relaciona el uso de vapor (y) con la temperatura media (x).

model3 <− lm(Libras_Miles~Temp,data = df3)

#b ¿Cual es la estimacion del uso de vapor esperado cuando la temperatura promedio


#es de 55 ◦F?

predict(model3, data.frame(Temp = 55))

#c ¿Que cambio en el uso medio de vapor se espera cuando la temperatura promedio


#mensual cambia en 1 ◦F?

model3$coefficients['Temp']

#d Suponga que la temperatura promedio mensual es 47 ◦F. Calcule el valor ajustado


#de y y el residuo correspondiente.

index <− which(df3$Temp == 47)

y <− df3$Libras_Miles[index]

Jesus Pereira M
lOMoAR cPSD| 15394286

y_hat <− predict(model3,data.frame(Temp = 47))

cat(' Valor Verdadero : ',y,'\n',


'Valor Ajustado : ',y_hat,'\n',
'Residuo : ',y−y_hat)

#e Calcule el y ajustado para cada valor de xi usado para ajustar el modelo. Luego
#construya una grafica de y versus el correspondiente valor observado yi

y_hats3 <− predict(model3,data.frame(Temp = df3$Temp))

plot(df3$Libras_Miles,y_hats3)

#f Encuentre los residuos para el modelo de mınimos cuadrados.

residuos3 <− df3$Libras_Miles − y_hats3

#g Elabore una grafica de probabilidad normal de los residuales e interprete esta presentacion
model3_stdres <− rstandard(model3)

qqnorm(model3_stdres,
xlab = 'Residuos Estandarizados',
ylab = 'Distribucion normal')
qqline(model3_stdres)

# en la grafica gran parte de los residuos no se encuentran sobre la linea#


diagonal lo que nos indica que no hay normalidad en los residiuos

#h Grafique los residuos contra y y contra x. ¿Parece que se cumple el supuesto de


#varianza constante?
par(mfrow = c(1,2))

Jesus Pereira M
lOMoAR cPSD| 15394286

plot(y_hats3,residuos3,
xlab = 'Valores ajustados',
ylab = 'Residuos')
plot(df3$Temp,residuos3,
xlab = 'X',
ylab =
'Residuos')
par(mfrow = c(1,1))

# De acuerdo a la grafica realizada podemos observar que los puntos rondan un valor
constante
# como se mustra el comportamiento de diferentes por lo que se puede decir#
que se cumple el supuesto de varianza constante

#i ¿Que proporcion de la variabilidad total se explica por el modelo de regresion?


summary(model3)

# El modelo explica el 99.99% de la variabilidad

#Pregunta 4

df4 <− read.csv('todas2018.csv', encoding = 'utf8')

#a) Realice un diagrama de dispersion del numero de empleados contra la utilidad.


plot(df4$EMPLEADOS,df4$UTlLlDAD)

#b) Determine la correlacion entre el n´umero de empleados y la utilidad


cor(df4$EMPLEADOS,df4$UTlLlDAD)

#c) Establezca un modelo de regresion lineal simple donde la variable dependiente sea
#la utilidad y la independiente sea el numero de empleados. lnterprete sus resultados.
model4_1 <− lm(UTlLlDAD~EMPLEADOS,data = df4)

Jesus Pereira M
lOMoAR cPSD| 15394286

summary(model4_1)

# se observa que la variable independiente es significativa


# que tiene un p−valor menor al 5%, se observa que el modleo explica el 0.851%
# de la variabilidad

# Por otro lado, se puede decir que si la empresa contata un empleado más la utilidad#
aumentara¡ en 202.01 unidades monetarias

#d) lncluya en su modelo de regresion las ventas. lnterprete sus resultados


model4_2 <− lm(UTlLlDAD~EMPLEADOS+VENTAS,data = df4)
summary(model4_2)

#se puede observar que al ingresar la variable ventas, la variable empleados deja de ser
significativa, mientras que
# la variabel ventas si es significativa.

#Por otro lado, si observamos el estaditico F, podemos decir que el modelo es significativo de
manera global

# En cuanto al al r−cuadrado podemos observar que el modelo explica el 49.2% de la#


variabilidad

#e) Adicione en su modelo de regresion del literal anterior el sector productivo al que
#pertenece la empresa. lnterprete sus resultados.

model4_3 <− lm(UTlLlDAD~EMPLEADOS+VENTAS+factor(SECTOR_PROD),data =


df4)summary(model4_3)

# Las variables que son significativas para el modelo son Ventas, como las siguientes

Jesus Pereira M
lOMoAR cPSD| 15394286

# categorias de la variable sector productivo que son las categorias construccion e inmobiliaria

# el modeleo explica el 49.27% de la vairabilidad

#Pregunta 5

df5 <−read.csv('tourism.csv', sep = ';')

#a
model5 <− lm(expenses~age,data = df5)

# Supuesot de independencia
plot(model5$residuals)

# dado que en el los residuos no presenta un patron definido podemos decir que se#
cumple el supuesot de independencia entre los errores

# Supuesto de Normalidad
# Test de normalidad
shapiro.test(model5$residuals)

# Considerando un nivel de significancia de 5%, podemos aceptar la hipotesis nula,


# lo que implica que el modelo cumple con el supuesto de normalidad

# Supuesto de Homocedasticidad o vairanza cosntante


# Test de homocedaticidad
bptest(model5)

# Dado que el nivel de significancia elegido es de 5%, no se rechaza la hipotsis nula,


# por lo que se puede afirmar que el modleo cumple el supuesto de homocedasticidad

Jesus Pereira M
lOMoAR cPSD| 15394286

# Test de multicolinealidad

# elmodelo es univariado

# Supuesto de no relacion entes las variables exlicativa y el error


plot(model5$residuals,df5$age)

# no se muestra ningn patron conocido se asume que se cumple este supuesto

#b
model5_b <− lm(expenses~age+satisfaction+stay,data = df5)

# Supuesot de independencia
plot(model5_b$residuals)

# Supuesto de Normalidad
# Test de normalidad
shapiro.test(model5_b$residuals)

# Supuesto de Homocedasticidad o vairanza cosntante


# Test de homocedaticidad
bptest(model5_b)

# Test de multicolinealidad
vif(model5_b)

# Supuesto de no relacion entes las variables exlicativa y el error


plot(model5_b$residuals,df5$age)

Jesus Pereira M
lOMoAR cPSD| 15394286

#c
model5_c <− lm(expenses~age+satisfaction+stay+accommodation,data = df5)

# Supuesot de independencia
plot(model5_c$residuals)

# Supuesto de Normalidad
# Test de normalidad
shapiro.test(model5_c$residuals)

# Supuesto de Homocedasticidad o vairanza cosntante


# Test de homocedaticidad
bptest(model5_c)

# Test de multicolinealidad
vif(model5_c)

# Supuesto de no relación entes las variables exlicativa y el error


plot(model5_c$residuals,df5$age)

#d
model5_d <− lm(expenses~age+satisfaction+stay+accommodation+sex,data = df5)

# SUpuesot de independencia
plot(model5_d$residuals)

# Supuesto de Normalidad
# Test de normalidad
shapiro.test(model5_d$residuals)

Jesus Pereira M
lOMoAR cPSD| 15394286

# Supuesto de Homocedasticidad o vairanza cosntante


# Test de homocedaticidad
bptest(model5_d)

# Test de multicolinealidad
vif(model5_d)

# los supuesto de no relacion entes las variables exlicativa y el error


plot(model5_d$residuals,df5$age)

Jesus Pereira M

También podría gustarte