Pereira Jesus Estadistica U3 T9

lOMoAR cPSD| 15394286
Jesus Pereira M
Tarea 9
#Los datos que se muestran en el archivo reg1.csv son rendimiento de kilometraje de

#gasolina (en millas por galón) y desplazamiento del motor (em cent´ımetros cúbicos) para
#una muestra de 20 automóviles.
datos <− read.csv('reg1.csv', sep = ';',dec = ',')
#a Cree una variable EngineDispln3 que contenga el desplazamiento del motor en pulgadas
cúbicas. Una púlgada cúbica es equivalente a 16.3871 cent´ımetros cúbicos.
#Redondee al entero mas cercano.
datos <− datos %>%

mutate(EngineDispln3 = round(EngineDisp/16.3871,0))
#b Construya el diagrama de dispersión para las dos variables mpg y

EngineDispln3# Boxplot mpg
boxplot(datos$MPG)
# Box plot EngineDispln3

boxplot(datos$EngineDispln3
)
#c Calcule el coeficiente de correlación entre las dos variables mpg y EngineDispln3
cor(datos$MPG,df$EngineDispln3)
#d Ajuste un modelo lineal simple que relacione millas de carretera por galón (y) al
#desplazamiento del motor (x) utilizando m´ınimos cuadrados.
model <− lm(MPG~EngineDispln3, data =

datos)summary(model)
Jesus Pereira M
#e Encuentre una estimación del rendimiento medio de kilometraje

#de gasolina en carretera para un automóvil con un desplazamiento del motor de 150 pulg
predict(model,data.frame('EngineDispln3' = c(150)))
#f Obtenga el valor ajustado de y y el residuo correspondiente para un automóvil, el

#Ford Escort, con un desplazamiento del motor de 114 pulgadas cúbicas.
des <− which(datos$EngineDispln3 == 114)
y <− datos$MPG[des]
y_1 <− predict(model,data.frame('EngineDispln3' = c(114)))
cat(' Valor Verdadero : ',y,'\n',

'Valor Ajustado : ',y_1,'\n',
'Residuo : ',y−y_1)
#g ¿como interpreta el coeficiente de determinacion de este modelo?

summary(model)
# nos indica que la variable EngineDispln3 explica el modelo en un

# 20.11% a la variable dependiente es decir a MPG
#pregunta 2
# En el archivo reg2.csv presenta datos sobre el precio de venta y los impuestos anuales
#para 24 casas.
d2 <− read.csv('reg2.csv',sep = ';', dec = ',')
#a Suponiendo que un modelo de regresion lineal simple es apropiado, obtener el ajuste

#de mınimos cuadrados relacionando el precio de venta con impuestos pagados.
Jesus Pereira M
model2 <− lm(Precio_miles~Tax_miles,data = d2)
#b Encuentre el precio de venta medio dado que los impuestos pagados son x = 7, 50.
predict(model2,data.frame(Tax_miles = 7.5))
#c Calcule el valor ajustado de y correspondiente a x = 5,8980. Encuentre el residuo

correspondiente.
index <− which(d2$Tax_miles == 5.8980)
y <− d2$Precio_miles[index]
y_h2 <− predict(model2,data.frame(Tax_miles = 5.8980))

'Valor Ajustado : ',y_h2,'\n',
'Residuo : ',y−y_h2)
#d Calcule el y ajustado para cada valor de xi usado para ajustar el modelo. Luego
#construya una grafica de y versus el correspondiente valor observado yi
y_hats2 <− predict(model2,data.frame(Tax_miles = d2$Tax_miles))
plot(d2$Precio_miles,y_hats2)
#e Encuentre los residuos para el modelo de mınimos cuadrados
residuos2 <− d2$Precio_miles − y_hats2
#f Elabore una grafica de probabilidad normal de los residuales e interprete esta presentacion
# Estandarizando los residuos
Jesus Pereira M
model2_standares <− rstandard(model2)
qqnorm(model2_standares,
xlab = 'Residuos Estandarizados',

ylab = 'Distribucion normal')
qqline(model2_standares)
# el modelo que se observa se distribuyen como una normal dado que los residuos
estandarizados se
# estan muy cercanos a la linea diagonal que representa a la distribucion normal
#g Grafique los residuos contra y y contra x. ¿Parece que se cumple el supuesto de

#varianza constante?
par(mfrow = c(1,2))
plot(y_hats2,residuos2,
xlab = 'Valores ajustados',
ylab = 'Residuos')
plot(d22$Tax_miles,residuos2,
xlab = 'X',
ylab =
'Residuos')
par(mfrow = c(1,1))
# Dado que los puntos del grafico de dispersion se encuentrna muy dispersos es dificil
# confirmar de que la varianza se comporta como una constante,
# se debe realizar una prueba de homocedasticidad
#h ¿Que proporcion de la variabilidad total se explica por el modelo de regresion?

summary(model2)
Jesus Pereira M
# el modelo de regresion lineal explica el 76.73% de la variabilidad total
#pregunta 3
#Se cree que la cantidad de libras de vapor utilizadas por mes por una planta qu´ımica está
#relacionada con la temperatura ambiente promedio (en grados Farenheit) para ese mes. #El
uso y la temperatura del año pasado se muestran en el archivo reg3.csv.
df3 <− read.csv('reg3.csv', sep = ';', dec = ',')
#a Suponiendo que un modelo de regresión lineal simple es apropiado, ajustar el modelo

#de regresión que relaciona el uso de vapor (y) con la temperatura media (x).
model3 <− lm(Libras_Miles~Temp,data = df3)
#b ¿Cual es la estimacion del uso de vapor esperado cuando la temperatura promedio

#es de 55 ◦F?
predict(model3, data.frame(Temp = 55))
#c ¿Que cambio en el uso medio de vapor se espera cuando la temperatura promedio

#mensual cambia en 1 ◦F?
model3$coefficients['Temp']
#d Suponga que la temperatura promedio mensual es 47 ◦F. Calcule el valor ajustado

#de y y el residuo correspondiente.
index <− which(df3$Temp == 47)
y <− df3$Libras_Miles[index]
Jesus Pereira M
y_hat <− predict(model3,data.frame(Temp = 47))

'Valor Ajustado : ',y_hat,'\n',
'Residuo : ',y−y_hat)
#e Calcule el y ajustado para cada valor de xi usado para ajustar el modelo. Luego
#construya una grafica de y versus el correspondiente valor observado yi
y_hats3 <− predict(model3,data.frame(Temp = df3$Temp))
plot(df3$Libras_Miles,y_hats3)
#f Encuentre los residuos para el modelo de mınimos cuadrados.
residuos3 <− df3$Libras_Miles − y_hats3
#g Elabore una grafica de probabilidad normal de los residuales e interprete esta presentacion
model3_stdres <− rstandard(model3)
qqnorm(model3_stdres,
xlab = 'Residuos Estandarizados',
ylab = 'Distribucion normal')
qqline(model3_stdres)
# en la grafica gran parte de los residuos no se encuentran sobre la linea#

diagonal lo que nos indica que no hay normalidad en los residiuos
#h Grafique los residuos contra y y contra x. ¿Parece que se cumple el supuesto de

#varianza constante?
par(mfrow = c(1,2))
Jesus Pereira M
plot(y_hats3,residuos3,
xlab = 'Valores ajustados',
ylab = 'Residuos')
plot(df3$Temp,residuos3,
xlab = 'X',
ylab =
'Residuos')
par(mfrow = c(1,1))
# De acuerdo a la grafica realizada podemos observar que los puntos rondan un valor
constante
# como se mustra el comportamiento de diferentes por lo que se puede decir#
que se cumple el supuesto de varianza constante
#i ¿Que proporcion de la variabilidad total se explica por el modelo de regresion?

summary(model3)
# El modelo explica el 99.99% de la variabilidad
#Pregunta 4
df4 <− read.csv('todas2018.csv', encoding = 'utf8')
#a) Realice un diagrama de dispersion del numero de empleados contra la utilidad.

plot(df4$EMPLEADOS,df4$UTlLlDAD)
#b) Determine la correlacion entre el número de empleados y la utilidad

cor(df4$EMPLEADOS,df4$UTlLlDAD)
#c) Establezca un modelo de regresion lineal simple donde la variable dependiente sea
#la utilidad y la independiente sea el numero de empleados. lnterprete sus resultados.
model4_1 <− lm(UTlLlDAD~EMPLEADOS,data = df4)
Jesus Pereira M
summary(model4_1)
# se observa que la variable independiente es significativa

# que tiene un p−valor menor al 5%, se observa que el modleo explica el 0.851%
# de la variabilidad
# Por otro lado, se puede decir que si la empresa contata un empleado mÃ¡s la utilidad#
aumentara¡ en 202.01 unidades monetarias
#d) lncluya en su modelo de regresion las ventas. lnterprete sus resultados

model4_2 <− lm(UTlLlDAD~EMPLEADOS+VENTAS,data = df4)
summary(model4_2)
#se puede observar que al ingresar la variable ventas, la variable empleados deja de ser
significativa, mientras que
# la variabel ventas si es significativa.
#Por otro lado, si observamos el estaditico F, podemos decir que el modelo es significativo de
manera global
# En cuanto al al r−cuadrado podemos observar que el modelo explica el 49.2% de la#

variabilidad
#e) Adicione en su modelo de regresion del literal anterior el sector productivo al que
#pertenece la empresa. lnterprete sus resultados.
model4_3 <− lm(UTlLlDAD~EMPLEADOS+VENTAS+factor(SECTOR_PROD),data =

df4)summary(model4_3)
# Las variables que son significativas para el modelo son Ventas, como las siguientes
Jesus Pereira M
# categorias de la variable sector productivo que son las categorias construccion e inmobiliaria
# el modeleo explica el 49.27% de la vairabilidad
#Pregunta 5
df5 <−read.csv('tourism.csv', sep = ';')
#a
model5 <− lm(expenses~age,data = df5)
# Supuesot de independencia
plot(model5$residuals)
# dado que en el los residuos no presenta un patron definido podemos decir que se#
cumple el supuesot de independencia entre los errores
# Supuesto de Normalidad
# Test de normalidad
shapiro.test(model5$residuals)
# Considerando un nivel de significancia de 5%, podemos aceptar la hipotesis nula,

# lo que implica que el modelo cumple con el supuesto de normalidad
# Supuesto de Homocedasticidad o vairanza cosntante

# Test de homocedaticidad
bptest(model5)
# Dado que el nivel de significancia elegido es de 5%, no se rechaza la hipotsis nula,

# por lo que se puede afirmar que el modleo cumple el supuesto de homocedasticidad
Jesus Pereira M
# Test de multicolinealidad
# elmodelo es univariado
# Supuesto de no relacion entes las variables exlicativa y el error

plot(model5$residuals,df5$age)
# no se muestra ningn patron conocido se asume que se cumple este supuesto
#b
model5_b <− lm(expenses~age+satisfaction+stay,data = df5)
plot(model5_b$residuals)
shapiro.test(model5_b$residuals)

bptest(model5_b)
vif(model5_b)
# Supuesto de no relacion entes las variables exlicativa y el error

plot(model5_b$residuals,df5$age)
Jesus Pereira M
#c
model5_c <− lm(expenses~age+satisfaction+stay+accommodation,data = df5)
plot(model5_c$residuals)
shapiro.test(model5_c$residuals)

bptest(model5_c)
vif(model5_c)
# Supuesto de no relaciÃ³n entes las variables exlicativa y el error

plot(model5_c$residuals,df5$age)
#d
model5_d <− lm(expenses~age+satisfaction+stay+accommodation+sex,data = df5)
# SUpuesot de independencia
plot(model5_d$residuals)
shapiro.test(model5_d$residuals)
Jesus Pereira M

bptest(model5_d)
vif(model5_d)
# los supuesto de no relacion entes las variables exlicativa y el error

plot(model5_d$residuals,df5$age)
Jesus Pereira M

Pereira Jesus Estadistica U3 T9

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Pereira Jesus Estadistica U3 T9

Cargado por

Copyright:

Formatos disponibles

lOMoAR cPSD| 15394286

#Los datos que se muestran en el archivo reg1.csv son rendimiento de kilometraje de

datos <− read.csv('reg1.csv', sep = ';',dec = ',')

datos <− datos %>%

#b Construya el diagrama de dispersi´on para las dos variables mpg y

# Box plot EngineDispln3

#c Calcule el coeficiente de correlaci´on entre las dos variables mpg y EngineDispln3

model <− lm(MPG~EngineDispln3, data =

#e Encuentre una estimaci´on del rendimiento medio de kilometraje

#f Obtenga el valor ajustado de y y el residuo correspondiente para un autom´ovil, el

des <− which(datos$EngineDispln3 == 114)

cat(' Valor Verdadero : ',y,'\n',

#g ¿como interpreta el coeficiente de determinacion de este modelo?

# nos indica que la variable EngineDispln3 explica el modelo en un

d2 <− read.csv('reg2.csv',sep = ';', dec = ',')

#a Suponiendo que un modelo de regresion lineal simple es apropiado, obtener el ajuste

model2 <− lm(Precio_miles~Tax_miles,data = d2)

#c Calcule el valor ajustado de y correspondiente a x = 5,8980. Encuentre el residuo

cat(' Valor Verdadero : ',y,'\n',

y_hats2 <− predict(model2,data.frame(Tax_miles = d2$Tax_miles))

#e Encuentre los residuos para el modelo de mınimos cuadrados

residuos2 <− d2$Precio_miles − y_hats2

# Estandarizando los residuos

model2_standares <− rstandard(model2)

xlab = 'Residuos Estandarizados',

#g Grafique los residuos contra y y contra x. ¿Parece que se cumple el supuesto de

#h ¿Que proporcion de la variabilidad total se explica por el modelo de regresion?

# el modelo de regresion lineal explica el 76.73% de la variabilidad total

df3 <− read.csv('reg3.csv', sep = ';', dec = ',')

#a Suponiendo que un modelo de regresi´on lineal simple es apropiado, ajustar el modelo

model3 <− lm(Libras_Miles~Temp,data = df3)

#b ¿Cual es la estimacion del uso de vapor esperado cuando la temperatura promedio

predict(model3, data.frame(Temp = 55))

#c ¿Que cambio en el uso medio de vapor se espera cuando la temperatura promedio

#d Suponga que la temperatura promedio mensual es 47 ◦F. Calcule el valor ajustado

index <− which(df3$Temp == 47)

y_hat <− predict(model3,data.frame(Temp = 47))

cat(' Valor Verdadero : ',y,'\n',

y_hats3 <− predict(model3,data.frame(Temp = df3$Temp))

#f Encuentre los residuos para el modelo de mınimos cuadrados.

residuos3 <− df3$Libras_Miles − y_hats3

# en la grafica gran parte de los residuos no se encuentran sobre la linea#

#h Grafique los residuos contra y y contra x. ¿Parece que se cumple el supuesto de

#i ¿Que proporcion de la variabilidad total se explica por el modelo de regresion?

# El modelo explica el 99.99% de la variabilidad

df4 <− read.csv('todas2018.csv', encoding = 'utf8')

#a) Realice un diagrama de dispersion del numero de empleados contra la utilidad.

#b) Determine la correlacion entre el n´umero de empleados y la utilidad

# se observa que la variable independiente es significativa

#d) lncluya en su modelo de regresion las ventas. lnterprete sus resultados

# En cuanto al al r−cuadrado podemos observar que el modelo explica el 49.2% de la#

model4_3 <− lm(UTlLlDAD~EMPLEADOS+VENTAS+factor(SECTOR_PROD),data =

# el modeleo explica el 49.27% de la vairabilidad

df5 <−read.csv('tourism.csv', sep = ';')

# Considerando un nivel de significancia de 5%, podemos aceptar la hipotesis nula,

# Supuesto de Homocedasticidad o vairanza cosntante

# Dado que el nivel de significancia elegido es de 5%, no se rechaza la hipotsis nula,

# Supuesto de no relacion entes las variables exlicativa y el error

# no se muestra ningn patron conocido se asume que se cumple este supuesto

# Supuesto de Homocedasticidad o vairanza cosntante

# Supuesto de no relacion entes las variables exlicativa y el error

# Supuesto de Homocedasticidad o vairanza cosntante

# Supuesto de no relaciÃ³n entes las variables exlicativa y el error