Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Desarrollo de la Actividad
ESTAD´ISTICA
UNIDAD 3: TAREA 2
Para resolver los ejercicios de esta tarea se recomienda crear un proyecto llamado
U3EST T2
1. Los datos que se muestran en el archivo reg1.csv son rendimiento de kilometraje de gasolina (en millas por galón) y
desplazamiento del motor (em centímetros cúbicos) para una muestra de 20 automóviles.
a. Cree una variable EngineDispIn3 que contenga el desplazamiento del motor en pulgadas cubicas. Una pulgada cúbica
es equivalente a 16.3871 centímetros cúbicos. Redondee al entero más cercano.
b. Construya el diagrama de dispersión para las dos variables mpg y EngineDispIn3
c. Calcule el coeficiente de correlación entre las dos variables mpg y EngineDispIn3
d. Ajuste un modelo lineal simple que relacione millas de carretera por galón (y) al desplazamiento del motor (x)
utilizando mínimos cuadrados.
e. Encuentre una estimación del rendimiento medio de kilometraje de gasolina en carretera para un automóvil con un
desplazamiento del motor de 150 pulgadas cúbicas.
f. Obtenga el valor ajustado de y el residuo correspondiente para un automóvil, el Ford Escort, con un desplazamiento
del motor de 114 pulgadas cúbicas.
g. ¿cómo interpreta el coeficiente de determinación de este modelo?
library(readr)
## Warning: package ’readr’ was built under R version 4.0.5 library(tidyverse)
## Warning: package ’tidyverse’ was built under R version 4.0.4
## -- Attaching packages --------------------------------------- tidyve rse 1.3.0 --
Nombre de la Institución Educativa
#b. Construya el diagrama de dispersion para las dos variables mpg y En gineDispIn3
#diagrama de caja mpg boxplot(tabla$MPG)
#diagrama de caja
EngineDispIn3
boxplot(tabla$Engin
e DispIn3)
#c. Calcule el coeficiente de correlacion entre las dos variables mpg y EngineDispIn3
cor(tabla$MPG,tabla$EngineDispIn3)
## [1] -0.4484653
#d. Ajuste un modelo lineal simple que relacione millas de carretera po r galon (y) al
#desplazamiento del motor (x) utilizando mınimos cuadrados. modelo <-
lm(MPG~EngineDispIn3, data = tabla) summary(modelo)
##
## Call:
## lm(formula = MPG ~ EngineDispIn3, data = tabla)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.703 -1.121 1.058 1.644 7.784
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 33.53478 2.61396 12.829 1.71e-10 *** ##
EngineDispIn3 -0.03540 0.01663 -2.129 0.0473 * ## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 ##
## Residual standard error: 3.66 on 18 degrees of freedom
## Multiple R-squared: 0.2011, Adjusted R-squared: 0.1567
## F-statistic: 4.532 on 1 and 18 DF, p-value: 0.04734
#e. Encuentre una estimacion del rendimiento medio de kilometraje #de gasolina en
carretera para un automovil con un desplazamiento del m otor de 150 pulg
predict(modelo,data.frame(’EngineDispIn3’ = c(150)))
## 1 ## 28.22522
#f. Obtenga el valor ajustado de y y el residuo correspondiente para un automovil, el
#Ford Escort, con un desplazamiento del motor de 114 pulgadas cubicas. res <-
which(tabla$EngineDispIn3 == 114) y <- tabla$MPG[res]
y_1 <- predict(modelo,data.frame(’EngineDispIn3’ = c(114))) cat(’ Valor
Verdadero : ’,y,’\n’, ’Valor Ajustado : ’,y_1,’\n’,
’Residuo : ’,y-y_1)
## Valor Verdadero : 31
## Valor Ajustado : 29.49952
## Residuo : 1.500483
#g. como interpreta el coeficiente de determinacion de este modelo? summary(modelo)
##
## Call:
## lm(formula = MPG ~ EngineDispIn3, data = tabla)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.703 -1.121 1.058 1.644 7.784
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
2. En el archivo reg2.csv presenta datos sobre el precio de venta y los impuestos anuales para 24 casas.
a. Suponiendo que un modelo de regresión lineal simple es apropiado, obtener el ajuste de mínimos cuadrados
relacionando el precio de venta con impuestos pagados.
b. Encuentre el precio de venta medio dado que los impuestos pagados son x = 7,50.
c. Calcule el valor ajustado de y correspondiente a x = 5,8980. Encuentre el residuo correspondiente.
d. Calcule el ˆy ajustado para cada valor de xi usado para ajustar el modelo. Luego construya una gráfica de ˆ y versus el
correspondiente valor observado yi.
e. Encuentre los residuos para el modelo de mínimos cuadrados.
f. Elabore una gráfica de probabilidad normal de los residuales e interprete esta presentación.
g. Grafique los residuos contra ˆy y contra x. ¿Parece que se cumple el supuesto de varianza constante?
h. ¿Qué proporción de la variabilidad total se explica por el modelo de regresión?
## Call:
## lm(formula = Precio_miles ~ Tax_miles, data = tabla2) ##
## Coefficients:
## (Intercept) Tax_miles
## 13.320 3.324
#b. Encuentre el precio de venta medio dado que los impuestos pagados s on x = 7, 50.
predict(modelo2,data.frame(Tax_miles = 7.5))
## 1 ## 38.25296
#c. Calcule el valor ajustado de y correspondiente a x = 5,8980. Encuen tre el residuo
correspondiente. index <- which(tabla2$Tax_miles == 5.8980) y <-
tabla2$Precio_miles[index]
y_h2 <- predict(modelo2,data.frame(Tax_miles = 5.8980))
cat(’ Valor Verdadero : ’,y,’\n’, ’Valor
Ajustado : ’,y_h2,’\n’,
’Residuo : ’,y-y_h2)
## Valor Verdadero : 30.9
## Valor Ajustado : 32.92732
## Residuo : -2.027321
#d. Calcule el Y ajustado para
cada valor de xi usado para
ajustar el m odelo. Luego
#construya una grafica de y versus
el correspondiente valor observado
y i
y_hats2 <-
predict(modelo2,data.frame(Tax_mil
es = tabla2$Tax_miles))
plot(tabla2$Precio_miles,y_hats2)
#e. Encuentre los residuos para el modelo de mınimos cuadrados res2 <-
tabla2$Precio_miles - y_hats2
#f. Elabore una grafica de probabilidad normal de los residuales e inte rprete esta
presentacion # Estandarizando los residuos modelo2_standar<- rstandard(modelo2)
qqnorm(modelo2_standar) qqline(modelo2_standar)
# el modelo que se observa se distribuyen como una normal dado que los residuos
estandarizados se
# estan muy cercanos a la linea diagonal que representa a la distribuci on normal
par(mfrow = c(1,1))
#se encuentran muy dispersos los puntos en el grafico por lo tanto es d ificil
#confirmar de que la varianza se comporta como una constante, #se recomendaria
realizar una prueba de homocedasticidad
3. Se cree que la cantidad de libras de vapor utilizadas por mes por una planta química está relacionada con la temperatura
ambiente promedio (en grados Farenheit) para ese mes. El uso y la temperatura del año pasado se muestran en el archivo
reg3.csv.
a. Suponiendo que un modelo de regresión lineal simple es apropiado, ajustar el modelo de regresión que relaciona
el uso de vapor (y) con la temperatura media (x).
b. ¿Cuál es la estimación del uso de vapor esperado cuando la temperatura promedio es de 55 ◦F?
c. ¿Qué cambio en el uso medio de vapor se espera cuando la temperatura promedio mensual cambia en 1 ◦F?
d. Suponga que la temperatura promedio mensual es 47 ◦F. Calcule el valor ajustado de y y el residuo
correspondiente.
e. Calcule el ˆy ajustado para cada valor de xi usado para ajustar el modelo. Luego construya una gráfica de ˆy versus
el correspondiente valor observado.
## Temp
## 9.208362
#d. Suponga que la temperatura promedio mensual es 47 ◦F. Calcule el va lor
ajustado
#de y y el residuo correspondiente. index <-
which(tabla3$Temp == 47) y <-
tabla3$Libras_Miles[index]
y_hat <- predict(modelo3,data.frame(Temp = 47))
cat(’ Valor Verdadero : ’,y,’\n’, ’Valor
Ajustado : ’,y_hat,’\n’,
’Residuo : ’,y-y_hat)
## Valor Verdadero : 424.84
## Valor Ajustado : 426.4575
## Residuo : -1.617514
#e. Calcule el y ajustado para cada valor de xi usado para ajustar el m odelo.
Luego
#construya una grafica de y versus el correspondiente valor observado y i
y_hat3 <- predict(modelo3,data.frame(Temp = tabla3$Temp))
plot(tabla3$Libras_Miles,y_hat3)
par(mfrow = c(1,1))
##
## Residuals:
## Min 1Q Median 3Q Max
## -35750771 19072 41884 43811 100253222
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -4.384e+04 8.592e+03 -5.103 3.37e-07 ***
## EMPLEADOS 7.932e+00 9.788e+00 0.810 0.418
## VENTAS 5.337e-02 3.403e-04 156.834 < 2e-16 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 ##
## Residuals:
## Min 1Q Median 3Q Max
## -35772702 -25582 44816 70056 100161495
##
## Coefficients:
## Estimate Std. Error t value
Pr(>|t |)
## (Intercept) -6.608e+04 2.236e+04 -2.956
0.003 12 **
## EMPLEADOS 7.631e+00 9.783e+00 0.780
0.435 38
## VENTAS 5.341e-02 3.404e-04 156.903 <
2e16 ***
## factor(SECTOR_PROD)COMERCIO -5.192e+03 2.535e+04 -0.205
0.837
72
## factor(SECTOR_PROD)CONSTRUCCI N 9.164e+04 3.103e+04 2.953
0.003
15 **
## factor(SECTOR_PROD)INMOBILIARIA 2.799e+05 6.534e+04 4.284
1.84e05 ***
## factor(SECTOR_PROD)MANUFACTURA 2.927e+04 3.047e+04 0.961
0.336
71
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 1372000 on 25840 degrees of freedom
## Multiple R-squared: 0.4927, Adjusted R-squared: 0.4926
## F-statistic: 4182 on 6 and 25840 DF, p-value: < 2.2e-16
# el modeleo explica el 49.27% de la vairabilidad
5. Con el conjunto de datos tourism.csv realice los siguientes ejercicios. Para los ejercicios b, c y d
investigue sobre la regresión lineal múltiple. Adicionalmente investigue sobre los supuestos de los
modelos de regresión y como verificarlos en R.
a. Le gustaría saber si la edad de los huéspedes influye en la cantidad gastada por día
(conjunto de datos turismo.xlsx). Ejecute una regresión lineal con la edad como
independiente y los gastos como variable dependiente. Verifique el cumplimiento de los
supuestos.
b. Suponga que usted no está realmente satisfecho con su resultado, pensando que una
variable independiente puede no ser suficiente para explicar el gasto diario. Al entrar en
detalles se piensa que además de la edad, la satisfacción con la estación de esquí y la
duración de la estancia también pueden influir en el gasto diario. Ejecute el nuevo
modelo de regresión y verifique los supuestos.
c. Al modelo del ejercicio anterior añada la variable acomodación. Ejecute el modelo de
regresión y verifique los supuestos.
d. Finalmente, añada la variable sexo. Ejecute el nuevo modelo de regresión y verifique
los supuestos.
# Supuesto de Normalidad #
Test de normalidad
shapiro.test(modelo5$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo5$residuals
## W = 0.98416, p-value = 0.08281
# Con un nivel de significancia de 5%, podemos aceptar la hipotesis
nul a,
# Test de normalidad
shapiro.test (modelo55$resid
uals)
##
## Shapiro- Wilk normality
test
##
## data:
modelo55$residuals
## W = 0.98864, p-value = 0.2635
# Test de homocedaticidad bptest(modelo55)
##
#Test de normalidad
shapiro.test(modelo56$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo56$residuals
## W = 0.98889, p-value = 0.28
#Test de homocedasticidad bptest(modelo56)
##
## studentized Breusch-Pagan test
##
## data: modelo56
## BP = 11.495, df = 4, p-value = 0.02153
modelo57 <-
lm(expenses~age +satisfa
ction+stay+acco mmodatio
n+sex,data = tabla5)
modelo57
## ## Call:
## lm(formula = expenses
~ age +
satisfaction + stay +
accommodation + ##
sex, data = tabla5)
##
## Coefficients:
## (Intercept) age satisfaction stay
accommod ation
## 200.1852 1.9898 0.3569 -1.2052
17 .6324
## sex
## 9.8067
#Supuesto
de
independencia plot(modelo57$residuals)
#Test de normalidad
shapiro.test(modelo57$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo57$residuals
## W = 0.98943, p-value = 0.3195
# Test de homocedaticidad bptest(modelo57)
##
## studentized Breusch-Pagan test
##
## data: modelo57
## BP = 11.568, df = 5, p-value = 0.04121
#supuestos de no relacion entes las variables exlicativa y el error
plot(modelo57$residuals,tabla5$age)