Tarea 8 Estadística

Datos del alumno Fecha
Nombres: Santiago 14/07/2023

Apellidos: Quishpe
Desarrollo de la Actividad
ESTAD´ISTICA
UNIDAD 3: TAREA 2
Para resolver los ejercicios de esta tarea se recomienda crear un proyecto llamado
U3EST T2
1. Los datos que se muestran en el archivo reg1.csv son rendimiento de kilometraje de gasolina (en millas por galón) y
desplazamiento del motor (em centímetros cúbicos) para una muestra de 20 automóviles.
a. Cree una variable EngineDispIn3 que contenga el desplazamiento del motor en pulgadas cubicas. Una pulgada cúbica
es equivalente a 16.3871 centímetros cúbicos. Redondee al entero más cercano.
b. Construya el diagrama de dispersión para las dos variables mpg y EngineDispIn3
c. Calcule el coeficiente de correlación entre las dos variables mpg y EngineDispIn3
d. Ajuste un modelo lineal simple que relacione millas de carretera por galón (y) al desplazamiento del motor (x)
utilizando mínimos cuadrados.
e. Encuentre una estimación del rendimiento medio de kilometraje de gasolina en carretera para un automóvil con un
desplazamiento del motor de 150 pulgadas cúbicas.
f. Obtenga el valor ajustado de y el residuo correspondiente para un automóvil, el Ford Escort, con un desplazamiento
del motor de 114 pulgadas cúbicas.
g. ¿cómo interpreta el coeficiente de determinación de este modelo?
library(readr)
## Warning: package ’readr’ was built under R version 4.0.5 library(tidyverse)
## Warning: package ’tidyverse’ was built under R version 4.0.4
## -- Attaching packages --------------------------------------- tidyve rse 1.3.0 --
Nombre de la Institución Educativa
## v ggplot2 3.3.5 v dplyr 1.0.5

## v tibble 3.0.4 v stringr 1.4.0
## v tidyr 1.1.3 v forcats 0.5.1
## v purrr 0.3.4
## Warning: package ’ggplot2’ was built under R version 4.0.5
## Warning: package ’tidyr’ was built under R version 4.0.4
## Warning: package ’dplyr’ was built under R version 4.0.4
## Warning: package ’forcats’ was built under R version 4.0.4
## -- Conflicts ------------------------------------------ tidyverse_co nflicts() --
## x dplyr::filter() masks stats::filter() ## x dplyr::lag()
masks stats::lag()
library(nortest) library(lmtest)
## Warning: package ’lmtest’ was built under R version 4.0.4
## Loading required package: zoo
## Warning: package ’zoo’ was built under R version 4.0.4
##
## Attaching package: ’zoo’
## The following objects are masked from ’package:base’:
##
## as.Date, as.Date.numeric library(car)
## Warning: package ’car’ was built under R version 4.0.5
## Loading required package: carData
##
## Attaching package: ’car’
## The following object is masked from ’package:dplyr’:
##
## recode
## The following object is masked from ’package:purrr’:
##
## some
#1. Los datos que se muestran en el archivo reg1.csv son rendimiento de kilometraje de
#gasolina (en millas por galon) y desplazamiento del motor (em centımet ros cubicos)
para
#una muestra de 20 automoviles.
Universidad Politécnica Salesiana

2
tabla <- read.csv(’reg1.csv’, sep = ’;’,dec = ’,’)
#a Cree una variable EngineDispIn3 que contenga el desplazamiento del m otor en

pulgadas cubicas.
#Una pulgada cubica es equivalente a 16.3871 centımetros cubicos.
#Redondee al entero mas cercano. tabla <- tabla %>%
mutate(EngineDispIn3 = round(EngineDisp/16.3871,0))
#b. Construya el diagrama de dispersion para las dos variables mpg y En gineDispIn3
#diagrama de caja mpg boxplot(tabla$MPG)
#diagrama de caja
EngineDispIn3
boxplot(tabla$Engin
e DispIn3)

3
#c. Calcule el coeficiente de correlacion entre las dos variables mpg y EngineDispIn3
cor(tabla$MPG,tabla$EngineDispIn3)
## [1] -0.4484653
#d. Ajuste un modelo lineal simple que relacione millas de carretera po r galon (y) al
#desplazamiento del motor (x) utilizando mınimos cuadrados. modelo <-
lm(MPG~EngineDispIn3, data = tabla) summary(modelo)
##
## Call:
## lm(formula = MPG ~ EngineDispIn3, data = tabla)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.703 -1.121 1.058 1.644 7.784
##

4
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 33.53478 2.61396 12.829 1.71e-10 *** ##
EngineDispIn3 -0.03540 0.01663 -2.129 0.0473 * ## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 ##
## Residual standard error: 3.66 on 18 degrees of freedom
## Multiple R-squared: 0.2011, Adjusted R-squared: 0.1567
## F-statistic: 4.532 on 1 and 18 DF, p-value: 0.04734
#e. Encuentre una estimacion del rendimiento medio de kilometraje #de gasolina en
carretera para un automovil con un desplazamiento del m otor de 150 pulg
predict(modelo,data.frame(’EngineDispIn3’ = c(150)))
## 1 ## 28.22522
#f. Obtenga el valor ajustado de y y el residuo correspondiente para un automovil, el
#Ford Escort, con un desplazamiento del motor de 114 pulgadas cubicas. res <-
which(tabla$EngineDispIn3 == 114) y <- tabla$MPG[res]
y_1 <- predict(modelo,data.frame(’EngineDispIn3’ = c(114))) cat(’ Valor
Verdadero : ’,y,’\n’, ’Valor Ajustado : ’,y_1,’\n’,
’Residuo : ’,y-y_1)
## Valor Verdadero : 31
## Valor Ajustado : 29.49952
## Residuo : 1.500483
#g. como interpreta el coeficiente de determinacion de este modelo? summary(modelo)
##
## Call:
## lm(formula = MPG ~ EngineDispIn3, data = tabla)
##
## Residuals:
## -7.703 -1.121 1.058 1.644 7.784
##
## Coefficients:

5
## (Intercept) 33.53478 2.61396 12.829 1.71e-10 *** ##

EngineDispIn3 -0.03540 0.01663 -2.129 0.0473 * ## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 ##
## Multiple R-squared: 0.2011, Adjusted R-squared: 0.1567 ## F-statistic:
4.532 on 1 and 18 DF, p-value: 0.04734
#la variable EngineDispIn3 nos indica que el modelo en un # 20.11% explica
a la variable dependiente MPG
2. En el archivo reg2.csv presenta datos sobre el precio de venta y los impuestos anuales para 24 casas.
a. Suponiendo que un modelo de regresión lineal simple es apropiado, obtener el ajuste de mínimos cuadrados
relacionando el precio de venta con impuestos pagados.
b. Encuentre el precio de venta medio dado que los impuestos pagados son x = 7,50.
c. Calcule el valor ajustado de y correspondiente a x = 5,8980. Encuentre el residuo correspondiente.
d. Calcule el ˆy ajustado para cada valor de xi usado para ajustar el modelo. Luego construya una gráfica de ˆ y versus el
correspondiente valor observado yi.
e. Encuentre los residuos para el modelo de mínimos cuadrados.
f. Elabore una gráfica de probabilidad normal de los residuales e interprete esta presentación.
g. Grafique los residuos contra ˆy y contra x. ¿Parece que se cumple el supuesto de varianza constante?
h. ¿Qué proporción de la variabilidad total se explica por el modelo de regresión?
#2. En el archivo reg2.csv presenta datos sobre el precio de venta y lo s impuestos

anuales #para 24 casas.
tabla2 <- read.csv(’reg2.csv’,sep = ’;’, dec = ’,’)
#a. Suponiendo que un modelo de regresion lineal simple es apropiado, o btener el

ajuste
#de mınimos cuadrados relacionando el precio de venta con impuestos pag ados. modelo2
<- lm(Precio_miles~Tax_miles,data = tabla2) modelo2
##

6
## Call:
## lm(formula = Precio_miles ~ Tax_miles, data = tabla2) ##
## Coefficients:
## (Intercept) Tax_miles
## 13.320 3.324
#b. Encuentre el precio de venta medio dado que los impuestos pagados s on x = 7, 50.
predict(modelo2,data.frame(Tax_miles = 7.5))
## 1 ## 38.25296
#c. Calcule el valor ajustado de y correspondiente a x = 5,8980. Encuen tre el residuo
correspondiente. index <- which(tabla2$Tax_miles == 5.8980) y <-
tabla2$Precio_miles[index]
y_h2 <- predict(modelo2,data.frame(Tax_miles = 5.8980))
cat(’ Valor Verdadero : ’,y,’\n’, ’Valor
Ajustado : ’,y_h2,’\n’,
’Residuo : ’,y-y_h2)
## Valor Verdadero : 30.9
## Residuo : -2.027321
#d. Calcule el Y ajustado para
cada valor de xi usado para
ajustar el m odelo. Luego
#construya una grafica de y versus
el correspondiente valor observado
y i
y_hats2 <-
predict(modelo2,data.frame(Tax_mil
es = tabla2$Tax_miles))
plot(tabla2$Precio_miles,y_hats2)

7
#e. Encuentre los residuos para el modelo de mınimos cuadrados res2 <-
tabla2$Precio_miles - y_hats2
#f. Elabore una grafica de probabilidad normal de los residuales e inte rprete esta
presentacion # Estandarizando los residuos modelo2_standar<- rstandard(modelo2)
qqnorm(modelo2_standar) qqline(modelo2_standar)

8
# el modelo que se observa se distribuyen como una normal dado que los residuos
estandarizados se
# estan muy cercanos a la linea diagonal que representa a la distribuci on normal
#g Grafique los residuos contra y y contra x. ¿Parece que se cumple el supuesto de

#varianza constante? par(mfrow = c(1,2))
plot(y_hats2,res2,xlab = ’Valores ajustados’,ylab = ’Residuos’)
plot(tabla2$Tax_miles,res2,xlab = ’X’,ylab = ’Residuos’)

9
par(mfrow = c(1,1))
#se encuentran muy dispersos los puntos en el grafico por lo tanto es d ificil
#confirmar de que la varianza se comporta como una constante, #se recomendaria
realizar una prueba de homocedasticidad
#h ¿Que proporcion de la variabilidad total se explica por el modelo de regresion?

summary(modelo2)
##
## Call:
## lm(formula = Precio_miles ~ Tax_miles, data = tabla2) ##
## Residuals:

10

## -3.8343 -2.3157 -0.3669 1.9787 6.3168
##
## Coefficients:
## (Intercept) 13.3202 2.5717 5.179 3.42e-05 *** ## Tax_miles
3.3244 0.3903 8.518 2.05e-08 *** ## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## F-statistic: 72.56 on 1 and 22 DF, p-value: 2.051e-08
#los resultados nos indican que el modelo de regresion lineal explica #el 76.73% de
la variabilidad
3. Se cree que la cantidad de libras de vapor utilizadas por mes por una planta química está relacionada con la temperatura
ambiente promedio (en grados Farenheit) para ese mes. El uso y la temperatura del año pasado se muestran en el archivo
reg3.csv.
a. Suponiendo que un modelo de regresión lineal simple es apropiado, ajustar el modelo de regresión que relaciona
el uso de vapor (y) con la temperatura media (x).
b. ¿Cuál es la estimación del uso de vapor esperado cuando la temperatura promedio es de 55 ◦F?
c. ¿Qué cambio en el uso medio de vapor se espera cuando la temperatura promedio mensual cambia en 1 ◦F?
d. Suponga que la temperatura promedio mensual es 47 ◦F. Calcule el valor ajustado de y y el residuo
correspondiente.
e. Calcule el ˆy ajustado para cada valor de xi usado para ajustar el modelo. Luego construya una gráfica de ˆy versus
el correspondiente valor observado.

11
f. Encuentre los residuos para el modelo de mínimos cuadrados.

g. Elabore una gráfica de probabilidad normal de los residuales e interprete esta presentación.
h. Grafique los residuos contra ˆy y contra x. ¿Parece que se cumple el supuesto de varianza constante?
i. ¿Qué proporción de la variabilidad total se explica por el modelo de regresión?
#3. Se cree que la cantidad de libras de vapor utilizadas por mes por u na planta
quımica esta
#relacionada con la temperatura ambiente promedio (en grados Farenheit) para ese
mes.
#El uso y la temperatura del ano pasado se muestran en el archivo reg3. csv.
tabla3 <- read.csv(’reg3.csv’, sep = ’;’, dec = ’,’)
#a. Suponiendo que un modelo de regresion lineal simple es apropiado, a justar el

modelo
#de regresion que relaciona el uso de vapor (y) con la temperatura medi a (x).
modelo3 <- lm(Libras_Miles~Temp,data = tabla3) modelo3
##
## Call:
## lm(formula = Libras_Miles ~ Temp, data = tabla3)
##
## Coefficients:
## (Intercept) Temp
## -6.336 9.208
#b. Cual es la estimacion del uso de vapor esperado cuando la temperatu ra
#promedio es de 55 ◦F? predict(modelo3,
data.frame(Temp = 55))
## 1 ## 500.1244
#c. Que cambio en el uso medio de vapor se espera cuando la temperatura promedio
#mensual cambia en 1 ◦F? modelo3$coefficients[’Temp’]

12
## Temp
## 9.208362
#d. Suponga que la temperatura promedio mensual es 47 ◦F. Calcule el va lor
ajustado
#de y y el residuo correspondiente. index <-
which(tabla3$Temp == 47) y <-
tabla3$Libras_Miles[index]
y_hat <- predict(modelo3,data.frame(Temp = 47))
cat(’ Valor Verdadero : ’,y,’\n’, ’Valor
Ajustado : ’,y_hat,’\n’,
’Residuo : ’,y-y_hat)
## Valor Verdadero : 424.84
## Residuo : -1.617514
#e. Calcule el y ajustado para cada valor de xi usado para ajustar el m odelo.
Luego
#construya una grafica de y versus el correspondiente valor observado y i
y_hat3 <- predict(modelo3,data.frame(Temp = tabla3$Temp))
plot(tabla3$Libras_Miles,y_hat3)
#f. Encuentre los residuos para el modelo de mınimos cuadrados.

res3 <- tabla3$Libras_Miles - y_hat3
#g. Elabore una grafica de probabilidad normal de los residuales e
inte rprete esta presentacion modelo3_std <- rstandard(modelo3)
qqnorm(modelo3_std,xlab = ’Residuos Estandarizados’,ylab =
’Distribucio n normal’) qqline(modelo3_std)

13
#en la grafica gran parte de los residuos no se encuentran sobre la

lin ea
#diagonal lo que nos indica que no hay normalidad en los residiuos
#h. Grafique los residuos contra y y contra x. ¿Parece que se cumple

el supuesto de
#varianza constante? par(mfrow
= c(1,2))
plot(y_hat3,res3,xlab = ’Valores ajustados’,ylab = ’Residuos’)
plot(tabla3$Temp,res3,xlab = ’X’,ylab = ’Residuos’)

14
par(mfrow = c(1,1))
#podemos observar que los puntos rondan un valor constante

#entonces se cumple el supuesto de varianza constante
#i. Que proporcion de la variabilidad total se explica por el modelo

de regresion? summary(modelo3)
##
## Call:
## lm(formula = Libras_Miles ~ Temp, data = tabla3)
##
## Residuals:

15

## -2.5529 -1.2519 -0.2486 0.8023 4.0646
##
## Coefficients:
## (Intercept) -6.33550 1.66765 -3.799 0.00349 **
## Temp 9.20836 0.03377 272.643 < 2e-16
*** ## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##

## F-statistic: 7.433e+04 on 1 and 10 DF, p-value: < 2.2e-16
# El modelo explica el 99.99% de la variabilidad
4. A partir del archivo “todas2018.csvc¸onstruya el ranking de las 1000 mejores empresas de

acuerdo a las utilidades.
a. Realice un diagrama de dispersión del número de empleados contra la utilidad.

b. Determine la correlación entre el número de empleados y la utilidad
c. Establezca un modelo de regresión lineal simple donde la variable dependiente sea
la utilidad y la independiente sea el número de empleados. Interprete sus
resultados.
d. Incluya en su modelo de regresión las ventas. Interprete sus resultados
e. Adicione en su modelo de regresión del literal anterior el sector productivo al que
pertenece la empresa. Interprete sus resultados.
#4. A partir del archivo “todas2018.csv¸construya el ranking de

las 100
0 mejores empresas de

16
#acuerdo a las utilidades.

tabla4 <- read.csv(’todas2018.csv’, encoding = ’utf8’)
#a. Realice un diagrama de dispersion del numero de empleados

contra la utilidad. plot(tabla4$EMPLEADOS,tabla4$UTILIDAD)
#b. Determine la correlacion entre el n·umero de empleados y la

utilida d
cor(tabla4$EMPLEADOS,tabla4$UTILIDAD)
## [1] 0.09228602
#c. Establezca un modelo de regresion lineal simple donde la variable
d ependiente sea
#la utilidad y la independiente sea el numero de empleados.

17
Interprete sus resultados. modelo4 <- lm(UTILIDAD~EMPLEADOS,data =

tabla4) summary(modelo4)
##
## Call:
## lm(formula = UTILIDAD ~ EMPLEADOS, data = tabla4)
##
## Residuals:
## -22104834 -98934 -98159 -85779 151796434
##
## Coefficients:
## (Intercept) 97721.01 11936.96 8.186 2.81e-16
*** ## EMPLEADOS 202.11 13.56 14.900 < 2e-
16 *** ## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 1917000 on 25845 degrees of freedom
## F-statistic: 222 on 1 and 25845 DF, p-value: < 2.2e-16
#la variable independiente es significativa
#tiene un p-valor menor al 5%, se puede decir que el modelo explica
el
0.851% de la variabilidad
#Por otro lado, si la empresa contata un empleado mas la utilidad
#aumentara en 202.01 unidades monetarias
#d. Incluya en su modelo de regresion las ventas. Interprete sus

result ados
modelo42 <- lm(UTILIDAD~EMPLEADOS+VENTAS,data = tabla4)
summary(modelo42)
##
## Call:
## lm(formula = UTILIDAD ~ EMPLEADOS + VENTAS, data = tabla4)

18
##
## Residuals:
## -35750771 19072 41884 43811 100253222
##
## Coefficients:
## (Intercept) -4.384e+04 8.592e+03 -5.103 3.37e-07 ***
## EMPLEADOS 7.932e+00 9.788e+00 0.810 0.418
## VENTAS 5.337e-02 3.403e-04 156.834 < 2e-16 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 ##

## F-statistic: 1.252e+04 on 2 and 25844 DF, p-value: < 2.2e-16
#se puede observar que al ingresar la variable ventas, la variable
empl eados deja de ser significativa
#mientras que la variable ventas si es significativa.
#el estaditico F, nos indica que el modelo es significativo de manera
g lobal
# En cuanto al r-cuadrado nos dice que el modelo explica el 49.2% de
la variabilidad
#e. Adicione en su modelo de regresion del literal anterior el sector

p roductivo al que
#pertenece la empresa. Interprete sus resultados. modelo43 <-
lm(UTILIDAD~EMPLEADOS+VENTAS+factor(SECTOR_PROD),data = tab la4)
summary(modelo43)
##
## Call:
## lm(formula = UTILIDAD ~ EMPLEADOS + VENTAS + factor(SECTOR_PROD),
## data = tabla4)
##

19
## Residuals:
## -35772702 -25582 44816 70056 100161495
##
## Coefficients:
## Estimate Std. Error t value
Pr(>|t |)
## (Intercept) -6.608e+04 2.236e+04 -2.956
0.003 12 **
## EMPLEADOS 7.631e+00 9.783e+00 0.780
0.435 38
## VENTAS 5.341e-02 3.404e-04 156.903 <
2e16 ***
## factor(SECTOR_PROD)COMERCIO -5.192e+03 2.535e+04 -0.205
0.837
72
## factor(SECTOR_PROD)CONSTRUCCI N 9.164e+04 3.103e+04 2.953
0.003
15 **
## factor(SECTOR_PROD)INMOBILIARIA 2.799e+05 6.534e+04 4.284
1.84e05 ***
## factor(SECTOR_PROD)MANUFACTURA 2.927e+04 3.047e+04 0.961
0.336
71
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## F-statistic: 4182 on 6 and 25840 DF, p-value: < 2.2e-16
# el modeleo explica el 49.27% de la vairabilidad
5. Con el conjunto de datos tourism.csv realice los siguientes ejercicios. Para los ejercicios b, c y d

20
investigue sobre la regresión lineal múltiple. Adicionalmente investigue sobre los supuestos de los
modelos de regresión y como verificarlos en R.
a. Le gustaría saber si la edad de los huéspedes influye en la cantidad gastada por día
(conjunto de datos turismo.xlsx). Ejecute una regresión lineal con la edad como
independiente y los gastos como variable dependiente. Verifique el cumplimiento de los
supuestos.
b. Suponga que usted no está realmente satisfecho con su resultado, pensando que una
variable independiente puede no ser suficiente para explicar el gasto diario. Al entrar en
detalles se piensa que además de la edad, la satisfacción con la estación de esquí y la
duración de la estancia también pueden influir en el gasto diario. Ejecute el nuevo
modelo de regresión y verifique los supuestos.
c. Al modelo del ejercicio anterior añada la variable acomodación. Ejecute el modelo de
regresión y verifique los supuestos.
d. Finalmente, añada la variable sexo. Ejecute el nuevo modelo de regresión y verifique
los supuestos.
#5. Con el conjunto de datos tourism.csv realice los siguientes

ejercic ios. Para los ejercicios
#b, c y d investigue sobre la regresion lineal multiple.
Adicionalmente investigue sobre los
#supuestos de los modelos de regresion y como verificarlos en R.
tabla5 <-read.csv(’tourism.csv’, sep = ’;’)
#a. Le gustarıa saber si la edad de los huespedes influye en la

cantida d gastada por
#dıa (conjunto de datos turismo.xlsx). Ejecute una regresion lineal
con la edad como
#independiente y los gastos como variable dependiente. Verifique el
cum plimiento de #los supuestos.
modelo5 <- lm(expenses~age,data = tabla5)

21
#los Supuesot de independencia plot(modelo5$residuals)
#los residuos no presentan un patron definido por lo tanto

#podemos decir que se cumple el supuesto de independencia entre los
err ores
# Supuesto de Normalidad #
Test de normalidad
shapiro.test(modelo5$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo5$residuals
## W = 0.98416, p-value = 0.08281
# Con un nivel de significancia de 5%, podemos aceptar la hipotesis
nul a,

22
#modelo cumple con el supuesto de normalidad
#Supuesto de Homocedasticidad #Test

de homocedaticidad bptest(modelo5)
##
## studentized Breusch-Pagan test ##
## BP = 0.25222, df = 1, p-value = 0.6155
#Test de multicolinealidad
#no es posible ya que el modelo es univariado
# Supuesto de no relacion entes las variables exlicativa y el error

plot(modelo5$residuals,tabla5$age)
#Suponga que usted no esta realmente satisfecho con su resultado,

pensa ndo que una
#variable independiente puede no ser suficiente para explicar el
gasto diario. Al entrar

23
#en detalles se piensa que ademas de la edad, la satisfaccion con la

es tacion de esquı y
#la duracion de la estancia tambien pueden influir en el gasto
diario.
Ejecute el nuevo
#modelo de regresion y verifique los supuestos.
modelo55 <- lm(expenses~age+satisfaction+stay,data = tabla5)

modelo55
##
## Call:
## lm(formula = expenses ~ age + satisfaction + stay, data = tabla5)
##
## Coefficients:
## (Intercept) age satisfaction stay
## 212.4104 2.6442 0.5203 -0.7202
#Supuesto de independencia
plot(modelo55$residuals)
# Test de normalidad
shapiro.test (modelo55$resid
uals)
##
## Shapiro- Wilk normality
test
##
## data:
modelo55$residuals
## W = 0.98864, p-value = 0.2635
# Test de homocedaticidad bptest(modelo55)
##

24
## studentized Breusch-Pagan test

##
## data: modelo55
## BP = 3.3022, df = 3, p-value = 0.3473
# Test de multicolinealidad vif(modelo55)
## age satisfaction stay
## 1.182487 1.181754 1.001753
# Supuesto de no relacion entes las variables exlicativa y el error
#c. Al modelo del ejercicio anterior anada la variable acomodacion.

Eje cute el modelo
#de regresion y verifique los supuestos. modelo56 <-
lm(expens es~age+satisfaction+
stay+acco mmodation,data =
tabl a5) modelo56
## ## Call:
## lm(formula =
expenses ~ age + satisfaction
+ stay + accommodation,
## data = tabla5)
##
## Coefficients:
## (Intercept)
age satisfaction
stay accommod ation
## 193.607 2.055 0.427 -1.115
1 8.531
#Test de independencia plot(modelo56$residuals)

25
#Test de normalidad
##
##
## W = 0.98889, p-value = 0.28
#Test de homocedasticidad bptest(modelo56)
##
##
## data: modelo56
## BP = 11.495, df = 4, p-value = 0.02153

26
#Test de multicolinealidad vif(modelo56)

## age satisfaction stay accommodation
## 1.445447 1.193490 1.004480 1.319492
#Supuesto de no relacion entes las variables exlicativa y el error

#d. Finalmente anada la variable sexo. Ejecute el nuevo modelo de

regre sion y verifique #los supuestos.
modelo57 <-
lm(expenses~age +satisfa
ction+stay+acco mmodatio
n+sex,data = tabla5)
modelo57
## ## Call:
## lm(formula = expenses
~ age +
satisfaction + stay +
accommodation + ##
sex, data = tabla5)
##
## Coefficients:
## (Intercept) age satisfaction stay
accommod ation
## 200.1852 1.9898 0.3569 -1.2052
17 .6324
## sex

27
## 9.8067
#Supuesto
de
independencia plot(modelo57$residuals)
#Test de normalidad
##
##
## W = 0.98943, p-value = 0.3195
# Test de homocedaticidad bptest(modelo57)
##

28
##
## data: modelo57
## BP = 11.568, df = 5, p-value = 0.04121
#supuestos de no relacion entes las variables exlicativa y el error

29

Tarea 8 Estadística

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tarea 8 Estadística

Cargado por

Copyright:

Formatos disponibles

Datos del alumno Fecha

Nombres: Santiago 14/07/2023

## v ggplot2 3.3.5 v dplyr 1.0.5

Universidad Politécnica Salesiana

tabla <- read.csv(’reg1.csv’, sep = ’;’,dec = ’,’)

#a Cree una variable EngineDispIn3 que contenga el desplazamiento del m otor en

Universidad Politécnica Salesiana

Universidad Politécnica Salesiana

Universidad Politécnica Salesiana

## (Intercept) 33.53478 2.61396 12.829 1.71e-10 *** ##

#2. En el archivo reg2.csv presenta datos sobre el precio de venta y lo s impuestos

#a. Suponiendo que un modelo de regresion lineal simple es apropiado, o btener el

Universidad Politécnica Salesiana

Universidad Politécnica Salesiana

Universidad Politécnica Salesiana

#g Grafique los residuos contra y y contra x. ¿Parece que se cumple el supuesto de

Universidad Politécnica Salesiana

#h ¿Que proporcion de la variabilidad total se explica por el modelo de regresion?

Universidad Politécnica Salesiana

## Min 1Q Median 3Q Max

Universidad Politécnica Salesiana

f. Encuentre los residuos para el modelo de mínimos cuadrados.

#a. Suponiendo que un modelo de regresion lineal simple es apropiado, a justar el

Universidad Politécnica Salesiana

#f. Encuentre los residuos para el modelo de mınimos cuadrados.

Universidad Politécnica Salesiana

#en la grafica gran parte de los residuos no se encuentran sobre la

#h. Grafique los residuos contra y y contra x. ¿Parece que se cumple

Universidad Politécnica Salesiana

#podemos observar que los puntos rondan un valor constante

#i. Que proporcion de la variabilidad total se explica por el modelo

Universidad Politécnica Salesiana

## Min 1Q Median 3Q Max

## Multiple R-squared: 0.9999, Adjusted R-squared: 0.9999

4. A partir del archivo “todas2018.csvc¸onstruya el ranking de las 1000 mejores empresas de

a. Realice un diagrama de dispersión del número de empleados contra la utilidad.

#4. A partir del archivo “todas2018.csv¸construya el ranking de

Universidad Politécnica Salesiana

#acuerdo a las utilidades.

#a. Realice un diagrama de dispersion del numero de empleados

#b. Determine la correlacion entre el n·umero de empleados y la

Universidad Politécnica Salesiana

Interprete sus resultados. modelo4 <- lm(UTILIDAD~EMPLEADOS,data =

#d. Incluya en su modelo de regresion las ventas. Interprete sus

Universidad Politécnica Salesiana

## Residual standard error: 1372000 on 25844 degrees of freedom

#e. Adicione en su modelo de regresion del literal anterior el sector

Universidad Politécnica Salesiana

Universidad Politécnica Salesiana

#5. Con el conjunto de datos tourism.csv realice los siguientes

#a. Le gustarıa saber si la edad de los huespedes influye en la

Universidad Politécnica Salesiana

#los Supuesot de independencia plot(modelo5$residuals)

#los residuos no presentan un patron definido por lo tanto

Universidad Politécnica Salesiana

#modelo cumple con el supuesto de normalidad

#Supuesto de Homocedasticidad #Test

#no es posible ya que el modelo es univariado

# Supuesto de no relacion entes las variables exlicativa y el error

#Suponga que usted no esta realmente satisfecho con su resultado,

Universidad Politécnica Salesiana

#en detalles se piensa que ademas de la edad, la satisfaccion con la

modelo55 <- lm(expenses~age+satisfaction+stay,data = tabla5)