Está en la página 1de 29

Datos del alumno Fecha

Nombres: Santiago 14/07/2023


Apellidos: Quishpe

Desarrollo de la Actividad
ESTAD´ISTICA
UNIDAD 3: TAREA 2

Para resolver los ejercicios de esta tarea se recomienda crear un proyecto llamado
U3EST T2

1. Los datos que se muestran en el archivo reg1.csv son rendimiento de kilometraje de gasolina (en millas por galón) y
desplazamiento del motor (em centímetros cúbicos) para una muestra de 20 automóviles.

a. Cree una variable EngineDispIn3 que contenga el desplazamiento del motor en pulgadas cubicas. Una pulgada cúbica
es equivalente a 16.3871 centímetros cúbicos. Redondee al entero más cercano.
b. Construya el diagrama de dispersión para las dos variables mpg y EngineDispIn3
c. Calcule el coeficiente de correlación entre las dos variables mpg y EngineDispIn3
d. Ajuste un modelo lineal simple que relacione millas de carretera por galón (y) al desplazamiento del motor (x)
utilizando mínimos cuadrados.
e. Encuentre una estimación del rendimiento medio de kilometraje de gasolina en carretera para un automóvil con un
desplazamiento del motor de 150 pulgadas cúbicas.
f. Obtenga el valor ajustado de y el residuo correspondiente para un automóvil, el Ford Escort, con un desplazamiento
del motor de 114 pulgadas cúbicas.
g. ¿cómo interpreta el coeficiente de determinación de este modelo?
library(readr)
## Warning: package ’readr’ was built under R version 4.0.5 library(tidyverse)
## Warning: package ’tidyverse’ was built under R version 4.0.4
## -- Attaching packages --------------------------------------- tidyve rse 1.3.0 --
Nombre de la Institución Educativa

## v ggplot2 3.3.5 v dplyr 1.0.5


## v tibble 3.0.4 v stringr 1.4.0
## v tidyr 1.1.3 v forcats 0.5.1
## v purrr 0.3.4
## Warning: package ’ggplot2’ was built under R version 4.0.5
## Warning: package ’tidyr’ was built under R version 4.0.4
## Warning: package ’dplyr’ was built under R version 4.0.4
## Warning: package ’forcats’ was built under R version 4.0.4
## -- Conflicts ------------------------------------------ tidyverse_co nflicts() --
## x dplyr::filter() masks stats::filter() ## x dplyr::lag()
masks stats::lag()
library(nortest) library(lmtest)
## Warning: package ’lmtest’ was built under R version 4.0.4
## Loading required package: zoo
## Warning: package ’zoo’ was built under R version 4.0.4
##
## Attaching package: ’zoo’
## The following objects are masked from ’package:base’:
##
## as.Date, as.Date.numeric library(car)
## Warning: package ’car’ was built under R version 4.0.5
## Loading required package: carData
##
## Attaching package: ’car’
## The following object is masked from ’package:dplyr’:
##
## recode
## The following object is masked from ’package:purrr’:
##
## some
#1. Los datos que se muestran en el archivo reg1.csv son rendimiento de kilometraje de
#gasolina (en millas por galon) y desplazamiento del motor (em centımet ros cubicos)
para
#una muestra de 20 automoviles.

Universidad Politécnica Salesiana


2
Nombre de la Institución Educativa

tabla <- read.csv(’reg1.csv’, sep = ’;’,dec = ’,’)

#a Cree una variable EngineDispIn3 que contenga el desplazamiento del m otor en


pulgadas cubicas.
#Una pulgada cubica es equivalente a 16.3871 centımetros cubicos.
#Redondee al entero mas cercano. tabla <- tabla %>%
mutate(EngineDispIn3 = round(EngineDisp/16.3871,0))

#b. Construya el diagrama de dispersion para las dos variables mpg y En gineDispIn3
#diagrama de caja mpg boxplot(tabla$MPG)

#diagrama de caja
EngineDispIn3
boxplot(tabla$Engin
e DispIn3)

Universidad Politécnica Salesiana


3
Nombre de la Institución Educativa

#c. Calcule el coeficiente de correlacion entre las dos variables mpg y EngineDispIn3
cor(tabla$MPG,tabla$EngineDispIn3)
## [1] -0.4484653
#d. Ajuste un modelo lineal simple que relacione millas de carretera po r galon (y) al
#desplazamiento del motor (x) utilizando mınimos cuadrados. modelo <-
lm(MPG~EngineDispIn3, data = tabla) summary(modelo)
##
## Call:
## lm(formula = MPG ~ EngineDispIn3, data = tabla)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.703 -1.121 1.058 1.644 7.784
##

Universidad Politécnica Salesiana


4
Nombre de la Institución Educativa

## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 33.53478 2.61396 12.829 1.71e-10 *** ##
EngineDispIn3 -0.03540 0.01663 -2.129 0.0473 * ## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 ##
## Residual standard error: 3.66 on 18 degrees of freedom
## Multiple R-squared: 0.2011, Adjusted R-squared: 0.1567
## F-statistic: 4.532 on 1 and 18 DF, p-value: 0.04734
#e. Encuentre una estimacion del rendimiento medio de kilometraje #de gasolina en
carretera para un automovil con un desplazamiento del m otor de 150 pulg
predict(modelo,data.frame(’EngineDispIn3’ = c(150)))
## 1 ## 28.22522
#f. Obtenga el valor ajustado de y y el residuo correspondiente para un automovil, el
#Ford Escort, con un desplazamiento del motor de 114 pulgadas cubicas. res <-
which(tabla$EngineDispIn3 == 114) y <- tabla$MPG[res]
y_1 <- predict(modelo,data.frame(’EngineDispIn3’ = c(114))) cat(’ Valor
Verdadero : ’,y,’\n’, ’Valor Ajustado : ’,y_1,’\n’,
’Residuo : ’,y-y_1)

## Valor Verdadero : 31
## Valor Ajustado : 29.49952
## Residuo : 1.500483
#g. como interpreta el coeficiente de determinacion de este modelo? summary(modelo)
##
## Call:
## lm(formula = MPG ~ EngineDispIn3, data = tabla)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.703 -1.121 1.058 1.644 7.784
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)

Universidad Politécnica Salesiana


5
Nombre de la Institución Educativa

## (Intercept) 33.53478 2.61396 12.829 1.71e-10 *** ##


EngineDispIn3 -0.03540 0.01663 -2.129 0.0473 * ## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 ##
## Residual standard error: 3.66 on 18 degrees of freedom
## Multiple R-squared: 0.2011, Adjusted R-squared: 0.1567 ## F-statistic:
4.532 on 1 and 18 DF, p-value: 0.04734
#la variable EngineDispIn3 nos indica que el modelo en un # 20.11% explica
a la variable dependiente MPG

2. En el archivo reg2.csv presenta datos sobre el precio de venta y los impuestos anuales para 24 casas.

a. Suponiendo que un modelo de regresión lineal simple es apropiado, obtener el ajuste de mínimos cuadrados
relacionando el precio de venta con impuestos pagados.
b. Encuentre el precio de venta medio dado que los impuestos pagados son x = 7,50.
c. Calcule el valor ajustado de y correspondiente a x = 5,8980. Encuentre el residuo correspondiente.
d. Calcule el ˆy ajustado para cada valor de xi usado para ajustar el modelo. Luego construya una gráfica de ˆ y versus el
correspondiente valor observado yi.
e. Encuentre los residuos para el modelo de mínimos cuadrados.
f. Elabore una gráfica de probabilidad normal de los residuales e interprete esta presentación.
g. Grafique los residuos contra ˆy y contra x. ¿Parece que se cumple el supuesto de varianza constante?
h. ¿Qué proporción de la variabilidad total se explica por el modelo de regresión?

#2. En el archivo reg2.csv presenta datos sobre el precio de venta y lo s impuestos


anuales #para 24 casas.
tabla2 <- read.csv(’reg2.csv’,sep = ’;’, dec = ’,’)

#a. Suponiendo que un modelo de regresion lineal simple es apropiado, o btener el


ajuste
#de mınimos cuadrados relacionando el precio de venta con impuestos pag ados. modelo2
<- lm(Precio_miles~Tax_miles,data = tabla2) modelo2
##

Universidad Politécnica Salesiana


6
Nombre de la Institución Educativa

## Call:
## lm(formula = Precio_miles ~ Tax_miles, data = tabla2) ##
## Coefficients:

## (Intercept) Tax_miles
## 13.320 3.324
#b. Encuentre el precio de venta medio dado que los impuestos pagados s on x = 7, 50.
predict(modelo2,data.frame(Tax_miles = 7.5))
## 1 ## 38.25296
#c. Calcule el valor ajustado de y correspondiente a x = 5,8980. Encuen tre el residuo
correspondiente. index <- which(tabla2$Tax_miles == 5.8980) y <-
tabla2$Precio_miles[index]
y_h2 <- predict(modelo2,data.frame(Tax_miles = 5.8980))
cat(’ Valor Verdadero : ’,y,’\n’, ’Valor
Ajustado : ’,y_h2,’\n’,
’Residuo : ’,y-y_h2)
## Valor Verdadero : 30.9
## Valor Ajustado : 32.92732
## Residuo : -2.027321
#d. Calcule el Y ajustado para
cada valor de xi usado para
ajustar el m odelo. Luego
#construya una grafica de y versus
el correspondiente valor observado
y i
y_hats2 <-
predict(modelo2,data.frame(Tax_mil
es = tabla2$Tax_miles))
plot(tabla2$Precio_miles,y_hats2)

Universidad Politécnica Salesiana


7
Nombre de la Institución Educativa

#e. Encuentre los residuos para el modelo de mınimos cuadrados res2 <-
tabla2$Precio_miles - y_hats2

#f. Elabore una grafica de probabilidad normal de los residuales e inte rprete esta
presentacion # Estandarizando los residuos modelo2_standar<- rstandard(modelo2)
qqnorm(modelo2_standar) qqline(modelo2_standar)

Universidad Politécnica Salesiana


8
Nombre de la Institución Educativa

# el modelo que se observa se distribuyen como una normal dado que los residuos
estandarizados se
# estan muy cercanos a la linea diagonal que representa a la distribuci on normal

#g Grafique los residuos contra y y contra x. ¿Parece que se cumple el supuesto de


#varianza constante? par(mfrow = c(1,2))
plot(y_hats2,res2,xlab = ’Valores ajustados’,ylab = ’Residuos’)
plot(tabla2$Tax_miles,res2,xlab = ’X’,ylab = ’Residuos’)

Universidad Politécnica Salesiana


9
Nombre de la Institución Educativa

par(mfrow = c(1,1))

#se encuentran muy dispersos los puntos en el grafico por lo tanto es d ificil
#confirmar de que la varianza se comporta como una constante, #se recomendaria
realizar una prueba de homocedasticidad

#h ¿Que proporcion de la variabilidad total se explica por el modelo de regresion?


summary(modelo2)
##
## Call:
## lm(formula = Precio_miles ~ Tax_miles, data = tabla2) ##
## Residuals:

Universidad Politécnica Salesiana


10
Nombre de la Institución Educativa

## Min 1Q Median 3Q Max


## -3.8343 -2.3157 -0.3669 1.9787 6.3168
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 13.3202 2.5717 5.179 3.42e-05 *** ## Tax_miles
3.3244 0.3903 8.518 2.05e-08 *** ## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 2.961 on 22 degrees of freedom
## Multiple R-squared: 0.7673, Adjusted R-squared: 0.7568
## F-statistic: 72.56 on 1 and 22 DF, p-value: 2.051e-08
#los resultados nos indican que el modelo de regresion lineal explica #el 76.73% de
la variabilidad

3. Se cree que la cantidad de libras de vapor utilizadas por mes por una planta química está relacionada con la temperatura
ambiente promedio (en grados Farenheit) para ese mes. El uso y la temperatura del año pasado se muestran en el archivo
reg3.csv.
a. Suponiendo que un modelo de regresión lineal simple es apropiado, ajustar el modelo de regresión que relaciona
el uso de vapor (y) con la temperatura media (x).
b. ¿Cuál es la estimación del uso de vapor esperado cuando la temperatura promedio es de 55 ◦F?
c. ¿Qué cambio en el uso medio de vapor se espera cuando la temperatura promedio mensual cambia en 1 ◦F?
d. Suponga que la temperatura promedio mensual es 47 ◦F. Calcule el valor ajustado de y y el residuo
correspondiente.
e. Calcule el ˆy ajustado para cada valor de xi usado para ajustar el modelo. Luego construya una gráfica de ˆy versus
el correspondiente valor observado.

Universidad Politécnica Salesiana


11
Nombre de la Institución Educativa

f. Encuentre los residuos para el modelo de mínimos cuadrados.


g. Elabore una gráfica de probabilidad normal de los residuales e interprete esta presentación.
h. Grafique los residuos contra ˆy y contra x. ¿Parece que se cumple el supuesto de varianza constante?
i. ¿Qué proporción de la variabilidad total se explica por el modelo de regresión?
#3. Se cree que la cantidad de libras de vapor utilizadas por mes por u na planta
quımica esta
#relacionada con la temperatura ambiente promedio (en grados Farenheit) para ese
mes.
#El uso y la temperatura del ano pasado se muestran en el archivo reg3. csv.
tabla3 <- read.csv(’reg3.csv’, sep = ’;’, dec = ’,’)

#a. Suponiendo que un modelo de regresion lineal simple es apropiado, a justar el


modelo
#de regresion que relaciona el uso de vapor (y) con la temperatura medi a (x).
modelo3 <- lm(Libras_Miles~Temp,data = tabla3) modelo3
##
## Call:
## lm(formula = Libras_Miles ~ Temp, data = tabla3)
##
## Coefficients:
## (Intercept) Temp
## -6.336 9.208
#b. Cual es la estimacion del uso de vapor esperado cuando la temperatu ra
#promedio es de 55 ◦F? predict(modelo3,
data.frame(Temp = 55))
## 1 ## 500.1244
#c. Que cambio en el uso medio de vapor se espera cuando la temperatura promedio
#mensual cambia en 1 ◦F? modelo3$coefficients[’Temp’]

Universidad Politécnica Salesiana


12
Nombre de la Institución Educativa

## Temp
## 9.208362
#d. Suponga que la temperatura promedio mensual es 47 ◦F. Calcule el va lor
ajustado
#de y y el residuo correspondiente. index <-
which(tabla3$Temp == 47) y <-
tabla3$Libras_Miles[index]
y_hat <- predict(modelo3,data.frame(Temp = 47))
cat(’ Valor Verdadero : ’,y,’\n’, ’Valor
Ajustado : ’,y_hat,’\n’,
’Residuo : ’,y-y_hat)
## Valor Verdadero : 424.84
## Valor Ajustado : 426.4575
## Residuo : -1.617514
#e. Calcule el y ajustado para cada valor de xi usado para ajustar el m odelo.
Luego
#construya una grafica de y versus el correspondiente valor observado y i
y_hat3 <- predict(modelo3,data.frame(Temp = tabla3$Temp))
plot(tabla3$Libras_Miles,y_hat3)

#f. Encuentre los residuos para el modelo de mınimos cuadrados.


res3 <- tabla3$Libras_Miles - y_hat3
#g. Elabore una grafica de probabilidad normal de los residuales e
inte rprete esta presentacion modelo3_std <- rstandard(modelo3)
qqnorm(modelo3_std,xlab = ’Residuos Estandarizados’,ylab =
’Distribucio n normal’) qqline(modelo3_std)

Universidad Politécnica Salesiana


13
Nombre de la Institución Educativa

#en la grafica gran parte de los residuos no se encuentran sobre la


lin ea
#diagonal lo que nos indica que no hay normalidad en los residiuos

#h. Grafique los residuos contra y y contra x. ¿Parece que se cumple


el supuesto de
#varianza constante? par(mfrow
= c(1,2))
plot(y_hat3,res3,xlab = ’Valores ajustados’,ylab = ’Residuos’)
plot(tabla3$Temp,res3,xlab = ’X’,ylab = ’Residuos’)

Universidad Politécnica Salesiana


14
Nombre de la Institución Educativa

par(mfrow = c(1,1))

#podemos observar que los puntos rondan un valor constante


#entonces se cumple el supuesto de varianza constante

#i. Que proporcion de la variabilidad total se explica por el modelo


de regresion? summary(modelo3)
##
## Call:
## lm(formula = Libras_Miles ~ Temp, data = tabla3)
##
## Residuals:

Universidad Politécnica Salesiana


15
Nombre de la Institución Educativa

## Min 1Q Median 3Q Max


## -2.5529 -1.2519 -0.2486 0.8023 4.0646
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6.33550 1.66765 -3.799 0.00349 **
## Temp 9.20836 0.03377 272.643 < 2e-16
*** ## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 1.943 on 10 degrees of freedom

## Multiple R-squared: 0.9999, Adjusted R-squared: 0.9999


## F-statistic: 7.433e+04 on 1 and 10 DF, p-value: < 2.2e-16
# El modelo explica el 99.99% de la variabilidad

4. A partir del archivo “todas2018.csvc¸onstruya el ranking de las 1000 mejores empresas de


acuerdo a las utilidades.

a. Realice un diagrama de dispersión del número de empleados contra la utilidad.


b. Determine la correlación entre el número de empleados y la utilidad
c. Establezca un modelo de regresión lineal simple donde la variable dependiente sea
la utilidad y la independiente sea el número de empleados. Interprete sus
resultados.
d. Incluya en su modelo de regresión las ventas. Interprete sus resultados
e. Adicione en su modelo de regresión del literal anterior el sector productivo al que
pertenece la empresa. Interprete sus resultados.

#4. A partir del archivo “todas2018.csv¸construya el ranking de


las 100
0 mejores empresas de

Universidad Politécnica Salesiana


16
Nombre de la Institución Educativa

#acuerdo a las utilidades.


tabla4 <- read.csv(’todas2018.csv’, encoding = ’utf8’)

#a. Realice un diagrama de dispersion del numero de empleados


contra la utilidad. plot(tabla4$EMPLEADOS,tabla4$UTILIDAD)

#b. Determine la correlacion entre el n·umero de empleados y la


utilida d
cor(tabla4$EMPLEADOS,tabla4$UTILIDAD)
## [1] 0.09228602
#c. Establezca un modelo de regresion lineal simple donde la variable
d ependiente sea
#la utilidad y la independiente sea el numero de empleados.

Universidad Politécnica Salesiana


17
Nombre de la Institución Educativa

Interprete sus resultados. modelo4 <- lm(UTILIDAD~EMPLEADOS,data =


tabla4) summary(modelo4)
##
## Call:
## lm(formula = UTILIDAD ~ EMPLEADOS, data = tabla4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -22104834 -98934 -98159 -85779 151796434
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 97721.01 11936.96 8.186 2.81e-16
*** ## EMPLEADOS 202.11 13.56 14.900 < 2e-
16 *** ## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 1917000 on 25845 degrees of freedom
## Multiple R-squared: 0.008517, Adjusted R-squared: 0.008478
## F-statistic: 222 on 1 and 25845 DF, p-value: < 2.2e-16
#la variable independiente es significativa
#tiene un p-valor menor al 5%, se puede decir que el modelo explica
el
0.851% de la variabilidad
#Por otro lado, si la empresa contata un empleado mas la utilidad
#aumentara en 202.01 unidades monetarias

#d. Incluya en su modelo de regresion las ventas. Interprete sus


result ados
modelo42 <- lm(UTILIDAD~EMPLEADOS+VENTAS,data = tabla4)
summary(modelo42)
##
## Call:
## lm(formula = UTILIDAD ~ EMPLEADOS + VENTAS, data = tabla4)

Universidad Politécnica Salesiana


18
Nombre de la Institución Educativa

##
## Residuals:
## Min 1Q Median 3Q Max
## -35750771 19072 41884 43811 100253222
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -4.384e+04 8.592e+03 -5.103 3.37e-07 ***
## EMPLEADOS 7.932e+00 9.788e+00 0.810 0.418
## VENTAS 5.337e-02 3.403e-04 156.834 < 2e-16 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 ##

## Residual standard error: 1372000 on 25844 degrees of freedom


## Multiple R-squared: 0.492, Adjusted R-squared: 0.492
## F-statistic: 1.252e+04 on 2 and 25844 DF, p-value: < 2.2e-16
#se puede observar que al ingresar la variable ventas, la variable
empl eados deja de ser significativa
#mientras que la variable ventas si es significativa.
#el estaditico F, nos indica que el modelo es significativo de manera
g lobal
# En cuanto al r-cuadrado nos dice que el modelo explica el 49.2% de
la variabilidad

#e. Adicione en su modelo de regresion del literal anterior el sector


p roductivo al que
#pertenece la empresa. Interprete sus resultados. modelo43 <-
lm(UTILIDAD~EMPLEADOS+VENTAS+factor(SECTOR_PROD),data = tab la4)
summary(modelo43)
##
## Call:
## lm(formula = UTILIDAD ~ EMPLEADOS + VENTAS + factor(SECTOR_PROD),
## data = tabla4)
##

Universidad Politécnica Salesiana


19
Nombre de la Institución Educativa

## Residuals:
## Min 1Q Median 3Q Max
## -35772702 -25582 44816 70056 100161495
##
## Coefficients:
## Estimate Std. Error t value
Pr(>|t |)
## (Intercept) -6.608e+04 2.236e+04 -2.956
0.003 12 **
## EMPLEADOS 7.631e+00 9.783e+00 0.780
0.435 38
## VENTAS 5.341e-02 3.404e-04 156.903 <
2e16 ***
## factor(SECTOR_PROD)COMERCIO -5.192e+03 2.535e+04 -0.205
0.837
72
## factor(SECTOR_PROD)CONSTRUCCI N 9.164e+04 3.103e+04 2.953
0.003
15 **
## factor(SECTOR_PROD)INMOBILIARIA 2.799e+05 6.534e+04 4.284
1.84e05 ***
## factor(SECTOR_PROD)MANUFACTURA 2.927e+04 3.047e+04 0.961
0.336
71
## ---

## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 1372000 on 25840 degrees of freedom
## Multiple R-squared: 0.4927, Adjusted R-squared: 0.4926
## F-statistic: 4182 on 6 and 25840 DF, p-value: < 2.2e-16
# el modeleo explica el 49.27% de la vairabilidad

5. Con el conjunto de datos tourism.csv realice los siguientes ejercicios. Para los ejercicios b, c y d

Universidad Politécnica Salesiana


20
Nombre de la Institución Educativa

investigue sobre la regresión lineal múltiple. Adicionalmente investigue sobre los supuestos de los
modelos de regresión y como verificarlos en R.

a. Le gustaría saber si la edad de los huéspedes influye en la cantidad gastada por día
(conjunto de datos turismo.xlsx). Ejecute una regresión lineal con la edad como
independiente y los gastos como variable dependiente. Verifique el cumplimiento de los
supuestos.
b. Suponga que usted no está realmente satisfecho con su resultado, pensando que una
variable independiente puede no ser suficiente para explicar el gasto diario. Al entrar en
detalles se piensa que además de la edad, la satisfacción con la estación de esquí y la
duración de la estancia también pueden influir en el gasto diario. Ejecute el nuevo
modelo de regresión y verifique los supuestos.
c. Al modelo del ejercicio anterior añada la variable acomodación. Ejecute el modelo de
regresión y verifique los supuestos.
d. Finalmente, añada la variable sexo. Ejecute el nuevo modelo de regresión y verifique
los supuestos.

#5. Con el conjunto de datos tourism.csv realice los siguientes


ejercic ios. Para los ejercicios
#b, c y d investigue sobre la regresion lineal multiple.
Adicionalmente investigue sobre los
#supuestos de los modelos de regresion y como verificarlos en R.
tabla5 <-read.csv(’tourism.csv’, sep = ’;’)

#a. Le gustarıa saber si la edad de los huespedes influye en la


cantida d gastada por
#dıa (conjunto de datos turismo.xlsx). Ejecute una regresion lineal
con la edad como
#independiente y los gastos como variable dependiente. Verifique el
cum plimiento de #los supuestos.
modelo5 <- lm(expenses~age,data = tabla5)

Universidad Politécnica Salesiana


21
Nombre de la Institución Educativa

#los Supuesot de independencia plot(modelo5$residuals)

#los residuos no presentan un patron definido por lo tanto


#podemos decir que se cumple el supuesto de independencia entre los
err ores

# Supuesto de Normalidad #
Test de normalidad
shapiro.test(modelo5$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo5$residuals
## W = 0.98416, p-value = 0.08281
# Con un nivel de significancia de 5%, podemos aceptar la hipotesis
nul a,

Universidad Politécnica Salesiana


22
Nombre de la Institución Educativa

#modelo cumple con el supuesto de normalidad

#Supuesto de Homocedasticidad #Test


de homocedaticidad bptest(modelo5)
##
## studentized Breusch-Pagan test ##
## BP = 0.25222, df = 1, p-value = 0.6155
#Test de multicolinealidad

#no es posible ya que el modelo es univariado

# Supuesto de no relacion entes las variables exlicativa y el error


plot(modelo5$residuals,tabla5$age)

#Suponga que usted no esta realmente satisfecho con su resultado,


pensa ndo que una
#variable independiente puede no ser suficiente para explicar el
gasto diario. Al entrar

Universidad Politécnica Salesiana


23
Nombre de la Institución Educativa

#en detalles se piensa que ademas de la edad, la satisfaccion con la


es tacion de esquı y
#la duracion de la estancia tambien pueden influir en el gasto
diario.
Ejecute el nuevo
#modelo de regresion y verifique los supuestos.

modelo55 <- lm(expenses~age+satisfaction+stay,data = tabla5)


modelo55
##
## Call:
## lm(formula = expenses ~ age + satisfaction + stay, data = tabla5)
##
## Coefficients:
## (Intercept) age satisfaction stay
## 212.4104 2.6442 0.5203 -0.7202
#Supuesto de independencia
plot(modelo55$residuals)

# Test de normalidad
shapiro.test (modelo55$resid
uals)
##
## Shapiro- Wilk normality
test
##
## data:

modelo55$residuals
## W = 0.98864, p-value = 0.2635
# Test de homocedaticidad bptest(modelo55)
##

Universidad Politécnica Salesiana


24
Nombre de la Institución Educativa

## studentized Breusch-Pagan test


##
## data: modelo55
## BP = 3.3022, df = 3, p-value = 0.3473
# Test de multicolinealidad vif(modelo55)
## age satisfaction stay
## 1.182487 1.181754 1.001753
# Supuesto de no relacion entes las variables exlicativa y el error
plot(modelo55$residuals,tabla5$age)

#c. Al modelo del ejercicio anterior anada la variable acomodacion.


Eje cute el modelo
#de regresion y verifique los supuestos. modelo56 <-
lm(expens es~age+satisfaction+
stay+acco mmodation,data =
tabl a5) modelo56
## ## Call:
## lm(formula =
expenses ~ age + satisfaction
+ stay + accommodation,
## data = tabla5)
##
## Coefficients:
## (Intercept)
age satisfaction
stay accommod ation
## 193.607 2.055 0.427 -1.115
1 8.531
#Test de independencia plot(modelo56$residuals)

Universidad Politécnica Salesiana


25
Nombre de la Institución Educativa

#Test de normalidad
shapiro.test(modelo56$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo56$residuals
## W = 0.98889, p-value = 0.28
#Test de homocedasticidad bptest(modelo56)
##
## studentized Breusch-Pagan test
##
## data: modelo56
## BP = 11.495, df = 4, p-value = 0.02153

Universidad Politécnica Salesiana


26
Nombre de la Institución Educativa

#Test de multicolinealidad vif(modelo56)


## age satisfaction stay accommodation
## 1.445447 1.193490 1.004480 1.319492

#Supuesto de no relacion entes las variables exlicativa y el error


plot(modelo56$residuals,tabla5$age)

#d. Finalmente anada la variable sexo. Ejecute el nuevo modelo de


regre sion y verifique #los supuestos.

modelo57 <-
lm(expenses~age +satisfa
ction+stay+acco mmodatio
n+sex,data = tabla5)
modelo57
## ## Call:
## lm(formula = expenses
~ age +
satisfaction + stay +
accommodation + ##
sex, data = tabla5)
##
## Coefficients:
## (Intercept) age satisfaction stay
accommod ation
## 200.1852 1.9898 0.3569 -1.2052
17 .6324
## sex

Universidad Politécnica Salesiana


27
Nombre de la Institución Educativa

## 9.8067
#Supuesto
de

independencia plot(modelo57$residuals)

#Test de normalidad
shapiro.test(modelo57$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo57$residuals
## W = 0.98943, p-value = 0.3195
# Test de homocedaticidad bptest(modelo57)
##
## studentized Breusch-Pagan test

Universidad Politécnica Salesiana


28
Nombre de la Institución Educativa

##
## data: modelo57
## BP = 11.568, df = 5, p-value = 0.04121
#supuestos de no relacion entes las variables exlicativa y el error
plot(modelo57$residuals,tabla5$age)

Universidad Politécnica Salesiana


29

También podría gustarte