Está en la página 1de 24

Datos del alumno Fecha

Nombres: DANIELA MONTSERRAT 31/01/2022


Apellidos: CHAMORRO JIMENÉZ

TAREA 9
#PAQUETES

# install.packages("dplyr")
# install.packages("ggplot2")
# install.pachages("readxl")
library(readxl) library(dplyr)

##
## Attaching package: ’dplyr’

## The following objects are masked from ’package:stats’:


##
## filter, lag

## The following objects are masked from ’package:base’:


##
## intersect, setdiff, setequal, union

library(ggplot2) ##

Warning: package ’ggplot2’ was built under R version 4.1.2

EJERCICIO 1

Los datos que se muestran en el archivo reg1.csv son rendimiento de kilometraje de gasolina (en millas por galón) y
desplazamiento del motor (en centímetros cúbicos) para una muestra de 20 automóviles.
a) Cree una variable EngineDispIn3 que contenga el desplazamiento del motor en pulgadas cúbicas. Una pulgada cubica
es equivalente a 16.3871 centímetros cúbicos. Redondee al entero más cercano.
b) Construya el diagrama de dispersión para las dos variables mpg y EngineDispIn3
c) Calcule el coeficiente de correlación entre las dos variables mpg y EngineDispIn3
d) Ajuste un modelo lineal simple que relacione millas de carretera por galón (y) al desplazamiento del motor (x)
utilizando mínimos cuadrados.
e) Encuentre una estimación del rendimiento medio de kilometraje de gasolina en carretera para un automóvil con un
desplazamiento del motor de 150 pulgadas cúbicas.
f) Obtenga el valor ajustado de y el residuo correspondiente para un automóvil, el Ford Escort, con un desplazamiento del
motor de 114 pulgadas cúbicas.
g) ¿cómo interpreta el coeficiente de determinación de este modelo?

setwd("C:/Users/USER/Downloads")
reg1<-read.csv2("reg1.csv",sep=";",dec=",")
attach(reg1)
1
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

a)

reg1$EngineDispIn3<-round(16.3871*reg1$EngineDisp,0)

b)
reg1 >
ggplot(mapping=aes(x=MPG,y=EngineDispIn3))+
geom_point()+
xlab("Millas por galon")+
ylab("Desplazamientos")

2
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

80000
Desplazamientos

60000

40000

20000
20 25 30 35
Millas por galon
c)
El coeficiente de correlación de -0.44 indica una relación entre el desplazamiento y el rendimiento es negativo y medio

cor(reg1$MPG,reg1$EngineDispIn3)

## [1] -0.4484687

d)

reg<-lm(MPG~EngineDispIn3,data=reg1)
summary(reg)

##
## Call:
## lm(formula = MPG ~ EngineDispIn3, data = reg1) ##
## Residuals:
## Min 1Q Median 3Q Max

3
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

## -7.703 -1.121 1.058 1.644 7.784


##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.353e+01 2.614e+00 12.829 1.71e-10 ***
## EngineDispIn3 -1.318e-04 6.192e-05 -2.129 0.0473 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1
’ ’1
##
## Residual standard error: 3.66 on 18 degrees of freedom
## Multiple R-squared: 0.2011, Adjusted R-squared: 0.1567
## F-statistic: 4.532 on 1 and 18 DF, p-value: 0.04734

e) El desplazamiento para un motor de 150 pulgadas por galon en promedio seria de 33.51 millas por galón

est<-reg$coefficients[1]+reg$coefficients[2]*150;est

## (Intercept) ##
33.51503

f) El valor ajustado por el modelo de un desplazamiento del motor de 114 pulgadas cubicas es de 33.5197 millas por galón

est1<-reg$coefficients[1]+reg$coefficients[2]*114;est1

## (Intercept) ##
33.51978

g) Las millas por galón son explicadas en un 20.11% por el desplazamiento del motor

cor(reg1$MPG,reg1$EngineDispIn3)ˆ2

## [1] 0.2011241

PREGUNTA 2
En el archivo reg2.csv presenta datos sobre el precio de venta y los impuestos anuales para 24 casas.
a) Suponiendo que un modelo de regresión lineal simple es apropiado, obtener el ajuste de mínimos cuadrados
relacionando el precio de venta con impuestos pagados.
b) Encuentre el precio de venta medio dado que los impuestos pagados son x = 7, 50.
c) Calcule el valor ajustado de y correspondiente a x = 5,8980. Encuentre el residuo correspondiente.
d) Calcule el ˆy ajustado para cada valor de xi usado para ajustar el modelo. Luego construya una gráfica de ˆy versus el
correspondiente valor observado yi.
e) Encuentre los residuos para el modelo de mínimos cuadrados.
f) Elabore una gráfica de probabilidad normal de los residuales e interprete esta presentación.
g) Grafique los residuos contra ˆy y contra x. ¿Parece que se cumple el supuesto de varianza constante?
h) ¿Qué proporción de la variabilidad total se explica por el modelo de regresión?

4
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

setwd("C:/Users/USER/Downloads")
reg2<-read.csv2("reg2.csv",sep=";",dec=",")
attach(reg2)

a)

reg<-lm(reg2$Precio_miles~reg2$Tax_miles,data=reg2) summary(reg)

##
## Call:
## lm(formula = reg2$Precio_miles ~ reg2$Tax_miles, data = reg2) ##
## Residuals:
## Min 1Q Median 3Q Max
## -3.8343 -2.3157 -0.3669 1.9787 6.3168
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 13.3202 2.5717 5.179 3.42e-05 ***
## reg2$Tax_miles 3.3244 0.3903 8.518 2.05e-08 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1
’ ’1
##
## Residual standard error: 2.961 on 22 degrees of freedom
## Multiple R-squared: 0.7673, Adjusted R-squared: 0.7568
## F-statistic: 72.56 on 1 and 22 DF, p-value: 2.051e-08

b) El precio de venta medio para unos impuestos pagados de 7.5, en promedio será de $38.252

est2<-reg$coefficients[1]+reg$coefficients[2]*7.5;est2

## (Intercept) ##
38.25296

5
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

c) El valor estimado es de 32.9273 y el residuo correspondiente es de -2.027321

reg2<-reg2 >
mutate(yest =predict(reg),
u =Precio_miles-yest)

est2<-reg$coefficients[1]+reg$coefficients[2]*5.898;est2 #valor estimado

## (Intercept) ##
32.92732

reg2$u[reg2$Tax_miles==5.8980] #Residuo

## 7
## -2.027321

d)

reg2 >
mutate(yest =predict(reg)) >
ggplot(aes(x=Precio_miles,y=yest))+
geom_point()+
xlab("Valores observados")+
ylab("Valores esperados")

6
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

40
Valores esperados

35

30

25 30 35 40 45
Valores observados
e)

reg2<-reg2 >
mutate(yest =predict(reg),
u =Precio_miles-yest)
reg2$u

## 1 2 3 4 5 6 7
## -3.7681073 -0.5111824 -0.5224654 -2.5703363 -0.2405004 3.6446922 -2.0273208
## 8 9 10 11 12 13 14
## -3.0496232 3.2047203 0.5596559 -3.1679762 -2.2307723 -0.1082540 -3.8342742
## 15 16 17 18 19 20 21
## 6.3168390 1.3025826 0.5328238 4.2688317 -0.4932520 1.9416433 4.3573381
## 22 23 24
## -2.2142499 -3.4805611 2.0897487

7
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

f) Debido a que las observaciones aproximadamente siguen la tendencia de los valores de la distribución normal, se
puede decir que los residuos siguen esta distribución

qqplot(reg2$u,rnorm(length(reg2$u)))

g) Grafica de Tax miles Vs residuos


En ambos casos, los residuos no tienen una tendencia a abrirse, o formar un cono, por lo tanto, se puede decir que hay
homocedasticidad

reg2 > ggplot(aes(x=Tax_miles,y=u))+


geom_point()+
xlab("Tax miles")+
ylab("Residuos")+
ggtitle("Scatter plot, Tax miles VS residuos")

8
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

Grafica de y estimada Vs residuos

reg2 >
ggplot(aes(x=yest,y=u))+
geom_point()+
xlab("Precio de las millas estimado")+
ylab("Residuos")+
ggtitle("Scatter plot, Tax miles VS residuos")

9
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

h) El 76.73% de la variabilidad total es explicado por la regresión.

summary(reg)

##
## Call:
## lm(formula = reg2$Precio_miles ~ reg2$Tax_miles, data = reg2) ##

## Residuals:
## Min 1Q Median 3Q Max
## -3.8343 -2.3157 -0.3669 1.9787 6.3168
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 13.3202 2.5717 5.179 3.42e-05 ***
## reg2$Tax_miles 3.3244 0.3903 8.518 2.05e-08 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1
’ ’1
##
## Residual standard error: 2.961 on 22 degrees of freedom
## Multiple R-squared: 0.7673, Adjusted R-squared: 0.7568
## F-statistic: 72.56 on 1 and 22 DF, p-value: 2.051e-08

10
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

PREGUNTA 3
Se cree que la cantidad de libras de vapor utilizadas por mes por una planta química está relacionada con la temperatura
ambiente promedio (en grados Farenheit) para ese mes. El uso y la temperatura del año pasado se muestran en el archivo
reg3.csv.
a) Suponiendo que un modelo de regresión lineal simple es apropiado, ajustar el modelo de regresión que relaciona el uso
de vapor (y) con la temperatura media (x).
b) ¿Cuál es la estimación del uso de vapor esperado cuando la temperatura promedio es de 55 ◦F?
c) ¿Qué cambio en el uso medio de vapor se espera cuando la temperatura promedio mensual cambia en 1 ◦F? d) Suponga
que la temperatura promedio mensual es 47 ◦F. Calcule el valor ajustado de y el residuo correspondiente.
e) Calcule el ˆy ajustado para cada valor de xi usado para ajustar el modelo. Luego construya una gráfica de ˆy versus el
correspondiente valor observado yi.
f) Encuentre los residuos para el modelo de mínimos cuadrados.
g) Elabore una gráfica de probabilidad normal de los residuales e interprete esta presentación.
h) Grafique los residuos contra ˆy y contra x. ¿Parece que se cumple el supuesto de varianza constante?
i) ¿Qué proporción de la variabilidad total se explica por el modelo de regresión?

setwd("C:/Users/USER/Downloads")
reg3<-read.csv2("reg3.csv",sep=";",dec=",")
attach(reg3)

a)

reg<-lm(Libras_Miles~Temp,data=reg3)
summary(reg)

##
## Call:
## lm(formula = Libras_Miles ~ Temp, data = reg3) ##
## Residuals:
## Min 1Q Median 3Q Max
## -2.5529 -1.2519 -0.2486 0.8023 4.0646
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6.33550 1.66765 -3.799 0.00349 **
## Temp 9.20836 0.03377 272.643 < 2e-16 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1
’ ’1
##
## Residual standard error: 1.943 on 10 degrees of freedom
## Multiple R-squared: 0.9999, Adjusted R-squared: 0.9999
## F-statistic: 7.433e+04 on 1 and 10 DF, p-value: < 2.2e-16

b) Con una temperatura de 55 grados en uso de vapor en promedio seria de 500.1244

est3<-reg$coefficients[1]+reg$coefficients[2]*55;est3

## (Intercept) ##
500.1244
11
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

c) El cambio en el uso medio de vapor incrementa en 9.208 por cada grado centígrado adicional

d) El uso medio será en promedio de 426.45 y su residuo correspondiente es de -1.617514

reg3<-reg3 >
mutate(yest =predict(reg),
u =Libras_Miles-yest)

est3<-reg$coefficients[1]+reg$coefficients[2]*47;est3 #valor estimado

## (Intercept) ##
426.4575

reg3$u[reg3$Temp==47] #Residuo

## 4
## -1.617514

12
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

e)

reg3 > ggplot(aes(x=Libras_Miles,y=yest))+


geom_point()+
xlab("Cantidad de libras de vapor (Observado)")+
ylab("Cantidad de libras de vapor (Estimado)")
Cantidad de libras de vapor (Estimado)

600

500

400

300

200

200 300 400 500 600


Cantidad de libras de vapor (Observado)
f)

reg3$u

## 1 2 3 4 5 6
## -1.25010124 -0.19518737 -0.30208371 -1.61751435 0.49739952 2.07214113
## 7 8 9 10 11 12
## 1.71688274 -0.02328951 -2.55294500 -1.15260048 -1.25734210 4.06464037

13
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

g)
qqplot(reg3$u,rnorm(length(reg3$u)))
1.5
1.0
0.5
rnorm(length(reg3$u))

0.0
−1.0

−2 −1 0 1 2 3 4

reg3$u

h)
Grafica de Tax miles Vs residuos
En ambos casos, los residuos no tienen una tendencia a abrirse, o formar un cono, por lo tanto se puede decir que hay
homocedasticidad

reg3 >
ggplot(aes(x=Libras_Miles,y=u))+
geom_point()+
xlab("Libras de vapor")+
ylab("Residuos")+
ggtitle("Scatter plot, libras de vapor VS residuos")

14
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

Scatter plot, libras de vapor VS residuos

2
Residuos

−2

200 300 400 500 600


Libras de vapor
Grafica de y estimada Vs residuos

reg3 >
ggplot(aes(x=yest,y=u))+
geom_point()+
xlab("Precio de las millas estimado")+
ylab("Residuos")+
ggtitle("Scatter plot, libras de vapor estimados VS residuos")

15
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

Scatter plot, libras de vapor estimados VS residuos

2
Residuos

−2

200 300 400 500 600


Precio de las millas estimado
i) El modelo explica el 99.98% de la variabilidad total

cor(Libras_Miles,Temp)ˆ2

## [1] 0.9998655

PREGUNTA 4
A partir del archivo “todas2018.csv¸construya el ranking de las 1000 mejores empresas de acuerdo a las utilidades.
a) Realice un diagrama de dispersión del número de empleados contra la utilidad.
b) Determine la correlación entre el número de empleados y la utilidad
c) Establezca un modelo de regresión lineal simple donde la variable dependiente sea la utilidad y la independiente sea el
número de empleados. Interprete sus resultados.
d) Incluya en su modelo de regresión las ventas. Interprete sus resultados
e) Adicione en su modelo de regresión del literal anterior el sector productivo al que pertenece la empresa. Interprete sus
resultados.

setwd("C:/Users/USER/Downloads")
todas<-read.csv2("todas2018.csv",sep=",",dec=".")
todas<-head(todas >
arrange(desc(UTILIDAD)),1000)

attach(todas)

16
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

a)

todas >
ggplot(aes(x=EMPLEADOS,y=UTILIDAD))+
geom_point()

b)

cor(EMPLEADOS,UTILIDAD)

## [1] 0.5395202

17
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

c) Intercepto (912074): Cuando el número de empleados es cero, en promedio, la utilidad será de 912074 dólares. Empleados
(7176.5): Por cada empleado adicional en una empresa, en promedio, la utilidad incrementaría en 7176.5 dólares.

reg<-lm(UTILIDAD~EMPLEADOS,data=todas)
summary(reg)

##
## Call:
## lm(formula = UTILIDAD ~ EMPLEADOS, data = todas) ##
## Residuals:
## Min 1Q Median 3Q Max ## -48076477 -
1166408 -587148 -76687 106507978 ##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 912074.0 264486.2 3.448 0.000587 ***

## EMPLEADOS 7176.5 354.5 20.243 < 2e-16 *** ## ---


## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 ##
## Residual standard error: 7896000 on 998 degrees of freedom ## Multiple
R-squared: 0.2911, Adjusted R-squared: 0.2904 ## F-
statistic: 409.8 on 1 and 998 DF, p-value: < 2.2e-16

d) Intercepto(1.217e05): Cuando el número de empleados y las ventas son cero, la utilidad será de 1.217+e05 dólares
Empleados(6.739e02): Por cada empleado adicional en una empresa, en promedio, la utilidad incrementaría en 6.739e02 dólares
manteniendo constante la influencia de las ventas
Ventas(5.605e-2): Por cada empleado adicional en una empresa, en promedio, la utilidad incrementaría en 5.605e-2 dólares
manteniendo constante la influencia del número de empleados

reg<-lm(UTILIDAD~EMPLEADOS+VENTAS,data=todas)
summary(reg)

##
## Call:
## lm(formula = UTILIDAD ~ EMPLEADOS + VENTAS, data = todas) ##
## Residuals:
## Min 1Q Median 3Q Max ## -38999896
-589637 -4156 355718 96631359 ##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|) ##
(Intercept) 1.217e+05 2.188e+05 0.556 0.578
## EMPLEADOS 6.739e+02 4.101e+02 1.643 0.101
## VENTAS 5.605e-02 2.505e-03 22.376 <2e-16 *** ## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 ##
## Residual standard error: 6445000 on 997 degrees of freedom ## Multiple
R-squared: 0.5281, Adjusted R-squared: 0.5271
## F-statistic: 557.8 on 2 and 997 DF, p-value: < 2.2e-16

18
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

e) Intercepto(1.48e4): Si todas las variables son cero y no pertenecen e los grupos productivos seleccionados, la utilidad será de
1.48e4 dólares
Empleados(5.695e2): Por cada empleado adicional en una empresa, en promedio, la utilidad incrementaría en 5.695e2 dólares
manteniendo constante la influencia de las otras variables Ventas(5.71e-2): Por cada empleado adicional en una empresa, en
promedio, la utilidad incrementaría en 5.71e-2 dólares manteniendo constante la influencia del número de las otras variables
SECTOR_PRODCOMERCIO (-6.149e+05): Una empresa que pertenezca al sector del comercio tendrá 6.14e5 dólares menos
de utilidad que una empresa que no pertenece a este sector SEC- TOR_PRODCONSTRUCCIÓN (2.89e6): Una empresa que
pertenezca al sector de la construcción tendrá 2.89e6 dólares más de utilidad que una empresa que no pertenece a este sector
SEC- TOR_PRODINMOBILIARIA (9.48e5): Una empresa que pertenezca al sector inmobiliario tendrá 9.48e5 dólares más de
utilidad que una empresa que no pertenece a este sector SECTOR_PRODMANUFACTURA (3.44e5): Una empresa que pertenezca
al sector de manufactura tendrá 3.44e5 dólares más de utilidad que una empresa que no pertenece a este sector

reg<-lm(UTILIDAD~EMPLEADOS+VENTAS+SECTOR_PROD,data=todas)
summary(reg)

##
## Call:
## lm(formula = UTILIDAD ~ EMPLEADOS + VENTAS + SECTOR_PROD, data = todas) ##

## Residuals:
## Min 1Q Median 3Q Max
## -39474780 -801796 90955 722791 93595865
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.483e+04 5.474e+05 0.027 0.97840
## EMPLEADOS 5.695e+02 4.138e+02 ***
1.376 0.16909
## VENTAS 5.710e-02 2.533e-03 22.539 < 2e-16
## SECTOR_PRODCOMERCIO -6.149e+05 6.285e+05 **
-0.978 0.32809
## SECTOR_PRODCONSTRUCCIÓN 2.893e+06 9.596e+05 3.015 0.00263
## SECTOR_PRODINMOBILIARIA 9.481e+05 8.805e+05 1.077 0.28185
## SECTOR_PRODMANUFACTURA 3.442e+05 6.704e+05 0.513 0.60779
## Signif. codes:
## --- 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 ##
## Residual standard error: 6395000 on 993 degrees of freedom ## Multiple
R-squared: 0.5373, Adjusted R-squared: 0.5345 ## F-
statistic: 192.2 on 6 and 993 DF, p-value: < 2.2e-16

PREGUNTA 5
Con el conjunto de datos tourism.csv realice los siguientes ejercicios. Para los ejercicios b, c y d investigue sobre la
regresión lineal múltiple. Adicionalmente investigue sobre los supuestos de los modelos de regresión y como verificarlos
en R.
a) Le gustaría saber si la edad de los huéspedes influye en la cantidad gastada por día (conjunto de datos
turismo.xlsx). Ejecute una regresión lineal con la edad como independiente y los gastos como variable
dependiente. Verifique el cumplimiento de los supuestos.
b) Suponga que usted no está realmente satisfecho con su resultado, pensando que una variable independiente puede
no ser suficiente para explicar el gasto diario. Al entrar en detalles se piensa que además de la edad, la satisfacción
con la estación de esquí y la duración de la estancia también pueden influir en el gasto diario. Ejecute el nuevo
modelo de regresión y verifique los supuestos.
c) Al modelo del ejercicio anterior añada la variable acomodación. Ejecute el modelo de regresión y verifique los
supuestos.
d) Finalmente añada la variable sexo. Ejecute el nuevo modelo de regresión y verifique los supuestos

19
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

setwd("C:/Users/USER/Downloads")
turismo<-read.csv2("tourism.csv",sep=";",dec=",") attach(turismo)

a)
Normalidad: Debido a que el p valor de 0.08, es superior a 0.05, se dice que los residuos siguen una distribu- cioin normal
Homocedasticidad:Debido a que se observa un patron en forma de cono en el grafico de dispersion, se dice que el modelo tiene
heterocedasticidad

reg<-lm(expenses~age,data=turismo) summary(reg)

##
## Call:
## lm(formula = expenses ~ age, data = turismo) ##
## Residuals:
## Min 1Q Median 3Q Max ## -74.519 -
23.465 -0.655 22.245 82.455 ##

## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 228.0092 10.3121 22.11 <2e-16 ***
## age 2.9188 0.2079 14.04 <2e-16 *** ## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 ##
## Residual standard error: 32.77 on 148 degrees of freedom ## Multiple
R-squared: 0.5713, Adjusted R-squared: 0.5684 ## F-statistic: 197.2 on 1
and 148 DF, p-value: < 2.2e-16

turismo<-turismo >
mutate(yest=predict(reg),
u=expenses-yest)
shapiro.test(turismo$u)

##
## Shapiro-Wilk normality test ##
## data: turismo$u
## W = 0.98416, p-value = 0.08281

turismo >
ggplot(aes(x=expenses,y=u))+
geom_point()

20
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

50
u

−50

300 400
expenses
b) Normalidad: Debido a que el p valor de la prueba de normalidad es superior al nivel de significancia de 0.05,
se dice que el modelo cumple con el supuesto de normalidad
Heterocedasticidad: Debido a que el p valor de la prueba de Breusch - Pagan de 0.888 que es superior al nivel de
significancia de 0.05, se dice que cumple con el supuesto de homocedasticidad

# install.packages("lmtest") #
install.packages("zoo")
library(zoo)

##
## Attaching package: ’zoo’

## The following objects are masked from ’package:base’: ##


## as.Date, as.Date.numeric

library(lmtest)
reg<-lm(expenses~age+satisfaction+stay,data=turismo) summary(reg)

21
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

##
## Call:
## lm(formula = expenses ~ age + satisfaction + stay, data = turismo) ##
## Residuals:
## Min 1Q Median 3Q Max ## -76.970 -
23.195 -1.903 20.776 75.405 ##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 212.4104 14.4164 14.734 < 2e-16 ***
## age 2.6442 0.2200 12.016 < 2e-16 ***
## satisfaction 0.5203 0.1650 3.154 0.00196 **
## stay -0.7202 1.3319 -0.541 0.58955 ## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 ##
## Residual standard error: 31.9 on 146 degrees of freedom ## Multiple R-
squared: 0.5991, Adjusted R-squared: 0.5909 ## F-
statistic: 72.73 on 3 and 146 DF, p-value: < 2.2e-16

turismo<-turismo >
mutate(yest=predict(reg),
u=expenses-yest)
shapiro.test(turismo$u)

##
## Shapiro-Wilk normality test ##
## data: turismo$u
## W = 0.98864, p-value = 0.2635

bgtest(reg)

##
## Breusch-Godfrey test for serial correlation of order up to 1 ##
## data: reg
## LM test = 0.019834, df = 1, p-value = 0.888

22
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

c) Normalidad: Debido a que el p valor de la prueba de Shapiro - Wilk para los residuos es de 0.28 es superior al nivel de
significancia de 0.05, se dice que el modelo cumple con el supuesto de normalidad Heterocedasticidad: Debido a que el p
valor de la prueba homogeneidad de varianzas de 0.9744 es superior al valor de 0.05, se dice que el modelo cumple con el
supuesto de homocedasticidad

reg<-lm(expenses~age+satisfaction+stay+accommodation,data=turismo)
turismo<-turismo >
mutate(yest=predict(reg),
u=expenses-yest)
shapiro.test(turismo$u)

##
## Shapiro-Wilk normality test ##
## data: turismo$u
## W = 0.98889, p-value = 0.28

bgtest(reg)

##
## Breusch-Godfrey test for serial correlation of order up to 1 ##
## data: reg
## LM test = 0.00103, df = 1, p-value = 0.9744

d) Normalidad: Debido a que el p valor de la prueba de Shapiro - Wilk para los residuos es de 0.3195 es superior al nivel de
significancia de 0.05, se dice que el modelo cumple con el supuesto de normalidad Heterocedasticidad: Debido a que el p
valor de la prueba homogeneidad de varianzas de 0.9781 es superior al valor de 0.05, se dice que el modelo cumple con el
supuesto de homocedasticidad

reg<-lm(expenses~age+satisfaction+stay+accommodation+sex,data=turismo)
turismo<-turismo >
mutate(yest=predict(reg),
u=expenses-yest)
shapiro.test(turismo$u)

##
## Shapiro-Wilk normality test ##
## data: turismo$u
## W = 0.98943, p-value = 0.3195

bgtest(reg)

##
## Breusch-Godfrey test for serial correlation of order up to 1 ##
## data: reg
## LM test = 0.0007568, df = 1, p-value = 0.9781

23
Datos del alumno Fecha
Nombres: DANIELA MONTSERRAT 31/01/2022
Apellidos: CHAMORRO JIMENÉZ

24

También podría gustarte