Análisis de regresión de datos de rendimiento de vehículos y precios

Datos del alumno Fecha
Nombres: Karla Daniela

Apellidos: López Betancourt
Tarea: 9
Carrera: Economía
Sede: Quito
Celular: 0994734846
#PAQUETES
# install.packages("dplyr")
# install.packages("ggplot2")
# install.pachages("readxl")
library(readxl)
library(dplyr)
##
## Attaching package: ’dplyr’
## The following objects are masked from ’package:stats’:

##
## filter, lag
## The following objects are masked from ’package:base’:

##
## intersect, setdiff, setequal, union
library(ggplot2)
## Warning: package ’ggplot2’ was built under R version 4.1.2
EJERCICIO 1
setwd("C:/Users/USER/Downloads")
reg1<-read.csv2("reg1.csv",sep=";",dec=",")
attach(reg1)
a)
reg1$EngineDispIn3<-round(16.3871*reg1$EngineDisp,0)
b)
1
reg1 %>%
ggplot(mapping=aes(x=MPG,y=EngineDispIn3))+
geom_point()+
xlab("Millas por galon")+
ylab("Desplazamientos")
80000
60000
Desplazamientos
40000
20000
20 25 30 35
Millas por galon
c)
El coeficiente de correlacion de -0.44 indica una relacion entre el desplazamiento y el rendimiento es negativo
y medio
cor(reg1$MPG,reg1$EngineDispIn3)
## [1] -0.4484687
d)
reg<-lm(MPG~EngineDispIn3,data=reg1)
summary(reg)
##
## Call:
## lm(formula = MPG ~ EngineDispIn3, data = reg1)
##
## Residuals:
## Min 1Q Median 3Q Max
2
## -7.703 -1.121 1.058 1.644 7.784
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.353e+01 2.614e+00 12.829 1.71e-10 ***
## EngineDispIn3 -1.318e-04 6.192e-05 -2.129 0.0473 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 3.66 on 18 degrees of freedom
## Multiple R-squared: 0.2011, Adjusted R-squared: 0.1567
## F-statistic: 4.532 on 1 and 18 DF, p-value: 0.04734
e)
El desplazamiento para un motor de 150 pulgadas por galon en promedio seria de 33.51 millas por galon
est<-reg$coefficients[1] + reg$coefficients[2]*150;est
## (Intercept)
## 33.51503
f)
El valor ajustado por el modelo de un desplazamiento del motor de 114 pulgadas cubicas es de 33.5197 millas
por galon
est1<-reg$coefficients[1] + reg$coefficients[2]*114;est1
## (Intercept)
## 33.51978
g)
Las millas por galon son explicadas en un 20.11% por el desplazamiento del motor
cor(reg1$MPG,reg1$EngineDispIn3)ˆ2
## [1] 0.2011241
PREGUNTA 2
attach(reg2)
a)
reg<-lm(reg2$Precio_miles~reg2$Tax_miles,data=reg2)
summary(reg)
3
##
## Call:
## lm(formula = reg2$Precio_miles ~ reg2$Tax_miles, data = reg2)
##
## Residuals:
## -3.8343 -2.3157 -0.3669 1.9787 6.3168
##
## Coefficients:
## (Intercept) 13.3202 2.5717 5.179 3.42e-05 ***
## reg2$Tax_miles 3.3244 0.3903 8.518 2.05e-08 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## F-statistic: 72.56 on 1 and 22 DF, p-value: 2.051e-08
b)
El precio de venta medio para unos impuestos pagados de 7.5, en promedio sera de $38.252
est2<-reg$coefficients[1] + reg$coefficients[2]*7.5;est2
## (Intercept)
## 38.25296
c)
El valor estimado es de 32.9273 y el residuo correspondiente es de -2.027321
reg2 <- reg2 %>%

mutate(yest = predict(reg),
u = Precio_miles - yest)
est2<-reg$coefficients[1] + reg$coefficients[2]*5.898;est2 #valor estimado
## (Intercept)
## 32.92732
reg2$u[reg2$Tax_miles==5.8980] #Residuo
## 7
## -2.027321
d)
reg2 %>%
mutate(yest = predict(reg)) %>%
ggplot(aes(x=Precio_miles,y=yest))+
geom_point()+
xlab("Valores observados")+
ylab("Valores esperados")
4
40
Valores esperados
35
30
25 30 35 40 45
Valores observados
e)
reg2 <- reg2 %>%

u = Precio_miles - yest)
reg2$u
## 1 2 3 4 5 6 7
## -3.7681073 -0.5111824 -0.5224654 -2.5703363 -0.2405004 3.6446922 -2.0273208
## 8 9 10 11 12 13 14
## -3.0496232 3.2047203 0.5596559 -3.1679762 -2.2307723 -0.1082540 -3.8342742
## 15 16 17 18 19 20 21
## 6.3168390 1.3025826 0.5328238 4.2688317 -0.4932520 1.9416433 4.3573381
## 22 23 24
## -2.2142499 -3.4805611 2.0897487
f)
Debido a que las observaciones aproximadamente siguen la tendencia de los valores de la distribucion normal,
se puede decir que los residuos siguen esta distribucion
qqplot(reg2$u,rnorm(length(reg2$u)))
5
1.0
rnorm(length(reg2$u))
0.5
−0.5
−1.5
−4 −2 0 2 4 6
reg2$u
g)
Grafica de Tax miles Vs residuos
En ambos casos, los residuos no tienen una tendencia a abrirse, o formar un cono, por lo tanto se puede
decir que hay homocedasticidad
reg2 %>%
ggplot(aes(x=Tax_miles,y=u))+
geom_point()+
xlab("Tax miles")+
ylab("Residuos")+
ggtitle("Scatter plot, Tax miles VS residuos")
6
Scatter plot, Tax miles VS residuos
5.0
2.5
Residuos
0.0
−2. 5
4 5 6 7 8 9
Tax miles
Grafica de y estimada Vs residuos
reg2 %>%
ggplot(aes(x=yest,y=u))+
geom_point()+
xlab("Precio de las millas estimado")+
ylab("Residuos")+
ggtitle("Scatter plot, Tax miles VS residuos")
7
Scatter plot, Tax miles VS residuos
5.0
2.5
Residuos
0.0
−2. 5
30 35 40
Precio de las millas estimado
h)
El 76.73% de la variabilidad total es explicado por la regresion.
summary(reg)
##
## Call:
## lm(formula = reg2$Precio_miles ~ reg2$Tax_miles, data = reg2)
##
## Residuals:
## -3.8343 -2.3157 -0.3669 1.9787 6.3168
##
## Coefficients:
## (Intercept) 13.3202 2.5717 5.179 3.42e-05 ***
## reg2$Tax_miles 3.3244 0.3903 8.518 2.05e-08 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## F-statistic: 72.56 on 1 and 22 DF, p-value: 2.051e-08
8
PREGUNTA 3
attach(reg3)
a)
reg<-lm(Libras_Miles~Temp,data=reg3)
summary(reg)
##
## Call:
## lm(formula = Libras_Miles ~ Temp, data = reg3)
##
## Residuals:
## -2.5529 -1.2519 -0.2486 0.8023 4.0646
##
## Coefficients:
## (Intercept) -6.33550 1.66765 -3.799 0.00349 **
## Temp 9.20836 0.03377 272.643 < 2e-16 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## F-statistic: 7.433e+04 on 1 and 10 DF, p-value: < 2.2e-16
b) Con una temperatura de 55 grados en uso de vapor en promedio seria de 500.1244
est3<-reg$coefficients[1] + reg$coefficients[2]*55;est3
## (Intercept)
## 500.1244
c)
El cambio en el uso medio de vapor incrementa en 9.208 por cada grado centigrado adicional
d)
El uso medio sera en promedio de 426.45 y su residuo correspondiente es de -1.617514
reg3 <- reg3 %>%

u = Libras_Miles - yest)
est3<-reg$coefficients[1] + reg$coefficients[2]*47;est3 #valor estimado
## (Intercept)
## 426.4575
9
reg3$u[reg3$Temp==47] #Residuo
## 4
## -1.617514
e)
reg3 %>%
ggplot(aes(x=Libras_Miles,y=yest))+
geom_point()+
xlab("Cantidad de libras de vapor (Observado)")+
ylab("Cantidad de libras de vapor (Estimado)")
600
Cantidad de libras de vapor (Estimado)
500
400
300
200
200 300 400 500 600

Cantidad de libras de vapor (Observado)
f)
reg3$u
## 1 2 3 4 5 6
## -1.25010124 -0.19518737 -0.30208371 -1.61751435 0.49739952 2.07214113
## 7 8 9 10 11 12
## 1.71688274 -0.02328951 -2.55294500 -1.15260048 -1.25734210 4.06464037
g)
10
qqplot(reg3$u,rnorm(length(reg3$u)))
1.5
1.0
rnorm(length(reg3$u))
0.5
0.0
−1.0
−2 −1 0 1 2 3 4
reg3$u
h)
Grafica de Tax miles Vs residuos
En ambos casos, los residuos no tienen una tendencia a abrirse, o formar un cono, por lo tanto se puede
decir que hay homocedasticidad
reg3 %>%
ggplot(aes(x=Libras_Miles,y=u))+
geom_point()+
xlab("Libras de vapor")+
ylab("Residuos")+
ggtitle("Scatter plot, libras de vapor VS residuos")
11
Scatter plot, libras de vapor VS residuos
2
Residuos
−2
200 300 400 500 600

Libras de vapor
Grafica de y estimada Vs residuos
reg3 %>%
ggplot(aes(x=yest,y=u))+
geom_point()+
xlab("Precio de las millas estimado")+
ylab("Residuos")+
ggtitle("Scatter plot, libras de vapor estimados VS residuos")
12
Scatter plot, libras de vapor estimados VS residuos
2
Residuos
−2
200 300 400 500 600

Precio de las millas estimado
i)
El modelo explica el 99.98% de la variabilidad total
cor(Libras_Miles,Temp)ˆ2
## [1] 0.9998655
PREGUNTA 4
todas<-read.csv2("todas2018.csv",sep=",",dec=".")
todas<- head(todas %>%
arrange(desc(UTILIDAD)),1000)
attach(todas)
a)
todas %>%
ggplot(aes(x=EMPLEADOS,y=UTILIDAD))+
geom_point()
13
1.5e+08
1.0e+08
UTILIDAD
5.0e+07
0.0e+00
0 2500 5000 7500 10000

EMPLEADOS
b)
cor(EMPLEADOS,UTILIDAD)
## [1] 0.5395202
c)
InterceptO(912074): Cuando el numero de empleados es cero, en promedio, la utilidad sera de 912074 dolares.
Empleados(7176.5): Por cada empleado adicional en una empresa, en promedio, la utilidad incrementaria
en 7176.5 dolares.
reg<-lm(UTILIDAD~EMPLEADOS,data=todas)
summary(reg)
##
## Call:
## lm(formula = UTILIDAD ~ EMPLEADOS, data = todas)
##
## Residuals:
## -48076477 -1166408 -587148 -76687 106507978
##
## Coefficients:
## (Intercept) 912074.0 264486.2 3.448 0.000587 ***
14
## EMPLEADOS 7176.5 354.5 20.243 < 2e-16 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 7896000 on 998 degrees of freedom
## F-statistic: 409.8 on 1 and 998 DF, p-value: < 2.2e-16
d)
Intercepto(1.217e05):Cuando el numero de empleados y las ventas son cero, la utilidad sera de 1.217+e05
dolares
Empleados(6.739e02): Por cada empleado adicional en una empresa, en promedio, la utilidad incrementaria
en 6.739e02 dolares manteniendo constante la influencia de las ventas
Ventas(5.605e-2): Por cada empleado adicional en una empresa, en promedio, la utilidad incrementaria en
5.605e-2 dolares manteniendo constante la influencia del numero de empleadoos
reg<-lm(UTILIDAD~EMPLEADOS+VENTAS,data=todas)
summary(reg)
##
## Call:
## lm(formula = UTILIDAD ~ EMPLEADOS + VENTAS, data = todas)
##
## Residuals:
## -38999896 -589637 -4156 355718 96631359
##
## Coefficients:
## (Intercept) 1.217e+05 2.188e+05 0.556 0.578
## EMPLEADOS 6.739e+02 4.101e+02 1.643 0.101
## VENTAS 5.605e-02 2.505e-03 22.376 <2e-16 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
e)
Intercepto(1.48e4): Si todas las varriables son cero y no pertenecen e los grupos productivos seleccionados,
la utilidad sera de 1.48e4 dolares
Empleados(5.695e2): Por cada empleado adicional en una empresa, en promedio, la utilidad incrementaria
en 5.695e2 dolares manteniendo constante la influencia de las otras variables Ventas(5.71e-2): Por cada
empleado adicional en una empresa, en promedio, la utilidad incrementaria en 5.71e-2 dolares manteniendo
constante la influencia del numero de las otras variables
SECTOR_PRODCOMERCIO (-6.149e+05): Una empresa que pertenezca al sector del comercio
tendra 6.14e5 dolares menos de utilidad que una empresa que no pertenece a este sector SEC-
TOR_PRODCONSTRUCCIÓN (2.89e6): Una empresa que pertenezca al sector de la construc-
cion tendra 2.89e6 dolares mas de utilidad que una empresa que no pertenece a este sector SEC-
TOR_PRODINMOBILIARIA (9.48e5): Una empresa que pertenezca al sector inmobiliario tendra 9.48e5
dolares mas de utilidad que una empresa que no pertenece a este sector SECTOR_PRODMANUFACTURA
(3.44e5): Una empresa que pertenezca al sector de manufactura tendra 3.44e5 dolares mas de utilidad que
una empresa que no pertenece a este sector
15
reg<-lm(UTILIDAD~EMPLEADOS+VENTAS+SECTOR_PROD,data=todas)
summary(reg)
##
## Call:
## lm(formula = UTILIDAD ~ EMPLEADOS + VENTAS + SECTOR_PROD, data = todas)
##
## Residuals:
## -39474780 -801796 90955 722791 93595865
##
## Coefficients:
## (Intercept) 1.483e+04 5.474e+05 0.027 0.97840
## EMPLEADOS 5.695e+02 4.138e+02 1.376 0.16909
## VENTAS 5.710e-02 2.533e-03 22.539 < 2e-16 ***
## SECTOR_PRODCOMERCIO -6.149e+05 6.285e+05 -0.978 0.32809
## SECTOR_PRODCONSTRUCCIÓN 2.893e+06 9.596e+05 3.015 0.00263 **
## SECTOR_PRODINMOBILIARIA 9.481e+05 8.805e+05 1.077 0.28185
## SECTOR_PRODMANUFACTURA 3.442e+05 6.704e+05 0.513 0.60779
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
PREGUNTA 5
turismo<-read.csv2("tourism.csv",sep=";",dec=",")
attach(turismo)
a)
Normalidad: Debido a que el p valor de 0.08, es superior a 0.05, se dice que los residuos siguen una distribu-
cioin normal
Homocedasticidad:Debido a que se observa un patron en forma de cono en el grafico de dispersion, se dice
que el modelo tiene heterocedasticidad
reg<-lm(expenses~age,data=turismo)
summary(reg)
##
## Call:
## lm(formula = expenses ~ age, data = turismo)
##
## Residuals:
## -74.519 -23.465 -0.655 22.245 82.455
##
16
## Coefficients:
## (Intercept) 228.0092 10.3121 22.11 <2e-16 ***
## age 2.9188 0.2079 14.04 <2e-16 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
turismo <- turismo %>%

mutate(yest=predict(reg),
u=expenses-yest)
shapiro.test(turismo$u)
##
## Shapiro-Wilk normality test
##
## data: turismo$u
## W = 0.98416, p-value = 0.08281
turismo %>%
ggplot(aes(x=expenses,y=u))+
geom_point()
50
u
−5 0
300 400
expenses
b)
17
Normalidad: Dbido a que el p valor de la prueba de normalidad es superior al nivel de significancia de 0.05,
se dice que el modelo cumple con el supuesto de normalidad
Heterocedasticidad: Debido a que el p valor de la prueba de Breusch - Pagan de 0.888 que es superior al
nivel de significancia de 0.05, se dice que cumple con el supuesto de homocedasticidad
# install.packages("lmtest")
# install.packages("zoo")
library(zoo)
##
## Attaching package: ’zoo’
## The following objects are masked from ’package:base’:

##
## as.Date, as.Date.numeric
library(lmtest)
reg<-lm(expenses~age+satisfaction+stay,data=turismo)
summary(reg)
##
## Call:
## lm(formula = expenses ~ age + satisfaction + stay, data = turismo)
##
## Residuals:
## -76.970 -23.195 -1.903 20.776 75.405
##
## Coefficients:
## (Intercept) 212.4104 14.4164 14.734 < 2e-16 ***
## age 2.6442 0.2200 12.016 < 2e-16 ***
## satisfaction 0.5203 0.1650 3.154 0.00196 **
## stay -0.7202 1.3319 -0.541 0.58955
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##

u=expenses-yest)
##
##
## data: turismo$u
## W = 0.98864, p-value = 0.2635
18
bgtest(reg)
##
## Breusch-Godfrey test for serial correlation of order up to 1
##
## data: reg
## LM test = 0.019834, df = 1, p-value = 0.888
c)
Normalidad: Debido a que el p valor de la prueba de Shapiro - Wilk para los residuos es de 0.28 es superior
al nivel de significancia de 0.05, se dice que el modelo cumple con el supuesto de normalidad
Heterocedasticidad: Debido a que el p valor de la prueba homogeneidad de varianzas de 0.9744 es superior
al valor de 0.05, se ddice que el modelo cumple con el supuesto de homocedasticidad
reg<-lm(expenses~age+satisfaction+stay+accommodation,data=turismo)
u=expenses-yest)
##
##
## data: turismo$u
## W = 0.98889, p-value = 0.28
bgtest(reg)
##
##
## data: reg
## LM test = 0.00103, df = 1, p-value = 0.9744
d)
Normalidad: Debido a que el p valor de la prueba de Shapiro - Wilk para los residuos es de 0.3195 es superior
al nivel de significancia de 0.05, se dice que el modelo cumple con el supuesto de normalidad
Heterocedasticidad: Debido a que el p valor de la prueba homogeneidad de varianzas de 0.9781 es superior
al valor de 0.05, se ddice que el modelo cumple con el supuesto de homocedasticidad
reg<-lm(expenses~age+satisfaction+stay+accommodation+sex,data=turismo)
u=expenses-yest)
##
##
## data: turismo$u
## W = 0.98943, p-value = 0.3195
19
bgtest(reg)
##
##
## data: reg
## LM test = 0.0007568, df = 1, p-value = 0.9781
20

Análisis de regresión de datos de rendimiento de vehículos y precios

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análisis de regresión de datos de rendimiento de vehículos y precios

Cargado por

Copyright:

Formatos disponibles

Datos del alumno Fecha

Nombres: Karla Daniela

## The following objects are masked from ’package:stats’:

## The following objects are masked from ’package:base’:

## Warning: package ’ggplot2’ was built under R version 4.1.2

reg2 <- reg2 %>%

est2<-reg$coefficients[1] + reg$coefficients[2]*5.898;est2 #valor estimado

reg2 <- reg2 %>%

b) Con una temperatura de 55 grados en uso de vapor en promedio seria de 500.1244

reg3 <- reg3 %>%

est3<-reg$coefficients[1] + reg$coefficients[2]*47;est3 #valor estimado

200 300 400 500 600

200 300 400 500 600

200 300 400 500 600

0 2500 5000 7500 10000

turismo <- turismo %>%

## The following objects are masked from ’package:base’:

turismo <- turismo %>%

También podría gustarte