Está en la página 1de 20

Datos del alumno Fecha

Nombres: Karla Daniela


Apellidos: López Betancourt
Tarea: 9
Carrera: Economía
Sede: Quito
Celular: 0994734846

#PAQUETES

# install.packages("dplyr")
# install.packages("ggplot2")
# install.pachages("readxl")
library(readxl)
library(dplyr)

##
## Attaching package: ’dplyr’

## The following objects are masked from ’package:stats’:


##
## filter, lag

## The following objects are masked from ’package:base’:


##
## intersect, setdiff, setequal, union

library(ggplot2)

## Warning: package ’ggplot2’ was built under R version 4.1.2

EJERCICIO 1

setwd("C:/Users/USER/Downloads")
reg1<-read.csv2("reg1.csv",sep=";",dec=",")
attach(reg1)

a)

reg1$EngineDispIn3<-round(16.3871*reg1$EngineDisp,0)

b)

1
reg1 %>%
ggplot(mapping=aes(x=MPG,y=EngineDispIn3))+
geom_point()+
xlab("Millas por galon")+
ylab("Desplazamientos")

80000

60000
Desplazamientos

40000

20000
20 25 30 35
Millas por galon
c)
El coeficiente de correlacion de -0.44 indica una relacion entre el desplazamiento y el rendimiento es negativo
y medio

cor(reg1$MPG,reg1$EngineDispIn3)

## [1] -0.4484687

d)

reg<-lm(MPG~EngineDispIn3,data=reg1)
summary(reg)

##
## Call:
## lm(formula = MPG ~ EngineDispIn3, data = reg1)
##
## Residuals:
## Min 1Q Median 3Q Max

2
## -7.703 -1.121 1.058 1.644 7.784
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.353e+01 2.614e+00 12.829 1.71e-10 ***
## EngineDispIn3 -1.318e-04 6.192e-05 -2.129 0.0473 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 3.66 on 18 degrees of freedom
## Multiple R-squared: 0.2011, Adjusted R-squared: 0.1567
## F-statistic: 4.532 on 1 and 18 DF, p-value: 0.04734

e)
El desplazamiento para un motor de 150 pulgadas por galon en promedio seria de 33.51 millas por galon

est<-reg$coefficients[1] + reg$coefficients[2]*150;est

## (Intercept)
## 33.51503

f)
El valor ajustado por el modelo de un desplazamiento del motor de 114 pulgadas cubicas es de 33.5197 millas
por galon

est1<-reg$coefficients[1] + reg$coefficients[2]*114;est1

## (Intercept)
## 33.51978

g)
Las millas por galon son explicadas en un 20.11% por el desplazamiento del motor

cor(reg1$MPG,reg1$EngineDispIn3)ˆ2

## [1] 0.2011241

PREGUNTA 2

setwd("C:/Users/USER/Downloads")
reg2<-read.csv2("reg2.csv",sep=";",dec=",")
attach(reg2)

a)

reg<-lm(reg2$Precio_miles~reg2$Tax_miles,data=reg2)
summary(reg)

3
##
## Call:
## lm(formula = reg2$Precio_miles ~ reg2$Tax_miles, data = reg2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.8343 -2.3157 -0.3669 1.9787 6.3168
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 13.3202 2.5717 5.179 3.42e-05 ***
## reg2$Tax_miles 3.3244 0.3903 8.518 2.05e-08 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 2.961 on 22 degrees of freedom
## Multiple R-squared: 0.7673, Adjusted R-squared: 0.7568
## F-statistic: 72.56 on 1 and 22 DF, p-value: 2.051e-08

b)
El precio de venta medio para unos impuestos pagados de 7.5, en promedio sera de $38.252

est2<-reg$coefficients[1] + reg$coefficients[2]*7.5;est2

## (Intercept)
## 38.25296

c)
El valor estimado es de 32.9273 y el residuo correspondiente es de -2.027321

reg2 <- reg2 %>%


mutate(yest = predict(reg),
u = Precio_miles - yest)

est2<-reg$coefficients[1] + reg$coefficients[2]*5.898;est2 #valor estimado

## (Intercept)
## 32.92732

reg2$u[reg2$Tax_miles==5.8980] #Residuo

## 7
## -2.027321

d)

reg2 %>%
mutate(yest = predict(reg)) %>%
ggplot(aes(x=Precio_miles,y=yest))+
geom_point()+
xlab("Valores observados")+
ylab("Valores esperados")

4
40
Valores esperados

35

30

25 30 35 40 45
Valores observados
e)

reg2 <- reg2 %>%


mutate(yest = predict(reg),
u = Precio_miles - yest)
reg2$u

## 1 2 3 4 5 6 7
## -3.7681073 -0.5111824 -0.5224654 -2.5703363 -0.2405004 3.6446922 -2.0273208
## 8 9 10 11 12 13 14
## -3.0496232 3.2047203 0.5596559 -3.1679762 -2.2307723 -0.1082540 -3.8342742
## 15 16 17 18 19 20 21
## 6.3168390 1.3025826 0.5328238 4.2688317 -0.4932520 1.9416433 4.3573381
## 22 23 24
## -2.2142499 -3.4805611 2.0897487

f)
Debido a que las observaciones aproximadamente siguen la tendencia de los valores de la distribucion normal,
se puede decir que los residuos siguen esta distribucion

qqplot(reg2$u,rnorm(length(reg2$u)))

5
1.0
rnorm(length(reg2$u))

0.5
−0.5
−1.5

−4 −2 0 2 4 6

reg2$u

g)
Grafica de Tax miles Vs residuos
En ambos casos, los residuos no tienen una tendencia a abrirse, o formar un cono, por lo tanto se puede
decir que hay homocedasticidad

reg2 %>%
ggplot(aes(x=Tax_miles,y=u))+
geom_point()+
xlab("Tax miles")+
ylab("Residuos")+
ggtitle("Scatter plot, Tax miles VS residuos")

6
Scatter plot, Tax miles VS residuos

5.0

2.5
Residuos

0.0

−2. 5

4 5 6 7 8 9
Tax miles
Grafica de y estimada Vs residuos

reg2 %>%
ggplot(aes(x=yest,y=u))+
geom_point()+
xlab("Precio de las millas estimado")+
ylab("Residuos")+
ggtitle("Scatter plot, Tax miles VS residuos")

7
Scatter plot, Tax miles VS residuos

5.0

2.5
Residuos

0.0

−2. 5

30 35 40
Precio de las millas estimado
h)
El 76.73% de la variabilidad total es explicado por la regresion.

summary(reg)

##
## Call:
## lm(formula = reg2$Precio_miles ~ reg2$Tax_miles, data = reg2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.8343 -2.3157 -0.3669 1.9787 6.3168
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 13.3202 2.5717 5.179 3.42e-05 ***
## reg2$Tax_miles 3.3244 0.3903 8.518 2.05e-08 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 2.961 on 22 degrees of freedom
## Multiple R-squared: 0.7673, Adjusted R-squared: 0.7568
## F-statistic: 72.56 on 1 and 22 DF, p-value: 2.051e-08

8
PREGUNTA 3

setwd("C:/Users/USER/Downloads")
reg3<-read.csv2("reg3.csv",sep=";",dec=",")
attach(reg3)

a)

reg<-lm(Libras_Miles~Temp,data=reg3)
summary(reg)

##
## Call:
## lm(formula = Libras_Miles ~ Temp, data = reg3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.5529 -1.2519 -0.2486 0.8023 4.0646
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6.33550 1.66765 -3.799 0.00349 **
## Temp 9.20836 0.03377 272.643 < 2e-16 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 1.943 on 10 degrees of freedom
## Multiple R-squared: 0.9999, Adjusted R-squared: 0.9999
## F-statistic: 7.433e+04 on 1 and 10 DF, p-value: < 2.2e-16

b) Con una temperatura de 55 grados en uso de vapor en promedio seria de 500.1244

est3<-reg$coefficients[1] + reg$coefficients[2]*55;est3

## (Intercept)
## 500.1244

c)
El cambio en el uso medio de vapor incrementa en 9.208 por cada grado centigrado adicional
d)
El uso medio sera en promedio de 426.45 y su residuo correspondiente es de -1.617514

reg3 <- reg3 %>%


mutate(yest = predict(reg),
u = Libras_Miles - yest)

est3<-reg$coefficients[1] + reg$coefficients[2]*47;est3 #valor estimado

## (Intercept)
## 426.4575

9
reg3$u[reg3$Temp==47] #Residuo

## 4
## -1.617514

e)

reg3 %>%
ggplot(aes(x=Libras_Miles,y=yest))+
geom_point()+
xlab("Cantidad de libras de vapor (Observado)")+
ylab("Cantidad de libras de vapor (Estimado)")

600
Cantidad de libras de vapor (Estimado)

500

400

300

200

200 300 400 500 600


Cantidad de libras de vapor (Observado)
f)

reg3$u

## 1 2 3 4 5 6
## -1.25010124 -0.19518737 -0.30208371 -1.61751435 0.49739952 2.07214113
## 7 8 9 10 11 12
## 1.71688274 -0.02328951 -2.55294500 -1.15260048 -1.25734210 4.06464037

g)

10
qqplot(reg3$u,rnorm(length(reg3$u)))

1.5
1.0
rnorm(length(reg3$u))

0.5
0.0
−1.0

−2 −1 0 1 2 3 4

reg3$u

h)
Grafica de Tax miles Vs residuos
En ambos casos, los residuos no tienen una tendencia a abrirse, o formar un cono, por lo tanto se puede
decir que hay homocedasticidad

reg3 %>%
ggplot(aes(x=Libras_Miles,y=u))+
geom_point()+
xlab("Libras de vapor")+
ylab("Residuos")+
ggtitle("Scatter plot, libras de vapor VS residuos")

11
Scatter plot, libras de vapor VS residuos

2
Residuos

−2

200 300 400 500 600


Libras de vapor
Grafica de y estimada Vs residuos

reg3 %>%
ggplot(aes(x=yest,y=u))+
geom_point()+
xlab("Precio de las millas estimado")+
ylab("Residuos")+
ggtitle("Scatter plot, libras de vapor estimados VS residuos")

12
Scatter plot, libras de vapor estimados VS residuos

2
Residuos

−2

200 300 400 500 600


Precio de las millas estimado
i)
El modelo explica el 99.98% de la variabilidad total

cor(Libras_Miles,Temp)ˆ2

## [1] 0.9998655

PREGUNTA 4

setwd("C:/Users/USER/Downloads")
todas<-read.csv2("todas2018.csv",sep=",",dec=".")
todas<- head(todas %>%
arrange(desc(UTILIDAD)),1000)

attach(todas)

a)

todas %>%
ggplot(aes(x=EMPLEADOS,y=UTILIDAD))+
geom_point()

13
1.5e+08

1.0e+08
UTILIDAD

5.0e+07

0.0e+00

0 2500 5000 7500 10000


EMPLEADOS
b)

cor(EMPLEADOS,UTILIDAD)

## [1] 0.5395202

c)
InterceptO(912074): Cuando el numero de empleados es cero, en promedio, la utilidad sera de 912074 dolares.
Empleados(7176.5): Por cada empleado adicional en una empresa, en promedio, la utilidad incrementaria
en 7176.5 dolares.

reg<-lm(UTILIDAD~EMPLEADOS,data=todas)
summary(reg)

##
## Call:
## lm(formula = UTILIDAD ~ EMPLEADOS, data = todas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -48076477 -1166408 -587148 -76687 106507978
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 912074.0 264486.2 3.448 0.000587 ***

14
## EMPLEADOS 7176.5 354.5 20.243 < 2e-16 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 7896000 on 998 degrees of freedom
## Multiple R-squared: 0.2911, Adjusted R-squared: 0.2904
## F-statistic: 409.8 on 1 and 998 DF, p-value: < 2.2e-16

d)
Intercepto(1.217e05):Cuando el numero de empleados y las ventas son cero, la utilidad sera de 1.217+e05
dolares
Empleados(6.739e02): Por cada empleado adicional en una empresa, en promedio, la utilidad incrementaria
en 6.739e02 dolares manteniendo constante la influencia de las ventas
Ventas(5.605e-2): Por cada empleado adicional en una empresa, en promedio, la utilidad incrementaria en
5.605e-2 dolares manteniendo constante la influencia del numero de empleadoos

reg<-lm(UTILIDAD~EMPLEADOS+VENTAS,data=todas)
summary(reg)

##
## Call:
## lm(formula = UTILIDAD ~ EMPLEADOS + VENTAS, data = todas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -38999896 -589637 -4156 355718 96631359
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.217e+05 2.188e+05 0.556 0.578
## EMPLEADOS 6.739e+02 4.101e+02 1.643 0.101
## VENTAS 5.605e-02 2.505e-03 22.376 <2e-16 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 6445000 on 997 degrees of freedom
## Multiple R-squared: 0.5281, Adjusted R-squared: 0.5271
## F-statistic: 557.8 on 2 and 997 DF, p-value: < 2.2e-16

e)
Intercepto(1.48e4): Si todas las varriables son cero y no pertenecen e los grupos productivos seleccionados,
la utilidad sera de 1.48e4 dolares
Empleados(5.695e2): Por cada empleado adicional en una empresa, en promedio, la utilidad incrementaria
en 5.695e2 dolares manteniendo constante la influencia de las otras variables Ventas(5.71e-2): Por cada
empleado adicional en una empresa, en promedio, la utilidad incrementaria en 5.71e-2 dolares manteniendo
constante la influencia del numero de las otras variables
SECTOR_PRODCOMERCIO (-6.149e+05): Una empresa que pertenezca al sector del comercio
tendra 6.14e5 dolares menos de utilidad que una empresa que no pertenece a este sector SEC-
TOR_PRODCONSTRUCCIÓN (2.89e6): Una empresa que pertenezca al sector de la construc-
cion tendra 2.89e6 dolares mas de utilidad que una empresa que no pertenece a este sector SEC-
TOR_PRODINMOBILIARIA (9.48e5): Una empresa que pertenezca al sector inmobiliario tendra 9.48e5
dolares mas de utilidad que una empresa que no pertenece a este sector SECTOR_PRODMANUFACTURA
(3.44e5): Una empresa que pertenezca al sector de manufactura tendra 3.44e5 dolares mas de utilidad que
una empresa que no pertenece a este sector

15
reg<-lm(UTILIDAD~EMPLEADOS+VENTAS+SECTOR_PROD,data=todas)
summary(reg)

##
## Call:
## lm(formula = UTILIDAD ~ EMPLEADOS + VENTAS + SECTOR_PROD, data = todas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -39474780 -801796 90955 722791 93595865
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.483e+04 5.474e+05 0.027 0.97840
## EMPLEADOS 5.695e+02 4.138e+02 1.376 0.16909
## VENTAS 5.710e-02 2.533e-03 22.539 < 2e-16 ***
## SECTOR_PRODCOMERCIO -6.149e+05 6.285e+05 -0.978 0.32809
## SECTOR_PRODCONSTRUCCIÓN 2.893e+06 9.596e+05 3.015 0.00263 **
## SECTOR_PRODINMOBILIARIA 9.481e+05 8.805e+05 1.077 0.28185
## SECTOR_PRODMANUFACTURA 3.442e+05 6.704e+05 0.513 0.60779
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 6395000 on 993 degrees of freedom
## Multiple R-squared: 0.5373, Adjusted R-squared: 0.5345
## F-statistic: 192.2 on 6 and 993 DF, p-value: < 2.2e-16

PREGUNTA 5

setwd("C:/Users/USER/Downloads")
turismo<-read.csv2("tourism.csv",sep=";",dec=",")
attach(turismo)

a)
Normalidad: Debido a que el p valor de 0.08, es superior a 0.05, se dice que los residuos siguen una distribu-
cioin normal
Homocedasticidad:Debido a que se observa un patron en forma de cono en el grafico de dispersion, se dice
que el modelo tiene heterocedasticidad

reg<-lm(expenses~age,data=turismo)
summary(reg)

##
## Call:
## lm(formula = expenses ~ age, data = turismo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -74.519 -23.465 -0.655 22.245 82.455
##

16
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 228.0092 10.3121 22.11 <2e-16 ***
## age 2.9188 0.2079 14.04 <2e-16 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 32.77 on 148 degrees of freedom
## Multiple R-squared: 0.5713, Adjusted R-squared: 0.5684
## F-statistic: 197.2 on 1 and 148 DF, p-value: < 2.2e-16

turismo <- turismo %>%


mutate(yest=predict(reg),
u=expenses-yest)
shapiro.test(turismo$u)

##
## Shapiro-Wilk normality test
##
## data: turismo$u
## W = 0.98416, p-value = 0.08281

turismo %>%
ggplot(aes(x=expenses,y=u))+
geom_point()

50
u

−5 0

300 400
expenses
b)

17
Normalidad: Dbido a que el p valor de la prueba de normalidad es superior al nivel de significancia de 0.05,
se dice que el modelo cumple con el supuesto de normalidad
Heterocedasticidad: Debido a que el p valor de la prueba de Breusch - Pagan de 0.888 que es superior al
nivel de significancia de 0.05, se dice que cumple con el supuesto de homocedasticidad

# install.packages("lmtest")
# install.packages("zoo")
library(zoo)

##
## Attaching package: ’zoo’

## The following objects are masked from ’package:base’:


##
## as.Date, as.Date.numeric

library(lmtest)
reg<-lm(expenses~age+satisfaction+stay,data=turismo)
summary(reg)

##
## Call:
## lm(formula = expenses ~ age + satisfaction + stay, data = turismo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -76.970 -23.195 -1.903 20.776 75.405
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 212.4104 14.4164 14.734 < 2e-16 ***
## age 2.6442 0.2200 12.016 < 2e-16 ***
## satisfaction 0.5203 0.1650 3.154 0.00196 **
## stay -0.7202 1.3319 -0.541 0.58955
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 31.9 on 146 degrees of freedom
## Multiple R-squared: 0.5991, Adjusted R-squared: 0.5909
## F-statistic: 72.73 on 3 and 146 DF, p-value: < 2.2e-16

turismo <- turismo %>%


mutate(yest=predict(reg),
u=expenses-yest)
shapiro.test(turismo$u)

##
## Shapiro-Wilk normality test
##
## data: turismo$u
## W = 0.98864, p-value = 0.2635

18
bgtest(reg)

##
## Breusch-Godfrey test for serial correlation of order up to 1
##
## data: reg
## LM test = 0.019834, df = 1, p-value = 0.888

c)
Normalidad: Debido a que el p valor de la prueba de Shapiro - Wilk para los residuos es de 0.28 es superior
al nivel de significancia de 0.05, se dice que el modelo cumple con el supuesto de normalidad
Heterocedasticidad: Debido a que el p valor de la prueba homogeneidad de varianzas de 0.9744 es superior
al valor de 0.05, se ddice que el modelo cumple con el supuesto de homocedasticidad

reg<-lm(expenses~age+satisfaction+stay+accommodation,data=turismo)
turismo <- turismo %>%
mutate(yest=predict(reg),
u=expenses-yest)
shapiro.test(turismo$u)

##
## Shapiro-Wilk normality test
##
## data: turismo$u
## W = 0.98889, p-value = 0.28

bgtest(reg)

##
## Breusch-Godfrey test for serial correlation of order up to 1
##
## data: reg
## LM test = 0.00103, df = 1, p-value = 0.9744

d)
Normalidad: Debido a que el p valor de la prueba de Shapiro - Wilk para los residuos es de 0.3195 es superior
al nivel de significancia de 0.05, se dice que el modelo cumple con el supuesto de normalidad
Heterocedasticidad: Debido a que el p valor de la prueba homogeneidad de varianzas de 0.9781 es superior
al valor de 0.05, se ddice que el modelo cumple con el supuesto de homocedasticidad

reg<-lm(expenses~age+satisfaction+stay+accommodation+sex,data=turismo)
turismo <- turismo %>%
mutate(yest=predict(reg),
u=expenses-yest)
shapiro.test(turismo$u)

##
## Shapiro-Wilk normality test
##
## data: turismo$u
## W = 0.98943, p-value = 0.3195

19
bgtest(reg)

##
## Breusch-Godfrey test for serial correlation of order up to 1
##
## data: reg
## LM test = 0.0007568, df = 1, p-value = 0.9781

20

También podría gustarte