Está en la página 1de 26

Datos del alumno Fecha

Nombres:
20-08-2023
Apellidos:

Desarrollo de la Actividad
1. Los datos que se muestran en el archivo reg1.csv son rendimiento de kilometraje de gasolina (en millas por galon) y
desplazamiento del motor (em centímetros cubicos) para una muestra de 20 automóviles.

a) Cree una variable EngineDispIn3 que contenga el desplazamiento del motor en pulgadas cubicas. Una pulgada cubica
es equivalente a 16.3871 centımetros cubicos. Redondee al entero mas cercano.

b) Construya el diagrama de dispersión para las dos variables mpg y EngineDispIn3

c) Calcule el coeficiente de correlación entre las dos variables mpg y EngineDispIn3


d) Ajuste un modelo lineal simple que relacione millas de carretera por galón (y) al desplazamiento del motor (x)
utilizando mínimos cuadrados.

e) Encuentre una estimación del rendimiento medio de kilometraje de gasolina en carretera para un automóvil con un
desplazamiento del motor de 150 pulgadas cúbicas.

f) Obtenga el valor ajustado de y y el residuo correspondiente para un automóvil, el Ford Escort, con un
desplazamiento del motor de 114 pulgadas cubicas.

g) ¿Como interpreta el coeficiente de determinació


n de este modelo?
2. En el archivo reg2.csv presenta datos sobre el precio de venta y los impuestos anuales para 24
casas.

b) Suponiendo que un modelo de regresión lineal simple es apropiado, obtener el ajuste de


mínimoscuadrados relacionando el precio de venta con impuestos pagados.

c) Encuentre el precio de venta medio dado que los impuestos pagados son x = 7,50.

d) Calcule el valor ajustado de y correspondiente a x = 5,8980. Encuentre el residuo


correspondiente.
e) Calcule el ŷ ajustado para cada valor de xi usado para ajustar el modelo.
Luego construya una gráfica de ˆy versus el correspondiente valor observado yi .

f) Encuentre los residuos para el modelo para el modelo de mínimos cuadrados

f ) Elabore una gr´afica de probabilidad normal de los residuales e interprete esta pre- sentaci´on.
g) Grafique los residuos y y contra x parece que se cumple el supuesto contra varianzaconstante?
h) ¿Qu´e proporci´on de la variabilidad total se explica por el modelo de regresi´on?

3. Se cree que la cantidad de libras de vapor utilizadas por mes por una planta qu´ımica est´a
relacionada con la temperatura ambiente promedio (en grados Farenheit) para ese mes. El
uso y la temperatura del año pasado se muestran en el archivo reg3.csv.
a. Suponiendo que un modelo de regresi´on lineal simple es apropiado, ajustar el modelo de
regresi´on que relaciona el uso de vapor (y) con la temperatura media (x).
b. ¿Cu´al es la estimaci´on del uso de vapor esperado cuando la temperatura promedio es de
55 ◦F?

c. ¿Qu´e cambio en el uso medio de vapor se espera cuando la temperatura promedio


mensual cambia en 1◦F?

d. ) Suponga que la temperatura promedio mensual es 47 ◦F. Calcule el valor ajustado de y


y el residuo correspondiente.
e. Calcule él ˆy ajustado para cada valor de xi usado para ajustar el modelo. Luego
construya una gráfica de ŷ versus el correspondiente valor observado yi.

f ) Encuentre los residuos para el modelo de mínimos cuadrados.

g) Elabore una gráfica de probabilidad normal de los residuales e interprete esta pre-
sentaci´on.
h) Grafique los residuos contra ˆy y contra x. ¿Parece que se cumple el supuesto de
varianza constante?
|

i) ¿Qu´e proporci´on de la variabilidad total se explica por el modelo de regresi´on?

4. A partir del archivo “todas2018.csvçonstruya el ranking de las 1000 mejores empresas de


acuerdo a las utilidades.

a. Realice un diagrama de dispersión del número de empleados contra la utilidad.

b. Determine la correlación entre el número de empleados y la utilidad

3
|

c. Establezca un modelo de regresi´on lineal simple donde la variable dependiente sea la


utilidad y la independiente sea el número de empleados. Interprete sus resultados.

d. Incluya en su modelo de regresión las ventas. Interprete sus resultados

4
|

e. Adicione en su modelo de regresión del literal anterior el sector productivo al que


pertenece la empresa. Interprete sus resultados.

5
|

5. Con el conjunto de datos tourism.csv realice los siguientes ejercicios. Para los ejercicios b,
c y d investigue sobre la regresi´on lineal múltiple. Adicionalmente investigue sobre los
supuestos de los modelos de regresi´on y como verificarlos en R.

a) Le gustaría saber si la edad de los huéspedes influye en la cantidad gastada por día (conjunto
de datos turismo.xlsx). Ejecute una regresi´on lineal con la edad como independiente y los
gastos como variable dependiente. Verifique el cumplimiento de los supuestos.

6
|

b) Al modelo del ejercicio anterior añada la variable acomodación. Ejecute el modelo de


regresi´on y verifique los supuestos.

7
|

c) Finalmente añada la variable sexo. Ejecute el nuevo modelo de regresión y verifique los
supuestos.

8
|

9
|

d) Finalmente añada la variable sexo. Ejecute el nuevo modelo de regresión y verifique los supuestos.

10
|

11
|

Código usado para la ejecución

# EJER 1

reg1<-read.csv(file = "reg1.csv",sep = ";",dec = ",")

#### 1A ####

reg1$EngineDispIn3<-round(reg1$EngineDisp/16.3871)

#### 1B ####

library(tidyverse)
ggplot(data = reg1, aes(EngineDispIn3,MPG)) +

geom_point() +

geom_smooth(method = lm, se = FALSE )

#### 1C ####

cor(reg1$MPG,reg1$EngineDispIn3)

#### 1D ####

library(dplyr)
x <- lm(MPG ~ EngineDispIn3, data = reg1) %>% summary()

12
|

#### 1E ####

b0 <- x$coefficients[1,1]

b1 <- x$coefficients[2,1]

y_hat <- b0+b1*(150)

y_hat

#### 1F ####

actual_FrdEsc<-reg1$MPG[which(reg1$EngineDispIn3==114)]

adjst_FrdEsc<-b0+b1*(114)

cat("residuo = ","real - ajustado = ",

actual_FrdEsc," - ",

adjst_FrdEsc," = ",actual_FrdEsc-adjst_FrdEsc)

#### 1G ####

x $r.squared

cat("El desplazamiento del motor explica un 20% de la \n",

"varianza de las millas por galon")

# EJER 2

r2<-read.csv(file = "reg2.csv",sep = ";",dec = ",")

#### 2A ####

x <- lm(Precio_miles~Tax_miles, data = r2) %>% summary()

b0 <- x$coefficients[1,1]

b1 <- x$coefficients[2,1]

#### 2B ####

y_hat <- b0+b1*(7.5)

y_hat

#### 2C ####
adj5.89 <- b0+b1*(5.8980)

actual5.89 <- r2$Precio_miles[which(r2$Tax_miles==5.8980)]

res5.89 <- adj5.89 - actual5.89

13
|

#### 2D ####

y_hat<-b0+b1*r2$Tax_miles

y<-r2$Precio_miles

ggplot(data = r2,aes(x = Tax_miles,y = Precio_miles)) +

geom_point(colour="blue") +

geom_smooth(method = lm, se = F,colour="purple")+

geom_point(data = r2,aes(x = Tax_miles,y = y_hat),

colour="green",size=2)

#### 2E ####

r<-y_hat-y

#### 2F ####

qqnorm(r,main="Test de normalidad",pch=20,col="purple")#19

qqline(r,col="green")

cat("los cuantiles más altos no obedecen a una distribucion",

"normaal - los residuos no son normales")

#### 2G ####

ggplot(data = r2,aes(x = Tax_miles,y = r)) +


geom_point(colour="red")

"sÃ-"

#### 2H ####

x$r.squared

# EJER 3

#### 3A ####

r3<-read.csv(file = "reg3.csv",sep = ";",dec = ",")

x <- lm(Libras_Miles~Temp, data = r3) %>% summary()

b0 <- x$coefficients[1,1]

b1 <- x$coefficients[2,1]

#### 3B ####

14
|

b0+b1*55

#### 3C ####

b1

#### 3D ####

y47_hat<-b0+b1*47

y47_hat

y47<-r3$Libras_Miles[which(r3$Temp==47)]

y47

r<-y47-y47_hat

#### 3E ####

y_hat <- b0+b1*r3$Temp

ggplot(data = r3,aes(x = Temp,y = Libras_Miles)) +

geom_point(colour="blue",size=2) +

geom_smooth(method = lm, se = F,

colour="purple",lwd=0.5,lty=10)+

geom_point(data = r3,aes(x = Temp,y = y_hat),

colour="green",size=1)

#### 3F ####

r<-r3$Libras_Miles-y_hat

#### 3G ####

qqnorm(r,main="Test de normalidad",pch=20,col="purple")#19

qqline(r,col="green")

cat("los residuos pueden considerarse normales")

#### 3H ####

ggplot(data = r3,aes(x = Temp,y = r)) +

geom_point(colour="red")

"sÃ-"
#### 3I ####

15
|

x$r.squared

# EJER 4

#### 4A ####

df<-read.csv(file = "todas2018.csv",sep = ",")

df<-tail(df[order(-df$UTILIDAD),],1000)

df$UTILIDAD<-df$UTILIDAD*-1

ggplot(data = df, aes(x = EMPLEADOS, y = UTILIDAD)) +

geom_point() +

geom_smooth(method = lm, se = FALSE )

#### 4B ####

cor(df$EMPLEADOS,df$UTILIDAD)

#### 4C ####

x <- lm(UTILIDAD ~ EMPLEADOS, data = df) %>% summary()

b0 <- x$coefficients[1,1]

b1 <- x$coefficients[2,1]

x$r.squared

"en numero de empleados no tiene un fuerte impacto en

las utilidades"

"Las utilidades no se explican bien solo por los empleados"

#### 4D ####

x <- lm(UTILIDAD ~ EMPLEADOS+VENTAS, data = df) %>% summary()

b0 <- x$coefficients[1,1]

b1 <- x$coefficients[2,1]

b2 <- x$coefficients[3,1]

x$r.squared

"VENTAS NO EXPLICA MUCHO más que antes"

#### 4E ####

16
|

df$SECTOR<-as.factor(df$SECTOR)

x <- lm(UTILIDAD ~ EMPLEADOS+VENTAS+SECTOR,

data = df) %>% summary()

b0 <- x$coefficients[1,1]

b1 <- x$coefficients[2,1]

b2 <- x$coefficients[3,1]

b3 <- x$coefficients[4,1]

x$r.squared

"UTILIDADES NO SON EXPLICADAS POR LAS VARIABLES ANTERIORES

DE MANERA CORRECTA O COMPLETA"

# EJER 5
#### 5A ####

df<-read.csv(file = "tourism.csv",sep = ";")

x <- lm(expenses ~ age,

data = df) %>% summary()

b0 <- x$coefficients[1,1]

b1 <- x$coefficients[2,1]

ggplot(data = df, aes(x = age, y = expenses)) +

geom_point() +

geom_smooth(method = lm, se = FALSE )

y_hat<-b0+b1*df$age

y<-df$expenses

ggplot(data = df, aes(x = age, y = y-y_hat)) +

geom_point() +

geom_smooth(method = lm, se = FALSE )

x$r.squared

#### 5B ####
17
|

x <- lm(expenses ~ age+satisfaction+stay,

data = df) %>% summary()

b0 <- x$coefficients[1,1]

b1 <- x$coefficients[2,1]

b2 <- x$coefficients[3,1]

b3 <- x$coefficients[4,1]

x$r.squared

"el p_valor del coeficiente de la duracion de estadia

sugiere que esta caracteristica no es relevante"

#### 5C ####

df$accommodation<-as.factor(df$accommodation)

x <- lm(expenses ~ age+satisfaction+stay+accommodation,

data = df) %>% summary()

x
b0 <- x$coefficients[1,1]

b1 <- x$coefficients[2,1]

b2 <- x$coefficients[3,1]

b3 <- x$coefficients[4,1]

b4 <- x$coefficients[5,1]

x$r.squared

"stay sigue sin ser relevante, se la retira del modelo"

x <- lm(expenses ~ age+satisfaction+accommodation,

data = df) %>% summary()


x

b0 <- x$coefficients[1,1]

b1 <- x$coefficients[2,1]

b2 <- x$coefficients[3,1]

b3 <- x$coefficients[4,1]

18
x$r.squared

"todos las variables pueden clasificarse como relevantes"

#### 5D ####

df$sex<-as.factor(df$sex)

x <- lm(expenses ~ age+satisfaction+stay+accommodation+sex,

data = df) %>% summary()

b0 <- x$coefficients[1,1]

b1 <- x$coefficients[2,1]

b2 <- x$coefficients[3,1]

b3 <- x$coefficients[4,1]

b4 <- x$coefficients[5,1]

b5 <- x$coefficients[6,1]

x$r.squared

"stay no es releavnte, se retira"


x <- lm(expenses ~ age+satisfaction+accommodation+sex,

data = df) %>% summary()

b0 <- x$coefficients[1,1]

b1 <- x$coefficients[2,1]

b2 <- x$coefficients[3,1]

b3 <- x$coefficients[4,1]

b4 <- x$coefficients[5,1]

x$r.square

19

También podría gustarte