Tarea-9 NN

Datos del alumno Fecha
Nombres:
20-08-2023
Apellidos:
Desarrollo de la Actividad
1. Los datos que se muestran en el archivo reg1.csv son rendimiento de kilometraje de gasolina (en millas por galon) y
desplazamiento del motor (em centímetros cubicos) para una muestra de 20 automóviles.
a) Cree una variable EngineDispIn3 que contenga el desplazamiento del motor en pulgadas cubicas. Una pulgada cubica
es equivalente a 16.3871 centımetros cubicos. Redondee al entero mas cercano.
b) Construya el diagrama de dispersión para las dos variables mpg y EngineDispIn3
c) Calcule el coeficiente de correlación entre las dos variables mpg y EngineDispIn3

d) Ajuste un modelo lineal simple que relacione millas de carretera por galón (y) al desplazamiento del motor (x)
utilizando mínimos cuadrados.
e) Encuentre una estimación del rendimiento medio de kilometraje de gasolina en carretera para un automóvil con un
desplazamiento del motor de 150 pulgadas cúbicas.
f) Obtenga el valor ajustado de y y el residuo correspondiente para un automóvil, el Ford Escort, con un
desplazamiento del motor de 114 pulgadas cubicas.
g) ¿Como interpreta el coeficiente de determinació

n de este modelo?
2. En el archivo reg2.csv presenta datos sobre el precio de venta y los impuestos anuales para 24
casas.
b) Suponiendo que un modelo de regresión lineal simple es apropiado, obtener el ajuste de

mínimoscuadrados relacionando el precio de venta con impuestos pagados.
c) Encuentre el precio de venta medio dado que los impuestos pagados son x = 7,50.
d) Calcule el valor ajustado de y correspondiente a x = 5,8980. Encuentre el residuo

correspondiente.
e) Calcule el ŷ ajustado para cada valor de xi usado para ajustar el modelo.
Luego construya una gráfica de ˆy versus el correspondiente valor observado yi .
f) Encuentre los residuos para el modelo para el modelo de mínimos cuadrados
f ) Elabore una gráfica de probabilidad normal de los residuales e interprete esta pre- sentación.
g) Grafique los residuos y y contra x parece que se cumple el supuesto contra varianzaconstante?
h) ¿Qué proporción de la variabilidad total se explica por el modelo de regresión?
3. Se cree que la cantidad de libras de vapor utilizadas por mes por una planta qu´ımica está
relacionada con la temperatura ambiente promedio (en grados Farenheit) para ese mes. El
uso y la temperatura del año pasado se muestran en el archivo reg3.csv.
a. Suponiendo que un modelo de regresión lineal simple es apropiado, ajustar el modelo de
regresión que relaciona el uso de vapor (y) con la temperatura media (x).
b. ¿Cuál es la estimación del uso de vapor esperado cuando la temperatura promedio es de
55 ◦F?
c. ¿Qué cambio en el uso medio de vapor se espera cuando la temperatura promedio

mensual cambia en 1◦F?
d. ) Suponga que la temperatura promedio mensual es 47 ◦F. Calcule el valor ajustado de y

y el residuo correspondiente.
e. Calcule él ˆy ajustado para cada valor de xi usado para ajustar el modelo. Luego
construya una gráfica de ŷ versus el correspondiente valor observado yi.
f ) Encuentre los residuos para el modelo de mínimos cuadrados.
g) Elabore una gráfica de probabilidad normal de los residuales e interprete esta pre-
sentación.
h) Grafique los residuos contra ˆy y contra x. ¿Parece que se cumple el supuesto de
varianza constante?
|
i) ¿Qué proporción de la variabilidad total se explica por el modelo de regresión?
4. A partir del archivo “todas2018.csvçonstruya el ranking de las 1000 mejores empresas de

acuerdo a las utilidades.
a. Realice un diagrama de dispersión del número de empleados contra la utilidad.
b. Determine la correlación entre el número de empleados y la utilidad
3
|
c. Establezca un modelo de regresión lineal simple donde la variable dependiente sea la

utilidad y la independiente sea el número de empleados. Interprete sus resultados.
d. Incluya en su modelo de regresión las ventas. Interprete sus resultados
4
|
e. Adicione en su modelo de regresión del literal anterior el sector productivo al que

pertenece la empresa. Interprete sus resultados.
5
|
5. Con el conjunto de datos tourism.csv realice los siguientes ejercicios. Para los ejercicios b,
c y d investigue sobre la regresión lineal múltiple. Adicionalmente investigue sobre los
supuestos de los modelos de regresión y como verificarlos en R.
a) Le gustaría saber si la edad de los huéspedes influye en la cantidad gastada por día (conjunto
de datos turismo.xlsx). Ejecute una regresión lineal con la edad como independiente y los
gastos como variable dependiente. Verifique el cumplimiento de los supuestos.
6
|
b) Al modelo del ejercicio anterior añada la variable acomodación. Ejecute el modelo de

regresión y verifique los supuestos.
7
|
c) Finalmente añada la variable sexo. Ejecute el nuevo modelo de regresión y verifique los
supuestos.
8
|
9
|
d) Finalmente añada la variable sexo. Ejecute el nuevo modelo de regresión y verifique los supuestos.
10
|
11
|
Código usado para la ejecución
# EJER 1
reg1<-read.csv(file = "reg1.csv",sep = ";",dec = ",")
#### 1A ####
reg1$EngineDispIn3<-round(reg1$EngineDisp/16.3871)
#### 1B ####
library(tidyverse)
ggplot(data = reg1, aes(EngineDispIn3,MPG)) +
geom_point() +
geom_smooth(method = lm, se = FALSE )
#### 1C ####
cor(reg1$MPG,reg1$EngineDispIn3)
#### 1D ####
library(dplyr)
x <- lm(MPG ~ EngineDispIn3, data = reg1) %>% summary()
12
|
#### 1E ####
b0 <- x$coefficients[1,1]
y_hat <- b0+b1*(150)
y_hat
#### 1F ####
actual_FrdEsc<-reg1$MPG[which(reg1$EngineDispIn3==114)]
adjst_FrdEsc<-b0+b1*(114)
cat("residuo = ","real - ajustado = ",
actual_FrdEsc," - ",
adjst_FrdEsc," = ",actual_FrdEsc-adjst_FrdEsc)
#### 1G ####
x $r.squared
cat("El desplazamiento del motor explica un 20% de la \n",
"varianza de las millas por galon")
# EJER 2
r2<-read.csv(file = "reg2.csv",sep = ";",dec = ",")
#### 2A ####
x <- lm(Precio_miles~Tax_miles, data = r2) %>% summary()
#### 2B ####
y_hat <- b0+b1*(7.5)
y_hat
#### 2C ####
adj5.89 <- b0+b1*(5.8980)
actual5.89 <- r2$Precio_miles[which(r2$Tax_miles==5.8980)]
res5.89 <- adj5.89 - actual5.89
13
|
#### 2D ####
y_hat<-b0+b1*r2$Tax_miles
y<-r2$Precio_miles
ggplot(data = r2,aes(x = Tax_miles,y = Precio_miles)) +
geom_point(colour="blue") +
geom_smooth(method = lm, se = F,colour="purple")+
geom_point(data = r2,aes(x = Tax_miles,y = y_hat),
colour="green",size=2)
#### 2E ####
r<-y_hat-y
#### 2F ####
qqnorm(r,main="Test de normalidad",pch=20,col="purple")#19
qqline(r,col="green")
cat("los cuantiles mÃ¡s altos no obedecen a una distribucion",
"normaal - los residuos no son normales")
#### 2G ####
ggplot(data = r2,aes(x = Tax_miles,y = r)) +

geom_point(colour="red")
"sÃ-"
#### 2H ####
x$r.squared
# EJER 3
#### 3A ####
r3<-read.csv(file = "reg3.csv",sep = ";",dec = ",")
x <- lm(Libras_Miles~Temp, data = r3) %>% summary()
#### 3B ####
14
|
b0+b1*55
#### 3C ####
b1
#### 3D ####
y47_hat<-b0+b1*47
y47_hat
y47<-r3$Libras_Miles[which(r3$Temp==47)]
y47
r<-y47-y47_hat
#### 3E ####
y_hat <- b0+b1*r3$Temp
ggplot(data = r3,aes(x = Temp,y = Libras_Miles)) +
geom_point(colour="blue",size=2) +
geom_smooth(method = lm, se = F,
colour="purple",lwd=0.5,lty=10)+
geom_point(data = r3,aes(x = Temp,y = y_hat),
colour="green",size=1)
#### 3F ####
r<-r3$Libras_Miles-y_hat
#### 3G ####
qqnorm(r,main="Test de normalidad",pch=20,col="purple")#19
qqline(r,col="green")
cat("los residuos pueden considerarse normales")
#### 3H ####
ggplot(data = r3,aes(x = Temp,y = r)) +
geom_point(colour="red")
"sÃ-"
#### 3I ####
15
|
x$r.squared
# EJER 4
#### 4A ####
df<-read.csv(file = "todas2018.csv",sep = ",")
df<-tail(df[order(-df$UTILIDAD),],1000)
df$UTILIDAD<-df$UTILIDAD*-1
ggplot(data = df, aes(x = EMPLEADOS, y = UTILIDAD)) +
geom_point() +
#### 4B ####
cor(df$EMPLEADOS,df$UTILIDAD)
#### 4C ####
x <- lm(UTILIDAD ~ EMPLEADOS, data = df) %>% summary()
x$r.squared
"en numero de empleados no tiene un fuerte impacto en
las utilidades"
"Las utilidades no se explican bien solo por los empleados"
#### 4D ####
x <- lm(UTILIDAD ~ EMPLEADOS+VENTAS, data = df) %>% summary()
x$r.squared
"VENTAS NO EXPLICA MUCHO mÃ¡s que antes"
#### 4E ####
16
|
df$SECTOR<-as.factor(df$SECTOR)
x <- lm(UTILIDAD ~ EMPLEADOS+VENTAS+SECTOR,
data = df) %>% summary()
x$r.squared
"UTILIDADES NO SON EXPLICADAS POR LAS VARIABLES ANTERIORES
DE MANERA CORRECTA O COMPLETA"
# EJER 5
#### 5A ####
df<-read.csv(file = "tourism.csv",sep = ";")
x <- lm(expenses ~ age,
ggplot(data = df, aes(x = age, y = expenses)) +
geom_point() +
y_hat<-b0+b1*df$age
y<-df$expenses
ggplot(data = df, aes(x = age, y = y-y_hat)) +
geom_point() +
x$r.squared
#### 5B ####
17
|
x <- lm(expenses ~ age+satisfaction+stay,
x$r.squared
"el p_valor del coeficiente de la duracion de estadia
sugiere que esta caracteristica no es relevante"
#### 5C ####
df$accommodation<-as.factor(df$accommodation)
x <- lm(expenses ~ age+satisfaction+stay+accommodation,
x
x$r.squared
"stay sigue sin ser relevante, se la retira del modelo"
x <- lm(expenses ~ age+satisfaction+accommodation,

x
18
x$r.squared
"todos las variables pueden clasificarse como relevantes"
#### 5D ####
df$sex<-as.factor(df$sex)
x <- lm(expenses ~ age+satisfaction+stay+accommodation+sex,
x$r.squared
"stay no es releavnte, se retira"

x <- lm(expenses ~ age+satisfaction+accommodation+sex,
x$r.square
19

Tarea-9 NN

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tarea-9 NN

Cargado por

Copyright:

Formatos disponibles

Datos del alumno Fecha

b) Construya el diagrama de dispersión para las dos variables mpg y EngineDispIn3

c) Calcule el coeficiente de correlación entre las dos variables mpg y EngineDispIn3

g) ¿Como interpreta el coeficiente de determinació

b) Suponiendo que un modelo de regresión lineal simple es apropiado, obtener el ajuste de

d) Calcule el valor ajustado de y correspondiente a x = 5,8980. Encuentre el residuo

f) Encuentre los residuos para el modelo para el modelo de mínimos cuadrados

c. ¿Qu´e cambio en el uso medio de vapor se espera cuando la temperatura promedio

d. ) Suponga que la temperatura promedio mensual es 47 ◦F. Calcule el valor ajustado de y

f ) Encuentre los residuos para el modelo de mínimos cuadrados.

i) ¿Qué proporción de la variabilidad total se explica por el modelo de regresión?

4. A partir del archivo “todas2018.csvçonstruya el ranking de las 1000 mejores empresas de

a. Realice un diagrama de dispersión del número de empleados contra la utilidad.

b. Determine la correlación entre el número de empleados y la utilidad

c. Establezca un modelo de regresi´on lineal simple donde la variable dependiente sea la

d. Incluya en su modelo de regresión las ventas. Interprete sus resultados

e. Adicione en su modelo de regresión del literal anterior el sector productivo al que

b) Al modelo del ejercicio anterior añada la variable acomodación. Ejecute el modelo de

Código usado para la ejecución

reg1<-read.csv(file = "reg1.csv",sep = ";",dec = ",")

geom_smooth(method = lm, se = FALSE )

y_hat <- b0+b1*(150)

cat("residuo = ","real - ajustado = ",

cat("El desplazamiento del motor explica un 20% de la \n",

"varianza de las millas por galon")

r2<-read.csv(file = "reg2.csv",sep = ";",dec = ",")

x <- lm(Precio_miles~Tax_miles, data = r2) %>% summary()

y_hat <- b0+b1*(7.5)

actual5.89 <- r2$Precio_miles[which(r2$Tax_miles==5.8980)]

res5.89 <- adj5.89 - actual5.89

ggplot(data = r2,aes(x = Tax_miles,y = Precio_miles)) +

geom_smooth(method = lm, se = F,colour="purple")+

geom_point(data = r2,aes(x = Tax_miles,y = y_hat),

cat("los cuantiles mÃ¡s altos no obedecen a una distribucion",

"normaal - los residuos no son normales")

ggplot(data = r2,aes(x = Tax_miles,y = r)) +

r3<-read.csv(file = "reg3.csv",sep = ";",dec = ",")

x <- lm(Libras_Miles~Temp, data = r3) %>% summary()

y_hat <- b0+b1*r3$Temp

ggplot(data = r3,aes(x = Temp,y = Libras_Miles)) +

geom_point(data = r3,aes(x = Temp,y = y_hat),

cat("los residuos pueden considerarse normales")

ggplot(data = r3,aes(x = Temp,y = r)) +

df<-read.csv(file = "todas2018.csv",sep = ",")

ggplot(data = df, aes(x = EMPLEADOS, y = UTILIDAD)) +

geom_smooth(method = lm, se = FALSE )

x <- lm(UTILIDAD ~ EMPLEADOS, data = df) %>% summary()

"en numero de empleados no tiene un fuerte impacto en

"Las utilidades no se explican bien solo por los empleados"

x <- lm(UTILIDAD ~ EMPLEADOS+VENTAS, data = df) %>% summary()

"VENTAS NO EXPLICA MUCHO mÃ¡s que antes"

x <- lm(UTILIDAD ~ EMPLEADOS+VENTAS+SECTOR,

data = df) %>% summary()

"UTILIDADES NO SON EXPLICADAS POR LAS VARIABLES ANTERIORES

DE MANERA CORRECTA O COMPLETA"

df<-read.csv(file = "tourism.csv",sep = ";")

x <- lm(expenses ~ age,

data = df) %>% summary()

ggplot(data = df, aes(x = age, y = expenses)) +

geom_smooth(method = lm, se = FALSE )

ggplot(data = df, aes(x = age, y = y-y_hat)) +

geom_smooth(method = lm, se = FALSE )