Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ASIGNATURA:
PAQUETES ESTADISTICOS
TEMA:
ANÁLISIS DESCRIPTIVO
AUTORES:
DOCENTE:
FECHA:
20/08/2021
QUEVEDO-LOS RIOS-ECUADOR
2020 – 2021
2da PARTE DE LA TAREA:
library(MASS)
library(ISLR)
data("Boston")
str(Boston)
“BOSTON”
a) Realice el análisis descriptivo concerniente a la regresión lineal,
esto es: calcular todas las correlaciones y hacer los diagramas de
dispersión de la variable “Y” comparado con cada una de las
variables “Xs”.
Forward: r-cuadrado
# Para poder obtener el valor del r-cuadrado ajustado usamos “$adjr2” en la función
“summary”
> summary(regresionForward)$adjr2
Forward: residual
Para poder obtener el valor del “suma de residuales cuadráticos” usamos “$rss”
> summary(regresionForward)$rss
Se comparan los valores $rss y se escoge el modelo de regresión que contiene a las 13
variables porque representa el valor MÁS BAJO de la suma de residuales cuadráticos
(11078.78).
Y=β0+11078.78*lstat+12141.07*rm+11081.36*ptratio+11678.30*dis+12469.34*nox+
13228.91* chas+11078.85*black +15439.31*zn +19472.38*crim +11583.59*rad
+11354.98* tax +13727.99* indus +11868.24* age
1 TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
2 TRUE FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE
3 TRUE FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE
4 TRUE FALSE FALSE FALSE FALSE FALSE TRUE FALSE TRUE FALSE FALSE
5 TRUE FALSE FALSE FALSE FALSE TRUE TRUE FALSE TRUE FALSE FALSE
6 TRUE FALSE FALSE FALSE FALSE TRUE TRUE FALSE TRUE FALSE FALSE
7 TRUE FALSE FALSE FALSE FALSE TRUE TRUE FALSE TRUE TRUE FALSE
8 TRUE TRUE FALSE FALSE FALSE TRUE TRUE FALSE TRUE TRUE FALSE
9 TRUE TRUE FALSE FALSE FALSE TRUE TRUE FALSE TRUE TRUE TRUE
10 TRUE TRUE TRUE FALSE FALSE TRUE TRUE FALSE TRUE TRUE TRUE
11 TRUE TRUE TRUE FALSE TRUE TRUE TRUE FALSE TRUE TRUE TRUE
12 TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE
13 TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
Backward: r - ajustado
> summary(regresionBackward)$adjr2
[1] 0.5432418 0.6371245 0.6767036 0.6878351 0.7051702
0.7119672 0.7147861 0.7195336
[9] 0.7243416 0.7299149 0.7348058 0.7343282 0.7337897
0.7348058 es el R CUADRADO AJUSTADO para el modelo de regresión con 11
variables independientes
0.7343282 es el R CUADRADO AJUSTADO para el modelo de regresión con 12
variables independientes
73. 48 %
=1 . 0006 este valor lo multiplico al 100% y da resultado: 0.06 %
73. 43 %
El valor obtenido con 12 variables es ligeramente mayor al del modelo con 11 variables.
Por lo tanto, al agregar la variable 12 no hubo una mejora significativa en el modelo de
regresión.
Y=β0+0.7337897*lstat+0.7119672*rm+0.7348058*ptratio+0.7195336*dis+0.7051702*
nox+ 0.7343282* black+0.7243416*rad +0.5432418*crim +0.7299149*tax
+0.6371245*zn +0.6878351* chas
Backward: residual
> summary(regresionBackward)$rss
[1] 19472.38 15439.31 13727.99 13228.91 12469.34 12157.51
12014.40 11790.70 11565.25
[10] 11308.58 11081.36 11078.85 11078.78
Decisión: escogemos como mejor modelo el que es de 13 variables:
Y=β0+11078.78*lstat+12141.07*rm+11081.36*ptratio+11678.30*dis+12469.34*nox+
13228.91* black+11078.85*rad +15439.31*crim +19472.38*tax +11583.59*zn
+11354.98* chas +13727.99* indus +11868.24* age
Métodos de construcción de la ecuación de regresión: step Criterios de selección
de la mejor ecuación de regresión: AIC
library(dplyr)
> library(GGally)
method from
+.gg ggplot2
> summary(modelo)
Call:
Residuals:
Coefficients:
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Start: AIC=1589.64
Step: AIC=1587.65
Step: AIC=1585.76
Call:
Coefficients:
El mejor modelo seleccionado con el método “STEP” y el criterio “AIC” contiene once
(11) variables, entonces la ecuación de regresión es la siguiente:
library(ggplot2)
library(gridExtra)
> library(ggplot2)
> library(gridExtra)
Attaching package: ‘gridExtra’
The following object is masked from ‘package:dplyr’:
combine
> plot11 <- ggplot(data = datos, aes(crim, modelo$residuals)) +
geom_point()
> plot21 <- ggplot(data = datos, aes(zn, modelo$residuals)) +
geom_point()
> plot31 <- ggplot(data = datos, aes(chas, modelo$residuals)) +
geom_point()
> plot41 <- ggplot(data = datos, aes(nox, modelo$residuals)) +
geom_point()
> plot51 <- ggplot(data = datos, aes(rm, modelo$residuals)) +
geom_point()
> plot61 <- ggplot(data = datos, aes(dis, modelo$residuals)) +
m odelo$residuals
m odelo$residuals
m odelo$residuals
geom_point()
20 20 20
> plot71
10
<- ggplot(data =
10
datos, aes(rad, modelo$residuals))
10
+
geom_point()
0 0 0
> -10
plot81 <- ggplot(data -10 -10
= datos, aes(tax, modelo$residuals)) +
0 25 50 75 0 25 50 75 100 0.00 0.25 0.50 0.75 1.00
geom_point()
crim zn chas
m odelo$residuals
m odelo$residuals
m odelo$residuals
> plot111
0.4 0.5 <-
0.6 ggplot(data
0.7 0.8 = datos,
4 5 6 aes(lstat,
7 8 9 modelo$residuals))
2.5 5.0 7.5 10.0 12.5+
nox rm dis
m odelo$residuals
m odelo$residuals
m odelo$residuals
geom_point()
> grid.arrange(plot11,
20 plot21,
20 plot31, plot41,20plot51, plot61,
10 10 10
plot71, plot81, plot91, plot101, plot111)
0 0 0
-10 -10 -10
0 5 10 15 20 25 200 300 400 500 600 700 12.5 15.0 17.5 20.0
rad tax ptratio
m odelo$residuals
m odelo$residuals
20 20
10 10
0 0
-10 -10
> qqnorm(Modelo1$residuals)
> qqline(Modelo1$residuals)
10
0
-10
-3 -2 -1 0 1 2 3
Theoretical Quantiles
Modelo 2
> qqline(Modelo2$residuals)
10
0
-10
-3 -2 -1 0 1 2 3
Theoretical Quantiles
Modelo 3
> Modelo3= lm ( medv ~ lstat + rm + ptratio + dis + nox +
chas + black + zn + crim + rad + tax, data=datos)
> qqnorm(Modelo3$residuals)
> qqline(Modelo3$residuals)
10
0
-10
-3 -2 -1 0 1 2 3
Theoretical Quantiles
Modelo 4
> qqnorm(Modelo4$residuals)
> qqline(Modelo4$residuals)
10
0
-10
-3 -2 -1 0 1 2 3
Theoretical Quantiles
Modelo 5
> qqnorm(Modelo5$residuals)
> qqline(Modelo5$residuals)
10
0
-10
-3 -2 -1 0 1 2 3
Theoretical Quantiles
Nos quedamos con el modelo 5 ya que este contiene el método step el cual da mejores
resultados.
e) Investigar y aplicar un criterio adicional de análisis [validación] del
modelo de regresión lineal usando los valores residuales. Es común en la
estadística encontrar algún “test” o “estadístico” que se utilice para
comparar la calidad de los modelos de regresión lineal utilizando los
residuales.
Modelo 1
> Modelo1= lm ( medv ~ lstat + rm + ptratio + dis + nox +
chas + black + zn + crim + rad + tax, data=datos)
> shapiro.test(Modelo1$residuals)
data: Modelo1$residuals
Modelo 2
> Modelo2= lm ( medv ~ lstat + rm + ptratio + dis + nox +
chas + black + zn + crim + rad + tax + indus + age,
data=datos)
> shapiro.test(Modelo2$residuals)
data: Modelo2$residuals
Modelo 3
> shapiro.test(Modelo3$residuals)
data: Modelo3$residuals
Modelo 4
data: Modelo4$residuals
Modelo 5
> shapiro.test(Modelo5$residuals)
data: Modelo5$residuals