Taller - Final - Modelos - de - Regresión Alexander Reyes

Taller Final Modelos de Regresión
Alexander Reyes Quintero - 80729841

Mayo 2020
Inicialmente los datos de entrenamiento son leidos, ya que a partir de estos se

realiza el modelo de regresión lineal, el cual será posteriormente evaluado en el
conjunto de datos de validación. Para esto, se eliminó la columna de ’ID’ de las
casas y la fecha, ya que estas son variables que podrı́an agregar ruido al apren-
dizaje del modelo. Aicionalmente, se omitieron los valores NA del dataframe.
De esta manera el dataframe resultante del pre-procesamiento contiene 19

columnas, una columna ’Price’ que corresponde a la variable dependiente y 18
variables predictivas o variables independientes. Para esto se implementó una
Stepwise Regression, un tipo de algoritmo que busca agregar y remover predic-
tores en el modelo predictivo, esto con el fin de encontrar el subconjunto de
variables en el conjunto de datos que da como resultado el mejor rendimiento
en el conjunto de datos de validación. Es decir, se busca reducir el error de
predicción con el modelo.
El reemplazo secuencial, o Stepwise Selection es un algoritmo basado en se-

lecciones forward y backward. El primer tipo de selección, forward, consiste en
un modelo que inicia sin predictores y agrega de manera interativa aquellos que
más contribuyen hasta que la mejora deja de ser estadı́sticamente sifnificativa [1].
Para esto se creó entonces un modelo de regresión lineal sin variables pre-
dictorias de la manera:
RLM.vacio < −lm(f ormula = price ∼ 1, train data) (1)

Donde train data es el dataframe con el conjunto de entrenamiento después
de las modificaciones mencionadas al inicio.
El segundo tipo de selección, backward, consiste en iniciar con un modelo

con todos los predictores (full model) y a partir de este remover teradamente
los predictores que menos contribuyen al modelo. Este algoritmo se detiene
cuando obtiene un modelo donde todos los predictores son estadı́sticamente sig-
nificativos [1].
Por lo tanto, se creó un modelo de regresión lineal para predecir ’Price’ a

partir de todas las demás variables:
1
RLM.completo < −lm(f ormula = price ∼ ., train data) (2)
Posteriormente, se realizó la regresión Stepwise, como se muestra a contin-
uación:
RLM.StepW ise < −step(RLM.vacio, scope = list(lower = RLM.vacio,

(3)
upper = RLM.completo), direction = ”both”)
En este caso se le indica al algoritmo que debe iniciar con un modelo de

regresión lineal (lower) y puede llegar a agregar tantas variables como haya en
el modelo completo (upper). Adicionalmente se quiere realizar tanto la adición
como la eliminación de variables según su contribución al modelo, por lo que se
indica que la dirección de ejecución del modelo será en ambos sentidos (both,
para forward y backward).
Finalmente se muestra un resumen del nuevo modelo, donde se obtienen los

resultados mostrados en la figura 1.
Figure 1: Resúmen del modelo de predicción encontrado por medio de Stepwise
Posterior a la creación del modelo se realizó la validación de los resultados

por medio de la predicción de los precios de las casa en el conjunto de datos
2
de validación con las variables predictivas del modelo de entrenamiento. Es de-
cir, para este segundo conjunto de datos se realizó el mismo pre-procesamiento
(elimnación de ID, fecha y NaN’s). A partir de las predicciones se calcucló el
RMSE como métrica de evaluación. Para este modelo se obtuvo un valor de $
211.618,7 en un conjunto de datos distribuidos como se muestra en la figura 2.
Figure 2: Resúmen de la distribución de precios para el conjunto de validación
A partir de los resultados obtenidos en el resúmen del modelo se procedió a

eliminar la variable floors ya que su P-valor es mayor a la significancia, por lo
que no se rechaza la hipótesis nula en su caso. Esto quiere decir que el predictor
floors tiene un coeficiente igual a cero o no tiene efecto. Este cambio llevó al
RMSE a $ 211638.4, es decir, manualmente no se logró llegar a un mejor modelo.
Por lo que se concluye que el modelo obtenido con Stepwise es el modelo óptimo
para la predicción de los valores de casas con el conjunto de entrenamiento dado,
ya que fue el que logró obtener un RMSE más bajo.
En cuanto al análisis de los datos obtenidos para este modelo, el R2 ajustado

es de aproximadamente el 70%, por lo que la variación del 70% de los precios de
las casas logra ser explicado por medio de los predictores obtenidos con Stepwise.
Por otra parte, los coeficientes hallados tienen valores negativos y positivos, lo
que indica que algunos de los predictores afectan de manera negativa y otros de
manera positiva al precio de la casa.
1 Supuestos
1.1 Independencia
Este supuesto es comprobado con el test Durbin-Watson para la variable de-
pendiente (precio) en términos de sus variables predictivas. A partir de esto se
obtuvo un DW = 1.9952 con p-value = 0.377, por lo que los reisuos no están
correlacionados.
1.2 Multicolinealidad
Para identificar si existen fuertes correlaciones entre las variables explicativas
se halló el factor de inflación de la varianza (VIF) del modelo.
Los resultados del VIF para cada uno de los predictores es mostrado en la
figura 3. Como se observa, los valores obtenidos son menores a 10 por lo que
no hay problemas de multicolinealidad. Ası́ mismo, al evaluar el estadı́stico de
3
tolerancia, definido como 1/VIF es mayor a 0.1 en todos los casos (figura 4),
por lo que se concluye que no existe multicolinealidad.
Figure 3: VIF para las variables predictivas del modelo obtenido con Stepwise
Figure 4: Estadı́stico de Tolerancia
1.3 Residuos
Por último, a partir de la gráfica de residuos (figura 5) se verifica que los datos
se ordenan alrededor del cero sin un patrón determinado, como lo harı́a una
distribución normal, no obstante, podrı́a considerarse la evaluacion de los datos
a través de un Q-Q Plot para determinar si se distribuyen normal, y en caso de
que no, oprtar por un modelo no paramétrico para la predicción de los precios.
References
[1] STHDA. Stepwise regression essentials in r - articles.
http://www.sthda.com/english/articles/37-model-selection-essentials-in-
r/154-stepwise-regression-essentials-in-r/.
4
Figure 5: Estadı́stico de Tolerancia

Taller - Final - Modelos - de - Regresión Alexander Reyes

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Taller - Final - Modelos - de - Regresión Alexander Reyes

Cargado por

Copyright:

Formatos disponibles

Taller Final Modelos de Regresión

Alexander Reyes Quintero - 80729841

Inicialmente los datos de entrenamiento son leidos, ya que a partir de estos se

De esta manera el dataframe resultante del pre-procesamiento contiene 19

El reemplazo secuencial, o Stepwise Selection es un algoritmo basado en se-

RLM.vacio < −lm(f ormula = price ∼ 1, train data) (1)

El segundo tipo de selección, backward, consiste en iniciar con un modelo

Por lo tanto, se creó un modelo de regresión lineal para predecir ’Price’ a

RLM.StepW ise < −step(RLM.vacio, scope = list(lower = RLM.vacio,

En este caso se le indica al algoritmo que debe iniciar con un modelo de

Finalmente se muestra un resumen del nuevo modelo, donde se obtienen los

Figure 1: Resúmen del modelo de predicción encontrado por medio de Stepwise

Posterior a la creación del modelo se realizó la validación de los resultados

Figure 2: Resúmen de la distribución de precios para el conjunto de validación

A partir de los resultados obtenidos en el resúmen del modelo se procedió a

En cuanto al análisis de los datos obtenidos para este modelo, el R2 ajustado

Figure 4: Estadı́stico de Tolerancia

También podría gustarte