Está en la página 1de 5

Taller Final Modelos de Regresión

Alexander Reyes Quintero - 80729841


Mayo 2020

Inicialmente los datos de entrenamiento son leidos, ya que a partir de estos se


realiza el modelo de regresión lineal, el cual será posteriormente evaluado en el
conjunto de datos de validación. Para esto, se eliminó la columna de ’ID’ de las
casas y la fecha, ya que estas son variables que podrı́an agregar ruido al apren-
dizaje del modelo. Aicionalmente, se omitieron los valores NA del dataframe.

De esta manera el dataframe resultante del pre-procesamiento contiene 19


columnas, una columna ’Price’ que corresponde a la variable dependiente y 18
variables predictivas o variables independientes. Para esto se implementó una
Stepwise Regression, un tipo de algoritmo que busca agregar y remover predic-
tores en el modelo predictivo, esto con el fin de encontrar el subconjunto de
variables en el conjunto de datos que da como resultado el mejor rendimiento
en el conjunto de datos de validación. Es decir, se busca reducir el error de
predicción con el modelo.

El reemplazo secuencial, o Stepwise Selection es un algoritmo basado en se-


lecciones forward y backward. El primer tipo de selección, forward, consiste en
un modelo que inicia sin predictores y agrega de manera interativa aquellos que
más contribuyen hasta que la mejora deja de ser estadı́sticamente sifnificativa [1].

Para esto se creó entonces un modelo de regresión lineal sin variables pre-
dictorias de la manera:

RLM.vacio < −lm(f ormula = price ∼ 1, train data) (1)


Donde train data es el dataframe con el conjunto de entrenamiento después
de las modificaciones mencionadas al inicio.

El segundo tipo de selección, backward, consiste en iniciar con un modelo


con todos los predictores (full model) y a partir de este remover teradamente
los predictores que menos contribuyen al modelo. Este algoritmo se detiene
cuando obtiene un modelo donde todos los predictores son estadı́sticamente sig-
nificativos [1].

Por lo tanto, se creó un modelo de regresión lineal para predecir ’Price’ a


partir de todas las demás variables:

1
RLM.completo < −lm(f ormula = price ∼ ., train data) (2)
Posteriormente, se realizó la regresión Stepwise, como se muestra a contin-
uación:

RLM.StepW ise < −step(RLM.vacio, scope = list(lower = RLM.vacio,


(3)
upper = RLM.completo), direction = ”both”)

En este caso se le indica al algoritmo que debe iniciar con un modelo de


regresión lineal (lower) y puede llegar a agregar tantas variables como haya en
el modelo completo (upper). Adicionalmente se quiere realizar tanto la adición
como la eliminación de variables según su contribución al modelo, por lo que se
indica que la dirección de ejecución del modelo será en ambos sentidos (both,
para forward y backward).

Finalmente se muestra un resumen del nuevo modelo, donde se obtienen los


resultados mostrados en la figura 1.

Figure 1: Resúmen del modelo de predicción encontrado por medio de Stepwise

Posterior a la creación del modelo se realizó la validación de los resultados


por medio de la predicción de los precios de las casa en el conjunto de datos

2
de validación con las variables predictivas del modelo de entrenamiento. Es de-
cir, para este segundo conjunto de datos se realizó el mismo pre-procesamiento
(elimnación de ID, fecha y NaN’s). A partir de las predicciones se calcucló el
RMSE como métrica de evaluación. Para este modelo se obtuvo un valor de $
211.618,7 en un conjunto de datos distribuidos como se muestra en la figura 2.

Figure 2: Resúmen de la distribución de precios para el conjunto de validación

A partir de los resultados obtenidos en el resúmen del modelo se procedió a


eliminar la variable floors ya que su P-valor es mayor a la significancia, por lo
que no se rechaza la hipótesis nula en su caso. Esto quiere decir que el predictor
floors tiene un coeficiente igual a cero o no tiene efecto. Este cambio llevó al
RMSE a $ 211638.4, es decir, manualmente no se logró llegar a un mejor modelo.
Por lo que se concluye que el modelo obtenido con Stepwise es el modelo óptimo
para la predicción de los valores de casas con el conjunto de entrenamiento dado,
ya que fue el que logró obtener un RMSE más bajo.

En cuanto al análisis de los datos obtenidos para este modelo, el R2 ajustado


es de aproximadamente el 70%, por lo que la variación del 70% de los precios de
las casas logra ser explicado por medio de los predictores obtenidos con Stepwise.
Por otra parte, los coeficientes hallados tienen valores negativos y positivos, lo
que indica que algunos de los predictores afectan de manera negativa y otros de
manera positiva al precio de la casa.

1 Supuestos
1.1 Independencia
Este supuesto es comprobado con el test Durbin-Watson para la variable de-
pendiente (precio) en términos de sus variables predictivas. A partir de esto se
obtuvo un DW = 1.9952 con p-value = 0.377, por lo que los reisuos no están
correlacionados.

1.2 Multicolinealidad
Para identificar si existen fuertes correlaciones entre las variables explicativas
se halló el factor de inflación de la varianza (VIF) del modelo.

Los resultados del VIF para cada uno de los predictores es mostrado en la
figura 3. Como se observa, los valores obtenidos son menores a 10 por lo que
no hay problemas de multicolinealidad. Ası́ mismo, al evaluar el estadı́stico de

3
tolerancia, definido como 1/VIF es mayor a 0.1 en todos los casos (figura 4),
por lo que se concluye que no existe multicolinealidad.

Figure 3: VIF para las variables predictivas del modelo obtenido con Stepwise

Figure 4: Estadı́stico de Tolerancia

1.3 Residuos
Por último, a partir de la gráfica de residuos (figura 5) se verifica que los datos
se ordenan alrededor del cero sin un patrón determinado, como lo harı́a una
distribución normal, no obstante, podrı́a considerarse la evaluacion de los datos
a través de un Q-Q Plot para determinar si se distribuyen normal, y en caso de
que no, oprtar por un modelo no paramétrico para la predicción de los precios.

References
[1] STHDA. Stepwise regression essentials in r - articles.
http://www.sthda.com/english/articles/37-model-selection-essentials-in-
r/154-stepwise-regression-essentials-in-r/.

4
Figure 5: Estadı́stico de Tolerancia

También podría gustarte