Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Complementa esta actividad revisando los siguientes recursos disponibles en el aula virtual:
Ejemplos prácticos: Regresión Linear.
Infografía: Regresión Linear
Lectura: Data Mining. Practical Machine Learning Tools and Techniques. Capítulo 4.2 y 4.6.
Introducción
En esta actividad revisaremos algunos ejemplos de como implementar/utilizar la Regresión Lineal
utilizando el software Orange. Cada ejemplo lo realizaremos en los siguientes pasos:
1. Exploración Inicial de la data
2. Preparación y Limpieza de la data
3. Análisis de la data
4. Modelo de regresión y Ajustes
5. Conclusiones
MINERÍA DE DATOS
Vicerrectoría Académica IP – CFT
Dirección de Desarrollo Curricular
Ejemplo 1: Predicción del precio de autos1
Una empresa automotriz china aspira a ingresar al mercado en USA y competir así con su
contraparte de dicho país y de Europa. Para ello necesitan comprender los factores que afectan el
precio de los autos en el mercado de USA ya que pueden ser muy diferentes a los del mercado
chino.
Para lo anterior han levantado un conjunto de datos2 que será utilizado para esto. Usted a sido
llamado para modelar el precio de los autos con las variables independientes que se dispone tal de
comprender como varia el precio en función de dichas variables
1
2
1
https://www.kaggle.com/goyalshalini93/car-price-prediction-linear-regression-rfe
2
https://www.kaggle.com/goyalshalini93/car-data?select=CarPrice_Assignment.csv
MINERÍA DE DATOS
Vicerrectoría Académica IP – CFT
Dirección de Desarrollo Curricular
1.- Exploración Inicial de la data
Hay varios atributos del tipo “Categorical” que quizás deban ser llevados a numéricos
Hay datos numéricos que quizás deban ser normalizados
La marca y modelo del auto están en un único valor por lo que deben separarse
Hay varias marcas que están mal escritas y deben corregirse
MINERÍA DE DATOS
Vicerrectoría Académica IP – CFT
Dirección de Desarrollo Curricular
2.- Preparación y Limpieza de la data
Agregue al canvas un widget “Feature Constructor” para adicionar un atributo que tenga sólo la
marca del auto. Defina una variable llamada “Marca” del tipo “Categorical” con la expresión
MarcaName.split()[0]
Conecte al widget anterior un widget del tipo “Edit Domain” y corrija los nombres de las marcas
Apóyese con widgets del tipo “Data Table” para ver los resultados
MINERÍA DE DATOS
Vicerrectoría Académica IP – CFT
Dirección de Desarrollo Curricular
“Select Columns” lo utilizará para especificar sólo aquellos atributos que sean relevantes
“Preprocess” puede utilizarlo para convertir aquellos atributos del tipo “categorical” a
numéricos (pruébelo y vea el resultado) y/o para normalizar los datos numéricos
“Data Sampler” permitirá dividir su conjunto de datos tal de utilizar un grupo de ellos
para entrenar al modelo (Data Sample) y el otro como datos de prueba (Remaining
Data)
“Linear regression” corresponde al modelo
“Predictor” permitirá evaluar el modelo contra un grupo de datos de prueba
“Scatter Plot” permitirá visualizar el precio de los vehículos contra la predicción
MINERÍA DE DATOS
Vicerrectoría Académica IP – CFT
Dirección de Desarrollo Curricular
Analice el RMSE y el R2 para ajustar su modelo
5.- Conclusiones
En función de lo anterior:
o Qué variables son significativas en predecir el precio de un auto
o Que tan bien estas variables describen el precio de un auto
MINERÍA DE DATOS
Vicerrectoría Académica IP – CFT
Dirección de Desarrollo Curricular
Ejemplo 2
Para este ejemplo utilizaremos un conjunto de datos para predecir el costo de un seguro médico:
3
https://www.kaggle.com/sudhirnl7/linear-regression-tutorial
MINERÍA DE DATOS