Tarea 8

Vicerrectoría Académica IP – CFT
Dirección de Desarrollo Curricular
TAREA 8: IMPLEMENTACIÓN REGRESIÓN LINEAR
Asignatura Minería de datos

Unidad Unidad II: Métodos básicos de la minería de datos
Tipo de actividad Laboratorio
Crear modelos de datos en base a la información adquirida a través de
Elementos de Competencias revisión de los procesos del negocio (DTAN-3), analizando la información
utilizando técnicas de minería de datos (INAN-4)
Identificar técnicas de elaboración de modelos de datos para establecer,
modificar o mantener una estructura de datos y sus componentes
Aprendizaje Esperado asociados.
Aplicar algoritmos básicos en la construcción de los modelos de minería de
datos, utilizando librerías y software existentes (DTAN-3)
Complementa esta actividad revisando los siguientes recursos disponibles en el aula virtual:
 Ejemplos prácticos: Regresión Linear.
 Infografía: Regresión Linear
 Lectura: Data Mining. Practical Machine Learning Tools and Techniques. Capítulo 4.2 y 4.6.
Introducción
En esta actividad revisaremos algunos ejemplos de como implementar/utilizar la Regresión Lineal
utilizando el software Orange. Cada ejemplo lo realizaremos en los siguientes pasos:
1. Exploración Inicial de la data
2. Preparación y Limpieza de la data
3. Análisis de la data
4. Modelo de regresión y Ajustes
5. Conclusiones
MINERÍA DE DATOS
Ejemplo 1: Predicción del precio de autos1
Una empresa automotriz china aspira a ingresar al mercado en USA y competir así con su
contraparte de dicho país y de Europa. Para ello necesitan comprender los factores que afectan el
precio de los autos en el mercado de USA ya que pueden ser muy diferentes a los del mercado
chino.
Concretamente, la compañía necesita conocer:

 Qué variables son significativas en predecir el precio de un auto
 Que tan bien estas variables describen el precio de un auto
Para lo anterior han levantado un conjunto de datos2 que será utilizado para esto. Usted a sido
llamado para modelar el precio de los autos con las variables independientes que se dispone tal de
comprender como varia el precio en función de dichas variables
1
2
1
https://www.kaggle.com/goyalshalini93/car-price-prediction-linear-regression-rfe
2
https://www.kaggle.com/goyalshalini93/car-data?select=CarPrice_Assignment.csv
MINERÍA DE DATOS
1.- Exploración Inicial de la data
Cargue el archivo “CarPrice_Assignment.csv” utilizando un widget “File” y

revise su contenido con un widget “Data Table”
Car_ID Id único de cada observación

Symboling Clasificación de seguro, -3 muy seguro - +3 muy riesgoso
CarName Marca y modelo del auto
fueltype Tipo de combustible
aspiration Motor convencional o turbo
doornumber Número de puertas
carbody Cuerpo del auto
drivewheel Tracción
enginelocation Ubicación del motor
wheelbase Distancia entre ejes
carlength Largo del auto
carwidth Ancho del auto
carheight Peso del auto
curbweight Peso del auto sin carga
enginetype Tipo de motor
cylindernumber Número de cilindros
enginesize Cilindrada del motor (pulgadas cubicas)
fuelsystem Sistema de alimentación
boreratio Relación stroke/bore
stroke Volumen dentro del motor
compressionratio Relación de compresión (mayor implica más eficiencia en la combustión)
horsepower Caballos de fuerza
peakrpm Tope de RPM
citympg Rendimiento en ciudad (millas por galón)
highwaympg Rendimiento en carretera (millas por galón)
price Precio del auto (variable dependiente)
Podrá observar que
 Hay varios atributos del tipo “Categorical” que quizás deban ser llevados a numéricos
 Hay datos numéricos que quizás deban ser normalizados
 La marca y modelo del auto están en un único valor por lo que deben separarse
 Hay varias marcas que están mal escritas y deben corregirse
MINERÍA DE DATOS
2.- Preparación y Limpieza de la data
Agregue al canvas un widget “Feature Constructor” para adicionar un atributo que tenga sólo la
marca del auto. Defina una variable llamada “Marca” del tipo “Categorical” con la expresión
MarcaName.split()[0]
Conecte al widget anterior un widget del tipo “Edit Domain” y corrija los nombres de las marcas
Apóyese con widgets del tipo “Data Table” para ver los resultados
3.- Análisis de la data

Conecte al widget “Edit Domain” los widgets que requiera para poder responder a preguntas del
tipo:
 ¿Cuál es la marca más vendida?
 ¿Cuál es el tipo de auto más vendido?
 ¿Con que tipo de combustible se venden más autos?
 ¿Cómo se puede visualizar la relación entre el precio y las otras variables?
4.- Modelo de regresión y Ajustes

Ahora vamos a agregar los widgets requeridos para construir y alimentar nuestro modelo. Para
ello tome como base lo siguiente:
MINERÍA DE DATOS
 “Select Columns” lo utilizará para especificar sólo aquellos atributos que sean relevantes
 “Preprocess” puede utilizarlo para convertir aquellos atributos del tipo “categorical” a
numéricos (pruébelo y vea el resultado) y/o para normalizar los datos numéricos
 “Data Sampler” permitirá dividir su conjunto de datos tal de utilizar un grupo de ellos
para entrenar al modelo (Data Sample) y el otro como datos de prueba (Remaining
Data)
 “Linear regression” corresponde al modelo
 “Predictor” permitirá evaluar el modelo contra un grupo de datos de prueba
 “Scatter Plot” permitirá visualizar el precio de los vehículos contra la predicción
MINERÍA DE DATOS
Analice el RMSE y el R2 para ajustar su modelo
5.- Conclusiones
En función de lo anterior:
o Qué variables son significativas en predecir el precio de un auto
o Que tan bien estas variables describen el precio de un auto
MINERÍA DE DATOS
Ejemplo 2
Para este ejemplo utilizaremos un conjunto de datos para predecir el costo de un seguro médico:
Los datos se encuentran en el archivo “insurance.cvs”3:

 age: edad de la persona
 sex: género
 bmi: índice de masa corporal
 children: número de hijos dependientes
 smoker: fumador
 region: donde reside
 charges: costo del seguro (variable dependiente)
Para su desarrollo utilice un diagrama similar al del ejemplo 1 y pasos similares
3
https://www.kaggle.com/sudhirnl7/linear-regression-tutorial
MINERÍA DE DATOS

Tarea 8

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tarea 8

Cargado por

Copyright:

Formatos disponibles

Vicerrectoría Académica IP – CFT

Dirección de Desarrollo Curricular

TAREA 8: IMPLEMENTACIÓN REGRESIÓN LINEAR

Asignatura Minería de datos

Concretamente, la compañía necesita conocer:

Cargue el archivo “CarPrice_Assignment.csv” utilizando un widget “File” y

Car_ID Id único de cada observación

Podrá observar que

3.- Análisis de la data

4.- Modelo de regresión y Ajustes

Los datos se encuentran en el archivo “insurance.cvs”3:

Para su desarrollo utilice un diagrama similar al del ejemplo 1 y pasos similares

También podría gustarte