Está en la página 1de 7

Vicerrectoría Académica IP – CFT

Dirección de Desarrollo Curricular

TAREA 8: IMPLEMENTACIÓN REGRESIÓN LINEAR

Asignatura Minería de datos


Unidad Unidad II: Métodos básicos de la minería de datos
Tipo de actividad Laboratorio
Crear modelos de datos en base a la información adquirida a través de
Elementos de Competencias revisión de los procesos del negocio (DTAN-3), analizando la información
utilizando técnicas de minería de datos (INAN-4)
Identificar técnicas de elaboración de modelos de datos para establecer,
modificar o mantener una estructura de datos y sus componentes
Aprendizaje Esperado asociados.
Aplicar algoritmos básicos en la construcción de los modelos de minería de
datos, utilizando librerías y software existentes (DTAN-3)

Complementa esta actividad revisando los siguientes recursos disponibles en el aula virtual:
 Ejemplos prácticos: Regresión Linear.
 Infografía: Regresión Linear
 Lectura: Data Mining. Practical Machine Learning Tools and Techniques. Capítulo 4.2 y 4.6.

Introducción
En esta actividad revisaremos algunos ejemplos de como implementar/utilizar la Regresión Lineal
utilizando el software Orange. Cada ejemplo lo realizaremos en los siguientes pasos:
1. Exploración Inicial de la data
2. Preparación y Limpieza de la data
3. Análisis de la data
4. Modelo de regresión y Ajustes
5. Conclusiones

MINERÍA DE DATOS
Vicerrectoría Académica IP – CFT
Dirección de Desarrollo Curricular
Ejemplo 1: Predicción del precio de autos1

Una empresa automotriz china aspira a ingresar al mercado en USA y competir así con su
contraparte de dicho país y de Europa. Para ello necesitan comprender los factores que afectan el
precio de los autos en el mercado de USA ya que pueden ser muy diferentes a los del mercado
chino.

Concretamente, la compañía necesita conocer:


 Qué variables son significativas en predecir el precio de un auto
 Que tan bien estas variables describen el precio de un auto

Para lo anterior han levantado un conjunto de datos2 que será utilizado para esto. Usted a sido
llamado para modelar el precio de los autos con las variables independientes que se dispone tal de
comprender como varia el precio en función de dichas variables

1
2

1
https://www.kaggle.com/goyalshalini93/car-price-prediction-linear-regression-rfe
2
https://www.kaggle.com/goyalshalini93/car-data?select=CarPrice_Assignment.csv

MINERÍA DE DATOS
Vicerrectoría Académica IP – CFT
Dirección de Desarrollo Curricular
1.- Exploración Inicial de la data

Cargue el archivo “CarPrice_Assignment.csv” utilizando un widget “File” y


revise su contenido con un widget “Data Table”

Car_ID Id único de cada observación


Symboling Clasificación de seguro, -3 muy seguro - +3 muy riesgoso
CarName Marca y modelo del auto
fueltype Tipo de combustible
aspiration Motor convencional o turbo
doornumber Número de puertas
carbody Cuerpo del auto
drivewheel Tracción
enginelocation Ubicación del motor
wheelbase Distancia entre ejes
carlength Largo del auto
carwidth Ancho del auto
carheight Peso del auto
curbweight Peso del auto sin carga
enginetype Tipo de motor
cylindernumber Número de cilindros
enginesize Cilindrada del motor (pulgadas cubicas)
fuelsystem Sistema de alimentación
boreratio Relación stroke/bore
stroke Volumen dentro del motor
compressionratio Relación de compresión (mayor implica más eficiencia en la combustión)
horsepower Caballos de fuerza
peakrpm Tope de RPM
citympg Rendimiento en ciudad (millas por galón)
highwaympg Rendimiento en carretera (millas por galón)
price Precio del auto (variable dependiente)

Podrá observar que

 Hay varios atributos del tipo “Categorical” que quizás deban ser llevados a numéricos
 Hay datos numéricos que quizás deban ser normalizados
 La marca y modelo del auto están en un único valor por lo que deben separarse
 Hay varias marcas que están mal escritas y deben corregirse

MINERÍA DE DATOS
Vicerrectoría Académica IP – CFT
Dirección de Desarrollo Curricular
2.- Preparación y Limpieza de la data

Agregue al canvas un widget “Feature Constructor” para adicionar un atributo que tenga sólo la
marca del auto. Defina una variable llamada “Marca” del tipo “Categorical” con la expresión
MarcaName.split()[0]

Conecte al widget anterior un widget del tipo “Edit Domain” y corrija los nombres de las marcas

Apóyese con widgets del tipo “Data Table” para ver los resultados

3.- Análisis de la data


Conecte al widget “Edit Domain” los widgets que requiera para poder responder a preguntas del
tipo:
 ¿Cuál es la marca más vendida?
 ¿Cuál es el tipo de auto más vendido?
 ¿Con que tipo de combustible se venden más autos?
 ¿Cómo se puede visualizar la relación entre el precio y las otras variables?

4.- Modelo de regresión y Ajustes


Ahora vamos a agregar los widgets requeridos para construir y alimentar nuestro modelo. Para
ello tome como base lo siguiente:

MINERÍA DE DATOS
Vicerrectoría Académica IP – CFT
Dirección de Desarrollo Curricular

 “Select Columns” lo utilizará para especificar sólo aquellos atributos que sean relevantes
 “Preprocess” puede utilizarlo para convertir aquellos atributos del tipo “categorical” a
numéricos (pruébelo y vea el resultado) y/o para normalizar los datos numéricos
 “Data Sampler” permitirá dividir su conjunto de datos tal de utilizar un grupo de ellos
para entrenar al modelo (Data Sample) y el otro como datos de prueba (Remaining
Data)
 “Linear regression” corresponde al modelo
 “Predictor” permitirá evaluar el modelo contra un grupo de datos de prueba
 “Scatter Plot” permitirá visualizar el precio de los vehículos contra la predicción

MINERÍA DE DATOS
Vicerrectoría Académica IP – CFT
Dirección de Desarrollo Curricular
Analice el RMSE y el R2 para ajustar su modelo
5.- Conclusiones

En función de lo anterior:
o Qué variables son significativas en predecir el precio de un auto
o Que tan bien estas variables describen el precio de un auto

MINERÍA DE DATOS
Vicerrectoría Académica IP – CFT
Dirección de Desarrollo Curricular
Ejemplo 2

Para este ejemplo utilizaremos un conjunto de datos para predecir el costo de un seguro médico:

Los datos se encuentran en el archivo “insurance.cvs”3:


 age: edad de la persona
 sex: género
 bmi: índice de masa corporal
 children: número de hijos dependientes
 smoker: fumador
 region: donde reside
 charges: costo del seguro (variable dependiente)

Para su desarrollo utilice un diagrama similar al del ejemplo 1 y pasos similares

3
https://www.kaggle.com/sudhirnl7/linear-regression-tutorial

MINERÍA DE DATOS

También podría gustarte