Está en la página 1de 31

Supervised & Unsupervised

David Bujosa - Miguel Angel Díaz - Laura Vargas - Ángel Piña - Zahoris Leonardo
La empresa Vinos RD quiere lanzar una campaña
publicitaria para aumentar sus ventas pero no está
segura del perfil de sus clientes. Se necesita
identificar estos perfiles para circunscribir la
campaña publicitaria (definir el consumidor
objetivo) al conjunto de clientes más potenciales.
Análisis exploratorio de datos
● Las dimensiones son 29 columnas y 2240 filas.
● 3 columnas tipo string. Todas las demás son tipo int.
● 20 variables numéricas y 9 categóricas.
Análisis exploratorio de datos
● La única columna que tiene valores “NA” es la columna “Income”
● Columna “Dt_Customer” tiene el tipo de datos incorrecto
● Columnas “Z_CostContact” y “Z_Revenue”
● No tenemos filas con duplicados
Limpieza de los datos
● Reemplazamos los valores NA de la columna “Income”
● Cambiamos el tipo de dato de la columna “Dt_Customer”
● Eliminamos las columnas “Z_CostContact” y “Z_Revenue”
● Homogeneizamos las variables categóricas
(Marital_Status y Education)
Análisis exploratorio de datos
Análisis exploratorio de datos
Algoritmos Supervisados
Para enfocar la campaña publicitaria en base al perfil de compras de los
consumidores, se necesita conocer las probabilidades de compra del producto de
forma tal que se puedan focalizar ofertas y enfocar campañas publicitarias en
base a dichos resultados.

Algoritmos que se utilizaran:


● Regresión Lineal Múltiple
Regresión Lineal Múltiple
Seleccionamos el método de Regresión Lineal Múltiple para determinar los
factores principales dentro de los datos disponibles que impactan el consumo de
Vinos de los consumidores, definida en este caso por la variable MntWines.

Modelo 1

lm(MntWines ~ Income + Recency + Year_Birth + MntMeatProducts +


NumStorePurchases, data = data_train)
Modelo 2
lm(MntWines ~ Income + Recency + Year_Birth + MntFishProducts +
NumStorePurchases, data = data_train)

Modelo 3
lm (MntWines ~ Income + Year_Birth + MntFishProducts + NumStorePurchases, data =
data_train)

Modelo 4
lm (MntWines ~ Income + Year_Birth + MntMeatProducts + NumStorePurchases, data =
data_train)
Resultado de los 4 modelos
Visualización de algunos modelos planteados utilizando regresión lineal múltiple.

- Linear relationship:
- Constant variance among residuals:
- No autocorrelation:
Aprendizaje no supervisado
Se necesita conocer el poder adquisitivo de cada cliente y quienes son los que
más gastos realizan en vinos de forma tal que se puedan segmentar y enfocar la
campaña publicitaria de vinos exclusivamente a estos clientes.

Algoritmos que se usarán:


● Kmeans
● Hclust
Preprocesamiento
● Creación de una nueva columna “TotalSpend”
● Para la aplicación del algoritmo kmeans y hclust, utilizamos solamente
las columnas numéricas
● Normalizamos los datos aplicando escalado
Análisis Método Elbow y Silhouette
Método Silhouette
Método Wss
Kmeans - Análisis Resultado
Al aplicar el algoritmo k-means a
nuestros datos escalados y utilizando
dos como el número óptimo de clusters,
obtenemos la siguiente distribución de
clientes.
Kmeans - Análisis Resultado
Ingresos correspondiente a cada cluster
Kmeans - Análisis Resultado
Total de gastos correspondientes a cada cluster
Kmeans - Análisis Resultado
Gastos en vinos correspondiente a cada cluster
Kmeans - Análisis Resultado
Compras en línea correspondiente a cada cluster
Hclust - Análisis Resultado
Al generar la matriz de
distancia a los datos
escalados y aplicar el
algoritmo, obtenemos el
siguiente dendrograma.
Hclust - Análisis Resultado
Tras evaluar el
dendrograma, procedemos
a cortarlo alrededor de la
altura 12 para obtener 5
clusters atendiendo a los
criterios de distancia entre
los nodos.
Hclust - Análisis Resultado
Ingresos correspondiente a cada cluster
K-Means vs Hclust
Al comparar la distribución para cada modelo, podemos observar que los
resultados son bastantes similares, sin embargo, el algoritmo k-means produjo
resultados más compactos.

Kmeans Hclust
Kmeans vs Hclust - Análisis Resultado
Ingresos correspondiente a cada cluster
Series Temporales
La serie temporal es una representación de datos
numéricos que se indexan secuencialmente en puntos de
datos distribuidos equitativamente en el tiempo.
Características de las Series Temporales
Seasonality
Trend
Error
Aplicaciones de las series Temporales
● Predicción de Clima
● Pronóstico de ventas
● Mercado Crypto
● Análisis de censo
BigML - Series Temporales
En BigML existen seis pasos fundamentales que se necesitan para hacer
pronósticos de time series los cuales son:

● Subir la data
● Crear el dataset
● Crear la serie temporal
● Analizarla
● Evaluarla
● Hacer pronósticos

También podría gustarte