Está en la página 1de 3

Regresión

Familias de algoritmos Redes Neuronales

Árboles de Decisión

PROBLEMA BANCA Reto: Colocar Préstamos personales

Métodos de Aprendizaje Generar campañas Tienen un costo Eficientes

IDENTIFICADORAS
CODMES ID Edad Género Deuda SSFF Ahorros TARGET
201910 123 30 M 500 20000 0
201912 123 30 M 650 25000 0
202002 123 30 M 35000 500 1

Sistema aprenda de los datos necesito datos históricos

CODMES Historia de las campañas que ya se han realizado


ID Variable que representa la unidad de análisis elemental (1 persona)
Variables predictoras, explicativas (ML: features - características)

¿El problema se puede representar directamente con una única variable?

SI Aprendizaje Supervisado Elegir el o los algoritmos que vamos a entrenar

NO Aprendizaje No Supervisado Elegir el o los algoritmos que vamos a entrenar

Variable objetivo, dependiente (ML: target)

Variable con 2 categorias (0: No aceptaron la campaña | 1: Aceptaron la campaña)

Target = función (Edad, Género, Deudas SF, Ahorros) Target Cuantitativa Predicción
Cualitativa Clasificación

Cada algoritmo ya tiene una metodología de detección de patrones

PROBLEMA TELECOM Reto: Entender las necesidades de mis clientes

AGRUPARLOS O SEGMENTARLOS

IDENTIFICADORAS Consumo Consumo de % tráfico del Cantidad de MB


CODMES ID Datos MB minutos mismo del plan
201910 123 1500 5 operador
95% 10000
201912 123 2800 10 50% 1000
202002 123 100 120 10% 150

SEGMENTARLOS Consumo Datos MB

Bajo consumo Medio consumo Alto consumo

Las variables tengan un sentido Segmentación de consumo de servicios móviles

PROBLEMA RETAIL Reto: Cuantificar la demanda futura de los productos que comercializa un supermercado

Variable objetivo, dependiente (ML: target)

Demanda de una semana

CODMES SKU TARGET


201910 123 1500
201911 234 1200
201912 456 1800

PROBLEMA BANCA Reto: Colocar Préstamos personales

Métodos de Aprendizaje Generar campañas Tienen un costo Eficientes


Realiza a través del aplicativo del banco

IDENTIFICADORAS Información Estática Información


# veces que Dinámica
# veces que
CODMES ID Edad Género Deuda SSFF Ahorros ingresó al app revisó [Mis TARGET
201910 123 30 M 500 20000 Productos] 0
201912 123 30 M 650 25000 0
202002 123 30 M 35000 500 1

Sistema aprenda de los datos necesito datos históricos

CODMES Historia de las campañas que ya se han realizado


ID Variable que representa la unidad de análisis elemental (1 persona)
Variables predictoras, explicativas (ML: features - características)

ML generar predicciones

tienen error

Error existe (minimizar el error)

CODMES ID Edad Género Ingresos Target


201910 123 30 M 500 Lujuriosos
201912 234 30 M 650 Ahorradores
125 25 F Indiferentes

Reto: Clasificar a los clientes basado en los 3 grupos

Target = función (Edad, Género, Ingresos)

Algoritmo aprenderá a clasificar (Lujurioso, Ahorrador, Indiferente)

Aprendizaje Supervisado

Complejidad de un modelo

# variables (features) 3

# patrones obtenidos 3

Interpretabilidad SI

Modelo NC (No Complejo)


Google Drive

Colab Notebooks

data
[202102]_Intro_ML_Caso1.ipynb
data.csv

MTC df_pandas.describe()
MF Coeficiente asimetría LIBRERIA SCIPY
MD df_pandas.describe() coef variación
MP df_pandas.describe()

RESUMEN DE VARIABLES NUMÉRICAS

50% = Percentil 50 = mediana

Hipótesis Mean = 50%


Normal SI
No Normal NO
No Normal NO
No Normal NO
No Normal NO

Mediana No Sensible a los valores atípicos


Presencia outlier
Promedio Sensible a los valores atípicos

Formas de los histogramas TARGET 2 categorías V. Cualitativa Problema de Clasificación


Cuando las formas son diferentes -> Posibilidad que la variable va tener un buen comportamiento para clasificar al problema
Variable tiene potencial de ser una variable explicativa

Análisis a nivel mutivariado


Correlación 2 variables cuantitativas

Variar -1 y 1

correlación = 1 Fuerte relación lineal (directa)

correlación = -1 Fuerte relación lineal (inversa)

Ingresos

Edad Edad

Investigadores Futbolistas

| correlaciones | > 0.85

umbral tener alternativas de desarrollo (tomando distintos umbrales)

RESUMEN DE VARIABLES CATEGÓRICAS

Datos = Realidad Datos de prueba

.describe() aprendizaje del algoritmo

guardar en un objeto X

Datos nuevos usar el objeto X (aprendizaje del algoritmo)

.describe() Generar Predicciones a partir de los datos nuevos

Aceptaron Campaña (TARGET = 1) No Aceptaron Campaña (TARGET = 0)

Efectividad
IDENTIFICADORAS INPUTS (FEATURES) OUTPUT ALGORITMO
CODMES ID Edad Género Deuda SSFF Ahorros TARGET PROB PREDICCIÓN Campaña en el ofrecimiento de un PP
201910 123 30 M 500 20000 0 0.01 0
201912 123 30 M 650 25000 0 0.01 0 1 = Aceptaron la campaña
202002 123 30 M 35000 500 1 0.54 1 0 = No aceptaron la campaña

CODMES Efectividad Campaña UMBRAL >= 0.3


201901 0.05 1000 10 0.01
201902 0.06
201903 0.07
0.08 TRAIN / TEST EVALUAR
0.09 202001 50%
0.05 202004 15%
0.06 201911 77%
202004 0.07

CASO SUPERMERCADOS
TARGET 1 Aceptaron la campaña
0 No aceptaron la campaña

TARGET
SEXO 1 (ACEPTA) 0 (NO ACEPTA) TOTAL
F 103 189 292
M 66 142 208

SEXO EFECTIVIDAD => PROBABILIDAD (CASO FAVORABLES / CASOS TOTALES)


F 35.3%
M 31.7%

EFECTIVIDAD 1 / ( 1 + 0)

ANÁLISIS DE OUTLIERS PATRONES ATÍPICOS

UMBRALES MÍNIMO Y MÁXIMO

VALORES (-) 0 VALORES (+)

IZQUIERDO DERECHO

COLAS (DERECHA) ASIMETRÍA POSITIVA

ROMPIÓ LA NORMALIDAD

LA NORMALIDAD SE ROMPE POR LOS OUTLIERS

EFECTIVIDAD GENERAL DEL PROBLEMA

COEFICIENTES DE ASIMETRÍA
| COEF ASIMETRIA | > UMBRAL

UMBRAL +- 5

COEFICIENTES DE VARIACIÓN

AÑOS
AÑOS
SOLES -17 AÑOS
SOLES
# 238 AÑOS CUADRADOS
15.42724862 AÑOS

14.43 AÑOS = 28.61%


50.44 AÑOS

20% 200%

PREPARACIÓN DE LOS DATOS

LABEL ENCODER
C -> 0
D -> 1
S -> 2
V -> 3

ESTANDARIZAR LA VARIABLE

IDENTIFICADORAS INPUTS (FEATURES)


CODMES ID Edad Género Deuda SSFF Ahorros Edad_Z Deuda_SSFF_Z Ahorros_Z
201910 123 30 M 500 20000 -0.565 -0.643 0.616
201912 123 30 M 650 25000 -0.565 -0.633 0.937
202002 123 30 M 35000 500 -0.565 1.485 -0.633
25 1500 8000 -1.100 -0.581 -0.153
20 1800 1000 -1.635 -0.562 -0.601
36 25000 1200 0.078 0.868 -0.588
45 7500 500 1.042 -0.211 -0.633
52 45000 5000 1.791 2.102 -0.345
38 620 1200 0.292 -0.635 -0.588
42 1200 1800 0.720 -0.599 -0.550
40 1352 50000 0.506 -0.590 2.538

PROMEDIO 35.27272727 10920.18182 10381.81818 0.000 0.000 0.000


DESV. ESTÁNDAR 9.339067503 16215.14947 15607.74283 1 1 1
OUTLIERS

ROBUSTSCALER

EDAD INGRESOS EDAD_Z1 INGRESOS_Z1


18 1000 -1.12 -0.63
25 3500 -0.70 0.03
45 1500 0.51 -0.50
60 1000 1.41 -0.63
35 10000 -0.10 1.72

PROMEDIO 36.6 3400 0.00 0.00


STD 16.6 3830.8 1.0 1.0

MEDIANA
RIC = p75 - p25

Entendimiento y preparación de los datos EDA (Exploratory Data Analysis


Identificadoras Features Target

cuantitativas Robust Scaler

cualitativas numéricas (LabelEncoder)

features -> target Estadística Descriptiva

Analizamos las relaciones entre los features

Features (X) Target (y) Población Efectividad (0.33)

Muestra Efectividad (0.33)

0.338

0.338 Training 70% X_train y_train genera objeto (aprendizaje del algoritmo)
knn
0.338 Testing 30% X_test y_test

Algoritmo realiza
su proceso de
knn.fit(X_train, y_train) aprendizaje del algoritmo se almacena en el objeto knn
aprendizaje 0 1
0
Algoritmo
validará que tan
knn.predict_proba(X_test)[:, 1] 1 0 1
bien aprendió 2 prob no acepte prob acepte
...
TARGET 1 Aceptaron campaña
0 No aceptaron campaña
[:,1]
PROB (NO ACEPTAR) 0
primera posición = filas
PROB (ACEPTAR) 1 segunda posición = columnas

Ingresos = función (Edad, # hijos)


target features

Ingresos estimados = 500 + 10* Edad + 5*# hijos Aprende

ID Edad hijos Ingreso estimado


David 32 1 825

b = prob_knn >= 0.3


probabilidades y_pred_KNN = b * 1
clientes nuevos [:,1] Predicción
0.12 0
features 0.4 1
0.8 1
0.01 0
knn ...

Percentiles, Deciles, Centiles, Ventiles

Aprendizaje Supervisado

Realidad vs Predicción
=> Matriz Confusión
y_test y_pred_KNN
Tabla cruzada (Realidad, Predicción)

Recetario para el entrenamiento y validación del algoritmo


1 Indentificar el algoritmo a usar, definir los parámetros del algoritmo. Definición parámetros: usuario, elegirse de manera automática
2 Entregar los datos de entrenamiento al algoritmo (features: X_train, target: y_train)
3 Entrenamiento del algoritmo (aprendizaje) se almacena en un objeto
4 Con el objeto (aprendizaje del algoritmo) se predice sobre los datos de validación (features: X_test)
5 Eventos (0: No Aceptan la campaña | 1: Aceptan la campaña)
6 Obtención de probabilidades

0 1
0.12 0.3

0 1
0.3 0.48

7 Definir un umbral (umbral se consideró tomar la efectividad promedio de la campaña)


8 Clasificación (predictiva)
9 Realidad: y_test VS Predicción: y_pred_ALGORITMO
10 Calcular las diferentes métricas (Técnicas) => Precision, Recall, F1 score, FN, FP, Accuracy, LogLoss
11 Calcular la relación que existe entre la métrica técnica y el KPI del negocio
3 Meses

Días features target


horas

Identificadores features target

80% X_train y_train nb


20% X_test y_test

fila de la etiqueta (1):

Precision 48%
Recall 59%
f1 score 53%

CROSS VALIDATION CV = 3

Validar

Entrenamiento

Entrenamiento

Validar

Entrenamiento

Entrenamiento

Validar

DIESPLEGUE

PROBABILIDADES AGRUPACIONES
(MEDIDAS DE POSICIÓN)

PERCENTILES
CENTILES 100

DECILES 10

VEINTILES 20

10 9 8 ... 1

+ PROPENSO - PROPENSO

EFECTIVIDAD

HIPÓTESIS + EFECTIVO - EFECTIVO

A/B TESTING

LN ML

FORECAST DEMANDA
400

350
201501 250
201502 200 300
201503 352
250
201504 320
201505 150 200
Series1
201506 250 150

100

50

0
1 2 3 4 5 6
TRAINING 201501 - 201712
TEST 201801 - 201809

RANDOM FOREST

PROBLEMAS DE CLASIFICACIÓN

También podría gustarte