Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Árboles de Decisión
IDENTIFICADORAS
CODMES ID Edad Género Deuda SSFF Ahorros TARGET
201910 123 30 M 500 20000 0
201912 123 30 M 650 25000 0
202002 123 30 M 35000 500 1
Target = función (Edad, Género, Deudas SF, Ahorros) Target Cuantitativa Predicción
Cualitativa Clasificación
AGRUPARLOS O SEGMENTARLOS
PROBLEMA RETAIL Reto: Cuantificar la demanda futura de los productos que comercializa un supermercado
ML generar predicciones
tienen error
Aprendizaje Supervisado
Complejidad de un modelo
# variables (features) 3
# patrones obtenidos 3
Interpretabilidad SI
Colab Notebooks
data
[202102]_Intro_ML_Caso1.ipynb
data.csv
MTC df_pandas.describe()
MF Coeficiente asimetría LIBRERIA SCIPY
MD df_pandas.describe() coef variación
MP df_pandas.describe()
Variar -1 y 1
Ingresos
Edad Edad
Investigadores Futbolistas
guardar en un objeto X
Efectividad
IDENTIFICADORAS INPUTS (FEATURES) OUTPUT ALGORITMO
CODMES ID Edad Género Deuda SSFF Ahorros TARGET PROB PREDICCIÓN Campaña en el ofrecimiento de un PP
201910 123 30 M 500 20000 0 0.01 0
201912 123 30 M 650 25000 0 0.01 0 1 = Aceptaron la campaña
202002 123 30 M 35000 500 1 0.54 1 0 = No aceptaron la campaña
CASO SUPERMERCADOS
TARGET 1 Aceptaron la campaña
0 No aceptaron la campaña
TARGET
SEXO 1 (ACEPTA) 0 (NO ACEPTA) TOTAL
F 103 189 292
M 66 142 208
EFECTIVIDAD 1 / ( 1 + 0)
IZQUIERDO DERECHO
ROMPIÓ LA NORMALIDAD
COEFICIENTES DE ASIMETRÍA
| COEF ASIMETRIA | > UMBRAL
UMBRAL +- 5
COEFICIENTES DE VARIACIÓN
AÑOS
AÑOS
SOLES -17 AÑOS
SOLES
# 238 AÑOS CUADRADOS
15.42724862 AÑOS
20% 200%
LABEL ENCODER
C -> 0
D -> 1
S -> 2
V -> 3
ESTANDARIZAR LA VARIABLE
ROBUSTSCALER
MEDIANA
RIC = p75 - p25
0.338
0.338 Training 70% X_train y_train genera objeto (aprendizaje del algoritmo)
knn
0.338 Testing 30% X_test y_test
Algoritmo realiza
su proceso de
knn.fit(X_train, y_train) aprendizaje del algoritmo se almacena en el objeto knn
aprendizaje 0 1
0
Algoritmo
validará que tan
knn.predict_proba(X_test)[:, 1] 1 0 1
bien aprendió 2 prob no acepte prob acepte
...
TARGET 1 Aceptaron campaña
0 No aceptaron campaña
[:,1]
PROB (NO ACEPTAR) 0
primera posición = filas
PROB (ACEPTAR) 1 segunda posición = columnas
Aprendizaje Supervisado
Realidad vs Predicción
=> Matriz Confusión
y_test y_pred_KNN
Tabla cruzada (Realidad, Predicción)
0 1
0.12 0.3
0 1
0.3 0.48
Precision 48%
Recall 59%
f1 score 53%
CROSS VALIDATION CV = 3
Validar
Entrenamiento
Entrenamiento
Validar
Entrenamiento
Entrenamiento
Validar
DIESPLEGUE
PROBABILIDADES AGRUPACIONES
(MEDIDAS DE POSICIÓN)
PERCENTILES
CENTILES 100
DECILES 10
VEINTILES 20
10 9 8 ... 1
+ PROPENSO - PROPENSO
EFECTIVIDAD
A/B TESTING
LN ML
FORECAST DEMANDA
400
350
201501 250
201502 200 300
201503 352
250
201504 320
201505 150 200
Series1
201506 250 150
100
50
0
1 2 3 4 5 6
TRAINING 201501 - 201712
TEST 201801 - 201809
RANDOM FOREST
PROBLEMAS DE CLASIFICACIÓN