File 2

Regresión
Familias de algoritmos Redes Neuronales
Árboles de Decisión
PROBLEMA BANCA Reto: Colocar Préstamos personales
Métodos de Aprendizaje Generar campañas Tienen un costo Eficientes
IDENTIFICADORAS
CODMES ID Edad Género Deuda SSFF Ahorros TARGET
201910 123 30 M 500 20000 0
201912 123 30 M 650 25000 0
202002 123 30 M 35000 500 1
Sistema aprenda de los datos necesito datos históricos
CODMES Historia de las campañas que ya se han realizado

ID Variable que representa la unidad de análisis elemental (1 persona)
Variables predictoras, explicativas (ML: features - características)
¿El problema se puede representar directamente con una única variable?
SI Aprendizaje Supervisado Elegir el o los algoritmos que vamos a entrenar
NO Aprendizaje No Supervisado Elegir el o los algoritmos que vamos a entrenar
Variable objetivo, dependiente (ML: target)
Variable con 2 categorias (0: No aceptaron la campaña | 1: Aceptaron la campaña)
Target = función (Edad, Género, Deudas SF, Ahorros) Target Cuantitativa Predicción
Cualitativa Clasificación
Cada algoritmo ya tiene una metodología de detección de patrones
PROBLEMA TELECOM Reto: Entender las necesidades de mis clientes
AGRUPARLOS O SEGMENTARLOS
IDENTIFICADORAS Consumo Consumo de % tráfico del Cantidad de MB

CODMES ID Datos MB minutos mismo del plan
201910 123 1500 5 operador
95% 10000
201912 123 2800 10 50% 1000
202002 123 100 120 10% 150
SEGMENTARLOS Consumo Datos MB
Bajo consumo Medio consumo Alto consumo
Las variables tengan un sentido Segmentación de consumo de servicios móviles
PROBLEMA RETAIL Reto: Cuantificar la demanda futura de los productos que comercializa un supermercado
Variable objetivo, dependiente (ML: target)
Demanda de una semana
CODMES SKU TARGET

201910 123 1500
201911 234 1200
201912 456 1800
PROBLEMA BANCA Reto: Colocar Préstamos personales
Métodos de Aprendizaje Generar campañas Tienen un costo Eficientes

Realiza a través del aplicativo del banco
IDENTIFICADORAS Información Estática Información

# veces que Dinámica
# veces que
CODMES ID Edad Género Deuda SSFF Ahorros ingresó al app revisó [Mis TARGET
201910 123 30 M 500 20000 Productos] 0
201912 123 30 M 650 25000 0
202002 123 30 M 35000 500 1
Sistema aprenda de los datos necesito datos históricos
CODMES Historia de las campañas que ya se han realizado

ID Variable que representa la unidad de análisis elemental (1 persona)
Variables predictoras, explicativas (ML: features - características)
ML generar predicciones
tienen error
Error existe (minimizar el error)
CODMES ID Edad Género Ingresos Target

201910 123 30 M 500 Lujuriosos
201912 234 30 M 650 Ahorradores
125 25 F Indiferentes
Reto: Clasificar a los clientes basado en los 3 grupos
Target = función (Edad, Género, Ingresos)
Algoritmo aprenderá a clasificar (Lujurioso, Ahorrador, Indiferente)
Aprendizaje Supervisado
Complejidad de un modelo
# variables (features) 3
# patrones obtenidos 3
Interpretabilidad SI
Modelo NC (No Complejo)

Google Drive
Colab Notebooks
data
[202102]_Intro_ML_Caso1.ipynb
data.csv
MTC df_pandas.describe()
MF Coeficiente asimetría LIBRERIA SCIPY
MD df_pandas.describe() coef variación
MP df_pandas.describe()
RESUMEN DE VARIABLES NUMÉRICAS
50% = Percentil 50 = mediana
Hipótesis Mean = 50%

Normal SI
No Normal NO
No Normal NO
No Normal NO
No Normal NO
Mediana No Sensible a los valores atípicos

Presencia outlier
Promedio Sensible a los valores atípicos
Formas de los histogramas TARGET 2 categorías V. Cualitativa Problema de Clasificación

Cuando las formas son diferentes -> Posibilidad que la variable va tener un buen comportamiento para clasificar al problema
Variable tiene potencial de ser una variable explicativa
Análisis a nivel mutivariado

Correlación 2 variables cuantitativas
Variar -1 y 1
correlación = 1 Fuerte relación lineal (directa)
correlación = -1 Fuerte relación lineal (inversa)
Ingresos
Edad Edad
Investigadores Futbolistas
| correlaciones | > 0.85
umbral tener alternativas de desarrollo (tomando distintos umbrales)
RESUMEN DE VARIABLES CATEGÓRICAS
Datos = Realidad Datos de prueba
.describe() aprendizaje del algoritmo
guardar en un objeto X
Datos nuevos usar el objeto X (aprendizaje del algoritmo)
.describe() Generar Predicciones a partir de los datos nuevos
Aceptaron Campaña (TARGET = 1) No Aceptaron Campaña (TARGET = 0)
Efectividad
IDENTIFICADORAS INPUTS (FEATURES) OUTPUT ALGORITMO
CODMES ID Edad Género Deuda SSFF Ahorros TARGET PROB PREDICCIÓN Campaña en el ofrecimiento de un PP
201910 123 30 M 500 20000 0 0.01 0
201912 123 30 M 650 25000 0 0.01 0 1 = Aceptaron la campaña
202002 123 30 M 35000 500 1 0.54 1 0 = No aceptaron la campaña
CODMES Efectividad Campaña UMBRAL >= 0.3

201901 0.05 1000 10 0.01
201902 0.06
201903 0.07
0.08 TRAIN / TEST EVALUAR
0.09 202001 50%
0.05 202004 15%
0.06 201911 77%
202004 0.07
CASO SUPERMERCADOS
TARGET 1 Aceptaron la campaña
0 No aceptaron la campaña
TARGET
SEXO 1 (ACEPTA) 0 (NO ACEPTA) TOTAL
F 103 189 292
M 66 142 208
SEXO EFECTIVIDAD => PROBABILIDAD (CASO FAVORABLES / CASOS TOTALES)

F 35.3%
M 31.7%
EFECTIVIDAD 1 / ( 1 + 0)
ANÁLISIS DE OUTLIERS PATRONES ATÍPICOS
UMBRALES MÍNIMO Y MÁXIMO
VALORES (-) 0 VALORES (+)
IZQUIERDO DERECHO
COLAS (DERECHA) ASIMETRÍA POSITIVA
ROMPIÓ LA NORMALIDAD
LA NORMALIDAD SE ROMPE POR LOS OUTLIERS
EFECTIVIDAD GENERAL DEL PROBLEMA
COEFICIENTES DE ASIMETRÍA
| COEF ASIMETRIA | > UMBRAL
UMBRAL +- 5
COEFICIENTES DE VARIACIÓN
AÑOS
AÑOS
SOLES -17 AÑOS
SOLES
# 238 AÑOS CUADRADOS
15.42724862 AÑOS
14.43 AÑOS = 28.61%

50.44 AÑOS
20% 200%
PREPARACIÓN DE LOS DATOS
LABEL ENCODER
C -> 0
D -> 1
S -> 2
V -> 3
ESTANDARIZAR LA VARIABLE
IDENTIFICADORAS INPUTS (FEATURES)

CODMES ID Edad Género Deuda SSFF Ahorros Edad_Z Deuda_SSFF_Z Ahorros_Z
201910 123 30 M 500 20000 -0.565 -0.643 0.616
201912 123 30 M 650 25000 -0.565 -0.633 0.937
202002 123 30 M 35000 500 -0.565 1.485 -0.633
25 1500 8000 -1.100 -0.581 -0.153
20 1800 1000 -1.635 -0.562 -0.601
36 25000 1200 0.078 0.868 -0.588
45 7500 500 1.042 -0.211 -0.633
52 45000 5000 1.791 2.102 -0.345
38 620 1200 0.292 -0.635 -0.588
42 1200 1800 0.720 -0.599 -0.550
40 1352 50000 0.506 -0.590 2.538
PROMEDIO 35.27272727 10920.18182 10381.81818 0.000 0.000 0.000

DESV. ESTÁNDAR 9.339067503 16215.14947 15607.74283 1 1 1
OUTLIERS
ROBUSTSCALER
EDAD INGRESOS EDAD_Z1 INGRESOS_Z1

18 1000 -1.12 -0.63
25 3500 -0.70 0.03
45 1500 0.51 -0.50
60 1000 1.41 -0.63
35 10000 -0.10 1.72
PROMEDIO 36.6 3400 0.00 0.00

STD 16.6 3830.8 1.0 1.0
MEDIANA
RIC = p75 - p25
Entendimiento y preparación de los datos EDA (Exploratory Data Analysis

Identificadoras Features Target
cuantitativas Robust Scaler
cualitativas numéricas (LabelEncoder)
features -> target Estadística Descriptiva
Analizamos las relaciones entre los features
Features (X) Target (y) Población Efectividad (0.33)
Muestra Efectividad (0.33)
0.338
0.338 Training 70% X_train y_train genera objeto (aprendizaje del algoritmo)
knn
0.338 Testing 30% X_test y_test
Algoritmo realiza
su proceso de
knn.fit(X_train, y_train) aprendizaje del algoritmo se almacena en el objeto knn
aprendizaje 0 1
0
Algoritmo
validará que tan
knn.predict_proba(X_test)[:, 1] 1 0 1
bien aprendió 2 prob no acepte prob acepte
...
TARGET 1 Aceptaron campaña
0 No aceptaron campaña
[:,1]
PROB (NO ACEPTAR) 0
primera posición = filas
PROB (ACEPTAR) 1 segunda posición = columnas
Ingresos = función (Edad, # hijos)

target features
Ingresos estimados = 500 + 10* Edad + 5*# hijos Aprende
ID Edad hijos Ingreso estimado

David 32 1 825
b = prob_knn >= 0.3

probabilidades y_pred_KNN = b * 1
clientes nuevos [:,1] Predicción
0.12 0
features 0.4 1
0.8 1
0.01 0
knn ...
Percentiles, Deciles, Centiles, Ventiles
Aprendizaje Supervisado
Realidad vs Predicción
=> Matriz Confusión
y_test y_pred_KNN
Tabla cruzada (Realidad, Predicción)
Recetario para el entrenamiento y validación del algoritmo

1 Indentificar el algoritmo a usar, definir los parámetros del algoritmo. Definición parámetros: usuario, elegirse de manera automática
2 Entregar los datos de entrenamiento al algoritmo (features: X_train, target: y_train)
3 Entrenamiento del algoritmo (aprendizaje) se almacena en un objeto
4 Con el objeto (aprendizaje del algoritmo) se predice sobre los datos de validación (features: X_test)
5 Eventos (0: No Aceptan la campaña | 1: Aceptan la campaña)
6 Obtención de probabilidades
0 1
0.12 0.3
0 1
0.3 0.48
7 Definir un umbral (umbral se consideró tomar la efectividad promedio de la campaña)

8 Clasificación (predictiva)
9 Realidad: y_test VS Predicción: y_pred_ALGORITMO
10 Calcular las diferentes métricas (Técnicas) => Precision, Recall, F1 score, FN, FP, Accuracy, LogLoss
11 Calcular la relación que existe entre la métrica técnica y el KPI del negocio
3 Meses
Días features target

horas
Identificadores features target
80% X_train y_train nb

20% X_test y_test
fila de la etiqueta (1):
Precision 48%
Recall 59%
f1 score 53%
CROSS VALIDATION CV = 3
Validar
Entrenamiento
Entrenamiento
Validar
Entrenamiento
Entrenamiento
Validar
DIESPLEGUE
PROBABILIDADES AGRUPACIONES
(MEDIDAS DE POSICIÓN)
PERCENTILES
CENTILES 100
DECILES 10
VEINTILES 20
10 9 8 ... 1
+ PROPENSO - PROPENSO
EFECTIVIDAD
HIPÓTESIS + EFECTIVO - EFECTIVO
A/B TESTING
LN ML
FORECAST DEMANDA
400
350
201501 250
201502 200 300
201503 352
250
201504 320
201505 150 200
Series1
201506 250 150
100
50
0
1 2 3 4 5 6
TRAINING 201501 - 201712
TEST 201801 - 201809
RANDOM FOREST
PROBLEMAS DE CLASIFICACIÓN

File 2

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

File 2

Cargado por

Copyright:

Formatos disponibles

Regresión

Familias de algoritmos Redes Neuronales

PROBLEMA BANCA Reto: Colocar Préstamos personales

Métodos de Aprendizaje Generar campañas Tienen un costo Eficientes

Sistema aprenda de los datos necesito datos históricos

CODMES Historia de las campañas que ya se han realizado

¿El problema se puede representar directamente con una única variable?

SI Aprendizaje Supervisado Elegir el o los algoritmos que vamos a entrenar

NO Aprendizaje No Supervisado Elegir el o los algoritmos que vamos a entrenar

Variable objetivo, dependiente (ML: target)

Variable con 2 categorias (0: No aceptaron la campaña | 1: Aceptaron la campaña)

Cada algoritmo ya tiene una metodología de detección de patrones

PROBLEMA TELECOM Reto: Entender las necesidades de mis clientes

IDENTIFICADORAS Consumo Consumo de % tráfico del Cantidad de MB

SEGMENTARLOS Consumo Datos MB

Bajo consumo Medio consumo Alto consumo

Las variables tengan un sentido Segmentación de consumo de servicios móviles

Variable objetivo, dependiente (ML: target)

Demanda de una semana

CODMES SKU TARGET

PROBLEMA BANCA Reto: Colocar Préstamos personales

Métodos de Aprendizaje Generar campañas Tienen un costo Eficientes

IDENTIFICADORAS Información Estática Información

Sistema aprenda de los datos necesito datos históricos

CODMES Historia de las campañas que ya se han realizado

Error existe (minimizar el error)

CODMES ID Edad Género Ingresos Target

Reto: Clasificar a los clientes basado en los 3 grupos

Target = función (Edad, Género, Ingresos)

Algoritmo aprenderá a clasificar (Lujurioso, Ahorrador, Indiferente)

Modelo NC (No Complejo)

RESUMEN DE VARIABLES NUMÉRICAS

50% = Percentil 50 = mediana

Hipótesis Mean = 50%

Mediana No Sensible a los valores atípicos

Formas de los histogramas TARGET 2 categorías V. Cualitativa Problema de Clasificación

Análisis a nivel mutivariado

correlación = 1 Fuerte relación lineal (directa)

correlación = -1 Fuerte relación lineal (inversa)

| correlaciones | > 0.85

umbral tener alternativas de desarrollo (tomando distintos umbrales)

RESUMEN DE VARIABLES CATEGÓRICAS

Datos = Realidad Datos de prueba

.describe() aprendizaje del algoritmo

Datos nuevos usar el objeto X (aprendizaje del algoritmo)

.describe() Generar Predicciones a partir de los datos nuevos

Aceptaron Campaña (TARGET = 1) No Aceptaron Campaña (TARGET = 0)

CODMES Efectividad Campaña UMBRAL >= 0.3

SEXO EFECTIVIDAD => PROBABILIDAD (CASO FAVORABLES / CASOS TOTALES)

ANÁLISIS DE OUTLIERS PATRONES ATÍPICOS

UMBRALES MÍNIMO Y MÁXIMO

VALORES (-) 0 VALORES (+)

COLAS (DERECHA) ASIMETRÍA POSITIVA

LA NORMALIDAD SE ROMPE POR LOS OUTLIERS

EFECTIVIDAD GENERAL DEL PROBLEMA

14.43 AÑOS = 28.61%

PREPARACIÓN DE LOS DATOS

IDENTIFICADORAS INPUTS (FEATURES)

PROMEDIO 35.27272727 10920.18182 10381.81818 0.000 0.000 0.000

EDAD INGRESOS EDAD_Z1 INGRESOS_Z1

PROMEDIO 36.6 3400 0.00 0.00

Entendimiento y preparación de los datos EDA (Exploratory Data Analysis

cuantitativas Robust Scaler