Proyecto Final - Machine Learning G2

UNIVERSIDAD ESAN
PAE EN BUSINESS ANALYTICS
Asignatura: Machine Learning
Profesor: Dora Luisa Valdez Aguinaga
Grupo: 2
Integrantes:
- Miranda Arroyo Wilbor

- Vigo Gutiérrez Karla
- Villena Gonzalo
- Zapata Freddy
2022
Comprensión del negocio:
Objetivos del negocio
a. Background:
i. CrediScotia lanzó un aplicativo móvil dirigido al uso de sus
clientes para realizar consultas (cuentas, deudas, uso de ahorro)
y transacciones como pagos y transferencias. Se identifica el
siguiente problema:
- La adopción digital que tiene CrediScotia se ha
estancado en un 3% del total de sus clientes hace
3 meses.
b. Objetivos del negocio:
i. Identificar a clientes más propensos al uso de un aplicativo
mediante machine learning. Teniendo en cuenta la información
histórica (1 año) y mediante el uso de un modelo de machine
learning poder identificar a clientes que tienden a usar más el
aplicativo con el fin de realizarles una comunicación diferenciada
que permita incrementar el ratio hasta llegar a un 10% después
de un rango de 6 meses.
ii. Criterios de éxitos:
1. % ratio de adopción digital (# de clientes logueados/total
de clientes)
2. Número de nuevos clientes que adoptan el canal del
aplicativo móvil
3. % ratio del uso del aplicativo (# de transacciones de app/
# transacciones CrediScotia)
4. Número de transacciones
2. Situación de la empresa del problema
a. Inventario de recursos:
i. Recursos humanos: Se requiere de total colaboración y
comunicación entre el área de TI, Canales (de atención) y el
equipo de BI con el fin de poder tener soporte técnico y
disponibilidad de datos.
ii. Recursos de datos: Se requiere de acceso a la base de datos
de maestro de clientes, transacciones y logueos, se decidió
obtener la información del último año con el fin de evaluar la
situación actual de la zona a estudiar.
iii. Recursos Computacionales: Se requiere de 4 laptops
personales con hardware específicos(procesador i7 o similar,
8GB Ram minimo y SSD 500GB) para poder correr los
programas elegidos y descritos, establecer espacio de
almacenamiento con el fin de guardar las muestras de datos
requeridas y necesarias para el estudio y acceso a internet de
banda ancha.
iv. Recursos de software: Se requiere del uso de:
1. Microsoft Excel: Es una herramienta utilizada para
realizar tratamiento y exploración de los datos, además
de poder realizar algunos cálculos matemáticos sobre los
datos a procesar.
2. MySQL Workbench: Herramienta usada para la gestión
de la base de datos
3. Anatella: Software que nos permitirá crear el modelo ML
con el fin de poder gestionarlo.
4. Microsoft Word: Nos permitirá crear y documentar los
resultados del desarrollo y evolución del proyecto
b. Lista de requerimientos, supuestos y restricciones
i. Lista de requerimientos:
1. Creación de un usuario para acceder a las bases de

datos de la empresa.
2. Diccionario de datos de la base de datos de canales y
app.
3. Muestras de información de las bases de datos del
aplicativo.
ii. Lista de supuestos:
1. Incremento del 3% al 10% de adopción digital en 6

meses.
iii. Lista de restricciones:
1. Al trabajar directamente con los datos de la empresa y
clientes, se resalta que no se tomará en cuenta ningún
dato que podría ser sensible con la finalidad de proteger
la identidad e integridad de los clientes.
2. No se contará con ningún presupuesto adicional
c. Riesgos y planes de contingencia
i. Se presenta un plan para identificar posibles riesgos que puedan
ocurrir durante la realización del trabajo y además de posibles
soluciones garantizando la continuidad del plan.
I Riesgo Probabilidad Impacto Mitigación del

D riesgo
1 No poder identificar Baja Alto Investigar,

algún objetivo de recolectar
negocio o ML información e
incluir datos
asociados al
objetivo
2 Obtener resultados Medio Alto Identificar la fase

incorrectos o donde ocurre el
imprevistos error y corregirlo
3 No cumplir con el Baja Alto Reestructurar las

plazo establecido de tareas asignadas
entrega dentro del equipo
de trabajo
4 No disponibilidad o Alta Alto Reorganizar y

baja total de algún establecer nuevos
miembro del equipo horarios, teniendo
responsable por el una planificación
proyecto en función a la
disponibilidad del
miembro
7 Pérdida parcial o Alta Alto Generar backups

total del trabajo interdiarios
realizado hasta
ahora
8 No recuperar ni Media Alto Automatizar

restablecer algún procesos para
backup ni fichero de generar backups
restauración en la nube
d. Terminología:
i. Se establece un cuadro con la terminología específica:
Nombre Descripción
CRISP-DM Metodología utilizada en el

desarrollo del proyecto, siglas que
significa Cross Industry Standard
Process for Data Mining.
Adopción digital Cantidad de clientes que hacen

uso del aplicativo
Modelo Conjunto de datos con el cual se

puede aplicar diferentes
algoritmos.
Logueo Inicio de sesión de un clientes en

la app
Fase A grandes rasgos es un conjunto de tareas

relacionadas
Tarea Una serie de actividades que producen una o más

salidas
Transacciones Movimientos entre clientes en la agencia, agentes y

app
Backup Se refiere a una copia de los datos originales, se

realiza con el fin de disponer de un medio de
recuperarlos en caso de pérdida o eventos
imprevistos.
Machine Learning El Machine Learning es una disciplina del campo de

la Inteligencia Artificial que, a través de algoritmos,
dota a los ordenadores de la capacidad de
identificar patrones en datos masivos y elaborar
predicciones
Datos cualitativos Se representa por aquellos datos que son etiquetas

y se dividen en nominales y ordinales
Datos Datos que usualmente son representados

cuantitativos numéricamente
e. Análisis costo beneficio del proyecto:
3. Determinar objetivos de Machine Learning

a. Objetivos de machine learning:
i. Se describen en la siguiente tabla los objetivos de machine
learning
Nro Objetivo ML Descripción Objetivo de Negocio
1 Identificar a Obtener un Enfocar la estrategia

clientes más modelo de comercial a los clientes
propensos al clasificación que resulten ser más
uso del utilizando como propensos a usar el
aplicativo variables la aplicativo para
CrediScotia información del aumentar la adopción
cliente y del digital y la
uso de la app transaccionalidad por
este canal.
b. Criterio de éxito de machine learning:

i. Se describe en la siguiente tabla los criterios de éxito de
machine learning
Nro. Objetivo ML Medida de éxito
1 Obtener una Obtener un modelo de clasificación con

clasificación un conjunto de entrenamiento
de clientes conformado por el 80% de los datos de
más la fuente de datos de origen, con un
propensos al conjunto de testeo del 20% restante, con
uso de la app el fin de lograr un porcentaje de éxito
mayor al 75% y resultados óptimos en
las medidas esperadas.
4. Plan de proyecto
a. Plan del proyecto:
i. Lista de tareas:
1. Se describe la planificación del proyecto.
Nro. de Descripción de tarea

Tarea
1 Conocer el negocio de la empresa
2 Identificar problemática
3 Comprender la problemática encontrada
4 Seleccionar fuentes de datos
5 Gestionar la limpieza y preparación de datos
6 Evaluar los resultados obtenidos
7 Identificar posibles errores
8 Corregir en caso se hayan encontrado errores
9 Implementación del modelo
10 Campañas dirigidas a clientes más propensos
ii. Duración y recursos necesarios:

1. Se requiere 2 meses de trabajo en total para la
realización del proyecto hasta su culminación.
2. Fecha límite de entrega del trabajo establecida a finales
de febrero del 2022.
3. Se cuenta con un equipo humano de 4 personas.
4. Se cuenta con los espacios necesarios para lograr tener
reuniones seguras y desarrollar el proyecto en el tiempo
establecido.
iii. Diagrama de Gantt:

1. Se establece el diagrama de Gantt que permitirá
organizar las tareas en etapas:
b. Evaluación inicial de herramientas y técnicas:

i. Existen muchas alternativas para la realización de este proyecto,
tales, de acuerdo a reuniones y debates con el equipo de trabajo
se determinó que tratando de adaptar el proyecto a
herramientas versátiles se ha decidido optar por la herramientas
analítica Anatella que es la se está conociendo en el transcurso
del curso.
ii. Refiriéndose a las técnicas a utilizar, tenemos la siguiente:
1. Modelo de aprendizaje no supervisado:
a. Clasificación.
Comprensión de los datos:

Colección de datos
Fuente de datos:
- Módulo Clave Digital
En este módulo se registran todos los clientes a quienes se les ha

generado un clave digital para realizar transacciones en línea.
- BD de logueos y transacciones a la app CrediScotia
En el app se registran todos los clientes que se loguean y las

transacciones que realizan (transferencias, pagos, consultas, etc).
- BD de tenencia de productos ( Módulo de finanzas)
En este módulo se registran todos los saldos y producción de los

clientes de CrediScotia, permitiendo identificar los productos que tiene
cada cliente.
- BD de transacciones (Módulo de contabilidad)
En este módulo se registran todas las transacciones que realiza el

cliente en todos los canales que tiene a su disposición ( agencias,
cajeros automáticos, cajeros corresponsales, agentes, app, etc).
- BD demográfica (Módulo de clientes y personas)
Se registra la información personal de los clientes y personas que

solicitan algún crédito ( nombre, dirección ,sexo, etc).
Descripción de los datos
- Se tiene los registros de 100 000 clientes aproximadamente

- Periodo: 12 meses
a. Diccionario de datos:
Se explica la descripción de cada columna de la base de datos extraída

para el proyecto.
Explorar la data
Consultas
- % de clientes adoptados digitalmente

- Cantidad de clientes CrediScotia
- Número de transacciones por cliente
- Pérdida de clientes logueados
- Ganancia de clientes logueados
- Distribución por grupo de productos de clientes logueados
- Tipo de transacciones que realizan los clientes en la app
Reportes generados:
Verificar calidad de los datos
Posibles problemas:
- La identificación de las transacciones por cliente, se debe

tener mucho cuidado al momento de implementar la lógica y debe
estar acompañado del equipo TI especializado en esta base de
datos.
- Identificación de cliente CrediScotia, debemos tener en cuenta
que existe en la actualidad 4 definiciones de cliente. La última
definición de cliente aprobada por el gerente general fue Tarjeta
de Crédito Activas, Ahorros con saldo mayor a 100 soles, cliente
con préstamo personal vigente, cliente con préstamo
microempresa vigente, cliente con depósitos a plazo, cliente con
Cts.
- Información de producción y saldos nulos, estos casos no se
consideran.
Transformación de Datos
- Estamos usando dos bases de datos, uniéndose con el Join para

manejar una sola fuente de datos.
- Convertimos la variable Periodo a valor numérico
- Hacemos una agregación por IdCliente y sumamos todas las variables
para ver el total por cada Id.
- Todos los Flags
- Las transacciones
- Montos
- Tras ponemos los dos resultados anteriores en columnas.
- Concatenamos el IdCliente y Periodo en un solo Key para tener como un
dato único por registro.
- Volvemos a hacer una agregación como anteriormente pero teniendo en
cuenta el Key creado recientemente, además de sumarizar todas las
variables.
- A las variables de Transacciones y Montos las renombramos para
identificarlas como resultado mensual.
- Unimos todos los resultados en columnas, y posteriormente ordenamos
el IdCliente de forma creciente y agrupamos por el Periodo de cada
registro.
- Al resultado obtenido escogemos las variables que queremos trasponer
categorizándolos por Periodo y el Key será el IdCliente, como:
- FlagCliente
- Canales
- Transacciones
- Montos
- Sacamos el promedio de retiros y el promedio de consumo de internet
del cliente.
- Con el fin de realizar una limpieza a los datos, primero convertimos los
datos a tipo String.
- Las columnas que tengan como valores “nan” las convertimos a 0.
- Nuevamente, convertimos los datos de String a Float.
- Luego, convertimos a Key las siguientes variables:
- Por último, convertimos a 1 los que hagan uso de la App actualmente y a

0 los que no lo usen para identificar los dos segmentos.
Análisis Descriptivo
Análisis de Correlación
Según la siguiente gráfica, las personas entre 20 y 50 años registran más
consumo a través de los recursos de internet. Además de ello, también se
registran una cantidad de outliers entre los 20 y 40 años. Todo esto nos indica
que la variable edad va correlacionado con el uso de internet por parte de los
usuarios en ciertos rangos de edades.
Según la siguiente gráfica, se puede visualizar que los campos “Edad” y
“MontoTrxCanalAgencias” tiene una relación compleja. Las personas entre 20 y
80 años registran más transacciones en agencias. Debido a la relación
compleja que poseen las variables se puede visualizar outliers en diferentes
rangos de edad.
Según la siguiente gráfica, se puede visualizar que los campos “Edad” y
“MontoTrxCanalCajeroExpress” tiene una relación compleja. Las personas
entre 20 y 80 años registran una mayor demanda de transacciones por cajeros.
Debido a la relación compleja que poseen las variables se puede visualizar
outliers en diferentes rangos de edad como 40 y 50 años.
Modelado:
Técnica:
- Aprendizaje no supervisado: Clasificación
Proyecto en Anatella:
- Primero separaremos todos nuestros datos en 80% para aprendizaje y
20% restante para prueba.
- Los datos para aprendizaje los guardamos directamente en un archivo.
- Tanto a los datos de aprendizaje como de prueba se ejecuta el modelo

en Timi, donde sacamos una variable “Predictions” que se va a
comparar con nuestro Target. Ordenamos ambos valores para
comparar.
- Posteriormente en la columna “Predictions” convertimos a 1, si el valor
es mayor o igual a 0.65 y a los menores los convertimos a 0, para
después realizar las matrices de confusión por cada segmento.
- Matriz de confusión Learning:
Se está prediciendo con el 95.37% de exactitud en los datos de

aprendizaje.
La predicción de las personas que se loguean es del 1.20%
La predicción de las personas que no se loguean es del 94.18%
- Matriz de confusión Test:
Se está prediciendo con el 89.87% de exactitud en los datos de prueba.
La predicción de las personas que se loguean es del 1.26%
La predicción de las personas que no se loguean es del 88.61%
Conclusión:
Se está prediciendo correctamente el segmento de usuarios que no se

loguean en la app, más no a los que si se loguean. Es necesario incluir
más variables que describan el comportamiento del usuario para la
predicción que se requiere.
- Resultados del TiMi Modeler:
Versión 1:
Esta primera versión nos arroja 9 variables que son las que TiMI ha tomado, según el
resultado, el modelo nos arroja un AUC de 0.74 y un AUCTop de 0.62.
En esta versión considera la variable Flag_ClienteMES que no deberíamos tomar ya

que la información nula o cero que contiene es casi el 100% de la data.
Variable Edad
Según la siguiente gráfica, las personas menores de 28 años son más probables a que
usen la app, conforme tienen más edad la probabilidad baja.
Variable RatioRetiros
Se observa que los clientes que hacen entre 0.027 y 0.198 de los retiros en el mes
tienen mayor probabilidad de ser digitales.
Variable FlagClienteMES
Esta variable nos dice que los clientes que no tienen crédito Microempresa son más
digitales. Esta variable será discriminada ya que la mayoría de cliente no tienen un
crédito microempresa.
Variable NroTrxConsumoInternet
Observamos que los clientes que han realizado consumos en internet tienden a usar
más la app.
Variable NroTrxDepósitos
Se observa que son más probables a usar la app las personas que han realizado más
de 1 depósito.
Versión 2:
Esta segunda versión nos arroja 18 variables que son las que TiMI ha tomado, según
el resultado, el modelo nos arroja un AUC de 0.81 y un AUCTop de 0.70.
En esta versión considera la variable Monto_TrxCanalMakro que no deberíamos tomar

ya que la información nula o cero que contiene es casi el 100% de la data.
Variable Monto_TrxCanalMakro
Variable Edad
más la app.
Variable NroTrxTransferencias
Se observa que son más probables a usar la app las personas que han realizado más
de 1 transferencia.
Versión Final:
Esta versión final nos arroja 18 variables que son las que TiMI ha tomado, según el
resultado, el modelo nos arroja un AUC de 0.81 y un AUCTop de 0.70.
Todas las variables de este modelo, según el conocimiento del negocio, son las que
permiten determinar el uso o no de la app.
Variable Flag_ClientePP
Según la siguiente gráfica, los clientes con un préstamo personal tienden a usar más
la app.
Variable Edad
más la app.
Variable MontoTrxRetiros
Esta variable nos llama la atención ya que se observa que los clientes con grandes
cantidades de retiros no entran a la App.
Conclusión:
● Existen variables como la edad, el monto de los retiros y compras en internet
que explican el comportamiento de las personas que usan la app.
● Encontramos variables que no hemos considerado debido a que no tienen data

o en su mayoría son nulos.
● El modelo predice bien a los clientes que no se loguean, mientras que aún le
falta por mejorar la predicción de los clientes que si entran a la app.
Recomendaciones:
Agregar más variables que expliquen más el comportamiento de los clientes que se
loguean a la app.
Estrategias a tomar:
- Campañas de publicidad de la app mostrando beneficios del modo online, en
especial a personas mayores de 40 años. Tomando en cuenta la pandemia
actual.
- Promociones y/o tasas de créditos bajas siempre y cuando sea usuario de la
app.
- Convenios con servicios y productos (restaurantes, gimnasios, cursos online)

Proyecto Final - Machine Learning G2

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Proyecto Final - Machine Learning G2

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD ESAN

PAE EN BUSINESS ANALYTICS

Asignatura: Machine Learning

Profesor: Dora Luisa Valdez Aguinaga

- Miranda Arroyo Wilbor

1. Creación de un usuario para acceder a las bases de

ii. Lista de supuestos:

1. Incremento del 3% al 10% de adopción digital en 6

I Riesgo Probabilidad Impacto Mitigación del

1 No poder identificar Baja Alto Investigar,

2 Obtener resultados Medio Alto Identificar la fase

3 No cumplir con el Baja Alto Reestructurar las

4 No disponibilidad o Alta Alto Reorganizar y

7 Pérdida parcial o Alta Alto Generar backups

8 No recuperar ni Media Alto Automatizar

CRISP-DM Metodología utilizada en el

Adopción digital Cantidad de clientes que hacen

Modelo Conjunto de datos con el cual se

Logueo Inicio de sesión de un clientes en

Fase A grandes rasgos es un conjunto de tareas

Tarea Una serie de actividades que producen una o más

Transacciones Movimientos entre clientes en la agencia, agentes y

Backup Se refiere a una copia de los datos originales, se

Machine Learning El Machine Learning es una disciplina del campo de

Datos cualitativos Se representa por aquellos datos que son etiquetas

Datos Datos que usualmente son representados

e. Análisis costo beneficio del proyecto:

3. Determinar objetivos de Machine Learning

Nro Objetivo ML Descripción Objetivo de Negocio

1 Identificar a Obtener un Enfocar la estrategia

b. Criterio de éxito de machine learning:

Nro. Objetivo ML Medida de éxito

1 Obtener una Obtener un modelo de clasificación con

Nro. de Descripción de tarea

1 Conocer el negocio de la empresa

3 Comprender la problemática encontrada

4 Seleccionar fuentes de datos

5 Gestionar la limpieza y preparación de datos

6 Evaluar los resultados obtenidos

7 Identificar posibles errores

8 Corregir en caso se hayan encontrado errores

9 Implementación del modelo

10 Campañas dirigidas a clientes más propensos

ii. Duración y recursos necesarios:

iii. Diagrama de Gantt:

b. Evaluación inicial de herramientas y técnicas:

Comprensión de los datos:

- Módulo Clave Digital

En este módulo se registran todos los clientes a quienes se les ha

- BD de logueos y transacciones a la app CrediScotia

En el app se registran todos los clientes que se loguean y las

- BD de tenencia de productos ( Módulo de finanzas)

En este módulo se registran todos los saldos y producción de los

- BD de transacciones (Módulo de contabilidad)

En este módulo se registran todas las transacciones que realiza el

- BD demográfica (Módulo de clientes y personas)

Se registra la información personal de los clientes y personas que

- Se tiene los registros de 100 000 clientes aproximadamente

Se explica la descripción de cada columna de la base de datos extraída

- % de clientes adoptados digitalmente

- La identificación de las transacciones por cliente, se debe

- Estamos usando dos bases de datos, uniéndose con el Join para