Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Proyecto Final - Machine Learning G2
Proyecto Final - Machine Learning G2
Grupo: 2
Integrantes:
2022
Comprensión del negocio:
Objetivos del negocio
a. Background:
i. CrediScotia lanzó un aplicativo móvil dirigido al uso de sus
clientes para realizar consultas (cuentas, deudas, uso de ahorro)
y transacciones como pagos y transferencias. Se identifica el
siguiente problema:
- La adopción digital que tiene CrediScotia se ha
estancado en un 3% del total de sus clientes hace
3 meses.
b. Objetivos del negocio:
i. Identificar a clientes más propensos al uso de un aplicativo
mediante machine learning. Teniendo en cuenta la información
histórica (1 año) y mediante el uso de un modelo de machine
learning poder identificar a clientes que tienden a usar más el
aplicativo con el fin de realizarles una comunicación diferenciada
que permita incrementar el ratio hasta llegar a un 10% después
de un rango de 6 meses.
ii. Criterios de éxitos:
1. % ratio de adopción digital (# de clientes logueados/total
de clientes)
2. Número de nuevos clientes que adoptan el canal del
aplicativo móvil
3. % ratio del uso del aplicativo (# de transacciones de app/
# transacciones CrediScotia)
4. Número de transacciones
2. Situación de la empresa del problema
a. Inventario de recursos:
i. Recursos humanos: Se requiere de total colaboración y
comunicación entre el área de TI, Canales (de atención) y el
equipo de BI con el fin de poder tener soporte técnico y
disponibilidad de datos.
ii. Recursos de datos: Se requiere de acceso a la base de datos
de maestro de clientes, transacciones y logueos, se decidió
obtener la información del último año con el fin de evaluar la
situación actual de la zona a estudiar.
iii. Recursos Computacionales: Se requiere de 4 laptops
personales con hardware específicos(procesador i7 o similar,
8GB Ram minimo y SSD 500GB) para poder correr los
programas elegidos y descritos, establecer espacio de
almacenamiento con el fin de guardar las muestras de datos
requeridas y necesarias para el estudio y acceso a internet de
banda ancha.
iv. Recursos de software: Se requiere del uso de:
1. Microsoft Excel: Es una herramienta utilizada para
realizar tratamiento y exploración de los datos, además
de poder realizar algunos cálculos matemáticos sobre los
datos a procesar.
2. MySQL Workbench: Herramienta usada para la gestión
de la base de datos
3. Anatella: Software que nos permitirá crear el modelo ML
con el fin de poder gestionarlo.
4. Microsoft Word: Nos permitirá crear y documentar los
resultados del desarrollo y evolución del proyecto
b. Lista de requerimientos, supuestos y restricciones
i. Lista de requerimientos:
d. Terminología:
i. Se establece un cuadro con la terminología específica:
Nombre Descripción
2 Identificar problemática
Fuente de datos:
Consultas
Reportes generados:
Verificar calidad de los datos
Posibles problemas:
Transformación de Datos
Análisis Descriptivo
Análisis de Correlación
Según la siguiente gráfica, las personas entre 20 y 50 años registran más
consumo a través de los recursos de internet. Además de ello, también se
registran una cantidad de outliers entre los 20 y 40 años. Todo esto nos indica
que la variable edad va correlacionado con el uso de internet por parte de los
usuarios en ciertos rangos de edades.
Según la siguiente gráfica, se puede visualizar que los campos “Edad” y
“MontoTrxCanalAgencias” tiene una relación compleja. Las personas entre 20 y
80 años registran más transacciones en agencias. Debido a la relación
compleja que poseen las variables se puede visualizar outliers en diferentes
rangos de edad.
Según la siguiente gráfica, se puede visualizar que los campos “Edad” y
“MontoTrxCanalCajeroExpress” tiene una relación compleja. Las personas
entre 20 y 80 años registran una mayor demanda de transacciones por cajeros.
Debido a la relación compleja que poseen las variables se puede visualizar
outliers en diferentes rangos de edad como 40 y 50 años.
Modelado:
Técnica:
Proyecto en Anatella:
- Primero separaremos todos nuestros datos en 80% para aprendizaje y
20% restante para prueba.
- Los datos para aprendizaje los guardamos directamente en un archivo.
Conclusión:
Versión 1:
Esta primera versión nos arroja 9 variables que son las que TiMI ha tomado, según el
resultado, el modelo nos arroja un AUC de 0.74 y un AUCTop de 0.62.
Variable Edad
Según la siguiente gráfica, las personas menores de 28 años son más probables a que
usen la app, conforme tienen más edad la probabilidad baja.
Variable RatioRetiros
Se observa que los clientes que hacen entre 0.027 y 0.198 de los retiros en el mes
tienen mayor probabilidad de ser digitales.
Variable FlagClienteMES
Esta variable nos dice que los clientes que no tienen crédito Microempresa son más
digitales. Esta variable será discriminada ya que la mayoría de cliente no tienen un
crédito microempresa.
Variable NroTrxConsumoInternet
Observamos que los clientes que han realizado consumos en internet tienden a usar
más la app.
Variable NroTrxDepósitos
Se observa que son más probables a usar la app las personas que han realizado más
de 1 depósito.
Versión 2:
Esta segunda versión nos arroja 18 variables que son las que TiMI ha tomado, según
el resultado, el modelo nos arroja un AUC de 0.81 y un AUCTop de 0.70.
Variable Monto_TrxCanalMakro
Según la siguiente gráfica, las personas menores de 28 años son más probables a que
usen la app, conforme tienen más edad la probabilidad baja.
Variable Edad
Según la siguiente gráfica, las personas menores de 33 años son más probables a que
usen la app, conforme tienen más edad la probabilidad baja.
Variable NroTrxConsumoInternet
Observamos que los clientes que han realizado consumos en internet tienden a usar
más la app.
Variable NroTrxTransferencias
Se observa que son más probables a usar la app las personas que han realizado más
de 1 transferencia.
Versión Final:
Esta versión final nos arroja 18 variables que son las que TiMI ha tomado, según el
resultado, el modelo nos arroja un AUC de 0.81 y un AUCTop de 0.70.
Todas las variables de este modelo, según el conocimiento del negocio, son las que
permiten determinar el uso o no de la app.
Variable Flag_ClientePP
Según la siguiente gráfica, los clientes con un préstamo personal tienden a usar más
la app.
Variable Edad
Según la siguiente gráfica, las personas menores de 33 años son más probables a que
usen la app, conforme tienen más edad la probabilidad baja.
Variable NroTrxConsumoInternet
Observamos que los clientes que han realizado consumos en internet tienden a usar
más la app.
Variable MontoTrxRetiros
Esta variable nos llama la atención ya que se observa que los clientes con grandes
cantidades de retiros no entran a la App.
Conclusión:
● Existen variables como la edad, el monto de los retiros y compras en internet
que explican el comportamiento de las personas que usan la app.
● El modelo predice bien a los clientes que no se loguean, mientras que aún le
falta por mejorar la predicción de los clientes que si entran a la app.
Recomendaciones:
Agregar más variables que expliquen más el comportamiento de los clientes que se
loguean a la app.
Estrategias a tomar:
- Campañas de publicidad de la app mostrando beneficios del modo online, en
especial a personas mayores de 40 años. Tomando en cuenta la pandemia
actual.
- Promociones y/o tasas de créditos bajas siempre y cuando sea usuario de la
app.
- Convenios con servicios y productos (restaurantes, gimnasios, cursos online)