Está en la página 1de 30

UNIVERSIDAD ESAN

PAE EN BUSINESS ANALYTICS

Asignatura: Machine Learning

Profesor: Dora Luisa Valdez Aguinaga

Grupo: 2

Integrantes:

- Miranda Arroyo Wilbor


- Vigo Gutiérrez Karla
- Villena Gonzalo
- Zapata Freddy

2022
Comprensión del negocio:
Objetivos del negocio

a. Background:
i. CrediScotia lanzó un aplicativo móvil dirigido al uso de sus
clientes para realizar consultas (cuentas, deudas, uso de ahorro)
y transacciones como pagos y transferencias. Se identifica el
siguiente problema:
- La adopción digital que tiene CrediScotia se ha
estancado en un 3% del total de sus clientes hace
3 meses.
b. Objetivos del negocio:
i. Identificar a clientes más propensos al uso de un aplicativo
mediante machine learning. Teniendo en cuenta la información
histórica (1 año) y mediante el uso de un modelo de machine
learning poder identificar a clientes que tienden a usar más el
aplicativo con el fin de realizarles una comunicación diferenciada
que permita incrementar el ratio hasta llegar a un 10% después
de un rango de 6 meses.
ii. Criterios de éxitos:
1. % ratio de adopción digital (# de clientes logueados/total
de clientes)
2. Número de nuevos clientes que adoptan el canal del
aplicativo móvil
3. % ratio del uso del aplicativo (# de transacciones de app/
# transacciones CrediScotia)
4. Número de transacciones
2. Situación de la empresa del problema
a. Inventario de recursos:
i. Recursos humanos: Se requiere de total colaboración y
comunicación entre el área de TI, Canales (de atención) y el
equipo de BI con el fin de poder tener soporte técnico y
disponibilidad de datos.
ii. Recursos de datos: Se requiere de acceso a la base de datos
de maestro de clientes, transacciones y logueos, se decidió
obtener la información del último año con el fin de evaluar la
situación actual de la zona a estudiar.
iii. Recursos Computacionales: Se requiere de 4 laptops
personales con hardware específicos(procesador i7 o similar,
8GB Ram minimo y SSD 500GB) para poder correr los
programas elegidos y descritos, establecer espacio de
almacenamiento con el fin de guardar las muestras de datos
requeridas y necesarias para el estudio y acceso a internet de
banda ancha.
iv. Recursos de software: Se requiere del uso de:
1. Microsoft Excel: Es una herramienta utilizada para
realizar tratamiento y exploración de los datos, además
de poder realizar algunos cálculos matemáticos sobre los
datos a procesar.
2. MySQL Workbench: Herramienta usada para la gestión
de la base de datos
3. Anatella: Software que nos permitirá crear el modelo ML
con el fin de poder gestionarlo.
4. Microsoft Word: Nos permitirá crear y documentar los
resultados del desarrollo y evolución del proyecto
b. Lista de requerimientos, supuestos y restricciones
i. Lista de requerimientos:

1. Creación de un usuario para acceder a las bases de


datos de la empresa.
2. Diccionario de datos de la base de datos de canales y
app.
3. Muestras de información de las bases de datos del
aplicativo.

ii. Lista de supuestos:

1. Incremento del 3% al 10% de adopción digital en 6


meses.
iii. Lista de restricciones:
1. Al trabajar directamente con los datos de la empresa y
clientes, se resalta que no se tomará en cuenta ningún
dato que podría ser sensible con la finalidad de proteger
la identidad e integridad de los clientes.
2. No se contará con ningún presupuesto adicional
c. Riesgos y planes de contingencia
i. Se presenta un plan para identificar posibles riesgos que puedan
ocurrir durante la realización del trabajo y además de posibles
soluciones garantizando la continuidad del plan.

I Riesgo Probabilidad Impacto Mitigación del


D riesgo

1 No poder identificar Baja Alto Investigar,


algún objetivo de recolectar
negocio o ML información e
incluir datos
asociados al
objetivo

2 Obtener resultados Medio Alto Identificar la fase


incorrectos o donde ocurre el
imprevistos error y corregirlo

3 No cumplir con el Baja Alto Reestructurar las


plazo establecido de tareas asignadas
entrega dentro del equipo
de trabajo

4 No disponibilidad o Alta Alto Reorganizar y


baja total de algún establecer nuevos
miembro del equipo horarios, teniendo
responsable por el una planificación
proyecto en función a la
disponibilidad del
miembro

7 Pérdida parcial o Alta Alto Generar backups


total del trabajo interdiarios
realizado hasta
ahora

8 No recuperar ni Media Alto Automatizar


restablecer algún procesos para
backup ni fichero de generar backups
restauración en la nube

d. Terminología:
i. Se establece un cuadro con la terminología específica:

Nombre Descripción

CRISP-DM Metodología utilizada en el


desarrollo del proyecto, siglas que
significa Cross Industry Standard
Process for Data Mining.

Adopción digital Cantidad de clientes que hacen


uso del aplicativo

Modelo Conjunto de datos con el cual se


puede aplicar diferentes
algoritmos.

Logueo Inicio de sesión de un clientes en


la app

Fase A grandes rasgos es un conjunto de tareas


relacionadas

Tarea Una serie de actividades que producen una o más


salidas

Transacciones Movimientos entre clientes en la agencia, agentes y


app

Backup Se refiere a una copia de los datos originales, se


realiza con el fin de disponer de un medio de
recuperarlos en caso de pérdida o eventos
imprevistos.

Machine Learning El Machine Learning es una disciplina del campo de


la Inteligencia Artificial que, a través de algoritmos,
dota a los ordenadores de la capacidad de
identificar patrones en datos masivos y elaborar
predicciones

Datos cualitativos Se representa por aquellos datos que son etiquetas


y se dividen en nominales y ordinales

Datos Datos que usualmente son representados


cuantitativos numéricamente

e. Análisis costo beneficio del proyecto:

3. Determinar objetivos de Machine Learning


a. Objetivos de machine learning:
i. Se describen en la siguiente tabla los objetivos de machine
learning

Nro Objetivo ML Descripción Objetivo de Negocio

1 Identificar a Obtener un Enfocar la estrategia


clientes más modelo de comercial a los clientes
propensos al clasificación que resulten ser más
uso del utilizando como propensos a usar el
aplicativo variables la aplicativo para
CrediScotia información del aumentar la adopción
cliente y del digital y la
uso de la app transaccionalidad por
este canal.

b. Criterio de éxito de machine learning:


i. Se describe en la siguiente tabla los criterios de éxito de
machine learning

Nro. Objetivo ML Medida de éxito

1 Obtener una Obtener un modelo de clasificación con


clasificación un conjunto de entrenamiento
de clientes conformado por el 80% de los datos de
más la fuente de datos de origen, con un
propensos al conjunto de testeo del 20% restante, con
uso de la app el fin de lograr un porcentaje de éxito
mayor al 75% y resultados óptimos en
las medidas esperadas.
4. Plan de proyecto
a. Plan del proyecto:
i. Lista de tareas:
1. Se describe la planificación del proyecto.

Nro. de Descripción de tarea


Tarea

1 Conocer el negocio de la empresa

2 Identificar problemática

3 Comprender la problemática encontrada

4 Seleccionar fuentes de datos

5 Gestionar la limpieza y preparación de datos

6 Evaluar los resultados obtenidos

7 Identificar posibles errores

8 Corregir en caso se hayan encontrado errores

9 Implementación del modelo

10 Campañas dirigidas a clientes más propensos

ii. Duración y recursos necesarios:


1. Se requiere 2 meses de trabajo en total para la
realización del proyecto hasta su culminación.
2. Fecha límite de entrega del trabajo establecida a finales
de febrero del 2022.
3. Se cuenta con un equipo humano de 4 personas.
4. Se cuenta con los espacios necesarios para lograr tener
reuniones seguras y desarrollar el proyecto en el tiempo
establecido.

iii. Diagrama de Gantt:


1. Se establece el diagrama de Gantt que permitirá
organizar las tareas en etapas:

b. Evaluación inicial de herramientas y técnicas:


i. Existen muchas alternativas para la realización de este proyecto,
tales, de acuerdo a reuniones y debates con el equipo de trabajo
se determinó que tratando de adaptar el proyecto a
herramientas versátiles se ha decidido optar por la herramientas
analítica Anatella que es la se está conociendo en el transcurso
del curso.
ii. Refiriéndose a las técnicas a utilizar, tenemos la siguiente:
1. Modelo de aprendizaje no supervisado:
a. Clasificación.

Comprensión de los datos:


Colección de datos

Fuente de datos:

- Módulo Clave Digital

En este módulo se registran todos los clientes a quienes se les ha


generado un clave digital para realizar transacciones en línea.

- BD de logueos y transacciones a la app CrediScotia

En el app se registran todos los clientes que se loguean y las


transacciones que realizan (transferencias, pagos, consultas, etc).

- BD de tenencia de productos ( Módulo de finanzas)

En este módulo se registran todos los saldos y producción de los


clientes de CrediScotia, permitiendo identificar los productos que tiene
cada cliente.

- BD de transacciones (Módulo de contabilidad)

En este módulo se registran todas las transacciones que realiza el


cliente en todos los canales que tiene a su disposición ( agencias,
cajeros automáticos, cajeros corresponsales, agentes, app, etc).

- BD demográfica (Módulo de clientes y personas)

Se registra la información personal de los clientes y personas que


solicitan algún crédito ( nombre, dirección ,sexo, etc).
Descripción de los datos

- Se tiene los registros de 100 000 clientes aproximadamente


- Periodo: 12 meses
a. Diccionario de datos:

Se explica la descripción de cada columna de la base de datos extraída


para el proyecto.
Explorar la data

Consultas

- % de clientes adoptados digitalmente


- Cantidad de clientes CrediScotia
- Número de transacciones por cliente
- Pérdida de clientes logueados
- Ganancia de clientes logueados
- Distribución por grupo de productos de clientes logueados
- Tipo de transacciones que realizan los clientes en la app

Reportes generados:
Verificar calidad de los datos

Posibles problemas:

- La identificación de las transacciones por cliente, se debe


tener mucho cuidado al momento de implementar la lógica y debe
estar acompañado del equipo TI especializado en esta base de
datos.
- Identificación de cliente CrediScotia, debemos tener en cuenta
que existe en la actualidad 4 definiciones de cliente. La última
definición de cliente aprobada por el gerente general fue Tarjeta
de Crédito Activas, Ahorros con saldo mayor a 100 soles, cliente
con préstamo personal vigente, cliente con préstamo
microempresa vigente, cliente con depósitos a plazo, cliente con
Cts.
- Información de producción y saldos nulos, estos casos no se
consideran.

Transformación de Datos

- Estamos usando dos bases de datos, uniéndose con el Join para


manejar una sola fuente de datos.
- Convertimos la variable Periodo a valor numérico
- Hacemos una agregación por IdCliente y sumamos todas las variables
para ver el total por cada Id.
- Todos los Flags
- Las transacciones
- Montos
- Tras ponemos los dos resultados anteriores en columnas.
- Concatenamos el IdCliente y Periodo en un solo Key para tener como un
dato único por registro.
- Volvemos a hacer una agregación como anteriormente pero teniendo en
cuenta el Key creado recientemente, además de sumarizar todas las
variables.
- A las variables de Transacciones y Montos las renombramos para
identificarlas como resultado mensual.
- Unimos todos los resultados en columnas, y posteriormente ordenamos
el IdCliente de forma creciente y agrupamos por el Periodo de cada
registro.
- Al resultado obtenido escogemos las variables que queremos trasponer
categorizándolos por Periodo y el Key será el IdCliente, como:
- FlagCliente
- Canales
- Transacciones
- Montos
- Sacamos el promedio de retiros y el promedio de consumo de internet
del cliente.
- Con el fin de realizar una limpieza a los datos, primero convertimos los
datos a tipo String.
- Las columnas que tengan como valores “nan” las convertimos a 0.
- Nuevamente, convertimos los datos de String a Float.
- Luego, convertimos a Key las siguientes variables:

- Por último, convertimos a 1 los que hagan uso de la App actualmente y a


0 los que no lo usen para identificar los dos segmentos.

Análisis Descriptivo
Análisis de Correlación
Según la siguiente gráfica, las personas entre 20 y 50 años registran más
consumo a través de los recursos de internet. Además de ello, también se
registran una cantidad de outliers entre los 20 y 40 años. Todo esto nos indica
que la variable edad va correlacionado con el uso de internet por parte de los
usuarios en ciertos rangos de edades.
Según la siguiente gráfica, se puede visualizar que los campos “Edad” y
“MontoTrxCanalAgencias” tiene una relación compleja. Las personas entre 20 y
80 años registran más transacciones en agencias. Debido a la relación
compleja que poseen las variables se puede visualizar outliers en diferentes
rangos de edad.
Según la siguiente gráfica, se puede visualizar que los campos “Edad” y
“MontoTrxCanalCajeroExpress” tiene una relación compleja. Las personas
entre 20 y 80 años registran una mayor demanda de transacciones por cajeros.
Debido a la relación compleja que poseen las variables se puede visualizar
outliers en diferentes rangos de edad como 40 y 50 años.
Modelado:
Técnica:

- Aprendizaje no supervisado: Clasificación

Proyecto en Anatella:
- Primero separaremos todos nuestros datos en 80% para aprendizaje y
20% restante para prueba.
- Los datos para aprendizaje los guardamos directamente en un archivo.

- Tanto a los datos de aprendizaje como de prueba se ejecuta el modelo


en Timi, donde sacamos una variable “Predictions” que se va a
comparar con nuestro Target. Ordenamos ambos valores para
comparar.
- Posteriormente en la columna “Predictions” convertimos a 1, si el valor
es mayor o igual a 0.65 y a los menores los convertimos a 0, para
después realizar las matrices de confusión por cada segmento.
- Matriz de confusión Learning:

Se está prediciendo con el 95.37% de exactitud en los datos de


aprendizaje.

La predicción de las personas que se loguean es del 1.20%

La predicción de las personas que no se loguean es del 94.18%

- Matriz de confusión Test:

Se está prediciendo con el 89.87% de exactitud en los datos de prueba.

La predicción de las personas que se loguean es del 1.26%

La predicción de las personas que no se loguean es del 88.61%

Conclusión:

Se está prediciendo correctamente el segmento de usuarios que no se


loguean en la app, más no a los que si se loguean. Es necesario incluir
más variables que describan el comportamiento del usuario para la
predicción que se requiere.
- Resultados del TiMi Modeler:

Versión 1:

Esta primera versión nos arroja 9 variables que son las que TiMI ha tomado, según el
resultado, el modelo nos arroja un AUC de 0.74 y un AUCTop de 0.62.

En esta versión considera la variable Flag_ClienteMES que no deberíamos tomar ya


que la información nula o cero que contiene es casi el 100% de la data.

Variable Edad
Según la siguiente gráfica, las personas menores de 28 años son más probables a que
usen la app, conforme tienen más edad la probabilidad baja.
Variable RatioRetiros
Se observa que los clientes que hacen entre 0.027 y 0.198 de los retiros en el mes
tienen mayor probabilidad de ser digitales.

Variable FlagClienteMES
Esta variable nos dice que los clientes que no tienen crédito Microempresa son más
digitales. Esta variable será discriminada ya que la mayoría de cliente no tienen un
crédito microempresa.

Variable NroTrxConsumoInternet
Observamos que los clientes que han realizado consumos en internet tienden a usar
más la app.

Variable NroTrxDepósitos
Se observa que son más probables a usar la app las personas que han realizado más
de 1 depósito.
Versión 2:

Esta segunda versión nos arroja 18 variables que son las que TiMI ha tomado, según
el resultado, el modelo nos arroja un AUC de 0.81 y un AUCTop de 0.70.

En esta versión considera la variable Monto_TrxCanalMakro que no deberíamos tomar


ya que la información nula o cero que contiene es casi el 100% de la data.

Variable Monto_TrxCanalMakro
Según la siguiente gráfica, las personas menores de 28 años son más probables a que
usen la app, conforme tienen más edad la probabilidad baja.
Variable Edad
Según la siguiente gráfica, las personas menores de 33 años son más probables a que
usen la app, conforme tienen más edad la probabilidad baja.
Variable NroTrxConsumoInternet
Observamos que los clientes que han realizado consumos en internet tienden a usar
más la app.

Variable NroTrxTransferencias
Se observa que son más probables a usar la app las personas que han realizado más
de 1 transferencia.
Versión Final:

Esta versión final nos arroja 18 variables que son las que TiMI ha tomado, según el
resultado, el modelo nos arroja un AUC de 0.81 y un AUCTop de 0.70.

Todas las variables de este modelo, según el conocimiento del negocio, son las que
permiten determinar el uso o no de la app.

Variable Flag_ClientePP
Según la siguiente gráfica, los clientes con un préstamo personal tienden a usar más
la app.

Variable Edad
Según la siguiente gráfica, las personas menores de 33 años son más probables a que
usen la app, conforme tienen más edad la probabilidad baja.
Variable NroTrxConsumoInternet
Observamos que los clientes que han realizado consumos en internet tienden a usar
más la app.
Variable MontoTrxRetiros
Esta variable nos llama la atención ya que se observa que los clientes con grandes
cantidades de retiros no entran a la App.
Conclusión:
● Existen variables como la edad, el monto de los retiros y compras en internet
que explican el comportamiento de las personas que usan la app.

● Encontramos variables que no hemos considerado debido a que no tienen data


o en su mayoría son nulos.

● El modelo predice bien a los clientes que no se loguean, mientras que aún le
falta por mejorar la predicción de los clientes que si entran a la app.

Recomendaciones:
Agregar más variables que expliquen más el comportamiento de los clientes que se
loguean a la app.

Estrategias a tomar:
- Campañas de publicidad de la app mostrando beneficios del modo online, en
especial a personas mayores de 40 años. Tomando en cuenta la pandemia
actual.
- Promociones y/o tasas de créditos bajas siempre y cuando sea usuario de la
app.
- Convenios con servicios y productos (restaurantes, gimnasios, cursos online)

También podría gustarte