Está en la página 1de 8

SALESIANOS

UNIVERSIDAD DON BOSCO


FACULTAD DE INGENIERIA

Tema: “Caso de estudio 1”


Asignatura: Seminario de Inteligencia de negocios

Ciclo: 01-2023

Alumnos:

 Daniel Wilfredo Granados Hernández. GH161659


 Jocelyn Alejandra Cornejo Cruz. CC182307
 Andrea Guadalupe Monge Teos MT160386
 Andrea Alejandra Asunción Rosales AR162878

Docente:
 Ing. Salvador Laínez

Soyapango, 4 de marzo de 2023

1. La forma en que Data Mining puede ayudar en este tipo de casos.


El data mining puede ayudar a analizar este tipo de casos con respecto al uso de tarjetas de
crédito ya que puede ayudar a identificar patrones de gastos en los clientes y encontrar patrones
de gastos comunes, de tal manera que con los datos identificados el banco en cuestión pueda
utilizarlos para identificar que tipos de servicios o productos podrían interesar a los grupos de
clientes analizados, ofreciendo promociones personalizadas para cada caso en particular.

También nos puede ayudar a identificar y detectar fraudes analizando patrones de gastos
inusuales o transacciones sospechosas dentro de las tarjetas de crédito de los clientes, así como
también puede ayudar a identificar el riesgo crediticio que pueden tener los clientes, analizando
datos financieros de los clientes como lo pueden ser registro de ingresos, historiales de crédito,
patrones de gastos entre otros factores que pueden ayudar a una entidad bancaria a determinar
una capacidad de pago y así el riesgo asociado para otorgar un crédito.

2. Características de los datos que consideren relevantes. ¿Hay registros que no aporten
información? ¿Hay atípicos o faltantes? Si fuera el caso, ¿qué tratamiento les darán?

Por la cantidad de datos que se tiene en el archivo, hay valores que van desde 0 hasta valores altos
que llegan a los miles, siendo difícil determinar si se poseen datos relevantes o que aporten
información al caso de estudio, ya que al ser una gran cantidad de registros no podemos concluir si
existen datos que no aporten información relevante en el análisis.
Por lo que sería necesario normalizar los datos para que no haya una diferencia o distancia muy
grande entre ciertos valores cuando se empiece a ocupar el método de K-means.

3. Realizar un primer agrupamiento sin ningún tipo de normalización. ¿Parecen lógicos los
resultados? ¿Por qué sí o por qué no? Prestar atención al número de observaciones que
quedan en cada grupo y explicar lo que está ocurriendo (tal vez aquí puedan recurrir un poco
a lo técnico).
Tomando como referencia un numero K = 3 es lógico que los datos aparezcan agrupados en un
solo clúster ya que la mayoría de los registros tienen un valor de 0 y la diferencia entre los valores,
características y variables que se están utilizando son amplias, sin embargo, para el análisis que se
desea realizar, estos datos agrupados no nos representan ninguna información valiosa para poder
tomar una decisión.
Por lo que se concluye que es necesario aplicar una normalización que permita visualizar de una
mejor forma los datos.
4. Realizar agrupamientos con normalización basada en desviaciones estándar. ¿Parecen
lógicos los resultados? ¿Eran mejores los del punto anterior? ¿Por qué si o por qué no?
¿Cómo está ahora el número de elementos por cada grupo?

Los datos aparentemente son ilógicos ya que la agrupación de los clústeres con respecto a la
interacción anterior utilizando el método K-means sin una normalización son similares en las
agrupaciones, solo cambian en la cantidad de datos dentro de cada clúster con una diferencia
mínima, pero para el tipo de análisis que se desea realizar estas agrupaciones no nos permiten
encontrar una forma de aprovechar la información obtenida debido al sesgo que existe entre la
mayoría de los registros y la cantidad de categorías que se poseen.

5. Analicen ahora una normalización de datos donde en cada celda del archivo se utilicen
porcentajes del monto total de cada registro/fila (es decir, después de transformar la data
cada fila sumaría 100% o 1), en vez de valores monetarios o de números normalizados con
desviaciones estándar analizados en los puntos anteriores (puede llevarlos un poco de
tiempo analizar este punto. Noten además que la normalización mediante desviaciones
estándar se aplica por columnas, mientras que la propuesta para este punto se basa en
filas).
a) ¿Por qué la naturaleza del problema hace considerar esta transformación de datos como
una alternativa a la desviación estándar que vimos en clase? Debido a que cuando se utilizó
la normalización Z quedaron muchos registros con desviaciones estándar bastante altas de
más de los valores que se nos dijo se podían aceptar que eran valores desde -3 hasta 3
desviaciones estándares
b) ¿En qué sentido es diferente al problema del video visto en clase donde no hablamos de
este punto? Es diferente debido a que en este problema se tienen cerca de los 10K de
registros en donde hay varios valores por las categorías presentados que tienen valores nulos
(Valores de 0), los cuales hacen que se tenga desviaciones estándares altas cuando se utiliza
una técnica de normalización mediante desviaciones estándar.

6. Decisión tomada respecto al tratamiento que se dará a los datos (los tres puntos anteriores
plantean tres formas diferentes de tratarlos) y sus argumentos de por qué la eligieron. Hacer
una descripción de los grupos de clientes que se han descubierto, Comentar también el
número de grupos que se ha decidido tener y por qué.

Como equipo hemos decidido que el tratamiento de los datos se hará en base a la normalización
utilizando porcentajes, debido a que esta nos ha permitido segmentar de una mejor manera los
registros de datos de los clientes que realizan compras utilizando sus tarjetas de crédito.
Decidimos tomar tres grupos debido a la cantidad de promociones a ofrecer por parte del banco
intercon, para así poder identificar cada grupo de clientes que pueden tener una probabilidad alta
de aceptar las promociones, tomando en cuenta los movimientos que tienen los clientes en sus
transacciones utilizando tarjetas de crédito.
Clúster 0: El clúster 0, podemos observar que la mayoría de clientes que pertenecen a este clúster
son los que utilizan la tarjeta de crédito para sacar dinero en efectivo, así como también tienen
pequeños gastos en gasolineras y supermercados.
Clúster 1: El clúster 1, podemos ver que la mayoría de los clientes que se encuentran seccionados
en este grupo son los que principalmente tienen transacciones con sus tarjetas de crédito en los
supermercados, teniendo como segundo gasto el retiro de dinero en efectivo y un pequeño gasto
en gasolineras.
Clúster 2: Los clientes que se agrupan en el clúster 2, son los clientes que generan una cantidad
muy parecida de gastos en las categorías de electrodomésticos, restaurantes, gasolineras y retiro
de dinero en efectivo.

7. ¿Las promociones descritas en el caso son aplicables a los grupos de clientes descubiertos?
Si es así, indicar qué promoción se utilizaría para cada grupo de clientes descrito en el punto
6, o indicar si las promociones no encajan con estos perfiles y sería necesario generar nuevas
promociones

De las promociones descritas en el caso de estudio, hemos observado como grupo, que de los
clúster que hemos escogido, los clientes solamente podrían aplicar a las promociones “El mega
cash” y “La super Compra”, debido a que se ha observado que los clientes tienden a tener mayores
gastos en retiros de efectivo y en compras en supermercados.
Por otro lado, la opción #1 de “Hotel, vehículo y avión” no es conveniente debido a que los
clientes presentan transacciones bajas para las categorías relacionadas a este tipo de promoción.
Para tomar en cuenta las categorías de los clientes que hemos identificado que tienen un mayor
consumo con sus tarjetas de crédito, podría crearse una nueva promoción que ofrezca opciones
de compra en electrodomésticos y gasolineras
 Oferta Mega cash aplica al clúster 0.
 Oferta la super compra aplica al clúster 1
 Y la opción de oferta nueva que se puede dar sobre electrodomésticos y gasolineras
aplicaría al clúster 2.

8. ¿Cuánto sería el monto aproximado de uso de las tarjetas de crédito por cada grupo
encontrado con el método? ¿Cómo lo calcularon?

Para obtener el monto aproximado de uso de las tarjetas es necesario utilizar los datos sin aplicar
la normalización, debido a que esto nos permite conocer de una mejor manera los montos por
categoría, para lograr esto, se debe de hacer lo siguiente:
1. Obtener los números de ID de cliente que pertenecen a cada clúster y agruparlos en una
tabla o documento fuera de RapidMinner.
2. Ubicar cada número de clúster con el ID del cliente dentro de los datos sin normalizar para
obtener el consumo por tarjeta de cada clúster.
3. Promediar la información obtenida
4. Obtener el promedio de todas las categorías sin realizar agrupaciones.
Compras
Agencia en
Cluster Efectivo Aerolíneas de viaje Casinos internet Farmacia Gasolineras
Cluster 0 $ 10,263.47 $ 562.80 $ 33.29 $ 283.52 $ 55.99 $ 214.07 $ 1,057.32
Cluster 1 $ 11,768.71 $ 1,560.84 $ 221.15 $ 900.52 $ 196.21 $ 364.00 $ 1,491.47
Cluster 2 $ 10,490.11 $ 1,388.98 $ 169.93 $ 670.37 $ 230.96 $ 350.43 $ 1,839.05
Tiendas
por
Renta de Restaurant Supermerc Artículos departame
Cluster Otros autos es ados eléctricos nto Total
Cluster 0 $ 512.19 $ 44.52 $ 915.45 $ 3,481.23 $ 1,344.53 $ 1,233.02 $ 20,335.56
Cluster 1 $ 1,650.26 $ 34.47 $ 1,380.18 $ 5,715.96 $ 2,282.74 $ 1,927.35 $ 30,516.65
Cluster 2 $ 1,366.07 $ 110.19 $ 1,423.87 $ 5,521.00 $ 3,100.14 $ 2,105.95 $ 29,597.61

9. Si después que la empresa ha implementado las promociones se revisan los datos de un


nuevo cliente que presenta las características de compra siguientes

a) ¿Qué tipo de cliente sería? El nuevo cliente pertenecería al clúster 1.


b) ¿Cómo procedieron para determinar el grupo al que pertenece? El cálculo se realizó haciendo
la normalización por filas, posteriormente se tomaron como K iniciales los centroides que
teníamos de referencia del resultado de RapidMiner y ya que solo es un cliente, se realizó una
sola iteración.

10. ¿Qué análisis financieros y de rentabilidad (total y por grupos) podemos realizar con la
información del caso?

 Análisis de costo-beneficio: Debido a que nos permite saber el porcentaje de ganancia en


proporción a los costos utilizados dentro de la ejecución de las promociones.
 TIR: Con el fin de conocer el porcentaje de beneficio o perdida que conlleva cada proyecto
o promoción
 VAN: Así se tiene un monto estimado con respecto a las ganancias dentro de un plazo
definido.
 Ratio de endeudamiento de los clientes y el récord crediticio histórico de cada cliente para
determinar la factibilidad del cliente a regresar el dinero.
 Los Ingresos de cada cliente y la variación de ellos en un horizonte de tiempo.

También podría gustarte