TFM Anita Rojas Huaman

Universidad Politécnica
de Madrid
Escuela Técnica Superior de
Ingenieros Informáticos
Máster Universitario en Software y Sistemas
Trabajo Fin de Máster
Análisis de datos para identificar perfiles de

clientes por características similares de hábitos
de compras
Autor: Anita Rojas Huamán

Tutor: Francisco Javier Segovia Pérez
Madrid, Julio del 2020

Este Trabajo Fin de Máster se ha depositado en la ETSI Informáticos de la Universidad
Politécnica de Madrid para su defensa.
Trabajo Fin de Máster

Máster Universitario en Software y Sistemas
Título: Análisis de datos para identificar perfiles de clientes por características simila-
res de hábitos de compras
Julio del 2020
Autor: Anita Rojas Huamán

Tutor: Francisco Javier Segovia Pérez
Doctor en Informática
ETSI Informáticos
Universidad Politécnica de Madrid
Agradecimientos
A mi familia por otorgarme todo el apoyo y confianza a lo largo de toda mi vida personal y
profesional.
Al Dr. Francisco Javier Segovia por la guía y apoyo prestada para el desarrollo de este trabajo
de fin de máster.
A la empresa Barbaci S.A., por haberme brindado su colaboración para llevar a cabo este tra-
bajo.
A la Universidad Politécnica de Madrid por la formación académica brindada, a los directivos
y docentes por el conocimiento impartido.
i
Resumen
Segmentar a los clientes proporciona una buena comprensión de la necesidad de cada grupo,
de tal manera que la empresa pueda ofrecerles el producto o servicio que realmente necesitan.
En este trabajo se realiza la segmentación de los clientes de la empresa Barbacci, mediante la
aplicación de técnicas de minería de datos, para tal fin se analiza el comportamiento de compra
de los clientes.
El proceso de minería de datos se realiza utilizando la metodología CRISP-DM y la herramien-
ta IBM SPSS Modeler. Para la construcción del modelo se aplica Análisis RFM en los datos
transaccionales para determinar los valores de Recencia, Frecuencia y Monetario de cada cliente,
luego usando estos valores como entradas, se aplican algoritmos de agrupamiento K-means
para determinar los grupos de clientes que tiene la empresa.
Por otro parte, se aplican algoritmos de agrupamiento K-means para determinar las marcas
más rentables que tiene la empresa. Además, se construye un modelo de reglas de asociación
aplicando el algoritmo Apriori para recomendar marcas de productos que un cliente estaría
interesado en comprar.
ii
Abstract
Segmenting customers provides a good understanding of each groups need, so that the com-
pany can offer them the product or service they really need. In this work, the segmentation
of the clients of the Barbacci company is carried out, through the application of data mining
techniques, for this purpose the purchasing behavior of the clients is analyzed.
The data mining process is carried out using the CRISP-DM methodology and the IBM SPSS
Modeler tool. For the construction of the model, RFM Analysis is applied to the transactional
data to determine the Recency, Frequency y Monetary values of each client, then using these
values as inputs, K-means clustering algorithms are applied to determine the groups of clients
that the company has.
On the other hand, K-means clustering algorithms are applied to determine the most profitable
brands that the company has. In addition, an association rules model is built applying the
Apriori algorithm to recommend brands of products that a customer would be interested in
buying.
iii
Índice general
Agradecimientos i
Resumen ii
Abstract iii
1. Introducción 1
1.1. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Alcance y limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2. Estado de la cuestión 3
2.1. Segmentación de Clientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.1. Beneficios de la segmentación de clientes . . . . . . . . . . . . . . . . . . . 4
2.1.2. Perfiles de clientes y minería de datos . . . . . . . . . . . . . . . . . . . . . 4
2.1.2.1. Análisis RFM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.3. Estudios relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2. Minería de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1. Metodologías de minería de datos . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1.1. KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1.2. SEMMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.1.3. CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.1.4. Comparativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2. DM-UML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.3. Técnicas de minería de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.3.1. Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.3.2. Reglas de asociación . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.4. Herramientas de minería de datos . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.4.1. Weka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.4.2. RapidMiner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.4.3. IBM SPSS Modeler . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.4.4. ¿Por qué IBM SPSS Modeler? . . . . . . . . . . . . . . . . . . . . . 20
3. Materiales y Métodos 21
3.1. Fase I: Comprensión del negocio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1.1. Objetivos del negocio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.2. Criterio de éxito de los objetivos del negocio . . . . . . . . . . . . . . . . . 29
3.1.3. Valoración de la situación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.4. Objetivos de minería de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 29
iv
ÍNDICE GENERAL
3.1.5. Criterio de éxito de los objetivos de minería de datos . . . . . . . . . . . . 30

3.2. Fase II: Comprensión de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.1. Recopilación de datos iniciales . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.2. Descripción de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.3. Exploración de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3. Fase III: Preparación de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3.1. Selección de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3.2. Limpieza de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.3. Construcción de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.3.1. Recencia, Frecuencia y Monetario . . . . . . . . . . . . . . . . . . . 38
3.3.3.2. Costo medio y valor de venta medio por marca . . . . . . . . . . 42
3.3.4. Integración de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4. Experimentación y Resultados 44
4.1. Fase IV: Modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.1.1. Algoritmo K-meas para identificar perfiles de clientes . . . . . . . . . . . . 44
4.1.1.1. Análisis RFM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.1.1.2. Algoritmo K-meas . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.1.2. Algoritmo K-meas para identificar grupos de marcas . . . . . . . . . . . . 51
4.1.3. Algoritmo Apriori para recomendar marcas de productos . . . . . . . . . 53
4.1.4. Análisis RFM para identificar productos sin rotación . . . . . . . . . . . . 58
4.2. Fase V: Evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2.1. Algoritmo K-meas para identificar perfiles de clientes . . . . . . . . . . . . 61
4.2.1.1. Evaluar el rendimiento de los algoritmos utilizados . . . . . . . 61
4.2.1.2. Interpretar los resultados obtenidos . . . . . . . . . . . . . . . . . 64
4.2.2. Algoritmo K-meas para identificar grupos de marcas . . . . . . . . . . . . 70
4.2.3. Perfiles de clientes y su relación con los clústeres de marcas . . . . . . . . 75
4.2.4. Algoritmo Apriori para recomendar marcas de productos . . . . . . . . . 82
5. Discusión y conclusiones 84
Bibliografía 85
Anexo 88
A. Codificaciones 88
A.1. Script de creación de tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
A.2. Script de carga de tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
v
Índice de tablas
2.1. Fases del proceso de minería de datos en cada metodología . . . . . . . . . . . . . 13
3.1. Estructura de la tabla marca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.2. Estructura de la tabla producto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3. Estructura de la tabla stock . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4. Estructura de la tabla cliente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.5. Estructura de la tabla movimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.6. Estructura de la tabla detalle de movimiento . . . . . . . . . . . . . . . . . . . . . 33
3.7. Atributos elegidos para el análisis de productos . . . . . . . . . . . . . . . . . . . 37
3.8. Atributos elegidos para el análisis de clientes . . . . . . . . . . . . . . . . . . . . . 38
4.1. Escala para los valores de Recencia, Frecuencia y Monetario . . . . . . . . . . . . . . 44

4.2. Escala para los valores de Recencia, Frecuencia y Monetario de productos . . . . . 59
4.3. Perfiles de clientes aplicando algoritmo K-meas 5 . . . . . . . . . . . . . . . . . . 61
4.8. Análisis 3 clústeres de marcas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.12. Tabla de parámetros de entrada generar reglas de asociación . . . . . . . . . . . . 82
vi
Índice de figuras
2.1. Segmentos RFM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2. Visión general de los pasos que componen el proceso KDD . . . . . . . . . . . . . 7
2.3. Metodología SEMMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4. Ciclo de vida de CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5. Fase de comprensión del negocio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.6. Fase de comprensión de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.7. Fase de preparación de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.8. Fase de modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.9. Fase de evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.10. Fase de implementación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.11. Ejemplo algoritmo K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.12. Interfaz Explorer de Weka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.13. Interfaz de RapidMiner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.14. Interfaz IBM SPSS Modeler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1. Modelo de caso de uso del negocio . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.2. Modelo de objetivos del negocio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3. Modelo de análisis de negocio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.4. Modelo de caso de uso de minería de datos . . . . . . . . . . . . . . . . . . . . . . 27
3.5. Modelo de objetivo de minería de datos . . . . . . . . . . . . . . . . . . . . . . . . 28
3.6. Porcentaje de ventas por tipo de cliente . . . . . . . . . . . . . . . . . . . . . . . . 33
3.7. Monto total de ventas anuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.8. Número ventas anuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.9. Tabla de estadísticos para el atributo “Identificador de transacción” . . . . . . . . . 35
3.10. Gráfico de distribución del número de compras . . . . . . . . . . . . . . . . . . . . 35
3.11. Cantidad vendida anual por marca . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.12. Tabla de estadísticas del atributo “Valor unitario’’ . . . . . . . . . . . . . . . . . . . 36
3.13. Diagrama de caja para el costo medio por marca . . . . . . . . . . . . . . . . . . . 36
3.14. Calidad de datos de la tabla producto . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.15. Calidad de datos de la tabla cliente . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.16. Nodo agregar para calcular el total gastado por transacción . . . . . . . . . . . . . 39
3.17. Nodo adición de RFM para calcular los valores de actualidad, frecuencia y mo-
netario para el análisis de perfiles de clientes . . . . . . . . . . . . . . . . . . . . . 39
3.18. Primeras filas de la tabla RFM obtenida . . . . . . . . . . . . . . . . . . . . . . . . 40
3.19. Histograma de recencia por cliente . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.20. Histograma de frecuencia de compras por cliente . . . . . . . . . . . . . . . . . . . 41
3.21. Histograma de valor monetario gastado por cliente . . . . . . . . . . . . . . . . . 41
3.22. Diagrama de caja de la variable Recencia . . . . . . . . . . . . . . . . . . . . . . . . 41
vii
ÍNDICE DE FIGURAS
3.23. Diagrama de caja de la variable Frecuencia . . . . . . . . . . . . . . . . . . . . . . . 42

3.24. Diagrama de caja de la variable Monetario . . . . . . . . . . . . . . . . . . . . . . . 42
3.25. Nodo Agregar para calcular el costo y valor de venta unitario medio por marca . 42
3.26. Primeras filas de tabla de costo medio por marca . . . . . . . . . . . . . . . . . . 43
4.1. Modelo de Análisis RFM para segmentar clientes . . . . . . . . . . . . . . . . . . . 45

4.2. Primeras filas de la tabla de puntuación RFM obtenida . . . . . . . . . . . . . . . 46
4.3. Gráfico de recuentos de clientes por cada quintil asignado a la Recencia, Frecuen-
cia y Monetario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4. Resumen de modelo aplicando el algoritmo K-meas 5 . . . . . . . . . . . . . . . . 47
4.5. Gráfico del modelo aplicando el algoritmo K-meas 5 . . . . . . . . . . . . . . . . 47
4.19. Modelo K-means 3 obtenido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.23. Nodo Marcas para crear un campo para cada marca de producto . . . . . . . . . 53
4.24. Nodo Tipo para indicar los campos de entrada y objetivo para el modelo Apriori 54
4.25. Nodo Apriori con soporte mínimo 5 . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.26. Tabla de reglas de asociación con soporte mínimo de 5 % . . . . . . . . . . . . . . 55
4.27. Nodo Apriori con soporte mínimo 2,5 . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.28. Tabla de reglas de asociación con soporte mínimo de 2,5 % . . . . . . . . . . . . . 55
4.31. Filtro de reglas de asociación por antecedente . . . . . . . . . . . . . . . . . . . . 57
4.32. Tabla obtenida del filtro de la marca Thor como antecedente . . . . . . . . . . . . 57
4.33. Filtro de reglas de asociación por consecuente . . . . . . . . . . . . . . . . . . . . 57
4.34. Tabla obtenida del filtro de la marca Thor como consecuente . . . . . . . . . . . . 57
4.37. Nodo agregar para calcular la cantidad total vendida de un producto por fecha
de venta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.38. Nodo adición de RFM para calcular los valores de actualidad, frecuencia y mo-
netario para el análisis de productos . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.39. Nodo Análisis RFM para el análisis de productos . . . . . . . . . . . . . . . . . . . 60
4.40. Primeras filas de la tabla de productos sin rotación en el 2019 . . . . . . . . . . . 60
4.41. Modelos obtenidos al aplicar el nodo Agrupación en clúster automático para
clientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
viii
ÍNDICE DE FIGURAS
4.42. Primeras filas de la tabla de clientes potenciales . . . . . . . . . . . . . . . . . . . 65

4.43. Primeras filas de la tabla de clientes inactivos . . . . . . . . . . . . . . . . . . . . . 65
4.44. Primeras filas de la tabla de clientes leales . . . . . . . . . . . . . . . . . . . . . . . 66
4.45. Primeras filas de la tabla de clientes nuevos . . . . . . . . . . . . . . . . . . . . . . 66
4.46. Primeras filas de la tabla de clientes por recuperar . . . . . . . . . . . . . . . . . . 67
4.47. Frecuencia de compra mensual por año de clientes en riesgo . . . . . . . . . . . . 67
4.48. Primeras filas de la tabla de clientes en riesgo . . . . . . . . . . . . . . . . . . . . . 68
4.49. Primeras filas de la tabla de clientes en ocasionales . . . . . . . . . . . . . . . . . . 68
4.50. Primeras filas de la tabla de clientes vip . . . . . . . . . . . . . . . . . . . . . . . . 69
4.51. Porcentaje del número de clientes para cada perfil . . . . . . . . . . . . . . . . . . 69
4.52. Resultado obtenido del Análisis RFM . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.53. Modelos obtenidos al aplicar el nodo Agrupación en clúster automático para
marcas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.54. Primeras filas de la tabla de marcas incluidas en el clúster-1 . . . . . . . . . . . . 72
4.55. Tabla de marcas incluidas en el clúster-2 . . . . . . . . . . . . . . . . . . . . . . . 72
4.56. Tabla de marcas incluidas en el clúster-3 . . . . . . . . . . . . . . . . . . . . . . . 72
4.57. Primeras filas de la tabla de marcas incluidas en el clúster-4 . . . . . . . . . . . . 73
4.58. Porcentaje del número de marcas por clúster . . . . . . . . . . . . . . . . . . . . . 73
4.59. Porcentaje de productos por clúster de marca . . . . . . . . . . . . . . . . . . . . . 74
4.60. Porcentaje de cantidad vendida para clúster de marca . . . . . . . . . . . . . . . . 74
4.61. Porcentaje del monto vendido para clúster de marca . . . . . . . . . . . . . . . . . 74
4.62. Construcción de datos para el tercer objetivo de minería de datos . . . . . . . . . 75
4.63. Porcentaje de clientes vip por clúster de marca . . . . . . . . . . . . . . . . . . . . 76
4.64. Primeras filas de la tabla de marcas por cliente vip . . . . . . . . . . . . . . . . . . 76
4.65. Porcentaje de clientes potenciales por clúster de marca . . . . . . . . . . . . . . . 77
4.66. Primeras filas de la tabla de marcas por cliente potencial . . . . . . . . . . . . . . 77
4.67. Porcentaje de clientes leales por clúster de marca . . . . . . . . . . . . . . . . . . . 77
4.68. Primeras filas de la tabla de marcas por cliente potencial . . . . . . . . . . . . . . 78
4.69. Porcentaje de clientes nuevos por clúster de marca . . . . . . . . . . . . . . . . . 78
4.70. Primeras filas de la tabla de marcas por cliente nuevo . . . . . . . . . . . . . . . . 78
4.71. Porcentaje de clientes ocasionales por clúster de marca . . . . . . . . . . . . . . . 79
4.72. Primeras filas de la tabla de marcas por cliente ocasional . . . . . . . . . . . . . . 79
4.73. Porcentaje de clientes en riesgo por clúster de marca . . . . . . . . . . . . . . . . 80
4.74. Primeras filas de la tabla de marcas por cliente en riesgo . . . . . . . . . . . . . . 80
4.75. Porcentaje de clientes por recuperar por clúster de marca . . . . . . . . . . . . . . 80
4.76. Primeras filas de la tabla de marcas por cliente por recuperar . . . . . . . . . . . . 81
4.77. Porcentaje de clientes inactivos por clúster de marca . . . . . . . . . . . . . . . . 81
4.78. Primeras filas de la tabla de marcas por cliente inactivo . . . . . . . . . . . . . . . 81
4.79. Tabla de reglas de asociación para recomendar marcas de productos . . . . . . . 82
4.80. Primeras filas de la tabla de recomendación de marcas por código de cliente . . . 83
ix
Capítulo 1
Introducción
1.1. Planteamiento del problema

En los últimos años, la gran competencia que existe en el mercado ha obligado a las empresas
a aplicar diferentes estrategias de marketing para captar nuevos clientes. Estudios han demos-
trado que resulta más rentable para una empresa mantener a un cliente, que tratar de ganar
uno nuevo. El valor de mantener un cliente se debe fundamentalmente a que tiene costos in-
feriores a los derivados de ganar un nuevo cliente. Por lo tanto, el cuidado de las relaciones
de los clientes actuales es una mejor inversión. Económicamente es de 6 a 7 veces más caro
conseguir un nuevo cliente que mantener uno que ya tenemos. Y con tan sólo incrementar la
inversión en retención de clientes un 5 % podrían lograrse incrementos en los beneficios del 5
al 95 % [1]. Por tal motivo, las empresas se ven obligada a invertir tiempo, dinero y esfuerzo
en conocer la mayor información que sea posible acerca de sus clientes. Esta información es
utilizada para diseñar campañas de marketing.
Barbacci es una empresa peruana que cuenta con dos sucursales en la ciudad de Lima, se dedi-
ca a la importación mayorista y distribución a nivel nacional de todo lo relacionado al mundo
de las motos. Cuenta con dos tipos de clientes; clientes particulares, que realizan compras por
menor y clientes distribuidores, que realizan compras por mayor. En el último año ha observa-
do que ingresos de las ventas de sus clientes particulares ha disminuido debido al abandono
de clientes y disminución del número de venta.
Por tal motivo, la empresa desea diseñar campañas de marketing para recuperar e incentivar
la compra de sus clientes particulares, buscando de alguna manera captar su atención y conse-
guir su fidelización. Estas campañas deben de estar dirigidas a un tipo de clientes en particular,
es decir, que tengan características similares como gusto o preferencias, esto es muy importan-
te para diseñar campañas que tengan un mayor grado de aceptación. Por esta razón la empresa
necesita conocer el comportamiento de compra de sus clientes, es decir, cuánto compran, cuán-
to gastan, la frecuencia de compra, cuántos clientes de mayor valor tienen, cuántos clientes han
dejado de comprar, qué marcas prefieren, qué marcas le pueden interesar, etc.
Hoy en día, existen varios métodos de minería de datos, el análisis RFM es uno de los métodos
más comunes para segmentar e identificar el valor del cliente en la empresa. Este método
utiliza tres variables para extraer las características de comportamiento de los clientes.
En base a los descrito la realización del presente trabajo tiene por objetivo la segmentación de
los clientes de la empresa Barbacci aplicando Análisis RFM y algoritmos de agrupamiento. El
1
Introducción
presente trabajo de se ha organizado de la siguiente manera:

En el capítulo “Estado de la cuestión” se hará una descripción brevemente de conceptos co-
mo segmentación, beneficio y perfiles de clientes. Además, se mencionan las metodologías,
técnicas y herramientas de minería de datos. Finalmente, se mencionan algunos estudios rela-
cionados.
En el capítulo “Materiales y Métodos” se detalla el proceso de aplicación de la minería de datos
dentro de la empresa, siguiendo las fases de la metodología CRISP-DM.
En el capítulo “Experimentación y Resultados”, se describe la creación del modelo y la aplica-
ción de algoritmos de minería de datos.
Finalmente, en el capítulo “Discusión y conclusiones”, se analiza el cumplimiento de los obje-
tivos y las conclusiones a las que se ha llegado tras el desarrollo del proyecto.
1.2. Objetivos
El objetivo principal del proyecto es identificar los perfiles de clientes, es decir, dar a conocer
los tipos de clientes que tiene la empresa tomando como referencia su comportamiento de
compra.
Este objetivo se logra gracias a los siguientes objetivos secundarios:
• Identificar los clientes más y menos rentables de la empresa
• Identificar a aquellos clientes que se encuentran en riesgo, es decir, que solían realizar
compras frecuentes, pero hace un tiempo no realizan una compra.
• Identificar una relación entre los perfiles de clientes y las marcas más rentables de la
empresa.
• Realizar modelos de reglas de asociación para identificar relaciones entre marcas de pro-
ductos.
1.3. Alcance y limitaciones

Para el presente proyecto se tiene disponible los datos históricos de los clientes de la empresa.
La empresa cuenta con dos tipos de clientes (particulares y distribuidores), para el análisis sólo
se tomará en cuenta el histórico de compras de los clientes particulares entre los años 2018 y
2019. Se analizará la fecha de venta, la cantidad vendida, el monto de compra y las marcas de
productos. De este modo, queda fuera del análisis otros comportamientos de los clientes que
pueden ser interesantes para el estudio, como el género, distrito, etc. Los resultados obtenidos
serán entregados a la empresa, pero no se realizará la implementación del modelo obtenido en
la empresa.
Dentro del proceso de minería de datos que abarca aspectos de negocio, los objetivos y criterios
de éxito del negocio serán mencionados, pero no se realizará el análisis de los resultados de
estos.
2
Capítulo 2
Estado de la cuestión
2.1. Segmentación de Clientes

La segmentación de clientes es una parte esencial de la estrategia de la empresa y, especialmen-
te, de un marketing eficiente. Se puede definir como "la práctica de dividir una base de clientes en
grupos de individuos que son similares en formas específicas relevantes para el marketing, como edad,
género, intereses, hábitos de gasto, etc." [2]
Los clientes pueden tener diferentes tipos de características y diferente grado de importancia
para una empresa. Para que las empresas sepan qué clientes son importantes, debe hacerse
una segmentación de los clientes [3]. La teoría de la segmentación es el proceso en el que se
identifican las características de diferentes clientes y se dividen en grupos, cuando las empresas
segmentan a sus clientes suelen dividirlos en base a la cantidad de ingresos que aportan a la
empresa, en función de sus volúmenes de compra [4].
Desde el punto de vista de la empresa, para continuar obteniendo ganancias, necesitan dirigir
su atención a los clientes que consumen sus productos o servicios con más frecuencia o en
grandes volúmenes para crear grupos que sean fructíferos [5]. Es decir, los clientes tienen una
importancia diferente y para poder permanecer en el mercado, las empresas deben distribuir
su atención de manera desigual, lo que significa que deben trasladar su atención a aquellos
clientes que generen mayores ganancias para la empresa.
Cuando una empresa tiene el conocimiento correcto sobre los requisitos del cliente, les dará
la capacidad de dividirlos más fácilmente en grupos de segmentación. Además, la empresa
puede descubrir más fácilmente qué satisface a sus clientes e incluso sorprenderlos. Este ti-
po de información se puede utilizar para futuras mejoras en sus servicios o productos. Estos
servicios o productos deben ser adecuados para satisfacer las necesidades de sus clientes [6].
Según el Ley de Pareto [7], “el 80 % de las compras las realizan el 20 % de los clientes”. Es decir,
el 20 % de los clientes contribuyen más a los ingresos de la empresa que el resto. Por ello, el
objetivo más importante de la segmentación es ayudar a la empresa a centrarse en los ingresos
que genera un grupo de clientes con la finalidad de dirigir sus recursos limitados a los grupos
de clientes adecuados y, por lo tanto, ahorrar tiempo y dinero [2]. Por lo tanto, identificar y
clasificar clientes ayuda a la empresa a conocer quiénes son sus clientes y qué tipo de demanda
requieren, con este conocimiento la empresa puede tener una mejor oportunidad de alcanzar
objetivos de ventas y ganancias.
En una empresa se puede identificar diferentes grupos de clientes en base a diversos criterios,
3
entre ellos tenemos:

• Criterio geográfico: Este criterio clasifica a sus clientes a partir de su localización geográ-
fica, es decir, país, región, comunidad, provincia, ciudad, etc. [8]
• Criterio demográfico: Este criterio clasifica a sus clientes considerando aspectos muy es-
pecíficos como: edad, sexo, nivel adquisitivo, nivel de educación, estado civil, profesión,
ingresos, religión, etc. [8]
• Criterio psicográfico: Este criterio clasifica a los clientes según su personalidad, actitu-
des, intereses, estilo de vida, actividades, hobbies, etc. [9]
• Criterio conductual: Este criterio clasifica se basa en la forma en la que el consumidor
utiliza el producto y en los hábitos asociados a su consumo. Por ejemplo, su frecuencia
de compra, fidelidad a la marca, reacción ante el producto, volumen de compra, etc. [8]
La segmentación se puede utilizar para múltiples propósitos, los más típicos son; desarrollo de
comunicaciones de marketing, desarrollo del producto o servicio y campañas de retención [5].
2.1.1. Beneficios de la segmentación de clientes

Los beneficios que ofrecen la segmentación al permitir que las empresas se dirijan a grupos
específicas de clientes se mencionan a continuación [2]:
Permite la asignación efectiva de recursos de marketing y la maximización de oportunidades
de venta cruzada y ascendente. Para las empresas es más sencillo enviar mensajes personali-
zados con ofertas especiales a un grupo de clientes con la finalidad de incentivar su compra.
La segmentación del cliente también puede mejorar el servicio al cliente y ayudar a fideli-
zar y retener al cliente. Como un subproducto de su naturaleza personalizada, los materiales
de marketing enviados mediante la segmentación del cliente tienden a ser más valorados y
apreciados por el cliente que los recibe en lugar de mensajes de marca impersonales que no
reconocen el historial de compras o cualquier tipo de relación con el cliente.
Otros beneficios de la segmentación de clientes incluyen estar un paso por delante de los com-
petidores en secciones específicas del mercado e identificar nuevos productos en los que los
clientes existentes o potenciales puedan estar interesados o mejorar los productos para cum-
plir con las expectativas del cliente.
2.1.2. Perfiles de clientes y minería de datos

Las características demográficas y geográficas de los clientes son las variables tradicionales
y más ampliamente utilizadas para la segmentación del mercado [10]. Últimamente se usan
técnicas de minería de datos para perfilar y segmentar a los clientes, como la agrupación, re-
gresión lineal o análisis de regresión logística. Además de estos, el razonamiento basado en
reglas, los algoritmos genéticos, el análisis RFM, entre otros.
2.1.2.1. Análisis RFM

El análisis RFM es la técnica más usada para el análisis de comportamiento de los clientes
durante varias décadas [11]. Hughes fue el primero en introducir el concepto básico de análisis
RFM, definiendo “clientes valiosos como aquellos que tienen simultáneamente valores altos de recencia,
frecuencia y valor monetario”[12]. Las definiciones detalladas de las variables del modelo RFM
se describen a continuación [13]:
4
• R representa la recencia, mide el período de tiempo desde la última compra del cliente;
un valor más bajo corresponde a una mayor probabilidad de que el cliente realice una
compra repetida.
• F representa la frecuencia, mide el número de compras realizadas en un determinado
período de tiempo; mayor frecuencia indica mayor lealtad.
• M representa el valor monetario, mide la cantidad de dinero que el cliente gastó durante
un cierto período de tiempo; un valor más alto indica que la empresa debería centrarse
más en ese cliente.
El análisis RFM se basa en la conocida “Ley de Pareto” mencionada anteriormente 2.1. En el
caso del análisis RFM se diría que el “20 % de los clientes genera el 80 % de las ventas”. Lo cual,
aunque parezca un tanto exagerado es perfectamente comprobable en la mayoría de los nego-
cios y otras situaciones, incluyendo los deportes. A esto se debe su generalizada aplicación
[14].
El análisis consiste en clasificar a los clientes por su valor en función de las tres variables. Para
ello, se construye escalas, basadas en estas variables, dando a cada cliente un valor según el
percentil en que se encuentra. Lo más habitual es escalar por quintiles. Es decir, a todas las
variables se le asigna un valor que podría estar entre el 1 y el 5, siendo 1 la peor puntuación y
5 la mejor.
Por lo tanto, aquellos clientes que poseen el valor “5-5-5”, serían los clientes potenciales e
ideales, puesto que son los que están actuando satisfactoriamente respecto a las campañas de
ventas lanzadas. Estos clientes son quienes están realizando compras con frecuencia y tienen
un total monetario importante. Por ejemplo [15] Figura 2.1, “un cliente que estuviera entre el 20 %
de los que más recientemente han comprado, en el 2◦ 20 % por frecuencia de compra y el 4◦ 20 % en
valor total de compras, se le asignaría el segmento 124, (R=5) (F=4) (M=2)”
Figura 2.1: Segmentos RFM [15]
Algunos de los segmentos que se pueden identificar mediante el análisis RFM son los siguien-
tes:
• Clientes VIP: Clientes que compraron recientemente, compran con frecuencia y gastan
mucho.
5
• Clientes fieles: Clientes que gastan mucho y responden a promociones.

• VIPs Potenciales: Clientes que, comparado con el segmento anterior, tienen una frecuen-
cia y valor monetario inferior, aunque significativo.
• Potencialmente fieles: Clientes que compraron recientemente, más de una vez y gastaron
una buena cuantía.
• Nuevos: Clientes que compraron recientemente, pero no compran con frecuencia.
• Prometedores: Clientes que compraron recientemente, pero no gastaron mucho.
• A punto de riesgo: Clientes que tienen valores de recencia, frecuencia y valor monetario
abajo de la media.
• En riesgo: Clientes que gastaron mucho, compraron muchas veces, pero hace mucho
tiempo.
• Por recuperar: Clientes que compraron mucho y con frecuencia, pero hace mucho tiem-
po.
• Inactivos: Clientes que compraron poco, con baja frecuencia y hace mucho tiempo.
• Perdidos: Clientes que tienen los valores de Recencia, Frecuencia y Monetario bajos.
En el presente proyecto se utilizará el análisis RFM con el propósito de conocer los valores de
la Recencia, Frecuencia y Monetario.
2.1.3. Estudios relacionados

En estudios anteriores, el análisis RFM se ha utilizado para caracterizar el comportamiento de
los clientes de una tienda por departamento en un ambiente multicanal. El estudio consistía en
identificar cuál de los canales es que tiene mayor frecuencia y montos de compra [16]. Diseñar
un plan de fidelización de clientes de un banco, con el objetivo de consolidar la relación a
largo plazo con los clientes, y esto se vea reflejado en el mantenimiento de depósito y uso de
servicios [17].
También se ha usado para la identificación de clientes de alto valor para el desarrollo de alian-
zas de una empresa, con el objetivo de identificar los clientes más propensos a acumular bene-
ficios en alianzas. Este trabajo fue desarrollando, aplicando la metodología KDD, análisis RFM
para el cálculo de los valores de Recencia, Frecuencia y Monetario, y posteriormente segmenta-
ción Bietápica para identificar los grupos de clientes [18].
Además, se aplicó en un caso de estudio para la estimación del valor de vida del cliente basado
en el análisis RFM del comportamiento de su compra, este estudio fue para una empresa de
salud y belleza, aplicó la metodología CRISP-DM para el desarrollo, el análisis RFM para el
cálculo de los valores de Recencia, Frecuencia y Monetario, y el algoritmo de K-meas para la
segmentación de clientes [19].
Y otros estudios como, analizar datos transaccionales de clientes [20], identificar clústeres de
clientes [7]; en el sector turístico se usó para distinguir el valor del cliente en función de las
motivaciones previas a la compra [21], perfilar clientes hoteleros rentables [22] y generar pro-
nósticos de demanda.
6
2.2. Minería de datos

La rápida evolución de una gran cantidad de datos ha llevado a la necesidad de extraer de
forma automatizada conocimiento útil hasta ahora desconocido, esto representa una oportu-
nidad para el campo del descubrimiento de conocimiento en bases de datos, el cual cada vez
se hace más importante y necesario [23].
La minería de datos es una disciplina que ha crecido enormemente en los últimos años. Se pue-
de definir minería de datos como el conjunto de técnicas y herramientas aplicadas al proceso
no trivial de extraer y presentar conocimiento implícito, previamente desconocido, potencial-
mente útil y humanamente comprensible, a partir de grandes conjuntos de datos, con el objeto
de predecir de forma automatizada tendencias y comportamientos y/o descubrir de forma
automatizada modelos previamente desconocidos [24].
2.2.1. Metodologías de minería de datos

El proceso de minería de datos involucra numerosos pasos e incluye muchas decisiones que
deben ser tomadas por el usuario, debido a ello, han surgido varias metodologías que permiten
organizar este proceso. Las tres metodologías más usadas son: KDD, SEMMA y CRISP-DM.
2.2.1.1. KDD
En los inicios del año 1996, KDD [25] (Knowledge Discovery in Databases) constituyó el pri-
mer modelo aceptado en la comunidad científica que estableció las etapas principales de un
proyecto de explotación de información.
El proceso KDD se define como el proceso no trivial de identificar patrones válidos, novedo-
sos, potencialmente útiles y, en última instancia, comprensibles en los datos [26]. Este proceso
permite obtener conocimiento siguiendo una serie de pasos, el conocimiento adquirido no tie-
ne que ser trivial, es decir, no debe ser encontrarlo a simple vista, es implícito debido a que se
encuentra dentro de los datos y es útil porque permite tomar decisiones para mejorar.
KDD es un proceso interactivo e iterativo, involucra numerosos pasos con la intervención del
usuario en la toma de muchas decisiones [26]. Es iterativo ya que la salida de algunas fases
puede retornar a pasos anteriores y porque a menudo son necesarias varias iteraciones para
extraer conocimiento de alta calidad, incluso si el conocimiento adquirido no es el esperado se
puede regresar a la etapa inicial. Autores como Brachman y Anand dan una visión práctica del
proceso KDD, enfatizando la naturaleza interactiva del proceso [27].
El flujo básico de pasos del proceso se ilustra en la Figura 2.2.
Figura 2.2: Visión general de los pasos que componen el proceso KDD [28]
7
A continuación, se describen algunos pasos básicos del proceso KDD [29]:

• Entender el dominio del negocio
Desarrollar una comprensión del dominio de la aplicación y el conocimiento previo rele-
vante, e identificar la meta del proceso KDD desde el punto de vista del usuario final.
• Crear un conjunto de datos de destino en el que se realizará el descubrimiento
Identificar y seleccionar un subconjunto de datos que sean relevantes para el proceso, en
el que se ejecutará el descubrimiento.
• Limpieza de datos y preprocesamiento
Se identifican aquellos datos que pueden afectar el proceso, como los valores atípicos,
nulos o vacío y se elige la mejor estrategia para manejarlos.
• Reducción y proyección de datos
Encontrar características útiles para representar los datos dependiendo del objetivo, Se
utilizan técnicas de reducción como agregaciones, compresión de datos, histogramas,
segmentación, discretización basada en entropía, muestreo, entre otras [30].
• Elegir la tarea de minería de datos
Decidir cuál es la tarea por realizar, predictiva o descriptiva, de acuerdo con los obje-
tivos del proceso KDD. Las tareas predictivas son aquellas que nos permiten predecir
algún valor desconocido, por otro lado, las tareas descriptivas son las que brindan una
descripción o información de los datos.
• Elección de los algoritmos de minería de datos
Elegir el o los algoritmos de minería de datos y seleccionar los métodos que se utilizarán
para la búsqueda de patrones de datos. Esto incluye decidir qué modelos y parámetros
pueden ser apropiados para cumplir con los objetivos definidos.
• Minería de datos
Aplicar el o los algoritmos elegidos para la búsqueda de patrones de interés o un conjunto
de representaciones tales como reglas de clasificación o árboles, regresión, agrupamiento,
etc.
• Interpretación y evaluación
Interpretar los patrones encontrados en los datos con el objetivo de evaluar si cumplen
con los objetivos definidos inicialmente. Si fuera necesario se vuelve a los pasos anterio-
res para una nueva iteración.
• Consolidar el conocimiento descubierto
Finalmente se puede incorporar el conocimiento descubierto en otro sistema para accio-
nes futuras, o documentarlo y reportarlo a las partes interesadas.
2.2.1.2. SEMMA
Fue desarrollada por el SAS Institute, se define como “el proceso de selección, exploración y mode-
lado de grandes volúmenes de datos para descubrir patrones de negocio desconocidos” [31].
SEMMA se encuentra enfocada en aspectos técnicos, excluyendo análisis y compresión del pro-
blema sobre el cual se trabaja, fue propuesta para trabajar con el software de minería de datos
de SAS, el cual proporciona un conjunto de herramientas para cada etapa de esta metodología
[32].
8
El nombre de esta terminología es el acrónimo correspondiente a las cinco fases básicas del
proceso:
Figura 2.3: Metodología SEMMA [33]
• Sample (Muestreo): En esta fase se extrae una parte de un conjunto extenso de datos, es
decir, la muestra debe ser lo suficientemente grande para que contenga información de
valor, pero a la vez pequeña para que sea fácilmente manipulable.
• Explore (Exploración): En esta fase se debe realizar una búsqueda de tendencias y ano-
malías de la muestra, con la con la finalidad de obtener un mejor entendimiento de la
información que se manipula.
• Modify (Modificación): En esta fase consiste en la transformación de los datos para que
sea fácilmente manipulables en la fase del modelo.
• Model (Modelado): En esta fase se aplican los métodos de minería de datos para per-
mite que el software busque automáticamente una combinación de datos, con el fin de
predecir un resultado.
• Assess (Valoración): En esta fase se evalúan de los datos basados en su utilidad y la
fiabilidad de las conclusiones del proceso.
SEMMA propone que luego de la fase de evaluación, se generan nuevas hipótesis que llevan
a repetir el proceso iterativamente.
2.2.1.3. CRISP-DM
La metodología Cross Industry Standard Process for Data Mining o CRISP-DM fue desarrolla-
da por el grupo de empresas SPSS, NCR y Daimer Chrysler con la finalidad de proporcionar
nuevas ideas y asegurar el éxito de los proyectos de minería de datos [34].
Esta metodología provee una representación completa del ciclo de vida de un proyecto de
minería de datos que consta de seis fases: Comprensión del negocio, Comprensión de los datos,
Preparación de los datos, Modelado, Evaluación e Implementación. El ciclo de vida de CRISP-
DM se muestra en la Figura 2.4.
Figura 2.4: Ciclo de vida de CRISP-DM [35]
9
El proceso es dinámico e iterativo, por lo que la ejecución de los procesos no es estricta y con
frecuencia se puede pasar de uno a otro proceso, de atrás hacia delante y viceversa. Estos
dependen del resultado de cada fase o la planeación de la siguiente tarea por ejecutar [35].
Cada fase se estructura en varias tareas generales, las tareas generales se proyectan en tareas
específicas, en las cuales finalmente se describen las acciones que deben ser desarrolladas para
situaciones definidas [36].
A continuación, se describen cada una de las fases:
Comprensión del negocio

Esta fase inicial se enfoca en comprender los objetivos y requisitos del proyecto desde una
perspectiva comercial, luego convertir este conocimiento en una definición de problema de
minería de datos y un plan preliminar diseñado para lograr los objetivos.
Figura 2.5: Fase de comprensión del negocio [35]
Comprensión de los datos

La fase de comprensión de datos comienza con la recopilación inicial de datos y continúa con
actividades que le permiten familiarizarse con los datos, identificar problemas de calidad de
datos, descubrir las primeras ideas sobre los datos y/o detectar subconjuntos interesantes para
formar hipótesis con respecto a la información oculta.
Figura 2.6: Fase de comprensión de los datos [35]
10
Preparación de los datos

En esta fase se preparan el conjunto de datos que serán usado para la fase de modelado. Se
realizan tareas como selección de datos, limpieza de datos, estructuración de datos, integración
y formateo de datos.
Figura 2.7: Fase de preparación de los datos [35]
Modelado
En esta fase se escoge las técnicas de modelo más apropiada de acuerdo con los objetivos de
minería de datos. Las técnicas deben cumplir los siguientes criterios [37]:
• Ser apropiada para el problema.

• Disponer de datos adecuados.
• Cumplir con los requisitos del problema.
• Técnica adecuada para obtener un modelo.
• Conocimiento pleno de la técnica.
Figura 2.8: Fase de modelado [35]
11
Evaluación
Evalúa el modelo teniendo en cuenta el cumplimiento de los criterios de éxito del problema.
Es preciso revisar el proceso, teniendo en cuenta los resultados obtenidos, para poder repetir
algún paso anterior, en el que se pueda haber cometido algún error. Si el modelo generado
es válido en función de los criterios de éxito establecidos en la fase anterior, se procede a la
explotación del modelo. [37]
Figura 2.9: Fase de evaluación [35]
Implementación
Es aquí donde el conocimiento obtenido se transforma en acciones dentro del proceso de ne-
gocio, ya sea observando el modelo y resultados, o aplicándolo a múltiples grupos de datos o
como parte del proceso. El conocimiento adquirido deberá organizarse y presentarse de ma-
nera que el cliente pueda usarlo.
Figura 2.10: Fase de implementación [35]
2.2.1.4. Comparativa
Después de haber presentado las tres metodologías de minería de datos, se tiene que esco-
ger aquella que se adapte mejor a los objetivos del proyecto. Para tal fin, se ha realizado una
comparación entre las tres metodologías presentadas anteriormente.
12
La tabla 2.1 muestra las fases del proceso de minería de datos en cada metodología [38].
Fases KDD SEMMA CRISP-DM

Análisis y Entender el dominio Comprensión del
comprensión del negocio. negocio.
del negocio.
Crear un conjunto de
datos de destino en el Muestreo
Selección y que se realizará el Comprensión de
preparación de descubrimiento. los datos.
los datos. Limpieza de datos y Exploración
preprocesamiento.
Reducción y Modificación Preparación de
proyección de datos. los datos.
Elegir la tarea de
minería de datos.
Modelado Elección de los Modelado Modelado
algoritmos de minería
de datos.
Minería de datos.
Evaluación Interpretación y Valoración Evaluación
evaluación
Consolidar el
Implementación conocimiento Implementación
descubierto.
Tabla 2.1: Fases del proceso de minería de datos en cada me-
todología
Realizando la comparación se observa que KDD (en su versión completa de nueve pasos) y
CRISP-DM incluyen todas las fases. SEMMA incluye la fase de selección y preparación de
datos, modelado y evaluación. Sin embargo, no incluye la fase de análisis y comprensión del
negocio, debido a que inicia con la extracción de los datos, ni la fase de implementación, ya
que no incluye la implementación de los resultados obtenidos.
La metodología que se utilizará para el proceso de minería de datos es CRISP-DM, debido
a que es una metodología completa, se puede aplicar libremente en cualquier herramienta,
y además, está orientada al ámbito empresarial. Por otro lado, a diferencia de KDD y SEM-
MA que proponen actividades generales en cada etapa del proyecto, CRISP-DM especifica con
mayor detalle las actividades y describe detalladamente las tareas en cada fase del proceso.
2.2.2. DM-UML
Es una extensión del lenguaje de modelado UML para proyectos de minería de datos (DM-
UML) que cubre todas las necesidades de documentación para un proyecto conforme a un
proceso estándar, a saber, CRISP-DM, que abarca desde la comprensión empresarial hasta la
implementación. Lo cual resulta muy útil y transparente para modelar y conectar la compren-
sión empresarial o la fase de modelado con el resto del proyecto hasta el despliegue, así como
una forma de facilitar la comunicación con las partes interesadas no técnicas involucradas en
el proyecto [39].
13
Para el proyecto se hará uso de esta extensión para realizar la primera fase de la metodología
CRISP-DM. A continuación, se describen los modelos a utilizar:
• Modelo de caso de uso del negocio
El objetivo del modelo de caso de uso del negocio es identificar qué partes del negocio se
van a mejorar (caso de uso del negocio) y qué actores que están involucrados.
• Modelo de objetivo de negocio
Este modelo nos permite identificar uno o más objetivos de negocio para cada caso de
uso de negocio identificado anteriormente.
• Modelo de análisis del negocio
El análisis del negocio muestra cómo interactúan los trabajadores del negocio con las
entidades del negocio para lograr un objetivo particular.
• Modelo de caso de uso de minería de datos
Los casos de uso de minería de datos se obtienen de los casos de uso y objetivos del
negocio. El nombre de los casos de uso de minería de datos se forma a partir del nombre
del objetivo de negocio del cual se derivan más el nombre del caso de uso de negocio
relacionado.
• Modelo de objetivo de minería de datos
Los objetivos de minería de datos se establecen en términos de los objetivos del negocio
y son una traducción del problema del negocio a problemas expresados en términos de
minería de datos. Al igual que el modelo de caso de uso de negocio, este modelo nos
permite identificar uno o más objetivos de minería de datos para cada caso de uso de
minería de datos.
2.2.3. Técnicas de minería de datos

Las técnicas de minería de datos provienen de la inteligencia artificial y de la estadística. Se
distinguen entre predictivas y descriptivas. Las técnicas predictivas estiman valores futuros o
desconocidos de variables dependientes a partir de otras variables independientes en base a
un conocimiento teórico previo de los datos [40].
Por otro lado, las técnicas descriptivas tienen como objetivo extraer un conocimiento intere-
sante, comprensible e interpretable para descubrir dependencias ocultas y características de
los datos [41]. En estas técnicas no se asignan variables dependientes y tampoco existe un mo-
delo previo para los datos.
En el presente proyecto se utilizarán técnicas descriptivas, las cuales se describen a continua-
ción:
2.2.3.1. Clustering
Las técnicas de agrupamiento son muy útiles para obtener conocimiento de un conjunto de
datos. La agrupación analiza elementos de datos sin considerar una etiqueta de clase ya que
no se conoce. Los ítems se agrupan de acuerdo con el principio de maximización de similitud
intraclase y la minimización de similitud interclase o distancia. Esto quiere decir, que los gru-
pos se forman de modo que los elementos dentro de un grupo tengan una gran similitud entre
sí, pero sean muy diferentes a los elementos de otros grupos.
14
Figura 2.11: Ejemplo algoritmo K-means
K-Means es un algoritmo estándar que toma los parámetros y el número de grupos como
entradas y divide los datos en el número definido de grupos de manera que la similitud dentro
del grupo sea alta. K-Means es un enfoque iterativo que calcula el valor de los centroides antes
de cada iteración. Los puntos de datos se mueven entre diferentes grupos dependiendo de los
centroides calculados en cada iteración. El proceso se repite hasta que la suma no se pueda
disminuir más.
Esta técnica descriptiva, permite clasificar diferentes perfiles de comportamiento dentro de
gran número de consumidores, creando grupos de consumidores con comportamientos pa-
recidos entre sí y, al mismo tiempo, lo más diferente posible a otros grupos. El objetivo es
clasificar a una población amplia en grupos pequeños en base a las semejanzas y diferencias
entre ellos.
2.2.3.2. Reglas de asociación

Los algoritmos de reglas de asociación tienen como objetivo encontrar relaciones dentro de un
determinado conjunto de datos o transacciones, es decir, busca items que tienden a ocurrir de
forma conjunta. A cada uno de los elementos que forman parte de una transacción se le conoce
como item y a un conjunto de ellos itemset. Una transacción puede estar formada por uno o
varios items, en el caso de ser varios, cada posible subconjunto de ellos es un itemset distinto.
Por ejemplo, la transacción T = {A,B,C} está formada por 3 items (A, B y C) y sus posibles
itemsets son: {A,B,C}, {A,B}, {B,C}, {A,C}, {A}, {B} y {C}.
Para una regla dada A → B, donde A y B son itemsets o items individuales, el lado izquierdo
de la regla (A) recibe el nombre de antecedente o lenft-hand-side (LHS) y el lado derecho (B)
el nombre de consecuente o right-hand-side (RHS). Por ejemplo, la regla {A,B} → {C} significa
que, cuando ocurren A y B, también ocurre C.
Existen varios algoritmos diseñados para identificar itemsets frecuentes y reglas de asociación.
A continuación, se describe el algoritmo Apriori, que será usado para predecir marcas de pro-
ductos.
Apriori
El algoritmo Apriori fue uno de los primeros algoritmos desarrollados para la búsqueda de
reglas de asociación. Para generar las reglas de asociación primero se identifican todos los
15
itemsets que ocurren con una frecuencia por encima de un determinado límite, y se eliminan
a todos los conjuntos que contengan itemsets infrecuentes, debido a que considera que, si un
itemsets es infrecuentes, entonces, todos los conjuntos donde este último se encuentre, también
son infrecuentes. Luego esos itemsets frecuentes se convierten en reglas de asociación.
Para una regla de asociación A → B, la fuerza de la regla se puede medir en términos de
“Soporte”, “Confianza” y “Lift”. El “Soporte” del itemset “A” es el número de transacciones
que contienen “A” dividido entre el total de transacciones, mientras que la “Confianza” es la
probabilidad de que una transacción que contiene los ítems de “A”, también contenga los ítems
de “B”.
Por otro lado, el “Lift” es una medida utilizada para evaluar el grado de dependencia de los
términos de una regla. El “Lift” representa en qué grado “B” tiende a ser frecuente cuando “A”
ocurre, o viceversa.
Estas métricas se calculan con las siguientes fórmulas [42]:
σ( A) Número de transacciones que contienen A

Soporte, s( A) = =
N Número total de transacciones
σ( A ∪ B) Número de transacciones que contienen A y B

Soporte de regla, s( A → B) = =
N Número total de transacciones
s( A → B) σ( A ∪ B)
Confianza, c( A → B) = =
s( A) σ( A)
c( A → B)
Lift( A → B) =
s( B)
2.2.4. Herramientas de minería de datos

Existen una gran variedad de herramientas que son utilizadas para análisis de minería de datos
entre ellas se encuentra Weka y IBM SPSS Modeler. A continuación, se van a describir cada una
de ellas.
2.2.4.1. Weka
Weka (Waikato Environment for Knowledge Analysis) es un software de libre distribución
bajo licencia GNU-GPL y está escrita en Java [43]. El desarrollo de WEKA se inició en 1993
en la Universidad de Waikato (Nueva Zelanda) siendo la primera versión pública Weka 2.1 la
del año 1996. Actualmente, la última versión de WEKA es la 3.8 estando disponible para los
principales sistemas operativos tanto libres como comerciales [44].
El paquete Weka [45] contiene una colección de algoritmos de aprendizaje automático para re-
solver problemas de minería de datos del mundo real. Además, contiene herramientas necesa-
rias para realizar transformaciones sobre los datos, tareas de clasificación, regresión, clustering,
asociación y visualización.
Una de las principales características es que es independiente de la arquitectura ya que funcio-
na en cualquier plataforma sobre la que haya una máquina virtual Java disponible. Además,
contiene una extensa colección de algoritmos para preprocesamiento de datos y modelado.
Estos algoritmos pueden ser aplicados sobre los datos mediante interfaces.
16
Weka cuenta con cuatro interfaces de usuario que permiten acceder a las funcionalidades del
programa. Las cuales son:
• La interfaz Simple CLI, es una consola que permite acceder a las opciones de weka desde
la línea de comandos.
• La interfaz Explorer, permite acceder a los diferentes componentes de weka a través de
una serie de paneles que permiten aplicar distritos algoritmos de aprendizaje a un con-
junto de datos.
• La interfaz Experimenter, permite aplicar uno o varios métodos de clasificación sobre un
gran conjunto de datos y, determinar de manera estadística cual se comporta mejor.
• La última interfaz Knowledge Flow, ofrece las mismas funcionalidades de Explorer, pe-
ro su funcionamiento es gráfico, y además ofrece aprendizaje incremental debido a que
permite situar en el panel de trabajo elementos base de manera que se crea un circuito o
flujo que defina nuestro experimento.
En la Figura 2.12, se muestra la interfaz Explorer de la herramienta Weka:
Figura 2.12: Interfaz Explorer de Weka
2.2.4.2. RapidMiner
RapidMiner [46], conocido anteriormente como YALE por sus siglas en inglés (Yet Another
Learning Environment) es otra herramienta de minera de datos, que permite el desarrollo de
procesos de análisis de datos mediante el encadenamiento de operadores a través de un en-
torno gráfico. Se distribuye bajo licencia GPL y esta implementado en Java.
Su versión inicial fue desarrollada por el departamento de inteligencia artificial de la Univer-
sidad de Dortmund en 2001. Esta herramienta ofrece más de 500 operadores orientados al
17
análisis de datos para realizar operaciones de entrada y salida, preprocesamiento de datos y

visualización, además permite utilizar los algoritmos incluidos en Weka.
Entre las características principales de RapidMiner destacamos que [44]:
• Es multiplataforma.
• Representación interna de los procesos de análisis de datos en ficheros XML.
• Permite el desarrollo de programas a través de un lenguaje de script.
• Puede usarse a través de una interfaz gráfica, línea de comandos, batch o inclusive desde
otros programas, a través de llamadas a sus bibliotecas.
• Es extensible.
• Incluye gráficos y herramientas de visualización de datos.
• Dispone de un módulo de integración con R.
La interfaz de la herramienta RapidMiner se muestra en la Figura 2.13:
Figura 2.13: Interfaz de RapidMiner
2.2.4.3. IBM SPSS Modeler

IBM SPSS Modeler es una herramienta de software de minería de datos de IBM. Permite me-
diante una interfaz gráfica construir modelos predictivos y realizar otras tareas analíticas per-
mitiendo a los usuarios aprovechar los algoritmos estadísticos y de minería de datos sin pro-
gramación. Esta diseñado en torno al modelo CRISP-DM, admite todo el proceso de minería
de datos, desde datos hasta mejores resultados comerciales [47].
IBM SPSS Modeler fue originalmente llamado Clementine por sus creadores, Integral Solutions
Limited, después de un tiempo que de SPSS adquiera la herramienta, le cambio el nombre a
SPSS Clementine. Posteriormente, cambio de nombre a PASW Modeler. Finalmente, en 2009,
tras la adquisición de la herramienta, pasó a llamarse IBM SPSS Modeler [48].
IBM SPSS es una empresa reconocida como líder en análisis predictivo. Sus aplicaciones tienen
una buena visibilidad y fuerza de ventas en el mercado y es considerada por algunos expertos
18
como uno de los mejores proveedores de software de minería de datos [44].

Esta herramienta tiene las siguientes características [49]:
• La interfaz gráfica intuitiva permite a los usuarios visualizar cada paso del proceso de
minería de datos en forma de flujo.
• Permite trabajar con diversas fuentes de orígenes de datos (ASCII, XLS, ODBC, EXCEL,
XML, etc.)
• Ofrece varias formas de manipular y preparar los datos para su análisis a nivel de registro
o atributo.
• Permiten desarrollar rápidamente modelos predictivos utilizando la experiencia empre-
sarial y desplegarlos en las operaciones comerciales para mejorar la toma de decisiones.
• Incorpora una amplia variedad de herramientas de minería de datos e inteligencia de
negocios, manipulación de datos, combinación de modelos, visualización de datos.
• Permite la exportación de modelos a distintos lenguajes (C, SPSS, SAS, etc.), también la
exportación de datos integrada a otros programas y la generación de informes.
En lo referido a técnicas de minería de datos, SPSS Modeler permite usar una variedad de
técnicas analíticas según el proceso que vayamos a realizar. Algunas de ellas son:
• Segmentación: K-medias, Kohonen, Bietápico, Anomalía.
• Asociación: A priori, GRI, CARMA y Análisis de Secuencia.
• Clasificación: Factorial, Discriminante, Red Neuronal, C5.0, GLM, Máquinas de Vecto-
res de Soporte, Redes Bayesianas, Modelos de auto aprendizaje, Vecino más próximo,
Árboles, Listas de Decisión, Selección de características, etc.
• Predicción: Regresión Lineal, Series Temporales, Regresión de Cox, Regresión Logística.
• Automáticos: Auto numérico, Auto clasificador, Auto Agrupación, Modelizador ARIMA
automático.
Esta herramienta se encuentra disponible en diversas plataformas, como Windows, Linux,
Mac, AIX y se ha de pagar una licencia para su uso.
Figura 2.14: Interfaz IBM SPSS Modeler
19
2.2.4.4. ¿Por qué IBM SPSS Modeler?

De las tres herramientas presentadas anteriormente, ambas ofrecen la posibilidad que aplicar
diferentes técnicas de minería de datos. Sin embargo, IBM SPSS Modeler, ofrece una interfaz
gráfica mucho más intuitiva que permite al usuario visualizar e interactuar con cada paso del
proceso de minería de datos.
Finalmente, se elige IBM SPSS Modeler como la herramienta a usar para este proyecto, por su
facilidad de uso y los beneficios mencionados anteriormente. Además, está diseñado en base
a la metodología CRISP-DM que es la metodología elegida para desarrollar el proyecto.
20
Capítulo 3
Materiales y Métodos
En este capítulo se describe el desarrollo del proyecto aplicando las tres primeras fases de la
metodología CRISP-DM, para realizar el análisis del comportamiento de compra de los clientes
particulares de la empresa entre los años 2018 y 2019.
3.1. Fase I: Comprensión del negocio

Para realizar el proyecto se ha analizado las ventas reales de la empresa Barbacci, que se dedica
a la venta de todo tipo de productos relacionado al mundo de las motos. La empresa tiene dos
tipos de clientes, los distribuidores que son los que realizan compras mayoristas y generan
mayores ingresos a la empresa, por otro lado, los particulares son los que realizan compras
minoristas y generan menores ingresos. De aquí en adelante cuando se mencione el término
“clientes” nos estaremos refiriendo a los “clientes particulares” de la empresa, a no ser que se
explicite lo contrario.
El problema que ha observado la empresa es que en los últimos meses la venta de los clientes
ha disminuido, por ello necesita conocer el comportamiento de compra de sus clientes, es
decir, cuánto compran, cuánto gastan, la frecuencia de compra, cuántos clientes de mayor valor
tienen, cuántos clientes han dejado de comprar, qué marcas prefieren, qué marcas le pueden
interesar, quiénes son sus clientes más y menos rentables, etc., con la finalidad de diseñar
campañas de marketing que ayuden a aumentar sus ventas.
La empresa menciona algunas campañas que podría realizar con algunos perfiles de clientes.
Para clientes vip programarían descuentos especiales en todas sus compras; para clientes po-
tenciales, vales de compras exclusivos para compras en sus marcas favoritas y para clientes
por recuperar, ofertas de marcas personalizadas por cliente, etc. Por otro lado, la empresa tam-
bién desea identificar a los productos que han sido comprados hasta el 2017, y no han tenido
rotación en el 2019, con el objetivo de ponerlos en liquidación y captar a clientes que buscan
productos a bajo precio logrando así aumentar sus ventas.
A continuación, vamos a hacer uso del modelado DM-UML para identificar los objetivos de
negocio y de minería de datos.
Modelo de caso de uso del negocio
El objetivo del modelo de caso de uso del negocio es identificar qué partes del negocio se
van a mejorar (caso de uso del negocio) y qué actores que están involucrados. Analizando
la descripción del problema se han identificado los casos de uso del negocio y los actores
21
involucrados. Para el modelo se ha tomado como referencia los perfiles (Vip, potencial y en
riesgo) y campañas mencionadas por la empresa.
Actores
• Cliente: Persona que ha realizado una compra al menos una vez o es un cliente potencial.
o Cliente vip, representa la persona que realiza compras frecuentes y gasta dinero.
o Cliente potencial, representa la persona que gasta dinero, pero no compra con fre-
cuencia.
o Cliente en riesgo, representa la persona que gastaba dinero pero que en los últimos
siete meses no ha realizado una compra.
• Gerente comercial: Persona responsable de diseñar y registrar en el sistema ERPX las
campañas de marketing: descuentos, vales de compras, ofertas y liquidación de produc-
tos, de acuerdo con las pautas establecidas por el analista de negocios.
• Sistema ERPX: Es el sistema que usa el negocio para programar descuentos, ofertas,
vales de compras, liquidaciones, realizar una venta, etc.
• Vendedor: Persona que atiende al cliente y realiza la venta del producto.
• Analista de negocios: Es la persona que analiza lo que sucediendo y decide que acciones
se deben tomar para lograr los objetivos del negocio establecido por la empresa.
Caso de uso principales

• Lanzar campaña de marketing: Representa la acción que realiza el sistema EPRX al
lanzar o procesar las ofertas, vales de compras, descuentos y liquidación, creados por el
gerente comercial, y enviarla al cliente.
o Crear oferta de marcas, representa la acción que realiza el gerente comercial al crear
la oferta de marcas para los clientes por recuperar.
o Crear vale de compra, representa la acción que realiza el gerente comercial al crear
vales de compra para los clientes potenciales.
o Programar descuento, representa la acción que realiza el gerente comercial al pro-
gramar descuento para clientes vip.
o Programar liquidación de productos, representa la acción que realiza el gerente co-
mercial al programar la liquidación de los productos sin rotación en el último año.
• Vender producto: Representa la acción de vender un producto.
Caso de uso de soporte

• Analizar los datos del negocio: Representa el análisis de los datos disponibles en la
empresa para tomar las mejores decisiones y cumplir los objetivos del negocio.
• Modificar Sistema ERPX: Representa la acción de modificar el sistema EPRX que apoya
al gerente comercial con la creación de ofertas, vales de compra, descuentos y liquida-
ción de productos. Este sistema se modifica de acuerdo con las pautas decididas por el
analista del negocio después de realizar el análisis de datos.
22
En la Figura 3.1 se muestra el modelo de caso de uso del negocio identificado (la Figura 3.1 no
representa todo el negocio).
Crear oferta de
marca
<<incluir>>
Crear vale de <<incluir>>
compra Lanzar campaña de
<<incluir>>
marketing
Programar <<incluir>> Sistema ERPX

descuento
Programar <<incluir>>
Gerente comercial liquidación de
productos
vip
Recibir notificación de
campaña
Cliente en riesgo <<incluir>>
<<incluir>>
Cliente
Cliente vip Vender producto
Vendedor
Cliente potencial
Analizar los data del

negocio
<<incluir>>
Analista de negocios Modificar Sistema

ERPX
Figura 3.1: Modelo de caso de uso del negocio
Modelo de objetivo de negocio

Este modelo nos permite identificar uno o más objetivos de negocio para cada caso de uso de
negocio identificado anteriormente. En la Figura 3.2 se muestra el modelo de objetivos de ne-
gocio identificado.
23
Incrementar las ganancias
Vender producto
Lanzar campaña de
Reducir abandono Incrementar la cantidad marketing: liquidación
de clientess de venta de clientes de productos
Lanzar campaña de
marketing: ofertas
Lanzar campaña
Lanzar campaña de de marketing:
marketing: vale de descuentos
compra
Atraer clientes que se Atraer a clientes
es FFidelizar a clientes d
de Captar clientes que
encuentran en riesgo potenciales mayor valor buscan productos a
bajo precio
Ayudar al gerente Ayudar al gerente Ayudar al gerente

comercial a crear vales de comercial a programar Ayudar al gerente
comercial a crear ofertas
compra para marcas descuentos especiales de comercial a programar la
de marcas de productos
especificas dirigida a manera permanente para liquidación de los
que un cliente en riesgo
clientes potenciales clientes de mayor valor productos
estaría interesado en
comprar
Modificar
d Sistema
t
ERPX
Identificar marcas de
mayor valor para clientes Identificar a los clientes
potenciales por su de mayor valor por su
histórico de compras Identificar productos
histórico de compras
sin rotación por su
Predecir
i marcas dde productos histórico de ventas
Analizar los data del negocio
que un cliente en riesgo estaría
interesado en comprar
tomando como referencia su
Figura 3.2: Modelo de objetivos del negocio
24
Reporte de clientes de Reporte de clientes

mayor valor potenciales y sus
marcas de mayor valor
Reporte de clientes en riesgo Reporte de
y las marcas de productos productos sin
que un cliente estaría movimiento
interesado en comprar
Gerente comercial
Sistema ERPX
Notificación de Notificación de Notificación de Notificación de

oferta descuentos especiales vale de compra Liquidación
Cliente en riesgo Cliente vip Cliente potencial Cliente
(a) Lanzar campaña de marketing

potencial
Reporte de productos Sistema ERPX Producto

Cliente Vendedor
sin movimiento
Cliente
Reporte de clientes de Venta Cliente

mayor valor Factura
Producto c) Vender producto

Analista de negocio
Reporte de clientes
potenciales y sus Venta
marcas de mayor valor
Departamento TI
Pautas para modificar
Sistema ERPX
Reporte de clientes en riesgo y Pautas para modificar

las marcas de productos que Sistema ERPX Sistema ERPX
un cliente estaría interesado
en comprar
b) Analizar los data del negocio d) Modificar Sistema ERPX
Figura 3.3: Modelo de análisis de negocio
25
Modelo de análisis del negocio

El análisis del negocio muestra cómo interactúan los trabajadores del negocio con las entidades
del negocio para lograr un objetivo particular.
Los trabajadores de negocios son:
• Analista de negocios, que tiene la responsabilidad de investigar los sistemas de negocios,
identificar las opciones para mejorar los sistemas de negocios y preparar los reportes que
cumplas las necesidades del negocio.
• Vendedor, que es el vendedor que físicamente atiende a los clientes en la tienda.
• Sistema ERPX, un sistema informático de venta de productos que utilizan los vendedo-
res y el gerente comercial.
En la Figura 3.3 se muestra el análisis de los cuatro casos de usos del negocio identificados.
• Lanzar campaña de marketing: Antes de lanzar la campaña de marketing, el analista de
negocio examina la información disponible dentro del negocio con respecto a clientes,
ventas y productos (Figura 3.3a).
Después de estudiar la información, el analista de negocios crea reportes de clientes,
productos y las pautas para la modificación en el sistema ERPX. Luego los reportes son
entregados al gerente comercial para que programe ofertas, descuentos, vales de compras
y liquidación de productos en el sistema ERPX.
Cuando la programación de una campaña ha terminado el sistema la procesa y envía al
cliente la notificación de la campaña. Finalmente, la notificación es vista por el cliente y
el caso de uso termina. Si un cliente decide comprar visitará la tienda, ejecutando el caso
de uso de Vender producto (Figura 3.3c).
• Vender producto: Para comprar un producto el cliente visita la tienda en donde será
atendido por un vendedor. El vendedor registra el pedido, si un cliente tiene alguna
oferta, descuento o vale de compra, será aplicado de manera automática por el sistema o
si algún producto está en liquidación de la misma forma. Si hay una venta, se generará
el documento de factura. (Figura 3.3c)
• Analizar los datos del negocio: Este caso de uso se encarga del análisis de toda la in-
formación disponible dentro de la empresa (cliente, venta y producto). El analista del
negocio generará los reportes con la identificación de los clientes con sus marcas y pro-
ductos favoritos, reporte de productos sin movimiento y las pautas para modificar el
sistema ERPX. (Figura 3.3b)
• Modificar Sistema ERPX: El departamento de TI desarrolla y mejora el sistema infor-
mático ERPX según las pautas recibidas del analista de negocios después de estudiar la
información disponible (Figura 3.3d).
26
Modelo de caso de uso de minería de datos

Los casos de uso de minería de datos se obtienen de los casos de uso y objetivos del negocio.
El nombre de los casos de uso de minería de datos se forma a partir del nombre del objetivo de
negocio del cual se derivan más el nombre del caso de uso de negocio relacionado [39], como
se muestra en la Figura 3.4.
<<DM>>
Predecir marcas de productos que un
cliente en riesgo estaría interesado en
comprar tomando como referencia su
Predecir marcas de productos Analizar los data del negocio
que un cliente en riesgo estaría
interesado en comprar tomando
como referencia su histórico de
compras
<<DM>>
Identificar marcas de mayor valor para
clientes potenciales por su histórico de
compras
Identificar marcas de
Analizar los data del mayor valor para clientes
negocio potenciales por su
<<DM>>
Identificar a los clientes de mayor valor
por su histórico de compras
Identificar a los clientes
de mayor valor por su
<<DM>>
Identificar productos sin rotación por su
histórico de ventas
Identificar productos
sin rotación por su
histórico de ventas
Figura 3.4: Modelo de caso de uso de minería de datos
Modelo de objetivo de minería de datos

Los objetivos de minería de datos se establecen en términos de los objetivos del negocio y son
una traducción del problema del negocio a problemas expresados en términos de minería de
datos. Al igual que el modelo de caso de uso de negocio, este modelo nos permite identificar
uno o más objetivos de minería de datos para cada caso de uso de minería de datos [39]. En la
Figura 3.5 se muestra el modelo del objetivo de minería de datos identificado.
27
Predecir marcas de
productos que un
cliente compraría -
Construir modelo de
<<DM>> reglas de asociación
Predecir marcas de productos que un
cliente en riesgo estaría interesado en
comprar tomando como referencia su
histórico de compras Identificar perfiles
Analizar los data del negocio de clientes
(Análisis RFM)
<<DM>>
Identificar marcas de mayor valor para
clientes potenciales por su histórico
de compras Construir modelo
Analizar los data del negocio clustering -
Identificar marcas
más rentables
Analista de negocios <<DM>>

Identificar a los clientes de mayor
valor por su histórico de compras
Encontrar una
asociación
cliente-marca
<<DM>>
Identificar productos sin rotación por
su histórico de ventas
Analizar los data del negocio Identificar productos
sin rotación (Análisis
RFM)
Figura 3.5: Modelo de objetivo de minería de datos
28
3.1.1. Objetivos del negocio

Como se muestra en la Figura 3.2, el objetivo principal de la empresa es aumentar las ganancias
de las ventas por cliente, para lograrlo se necesitan los siguientes objetivos secundarios:
• Incrementar la cantidad de venta de clientes: Este objetivo se logra gracias los siguientes
objetivos específicos.
o Identificar los perfiles de clientes que tiene la empresa tomando como referencia
su comportamiento de compras de los últimos dos años. Por ejemplo, identificar a
aquellos clientes que estos últimos dos años han generado mayor ganancia a la em-
presa, clientes que han gastado mucho dinero pero que no compran con frecuencia,
etc.
o Identificar productos sin rotación, es decir, que han sido comprados hasta el 2017 y
no han tenido rotación en el 2019, con el objetivo de ponerlos en liquidación a fin de
captar clientes que buscan productos a bajo precio.
• Reducir la tasa de abandono de clientes.
o Identificar a los clientes por recuperar tomando como referencia su histórico de com-
pras de los últimos dos años, es decir, que realizaban compras frecuentes, pero que
hace más de tres meses no realizan una compra, con el objetivo de recuperarlos
brindándoles ofertas personalizadas por cliente.
3.1.2. Criterio de éxito de los objetivos del negocio

• Incremento de ventas de clientes en un 10 % viéndose esto reflejado en el incremento de
sus ganancias.
• Reducción de la tasa de abandono en un 5 %.
Estos criterios no podrán ser comprobados por las limitaciones del proyecto.
3.1.3. Valoración de la situación

Para llevar a cabo el proyecto se hará uso de una copia de la base de datos transaccional de la
empresa, que se encuentra almacenado bajo PostgreSQL 9.5 en un servidor dedicado propio.
La base de datos cuenta con información detallada de las ventas desde el año 2015 hasta la
actualidad.
Los recursos de software que se usaron para la elaboración del proyecto fueron: PostgreSQL
9.5, para almacenar la base de datos; PgAdmin III, para el manejo de la base de datos de clientes
de la empresa y IBM SPSS para aplicar las taras de minería de datos. En cuanto a recursos de
hardware, se usó un ordenador personal, con sistema operativo Windows 10 y 8.00 GB de
RAM.
3.1.4. Objetivos de minería de datos

Los objetivos del negocio en términos de minería de datos son:
• Identificar las variables de Recencia, Frecuencia y Monetario mediante el análisis RFM, y
usarlos como entradas para el algoritmo K-means con el objetivo de identificar los grupos
clientes que existe en la empresa, tomando como referencia el histórico de compras de
los años 2018 y 2019.
29
• Construir un modelo de clasificación usando el algoritmo K-means para agrupar las mar-
cas de los productos según la rentabilidad, basándose en su costo unitario medio y valor
de precio medio.
• Encontrar una relación entre los perfiles de clientes y los clustering de marca.
• Construir un modelo de reglas de asociación aplicando el algoritmo Apriori que ayude a
recomendar marcas de productos que un cliente estaría interesado en comprar.
• Identificar los productos sin rotación mediante el análisis RFM, tomando como referencia
el histórico de ventas de productos.
3.1.5. Criterio de éxito de los objetivos de minería de datos

• Obtener un reporte por cada perfil, con la lista de clientes identificados.
• Determinar las marcas más rentables de la empresa.
• Determinar los grupos de marcas preferidas por cada perfil de cliente.
• Obtener un reporte por cada perfil, con la lista de marcas compradas por cada cliente, así
como también el nombre del clúster al que pertenece cada marca.
• Obtener un reporte con la lista de posibles marcas que serían compradas por cualquier
cliente.
• Obtener un reporte con la lista de productos sin rotación.
3.2. Fase II: Comprensión de los datos

Luego de definir los objetivos tanto para el negocio como para minería de datos en la fase
anterior, comenzamos con la segunda fase que implica la exploración a profundidad de los
datos y la selección de aquellos que sean necesarios para cumplir con los objetivos del negocio.
3.2.1. Recopilación de datos iniciales

La empresa utiliza una base de datos relacional almacenada bajo PostgreSQL 9.5 en un servidor
propio, cuenta con 320 tablas repartidas en esquemas diferentes, cada uno de ellos orientado a
un ámbito de la empresa.
Debido a que uno de los objetivos del negocio es identificar el perfil de los clientes tomando
como referencia su histórico de compras de los últimos dos años, se han identificado 6 tablas
que contienen información relevante para realizar el análisis y se ha procedido a recopilar los
datos de las ventas entre los años 2018 y 2019. Así como también se han identificado las tablas
necesarias para detectar los productos sin rotación.
Las tablas identificadas son las siguientes: Marca (all_m_mar), Producto (all_m_prd), Stock
(inv_t_prd), Cliente (vta_m_cli), Movimiento (inv_t_mov) y Detalle de movimiento (inv_t_mov1).
En estas tablas se encuentran datos tales como:
• Identificador de transacción.
• Fecha de venta.
• Código del cliente.
30
• Marca del producto.

• Nombre del producto.
• Cantidad vendida.
• Valor de venta unitario.
• Precio de venta unitario.
• Valor de venta total.
• Precio de venta Total.
• Costo de producto.
• Stock de producto.
3.2.2. Descripción de los datos

A continuación, se describen las tablas y los atributos identificados para el análisis.
Tabla Marca: all_m_mar

Esta tabla contiene el nombre todas las marcas que maneja la empresa. Tiene como clave pri-
maria el campo dmar_id y consta de un total de registros 661 registros.
Atributo Tipo Descripción

dmar_id Número entero. Identificador de marca.
dmarnom Cadena de caracteres. Nombre de la marca.
Tabla 3.1: Estructura de la tabla marca
Tabla Producto: all_m_prd

Esta tabla contiene información sobre los productos que maneja la empresa. Tiene como clave
primaria el campo dprd_id, una clave foránea (dmar_id), y consta de un total de registros
32.693 registros.

dprd_id Número entero. Identificador de producto.
dmar_id Número entero. Es un número que identifica a que
marca pertenece el producto y es
clave foránea ya que referencia a la
clave primaria de la tabla marca.
dprdnom Cadena de caracteres. Nombre del producto.
dprdcosto Número decimal. Costo unitario del producto.
dprdfec_uc Date. Fecha última compra al proveedor.
Tabla 3.2: Estructura de la tabla producto
Tabla Stock: inv_t_prd

Esta tabla contiene el stock por local de todos los productos que maneja la empresa. Tiene como
clave primaria el campo dprd_id y dloc_id, consta de un total de registros 54.341 registros.
31

dprd_id Número entero. Identificador de producto.
dloc_id Número entero. Identificador del local.
dprdstk Número entero. Cantidad disponible para la venta.
Tabla 3.3: Estructura de la tabla stock
Tabla Cliente: vta_m_cli

Esta tabla contiene información de los clientes y distribuidores de la empresa. Tiene como clave
primaria el campo dcli_id y consta de un total de registros 25.400 registros.

dcli_cod Cadena de caracteres. Código que identifica al cliente.
dclitipo Cadena de caracteres. Indica el tipo de cliente. Almacena
‘D’ cuando es un distribuidor y ‘C’
cuando es cliente particular.
Tabla 3.4: Estructura de la tabla cliente
Tabla Movimiento: inv_t_mov

Esta tabla es la principal ya que contiene la información de las ventas de la empresa. Tiene
como clave primaria el campo dmov_id, una clave foránea (dcli_id), y consta de un total de
registros 47.452 registros.

dmov_id Número entero. Identificador de transacción.
dtma_id Número entero. Tipo de movimiento. Almacena ‘4’
cuando es una venta factura, ‘5’
cuando es venta boleta y ‘7’ cuando
es nota de crédito.
dmovfec Date. Fecha del movimiento.
dcli_cod Cadena de caracteres. Código que identifica a que cliente
pertenece el movimiento y es clave
foránea ya que referencia a la clave
primaria de la tabla cliente.
dmovmon Cadena de caracteres. Código de la moneda en la que
se realiza el movimiento. Almace-
na ‘PEN’ cuando es soles y ‘USD’
cuando es dólares.
Tabla 3.5: Estructura de la tabla movimiento
Tabla Detalle de Movimiento: inv_t_mov1

Esta tabla contiene información del detalle de las ventas de la empresa. Tiene como clave pri-
maria el campo dmov1_id, dos claves foráneas (dmov_id y dcli_id), y consta de un total de
registros127.708 registros.

dmov1_id Número entero. Identificador del detalle de movi-
miento.
32
dmov_id Número entero. Es un número que identifica a que

movimiento pertenece el detalle y
es clave foránea ya que referencia a
la clave primaria de la tabla movi-
miento.
dprd_id Número entero. Es un número que identifica el pro-
ducto en el detalle de movimiento
y es clave foránea ya que referencia
a la clave primaria de la tabla pro-
ducto.
dmov1can Número entero. Cantidad vendida.
dmov1costo Número decimal. Costo unitario del producto.
dmov1valum Número decimal. Valor unitario del producto.
dmov1prcum Número decimal. Precio unitario del producto.
dmov1valt Número decimal. Valor unitario total del producto.
dmov1prct Número decimal. Precio venta total del producto.
Tabla 3.6: Estructura de la tabla detalle de movimiento
3.2.3. Exploración de datos

Para realizar la exploración de los datos se han construido gráficos de barra que nos permiten
conocer los datos a profundidad e identificar a aquellos que serán útiles para cumplir con los
objetivos.
• Porcentaje de ventas por tipo de cliente. En el diagrama circular de la Figura 3.6 muestra
el porcentaje de ventas por tipo de cliente para el año 2019, en la cual se puede compro-
bar que las ventas de los distribuidores son superiores a las ventas de los clientes. Por tal
motivo, la empresa desea centrarse solo en los clientes para realizar este proyecto.
Figura 3.6: Porcentaje de ventas por tipo de cliente
Dado que el propósito de la empresa es evaluar el comportamiento de compra de los clientes,

se ha realizado un análisis de los datos transaccionales, para conocer la actividad de compra
de los clientes.
33
• Monto total de ventas de clientes para los años 2018 y 2019. En el diagrama de barras de
la Figura 3.7 se observa, que el monto de ventas del año 2019 ha disminuido un 9,8 % con
respecto al año anterior, lo cual confirma el problema mencionado por la empresa.
Figura 3.7: Monto total de ventas anuales
• Número de ventas realizadas en los últimos dos años. En el diagrama de barras de la

Figura 3.8, se muestra que el número de ventas del 2019 ha disminuida en casi 10 %, con
respecto del año 2018.
Figura 3.8: Número ventas anuales
• Número de compras por identificador de transacción. En la tabla 3.9 de estadísticos des-

criptivos, se puede identificar que el mínimo de compras realizada por transacción es 1
y el máximo 145, y la media es de 1.
34
Figura 3.9: Tabla de estadísticos para el atributo “Identificador de transacción’ ’
• Distribución del número de compras. El siguiente histograma muestra la frecuencia de

número de compras que se han realizado en total. En la Figura 3.10 se observa que la ma-
yoría de los clientes han realizado entre 1 a 4 compras, y una gran minoría han realizado
compras superiores a 20.
Figura 3.10: Gráfico de distribución del número de compras
• Cantidad vendida anual por marca. En la Figura 3.11, se muestra la cantidad total ven-
dida por marca para los años 2018 y 2019, se observa que para algunas marcas como
Miller, Agv, Thor, Givi, etc., la cantidad vendida ha disminuido con respecto al 2018. Así
como también hay marcas como Dainese-Moto, Vespa-Repuestos, etc., donde la cantidad
vendida en el 2019 ha aumentado.
Figura 3.11: Cantidad vendida anual por marca
• Para el atributo “Valor unitario” también se han obtenido las medidas estadísticas más
comunes para saber cuál es el precio mínimo y máximo que ha pagado un cliente. En la
Figura 3.12, se muestra que el precio mínimo es de 0,3 dólares y el máximo es de 1.566
dólares. Además, el precio medio ronda los 39 dólares a lo largo de todo este período.
35
Figura 3.12: Tabla de estadísticas del atributo “Valor unitario de venta’’
• En el diagrama de caja de la Figura 3.13, se observa que el costo medio de una marca de
producto presenta valores atípicos. Estos valores no serán descartados para el análisis,
debido a que nos indican que existe un grupo de marcas que tienen un costo muy alto.
Figura 3.13: Diagrama de caja para el costo medio por marca
3.3. Fase III: Preparación de los datos

En esta fase se prepara los datos, esto implica seleccionar el subconjunto de datos que se va
a utilizar, limpiarlos para mejorar su calidad, añadir nuevos datos a partir de los existentes y
darles el formato requerido por la herramienta de modelado.
3.3.1. Selección de datos

A continuación, se listan los atributos seleccionados por cada tabla.
Tabla Marca
• dmarnom
Tabla Producto
• dprd_id
• dprdfec_uc
Tabla Stock
• dprd_id
• dprdstk
Tabla Cliente
• dcli_cod
36
Tabla Movimiento
• dmov_id
• dmovfec
• dcli_cod
Tabla Detalle de movimiento
• dmov_id
• dprd_id
• dmov1can
• dmov1costo
• dmov1valum
• dmov1valt
3.3.2. Limpieza de datos

Las tareas de este proceso fueron realizadas mediante el lenguaje SQL en la herramienta pgAd-
min III, que nos permite acceder y manipular la base de datos. Debido a la gran cantidad de
registros que contienen las tablas identificadas en la fase anterior, se han creado dos tablas
(producto y venta) que permitirán acceder a los datos de forma más rápida.
Para cargar las nuevas tablas se han construido dos INSERT mediante una subconsulta que
combinan las tablas mencionadas anteriormente para obtener en una sola tabla los atributos
necesarios para el análisis. En el script de carga de datos, solo se tomó en cuenta los clientes
particulares de la empresa y las transacciones de ventas entre los años 2018 y 2019. Además,
todos los valores monetarios fueron calculados en dólares. El script de creación y carga de
tablas se puede consultar en el Anexo A.1 y A.2.
Tabla Producto
Esta tabla almacena los atributos que serán de utilidad para realizar el análisis de los productos
sin rotación.
Atributo Descripción
dprd_id Identificador del producto.
dmarnom Marca del producto.
dprdnom Nombre del producto.
dprdcosto Costo unitario del producto.
dprdfec_uc Fecha de última compra al proveedor.
dprdstk Stock del producto.
Tabla 3.7: Atributos elegidos para el análisis de productos
Tabla Venta
Esta tabla almacenará el registro de venta de los clientes particulares entre los años 2018 y 2019,
dado que el objetivo es identificar el comportamiento de los clientes, se excluyeron los distri-
buidores, costo y precio de venta menor a cero, y aquellos movimientos que sean diferentes a
una venta.
37
Atributo Descripción
dmov_id Identificador de transacción de venta.
dmovfec Fecha de la venta.
dcli_cod Código del cliente.
dmarnom Marca del producto.
dmov1costo Costo unitario del producto.
dmov1can Cantidad vendida.
dmov1valum Valor de venta unitario del producto.
dmov1valt Valor de venta total del producto.
Tabla 3.8: Atributos elegidos para el análisis de clientes
Realizando la auditoría a las dos tablas con herramienta IBM SPSS Modeler, se ha observado
que no hay datos perdidos ni valores nulos.
Figura 3.14: Calidad de datos de la tabla producto
Figura 3.15: Calidad de datos de la tabla cliente
3.3.3. Construcción de los datos

Debido a que nuestro objetivo es agrupar a los clientes por su comportamiento de compras, ne-
cesitamos conocer el número de días desde que el cliente realizó su última compra (Recencia),
cuántas veces compró (Frecuencia), y cuánto gastó en sus compras (Monetario). Para obtener
estas variables se usó el nodo Adición de RFM. Las variables obtenidas serán usadas como en-
tradas para el análisis RFM, para determinar los grupos de clientes que existen en la empresa.
3.3.3.1. Recencia, Frecuencia y Monetario

Para conocer los valores de las variables de Recencia, Frecuencia y Monetario se consideró los
campos de fecha de compra, el identificador del cliente y el total gastado por cada transacción.
Para obtener el total gastado por cada transacción de compra se usó el nodo Agregar de la
herramienta IBM SPSS Modeler como se muestra en la Figura 3.16.
38
Figura 3.16: Nodo agrega para calcular el total gastado por transacción
Luego se aplicó el nodo nodo Adición de RFM, como se muestra en la Figura 3.17, para calcular
los valores de Recencia, Frecuencia y Monetario usando los campos dcli_cod, dmovfec y el campo
dmov1valt_Sum obtenido anteriormente.
La fecha fija para el cálculo de la Recencia es 31-12-2019, esto debido a que el análisis se realiza
entre los años 2018 y 2019.
Figura 3.17: Nodo adición de RFM
La Figura 3.18 muestra los valores RFM obtenidos para los 10 primeros clientes, en la cual
se puede observar que el cliente con código “20130534211”, tiene una Recencia baja de 4 días
desde que realizó su última compra; su Frecuencia es de 166, indica el número de compras
que ha realizado estos últimos dos años y su Monetario es de 2.277,630 dólares. De los datos,
podríamos deducir que es un cliente muy bueno ya que hace muy poco compró por última
vez, tiene una frecuencia de compra alta y ha gastado mucho dinero.
39
Figura 3.18: Primeras filas de la tabla RFM obtenida
Luego de obtener los variables de RFM, se realizaron gráficos de frecuencia para visualizar
cómo se encuentran distribuidos los valores. En las Figuras 3.22, 3.23, 3.24 se observa que las
variables tienen una distribución sesgada a la izquierda, aunque el valor de Recencia en menor
proporción.
Figura 3.19: Histograma de recencia (ventas recientes) por cliente
Posteriormente, se realizó diagramas de caja para cada una de las variables Figura 3.22, 3.23,
3.24. En dónde se observa que la variable de Recencia no presenta ningún valor atípico. Sin
embargo, las variables de Frecuencia y Monetario tienen una gran cantidad de valores atípicos.
40
Figura 3.20: Histograma de frecuencia de compras por cliente
Figura 3.21: Histograma de valor monetario gastado por cliente
Figura 3.22: Diagrama de caja de la variable Recencia
41
Figura 3.23: Diagrama de caja de la variable Frecuencia
Figura 3.24: Diagrama de caja de la variable Monetario
3.3.3.2. Costo medio y valor de venta medio por marca

Para calcular el costo unitario y valor de venta unitario medio por marca, se usa el nodo Agregar
como se muestra en la Figura 3.25. El costo y el valor de venta medio se usan como entradas
para generar el modelo de agrupación para determinar las marcas más rentables de la empresa.
Figura 3.25: Nodo Agregar para calcular el costo y valor de venta unitario medio por marca
42
La Figura 3.26, muestra las primeras filas de la tabla de marcas de productos, donde se puede
observar el costo unitario y valor de venta unitario medio por marca calculados.
Figura 3.26: Primeras filas de tabla de costo medio por marca
3.3.4. Integración de los datos

Con la herramienta IBM SPSS Modeler se ha obtenido un solo conjunto de datos con todas las
variables que se necesitan para el análisis.
43
Capítulo 4
Experimentación y Resultados
En este capítulo se presentará la fase de modelado y evaluación, en la cual se describe la crea-

ción del modelo y se evalúa la aplicación de los algoritmos de minería de datos necesarios para
cumplir los objetivos del proyecto.
4.1. Fase IV: Modelado

En esta fase se va a realizar el análisis y construcción de los modelos usando la herramienta
IBM SPSS Modeler con la finalidad de cumplir los objetivos de minería de datos mencionados
en la fase inicial.
4.1.1. Algoritmo K-meas para identificar perfiles de clientes

El primer objetivo de minería de datos es identificar el perfil del cliente tomando como refe-
rencia su comportamiento de compras. Para cumplir este objetivo, se ha determinado el valor
cuantitativo de las variables de Recencia, Frecuencia y Monetario, los cuales serán usados como
atributos de entrada para agrupar a los clientes mediante el algoritmo K-means.
4.1.1.1. Análisis RFM

Antes de aplicar la técnica de agrupación, se ha realizado el análisis RFM para segmentar a los
clientes por quintiles, debido a que permite tener una mejor interpretación de los objetivos de
los datos y se ajusta a las necesidades de la empresa.
Las escalas definidas para las variables de Recencia, Frecuencia y Monetario se muestran en la
Tabla 4.1.
Puntuación Muy bajo Bajo Medio Alto Muy Alto

RFM 1 2 3 4 5
Recencia (días) 560 - 728 390 - 559 242 - 389 110 - 241 0 - 109
Frecuencia 1-1 2-2 3-4 5-6 7 - 166
Monetario (en dó- 0,3 - 13,37 13,38 - 34,79 - 76,25 - 119,43 -
lares) 34,78 76,24 190,42 9.013,01
Tabla 4.1: Escala para los valores de Recencia, Frecuencia y
Monetario
44
Esta tabla se puede interpretar como: Una Recencia “Muy baja” indica que realizó su última
compra hace más de año y medio y obtendrá un puntaje de 1, una “Baja” significa que su
última compra se encuentra entre el año y el año y medio, por lo tanto, obtendrá un puntaje
de 2. Una “Media” indica que su última compra se encuentra entre los 8 meses y un año y
obtendrá un puntaje de 3, una “Alta” indica que su última compra se encuentra entre los 3
y 8 meses y obtendrá un puntaje de 4. Finalmente, una “Muy Alta” indica que el cliente ha
comprado recientemente, es decir, que su última compra se encuentra dentro de los últimos 3
meses y obtendrá un puntaje de 5.
Así mismo, una Frecuencia “Muy baja” indica que el cliente sólo ha realizó una compra en
los últimos dos años, esto puede indicar que es un cliente nuevo y obtendrá un puntaje de 1,
una “Baja” significa que realizó dos compras en los últimos dos años, por lo tanto, obtendrá
un puntaje de 2. Una “Media” indica que realizó 3 o 4 compras y obtendrá un puntaje de 3,
una “Alta” indica que realizó 5 o 6 compras, es decir, es un cliente leal que realiza compra
frecuentes y obtendrá un puntaje de 4. Finalmente, una “Muy Alta” indica que es un cliente
frecuente que ha realizado más de 7 compras y obtendrá un puntaje de 5.
Por último, un Monetario “Muy alto” indica que el cliente ha gastado mucho dinero en sus
compras y obtendrá un puntaje de 5, ‘Muy baja” indique que el cliente ha no gasta mucho
dinero es sus compras y recibirá un puntaje de 1.
Para realizar el análisis RFM (Figura 4.1), primero se seleccionan las variables Recencia, Fre-
cuencia y Monetario obtenidas, luego se define el número de intervalos en 5, para cada variable.
El nodo asignará una puntuación a cada variable (Recencia, Frecuencia y Monetario) de acuerdo
a las escalas definidas en la Tabla 4.1, siendo el 1 la peor puntuación y el 5 la mejor.
Figura 4.1: Modelo de Análisis RFM para segmentar clientes
La Figura 4.2 muestra las primeras filas de la tabla de puntuación RFM obtenida por cada
cliente. Por ejemplo, para el código “32110529” se puede deducir que es un “cliente potencial”
debido a que recibió una puntuación Recencia alta, Frecuencia media y Monetario muy alto.
Por otro lado, para el código “47993734” se puede inferir que es un “cliente perdido” ya que
obtuvo una puntuación muy baja en todas las variables. Así mismo, para el código “48641458”
se puede intuir que es un “cliente nuevo”, ya que obtuvo una puntuación Recencia de 5, Fre-
cuencia de 1 y Monetario de 4, es decir que gastó un monto alto de dinero en sólo una venta.
45
Figura 4.2: Primeras filas de la tabla de puntuación RFM obtenida
Por otra parte, en la gráfica de Figura 4.3 podemos visualizar cómo se distribuyen los clientes
por cada quintil asignado a la puntuación de Recencia, Frecuencia y Monetario.
Figura 4.3: Gráfico de recuentos de clientes por cada quintil asignado a la Recencia, Frecuencia
y Monetario
En el gráfico se puede observar que la empresa tiene 688 clientes con una puntuación de Recen-
cia=1, Frecuencia=1, Monetario=1 y 272 clientes con una puntuación de Recencia=5, Frecuencia=5,
Monetario=5, de lo cual se puede concluir que la empresa tiene más clientes poco rentables e
inactivos.
Además, se puede observar que solo existen dos clientes que han realizado muchas compras
(Frecuencia =5), hace mucho tiempo (Recencia=1) y han gastado dinero (Monetario=4). Así como
46
también, que solo existen 13 clientes que han realizado compras con una Frecuencia=4 y lo han
hecho hace mucho tiempo. (Recencia=1)
Como vemos, podemos obtener hasta 125 segmentos (5*5*5) de clientes que nos permiten saber
cuántos existen de cada tipo. A continuación, para realizar la agrupación de estos clientes
vamos a aplicar el algoritmo K-meas.
4.1.1.2. Algoritmo K-meas

Para determinar los perfiles de clientes, vamos a realizar el análisis de clúster tomando como
atributos de entrada los puntajes de Recencia, Frecuencia y Monetario obtenidos por cada clien-
te. Para ello, se han construido 5 modelos usando el nodo K-medias con diferentes número de
clústeres, dado que al aumentar el número de clústeres se detallará más y veremos cuáles son
las características que mejor definen a los clientes.
Modelo 1 (K=5)
El modelo 1 ha generado 5 clústeres, y se ha etiquetado a cada clúster por perfil: Vip, Potencial,
Por recuperar, Ocasional y Perdido. Esta asignación de etiqueta fue asignada en base a los
valores medios de puntuación de Recencia, Frecuencia y Monetario de cada clúster. En la Figura
4.4, se observa que el clúster-2 es el más grande con un 37 % y el más pequeño es el clúster-3
con 11 %. Además, el modelo tiene una silueta de 0.4.
Figura 4.4: Resumen de modelo aplicando el algoritmo K-meas 5
Figura 4.5: Gráfico del modelo aplicando el algoritmo K-meas 5
La Figura 4.6 muestra los resultados de la agrupación.
47
Figura 4.6: Perfiles de clientes aplicando algoritmo K-meas 5
Modelo 2 (K=6)
En el modelo 2 generado para K=6, se ha etiquetado a cada clúster por perfil: Vip, Potencial,
Leal, Por recuperar, Ocasional y Perdido. Esta asignación de etiqueta fue asignada en base a los
valores medios de puntuación de Recencia, Frecuencia y Monetario de cada clúster. En la Figura
4.7, se observa que el clúster-2 sigue siendo el más grande con un 37 % y el más pequeño es el
clúster-3 con 5 %. Además, el modelo tiene una silueta de 0,45.
48
Modelo 3 (K=7)
Leal, En riesgo, Por recuperar, Ocasional y Perdido. Esta asignación de etiqueta fue asignada
en base a los valores medios de puntuación Recencia, Frecuencia y Monetario de cada clúster. En
la Figura 4.10, se observa que el tamaño del clúster más pequeño es de 5,1 % y el tamaño del
más grande es de 24,5 %. Además, el modelo tiene una silueta de 0,4.
Modelo 4 (K=8)
En el modelo 2 generado para K=8, se ha etiquetado a cada clúster por perfil: Vip, Potencial,
Leal, Nuevo, Por recuperar, Ocasional y Perdido. Esta asignación de etiqueta fue asignada en
base a los valores medios de puntuación de Recencia, Frecuencia y Monetario de cada clúster. En
la Figura 4.13, se observa que el clúster-2 es el más grande con un 22 % y existen 3 clúster que
tienen un porcentaje menor a 6,4 %, siendo el más pequeño es el clúster-3 con 4,2 %. Además,
el modelo tiene una silueta de 0,46.
49
Modelo 5 (K=9)
Leal, En riesgo, Por recuperar, Ocasional, Inactivo y Perdido. Esta asignación de etiqueta fue
asignada en base a los valores medios de puntuación Recencia, Frecuencia y Monetario de cada
clúster. En la Figura 4.16, se observa que el tamaño del clúster tiene el tamaño más grande con
25,5 % y existen 4 clúster que tienen un porcentaje menor a 6 %, siendo el más pequeño es el
clúster-9 con 3,1 %. Además, el modelo tiene una silueta de 0,4.
50
4.1.2. Algoritmo K-meas para identificar grupos de marcas

El segundo objetivo de minería de datos es identificar las marcas más rentables para la em-
presa, para luego encontrar una relación entre el perfil del cliente y el clúster de marca. Para
tal fin, se ha construido 4 modelos de clústeres usando el algoritmo K-means que nos permite
agrupar las marcas según su costo unitario medio y valor de venta unitario medio.
Modelo 1 (K=3)
El modelo 1 ha generado 3 clústeres y tiene una silueta de 0,88, lo cual indica que la calidad
del agrupamiento es buena. La Figura 4.19 muestra los valores de venta y el costo medio para
cada uno de los cuatro clústeres identificados. Se observa que el clúster-1 agrupa al 93,4 % de
las marcas y son las que tienen un costo medio muy bajo. Por otro lado, el clúster-2 contiene
solo el 0,5 % de las marcas y son las más caras.
51
Figura 4.19: Modelo K-means 3 obtenido

Modelo 2 (K=4)
El modelo 2 ha generado 4 clústeres y tiene una silueta de 0,82. En la Figura 4.20 se observa
que el clúster-1 representa al 93 % del total, es decir, agrupa a la mayor cantidad de marcas de
productos. Por otro lado, el clúster 2 es el clúster más pequeño con 0,5 % y además agrupa a
las marcas más caras de la empresa.

Modelo 3 (K=5)
El modelo 3 ha generado 5 clústeres y al igual que el modelo 2, ha obtenido una silueta de 0.82.
En la Figura 4.21 se muestra que el clúster más pequeño agrupa a 2 marcas y el clúster más
grande agrupa a 304 marcas. De las cuales, el clúster de mayor tamaño agrupa a las marcas con
costos muy bajos, y el clúster de menor tamaño agrupa a las marcas que tienen un costo muy
alto. También se puede observar que el clúster 4 agrupa a las marcas de bajo costo y el clúster
3, a marcas de costo medio.
52
Modelo 4 (K=6)
El modelo 4 ha generado 6 clústeres, y al igual que los 2 anteriores modelos obtuvo una silueta
de 0,82. En la Figura 4.22 se observa que el clúster-2 es el más grande con un 80 % y existen 4
clúster que tienen un porcentaje menor a 3,2 %, siendo los más pequeños los clúster-2 y 5 con
0,5 %. Además, ambos clústeres tienen un costo medio alto.
4.1.3. Algoritmo Apriori para recomendar marcas de productos

El cuarto objetivo de minería de datos es recomendar marcas de productos que un cliente esta-
ría interesado en comprar. Por tal motivo, se ha construido un modelo de reglas de asociación
que usa el algoritmo Apriori para extraer un conjunto de reglas de los datos y destacar aquellas
reglas con un mayor contenido de información.
Para obtener los campos que serán usados como entrada para el modelo, se ha usado el nodo
Marcas para derivar el campo dmarnom y crear nuevos campos, donde cada campo de mar-
cas representa la presencia o ausencia de la marca del producto. Además, se selecciona como
clave de agregación el campo dmov_id, que será usado para agrupar los registros por ID de
transacción de venta, como se muestra en la Figura 4.23.
Figura 4.23: Nodo Marcas para crear un campo para cada marca de producto
Se ha usado el nodo Tipo para indicar los campos de entrada y objetivo para el modelo. La
Figura 4.24 muestra que el campo dmov_id no tienen ningún rol, mientras que todos los demás
son campos de entrada y objetivo a la vez. Los campos que no tienen ningún rol, no serán
considerados para crear el modelo.
53
Figura 4.24: Nodo Tipo para indicar los campos de entrada y objetivo para el modelo Apriori
Se ha usado el nodo Apriori para construir el modelo de reglas de asociación. Este nodo utiliza el
algoritmo Apriori para generar reglas de asociación a partir de itemset frecuentes identificados
previamente. Es decir, busca reglas de asociación que puedan predecir la aparición de un ítem
en base a la aparición de otros ítem(s) pertenecientes a la misma transacción.
Los porcentajes de soporte mínimo, confianza mínima y número máximo de antecedentes tiene
que ser ingresado en la configuración del nodo Apriori antes de ejecutar el modelo.
Al configurar los valores se observa que, al disminuir el valor mínimo de soporte, aumen-
tan las reglas de asociación, los valores de soporte y confianza, pero disminuye el número de
instancias. Por otro lado, al aumentar el valor mínimo de soporte, disminuyen las reglas de
asociación, los valores de soporte y confianza, pero aumenta el número de instancias. Por ello,
para el modelo se ha realizado pruebas con 4 valores diferentes de soporte mínimo.
Soporte mínimo 5
La Figura 4.25 muestra la configuración del nodo Apriori con un soporte mínimo de 5 %, una
confianza mínima de 10 % y un número máximo de antecedentes de 3.
Figura 4.25: Nodo Apriori con soporte mínimo 5
En la tabla de la Figura 4.26 se muestran 7 reglas de asociación obtenida, la predicción más

confiable es la regla 4 que obtuvo un valor de soporte de 6,8 % y un valor confianza de 19,9 %.
Esto significa que la marca Thor ha existido en 171 transacciones, es decir, representa un 6,7 %
del total de las transacciones y de los clientes que compraron productos de la marca Thor, el
19,9 % también compraron productos de la marca EVS.
54
Figura 4.26: Tabla de reglas de asociación con soporte mínimo de 5 %

Soporte mínimo 2,5
La Figura 4.27 muestra la configuración del nodo Apriori con un soporte mínimo de 2,5 %, una
confianza mínima de 10 % y un número máximo de antecedentes de 3. Figura 4.27.
Figura 4.27: Nodo Apriori con soporte mínimo 2,5

De las 32 reglas de asociación obtenidas (Figura 4.28), se observa que la predicción más con-
fiable es la regla 27 que obtuvo un valor de soporte de 4,3 % y un valor confianza de 31,2 %.
Esto significa que la marca EVS ha existido en 109 transacciones, es decir, representa un 4,3 %
del total, de las transacciones y de los clientes que compraron productos de la marca EVS, el
31,2 % también compraron productos de la marca Thor.
Figura 4.28: Tabla de reglas de asociación con soporte mínimo de 2,5 %
55
La segunda predicción más confiable es la regla 5, con un valor de soporte de 3,4 % y un valor
confianza de 31 %. Esto significa que la marca Zeus ha existido en 87 transacciones, es decir,
representa un 3,3 % del total de las transacciones y de los clientes que compraron productos de
la marca Zeus, el 31 % también compraron productos de la marca Atrox.
Soporte mínimo 1
La Figura 4.29 muestra la configuración del nodo Apriori con un soporte mínimo de 1 %, una
confianza mínima de 10 % y un número máximo de antecedentes de 3. Figura 4.29.

Esta configuración nos permite explorar una gran variedad de reglas, la Figura 4.30 mues-
tra 50 reglas de asociación obtenidas con la finalidad de encontrar aquellas que resulten sig-
nificativas. Por ejemplo, algunas de las más significativas marcas de productos que existen
con frecuencia en una misma transacción son: EVS-Thor, Zeus-Atrox, Husqvarna PowerParts-
Husqvarna Repuestos, Gaerne Moto-Thor, Polisport- Husqvarna PowerParts, etc.
56
Se han aplicado algunos filtros con la finalidad de consultar las reglas de asociación para una
marca de producto específica.
Figura 4.31: Filtro de reglas de asociación por antecedente
La Figura 4.31 muestra el filtrado de la marca del producto Thor como antecedente, con un
valor de confianza mínima de 13 % y un valor de soporte de 3 %. Como resultado se obtiene 2
reglas de asociación, donde se muestra que los clientes que compraron productos de la marca
Thor, también compraron productos de las marcas Gaerne Moto y EVS (consecuentes en la
Figura 4.32), con un nivel de confianza mayor a 13 %
Figura 4.32: Tabla obtenida del filtro de la marca Thor como antecedente
Por otro lado, filtrando la marca del producto Thor como consecuente, con un valor de con-
fianza mínima de 13 % y un valor de soporte de 3 %, Figura 4.33, se obtiene como resultado 3
reglas de asociación, donde se muestra que los clientes que compraron productos de las mar-
cas 100 %, Gaerne Moto y EVS (antecedentes en la Figura 4.34), también compraron productos
de la marca Thor, con un nivel de confianza mayor a 13 %.
Figura 4.33: Filtro de reglas de asociación por consecuente
Figura 4.34: Tabla obtenida del filtro de la marca Thor como consecuente
57
Soporte mínimo 3
En base a las pruebas anteriores, se configura el nodo Apriori con un soporte mínimo de 3 %,
una confianza mínima de 13 % y un número máximo de antecedentes de 3. (Figura 4.35)

En la tabla de la Figura 4.36 se muestran 12 reglas de asociación obtenida.
4.1.4. Análisis RFM para identificar productos sin rotación

El último objetivo de minería de datos es identificar la lista de productos que no tienen rotación
en el último año. Es decir, aquellos productos que no han registrado ventas en todo el año 2019
y que su última fecha de importación sea menor al 01 de enero del 2018. Para tal fin, se ha usado
el análisis RFM para segmentar a los productos por su cantidad de venta, con ello identificar a
los productos sin movimiento.
Para el análisis se ha usado la tabla producto, para obtener datos como la última fecha de
importación del producto y el stock disponible. Por otro lado, se ha usado la tabla venta, para
determinar la fecha de la última venta del producto. Para realizar el análisis RFM se usará
como valor Monetario, la cantidad total vendida del producto por día, para determinar dicho
valor, se ha usado el nodo Agregar como se muestra en la Figura 4.37.
58
Figura 4.37: Nodo agregar para calcular la cantidad total vendida de un producto por fecha de
venta
Posteriormente se ha aplicado el nodo Adición de RFM para calcular los valores de Recencia, Fre-
cuencia y Monetario, usando los campos dprd_id, dmovfec, dmov1can_Sum como se muestra
en la Figura 4.38. La fecha fija para el cálculo de la Recencia es 31-12-2019, esto debido a que el
análisis se realiza entre los años 2018 y 2019.
Figura 4.38: Nodo adición de RFM para calcular los valores de actualidad, frecuencia y mone-
tario para el análisis de productos
Una vez que los valores han sido calculados, se realiza el análisis RFM aplicando el nodo Aná-
lisis de RFM ( Figura 4.39), que usará los valores de Recencia, Frecuencia y Monetario obtenidos
como entrada para calcular la puntuación de cada producto. Luego se define el número de
intervalos en 3, para cada variable, a cada uno de los intervalos se le asignará una puntuación
según las escalas definidas en la Tabla 4.2, siendo el 1 la peor puntuación y el 3 la mejor. Por
ejemplo, los productos con las fechas de ventas más recientes reciben una puntuación de 3, y
los productos con las fechas de ventas menos recientes reciben una puntuación de 1.
Puntuación Bajo Medio Alto

RFM 1 2 3
Recencia (número de días) 365 - 1.823 182 - 364 0 - 181
Frecuencia (número de compras) 1 - 5 6 - 24 25 - 2007
Monetario (cantidad vendida) 1-5 6 - 24 25 - 2007
Tabla 4.2: Escala para los valores de Recencia, Frecuencia y
Monetario de productos
Las escalas del intervalo de actualidad se definen según los objetivos de la empresa. Se ha
agrupado en el intervalo 1, a aquellos productos que han sido vendidos por última vez ha-
59
ce más 365 días. Este intervalo es el analizado para cumplir el objetivo de minería de datos
mencionado anteriormente.
Figura 4.39: Nodo Análisis RFM para el análisis de productos

Luego de realizar el análisis RFM, se crea un nuevo campo con el nodo Derivar, donde se calcula
la última fecha de venta del producto. Posteriormente, con el nodo Seleccionar se filtran los
productos que hayan tenido una Puntuación de actualidad igual 1. Finalmente, estos datos se
combinan con la tabla producto, usando nodo Fundir tomando el campo dprd_id como clave
de fusión. Previamente, para la tabla producto, se ha usado el nodo Seleccionar para incluir
solo a aquellos productos que tengan un stock disponible y una fecha de importación menor a
01-01-2018. El resultado obtenido se muestra en la Figura 4.40.
Figura 4.40: Primeras filas de la tabla de productos sin rotación en el 2019
Como resultado se han obtenido 10.416 productos que han sido importados antes del año 2018
y no han registrado ni una venta en todo el año 2019. Por ejemplo, el producto “4979”, de la
marca Honda, ha sido importado el año 2014, sin embargo, no registra ni una venta en estos
últimos 2 años. Por otro lado, el producto con identificador “4614”, de la marca CTS, también
ha sido importado el año 2014, pero registra 4 ventas en el año 2018, tendiendo como última
fecha de venta el 10-11-2018, pero no registra ni una venta en el año 2019. Esta tabla será
exportada en Excel para ser entregada a la empresa.
60
4.2. Fase V: Evaluación

Esta fase trata de valorar en que grado los modelos cumplen con lo descrito en los objetivos
del negocio.
4.2.1. Algoritmo K-meas para identificar perfiles de clientes

Para construir el modelo se ha usado el nodo Agrupación en clústeres automática debido a que per-
mite experimentar con varias combinaciones de opciones en una única pasada de modelado.
El tipo de modelo seleccionado fue K-medias y el número de clústeres por crear se encuentran
entre 5 y 9. La Figura 4.41 muestra los cinco modelos obtenidos, en el cual se observa que to-
dos tienen una silueta promedio de 0,45, es muy cerca al 0,5 lo cual indica que la calidad del
agrupamiento es buena.
A continuación, se evalúan cada uno de los modelos generados para encontrar aquel que mejor
clasifique a los clientes de la empresa.
Figura 4.41: Modelos obtenidos al aplicar el nodo Agrupación en clúster automático
4.2.1.1. Evaluar el rendimiento de los algoritmos utilizados

Modelo 1 (K=5)
El modelo 1 ha generado 5 clústeres los cuales se muestran la Tabla 4.3.
Clúster Número Recencia Frecuencia Monetario Perfil cliente

clientes score score score
clúster-1 2.066 4,382 2,004 4,514 Potencial
clúster-2 5.394 1,948 1,201 1,917 Inactivo
clúster-3 1.594 4,100 4,226 4,149 Vip
clúster-4 2.614 4,457 1,318 1,977 Ocasional
clúster-5 2.602 1,922 1,601 4,367 Por recuperar
Tabla 4.3: Perfiles de clientes aplicando algoritmo K-meas 5
• El clúster-1 agrupa a 2.066 clientes que tiene una puntuación de Recencia y Monetario alta,
pero con una frecuencia baja, por lo que son clasificados como clientes “Potenciales”.
• El clúster-2 agrupa a 5.394 clientes, donde tanto la Recencia, Frecuencia y Monetario tienen
valores bajos, por lo que el grupo se clasificada como clientes “Inactivos”.
61
• El clúster-3 agrupa a 1.594 clientes donde sus valores de Recencia, Frecuencia y Monetario
tienen mayores promedios que el resto, por lo que los clasificaremos como clientes “Vip”.
• El clúster-4 agrupa a 2.614 clientes que tienen un valor de Frecuencia y Monetario muy
bajo, pero una Recencia alta, por lo que se clasifican como “Ocasionales”.
• El clúster-5 agrupa a 2.602 clientes donde tanto la Recencia y Frecuencia son muy bajas,
sin embargo, tiene un valor Monetario alto, por lo que se clasifican como clientes “Por
recuperar.”
Modelo 2 (K=6)

clúster-3 736 3,944 3,416 2,715 Leal
clúster-6 1.189 4,071 4,392 4,733 Vip
pero con una frecuencia baja, por lo que son clasificados como clientes “Potenciales”.
• El clúster-2 agrupa a 5.330 clientes, donde tanto la Recencia, Frecuencia y Monetario tienen
valores bajos, por lo que el grupo se clasificada como clientes “Inactivos”.
• El clúster-3 agrupa a 736 clientes donde sus valores de Recencia y Frecuencia son medios
y tienen un valor Monetario bajo por lo que son clasificados como clientes “Leales”.
• El clúster-4 agrupa a 2.478 clientes que tienen un valor de Frecuencia y Monetario muy
bajos, pero una Recencia alta, por lo que se clasifican como “Ocasionales”.
• El clúster-5 se mantiene igual al modelo anterior, agrupa a 2.602 clientes donde tanto la
Recencia y Frecuencia son bajas, pero con un valor Monetario alto, por lo que se clasifican
como clientes “Por recuperar.”
• El clúster-6 agrupa a 1.189 clientes donde sus valores de Recencia, Frecuencia y Monetario
son superiores a los otros grupos, por lo que los clasificaremos como clientes “Vip”.
Modelo 3 (K=7)

clúster-1 1.865 4,678 3,198 4,677 Vip
clúster-3 725 3,790 3,383 2,590 Leal
62

clúster-6 798 2,749 3,801 4,579 En riesgo
clúster-7 3.172 3,299 1,253 3,242 Potenciales
• El clúster-1 agrupa a 1.865 clientes donde sus valores de Recencia y Monetario son altos,
sin embargo, tienen una Frecuencia media. Aun así, sus valores de Recencia, Frecuencia y
Monetario son superiores a los otros grupos, por lo que los clasificaremos como clientes
“Vip”.
• Los clúster-2, clúster-3, clúster-4 y clúster-5 tienen la misma clasificación que el mode-
lo anterior (Tabla 4.4), es decir, “Inactivos”, “Leales”, “Ocasionales” y “Por recuperar”
respectivamente, pero varían en la cantidad de clientes agrupada por clúster.
• El clúster-6 agrupa a 798 clientes que tienen un valor de Monetario alto, una Frecuencia
media y un valor Recencia bajo por lo que son clasificados como clientes “En riesgo”.
• El clúster-7 agrupa a 3.172 clientes que tiene una puntuación de Recencia y Monetario me-
dia, pero con una frecuencia baja, por lo que son clasificados como clientes “Potenciales”.
Modelo 4 (K=8)

clúster-3 598 4,072 3,336 2,518 Leal
clúster-4 2.002 4,555 1,211 1,747 Nuevo
clúster-8 923 4,554 4,655 4,644 Vip
pero con una frecuencia muy baja, por lo que son clasificados como clientes “Potencia-
les”.
• Los clúster-2, clúster-5 y clúster-6 tienen la misma clasificación que el modelo anterior
(Tabla 4.5), es decir, “Inactivos”, “Por recuperar” y “En riesgo” respectivamente, pero
varían en la cantidad de clientes agrupada por clúster.
• El clúster-3 agrupa a 598 clientes que tienen una Recencia alta, una Frecuencia media y un
valor Monetario bajo por lo que son clasificados como clientes “Leales”.
• El clúster-4 agrupa a 2002 clientes donde sus valores de Recencia y Monetario son muy
bajos, sin embargo, tienen una Frecuencia alta, por lo que los clasificaremos como clientes
“Nuevos”.
• El clúster-7 agrupa a 2.412 clientes donde sus valores de Recencia y Monetario son medio
63
bajos, además también tienen una Frecuencia baja, por lo que se clasifican como “Ocasio-
nales”.
• El clúster-8 agrupa a 923 clientes que tiene una puntuación Recencia, Frecuencia y Moneta-
rio superior que el resto, por lo que los clasificaremos como clientes “Vip”.
Modelo 5 (K=9)

clúster-3 594 4,086 3,330 2,524 Leal
clúster-4 2002 4,555 1,211 1,747 Nuevo
clúster-8 850 4,687 4,626 4,640 Vip
clúster-9 449 1,546 2,606 2,875 Por reactivar
• Los 8 primeros clústeres tienen la misma clasificación que el modelo anterior (Tabla 4.6),
es decir, “Potencial”, “Inactivo”, “Leal”, “Nuevo”, “Por recuperar” y “En riesgo” respec-
tivamente, todos a excepción del clúster-4 varían en la cantidad de clientes agrupada por
clúster.
• El clúster-9 agrupa a 449 clientes donde su valor de Recencia es muy bajo, pero sus valores
de Frecuencia y Monetario son intermedios, por lo que los clasificaremos como clientes
“Por reactivar”.
De los modelos presentados elegimos quedarnos con el modelo 4 debido que nos permite
identificar 8 clústeres que detallan los tipos de clientes que tiene la empresa. Se descarta al
modelo 5, debido a que genera un nuevo clúster que no aporta valor, es decir, genera el clúster
“Por reactivar” que al igual que el clúster “Por recuperar” agrupan a clientes que no realizaron
compras en los últimos 7 meses.
4.2.1.2. Interpretar los resultados obtenidos

Aplicando algoritmo K-means 8, se descubrieron los siguientes perfiles de clientes:
• Clúster 1: Potencial
• Clúster 2: Inactivo
• Clúster 3: Leal
• Clúster 4: Nuevo
• Clúster 5: Por recuperar
• Clúster 6: En riesgo
• Clúster 7: Ocasional
64
• Clúster 8: Vip
Cliente Potencial
Este perfil agrupa a 2.225 clientes, se ha definido como “Potencial” debido a que son clientes
que han realizados compras recientemente, suelen gastar mucho dinero, pero no lo hacen con
frecuencia. El objetivo de marketing propuesto para este perfil sería incrementar su frecuencia
de compras, esto se puede lograr mediante vales de compras o alguna campaña de marketing
que incentive que visite la tienda con más frecuencia.
La Figura 4.42 muestra las primeras filas de la tabla de clientes potenciales. Por ejemplo, el
cliente “20557071033”, realizó su última compra hace muy poco, hizo 3 compras y ha gastado
un total de 2.415,15 dólares. Otro ejemplo, es el cliente “19936004” que realizó su última com-
pra hace 6 meses, hizo 3 compras y gastó mucho dinero. Por otro lado, el cliente “26733196”,
realizó su última compra hace 35 días, también gastó mucho dinero, pero solo ha realizado 2
compras.
Figura 4.42: Primeras filas de la tabla de clientes potenciales
Cliente Inactivo
Este perfil agrupa a 3.259 clientes, se ha definido como “Inactivo” debido a que son clientes
que han realizado una o dos compras hace más de un año, y que tampoco solían gastar mucho
dinero en sus compras. Para este perfil no se propone ninguna estrategia de marketing debido
a que como el cliente no han realizado una compra hace mucho tiempo no es seguro que
responda a alguna campaña.
La Figura 4.43 muestra las 5 primeras filas de la tabla de clientes inactivos. Por ejemplo, el
cliente “47635806” ha realizado sólo una compra de 34,780 dólares hace más de un año.
Figura 4.43: Primeras filas de la tabla de clientes inactivos
65
Cliente Leal
Este perfil agrupa a 598 clientes, se ha definido como “Leal” debido a que son clientes que
realizan compras con frecuencia, pero no suelen gastan mucho dinero en sus compras. Se con-
sidera un perfil importante porque agrupa a los clientes fieles que, aunque no inviertan mucho
dinero en sus compras son clientes fieles, que visitan la tienda con frecuencia.
La Figura 4.44 muestra las primeras filas de la tabla de clientes leales. Por ejemplo, el cliente
“70928243” ha realizado su última compra hace un año, y ha gastado un total de 76,140 dólares
en 6 compras. Otro ejemplo es el cliente “20536566849” que ha realizado su última compra hace
9 meses, hizo 8 compras y ha gastado un total de 75,98 dólares.
Figura 4.44: Primeras filas de la tabla de clientes leales

Cliente Nuevo
Este perfil agrupa a 2.002 clientes, se ha definido como “Nuevo” porque son clientes que han
realizado una o dos compras en los últimos meses pero que no han gastar mucho dinero. El
objetivo para este perfil sería convertirlos en clientes “Leales” aplicando alguna campaña de
marketing que incentive su regreso a la tienda.
Figura 4.45: Primeras filas de la tabla de clientes nuevos

La Figura 4.45 muestra las 7 primeras filas de la tabla de clientes nuevos. Por ejemplo, el cliente
“20125959483” ha realizado una compra hace 3 meses y ha gastado 76,240 dólares. Otro ejem-
plo es el cliente “20605546677” que ha realizado una compra de 76,050 dólares hace 25 días.
Cliente por recuperar

Este perfil agrupa a 2.051 clientes, se ha definido como “Por recuperar” debido a que solían
gastas mucho dinero y realizar compras frecuentes, pero que hace más de un año no han rea-
lizado una compra. Por lo que se propone realizar alguna campaña de marketing que logre
capte su atención y los haga regresar a la tienda.
66
La Figura 4.46 muestra las 10 primeras filas de la tabla de clientes inactivos. Por ejemplo, el
cliente “09086450” ha realizado su última compra hace más de año y medio, ha gastado un
total de 2.089,250 dólares en una compras. Otro ejemplo es el cliente “20565293908” que ha
realizado su última compra hace más de un año, y ha gastado un total de 1.682,050 dólares en
dos compras.
Figura 4.46: Primeras filas de la tabla de clientes por recuperar
Cliente en Riesgo
Este perfil agrupa a 800 clientes, se ha definido como “En riesgo” debido a que son clientes que
solían gastar mucho dinero en sus compras, pero no han realizado una compra en los últimos
7 meses. La Figura 4.47 muestra la frecuencia mensual de compra de los clientes en riesgo en
los últimos dos años, en la cual se observa que la frecuencia de compra fue disminuyendo a lo
largo del 2018 y en mayor proporción en el 2019.
Figura 4.47: Frecuencia de compra mensual por año de clientes en riesgo
El objetivo para este perfil sería aplicar alguna campaña de marketing, como ofertas o descuen-
tos en las marcas de productos preferidas por este grupo de clientes. La Figura 4.48 muestra
las 10 primeras filas de la tabla de clientes que se encuentran en riesgo. Por ejemplo, el cliente
“001214094” ha realizado 10 compras, de las cuales su última compra fue hace más de año y
medio. Otro ejemplo es el cliente “43247563” que ha realizado 8 compras, pero no ha vuelto a
compra hace 15 meses.
67
Figura 4.48: Primeras filas de la tabla de clientes en riesgo

Cliente Ocasional
Este perfil agrupa a 2.412 clientes, se ha definido como “Ocasional” debido a que son clientes
que han realizado uno o dos compras en el último año. Se podría decir que son clientes que
estuvieron de paso. Para este perfil, así como para los clientes nuevos se puede aplicar alguna
estrategia de marketing para tratar de convertirlos en clientes leales.
La Figura 4.49 muestra las 10 primeras filas de la lista de clientes que se encuentran dentro de
este perfil. Por ejemplo, el cliente “43694522” ha realizado una compra de 190,120 dólares hace
un año.
Figura 4.49: Primeras filas de la tabla de clientes en ocasionales
Cliente Vip
Este perfil agrupa a 923 clientes, se ha definido como “Vip” debido a que son clientes que han
comprado en el último año, realizan compras con frecuencia y suelen realizar buenas compras.
El objetivo para este perfil sería fidelizar a estos clientes, realizando una estrategia de marke-
ting que los haga sentir únicos e importantes debido a que son los clientes de mayor valor de
la empresa.
La Figura 4.50 muestra las 10 primeras filas de la tabla de clientes vip. Por ejemplo, el cliente
“40413023” ha realizado su última compra hace 11 días, y ha gastado un total de 9.013,010
dólares en 59 compras.
68
Figura 4.50: Primeras filas de la tabla de clientes vip
Por último, en la Figura 4.51 muestra el porcentaje del número de clientes por cada perfil. Del
gráfico se puede observar que el 22,8 % de clientes se encuentran inactivos el último año, el
30 % se encuentra entre “Nuevo” y “Ocasional”, el 15,5 % como “Potencial”, el 5,6 % se en-
cuentra “En riesgo” y solo el 6,5 % como “Vip”.
Figura 4.51: Porcentaje del número de clientes para cada perfil
Las tablas de perfiles de clientes identificadas han sido exportadas con el nodo Excel para ser
entregadas a la empresa para que la persona experta en marketing haga uso de estos grupos
de la forma que estime conveniente. Figura 4.52
Figura 4.52: Resultado obtenido del Análisis RFM
69
4.2.2. Algoritmo K-meas para identificar grupos de marcas

Para construir el modelo se ha vuelto a usar el nodo Agrupación en clústeres automática. El tipo
de modelo seleccionado fue K-medias y el número de clústeres por crear se encuentra entre 3 y
6. La Figura 4.53 muestra los cuatro modelos obtenidos, en el cual se observa que todos tienen
una silueta promedio superior a 0,8, lo cual indica que la calidad del agrupamiento es buena.
A continuación, se evalúan cada uno de los modelos generados para identificar al que mejor
clasifique a las marcas de los productos de la empresa.
Figura 4.53: Modelos obtenidos al aplicar el nodo Agrupación en clúster automático
Modelo 1 (K=3)
El modelo 1 ha generado 3 clústeres. La Tabla 4.8 muestra que el clúster 1, agrupa a la mayor
cantidad de marcas de productos de la empresa que tienen un costo muy bajo. Por otro lado,
el clúster 2 agrupa sólo a 2 marcas de productos que son las más caras de la tienda y el clúster
3, que agrupa a 23 marcas que tienen un costo medio de 90.4 dólares.
Clúster Costo medio Valor venta medio Cantidad

1 7,439 15,312 353
2 206,695 361,920 2
3 90,408 170,095 23
Tabla 4.8: Análisis 3 clústeres de marcas
Modelo 2 (K=4)
El modelo 2 ha generado 4 clústeres. La Tabla 4.9 muestra que el clúster 1 sigue agrupando a la
mayor cantidad de marcas de productos de la empresa pero, ahora tiene un costo medio más
bajo. Por otro lado, el clúster 2 se mantiene igual al cuadro anterior; el clúster 3 disminuye en
4 marcas respecto del cuadro anterior. Además, se ha generó un número clúster que agrupa a
53 marcas y tiene un costo medio bajo.

1 3,843 8,664 304
2 206,695 361,920 2
3 97,293 183,924 19
4 31,861 60,163 53
70
Modelo 3 (K=5)
El modelo 3 ha generado 5 clústeres. La Tabla 4.10 muestra que el clúster 1 y el clúster 2 se
mantiene igual al cuadro anterior (Tabla 4.9). Por otro lado, el clúster 3 ahora agrupa a 12
marcas que tienen un costo intermedio; el clúster 4 agrupa a 50 marcas de productos y tiene
un costo medio bajo. Mientras que el clúster 5 agrupa a 10 marcas que tienen un costo medio
alto.

1 3,843 8,664 304
2 206,695 361,920 2
3 72,647 137,838 12
4 30,106 57,460 50
5 116,010 215,613 10
Modelo 4 (K=6)
El modelo 4 ha generado 6 clústeres. La Tabla 4.11 muestra que el clúster 1, 2 y 4 mantiene
igual los cuadros anteriores (Tabla 4.9,4.10) y el clúster 5 del cuadro anterior se ha divido para
generar el clúster 3 y 6. Por otro lado el clúster 3 agrupa a 8 marcas y tiene un costo medio
intermedio; el clúster 5 agrupa sólo a dos marcas que tienen el costo medio alto. Además, se
ha generado un nuevo clúster que agrupa a 12 marcas de producto que tiene un costo medio
intermedio.

1 3,843 8,664 304
2 206,695 361,920 2
3 108,133 210,786 8
4 30,106 57,460 50
5 147,517 234,920 2
6 72,647 137,838 12
De los modelos presentados se elige el modelo 2, el cual genera 4 clústeres y tiene una silueta
de 0,83. Esto debido a que agrupa de mejor manera las marcas de los productos.

En base a los resultados de la agrupación de marcas de productos con el algoritmo K-meas 4,
se descubrieron los siguientes niveles de costo:
• Clúster 1: Bajo
• Clúster 2: Muy alto
• Clúster 3: Alto
• Clúster 4: Medio
Clúster-1: Bajo
Este clúster agrupa a los productos con los costos más bajos de la empresa. Cuenta con 304
marcas y su costo medio oscila entre 0,3 y 15,5 dólares.
71
La Figura 4.54 muestra las primeras filas de la tabla de marcas incluidas en el clúster-1.
Figura 4.54: Primeras filas de la tabla de marcas incluidas en el clúster-1
Clúster-2: Muy alto

En este clúster se encuentran las dos marcas más caras que tiene la empresa, con un costo
medio de 207 dólares y un valor de venta medio de 362 dólares. La Figura 4.55 muestra la
tabla de marcas incluidas en el clúster-2.
Figura 4.55: Tabla de marcas incluidas en el clúster-2
Clúster-3: Alto
Este clúster agrupa a 19 marcas, donde su costo medio se encuentra entre 55 y 154 dólares. Por
otro lado, su valor de venta medio oscila entre 157 y 239 dólares. La Figura 4.56 la tabla de
marcas incluidas en el clúster-3.
Figura 4.56: Tabla de marcas incluidas en el clúster-3
72
Clúster-4: Medio
Este clúster agrupa a 53 marcas que tienen un costo medio mínimo de 16 y máximo 58 dólares.
Por otro lado, su valor de venta medio oscila entre 36 y 124 dólares. La Figura 4.57 muestra las
primeras filas de la tabla de marcas incluidas en el clúster-4.
Figura 4.57: Primeras filas de la tabla de marcas incluidas en el clúster-4
Porcentaje de marcas por clúster

La Figura 4.58 muestra el porcentaje de las marcas por clúster. Del cual se puede concluir que
el 80 % de las marcas de productos que tiene la empresa pertenecen al clúster “Bajo”, es decir,
que tienen un coste medio que oscila entre 0,3 y 15,5 dólares. Y solo el 0.5 % de las marcas
tienen costos muy altos.
Figura 4.58: Porcentaje del número de marcas por clúster
Porcentaje de productos por clúster de marca

La Figura 4.59 muestra que el 43 % de los productos de la empresa pertenecen al clúster de
marca “Bajo”, el 39 % al clúster “Medio”, el 16 % al “Alto” y solo el 0.09 % de productos al
clúster “Muy Alto”.
73
Figura 4.59: Porcentaje de productos por clúster de marca
Porcentaje de cantidad vendida para clúster de marca

La Figura 4.60 muestra el porcentaje de la cantidad vendida por clúster de marca, en la cual
se observa que las marcas de productos pertenecientes al clúster “Bajo” son las que se han
vendido en mayor cantidad, sin embargo, solo representa un 15,5 % del monto total de venta.
(Figura 4.61)
Figura 4.60: Porcentaje de cantidad vendida para clúster de marca
Así mismo, las marcas de productos pertenecientes al clúster “Medio” representan un 30 % de

la cantidad vendida y un 51 % del monto total de ventas. Por otro lado, las marcas de productos
pertenecientes a los clústeres “Alto” y “Muy Alto” se han vendido en menor cantidad aun así
generan el 34 % del monto total de las ventas.
Figura 4.61: Porcentaje del monto vendido para clúster de marca
74
4.2.3. Perfiles de clientes y su relación con los clústeres de marcas

El tercer objetivo de minería de datos es encontrar una relación entre los perfiles de clientes
obtenido y los clustering de marca identificados. En otras palabras, conocer los clústeres de
marcas que prefiere cada perfil de cliente.
Para obtener los datos necesarios para el análisis, se ha realizado la unión de los registros de
ventas con los perfiles de clientes identificados, para tal fin, se ha usado el nodo Fundir, que
usa como clave de fusión el campo dcli_cod (código del cliente). Posteriormente, se ha vuelto
a usar el nodo Fundir, usando como clave de fusión el campo dmarnom (marca de producto),
para unir el resultado obtenido de la unión anterior con los clústeres de marcas. Figura 4.62.
Figura 4.62: Construcción de datos para el tercer objetivo de minería de datos
Antes de realizar el análisis se ha reclasificado el campo $KM-K-medias que contiene el nom-

bre del clúster, para crear un nuevo campo con un nombre que sea significativo y de fácil
entendimiento al momento de realizar el análisis. Por tal motivo, se crea el nuevo campo lla-
mado ”Costo de marca” y se reclasifica el clúster-1 como “Bajo”, clúster-2 como “Muy Alto”,
clúster-3 como “Alto” y clúster-4 como “Medio”. Los nombres de los clústeres se han asignado
de acuerdo con el costo medio que cada clúster, siendo el clúster “Muy Alto” el que agrupa
75
las marcas más caras de la empresa y el clúster “Bajo” el que contiene las marcas con menor
precio.
Cliente Vip
La Figura 4.63 muestra que solo el 0,07 % de los clientes se identifican con el clúster de marca
“Muy Alto” y el 6 % con el “Alto”. Por otro lado, del gráfico se puede deducir que más de la
mitad de los clientes que se encuentran en este perfil compran con frecuencia productos con
marcas que se encuentran dentro del clúster “Bajo”, y el 31 % compran productos de marcas
que se encuentran en el clúster “Medio”.
Figura 4.63: Porcentaje de clientes vip por clúster de marca
En la Figura 4.64 muestra algunas filas de la tabla de marcas, donde se muestra la lista de
marcas por cada código de cliente, así como también el nombre del clúster por marca obtenido.
Por ejemplo, se muestra que el cliente “000157182” se identifica con 3 clústeres, es decir, se
identifica con marcas que tienen un costo bajo, medio y alto.
Figura 4.64: Primeras filas de la tabla de marcas por cliente vip
Cliente Potencial
La Figura 4.65 muestra que casi el 50 % de los clientes que se encuentran en este perfil se
identifican con el clúster “Medio” y el 33,8 % con el clúster “Bajo”. Por otro lado, el 17,4 % con
el clúster “Alto” y solo un 0,05 % con el “Muy Alto”.
76
Figura 4.65: Porcentaje de clientes potenciales por clúster de marca

En la Figura 4.66 muestra las primeras filas de la tabla de marcas, donde se muestra la lista de
marcas por cada código de cliente, así como también el nombre del clúster por marca obteni-
do. Por ejemplo, se muestra que el cliente “000120971” se identifica con 2 tipos de marcas de
clúster, es decir, con marcas que tienen un costo medio y alto.
Figura 4.66: Primeras filas de la tabla de marcas por cliente potencial
Cliente Leal
La figura 4.67 muestra que la gran mayoría de los clientes que se encuentran en este perfil se
identifican con el clúster “Bajo” y representan el 94,7 %. Por otro parte, el 5 % prefiere el clúster
“Medio” y solo el 0,25 % prefiere el clúster “Alto”.
Figura 4.67: Porcentaje de clientes leales por clúster de marca
77
En la Figura 4.68 muestra las primeras filas de la tabla de marcas, donde se muestra la lista
de marcas por cada código de cliente, así como también el nombre del clúster por marca ob-
tenido. Por ejemplo, se muestra que el cliente “000947469” se identifica con el clúster “Bajo” y
“Medio”, es decir, con marcas que tienen un costo bajo y medio.
Figura 4.68: Primeras filas de la tabla de marcas por cliente potencial
Cliente Nuevo
La figura 4.69 muestra que el 77 % de clientes que se encuentran en este perfil se identifican con
el clúster “Bajo”, el 21 % con el “Medio”, y solo el 1 % con el “Alto”. Es decir, que la mayoría
de los clientes prefieren comprar marcas de productos con precios bajos.
Figura 4.69: Porcentaje de clientes nuevos por clúster de marca

En la Figura 4.70 muestra las primeras filas de la tabla de marcas, donde se muestra la lista
de marcas por cada código de cliente, así como también el nombre del clúster por marca ob-
tenido. Por ejemplo, se muestra que el cliente “000175181” se identifica con el clúster “Bajo” y
“Medio”, es decir, con marcas que tienen un costo bajo y medio.
Figura 4.70: Primeras filas de la tabla de marcas por cliente nuevo
78
Cliente Ocasional
La Figura 4.71 muestra que el 52 % de los clientes que se encuentra en este perfil prefieren mar-
cas que se encuentran en el clúster “Bajo”, el 42 % con el “Medio”, y solo el 2.6 % se identifican
con el clúster “Alto”. En conclusión, se puede decir que la mayoría de los clientes se identifican
con marcas que tienen un costo bajo y medio.
Figura 4.71: Porcentaje de clientes ocasionales por clúster de marca
En la Figura 4.72 muestra que el cliente “00001001” se identifica con el clúster “Medio”, es decir,
prefiere marca de productos con costo medio. Por otro lado, el cliente “000067647” prefiere
marcas de productos con costo bajo.
Figura 4.72: Primeras filas de la tabla de marcas por cliente ocasional
Cliente en Riesgo
En este perfil se encuentran clientes que realizaban compras frecuentes, pero actualmente han
dejado hacerlo. La Figura 4.75 muestra que los clientes se identifican con todos los tipos de
clústeres, aunque en diferentes proporciones. La gran mayoría prefieren las marcas de produc-
tos que se encuentran en el clúster “Bajo”y “Medio”.
79
Figura 4.73: Porcentaje de clientes en riesgo por clúster de marca
En la tabla de Figura 4.74 se muestra que el cliente “000002049” se identifica con 2 clústeres:
“Bajo” y “Medio”. De los cuales prefieren las marcas que se encuentran en el clúster “Medio”.
Figura 4.74: Primeras filas de la tabla de marcas por cliente en riesgo
Cliente por Recuperar

Este perfil agrupa a clientes que solían realizar compras con frecuencia y gastaban dinero en
sus compras. La Figura 4.75 muestra que los clientes que se encuentran en este perfil se identifi-
caban en mayor proporción con marcas pertenecientes al clúster “Medio”. Además, un 27,1 %
preferían marcas pertenecientes al clúster “Bajo”, el 16,4 % “Alto” y solo un 0,09 % al “Muy
Alto”.
Figura 4.75: Porcentaje de clientes por recuperar por clúster de marca
80
En la tabla de Figura 4.76 se muestra que el cliente “000098933” prefiere marcas de productos
que se encuentra en el clúster “Alto”. Por otro lado, el cliente “000077685” prefiere marcas que
se encuentra en el clúster “Medio”.
Figura 4.76: Primeras filas de la tabla de marcas por cliente por recuperar
Cliente Inactivo
Este perfil agrupa a clientes que han realizado una o dos compras hace mucho tiempo, y que
tampoco gastaron mucho dinero al realizar sus compras. La Figura 4.77 muestra que más del
86 % se identifica con el clúster “Bajo”. Es decir, más de la mitad de los clientes que se encuen-
tran en este grupo prefiere marcas de productos con precio bajo.
Figura 4.77: Porcentaje de clientes inactivos por clúster de marca

En la tabla de Figura 4.78 se muestra que el cliente “00002121” prefiere marcas de productos
que se encuentra en el clúster “Bajo”.
Figura 4.78: Primeras filas de la tabla de marcas por cliente inactivo
81
4.2.4. Algoritmo Apriori para recomendar marcas de productos

Para la generación de reglas de asociación se seleccionaron como entrada los parámetros que
se muestran en la Tabla 4.12.
% Soporte %Confianza Lift Número Max. Número

Mínimo Mínimo Mínimo antecedentes Reglas
1 10 0,54 3 50
2,5 10 0,53 3 32
3 13 1,7 3 12
5 10 0,54 3 7
Tabla 4.12: Tabla de parámetros de entrada generar reglas de
asociación
Para obtener reglas confiables se ha tomado en cuenta el valor de “Soporte”, “Confianza” y

“Lift”. Inicialmente se había considerado elegir el valor de 1 % para el mínimo de “Soporte”,
pero al realizar la exploración de las reglas obtenidas con ese valor, se determinó que el valor
de 3 % para el mínimo de “Soporte” y 13 % para el mínimo “Confianza” era la mejor opción
debido generó reglas con un mayor porcentaje “Confianza” y con un valor “Lift” superior a
1,7.

A continuación, en la Figura 4.79 se muestra las 12 reglas de asociación obtenidas ordenadas
por su nivel del “Confianza”.
Figura 4.79: Tabla de reglas de asociación para recomendar marcas de productos
Las reglas obtenidas se pueden interpretar como:

• Regla 2: Si un cliente compra un producto de la marca “ZEUS”, la probabilidad que
también va a comprar un producto de la marca “ATROX” en la misma visita es del 31 %.
• Regla 6: Si un cliente compra un producto de la marca “HUSQVARNA-POWERPARTS”,
82
la probabilidad que también va a comprar un producto de la marca “HUSQVARNA-

REPUESTOS” en la misma visita es del 24 %.
• Regla 8: Si un cliente compra un producto de la marca “GAERNE-MOTO”, la probabili-
dad que también va a comprar un producto de la marca “THOR” en la misma visita es
del 22 %.
• Regla 11: Si un cliente compra un producto de la marca “EVS”, la probabilidad que tam-
bién va a comprar un producto de la marca “THOR” en la misma visita es del 31 %.
Las reglas de asociación obtenidas servirán como base para hacer recomendaciones de marcas
de productos a cualquier cliente. En la tabla de Figura 4.80 se muestra las primeras filas de la
tabla de marcas recomendadas por código de cliente.
Por ejemplo, el cliente con código “000217011”, puede estar interesado en las siguientes mar-
cas: EVS, THOR, GAERNE-MOTO, tomando en cuenta que a otros clientes con las mismas
preferencias también les interesa estas marcas de productos.
Figura 4.80: Primeras filas de la tabla de recomendación de marcas por código de cliente
Finalmente, los resultados obtenidos del proyecto serán entregados a la empresa para ayudar-
los a generar estrategias de marketing que ayuden a incentivar las ventas de los clientes.
83
Capítulo 5
Discusión y conclusiones
En el presente proyecto se llega a encontrar un modelo que nos permite conocer los perfiles
de clientes que tiene la empresa Barbacci. Para esto se analizó el histórico de compras de cada
cliente, se decidió segmentar a los clientes por su comportamiento de compra debido a que la
empresa no contaba con información adicional que podría ser de interés para el análisis.
La metodología de minería de datos elegida permitió realizar el proyecto de manera ordena
y enfocada a las necesidades de la empresa. De igual manera, la herramienta elegida para
realizar el proceso de minería de datos permitió realizar un análisis interactivo y estadístico de
los datos.
Identificar los perfiles de clientes nos ha permitido conocer que existen clientes poco rentables
e inactivos, así como también existen clientes en los que la empresa debe invertir más tiempo
y recursos. Aunque la interpretación de los segmentos sea subjetiva, no hay duda de que la
información obtenida puede aportar un gran valor a la empresa y puede ser utilizada para
diseñar campañas de marketing enfocadas a los segmentos identificados, que tengan un mayor
grado de aceptación.
Por otra parte, el resultado del análisis de clúster de marcas le permitirá a la empresa conocer
cuales sus marcas de productos más rentables, esto debido a que, en el análisis se identificó
que las marcas de productos que se venden en mayor cantidad no siempre son las que generan
mayores ingresos a la empresa.
Además, al combinar los resultados obtenidos de los modelos de clúster de perfil de cliente
y clúster de marcas, se pudo identificar con qué clúster de marcas los perfiles de clientes se
identifican. Esta información podría ser usado por la empresa para incentivar a cada cliente
con aquellas marcas que más probabilidades de éxito se prevé que tendrán según el segmento
al cual pertenece ese cliente.
De igual modo, la recomendación de marcas de productos encontrados para cada cliente le
permitirá a la empresa elaborar estrategias de marketing como promociones, ofertas, tarjetas
de descuentos, etc. que capten la atención del cliente.
El conocimiento de los perfiles de clientes y las marcas de productos obtenidas del presente
proyecto, ayudarán a la empresa a mejorar el negocio al diseñar estrategias que pueden ser
innovadoras frente a los competidores.
84
Bibliografía
[1] Flowtown, “The value of an existing customer.” https://visual.ly/community/Infograph

ics/business/value-existing-customer, Octubre 2010.
[2] TechTarget, “Customer segmentation.” https://searchcustomerexperience.techtarget.com
/definition/customer-segmentation.
[3] M. Mcdonald and I. Dunbar, “Market segmentation: How to do it; how to profit from it,”
01 2012.
[4] R. Batt, “Strategic segmentation in front-line services: Matching customers, employees
and human resource systems,” International Journal of Human Resource Management, vol. 11,
pp. 540–561, 06 2000.
[5] R. Harmanen, “Customer segmentation and efficient marketing, case: Teboil simpele,”
thesis, Saimaa University of Applied Sciences, South Karelia - Finland., 2018.
[6] E. E. Fang, R. W. Palmatier, and J.-B. E. Steenkamp, “Effect of service transition strategies
on firm value,” Journal of Marketing, vol. 72, no. 5, pp. 1–14, 2008.
[7] R. Srivastava, “Identification of customer clusters using rfm model: A case of diverse
purchaser classification,” International Journal of Business Analytics and Intelligence, vol. 4,
no. 2, pp. 45–50, 2016.
[8] X. Guiteras, “Segmentación de mercados.” https://marketingyconsumo.com/segmentacion-
de-mercados.html, Septiembre 2010.
[9] X. Guiteras, “La segmentación psicográfica.” https://marketingyconsumo.com/segmentacion-
psicografica.html, Julio 2013.
[10] I. Frochot and A. M. Morrison, “Benefit segmentation: A review of its applications to
travel and tourism research,” Journal of Travel & Tourism Marketing, vol. 9, no. 4, pp. 21–45,
2000.
[11] C. G. M. Baier, M.R. Kurtis, “Contemporary database marketing: Concepts and applica-
tions human resource management review,” Evanston, 2002.
[12] Y.-H. Hu and T.-W. Yeh, “Discovering valuable frequent patterns based on rfm analysis
without customer identification information,” Knowledge-Based Systems, vol. 61, pp. 76 –
88, 2014.
[13] J. R. Bult and T. Wansbeek, “Optimal selection for direct mail,” Marketing Science, vol. 14,
no. 4, pp. 378–394, 1995.
[14] K. A. Morelo Tapias, “Sistema para caracterización de perfiles de clientes de la empresa
zona t,” thesis, Universidad de Cartagena, Cartagena de Indias - Colombia, 2014.
85
BIBLIOGRAFÍA
[15] G. Córdoba, “Análisis rfm en retail.” https://www.unica360.com/analisis-rfm-en-retail-

empezando-a-segmentar-clientes-i, Febrero 2011.
[16] M. F. Palma López, “Estudio del comportamiento de clientes en un ambiente multicanal,”
thesis, Universidad de Chile, Santiago de Chile - Chile, 2015.
[17] M. Cordero Yujra, “Diseño de un plan fidelización de clientes de banco pyme los andes
procredit s.a.,” thesis, Universidad Mayor de San Andrés, La Paz - Bolivia, 2016.
[18] K. Padilla Vergara, “Identificación de clientes de alto valor para el desarrollo de alianzas
de una empresa,” thesis, Universidad de Chile, Santiago de Chile - Chile, 2015.
[19] M. Khajvand, K. Zolfaghar, S. Ashoori, and S. Alizadeh, “Estimating customer lifetime va-
lue based on rfm analysis of customer purchase behavior: Case study,” Procedia Computer
Science, vol. 3, pp. 57 – 63, 2011. World Conference on Information Technology.
[20] A. J. Christy, A. Umamakeswari, L. Priyatharsini, and A. Neyaa, “Rfm ranking – an effec-
tive approach to customer segmentation,” Journal of King Saud University - Computer and
Information Sciences, 2018.
[21] S. A. Lumsden, S. Beldona, and A. M. Morrison, “Customer value in an all-inclusive travel
vacation club: An application of the rfm framework,” Journal of Hospitality Marketing &
Management, vol. 16, pp. 270–285, 05 2008.
[22] A. Dursun and M. Caber, “Using data mining techniques for profiling profitable hotel cus-
tomers: An application of rfm analysis,” Tourism Management Perspectives, vol. 18, pp. 153–
160, 2016.
[23] O. Maimon and L. Rokach, Data Mining and Knowledge Discovery Handbook, 2nd ed. 01 2010.
[24] G. Piateski and W. Frawley, Knowledge Discovery in Databases. Cambridge, MA, USA: MIT
Press, 1991.
[25] U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, eds., Advances in Know-
ledge Discovery and Data Mining. USA: American Association for Artificial Intelligence,
1996.
[26] U. Fayyad, G. Piatetsky-Shapiro, and P. Smyth, “The kdd process for extracting useful
knowledge from volumes of data,” Commun. ACM, vol. 39, p. 27–34, Nov. 1996.
[27] R. J. Brachman and T. Anand, The Process of Knowledge Discovery in Databases, p. 37–57.
USA: American Association for Artificial Intelligence, 1996.
[28] U. Fayyad, G. Piatetsky-Shapiro, and P. Smyth, “From data mining to knowledge disco-
very in databases,” AI Magazine, vol. 17, p. 37, Mar. 1996.
[29] U. Fayyad, G. Piatetsky-Shapiro, and P. Smyth, “Knowledge discovery and data mining:
Towards a unifying framework,” in Proceedings of the Second International Conference on
Knowledge Discovery and Data Mining, KDD’96, p. 82–88, AAAI Press, 1996.
[30] F. Berzal and N. Matín, “Data mining: Concepts and techniques by jiawei han and miche-
line kamber,” SIGMOD Rec., vol. 31, p. 66–68, June 2002.
[31] S. Institute, Data Mining Using SAS Enterprise Miner. A Case Study Approach. Second Edi-
tion, 2009.
86
BIBLIOGRAFÍA
[32] J. B. Benalcázar Tamayo, “Análisis comparativo de metodologías de minería de datos y su

aplicabilidad a la industria de servicios,” Master’s thesis, Universidad de las Américas,
Quito - Ecuador, 2017.
[33] J. M. Moine, “Metodologías para el descubrimiento de conocimiento en bases de datos: un
estudio comparativo,” Master’s thesis, Universidad Nacional de La Plata, Buenos Aires -
Argentina, 2013.
[34] C. Shearer, “The crisp-dm model: The new blueprint for data mining,” Journal of Data
Warehousing, vol. 5, no. 4, pp. 13–19, 2000.
[35] P. Chapman, J. Clinton, R. Kerber, T. Khabaza, T. Reinartz, C. R. H. Shearer, and R. Wirth,
“Crisp-dm 1.0: Step-by-step data mining guide,” 2000.
[36] D. Larose and C. Larose, An Introduction to Data Mining, ch. 1, pp. 1–15. John Wiley &
Sons, Ltd, 2004.
[37] V. Galán Cortina, “Aplicación de la metodología crisp-dm a un proyecto de minería de da-
tos en el entorno universitario,” thesis, Universidad Carlos III de Madrid. Departamento
de Informática, Madrid - España, 2015.
[38] J. M. Moine, S. E. Gordillo, and A. S. Haedo, “Análisis comparativo de metodologías para
la gestión de proyectos de minería de datos,” pp. 931–938, XVII Congreso Argentino de
Ciencias de la Computación, 2011.
[39] J. Segovia and O. Marbán, “Extending uml for modeling data mining projects (dm-uml),”
Journal of Information Technology & Software Engineering, vol. 3, 09 2013.
[40] C. Perez Lopez and D. Santin Gonzalez, Minería de datos. Técnicas y herramientas: técnicas y
herramientas. 2007.
[41] M. Atzmüller, “Knowledge-intensive subgroup mining : Techniques for automatic and
interactive discovery /,” 12 2006.
[42] P.-N. Tan, M. Steinbach, A. Karpatne, and V. Kumar, Introduction to Data Mining. 2005.
[43] I. Witten, E. Frank, L. Trigg, M. Hall, G. Holmes, and S. Cunningham, “Weka: Practical
machine learning tools and techniques with java implementations,” 10 1999.
[44] F. J. García González, “Aplicación de técnicas de minería de datos a datos obtenidos por
el centro andaluz de medio ambiente,” trabajo de fin de máster, Universidad de Granada,
Granada - España, 2013.
[45] I. H. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with
JAVA Implementations. Second Edition, 2000.
[46] I. Mierswa, M. Wurst, R. Klinkenberg, M. Scholz, and T. Euler, “Yale: Rapid prototyping
for complex data mining tasks,” vol. 2006, 08 2006.
[47] I. Corporation, “Ibm spss modeler.” https://www.ibm.com/downloads/cas/L5EWVNQP,
Marzo 2016.
[48] I. Week, “Oh my darling! spss says goodbye clementine, hello pasw.”
https://www.informationweek.com/software/information-management/oh-my-
darling!-spss-says-goodbye-clementine-hello-pasw/d/d-id/1078486?, Septiembre 2009.
[49] C. Pérez, Técnicas de minería de datos e inteligencia de negocios: IBM SPSS Modeler. 2014.
87
Anexo A
Codificaciones
A.1. Script de creación de tablas
CREATE TABLE dw . producto

(
dprd_id integer NOT NULL ,
dmarnom character varying (20) ,
dprdcosto numeric (12 ,3) NOT NULL ,
dprdfec_uc date ,
dprdstk integer NOT NULL DEFAULT 0,
CONSTRAINT producto_pkey PRIMARY KEY ( dprd_id )
);
ALTER TABLE dw . producto OWNER TO postgres ;
CREATE TABLE dw . venta

(
dmov_id integer NOT NULL ,
dmovfec date NOT NULL ,
dcli_cod character varying (11) NOT NULL ,
dmarnom character varying (20) ,
dmov1costo numeric (12 ,3) ,
dmov1can integer NOT NULL ,
dmov1valum numeric (12 ,2) NOT NULL ,
dmov1valt numeric (12 ,2) NOT NULL
);
ALTER TABLE dw . venta OWNER TO postgres ;
A.2. Script de carga de tablas
INSERT INTO dw . producto ( dprd_id , dmarnom , dprdcosto , dprdfec_uc , dprdstk )

SELECT p. dprd_id , dmarnom , dprdcosto , dprdfec_uc , stock
FROM erp . all_m_prd p
INNER JOIN erp . all_m_srb f ON f. dsrb_id =p. dsrb_id
INNER JOIN erp . all_m_mar ma ON ma . dmar_id =p. dmar_id
INNER JOIN ( SELECT dprd_id , SUM ( dprdstk ) stock FROM erp . inv_t_prd
GROUP BY dprd_id
) i ON p. dprd_id =i. dprd_id
WHERE
dprdsta = 'A ' AND dprdfec_uc IS NOT NULL AND dprdcosto > 0;
INSERT INTO dw . venta ( dmov_id , dmovfec , dcli_cod , dmarnom ,

dmov1costo , dmov1can , dmov1valum , dmov1valt )
SELECT m . dmov_id , dmovfec , m . dcli_cod , dmarnom ,
88
Codificaciones
dmov1costo , dmov1can ,
CASE WHEN dmovmon = ' USD ' THEN dmov1valum ELSE dmov1valum / dmovt_c END ,
CASE WHEN dmovmon = ' USD ' THEN dmov1valt ELSE dmov1valt / dmovt_c END
FROM erp . inv_t_mov m
INNER JOIN erp . vta_m_cli c ON c. dcli_id =m. dunp_id
INNER JOIN erp . inv_t_mov1 m1 ON m . dmov_id = m1 . dmov_id
INNER JOIN erp . all_m_prd p ON p . dprd_id = m1 . dprd_id
INNER JOIN erp . all_m_mar ma ON ma . dmar_id =p. dmar_id
WHERE
dtma_id IN (4 ,5) AND dclitip = 'C ' AND dmovsta = 'V ' AND
dclista = 'A ' AND dmov1costo > 0 AND dmov1valum >0 AND
dmovfec BETWEEN ' 2018 -01 -01 ' AND ' 2019 -12 -31 ';
89

TFM Anita Rojas Huaman

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

TFM Anita Rojas Huaman

Cargado por

Copyright:

Formatos disponibles

Universidad Politécnica

Máster Universitario en Software y Sistemas

Trabajo Fin de Máster

Análisis de datos para identiﬁcar perﬁles de

Autor: Anita Rojas Huamán

Madrid, Julio del 2020

Trabajo Fin de Máster

Autor: Anita Rojas Huamán

3.1.5. Criterio de éxito de los objetivos de minería de datos . . . . . . . . . . . . 30

2.1. Fases del proceso de minería de datos en cada metodología . . . . . . . . . . . . . 13

3.1. Estructura de la tabla marca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.1. Escala para los valores de Recencia, Frecuencia y Monetario . . . . . . . . . . . . . . 44

2.1. Segmentos RFM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3.1. Modelo de caso de uso del negocio . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.23. Diagrama de caja de la variable Frecuencia . . . . . . . . . . . . . . . . . . . . . . . 42

4.1. Modelo de Análisis RFM para segmentar clientes . . . . . . . . . . . . . . . . . . . 45

4.42. Primeras ﬁlas de la tabla de clientes potenciales . . . . . . . . . . . . . . . . . . . 65

1.1. Planteamiento del problema

presente trabajo de se ha organizado de la siguiente manera:

1.3. Alcance y limitaciones

2.1. Segmentación de Clientes

entre ellos tenemos:

2.1.1. Beneﬁcios de la segmentación de clientes

2.1.2. Perﬁles de clientes y minería de datos

2.1.2.1. Análisis RFM

Figura 2.1: Segmentos RFM [15]

• Clientes ﬁeles: Clientes que gastan mucho y responden a promociones.

2.1.3. Estudios relacionados

2.2. Minería de datos

2.2.1. Metodologías de minería de datos

A continuación, se describen algunos pasos básicos del proceso KDD [29]:

Figura 2.3: Metodología SEMMA [33]

Figura 2.4: Ciclo de vida de CRISP-DM [35]

Comprensión del negocio

Figura 2.5: Fase de comprensión del negocio [35]

Comprensión de los datos

Figura 2.6: Fase de comprensión de los datos [35]

Preparación de los datos

Figura 2.7: Fase de preparación de los datos [35]

• Ser apropiada para el problema.

Figura 2.8: Fase de modelado [35]

Figura 2.9: Fase de evaluación [35]

Figura 2.10: Fase de implementación [35]

Fases KDD SEMMA CRISP-DM

2.2.3. Técnicas de minería de datos

Figura 2.11: Ejemplo algoritmo K-means

2.2.3.2. Reglas de asociación

σ( A) Número de transacciones que contienen A

σ( A ∪ B) Número de transacciones que contienen A y B

2.2.4. Herramientas de minería de datos

Figura 2.12: Interfaz Explorer de Weka

análisis de datos para realizar operaciones de entrada y salida, preprocesamiento de datos y

Figura 2.13: Interfaz de RapidMiner

2.2.4.3. IBM SPSS Modeler

como uno de los mejores proveedores de software de minería de datos [44].

Figura 2.14: Interfaz IBM SPSS Modeler

2.2.4.4. ¿Por qué IBM SPSS Modeler?

3.1. Fase I: Comprensión del negocio

Caso de uso principales

Caso de uso de soporte

Programar <<incluir>> Sistema ERPX

Analizar los data del

Analista de negocios Modificar Sistema