Documentos de Académico
Documentos de Profesional
Documentos de Cultura
de Madrid
Escuela Técnica Superior de
Ingenieros Informáticos
A mi familia por otorgarme todo el apoyo y confianza a lo largo de toda mi vida personal y
profesional.
Al Dr. Francisco Javier Segovia por la guía y apoyo prestada para el desarrollo de este trabajo
de fin de máster.
A la empresa Barbaci S.A., por haberme brindado su colaboración para llevar a cabo este tra-
bajo.
A la Universidad Politécnica de Madrid por la formación académica brindada, a los directivos
y docentes por el conocimiento impartido.
i
Resumen
Segmentar a los clientes proporciona una buena comprensión de la necesidad de cada grupo,
de tal manera que la empresa pueda ofrecerles el producto o servicio que realmente necesitan.
En este trabajo se realiza la segmentación de los clientes de la empresa Barbacci, mediante la
aplicación de técnicas de minería de datos, para tal fin se analiza el comportamiento de compra
de los clientes.
El proceso de minería de datos se realiza utilizando la metodología CRISP-DM y la herramien-
ta IBM SPSS Modeler. Para la construcción del modelo se aplica Análisis RFM en los datos
transaccionales para determinar los valores de Recencia, Frecuencia y Monetario de cada cliente,
luego usando estos valores como entradas, se aplican algoritmos de agrupamiento K-means
para determinar los grupos de clientes que tiene la empresa.
Por otro parte, se aplican algoritmos de agrupamiento K-means para determinar las marcas
más rentables que tiene la empresa. Además, se construye un modelo de reglas de asociación
aplicando el algoritmo Apriori para recomendar marcas de productos que un cliente estaría
interesado en comprar.
ii
Abstract
Segmenting customers provides a good understanding of each groups need, so that the com-
pany can offer them the product or service they really need. In this work, the segmentation
of the clients of the Barbacci company is carried out, through the application of data mining
techniques, for this purpose the purchasing behavior of the clients is analyzed.
The data mining process is carried out using the CRISP-DM methodology and the IBM SPSS
Modeler tool. For the construction of the model, RFM Analysis is applied to the transactional
data to determine the Recency, Frequency y Monetary values of each client, then using these
values as inputs, K-means clustering algorithms are applied to determine the groups of clients
that the company has.
On the other hand, K-means clustering algorithms are applied to determine the most profitable
brands that the company has. In addition, an association rules model is built applying the
Apriori algorithm to recommend brands of products that a customer would be interested in
buying.
iii
Índice general
Agradecimientos i
Resumen ii
Abstract iii
1. Introducción 1
1.1. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Alcance y limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2. Estado de la cuestión 3
2.1. Segmentación de Clientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.1. Beneficios de la segmentación de clientes . . . . . . . . . . . . . . . . . . . 4
2.1.2. Perfiles de clientes y minería de datos . . . . . . . . . . . . . . . . . . . . . 4
2.1.2.1. Análisis RFM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.3. Estudios relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2. Minería de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1. Metodologías de minería de datos . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1.1. KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1.2. SEMMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.1.3. CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.1.4. Comparativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2. DM-UML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.3. Técnicas de minería de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.3.1. Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.3.2. Reglas de asociación . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.4. Herramientas de minería de datos . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.4.1. Weka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.4.2. RapidMiner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.4.3. IBM SPSS Modeler . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.4.4. ¿Por qué IBM SPSS Modeler? . . . . . . . . . . . . . . . . . . . . . 20
3. Materiales y Métodos 21
3.1. Fase I: Comprensión del negocio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1.1. Objetivos del negocio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.2. Criterio de éxito de los objetivos del negocio . . . . . . . . . . . . . . . . . 29
3.1.3. Valoración de la situación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.4. Objetivos de minería de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 29
iv
ÍNDICE GENERAL
4. Experimentación y Resultados 44
4.1. Fase IV: Modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.1.1. Algoritmo K-meas para identificar perfiles de clientes . . . . . . . . . . . . 44
4.1.1.1. Análisis RFM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.1.1.2. Algoritmo K-meas . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.1.2. Algoritmo K-meas para identificar grupos de marcas . . . . . . . . . . . . 51
4.1.3. Algoritmo Apriori para recomendar marcas de productos . . . . . . . . . 53
4.1.4. Análisis RFM para identificar productos sin rotación . . . . . . . . . . . . 58
4.2. Fase V: Evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2.1. Algoritmo K-meas para identificar perfiles de clientes . . . . . . . . . . . . 61
4.2.1.1. Evaluar el rendimiento de los algoritmos utilizados . . . . . . . 61
4.2.1.2. Interpretar los resultados obtenidos . . . . . . . . . . . . . . . . . 64
4.2.2. Algoritmo K-meas para identificar grupos de marcas . . . . . . . . . . . . 70
4.2.2.1. Evaluar el rendimiento de los algoritmos utilizados . . . . . . . 70
4.2.2.2. Interpretar los resultados obtenidos . . . . . . . . . . . . . . . . . 71
4.2.3. Perfiles de clientes y su relación con los clústeres de marcas . . . . . . . . 75
4.2.4. Algoritmo Apriori para recomendar marcas de productos . . . . . . . . . 82
4.2.4.1. Evaluar el rendimiento de los algoritmos utilizados . . . . . . . 82
4.2.4.2. Interpretar los resultados obtenidos . . . . . . . . . . . . . . . . . 82
5. Discusión y conclusiones 84
Bibliografía 85
Anexo 88
A. Codificaciones 88
A.1. Script de creación de tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
A.2. Script de carga de tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
v
Índice de tablas
vi
Índice de figuras
vii
ÍNDICE DE FIGURAS
viii
ÍNDICE DE FIGURAS
ix
Capítulo 1
Introducción
1
Introducción
1.2. Objetivos
El objetivo principal del proyecto es identificar los perfiles de clientes, es decir, dar a conocer
los tipos de clientes que tiene la empresa tomando como referencia su comportamiento de
compra.
Este objetivo se logra gracias a los siguientes objetivos secundarios:
• Identificar los clientes más y menos rentables de la empresa
• Identificar a aquellos clientes que se encuentran en riesgo, es decir, que solían realizar
compras frecuentes, pero hace un tiempo no realizan una compra.
• Identificar una relación entre los perfiles de clientes y las marcas más rentables de la
empresa.
• Realizar modelos de reglas de asociación para identificar relaciones entre marcas de pro-
ductos.
2
Capítulo 2
Estado de la cuestión
3
Estado de la cuestión
4
Estado de la cuestión
• R representa la recencia, mide el período de tiempo desde la última compra del cliente;
un valor más bajo corresponde a una mayor probabilidad de que el cliente realice una
compra repetida.
• F representa la frecuencia, mide el número de compras realizadas en un determinado
período de tiempo; mayor frecuencia indica mayor lealtad.
• M representa el valor monetario, mide la cantidad de dinero que el cliente gastó durante
un cierto período de tiempo; un valor más alto indica que la empresa debería centrarse
más en ese cliente.
El análisis RFM se basa en la conocida “Ley de Pareto” mencionada anteriormente 2.1. En el
caso del análisis RFM se diría que el “20 % de los clientes genera el 80 % de las ventas”. Lo cual,
aunque parezca un tanto exagerado es perfectamente comprobable en la mayoría de los nego-
cios y otras situaciones, incluyendo los deportes. A esto se debe su generalizada aplicación
[14].
El análisis consiste en clasificar a los clientes por su valor en función de las tres variables. Para
ello, se construye escalas, basadas en estas variables, dando a cada cliente un valor según el
percentil en que se encuentra. Lo más habitual es escalar por quintiles. Es decir, a todas las
variables se le asigna un valor que podría estar entre el 1 y el 5, siendo 1 la peor puntuación y
5 la mejor.
Por lo tanto, aquellos clientes que poseen el valor “5-5-5”, serían los clientes potenciales e
ideales, puesto que son los que están actuando satisfactoriamente respecto a las campañas de
ventas lanzadas. Estos clientes son quienes están realizando compras con frecuencia y tienen
un total monetario importante. Por ejemplo [15] Figura 2.1, “un cliente que estuviera entre el 20 %
de los que más recientemente han comprado, en el 2◦ 20 % por frecuencia de compra y el 4◦ 20 % en
valor total de compras, se le asignaría el segmento 124, (R=5) (F=4) (M=2)”
Algunos de los segmentos que se pueden identificar mediante el análisis RFM son los siguien-
tes:
• Clientes VIP: Clientes que compraron recientemente, compran con frecuencia y gastan
mucho.
5
Estado de la cuestión
6
Estado de la cuestión
2.2.1.1. KDD
En los inicios del año 1996, KDD [25] (Knowledge Discovery in Databases) constituyó el pri-
mer modelo aceptado en la comunidad científica que estableció las etapas principales de un
proyecto de explotación de información.
El proceso KDD se define como el proceso no trivial de identificar patrones válidos, novedo-
sos, potencialmente útiles y, en última instancia, comprensibles en los datos [26]. Este proceso
permite obtener conocimiento siguiendo una serie de pasos, el conocimiento adquirido no tie-
ne que ser trivial, es decir, no debe ser encontrarlo a simple vista, es implícito debido a que se
encuentra dentro de los datos y es útil porque permite tomar decisiones para mejorar.
KDD es un proceso interactivo e iterativo, involucra numerosos pasos con la intervención del
usuario en la toma de muchas decisiones [26]. Es iterativo ya que la salida de algunas fases
puede retornar a pasos anteriores y porque a menudo son necesarias varias iteraciones para
extraer conocimiento de alta calidad, incluso si el conocimiento adquirido no es el esperado se
puede regresar a la etapa inicial. Autores como Brachman y Anand dan una visión práctica del
proceso KDD, enfatizando la naturaleza interactiva del proceso [27].
El flujo básico de pasos del proceso se ilustra en la Figura 2.2.
Figura 2.2: Visión general de los pasos que componen el proceso KDD [28]
7
Estado de la cuestión
2.2.1.2. SEMMA
Fue desarrollada por el SAS Institute, se define como “el proceso de selección, exploración y mode-
lado de grandes volúmenes de datos para descubrir patrones de negocio desconocidos” [31].
SEMMA se encuentra enfocada en aspectos técnicos, excluyendo análisis y compresión del pro-
blema sobre el cual se trabaja, fue propuesta para trabajar con el software de minería de datos
de SAS, el cual proporciona un conjunto de herramientas para cada etapa de esta metodología
[32].
8
Estado de la cuestión
El nombre de esta terminología es el acrónimo correspondiente a las cinco fases básicas del
proceso:
• Sample (Muestreo): En esta fase se extrae una parte de un conjunto extenso de datos, es
decir, la muestra debe ser lo suficientemente grande para que contenga información de
valor, pero a la vez pequeña para que sea fácilmente manipulable.
• Explore (Exploración): En esta fase se debe realizar una búsqueda de tendencias y ano-
malías de la muestra, con la con la finalidad de obtener un mejor entendimiento de la
información que se manipula.
• Modify (Modificación): En esta fase consiste en la transformación de los datos para que
sea fácilmente manipulables en la fase del modelo.
• Model (Modelado): En esta fase se aplican los métodos de minería de datos para per-
mite que el software busque automáticamente una combinación de datos, con el fin de
predecir un resultado.
• Assess (Valoración): En esta fase se evalúan de los datos basados en su utilidad y la
fiabilidad de las conclusiones del proceso.
SEMMA propone que luego de la fase de evaluación, se generan nuevas hipótesis que llevan
a repetir el proceso iterativamente.
2.2.1.3. CRISP-DM
La metodología Cross Industry Standard Process for Data Mining o CRISP-DM fue desarrolla-
da por el grupo de empresas SPSS, NCR y Daimer Chrysler con la finalidad de proporcionar
nuevas ideas y asegurar el éxito de los proyectos de minería de datos [34].
Esta metodología provee una representación completa del ciclo de vida de un proyecto de
minería de datos que consta de seis fases: Comprensión del negocio, Comprensión de los datos,
Preparación de los datos, Modelado, Evaluación e Implementación. El ciclo de vida de CRISP-
DM se muestra en la Figura 2.4.
9
Estado de la cuestión
El proceso es dinámico e iterativo, por lo que la ejecución de los procesos no es estricta y con
frecuencia se puede pasar de uno a otro proceso, de atrás hacia delante y viceversa. Estos
dependen del resultado de cada fase o la planeación de la siguiente tarea por ejecutar [35].
Cada fase se estructura en varias tareas generales, las tareas generales se proyectan en tareas
específicas, en las cuales finalmente se describen las acciones que deben ser desarrolladas para
situaciones definidas [36].
A continuación, se describen cada una de las fases:
10
Estado de la cuestión
Modelado
En esta fase se escoge las técnicas de modelo más apropiada de acuerdo con los objetivos de
minería de datos. Las técnicas deben cumplir los siguientes criterios [37]:
11
Estado de la cuestión
Evaluación
Evalúa el modelo teniendo en cuenta el cumplimiento de los criterios de éxito del problema.
Es preciso revisar el proceso, teniendo en cuenta los resultados obtenidos, para poder repetir
algún paso anterior, en el que se pueda haber cometido algún error. Si el modelo generado
es válido en función de los criterios de éxito establecidos en la fase anterior, se procede a la
explotación del modelo. [37]
Implementación
Es aquí donde el conocimiento obtenido se transforma en acciones dentro del proceso de ne-
gocio, ya sea observando el modelo y resultados, o aplicándolo a múltiples grupos de datos o
como parte del proceso. El conocimiento adquirido deberá organizarse y presentarse de ma-
nera que el cliente pueda usarlo.
2.2.1.4. Comparativa
Después de haber presentado las tres metodologías de minería de datos, se tiene que esco-
ger aquella que se adapte mejor a los objetivos del proyecto. Para tal fin, se ha realizado una
comparación entre las tres metodologías presentadas anteriormente.
12
Estado de la cuestión
La tabla 2.1 muestra las fases del proceso de minería de datos en cada metodología [38].
Realizando la comparación se observa que KDD (en su versión completa de nueve pasos) y
CRISP-DM incluyen todas las fases. SEMMA incluye la fase de selección y preparación de
datos, modelado y evaluación. Sin embargo, no incluye la fase de análisis y comprensión del
negocio, debido a que inicia con la extracción de los datos, ni la fase de implementación, ya
que no incluye la implementación de los resultados obtenidos.
La metodología que se utilizará para el proceso de minería de datos es CRISP-DM, debido
a que es una metodología completa, se puede aplicar libremente en cualquier herramienta,
y además, está orientada al ámbito empresarial. Por otro lado, a diferencia de KDD y SEM-
MA que proponen actividades generales en cada etapa del proyecto, CRISP-DM especifica con
mayor detalle las actividades y describe detalladamente las tareas en cada fase del proceso.
2.2.2. DM-UML
Es una extensión del lenguaje de modelado UML para proyectos de minería de datos (DM-
UML) que cubre todas las necesidades de documentación para un proyecto conforme a un
proceso estándar, a saber, CRISP-DM, que abarca desde la comprensión empresarial hasta la
implementación. Lo cual resulta muy útil y transparente para modelar y conectar la compren-
sión empresarial o la fase de modelado con el resto del proyecto hasta el despliegue, así como
una forma de facilitar la comunicación con las partes interesadas no técnicas involucradas en
el proyecto [39].
13
Estado de la cuestión
Para el proyecto se hará uso de esta extensión para realizar la primera fase de la metodología
CRISP-DM. A continuación, se describen los modelos a utilizar:
• Modelo de caso de uso del negocio
El objetivo del modelo de caso de uso del negocio es identificar qué partes del negocio se
van a mejorar (caso de uso del negocio) y qué actores que están involucrados.
• Modelo de objetivo de negocio
Este modelo nos permite identificar uno o más objetivos de negocio para cada caso de
uso de negocio identificado anteriormente.
• Modelo de análisis del negocio
El análisis del negocio muestra cómo interactúan los trabajadores del negocio con las
entidades del negocio para lograr un objetivo particular.
• Modelo de caso de uso de minería de datos
Los casos de uso de minería de datos se obtienen de los casos de uso y objetivos del
negocio. El nombre de los casos de uso de minería de datos se forma a partir del nombre
del objetivo de negocio del cual se derivan más el nombre del caso de uso de negocio
relacionado.
• Modelo de objetivo de minería de datos
Los objetivos de minería de datos se establecen en términos de los objetivos del negocio
y son una traducción del problema del negocio a problemas expresados en términos de
minería de datos. Al igual que el modelo de caso de uso de negocio, este modelo nos
permite identificar uno o más objetivos de minería de datos para cada caso de uso de
minería de datos.
2.2.3.1. Clustering
Las técnicas de agrupamiento son muy útiles para obtener conocimiento de un conjunto de
datos. La agrupación analiza elementos de datos sin considerar una etiqueta de clase ya que
no se conoce. Los ítems se agrupan de acuerdo con el principio de maximización de similitud
intraclase y la minimización de similitud interclase o distancia. Esto quiere decir, que los gru-
pos se forman de modo que los elementos dentro de un grupo tengan una gran similitud entre
sí, pero sean muy diferentes a los elementos de otros grupos.
14
Estado de la cuestión
K-Means es un algoritmo estándar que toma los parámetros y el número de grupos como
entradas y divide los datos en el número definido de grupos de manera que la similitud dentro
del grupo sea alta. K-Means es un enfoque iterativo que calcula el valor de los centroides antes
de cada iteración. Los puntos de datos se mueven entre diferentes grupos dependiendo de los
centroides calculados en cada iteración. El proceso se repite hasta que la suma no se pueda
disminuir más.
Esta técnica descriptiva, permite clasificar diferentes perfiles de comportamiento dentro de
gran número de consumidores, creando grupos de consumidores con comportamientos pa-
recidos entre sí y, al mismo tiempo, lo más diferente posible a otros grupos. El objetivo es
clasificar a una población amplia en grupos pequeños en base a las semejanzas y diferencias
entre ellos.
15
Estado de la cuestión
itemsets que ocurren con una frecuencia por encima de un determinado límite, y se eliminan
a todos los conjuntos que contengan itemsets infrecuentes, debido a que considera que, si un
itemsets es infrecuentes, entonces, todos los conjuntos donde este último se encuentre, también
son infrecuentes. Luego esos itemsets frecuentes se convierten en reglas de asociación.
Para una regla de asociación A → B, la fuerza de la regla se puede medir en términos de
“Soporte”, “Confianza” y “Lift”. El “Soporte” del itemset “A” es el número de transacciones
que contienen “A” dividido entre el total de transacciones, mientras que la “Confianza” es la
probabilidad de que una transacción que contiene los ítems de “A”, también contenga los ítems
de “B”.
Por otro lado, el “Lift” es una medida utilizada para evaluar el grado de dependencia de los
términos de una regla. El “Lift” representa en qué grado “B” tiende a ser frecuente cuando “A”
ocurre, o viceversa.
Estas métricas se calculan con las siguientes fórmulas [42]:
s( A → B) σ( A ∪ B)
Confianza, c( A → B) = =
s( A) σ( A)
c( A → B)
Lift( A → B) =
s( B)
2.2.4.1. Weka
Weka (Waikato Environment for Knowledge Analysis) es un software de libre distribución
bajo licencia GNU-GPL y está escrita en Java [43]. El desarrollo de WEKA se inició en 1993
en la Universidad de Waikato (Nueva Zelanda) siendo la primera versión pública Weka 2.1 la
del año 1996. Actualmente, la última versión de WEKA es la 3.8 estando disponible para los
principales sistemas operativos tanto libres como comerciales [44].
El paquete Weka [45] contiene una colección de algoritmos de aprendizaje automático para re-
solver problemas de minería de datos del mundo real. Además, contiene herramientas necesa-
rias para realizar transformaciones sobre los datos, tareas de clasificación, regresión, clustering,
asociación y visualización.
Una de las principales características es que es independiente de la arquitectura ya que funcio-
na en cualquier plataforma sobre la que haya una máquina virtual Java disponible. Además,
contiene una extensa colección de algoritmos para preprocesamiento de datos y modelado.
Estos algoritmos pueden ser aplicados sobre los datos mediante interfaces.
16
Estado de la cuestión
Weka cuenta con cuatro interfaces de usuario que permiten acceder a las funcionalidades del
programa. Las cuales son:
• La interfaz Simple CLI, es una consola que permite acceder a las opciones de weka desde
la línea de comandos.
• La interfaz Explorer, permite acceder a los diferentes componentes de weka a través de
una serie de paneles que permiten aplicar distritos algoritmos de aprendizaje a un con-
junto de datos.
• La interfaz Experimenter, permite aplicar uno o varios métodos de clasificación sobre un
gran conjunto de datos y, determinar de manera estadística cual se comporta mejor.
• La última interfaz Knowledge Flow, ofrece las mismas funcionalidades de Explorer, pe-
ro su funcionamiento es gráfico, y además ofrece aprendizaje incremental debido a que
permite situar en el panel de trabajo elementos base de manera que se crea un circuito o
flujo que defina nuestro experimento.
En la Figura 2.12, se muestra la interfaz Explorer de la herramienta Weka:
2.2.4.2. RapidMiner
RapidMiner [46], conocido anteriormente como YALE por sus siglas en inglés (Yet Another
Learning Environment) es otra herramienta de minera de datos, que permite el desarrollo de
procesos de análisis de datos mediante el encadenamiento de operadores a través de un en-
torno gráfico. Se distribuye bajo licencia GPL y esta implementado en Java.
Su versión inicial fue desarrollada por el departamento de inteligencia artificial de la Univer-
sidad de Dortmund en 2001. Esta herramienta ofrece más de 500 operadores orientados al
17
Estado de la cuestión
18
Estado de la cuestión
En lo referido a técnicas de minería de datos, SPSS Modeler permite usar una variedad de
técnicas analíticas según el proceso que vayamos a realizar. Algunas de ellas son:
• Segmentación: K-medias, Kohonen, Bietápico, Anomalía.
• Asociación: A priori, GRI, CARMA y Análisis de Secuencia.
• Clasificación: Factorial, Discriminante, Red Neuronal, C5.0, GLM, Máquinas de Vecto-
res de Soporte, Redes Bayesianas, Modelos de auto aprendizaje, Vecino más próximo,
Árboles, Listas de Decisión, Selección de características, etc.
• Predicción: Regresión Lineal, Series Temporales, Regresión de Cox, Regresión Logística.
• Automáticos: Auto numérico, Auto clasificador, Auto Agrupación, Modelizador ARIMA
automático.
Esta herramienta se encuentra disponible en diversas plataformas, como Windows, Linux,
Mac, AIX y se ha de pagar una licencia para su uso.
19
Estado de la cuestión
20
Capítulo 3
Materiales y Métodos
En este capítulo se describe el desarrollo del proyecto aplicando las tres primeras fases de la
metodología CRISP-DM, para realizar el análisis del comportamiento de compra de los clientes
particulares de la empresa entre los años 2018 y 2019.
21
Materiales y Métodos
involucrados. Para el modelo se ha tomado como referencia los perfiles (Vip, potencial y en
riesgo) y campañas mencionadas por la empresa.
Actores
• Cliente: Persona que ha realizado una compra al menos una vez o es un cliente potencial.
o Cliente vip, representa la persona que realiza compras frecuentes y gasta dinero.
o Cliente potencial, representa la persona que gasta dinero, pero no compra con fre-
cuencia.
o Cliente en riesgo, representa la persona que gastaba dinero pero que en los últimos
siete meses no ha realizado una compra.
• Gerente comercial: Persona responsable de diseñar y registrar en el sistema ERPX las
campañas de marketing: descuentos, vales de compras, ofertas y liquidación de produc-
tos, de acuerdo con las pautas establecidas por el analista de negocios.
• Sistema ERPX: Es el sistema que usa el negocio para programar descuentos, ofertas,
vales de compras, liquidaciones, realizar una venta, etc.
• Vendedor: Persona que atiende al cliente y realiza la venta del producto.
• Analista de negocios: Es la persona que analiza lo que sucediendo y decide que acciones
se deben tomar para lograr los objetivos del negocio establecido por la empresa.
22
Materiales y Métodos
En la Figura 3.1 se muestra el modelo de caso de uso del negocio identificado (la Figura 3.1 no
representa todo el negocio).
Crear oferta de
marca
<<incluir>>
Crear vale de <<incluir>>
compra Lanzar campaña de
<<incluir>>
marketing
Programar <<incluir>>
Gerente comercial liquidación de
productos
vip
Recibir notificación de
campaña
Cliente en riesgo <<incluir>>
<<incluir>>
Cliente
Cliente vip Vender producto
Vendedor
Cliente potencial
<<incluir>>
23
Materiales y Métodos
Vender producto
Lanzar campaña de
Reducir abandono Incrementar la cantidad marketing: liquidación
de clientess de venta de clientes de productos
Lanzar campaña de
marketing: ofertas
Lanzar campaña
Lanzar campaña de de marketing:
marketing: vale de descuentos
compra
Atraer clientes que se Atraer a clientes
es FFidelizar a clientes d
de Captar clientes que
encuentran en riesgo potenciales mayor valor buscan productos a
bajo precio
Identificar marcas de
mayor valor para clientes Identificar a los clientes
potenciales por su de mayor valor por su
histórico de compras Identificar productos
histórico de compras
sin rotación por su
Predecir
i marcas dde productos histórico de ventas
Analizar los data del negocio
que un cliente en riesgo estaría
interesado en comprar
tomando como referencia su
histórico de compras
24
Materiales y Métodos
Gerente comercial
Sistema ERPX
Reporte de clientes
potenciales y sus Venta
marcas de mayor valor
Departamento TI
Pautas para modificar
Sistema ERPX
25
Materiales y Métodos
En la Figura 3.3 se muestra el análisis de los cuatro casos de usos del negocio identificados.
• Lanzar campaña de marketing: Antes de lanzar la campaña de marketing, el analista de
negocio examina la información disponible dentro del negocio con respecto a clientes,
ventas y productos (Figura 3.3a).
Después de estudiar la información, el analista de negocios crea reportes de clientes,
productos y las pautas para la modificación en el sistema ERPX. Luego los reportes son
entregados al gerente comercial para que programe ofertas, descuentos, vales de compras
y liquidación de productos en el sistema ERPX.
Cuando la programación de una campaña ha terminado el sistema la procesa y envía al
cliente la notificación de la campaña. Finalmente, la notificación es vista por el cliente y
el caso de uso termina. Si un cliente decide comprar visitará la tienda, ejecutando el caso
de uso de Vender producto (Figura 3.3c).
• Vender producto: Para comprar un producto el cliente visita la tienda en donde será
atendido por un vendedor. El vendedor registra el pedido, si un cliente tiene alguna
oferta, descuento o vale de compra, será aplicado de manera automática por el sistema o
si algún producto está en liquidación de la misma forma. Si hay una venta, se generará
el documento de factura. (Figura 3.3c)
• Analizar los datos del negocio: Este caso de uso se encarga del análisis de toda la in-
formación disponible dentro de la empresa (cliente, venta y producto). El analista del
negocio generará los reportes con la identificación de los clientes con sus marcas y pro-
ductos favoritos, reporte de productos sin movimiento y las pautas para modificar el
sistema ERPX. (Figura 3.3b)
• Modificar Sistema ERPX: El departamento de TI desarrolla y mejora el sistema infor-
mático ERPX según las pautas recibidas del analista de negocios después de estudiar la
información disponible (Figura 3.3d).
26
Materiales y Métodos
<<DM>>
Predecir marcas de productos que un
cliente en riesgo estaría interesado en
comprar tomando como referencia su
histórico de compras
Predecir marcas de productos Analizar los data del negocio
que un cliente en riesgo estaría
interesado en comprar tomando
como referencia su histórico de
compras
<<DM>>
Identificar marcas de mayor valor para
clientes potenciales por su histórico de
compras
Analizar los data del negocio
Identificar marcas de
Analizar los data del mayor valor para clientes
negocio potenciales por su
histórico de compras
<<DM>>
Identificar a los clientes de mayor valor
por su histórico de compras
Analizar los data del negocio
Identificar a los clientes
de mayor valor por su
histórico de compras
<<DM>>
Identificar productos sin rotación por su
histórico de ventas
Analizar los data del negocio
Identificar productos
sin rotación por su
histórico de ventas
27
Materiales y Métodos
Predecir marcas de
productos que un
cliente compraría -
Construir modelo de
<<DM>> reglas de asociación
Predecir marcas de productos que un
cliente en riesgo estaría interesado en
comprar tomando como referencia su
histórico de compras Identificar perfiles
Analizar los data del negocio de clientes
(Análisis RFM)
<<DM>>
Identificar marcas de mayor valor para
clientes potenciales por su histórico
de compras Construir modelo
Analizar los data del negocio clustering -
Identificar marcas
más rentables
<<DM>>
Identificar productos sin rotación por
su histórico de ventas
Analizar los data del negocio Identificar productos
sin rotación (Análisis
RFM)
28
Materiales y Métodos
29
Materiales y Métodos
• Construir un modelo de clasificación usando el algoritmo K-means para agrupar las mar-
cas de los productos según la rentabilidad, basándose en su costo unitario medio y valor
de precio medio.
• Encontrar una relación entre los perfiles de clientes y los clustering de marca.
• Construir un modelo de reglas de asociación aplicando el algoritmo Apriori que ayude a
recomendar marcas de productos que un cliente estaría interesado en comprar.
• Identificar los productos sin rotación mediante el análisis RFM, tomando como referencia
el histórico de ventas de productos.
30
Materiales y Métodos
31
Materiales y Métodos
32
Materiales y Métodos
33
Materiales y Métodos
• Monto total de ventas de clientes para los años 2018 y 2019. En el diagrama de barras de
la Figura 3.7 se observa, que el monto de ventas del año 2019 ha disminuido un 9,8 % con
respecto al año anterior, lo cual confirma el problema mencionado por la empresa.
34
Materiales y Métodos
• Cantidad vendida anual por marca. En la Figura 3.11, se muestra la cantidad total ven-
dida por marca para los años 2018 y 2019, se observa que para algunas marcas como
Miller, Agv, Thor, Givi, etc., la cantidad vendida ha disminuido con respecto al 2018. Así
como también hay marcas como Dainese-Moto, Vespa-Repuestos, etc., donde la cantidad
vendida en el 2019 ha aumentado.
• Para el atributo “Valor unitario” también se han obtenido las medidas estadísticas más
comunes para saber cuál es el precio mínimo y máximo que ha pagado un cliente. En la
Figura 3.12, se muestra que el precio mínimo es de 0,3 dólares y el máximo es de 1.566
dólares. Además, el precio medio ronda los 39 dólares a lo largo de todo este período.
35
Materiales y Métodos
• En el diagrama de caja de la Figura 3.13, se observa que el costo medio de una marca de
producto presenta valores atípicos. Estos valores no serán descartados para el análisis,
debido a que nos indican que existe un grupo de marcas que tienen un costo muy alto.
36
Materiales y Métodos
Tabla Movimiento
• dmov_id
• dmovfec
• dcli_cod
Tabla Detalle de movimiento
• dmov_id
• dprd_id
• dmov1can
• dmov1costo
• dmov1valum
• dmov1valt
Atributo Descripción
dprd_id Identificador del producto.
dmarnom Marca del producto.
dprdnom Nombre del producto.
dprdcosto Costo unitario del producto.
dprdfec_uc Fecha de última compra al proveedor.
dprdstk Stock del producto.
Tabla 3.7: Atributos elegidos para el análisis de productos
Tabla Venta
Esta tabla almacenará el registro de venta de los clientes particulares entre los años 2018 y 2019,
dado que el objetivo es identificar el comportamiento de los clientes, se excluyeron los distri-
buidores, costo y precio de venta menor a cero, y aquellos movimientos que sean diferentes a
una venta.
37
Materiales y Métodos
Atributo Descripción
dmov_id Identificador de transacción de venta.
dmovfec Fecha de la venta.
dcli_cod Código del cliente.
dmarnom Marca del producto.
dmov1costo Costo unitario del producto.
dmov1can Cantidad vendida.
dmov1valum Valor de venta unitario del producto.
dmov1valt Valor de venta total del producto.
Tabla 3.8: Atributos elegidos para el análisis de clientes
Realizando la auditoría a las dos tablas con herramienta IBM SPSS Modeler, se ha observado
que no hay datos perdidos ni valores nulos.
38
Materiales y Métodos
Figura 3.16: Nodo agrega para calcular el total gastado por transacción
Luego se aplicó el nodo nodo Adición de RFM, como se muestra en la Figura 3.17, para calcular
los valores de Recencia, Frecuencia y Monetario usando los campos dcli_cod, dmovfec y el campo
dmov1valt_Sum obtenido anteriormente.
La fecha fija para el cálculo de la Recencia es 31-12-2019, esto debido a que el análisis se realiza
entre los años 2018 y 2019.
La Figura 3.18 muestra los valores RFM obtenidos para los 10 primeros clientes, en la cual
se puede observar que el cliente con código “20130534211”, tiene una Recencia baja de 4 días
desde que realizó su última compra; su Frecuencia es de 166, indica el número de compras
que ha realizado estos últimos dos años y su Monetario es de 2.277,630 dólares. De los datos,
podríamos deducir que es un cliente muy bueno ya que hace muy poco compró por última
vez, tiene una frecuencia de compra alta y ha gastado mucho dinero.
39
Materiales y Métodos
Luego de obtener los variables de RFM, se realizaron gráficos de frecuencia para visualizar
cómo se encuentran distribuidos los valores. En las Figuras 3.22, 3.23, 3.24 se observa que las
variables tienen una distribución sesgada a la izquierda, aunque el valor de Recencia en menor
proporción.
Posteriormente, se realizó diagramas de caja para cada una de las variables Figura 3.22, 3.23,
3.24. En dónde se observa que la variable de Recencia no presenta ningún valor atípico. Sin
embargo, las variables de Frecuencia y Monetario tienen una gran cantidad de valores atípicos.
40
Materiales y Métodos
41
Materiales y Métodos
Figura 3.25: Nodo Agregar para calcular el costo y valor de venta unitario medio por marca
42
Materiales y Métodos
La Figura 3.26, muestra las primeras filas de la tabla de marcas de productos, donde se puede
observar el costo unitario y valor de venta unitario medio por marca calculados.
43
Capítulo 4
Experimentación y Resultados
44
Experimentación y Resultados
Esta tabla se puede interpretar como: Una Recencia “Muy baja” indica que realizó su última
compra hace más de año y medio y obtendrá un puntaje de 1, una “Baja” significa que su
última compra se encuentra entre el año y el año y medio, por lo tanto, obtendrá un puntaje
de 2. Una “Media” indica que su última compra se encuentra entre los 8 meses y un año y
obtendrá un puntaje de 3, una “Alta” indica que su última compra se encuentra entre los 3
y 8 meses y obtendrá un puntaje de 4. Finalmente, una “Muy Alta” indica que el cliente ha
comprado recientemente, es decir, que su última compra se encuentra dentro de los últimos 3
meses y obtendrá un puntaje de 5.
Así mismo, una Frecuencia “Muy baja” indica que el cliente sólo ha realizó una compra en
los últimos dos años, esto puede indicar que es un cliente nuevo y obtendrá un puntaje de 1,
una “Baja” significa que realizó dos compras en los últimos dos años, por lo tanto, obtendrá
un puntaje de 2. Una “Media” indica que realizó 3 o 4 compras y obtendrá un puntaje de 3,
una “Alta” indica que realizó 5 o 6 compras, es decir, es un cliente leal que realiza compra
frecuentes y obtendrá un puntaje de 4. Finalmente, una “Muy Alta” indica que es un cliente
frecuente que ha realizado más de 7 compras y obtendrá un puntaje de 5.
Por último, un Monetario “Muy alto” indica que el cliente ha gastado mucho dinero en sus
compras y obtendrá un puntaje de 5, ‘Muy baja” indique que el cliente ha no gasta mucho
dinero es sus compras y recibirá un puntaje de 1.
Para realizar el análisis RFM (Figura 4.1), primero se seleccionan las variables Recencia, Fre-
cuencia y Monetario obtenidas, luego se define el número de intervalos en 5, para cada variable.
El nodo asignará una puntuación a cada variable (Recencia, Frecuencia y Monetario) de acuerdo
a las escalas definidas en la Tabla 4.1, siendo el 1 la peor puntuación y el 5 la mejor.
La Figura 4.2 muestra las primeras filas de la tabla de puntuación RFM obtenida por cada
cliente. Por ejemplo, para el código “32110529” se puede deducir que es un “cliente potencial”
debido a que recibió una puntuación Recencia alta, Frecuencia media y Monetario muy alto.
Por otro lado, para el código “47993734” se puede inferir que es un “cliente perdido” ya que
obtuvo una puntuación muy baja en todas las variables. Así mismo, para el código “48641458”
se puede intuir que es un “cliente nuevo”, ya que obtuvo una puntuación Recencia de 5, Fre-
cuencia de 1 y Monetario de 4, es decir que gastó un monto alto de dinero en sólo una venta.
45
Experimentación y Resultados
Por otra parte, en la gráfica de Figura 4.3 podemos visualizar cómo se distribuyen los clientes
por cada quintil asignado a la puntuación de Recencia, Frecuencia y Monetario.
Figura 4.3: Gráfico de recuentos de clientes por cada quintil asignado a la Recencia, Frecuencia
y Monetario
En el gráfico se puede observar que la empresa tiene 688 clientes con una puntuación de Recen-
cia=1, Frecuencia=1, Monetario=1 y 272 clientes con una puntuación de Recencia=5, Frecuencia=5,
Monetario=5, de lo cual se puede concluir que la empresa tiene más clientes poco rentables e
inactivos.
Además, se puede observar que solo existen dos clientes que han realizado muchas compras
(Frecuencia =5), hace mucho tiempo (Recencia=1) y han gastado dinero (Monetario=4). Así como
46
Experimentación y Resultados
también, que solo existen 13 clientes que han realizado compras con una Frecuencia=4 y lo han
hecho hace mucho tiempo. (Recencia=1)
Como vemos, podemos obtener hasta 125 segmentos (5*5*5) de clientes que nos permiten saber
cuántos existen de cada tipo. A continuación, para realizar la agrupación de estos clientes
vamos a aplicar el algoritmo K-meas.
47
Experimentación y Resultados
Modelo 2 (K=6)
En el modelo 2 generado para K=6, se ha etiquetado a cada clúster por perfil: Vip, Potencial,
Leal, Por recuperar, Ocasional y Perdido. Esta asignación de etiqueta fue asignada en base a los
valores medios de puntuación de Recencia, Frecuencia y Monetario de cada clúster. En la Figura
4.7, se observa que el clúster-2 sigue siendo el más grande con un 37 % y el más pequeño es el
clúster-3 con 5 %. Además, el modelo tiene una silueta de 0,45.
48
Experimentación y Resultados
Modelo 3 (K=7)
El modelo 3 ha generado 7 clústeres, y se ha etiquetado a cada clúster por perfil: Vip, Potencial,
Leal, En riesgo, Por recuperar, Ocasional y Perdido. Esta asignación de etiqueta fue asignada
en base a los valores medios de puntuación Recencia, Frecuencia y Monetario de cada clúster. En
la Figura 4.10, se observa que el tamaño del clúster más pequeño es de 5,1 % y el tamaño del
más grande es de 24,5 %. Además, el modelo tiene una silueta de 0,4.
Modelo 4 (K=8)
En el modelo 2 generado para K=8, se ha etiquetado a cada clúster por perfil: Vip, Potencial,
Leal, Nuevo, Por recuperar, Ocasional y Perdido. Esta asignación de etiqueta fue asignada en
base a los valores medios de puntuación de Recencia, Frecuencia y Monetario de cada clúster. En
la Figura 4.13, se observa que el clúster-2 es el más grande con un 22 % y existen 3 clúster que
tienen un porcentaje menor a 6,4 %, siendo el más pequeño es el clúster-3 con 4,2 %. Además,
el modelo tiene una silueta de 0,46.
49
Experimentación y Resultados
Modelo 5 (K=9)
El modelo 5 ha generado 9 clústeres, y se ha etiquetado a cada clúster por perfil: Vip, Potencial,
Leal, En riesgo, Por recuperar, Ocasional, Inactivo y Perdido. Esta asignación de etiqueta fue
asignada en base a los valores medios de puntuación Recencia, Frecuencia y Monetario de cada
clúster. En la Figura 4.16, se observa que el tamaño del clúster tiene el tamaño más grande con
25,5 % y existen 4 clúster que tienen un porcentaje menor a 6 %, siendo el más pequeño es el
clúster-9 con 3,1 %. Además, el modelo tiene una silueta de 0,4.
50
Experimentación y Resultados
Modelo 1 (K=3)
El modelo 1 ha generado 3 clústeres y tiene una silueta de 0,88, lo cual indica que la calidad
del agrupamiento es buena. La Figura 4.19 muestra los valores de venta y el costo medio para
cada uno de los cuatro clústeres identificados. Se observa que el clúster-1 agrupa al 93,4 % de
las marcas y son las que tienen un costo medio muy bajo. Por otro lado, el clúster-2 contiene
solo el 0,5 % de las marcas y son las más caras.
51
Experimentación y Resultados
52
Experimentación y Resultados
Modelo 4 (K=6)
El modelo 4 ha generado 6 clústeres, y al igual que los 2 anteriores modelos obtuvo una silueta
de 0,82. En la Figura 4.22 se observa que el clúster-2 es el más grande con un 80 % y existen 4
clúster que tienen un porcentaje menor a 3,2 %, siendo los más pequeños los clúster-2 y 5 con
0,5 %. Además, ambos clústeres tienen un costo medio alto.
Figura 4.23: Nodo Marcas para crear un campo para cada marca de producto
Se ha usado el nodo Tipo para indicar los campos de entrada y objetivo para el modelo. La
Figura 4.24 muestra que el campo dmov_id no tienen ningún rol, mientras que todos los demás
son campos de entrada y objetivo a la vez. Los campos que no tienen ningún rol, no serán
considerados para crear el modelo.
53
Experimentación y Resultados
Figura 4.24: Nodo Tipo para indicar los campos de entrada y objetivo para el modelo Apriori
Se ha usado el nodo Apriori para construir el modelo de reglas de asociación. Este nodo utiliza el
algoritmo Apriori para generar reglas de asociación a partir de itemset frecuentes identificados
previamente. Es decir, busca reglas de asociación que puedan predecir la aparición de un ítem
en base a la aparición de otros ítem(s) pertenecientes a la misma transacción.
Los porcentajes de soporte mínimo, confianza mínima y número máximo de antecedentes tiene
que ser ingresado en la configuración del nodo Apriori antes de ejecutar el modelo.
Al configurar los valores se observa que, al disminuir el valor mínimo de soporte, aumen-
tan las reglas de asociación, los valores de soporte y confianza, pero disminuye el número de
instancias. Por otro lado, al aumentar el valor mínimo de soporte, disminuyen las reglas de
asociación, los valores de soporte y confianza, pero aumenta el número de instancias. Por ello,
para el modelo se ha realizado pruebas con 4 valores diferentes de soporte mínimo.
Soporte mínimo 5
La Figura 4.25 muestra la configuración del nodo Apriori con un soporte mínimo de 5 %, una
confianza mínima de 10 % y un número máximo de antecedentes de 3.
54
Experimentación y Resultados
55
Experimentación y Resultados
La segunda predicción más confiable es la regla 5, con un valor de soporte de 3,4 % y un valor
confianza de 31 %. Esto significa que la marca Zeus ha existido en 87 transacciones, es decir,
representa un 3,3 % del total de las transacciones y de los clientes que compraron productos de
la marca Zeus, el 31 % también compraron productos de la marca Atrox.
Soporte mínimo 1
La Figura 4.29 muestra la configuración del nodo Apriori con un soporte mínimo de 1 %, una
confianza mínima de 10 % y un número máximo de antecedentes de 3. Figura 4.29.
56
Experimentación y Resultados
Se han aplicado algunos filtros con la finalidad de consultar las reglas de asociación para una
marca de producto específica.
La Figura 4.31 muestra el filtrado de la marca del producto Thor como antecedente, con un
valor de confianza mínima de 13 % y un valor de soporte de 3 %. Como resultado se obtiene 2
reglas de asociación, donde se muestra que los clientes que compraron productos de la marca
Thor, también compraron productos de las marcas Gaerne Moto y EVS (consecuentes en la
Figura 4.32), con un nivel de confianza mayor a 13 %
Figura 4.32: Tabla obtenida del filtro de la marca Thor como antecedente
Por otro lado, filtrando la marca del producto Thor como consecuente, con un valor de con-
fianza mínima de 13 % y un valor de soporte de 3 %, Figura 4.33, se obtiene como resultado 3
reglas de asociación, donde se muestra que los clientes que compraron productos de las mar-
cas 100 %, Gaerne Moto y EVS (antecedentes en la Figura 4.34), también compraron productos
de la marca Thor, con un nivel de confianza mayor a 13 %.
Figura 4.34: Tabla obtenida del filtro de la marca Thor como consecuente
57
Experimentación y Resultados
Soporte mínimo 3
En base a las pruebas anteriores, se configura el nodo Apriori con un soporte mínimo de 3 %,
una confianza mínima de 13 % y un número máximo de antecedentes de 3. (Figura 4.35)
58
Experimentación y Resultados
Figura 4.37: Nodo agregar para calcular la cantidad total vendida de un producto por fecha de
venta
Posteriormente se ha aplicado el nodo Adición de RFM para calcular los valores de Recencia, Fre-
cuencia y Monetario, usando los campos dprd_id, dmovfec, dmov1can_Sum como se muestra
en la Figura 4.38. La fecha fija para el cálculo de la Recencia es 31-12-2019, esto debido a que el
análisis se realiza entre los años 2018 y 2019.
Figura 4.38: Nodo adición de RFM para calcular los valores de actualidad, frecuencia y mone-
tario para el análisis de productos
Una vez que los valores han sido calculados, se realiza el análisis RFM aplicando el nodo Aná-
lisis de RFM ( Figura 4.39), que usará los valores de Recencia, Frecuencia y Monetario obtenidos
como entrada para calcular la puntuación de cada producto. Luego se define el número de
intervalos en 3, para cada variable, a cada uno de los intervalos se le asignará una puntuación
según las escalas definidas en la Tabla 4.2, siendo el 1 la peor puntuación y el 3 la mejor. Por
ejemplo, los productos con las fechas de ventas más recientes reciben una puntuación de 3, y
los productos con las fechas de ventas menos recientes reciben una puntuación de 1.
Las escalas del intervalo de actualidad se definen según los objetivos de la empresa. Se ha
agrupado en el intervalo 1, a aquellos productos que han sido vendidos por última vez ha-
59
Experimentación y Resultados
ce más 365 días. Este intervalo es el analizado para cumplir el objetivo de minería de datos
mencionado anteriormente.
Como resultado se han obtenido 10.416 productos que han sido importados antes del año 2018
y no han registrado ni una venta en todo el año 2019. Por ejemplo, el producto “4979”, de la
marca Honda, ha sido importado el año 2014, sin embargo, no registra ni una venta en estos
últimos 2 años. Por otro lado, el producto con identificador “4614”, de la marca CTS, también
ha sido importado el año 2014, pero registra 4 ventas en el año 2018, tendiendo como última
fecha de venta el 10-11-2018, pero no registra ni una venta en el año 2019. Esta tabla será
exportada en Excel para ser entregada a la empresa.
60
Experimentación y Resultados
• El clúster-1 agrupa a 2.066 clientes que tiene una puntuación de Recencia y Monetario alta,
pero con una frecuencia baja, por lo que son clasificados como clientes “Potenciales”.
• El clúster-2 agrupa a 5.394 clientes, donde tanto la Recencia, Frecuencia y Monetario tienen
valores bajos, por lo que el grupo se clasificada como clientes “Inactivos”.
61
Experimentación y Resultados
• El clúster-3 agrupa a 1.594 clientes donde sus valores de Recencia, Frecuencia y Monetario
tienen mayores promedios que el resto, por lo que los clasificaremos como clientes “Vip”.
• El clúster-4 agrupa a 2.614 clientes que tienen un valor de Frecuencia y Monetario muy
bajo, pero una Recencia alta, por lo que se clasifican como “Ocasionales”.
• El clúster-5 agrupa a 2.602 clientes donde tanto la Recencia y Frecuencia son muy bajas,
sin embargo, tiene un valor Monetario alto, por lo que se clasifican como clientes “Por
recuperar.”
Modelo 2 (K=6)
El modelo 2 ha generado 6 clústeres los cuales se muestran la Tabla 4.4.
• El clúster-1 agrupa a 1.935 clientes que tiene una puntuación de Recencia y Monetario alta,
pero con una frecuencia baja, por lo que son clasificados como clientes “Potenciales”.
• El clúster-2 agrupa a 5.330 clientes, donde tanto la Recencia, Frecuencia y Monetario tienen
valores bajos, por lo que el grupo se clasificada como clientes “Inactivos”.
• El clúster-3 agrupa a 736 clientes donde sus valores de Recencia y Frecuencia son medios
y tienen un valor Monetario bajo por lo que son clasificados como clientes “Leales”.
• El clúster-4 agrupa a 2.478 clientes que tienen un valor de Frecuencia y Monetario muy
bajos, pero una Recencia alta, por lo que se clasifican como “Ocasionales”.
• El clúster-5 se mantiene igual al modelo anterior, agrupa a 2.602 clientes donde tanto la
Recencia y Frecuencia son bajas, pero con un valor Monetario alto, por lo que se clasifican
como clientes “Por recuperar.”
• El clúster-6 agrupa a 1.189 clientes donde sus valores de Recencia, Frecuencia y Monetario
son superiores a los otros grupos, por lo que los clasificaremos como clientes “Vip”.
Modelo 3 (K=7)
El modelo 3 ha generado 7 clústeres los cuales se muestran la Tabla 4.5.
62
Experimentación y Resultados
• El clúster-1 agrupa a 1.865 clientes donde sus valores de Recencia y Monetario son altos,
sin embargo, tienen una Frecuencia media. Aun así, sus valores de Recencia, Frecuencia y
Monetario son superiores a los otros grupos, por lo que los clasificaremos como clientes
“Vip”.
• Los clúster-2, clúster-3, clúster-4 y clúster-5 tienen la misma clasificación que el mode-
lo anterior (Tabla 4.4), es decir, “Inactivos”, “Leales”, “Ocasionales” y “Por recuperar”
respectivamente, pero varían en la cantidad de clientes agrupada por clúster.
• El clúster-6 agrupa a 798 clientes que tienen un valor de Monetario alto, una Frecuencia
media y un valor Recencia bajo por lo que son clasificados como clientes “En riesgo”.
• El clúster-7 agrupa a 3.172 clientes que tiene una puntuación de Recencia y Monetario me-
dia, pero con una frecuencia baja, por lo que son clasificados como clientes “Potenciales”.
Modelo 4 (K=8)
El modelo 4 ha generado 8 clústeres los cuales se muestran la Tabla 4.6.
• El clúster-1 agrupa a 2.225 clientes que tiene una puntuación de Recencia y Monetario alta,
pero con una frecuencia muy baja, por lo que son clasificados como clientes “Potencia-
les”.
• Los clúster-2, clúster-5 y clúster-6 tienen la misma clasificación que el modelo anterior
(Tabla 4.5), es decir, “Inactivos”, “Por recuperar” y “En riesgo” respectivamente, pero
varían en la cantidad de clientes agrupada por clúster.
• El clúster-3 agrupa a 598 clientes que tienen una Recencia alta, una Frecuencia media y un
valor Monetario bajo por lo que son clasificados como clientes “Leales”.
• El clúster-4 agrupa a 2002 clientes donde sus valores de Recencia y Monetario son muy
bajos, sin embargo, tienen una Frecuencia alta, por lo que los clasificaremos como clientes
“Nuevos”.
• El clúster-7 agrupa a 2.412 clientes donde sus valores de Recencia y Monetario son medio
63
Experimentación y Resultados
bajos, además también tienen una Frecuencia baja, por lo que se clasifican como “Ocasio-
nales”.
• El clúster-8 agrupa a 923 clientes que tiene una puntuación Recencia, Frecuencia y Moneta-
rio superior que el resto, por lo que los clasificaremos como clientes “Vip”.
Modelo 5 (K=9)
El modelo 5 ha generado 9 clústeres los cuales se muestran la Tabla 4.7.
• Los 8 primeros clústeres tienen la misma clasificación que el modelo anterior (Tabla 4.6),
es decir, “Potencial”, “Inactivo”, “Leal”, “Nuevo”, “Por recuperar” y “En riesgo” respec-
tivamente, todos a excepción del clúster-4 varían en la cantidad de clientes agrupada por
clúster.
• El clúster-9 agrupa a 449 clientes donde su valor de Recencia es muy bajo, pero sus valores
de Frecuencia y Monetario son intermedios, por lo que los clasificaremos como clientes
“Por reactivar”.
De los modelos presentados elegimos quedarnos con el modelo 4 debido que nos permite
identificar 8 clústeres que detallan los tipos de clientes que tiene la empresa. Se descarta al
modelo 5, debido a que genera un nuevo clúster que no aporta valor, es decir, genera el clúster
“Por reactivar” que al igual que el clúster “Por recuperar” agrupan a clientes que no realizaron
compras en los últimos 7 meses.
64
Experimentación y Resultados
• Clúster 8: Vip
Cliente Potencial
Este perfil agrupa a 2.225 clientes, se ha definido como “Potencial” debido a que son clientes
que han realizados compras recientemente, suelen gastar mucho dinero, pero no lo hacen con
frecuencia. El objetivo de marketing propuesto para este perfil sería incrementar su frecuencia
de compras, esto se puede lograr mediante vales de compras o alguna campaña de marketing
que incentive que visite la tienda con más frecuencia.
La Figura 4.42 muestra las primeras filas de la tabla de clientes potenciales. Por ejemplo, el
cliente “20557071033”, realizó su última compra hace muy poco, hizo 3 compras y ha gastado
un total de 2.415,15 dólares. Otro ejemplo, es el cliente “19936004” que realizó su última com-
pra hace 6 meses, hizo 3 compras y gastó mucho dinero. Por otro lado, el cliente “26733196”,
realizó su última compra hace 35 días, también gastó mucho dinero, pero solo ha realizado 2
compras.
Cliente Inactivo
Este perfil agrupa a 3.259 clientes, se ha definido como “Inactivo” debido a que son clientes
que han realizado una o dos compras hace más de un año, y que tampoco solían gastar mucho
dinero en sus compras. Para este perfil no se propone ninguna estrategia de marketing debido
a que como el cliente no han realizado una compra hace mucho tiempo no es seguro que
responda a alguna campaña.
La Figura 4.43 muestra las 5 primeras filas de la tabla de clientes inactivos. Por ejemplo, el
cliente “47635806” ha realizado sólo una compra de 34,780 dólares hace más de un año.
65
Experimentación y Resultados
Cliente Leal
Este perfil agrupa a 598 clientes, se ha definido como “Leal” debido a que son clientes que
realizan compras con frecuencia, pero no suelen gastan mucho dinero en sus compras. Se con-
sidera un perfil importante porque agrupa a los clientes fieles que, aunque no inviertan mucho
dinero en sus compras son clientes fieles, que visitan la tienda con frecuencia.
La Figura 4.44 muestra las primeras filas de la tabla de clientes leales. Por ejemplo, el cliente
“70928243” ha realizado su última compra hace un año, y ha gastado un total de 76,140 dólares
en 6 compras. Otro ejemplo es el cliente “20536566849” que ha realizado su última compra hace
9 meses, hizo 8 compras y ha gastado un total de 75,98 dólares.
66
Experimentación y Resultados
La Figura 4.46 muestra las 10 primeras filas de la tabla de clientes inactivos. Por ejemplo, el
cliente “09086450” ha realizado su última compra hace más de año y medio, ha gastado un
total de 2.089,250 dólares en una compras. Otro ejemplo es el cliente “20565293908” que ha
realizado su última compra hace más de un año, y ha gastado un total de 1.682,050 dólares en
dos compras.
Cliente en Riesgo
Este perfil agrupa a 800 clientes, se ha definido como “En riesgo” debido a que son clientes que
solían gastar mucho dinero en sus compras, pero no han realizado una compra en los últimos
7 meses. La Figura 4.47 muestra la frecuencia mensual de compra de los clientes en riesgo en
los últimos dos años, en la cual se observa que la frecuencia de compra fue disminuyendo a lo
largo del 2018 y en mayor proporción en el 2019.
El objetivo para este perfil sería aplicar alguna campaña de marketing, como ofertas o descuen-
tos en las marcas de productos preferidas por este grupo de clientes. La Figura 4.48 muestra
las 10 primeras filas de la tabla de clientes que se encuentran en riesgo. Por ejemplo, el cliente
“001214094” ha realizado 10 compras, de las cuales su última compra fue hace más de año y
medio. Otro ejemplo es el cliente “43247563” que ha realizado 8 compras, pero no ha vuelto a
compra hace 15 meses.
67
Experimentación y Resultados
Cliente Vip
Este perfil agrupa a 923 clientes, se ha definido como “Vip” debido a que son clientes que han
comprado en el último año, realizan compras con frecuencia y suelen realizar buenas compras.
El objetivo para este perfil sería fidelizar a estos clientes, realizando una estrategia de marke-
ting que los haga sentir únicos e importantes debido a que son los clientes de mayor valor de
la empresa.
La Figura 4.50 muestra las 10 primeras filas de la tabla de clientes vip. Por ejemplo, el cliente
“40413023” ha realizado su última compra hace 11 días, y ha gastado un total de 9.013,010
dólares en 59 compras.
68
Experimentación y Resultados
Por último, en la Figura 4.51 muestra el porcentaje del número de clientes por cada perfil. Del
gráfico se puede observar que el 22,8 % de clientes se encuentran inactivos el último año, el
30 % se encuentra entre “Nuevo” y “Ocasional”, el 15,5 % como “Potencial”, el 5,6 % se en-
cuentra “En riesgo” y solo el 6,5 % como “Vip”.
Las tablas de perfiles de clientes identificadas han sido exportadas con el nodo Excel para ser
entregadas a la empresa para que la persona experta en marketing haga uso de estos grupos
de la forma que estime conveniente. Figura 4.52
69
Experimentación y Resultados
Modelo 1 (K=3)
El modelo 1 ha generado 3 clústeres. La Tabla 4.8 muestra que el clúster 1, agrupa a la mayor
cantidad de marcas de productos de la empresa que tienen un costo muy bajo. Por otro lado,
el clúster 2 agrupa sólo a 2 marcas de productos que son las más caras de la tienda y el clúster
3, que agrupa a 23 marcas que tienen un costo medio de 90.4 dólares.
Modelo 2 (K=4)
El modelo 2 ha generado 4 clústeres. La Tabla 4.9 muestra que el clúster 1 sigue agrupando a la
mayor cantidad de marcas de productos de la empresa pero, ahora tiene un costo medio más
bajo. Por otro lado, el clúster 2 se mantiene igual al cuadro anterior; el clúster 3 disminuye en
4 marcas respecto del cuadro anterior. Además, se ha generó un número clúster que agrupa a
53 marcas y tiene un costo medio bajo.
70
Experimentación y Resultados
Modelo 3 (K=5)
El modelo 3 ha generado 5 clústeres. La Tabla 4.10 muestra que el clúster 1 y el clúster 2 se
mantiene igual al cuadro anterior (Tabla 4.9). Por otro lado, el clúster 3 ahora agrupa a 12
marcas que tienen un costo intermedio; el clúster 4 agrupa a 50 marcas de productos y tiene
un costo medio bajo. Mientras que el clúster 5 agrupa a 10 marcas que tienen un costo medio
alto.
Modelo 4 (K=6)
El modelo 4 ha generado 6 clústeres. La Tabla 4.11 muestra que el clúster 1, 2 y 4 mantiene
igual los cuadros anteriores (Tabla 4.9,4.10) y el clúster 5 del cuadro anterior se ha divido para
generar el clúster 3 y 6. Por otro lado el clúster 3 agrupa a 8 marcas y tiene un costo medio
intermedio; el clúster 5 agrupa sólo a dos marcas que tienen el costo medio alto. Además, se
ha generado un nuevo clúster que agrupa a 12 marcas de producto que tiene un costo medio
intermedio.
De los modelos presentados se elige el modelo 2, el cual genera 4 clústeres y tiene una silueta
de 0,83. Esto debido a que agrupa de mejor manera las marcas de los productos.
71
Experimentación y Resultados
La Figura 4.54 muestra las primeras filas de la tabla de marcas incluidas en el clúster-1.
Clúster-3: Alto
Este clúster agrupa a 19 marcas, donde su costo medio se encuentra entre 55 y 154 dólares. Por
otro lado, su valor de venta medio oscila entre 157 y 239 dólares. La Figura 4.56 la tabla de
marcas incluidas en el clúster-3.
72
Experimentación y Resultados
Clúster-4: Medio
Este clúster agrupa a 53 marcas que tienen un costo medio mínimo de 16 y máximo 58 dólares.
Por otro lado, su valor de venta medio oscila entre 36 y 124 dólares. La Figura 4.57 muestra las
primeras filas de la tabla de marcas incluidas en el clúster-4.
73
Experimentación y Resultados
74
Experimentación y Resultados
75
Experimentación y Resultados
las marcas más caras de la empresa y el clúster “Bajo” el que contiene las marcas con menor
precio.
Cliente Vip
La Figura 4.63 muestra que solo el 0,07 % de los clientes se identifican con el clúster de marca
“Muy Alto” y el 6 % con el “Alto”. Por otro lado, del gráfico se puede deducir que más de la
mitad de los clientes que se encuentran en este perfil compran con frecuencia productos con
marcas que se encuentran dentro del clúster “Bajo”, y el 31 % compran productos de marcas
que se encuentran en el clúster “Medio”.
En la Figura 4.64 muestra algunas filas de la tabla de marcas, donde se muestra la lista de
marcas por cada código de cliente, así como también el nombre del clúster por marca obtenido.
Por ejemplo, se muestra que el cliente “000157182” se identifica con 3 clústeres, es decir, se
identifica con marcas que tienen un costo bajo, medio y alto.
Cliente Potencial
La Figura 4.65 muestra que casi el 50 % de los clientes que se encuentran en este perfil se
identifican con el clúster “Medio” y el 33,8 % con el clúster “Bajo”. Por otro lado, el 17,4 % con
el clúster “Alto” y solo un 0,05 % con el “Muy Alto”.
76
Experimentación y Resultados
Cliente Leal
La figura 4.67 muestra que la gran mayoría de los clientes que se encuentran en este perfil se
identifican con el clúster “Bajo” y representan el 94,7 %. Por otro parte, el 5 % prefiere el clúster
“Medio” y solo el 0,25 % prefiere el clúster “Alto”.
77
Experimentación y Resultados
En la Figura 4.68 muestra las primeras filas de la tabla de marcas, donde se muestra la lista
de marcas por cada código de cliente, así como también el nombre del clúster por marca ob-
tenido. Por ejemplo, se muestra que el cliente “000947469” se identifica con el clúster “Bajo” y
“Medio”, es decir, con marcas que tienen un costo bajo y medio.
Cliente Nuevo
La figura 4.69 muestra que el 77 % de clientes que se encuentran en este perfil se identifican con
el clúster “Bajo”, el 21 % con el “Medio”, y solo el 1 % con el “Alto”. Es decir, que la mayoría
de los clientes prefieren comprar marcas de productos con precios bajos.
78
Experimentación y Resultados
Cliente Ocasional
La Figura 4.71 muestra que el 52 % de los clientes que se encuentra en este perfil prefieren mar-
cas que se encuentran en el clúster “Bajo”, el 42 % con el “Medio”, y solo el 2.6 % se identifican
con el clúster “Alto”. En conclusión, se puede decir que la mayoría de los clientes se identifican
con marcas que tienen un costo bajo y medio.
En la Figura 4.72 muestra que el cliente “00001001” se identifica con el clúster “Medio”, es decir,
prefiere marca de productos con costo medio. Por otro lado, el cliente “000067647” prefiere
marcas de productos con costo bajo.
Cliente en Riesgo
En este perfil se encuentran clientes que realizaban compras frecuentes, pero actualmente han
dejado hacerlo. La Figura 4.75 muestra que los clientes se identifican con todos los tipos de
clústeres, aunque en diferentes proporciones. La gran mayoría prefieren las marcas de produc-
tos que se encuentran en el clúster “Bajo”y “Medio”.
79
Experimentación y Resultados
En la tabla de Figura 4.74 se muestra que el cliente “000002049” se identifica con 2 clústeres:
“Bajo” y “Medio”. De los cuales prefieren las marcas que se encuentran en el clúster “Medio”.
80
Experimentación y Resultados
En la tabla de Figura 4.76 se muestra que el cliente “000098933” prefiere marcas de productos
que se encuentra en el clúster “Alto”. Por otro lado, el cliente “000077685” prefiere marcas que
se encuentra en el clúster “Medio”.
Figura 4.76: Primeras filas de la tabla de marcas por cliente por recuperar
Cliente Inactivo
Este perfil agrupa a clientes que han realizado una o dos compras hace mucho tiempo, y que
tampoco gastaron mucho dinero al realizar sus compras. La Figura 4.77 muestra que más del
86 % se identifica con el clúster “Bajo”. Es decir, más de la mitad de los clientes que se encuen-
tran en este grupo prefiere marcas de productos con precio bajo.
81
Experimentación y Resultados
82
Experimentación y Resultados
Figura 4.80: Primeras filas de la tabla de recomendación de marcas por código de cliente
Finalmente, los resultados obtenidos del proyecto serán entregados a la empresa para ayudar-
los a generar estrategias de marketing que ayuden a incentivar las ventas de los clientes.
83
Capítulo 5
Discusión y conclusiones
En el presente proyecto se llega a encontrar un modelo que nos permite conocer los perfiles
de clientes que tiene la empresa Barbacci. Para esto se analizó el histórico de compras de cada
cliente, se decidió segmentar a los clientes por su comportamiento de compra debido a que la
empresa no contaba con información adicional que podría ser de interés para el análisis.
La metodología de minería de datos elegida permitió realizar el proyecto de manera ordena
y enfocada a las necesidades de la empresa. De igual manera, la herramienta elegida para
realizar el proceso de minería de datos permitió realizar un análisis interactivo y estadístico de
los datos.
Identificar los perfiles de clientes nos ha permitido conocer que existen clientes poco rentables
e inactivos, así como también existen clientes en los que la empresa debe invertir más tiempo
y recursos. Aunque la interpretación de los segmentos sea subjetiva, no hay duda de que la
información obtenida puede aportar un gran valor a la empresa y puede ser utilizada para
diseñar campañas de marketing enfocadas a los segmentos identificados, que tengan un mayor
grado de aceptación.
Por otra parte, el resultado del análisis de clúster de marcas le permitirá a la empresa conocer
cuales sus marcas de productos más rentables, esto debido a que, en el análisis se identificó
que las marcas de productos que se venden en mayor cantidad no siempre son las que generan
mayores ingresos a la empresa.
Además, al combinar los resultados obtenidos de los modelos de clúster de perfil de cliente
y clúster de marcas, se pudo identificar con qué clúster de marcas los perfiles de clientes se
identifican. Esta información podría ser usado por la empresa para incentivar a cada cliente
con aquellas marcas que más probabilidades de éxito se prevé que tendrán según el segmento
al cual pertenece ese cliente.
De igual modo, la recomendación de marcas de productos encontrados para cada cliente le
permitirá a la empresa elaborar estrategias de marketing como promociones, ofertas, tarjetas
de descuentos, etc. que capten la atención del cliente.
El conocimiento de los perfiles de clientes y las marcas de productos obtenidas del presente
proyecto, ayudarán a la empresa a mejorar el negocio al diseñar estrategias que pueden ser
innovadoras frente a los competidores.
84
Bibliografía
85
BIBLIOGRAFÍA
86
BIBLIOGRAFÍA
87
Anexo A
Codificaciones
88
Codificaciones
dmov1costo , dmov1can ,
CASE WHEN dmovmon = ' USD ' THEN dmov1valum ELSE dmov1valum / dmovt_c END ,
CASE WHEN dmovmon = ' USD ' THEN dmov1valt ELSE dmov1valt / dmovt_c END
FROM erp . inv_t_mov m
INNER JOIN erp . vta_m_cli c ON c. dcli_id =m. dunp_id
INNER JOIN erp . inv_t_mov1 m1 ON m . dmov_id = m1 . dmov_id
INNER JOIN erp . all_m_prd p ON p . dprd_id = m1 . dprd_id
INNER JOIN erp . all_m_mar ma ON ma . dmar_id =p. dmar_id
WHERE
dtma_id IN (4 ,5) AND dclitip = 'C ' AND dmovsta = 'V ' AND
dclista = 'A ' AND dmov1costo > 0 AND dmov1valum >0 AND
dmovfec BETWEEN ' 2018 -01 -01 ' AND ' 2019 -12 -31 ';
89