Está en la página 1de 19

Universidad Pedagógica y Tecnológica de Colombia.

Edificando futuro

INFORME ESTADÍSTICO DE LA BASE DE DATOS


“ONLINE RETAIL DATA SET”

Autores
Danny Julieth Duarte Camargo
Diana Patricia López Sandoval
Germán Dario Cuida Plazas
Oscar David Medina Báez

Docente Coordinador
Alberto Zea Higuera

Licenciatura en Matemáticas y Estadı́stica


Facultad Seccional Duitama
18 de marzo del 2021
Escuela de Matemáticas y Estadı́stica

INTRODUCCIÓN

En este informe se reporta el desarrollo y resultados de la implementación de los temas vistos en


el primer cincuenta en el curso de Marketing, este curso hace parte de las electivas en estadı́stica
ofrecidos por la licenciatura en matemáticas y estadı́stica de la UPTC seccional Duitama. El presente
informe se enfocó en la caracterización de la base de datos “Online Retail Data Set” tomada del UCI
Machine Learning Repository.
Desde hace varios años se ha puesto muy de moda un campo de la estadı́stica como lo es la minerı́a
de datos, esto surge por la necesidad de analizar conjuntos grandes de datos, ademas con el uso
del aprendizaje automático este campo se ha convertido en el favorito de muchos. El objetivo de la
minerı́a de datos es extraer información útil de un conjunto de datos y transformarla para que sea
mas fácil su lectura, gracias a la programación, la inteligencia artificial y el aprendizaje automático,
el trabajo de un minero de datos se centra en realizar un respectivo análisis de los datos, pues el
código le genera algunos resultados, pero es necesario una persona que sepa de estadı́stica para que
analizar que significan esos datos en el contexto del problema.
En este tipo de proyectos es muy aconsejable contar con un experto en el tema, ya que puede facilitar
el correcto análisis y permite que no cometamos errores por comentarios que tal vez para nosotros
sean verdad, pero para el campo de estudio no lo es.
Este documento se estructura de la siguiente forma: en la primera parte se presenta una caracteriza-
ción de la base de datos, luego se procede a realizar un análisis estadı́stico a las variables, después se
tratara de limpiar la base de datos, y por ultimo se realizara un análisis RFM.

Electiva Estadistica - Marketing 2


Escuela de Matemáticas y Estadı́stica

Tabla de Contenido
1. Descripción base de datos 4
1.1. Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. Análisis descriptivo de las variables de la base de datos original . . . . . . . . . . . . 4
2. Preparación de los datos 6
2.1. Análisis descriptivo de las variables de la base de datos corregida . . . . . . . . . . . . 8
3. Análisis RFM 12
3.1. Segmentacion de clientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4. Conclusiones 19

Electiva Estadistica - Marketing 3


Escuela de Matemáticas y Estadı́stica

1. Descripción base de datos


Las siguientes son algunas de las caracterı́sticas de la base de datos “Online Retail Data Set” tomada
del UCI Machine Learning Repository.
Es un conjunto de datos transnacionales que contiene todas las transacciones ocurridas entre el
01/12/2010 y el 09/12/2011 para una tienda minorista en lı́nea registrada y con sede en el Reino
Unido, La compañı́a vende principalmente regalos únicos para todas las ocasiones. Cabe destacar que
muchos clientes de la empresa son mayoristas.
La base de datos cuenta con un total de 541909 observaciones de 8 variables, ademas hay algunos
datos faltantes.

1.1. Variables
InvoiceNo: Indica un número de 6 dı́gitos asignado de forma única a cada transacción. Si este código
comienza con la letra ’c’, indica una cancelación. La variable es cualitativa y su escala es Nominal.
StockCode: Código de producto (artı́culo), este código es un número de 5 dı́gitos asignado de forma
única a cada producto distinto. La variable es cualitativa y su escala es Nominal.
Description: Indica el nombre del producto (artı́culo). La variable es cualitativa y su escala es No-
minal.
Quantity: Indica las cantidades de cada producto (artı́culo) por transacción. La variable es cuanti-
tativa discreta y su escala es de razón. .
InvoiceDate: Fecha y hora de entrada, indica el dı́a y la hora en que se generó cada transacción. La
variable es cuantitativa y su escala es de intervalo.
UnitPrice: Indica el Precio del producto por unidad en libras esterlinas. La variable es cuantitativa
continua y su escala es de intervalo.
CustomerID: Número de cliente, es un número integral de 5 dı́gitos asignado de forma exclusiva a
cada cliente. La variable es cualitativa y su escala es nominal.
Country: Nombre del paı́s donde reside cada cliente. La variable es cualitativa y su escala es nominal.

1.2. Análisis descriptivo de las variables de la base de datos original

A continuacion se hará un breve análisis de la base de datos original, no vamos a analizar mucho
de ella pues tenemos que limpiarla para proceder a hacer un correcto análisis, ademas se evitaran
mostrar algunos gráficos que no aportan mucho al análisis final.
variable InvoiceNo
Al ser una variable nominal tiene 541909 datos diferentes, ya que cada factura tiene un código único
hay 541909 facturas diferentes, podemos destacar que hay 9288 cancelaciones, esto es muy importante

Electiva Estadistica - Marketing 4


Escuela de Matemáticas y Estadı́stica

para realizar un buen análisis de la base de datos. No hay datos faltantes en esta variable.

variable StockCode
Es una variable de la que se puede analizar poco, hay 541909 datos, los cuales se repiten pues son el
código del producto, sobresalen datos como por ejemplo en la fila numero 279312 que corresponde al
código del producto con la descripción: “GROOVY CACTUS INFLATABLE”, lo que sucede es que
no existe la descripción en esta fila, ademas se notifico una cantidad de 170 productos y en precio
por unidad aparece un cero, tampoco aparece el id del cliente, tocarı́a revisar mas a fondo que sucede
con este tipo de datos, ya que no sucede una sola vez, aparece muchas veces el mismo proceso. Es
recomendable buscar a un experto en este campo para asesorarnos mejor y evitar hacer juzgamientos
incorrectos. No hay datos faltantes en esta variable.

variable Description
Hay varias categorı́as en esta variable, es decir que la cantidad de productos diferentes es muy gran-
de, esta variable tiene muchos problemas para su lectura correcta ya posee categorı́as rotuladas como
“?”,“??”,“?Lost”,“?Missing”, que son de difı́cil lectura para alguien que no este familiarizado con esa
base de datos, lo mejor seria prescindir de estos datos para evitar caer en análisis incorrectos, por
otro lado existen 1454 datos faltantes, ademas también aparecen algunos datos de artı́culos que por
alguna razón fueron desechados.

variable Quantity
En la siguiente tabla podemos observar el resumen de los datos en la variable:

Minimo Primer cuartil Mediana Media Tercer cuartil Maximo Desviacion estandar
-80995.00 1.00 3.00 9.55 10.00 80995.00 218.0812

Lo primero que observamos es que hay cantidades negativas, esto se debe a las cancelaciones y tam-
bién a las perdidas de la empresa por daños en el producto, también se debe a muestras gratis que
envı́a la empresa al cliente, para un buen análisis lo mejor es analizar los datos negativos a parte de
los positivos ya que de lo contrario el análisis no va er el mejor. podemos notar que en promedio los
clientes llevan 10 productos, pero este dato no es exacto por lo antes mencionado, no tiene sentido
hacer los gráficos para esta variable ya que su lectura no sera la adecuada, ademas por el rango
de valores el gráfico seria de difı́cil lectura. Cabe destacar que la variable no tiene datos faltantes.
Notemos que más del 75 % de los datos son valores positivos, también podemos notar que hay mucha
dispersión en los datos ya que hay una alta desviación estándar.

Electiva Estadistica - Marketing 5


Escuela de Matemáticas y Estadı́stica

variable InvoiceDate
Lo primero que podemos observar es que la variable no tiene datos faltantes, es conveniente para un
posterior análisis separa la fecha y la hora de la transacción, por ahora no se puede decir mucho de
esta variable.
variable UnitPrice
En la siguiente tabla podemos observar el resumen de los datos en la variable:

Minimo Primer cuartil Mediana Media Tercer cuartil Maximo Desviacion estandar
-11062.06 1.25 2.08 4.61 4.13 38970.00 96.75985

De nuevo tenemos el problema de los valores negativos, pero esta vez no es tan grave como en la
variable Quantity, pues son tan solo dos datos los cuales son ajustes de cuentas incobrables, eso ya
es dinero que la empresa pierde, pero por estos datos es imposible hacer un buen análisis, pues las
estadı́sticas se ven afectadas por estos valores tan extremos, por ejemplo los datos son muy dispersos
pues la desviación estándar es alta, esto se debe claramente a la presencia de datos muy atı́picos
como lo son los ya mencionados, Solo queda tratar de eliminarlos para poder analizarlos bien, esto lo
haremos en la siguiente sección. También vale la pena destacar que hay algunos artı́culos cuyo precio
es de cero libras, se deberı́a indagar sobre que significa este valor.
variable CustomerID
Lo primero que notamos es que hay 135080 datos faltantes, no es muy útil esta variable para el análisis
que vamos a hacer, por lo cual no es un dato muy preocupante, pero para un analisis mas a fondo si
deberiamos tener cuidado con esos datos faltantes, por ejemplo si deseamos saber
variable Country
En esta variable no hay datos faltantes, pero si hay paı́ses sin especificar, esto serian como faltantes
pero catalogados de forma elegante, podemos notar que la mayorı́a de la gente que compra en la
empresa es de Europa, pero también realizan compra desde los lugares donde la economı́a es muy
buena, paı́ses como Estados Unidos, Japón y Brasil, entre otros.

2. Preparación de los datos


Por lo que logramos notar en el análisis descriptivo de la base de datos original, nos toca hacer varios
cambios a la base de datos para poder trabajarla bien y que el análisis y las conclusiones sean mas
verı́dicas. En esta sección vamos a limpiar la base de datos de esos valores que no son necesarios para
el análisis que procederemos a hacer.
nota: cabe destacar que todos los procedimientos los pueden encontrar en el anexo1, ya que al ser tan
complejos decidimos no mostrarlos para evitar que el lector se fatigue con una lectura muy técnica,
y ese no es el objetivo de este informe.

Electiva Estadistica - Marketing 6


Escuela de Matemáticas y Estadı́stica

Usamos el software estadı́stico R para transformar la base de datos original, ver anexo1

a) Datos faltantes

Observando la base de datos notamos que hay datos faltantes, vamos a mirar de cuales variables
provienen y cuantos son.

Esto nos indica que en la base de datos original (base1) efectivamente hay datos atı́picos.

Como podemos ver, las variables CustomerID y Description poseen datos faltantes.

Como podemos observar en la variable CustomerID hay 135080 datos faltantes, mientras que
en la variable Description hay 1454 datos faltantes.

b) Base de datos sin cancelaciones

Los valores de la variable InvoiceNo que empiezan con C son cancelaciones, decidimos eliminarlos
ya que no aportan nada al análisis que vamos a realizar, esta nueva base de datos la llamamos
base2. Se deberı́a estudiar por aparte los datos de las devoluciones para saber cuanto dinero
esta dejando de ingresar la empresa por estos productos.
Recordemos que la base de datos original tenia 541909 observaciones, la nueva base de datos
(base2) tiene 532621 observaciones, es decir eliminamos los 9288 datos de las cancelaciones, un
1,7 % aproximadamente de la base de datos original.

c) Base de datos sin descripciones vacı́as o faltantes

Ahora vamos a eliminar los elementos Faltantes de la variable Description, la nueva base de
datos (base3) tiene 531167 observaciones, es decir que ya nos deshicimos de mas de 10.000
observaciones inútiles de la base de datos original.

Electiva Estadistica - Marketing 7


Escuela de Matemáticas y Estadı́stica

d) Base de datos con cantidades positivas

Ahora recordemos que la variable Quantity tenia elementos negativos, procedemos a eliminar-
los, la nueva base de datos (base4) tiene 530693 observaciones, es decir que eliminamos 474
observaciones más, la razón de eliminar las cantidades negativas es que para nuestro análisis
final no nos van a servir para nada.

e) Base de datos sin elementos indeseables

Por ultimo eliminamos las categorı́as indeseables de la variable Description como por ejem-
plo “?”,“??”,“?Lost”,“?Missing”, entre muchas otras, la base de datos (base5) tiene 530653
observaciones, es decir 11256 observaciones menos que la base de datos original

2.1. Análisis descriptivo de las variables de la base de datos corregida

A continuacion se hará un análisis detallado base de la nueva base de datos, se agregaron algunas
variables que también procederemos a analizar. solo vamos a tratar de analizar las variables cuanti-
tativas ya que las cualitativas ya tienen un análisis previo.
variable InvoiceNo
Al ser una variable nominal tiene 530653 datos diferentes, ya que cada factura tiene un código único
hay 541909 facturas diferentes, la base de datos ya no tiene cancelaciones.

variable Quantity
En la siguiente tabla podemos observar el resumen de los datos en la variable:

Minimo Primer cuartil Mediana Media Tercer cuartil Maximo Desviacion estandar
1.00 1.00 3.00 10.6 10.00 80995.00 156.6331

Ahora si podemos hacer un buen análisis pues ya no hay datos negativos, podemos notar que en
promedio las personas compran entre 10 y 11 productos, también es importante resaltar que el 50 %
de los clientes compran 3 artı́culos o menos, por otro lado el 25 % de los clientes compra 10 o mas
artı́culos, la máxima cantidad de un articulo comprada por un cliente es de 80995 artı́culos de la
misma denominación. También la cantidad total de artı́culos vendidos en la empresa es de 5625760
unidades.

Electiva Estadistica - Marketing 8


Escuela de Matemáticas y Estadı́stica

En el anterior gráfico podemos notar que hay varios datos que podrı́an ser atı́picos, cabe resaltar que
el gráfico esta acotado y hay muchos mas valores por por encima del valor de 25, se puede ver que
la mayorı́a de clientes compran muy pocos artı́culos (menos de 10), en realidad tan solo 26887 (5 %
aproximadamente) clientes compran 30 artı́culos o más.
Veamos el la lista de los 10 artı́culos mas vendidos:

Podemos observar que el articulo mas vendido con 80995 ventas, es el que tiene código 23843 y el
articulo es una artesanı́a de papel de un pájaro pequeño, en segundo lugar con 78033 ventas esta el
articulo con código 23166 cuyo articulo corresponde a bote de almacenamiento superior mediano de
cerámica.
variable Amount
Esta es una nueva variable que se decidió añadir a la base de datos limpia, la cual se construyo mul-
tiplicando la variable Quantity por la variable UnitPrice, a continuacion se analiza esta nueva variable.

Minimo Primer cuartil Mediana Media Tercer cuartil Maximo Desviacion estandar
0.00 3.75 9.90 20.08 17.70 168469.60 269.7921

Lo primero que notamos es la alta dispersión, pues la desviación estándar es muy grande y tiene que
ver con el rango tan amplio que se maneja (168469.60 de amplitud), el valor de cero se debe a la

Electiva Estadistica - Marketing 9


Escuela de Matemáticas y Estadı́stica

variable UnitPrice, pues la otra variable no toma el valor de cero, esto se debe a algunas muestras
que se les suelen dar a algunos clientes, en promedio una persona gasta cerca de 20 libras esterlinas
por transacción, el dato mas sorprendente es que el 50 % de las transacciones tienen un monto menor
a 10 libras esterlinas aproximadamente.

En el anterior gráfico podemos notar que hay varios datos que podrı́an ser atı́picos, cabe resaltar que
el gráfico esta acotado y hay muchos mas valores por por encima del valor de 25, se puede ver que
la mayorı́a de clientes compran muy pocos artı́culos (menos de 10), en realidad tan solo 26887 (5 %
aproximadamente) clientes compran 30 artı́culos o más.
Ahora veamos la lista de los 10 artı́culos que representaron mayor monto para la empresa por sus
ventas:

Podemos notar que el articulo código DOT (DOTCOM POSTAGE) es que representa el mayor monto
(206248.77 libras esterlinas) para la compañı́a por sus ventas, y es de esperarse ya que e un articulo
muy costoso, el que ocupa el segundo puesto de este particular ranking es el articulo con código 22423
(REGENCY CAKESTAND 3 TIER), el cual obtuvo un monto total de 174484.74 libras esterlinas.
variable InvoiceDate
la variable InvoiceDate se separo en dos variables que se añadieron a la base de datos limpia (base5),
una variable se llamo InvoiceTime y la otra se llamo InvoiceDate.
En la nueva variable InvoiceDate están solo las fechas de la transacción, por otro lado la variable
InvoiceTime nos muestra las horas de la transacción, observemos el siguiente gráfico:

Electiva Estadistica - Marketing 10


Escuela de Matemáticas y Estadı́stica

En el anterior gráfico podemos ver la distribución de las compras por hora, podemos notar que es
mas frecuente que la gente compre los productos cerca al medio dı́a (entre las 12 y la 1 de la tarde),
también notamos que en altas horas de la tarde (mas de las 7) hay pocos clientes que compran
artı́culos, lo mismo sucede temprano en la mañana.
variable UnitPrice
En la siguiente tabla podemos observar el resumen de los datos en la variable:

Minimo Primer cuartil Mediana Media Tercer cuartil Maximo Desviacion estandar
0.000 1.250 2.080 3.883 4.130 13541.330 32.52965

Ya no tenemos los problemas de los datos negativos, lo primero que notamos es que la desviación
estándar bajo considerablemente, esto indica que los datos no están tan dispersos como en la base de
datos original, el precio por unidad promedio es de 3.883 libras esterlinas, ademas se evidencia que la
mitad de los artı́culos tienen un costo por unidad menor a 2.080 libras esterlinas, tan solo un cuarto
de los artı́culos superan las 4.130 libras esterlinas, es decir que la mayorı́a de los artı́culos son muy
económicos y de fácil acceso para los clientes con menos dinero.
En la siguiente figura vamos a ver la lista de los 10 productos que compran mas clientes en la empresa:

Podemos notar que el articulo con código 22423 es el que compran mas personas (882 clientes), es
el articulo rotulado como REGENCY CAKESTAND 3 TIER, el siguiente articulo preferido por las

Electiva Estadistica - Marketing 11


Escuela de Matemáticas y Estadı́stica

personas es el que tiene como descripción WHITE HANGING HEART T-LIGHT HOLDER, con 857
compradores.

3. Análisis RFM
Vamos a revisar los resultados de la aplicación del análisis RFM sobre la base de datos arreglada,
cabe mencionar que los resultados mostrados son sacados del software Rstudio, miremos parte de la
tabla RFM:

Observemos el cliente con ID 12350, este cliente hace 310 dı́as que no hace una compra, tienen un
monto de 334.40 libras esterlinas, ha comprado 17 veces, por eso su frecuencia es de 2 puntos al igual
que el puntaje del monto, y tiene recencia de 1 punto, su puntaje RFM es de 122 lo cual nos indica
que no es un cliente que sea muy fiel a la empresa, por otro lado esta el cliente ideal con ID 12347
que tiene puntaje de 5 en recencia pues hace dos dı́as compro en la empresa, su puntaje de frecuencia
es 5 pues ha realizado 182 transacciones, por ultimo su monto también es de 5 pues ha gastado 4310
libras esterlinas, el puntaje RFM de este cliente es de 555, lo cual lo convierte en un cliente muy
bueno para la empresa.
La siguiente imagen muestra los 10 clientes con mayor puntaje RFM:

Electiva Estadistica - Marketing 12


Escuela de Matemáticas y Estadı́stica

Podemos notar que todos los clientes tienen puntaje RFM de 555, pues la recencia es menor a 10
dı́as, el monto mı́nimo es de 3649.10 libras esterlinas, y el menor numero de transacciones es de 144 lo
cual no esta mal, hago énfasis en estos clientes pues deben ser muy tenidos en cuenta por la empresa
ya que son clientes top, dejar escapar a uno de estos clientes es algo muy malo para la empresa.
En la siguiente imagen podemos ver los clientes que tienen menor puntaje RFM:

Es fácil notar por que están en esta lista ya que la recencia mı́nima es de 197 dı́as, ademas el ma-
yor numero de transacciones es de 11 y el mayor monto es de 225.60 libras esterlinas lo cual no es
suficiente, se hace énfasis en esta lista pues son clientes ocasionales en los cuales es difı́cil invertir
en alguna estrategia de marketing, ademas que seria una perdida de tiempo y dinero ya que no son
clientes ideales para la empresa.
Ahora veamos el diagrama de caja para el análisis RFM:

Podemos notar que mas de la mitad de los clientes tienen un puntaje RFM superior a 300, ademas
el 25 % de los clientes ( 132663 clientes aproximadamente) tienen un puntaje inferior a 150 puntos
aproximadamente, tal parece que hay un numero similar entre los clientes top y los clientes de niveles
inferiores, lo ideal seria que la mediana superara los 350 puntos, pero este no es el caso, antes de sacar
alguna conclusión debemos revisar mas gráficos para notar una tendencia y aplicar una estrategia de
marketing adecuada.
El siguiente gráfico muestra un mapa de calor con relación al valor monetario medio:

Electiva Estadistica - Marketing 13


Escuela de Matemáticas y Estadı́stica

Es fácil observar que para valores altos (5) de frecuencia y recencia corresponde un valor monetario
medio mayor a 10000 libras esterlinas, también observemos que los clientes con frecuencia 1 y recen-
cia 5 tienen un valor monetario medio decente entre 5000 y 10000 libras esterlinas, podemos ver la
tendencia que a medida que aumenta la frecuencia y la recencia el valor monetario medio aumenta,
también se puede destacar son mejores los clientes con una frecuencia alta que una recencia alta,
pues los clientes con frecuencia de 5 tienen mayor valor monetario medio que los de recencia alta, a
excepción del valor ya analizado de frecuencia 1 y recencia 5.
El siguiente gráfico muestra un histograma del análisis RFM:

En el gráfico anterior se puede observar el comportamiento de la recencia, frecuencia y monto, por


ejemplo en el monto se puede observar que la mayorı́a (mas de 4000) de los clientes gastan poco dinero
en la empresa, igal pasa con la frecuencia, pues la gente no hace muchas transacciones, la recencia si
esta un poco mas pareja pues podemos notar que no hay un pico que sobresalga, pero se puede notar
que mas de 2000 personas tienen una recencia menor a 50 dı́as, ademas hay que tomar nota pues es
preocupante que hayan muchos clientes con recencia mayor a 100 dı́as, este dato no se puede pasar

Electiva Estadistica - Marketing 14


Escuela de Matemáticas y Estadı́stica

por alto.
El siguiente gráfico muestra la relación entre recencia y monto:

Notemos que mientras aumenta la recencia, el monto parece seguir igual, también parece haber una
acumulación de datos cuando el monto es bajo y la recencia también lo es, lo ideal seria que el monto
fuera alto y la recencia baja, pero en la practica eso es muy difı́cil que suceda, se podrı́a decir que es
una utopı́a.
El siguiente gráfico muestra la relación entre frecuencia y monto:

Notemos que a valores bajos de frecuencia le corresponden valores bajos de monto, cabe un punto
donde el monto es alto y la frecuencia también debe ser un o unos campeones, esto nos es muy
bueno para la empresa pues los datos se acumulan en la parte baja de la gráfica, lo ideal seria que
los datos estuvieran en la parte alta del gráfico, aunque parece que es un problema de escala ya que
el punto alejado no permite observar muy bien el gráfico y parece ser mas malo de lo que en verdad es.
El siguiente gráfico muestra la relación entre recencia y frecuencia:

Electiva Estadistica - Marketing 15


Escuela de Matemáticas y Estadı́stica

Como observamos antes la recencia tiene valores muy dispersos, por esta razón parece que la frecuencia
permanece constante, pero es una ilusión creada por la variable recencia como lo vimos en el gráfico
de recencia vs monto, podemos notar que los clientes no compran con mucha frecuencia y también
se nota una acumulación de puntos cuando la frecuencia es baja y la recencia también lo es, lo ideal
seria que la frecuencia fuera alta y la recencia baja.

3.1. Segmentacion de clientes


Vamos a clasificar los clientes según su RFM, la clasificación la tomamos de la siguiente tabla:

Clasificación Recencia Frecuencia Monto


Campeones 4-5 4-5 4-5
Clientes Premium 3-4 3-5 3-5
Clientes Potenciales 3-4 2-4 3-4
Clientes Nuevos 2-3 3-4 3-4
Necesitan Atencion 2-3 1-4 2-4
Clientes En Riesgo 1-2 2-3 1-3
Clientes Perdidos 1-2 1-2 1-2

Nota: algunos valores quedaron por fuera de la clasificación tomada, estos aparecen con el rotulo de
others.
la siguiente gráfica muestra la recencia media por segmentos:

Electiva Estadistica - Marketing 16


Escuela de Matemáticas y Estadı́stica

Podemos notar que los de mayor recencia media son los clientes en riesgo con 250 dı́as de recencia
media aproximadamente, le siguen los clientes perdidos con cerca de 225 dı́as de recencia media, cabe
mencionar que los que poseen menos recencia media son los campeones como era de esperarse.
la siguiente gráfica muestra la frecuencia media por segmentos:

Notamos que los campeones tienen una frecuencia media mayor a 150 transacciones, le siguen los
clientes premiun con una frecuencia media de cerca de 70 transacciones, los clientes que hacen menos
transacciones son los perdidos con menos de 10 transacciones medias, se recomienda aplicar alguna
estrategia de marketing para los clientes nuevos, en riesgo y los que necesitan atención, esto par evitar
alguna fuga en el futuro.

Electiva Estadistica - Marketing 17


Escuela de Matemáticas y Estadı́stica

la siguiente gráfica muestra el monto medio por segmentos:

Como era de esperar los campeones están muy distanciados de los demás con un monto medio de
mas de 2500 libras esterlinas de gasto, le siguen los clientes premiun con un monto medio superior
a las 1000 libras esterlinas, también los clientes potenciales se destacan ya que tienen mas de 700
libras esterlinas de monto medio, los demás clientes tienen un gasto medio de menos de 500 libras
esterlinas, se deberı́a aplicar una estrategia adecuada para incentivar mas a estos clientes para que
lleven mas artı́culos de la empresa, se recomienda especial énfasis en los clientes nuevos.

Electiva Estadistica - Marketing 18


Escuela de Matemáticas y Estadı́stica

4. Conclusiones

Es muy importante contar con un profesional que conos-ca algo de marketing para poder obtener
un mejor análisis estadı́stico, pues algunas veces los análisis realizados se quedan muy cortos.

Se recomienda a la empresa que aplique algunas estrategias de marketing para poder atraer
mas clientes, o también para que los clientes antiguos compren con mayor frecuencia y gasten
algo mas de dinero, pues estas variables como lo vimos en el análisis estadı́stico tienen valores
muy bajos, ademas hay muchas personas cuya recencia es muy alta.

En cualquier empresa es preocupante el tema de las devoluciones y es un tema que no debe


pasar desapercibido, por ejemplo en la empresa de la base de datos se encontró que el 1,7 % de
los clientes realizo una cancelación, esto tal vez no preocupe a corto plazo, pero a largo plazo
es donde se van a ver la verdaderas consecuencias, pues hay que recordar que el cliente siempre
tiene la razón.

En general se encontró con el análisis RFM que la empresa no esta tan mal, pero tampoco esta
en la cima, mas bien esta en un termino medio de donde debe salir si lo que desea es triunfar
en el mundo económico actual, ademas se recomienda que realice este tipo de análisis por lo
menos una vez por año para poder realizar pronósticos de acuerdo al comportamiento de los
datos en un intervalo de tiempo dado.

Electiva Estadistica - Marketing 19

También podría gustarte