Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PROFESOR:
INTEGRANTES:
NOVIEMBRE - 2021
INDICE
CAPÍTULO I: PLANTEAMIENTO DEL PROBLEMA .................................................... 8
2
2.2.5.3. Clasificación (KNN) .......................................................................................... 24
2.2.8. Outliers............................................................................................................... 25
3
3.3. Mapa de procesos actual ................................................................................. 46
4.2.2. Pre-procesamiento.............................................................................................. 52
REFERENCIAS ..................................................................................................................... 63
4
INDICE DE ILUSTRACIONES
Ilustración 1: Gasto en categorías de productos de consumo .................................................... 8
Ilustración 2: Cifras del consumo actual .................................................................................... 9
Ilustración 3: Top 10 de Empresas del Sector Alimentos en el Perú ......................................... 9
Ilustración 4: Asignación de puntos a centroides (K-means) .................................................. 23
Ilustración 5: Reubicación de centroides (K-means) ............................................................... 23
Ilustración 6: Ajuste de Mínimos Cuadrados........................................................................... 24
Ilustración 7: Ejemplo de Matriz de Confusión ....................................................................... 25
Ilustración 8: Organigrama general ......................................................................................... 28
Ilustración 9: Organigrama de la gerencia de Gestión Humana .............................................. 28
Ilustración 10: Organigrama de la gerencia de Administración y Finanzas ............................ 29
Ilustración 11: Organigrama de la gerencia de Logística ........................................................ 29
Ilustración 12: Organigrama de la gerencia de Ventas ............................................................ 30
Ilustración 13: Organigrama de la gerencia de Marketing....................................................... 30
Ilustración 14: Organigrama de la gerencia de Desarrollo y Calidad ...................................... 31
Ilustración 15: Organigrama de la gerencia de Producción de alimentos ................................ 32
Ilustración 16: Cadena de suministros de Molitalia ................................................................. 32
Ilustración 17: Modelo de Negocios de Molitalia (CANVAS) ............................................... 40
Ilustración 18: Mapa de Procesos de Molitalia ........................................................................ 46
Ilustración 19: Metodología de la investigación ...................................................................... 50
Ilustración 20: Gráfico de valores nulos .................................................................................. 52
Ilustración 21: Duplicados de la data ....................................................................................... 53
Ilustración 22: Descripción de variables finales ...................................................................... 54
Ilustración 23: Conversión de variables categóricas a numéricas ........................................... 55
Ilustración 24: Código de K-Means con K desde 1 a 11 ......................................................... 55
Ilustración 25: Resultados de la inercia por modelo ................................................................ 56
Ilustración 26: Desarrollo del código del modelo óptimo ....................................................... 56
Ilustración 27: Data final con la etiqueta del cluster asignado ................................................ 56
Ilustración 28: Tabla cruzada de edad vs clusters .................................................................... 57
Ilustración 29: Clusters vs tiempo del colaborador en Molitalia ............................................. 57
Ilustración 30: Clusters vs Tipo de puesto del colaborador ..................................................... 58
Ilustración 31: Clusters vs Categoría de productos.................................................................. 58
Ilustración 32: Buyer persona de Beginners ............................................................................ 59
Ilustración 33: Buyer persona de Middle ................................................................................. 59
5
Ilustración 34: Buyer persona de Expert .................................................................................. 60
Ilustración 35: Buyer persona de Senior .................................................................................. 61
Ilustración 36: Cronograma de actividades.............................................................................. 62
Ilustración 37: Presupuesto de la investigación ....................................................................... 62
6
INDICE DE TABLAS
Tabla 1: Información compartida entre agentes....................................................................... 34
Tabla 2. Matriz de Evaluación del Factor Externo .................................................................. 36
Tabla 3. Matriz de Evaluación del Factor Interno ................................................................... 37
Tabla 4. Matriz FODA cuantitativo ......................................................................................... 38
Tabla 5: Población y Muestra de la población ......................................................................... 49
Tabla 6: Instrumentos de medida ............................................................................................ 50
Tabla 7: Operacionalización de Variables ............................................................................... 50
Tabla 8: Descripción de variables ............................................................................................ 51
7
CAPÍTULO I: PLANTEAMIENTO DEL PROBLEMA
Por otro lado, en Perú se proyecta que los consumidores disminuirán sus consumos en
9% en las categorías de productos esenciales; sin embargo, consideran que sus gastos en
productos no esenciales podrían ir aumentando en 5%.
8
Ilustración 2: Cifras del consumo actual
Fuente: EY (2020)
Dentro del rubro de alimentos en Perú, las empresas más representativas son: Alicorp,
Leche Gloria, Nestlé, Molitalia, Mondelez y Laive, las cuales se han visto afectadas por la
COVID 19 por lo que han tomado medidas como innovar su cartera de productos y mejorar
sus procesos a través de la implementación de las tecnologías disruptivas como RPA, IA,
Chatbot, entre otras.
9
Debido a ese análisis, uno de los hallazgos que sobresalió fue la poca capacidad de respuesta
a las exigencias y preferencias de los clientes del canal de venta interno, ya que las estrategias
inicialmente planteadas se enfocaron en el comportamiento del cliente externo por
representar un mayor porcentaje en las ventas. En base a ello, uno de los pilares para el
planteamiento de esta investigación es potenciar el canal interno que se ha dejado de lado.
Esta investigación sugiere analizar a los clientes internos para plantear estrategias que
permitan el aumento de las ventas a través de diversas tecnologías como la Inteligencia
Artificial. Este último nos podrá ayudar a segmentar a los clientes y encontrar patrones de
comportamiento que nos permitan agruparlos según sus perfiles de compra. De esta manera,
conociendo el perfil de compra del cliente se pueden ofrecer campañas o promociones
personalizadas a fin de aumentar las ventas y potenciar el canal interno.
1.2.2. Práctica
Al término de la investigación la empresa contará con un modelo de segmentación del
perfil de compra de los clientes internos con ello podrá implementar estrategias que se
adapten a las exigencias y preferencias de los clientes, responder rápidamente a los cambios
en la oferta o demanda, contar con información a tiempo real del perfil de compra del cliente,
agilizar y fortalecer los procesos de venta para beneficio de la organización. Todo ello,
permitirá que la empresa pueda mejorar la calidad de la toma de decisiones en el proceso de
venta para hacerla más flexible y adaptable a los cambios.
1.2.3. Metodología
Para el desarrollo del modelo de inteligencia artificial se usará el tipo de aprendizaje no
supervisado y la técnica clustering. Para ello, el modelo propuesto se alimentará del histórico
de ventas y los datos de los clientes internos con el objetivo de encontrar patrones de
comportamiento similares que permitan segmentarlos según su perfil de compra.
10
1.3. Delimitación de la Investigación
1.3.1. Espacial
El presente trabajo de investigación se realizará en una compañía del rubro de
alimentos ubicado en el distrito de Cercado de Lima, teniendo como giro principal la venta de
productos de primera necesidad, confitería, harinas, entre otros. Los datos para este trabajo se
obtendrán de la base de datos de ventas del canal interno de la empresa Molitalia.
1.3.2. Temporal
La presente investigación analizará la base de datos de las ventas del canal interno de
los años 2019 y 2020 de Molitalia. Se delimitó estos años debido a que la data
correspondiente al 2019 nos muestra la conducta de la operación en un año regular y la del
2020 en un año atípico por la COVID 19, donde se reflejaron distintos hechos que afectaron
la operativa regular.
1.3.3. Conceptual
Esta investigación se centrará en el desarrollo de un modelo de segmentación del perfil
de compra del cliente interno, el cual se basa en la recolección de datos de venta histórica y
de las características de los clientes para encontrar patrones de comportamiento que permitan
agruparlos. Esto se puede lograr a través de técnicas de Clustering como K-Means, el cual en
base al número de grupos (K) y a la data que se le brinde al modelo, se asignarán los datos al
grupo más cercano que encuentre.
- Problema:
La necesidad de resaltar en un entorno de alta competencia como sucede en el
sector de consumo masivo hace que las empresas se enfoquen en analizar y entender
más las necesidades y exigencias del cliente a fin de aplicar estrategias más efectivas
para lograr su fidelización y retención. Por ello, surge la importancia de agrupar a los
clientes según características comunes para su mejor entendimiento. Hoy en día
11
existen diferentes alternativas que ayudan a obtener dicha segmentación para ello la
elección adecuada de la técnica dependerá de la data que maneje la empresa.
- Metodología:
• El modelo RFM que analiza la data en 3 variables que son Recency, Frecuency
y Monetary.
• La metodología CRISP-DM en sus seis fases: Comprensión del negocio,
entendimiento de la data, preparación de data, fase de modelado, evaluación del
modelo y despliegue. Para la fase de modelado se usó el algoritmo K-means y
para la evaluación del modelo se utilizaron los índices de Dunn, Davies –
Bouldin y el coeficiente de Silueta.
- Alcance:
El alcance de la investigación se realizó solo con la data de un año anterior
para medir al cliente según la frecuencia y cantidad de compra que realiza, es decir,
desde un cliente de poco aporte hasta un vip.
- Base de Datos:
La base de datos utilizada fue del año 2019, el cual consta de 2837 clientes,
85538 registros con 112 variables. Algunas variables consideradas están en los
montos de compras, la frecuencia de compra, ubicación, tipo de producto adquirido,
fechas de compras, etc.
- Solución:
Se desarrolló el modelo de RFM para la cual se seleccionaron tres variables de
interés como la fecha que permite obtener la frecuencia y recencia, el monto neto en
referencia al valor de cada compra y el código del cliente para su identificación.
Luego de ello, se realizó la búsqueda de registros nulos o vacíos que puedan interferir
en el resultado del modelado reduciendo las 112 variables a 3 (fecha reciente de
compra, monto, código de cliente). Posteriormente, se calcularon los valores de las
tres variables importantes de recencia, frecuencia y monto del modelo para la creación
de la matriz RFM y finalmente la agrupación de los clientes.
Además, se desarrolló, también, el modelo CRISP-DM basándose en las fases
ya inicialmente mencionadas, como punto de partida en la comprensión de data se
utilizó el conjunto de datos obtenidos del modelo RFM. Para la preparación de datos
se realizó la normalización de las muestras de Frecuencia, Monto y Recencia, luego
12
de ello en el modelado, para determinar el número de clústeres se usó el método de
error de inercia dando como resultado un K=4 para un eficiente entrenamiento. La
implementación se desarrolló con los 4 clústeres y el uso de medida de distancia
Euclidiana.
En la validación del modelo, se realizó el análisis del coeficiente silueta en el
cual un K=4 mostró una cantidad mínima de muestras mal agrupadas. El índice
Davies –Bouldin indicó que cuanto menor sea la puntación se tiene un mejor
agrupamiento, dicho eso se mostró un resultado de 0.569 el cual reafirma la elección
del K. El índice de Dunn mostró un resultado de 0.95 apoyando el uso del K=4.
- Resultados:
El modelo RFM segmentó a los clientes en 5 grupos: Clientes VIP (8%),
Clientes Excelentes (14%), Clientes Buenos (16%), Clientes Regulares (36%) y
Clientes de Poco Aporte (27%). Esta segmentación se basó en el tipo de cliente según
el volumen de venta: los clientes VIP representan el 42% de las ventas totales,
Clientes Excelentes 24%, Clientes Buenos 17%, Clientes Regulares 15% y Clientes
Poco Aporte 3%.
También, mostró que 117 personas obtuvieron una recencia y frecuencia igual
a 1 que significaría que son clientes que compraron hace tiempo y no volvieron a
hacerlo por lo cual son considerados clientes perdidos. 276 personas obtuvieron una
recencia igual a 5 y frecuencia igual a 1, los cuales serían considerados como
potenciales clientes.
Los resultados del K- means muestran una segmentación de 4 grupos: Clientes
VIP, Clientes Buenos, Clientes Regulares y Clientes Poco Aporte. El clúster 0
representa a los clientes poco aporte que representan el 1% de los ingresos de la
empresa, conformados por clientes que compraron hace tiempo. El clúster 1 son los
clientes buenos que representan el 77% de los ingresos y el 61% del total de clientes.
El clúster 2 son los clientes VIP que representan el 13% de los ingresos y finalmente
el clúster 3 que son los clientes regulares representan el 32% del total de clientes y 9%
de las ventas.
13
Barrueta, R y Castillo, E. (2018) Modelo de análisis predictivo para determinar clientes con
tendencia a la deserción en bancos peruanos
- Problema:
La problemática de la presente investigación se centra dos puntos: la primera
es que las entidades como los bancos no cuentan con modelos que abarquen aspectos
que prioricen al cliente, uno de los ejemplos de ello es la venta excesiva de los
productos sin existir alguna razón, el segundo es que los modelos no trabajan con
grandes cantidades de información para un análisis exhaustivo de data.
- Metodología:
La metodología utilizada es el de CRISP-DM, en la cual se propone la
aplicación de un Modelo de Análisis Predictivo, que se enfoque en recuperar a los
clientes potenciales que tienen tendencia a desertar de los servicios y que al mismo
tiempo soporte el análisis de data a grandes escalas. Este modelo se probará en
distintas herramientas de Big Data. Por otro lado, a través de un benchmarking
alineado a las entidades financieras del Perú, se encontrará la herramienta idónea para
implementar el modelo planteado. También se relevó información de clientes de un
banco para que pueda ser trabajado, analizado e ingresado en el modelo propuesto.
Después, se implementará el Modelo de Análisis Predictivo en un ambiente donde
simule una institución financiera en el Perú para obtener la validación de la correcta
aplicación de este.
- Alcance:
El alcance de la investigación se realizó en base al análisis del comportamiento
de los clientes que quieran abandonar las entidades bancarias del Perú. Esto con el fin
de segmentar a los clientes en dos grupos: desertores y no desertores.
- Base de Datos:
La base la conforman 20,000 clientes, siendo 1,764 (9%) desertores y 18,236
(91%) no desertores. En una primera fase se utilizó el 67% del total de la data para la
fase de entrenamiento y el 33% para validación, en esta última se tendrá un total de
5,000 clientes, de los cuales 440 son desertores y 4,560 no desertores. Las variables
utilizadas son: Fecha de ingreso, que es la fecha de ingreso del cliente en el Banco y
se convierte en cliente; número de transacciones SAP, es la cantidad de transacciones
que un cliente realiza en Banca Móvil al mes; Número de transacciones HBK,
cantidad de transacciones que un cliente realiza en Homebanking en el mes; Número
14
de transacciones ATM, cantidad de transacciones que un cliente realiza en el cajero
automático en el mes; Número de transacciones en plataforma, cantidad de
transacciones que un cliente realiza en plataforma en el mes; Número de transacciones
en APP, cantidad de transacciones que un cliente realiza en el APP en el mes; Monto
de transacciones en APP, Monto de transacciones ATM, Monto de transacciones en
ventanilla, Monto de transacciones en plataforma, edad, fecha de nacimiento,
situación laboral, estado civil, número de productos, saldos activos, saldos pasivos,
nivel educacional, sexo, Flag de sueldo, Flag APP, productos activos, productos
inactivos, número de cantidad de bancos, número de hijos, SOW, utilidad neta,
clasificación riesgo del banco, clasificación riesgo SBS, Flag mora, ingreso, ingreso
conyugal, Flag tiene carro, Flag viaja, Flag supermercado, Flag restaurantes, Flag
compra ropa, dirección, distrito, agencia + transacción, encuesta_insatisfacción,
encuesta_calidad.
La base de los clientes es tipo .xlsx y puede manejarse en Microsoft Excel. En
esta base, “CC” representa el código de los clientes, la variable “Xi” representa las
variables del cliente mencionados y la variable “Y” señala la clasificación del cliente.
Dentro del cual puede ser considerado como un valor nominal entre desertor o no
desertor.
- Solución:
Se plantea desarrollar un modelo predictivo configurando el algoritmo R-K-
Means, este modelo definirá diferentes agrupaciones que representan diferentes
comportamientos de un cliente que tiende a desertar. Para estabilizar del algoritmo se
formarán 4 grupos de un máximo de 100 iteraciones. Se definirá la cantidad de grupos
que se basan en el número de registros ingresados en la muestra inicial. El segundo
algoritmo. R-NNet Neural Network es un método para identificar relaciones
implícitas en un conjunto de datos que no se conocen, además permitirá al modelo
identificar el comportamiento de un cliente asociándolo al clúster que mejor se adapte
a él, mostrando si es un cliente que tiende a desertar.
- Resultados:
Los resultados arrojaron que el algoritmo más preciso era el R-K-Means con
una precisión del 93.20% en la prueba de validación. El árbol R-CNR y la red
neuronal R-NNet tenían precisiones de validación de 92.5% y 87.3%. Además, RK-
Means tenía 8 falsos positivos, lo que significa que el cliente no está desertando, pero
la herramienta predice que sí, junto con 3 falsos negativos, lo que revela que el cliente
15
tiende a desertar, sin embargo, la herramienta no lo pronosticó como tal. El R-CNR
Tree tenía 10 falsos positivos y falsos negativos y la Red neuronal R-NNet tenía 0
falsos positivos y 14 falsos negativos.
- Problema:
Los contantes cambios en el entorno hacen que las necesidades de las personas
también cambien de manera frecuente. Además, la efectividad de las estrategias de
marketing de la empresa ha bajado a comparación de años anteriores y esto se debe a
que existen diferentes tipos de clientes y, a pesar de tener grandes cantidades de datos,
es complejo identificarlos usando las herramientas tradicionales como Excel. Por ello,
la empresa Master PC decidió apostar por el uso de técnicas de minería de datos para
desarrollar un modelo predictivo que segmente a sus clientes según su
comportamiento de compra.
- Metodología:
La investigación se basa en la metodología CRISP-DM, el cual consta de seis
fases: entendimiento del negocio, entendimiento de la data, preparación de la data,
modelado, evaluación y despliegue. Asimismo, para el modelado y análisis de
resultados se usaron los algoritmos de clustering K-Means, k-medoids, y Self
Organizing Maps.
- Alcance:
La investigación busca crear perfiles de clientes según su histórico de compras
y con ello implementar estrategias de marketing personalizadas efectivas. La data
usada para el modelo se basó en el histórico de ventas de los años 2010 al 2014 de la
empresa y datos obtenidos de entrevistas con gerentes y personal de la empresa.
- Base de datos:
Se obtuvo la base de datos de los registros de los clientes y ventas realizadas
desde el 2010 al 2014. Dentro de los datos de los clientes considerados se tienen:
Edad, sexo, dirección, profesión, estado civil, género, lugar de trabajo, país, correo y
teléfono. Asimismo, también se obtuvo la base de ventas donde se tienen variables
como: fecha de la venta, monto del descuento, sobrecargo, impuesto, total venta,
producto, categoría producto, cantidad, precio y marca del producto.
16
- Solución:
Desarrollar un modelo predictivo de segmentación de clientes. Para ello se
dividió la data en train (67%) y test (33%) y se usaron distintas técnicas: K-means
partiendo con un K=5; K-medoids partiendo con un K=4 y finalmente Self
Organizing Maps (SOM) con K=5, todos los modelos fueron desarrollados en
Rstudio.
- Resultados:
Para comparar los resultados de cada modelo desarrollado, se tomó en cuenta
el parámetro de precisión, en donde se obtuvieron: modelo K-means de 5 grupos un
valor de 0.9991, modelo K-medoids de 4 grupos un valor de 0.9999 y con la técnica
SOM un valor de 0.9992. Con estos resultados, el autor concluye que el mejor
algoritmo a utilizar para la segmentación de clientes es K-medoids de 4 grupos.
profit scoring”
- Problema:
En la actualidad, uno de los principales servicios financieros que están
abarcando las famosas Fintech son los microcréditos. El sector de las microfinanzas
creció a nivel mundial y se ha demostrado que es posible brindar financiamiento a
segmentos de clientes desatendidos por los servicios bancarios tradicionales. Pero uno
de los problemas más desafiantes para las Fintech consiste en encontrar las
metodologías de identificación y clasificación de personas solventes que mediante
clasificación tradicional serían imposibles o muy difíciles de clasificar ya que la
identificación de la rentabilidad de un cliente es muy volátil y no depende solo del
riesgo de incumplimiento sino de variables comportamentales del cliente.
- Metodología:
El presente trabajo usó la metodología CRISP-DM que consiste en 6 etapas:
entendimiento de negoció, comprensión de los datos, preparación de los datos,
modelado, evaluación del modelo y despliegue. Por otro lado, debemos mencionar
que estas etapas si bien se realizaron de manera secuencial, existe fases de la
metodología en las que se desarrollaron de manera iterativa, esto se debe a que el
17
objetivo fue desarrollar un modelo que responda a las necesidades del negocio, por lo
cual, se tuvieron que hacer ajustes al momento de ejecutar cada fase.
- Alcance:
El estudio se centra en una Fintech latinoamericana, el cual se enfoca en
desarrollar un modelo de clustering que tiene el objetivo de perfilar clientes a fin de
realizar un profit scoring y de esta forma determinar a qué cliente debe realizarle un
micropréstamo.
- Base de datos:
Se ha recopilado diferentes bases de datos para la construcción del set de
entrenamiento. Los datos del presente caso provienen de 3 fuentes: la información de
la Fintech de microcréditos en análisis y consultas de información de los clientes a
dos burós de crédito diferentes. En los datos de la Fintech se tiene información de
febrero a setiembre 2020 de cada solicitud de micropréstamo y préstamo tradicional.
Los campos fundamentales que tiene esta base de datos son: el plazo, el monto
solicitado, los pagos realizados.
- Solución:
El presente proyecto usó técnicas Machine Learning aprendizaje no
supervisado, técnicamente se mostró un método híbrido de agrupamiento enfocado a
mapas autoorganizados de Kohonen y algoritmos de K-medias. Como resultado se
clasifica al cliente en deseable y no deseable. Para los clientes deseables se realiza un
perfilamiento que define sus características más importantes.
- Resultados:
El desarrollo de este modelo se convirtió en una herramienta fundamental,
tanto para la toma de decisiones en la aprobación o desaprobación de microcréditos
como para la clasificación de clientes deseables, lo cual ayuda a áreas importantes
como marketing y colocación en una mejor toma de decisiones.
- Problema:
En la actualidad, la realidad indica que, a pesar de tener una rama científica
como la Ingeniería de Software que atiende la problemática del desarrollo, operación
e incluso el mantenimiento de softwares, estos continúan teniendo una gestión limita
18
debido a que las decisiones se basan, usualmente, en la experiencia de los creadores
del software. En este sentido, lo líderes y/o tomadores de decisiones, enfrentan
distintas dificultades para lograr las características necesarias que exigen los
productos requeridos ya que se debe alcanzar la integración entre la construcción,
operación y el mantenimiento del software para tener como resultado un producto de
calidad. Para esto, la Ingeniería de Software Basada en Búsqueda (ISBB) propone la
reformulación mediante la atención de múltiples objetivos y la aplicación de
algoritmos de búsqueda para lograr productos de calidad que cumplan con los
requerimientos del cliente final – Problema del Próximo Lanzamiento. (Bagnall,
Rayward y Whittley, 2001, citados en Rottoli, G., Casanova, C., Schab, E. y De
Battista, A., 2019)
- Metodología:
De carácter experimental-estadístico, se realizan 2 iteraciones. El artículo
comprende 6 etapas: (1) La preparación del Frente Óptimo de Pareto, como punto de
partida para identificar los problemas más importantes a resolver. (2) El agrupamiento
jerárquico o Clustering, aplicado sobre este óptimo de Pareto que disgregue patrones
de interés, en este caso, respecto al Problema del Próximo Lanzamiento. (3) Selección
del nivel de granulidad para identificar la validez de los grupos encontrados. (4)
Descripción de los grupos. (5) Selección de grupo. Y (6) Selección de solución.
- Alcance:
El estudio parte de el hecho de que no se cuenta con información previa sobre
las preferencias de los líderes y/o tomadores de decisiones, por lo que se dice que es
una exploración a posteriori; para esto utiliza la ISBB y el Óptimo de Pareto bajo el
enfoque e-restricciones y se utilizó la herramienta Python 3.7 de Anaconda sobre 385
soluciones propuestas para el próximo lanzamiento con 140 requerimientos y 100
stakehodlers.
- Base de datos:
Se tomó las librerías Pandas, Scipy, Numpy y Seaborn de Anaconda, además
de los 385 soluciones y 140 requisitos que atienden el problema del próximo
lanzamiento de los 100 stakeholders.
- Solución:
Crear un modelo mediante el uso de algoritmos de clustering que agrupe las
posibles soluciones que atiendan problemas de la ISBB (Ingeniería de Software
19
Basada en la Búsqueda), facilite la toma de decisiones e identifique las mejores
alternativas.
- Resultados:
Inicialmente se obtuvo la segmentación de las soluciones del Óptimo de Pareto
como base para el modelo propuesto y se realizó un dendograma en forma de árbol
que facilitó la visualización de este primer resultado; gracias a este resultado se
identificó el número de agrupaciones adecuado para el modelo en base a la cantidad
de requerimientos de los stakeholders: cuatro clusters con 109, 118, 75 y 84
soluciones cada uno respectivamente; teniendo como variables del modelo el costo (c)
y el beneficio (p). El modelo arrojó los siguientes resultados:
o Cluster 1: Valores promedio de costo y beneficios elevados con una dispersión
de 10%.
o Cluster 2: Posee los valores más bajos, pero resulta más costoso; sin embargo,
resultaría beneficioso si se tratara de un grupo menor de stakehlders pues el
modelo responde muy bien si cuenta con menos requerimientos.
o Cluster 3 y 4: Valores de costos y beneficios medios; sin embargo, el cluster 3
comprende menos requerimientos.
Bajo el supuesto de que el cluster 2 es el de mayor interés, se aplicó
nuevamente la técnica de clustering, esta vez basado en las mejores soluciones que
respondan atiendan el óptimo de pareto, tomando 4 grupos del resultado. De este
último fue el subgrupo 1 el que otorgó las soluciones de mayor beneficio, pero de
mayor costo, con una desviación estándar de 3% y 5% del valor promedio con una
cantidad de elementos del 16.1%, y la que contempla la mayor cantidad de
requerimientos, lo cual fue determinante para su selección.
20
frecuentemente en las redes sociales, páginas webs o aplicativos streaming como
Netflix para recomendar películas o series en base a su historial y perfil de cliente.
2.2.1.1.Machine Learning
Según IBM (2021), machine learning es una rama de la Inteligencia Artificial
donde se brindan a las máquinas datos para luego entrenarlos mediante
distintos algoritmos supervisados o no supervisados y con ello encontrar
patrones. Por ello, se dice que mediante machine learning las máquinas
aprenderán de los datos que le brindes, en lugar de solo seguir las reglas
establecidas en la programación.
21
2.2.4. Técnicas de Machine Learning no supervisado
2.2.4.1.Clustering
Técnica de aprendizaje no supervisado, basado en la clasificación por
agrupamiento obtenido a través de algoritmos. Gonzáles, H. y Ticona, U. (2019)
indican que el objetivo de esta técnica es lograr la clasificación mediante la
presentación del comportamiento de los datos para agruparlos en subgrupos (clusters)
de acuerdo a la semejanza que presenten los datos; es decir, la técnica crea subgrupos
de acuerdo a las características que compartan dentro del mismo.
2.2.4.1.1. K-Means
Dentro de los algoritmos más utilizados para la aplicación de la técnica
Clustering, está K-means, MacQueen (1967) citado en Torres, P, Gonzáles, J., López,
V. y Vaca, S. (2020) señala que el propósito es subdividir un conjunto de
observaciones (n), en K agrupaciones, esto permite conocer cada observación que se
le asigne a un grupo que tenga el valor medio más cercano a un centroide. Es decir,
dado un conjunto de observaciones X, donde cada observación representa un valor
real de dimensiones, k-means, realiza las agrupaciones con la finalidad de minimizar
la suma de los cuadrados dentro de cada grupo, donde µ representa la media de los
puntos en 𝑆𝑖 ; lo que se asemeja a minimizar las desviaciones cuadradas por pares de
puntos en el mismo grupo (cluster).
22
Ilustración 4: Asignación de puntos a centroides (K-means)
Fuente: Unioviedo
Fuente: Unioviedo
- Paso 3:
Actualizar la información de acuerdo con el recálculo de los centros de los subgrupos
y de la media.
- Paso 4:
Se deben iterar los pasos hasta que el algoritmo consiga una convergencia, es decir,
cuando las asignaciones ya no varían.
Este algoritmo puede ser trabajado en bajo herramientas de programación como Python.
23
respecto a una o más dependientes asumiendo que esta(s) últimas son
continuas. Según Pereira (2010), la eficacia de la función dependerá de aquella
que muestra el menor error, es decir, menor diferencia entre valores
observados y predichos.
2.2.5.3.Clasificación (KNN)
Método que busca en los datos cercanos a la observación que se intenta
predecir y la clasifica según la mayoría de las observaciones que la rodean. Es
utilizado en sistemas de recomendación, búsqueda semántica y detección de
anomalías (Bagnato, J., 2018)
24
de aprendizaje automático, Big data y teoría de juegos que analizan los actos
presentes y pasados para realizar predicciones futuras. (Martín, A., 2017).
2.2.8. Outliers
Según Minitab (2021), los outliers o valores atípicos se definen como datos
extremadamente fuera de la distribución normal de los datos. Esta puede tener una
diferencia grande a comparación de los demás datos. Los outliers pueden generar un
efecto negativo en los distintos modelos estadísticos puesto que pueden ocasionar
tener resultados diferentes a los reales y con ello conducir a la malinterpretación de
estos. Para identificar aquellos datos atípicos se recomienda usar gráficos de cajas,
dispersión y/o histogramas.
25
2.2.9. Valores nulos o perdidos:
Son valores que afectan la base de datos en estudio ya que no pertenecen al
archivo de origen e incluso están en blanco. En procesos industriales es común la
producción de fallos de muestreo por un mal ingreso de datos o conversiones erróneas
(Gonzalez, A. & Alba, F.,2017)
26
formalizada, intuitivo y difícil de percibir de forma clara. En consecuencia, podemos
definir que, así como la información deriva de los datos, el conocimiento deriva de la
información. (Davenport, 1998).
Además, Molitalia posee pilares estratégicos establecidos que son muy importantes
para su crecimiento. Dentro de ello se encuentra:
27
Gerencia
General
Gerencia
General
Gerencia de
Gestión
Humana
Jefatura de
Jefatura de Jefatura de
Jefatura de Seguridad,
Desarrollo Selección de
Nómina Salud y medio
Organizacional personal
ambiente
28
Gerencia General
Gerencia de
Administración y
Finanzas
Subgerencia de
Finanzas y control de
gestión
Gerencia
General
Gerencia de
Logística
29
- Gerencia de Ventas:
Encargada de la gestión de ventas, el cual comprende desde el ingreso de las
metas de ventas hasta el seguimiento de los pedidos. Esta gerencia se subdivide en
la subgerencia de ventas y la subgerencia de trademarketing.
Gerencia
General
Gerencia
de Ventas
Subgerencia Subgerencia de
de ventas trademarketing
Jefatura de
Jefatura de Jefatura de
estrategia
ventas trademarketing
comercial
Gerencia General
Gerencia de
marketing
Subgerencia de
marketing
30
- Gerencia de desarrollo y calidad:
Encargada de la planificación gestión de calidad hasta la evaluación de los
resultados. Dentro de las funciones se encuentra la planificación de la gestión de
calidad, ejecución del programa de calidad, evaluación de resultados de la
ejecución del programa de calidad, auditoría de calidad, mantención del sistema
de gestión de calidad y el retiro de productos.
Gerencia
General
Gerencia de
desarrollo y
calidad
Subgerencia
de calidad
Jefatura de
calidad de
productos
31
Gerencia General
Gerencia de
producción
alimentos
Subgerencia de
producción
32
Por el lado de la oferta:
• Proveedores Capa 1:
Son los agentes que abastecen de materia prima e insumos para la producción de los
productos terminados en la fábrica. Dentro de ellos se encuentran la harina, el trigo, alcohol,
azúcar, entre otros.
• Proveedores Capa 2:
Son los agentes básicos que están presente en toda la cadena como los servicios de
agua, luz e internet.
• Fábrica:
Es el agente focal más importante donde se almacenan los insumos para después
llevarlos a preparación y producción de los productos terminados como golosinas, pastas,
alimento para mascotas, entre otros. Estas plantas están ubicadas en puntos estratégicamente
geográficos, las cuales permiten el respaldo a otras sedes corporativas. Dentro de dichas
ubicaciones se tienen en Av. Venezuela, Los Olivos, Cajamarquilla, Lurín, entre otros.
• Consumidores Capa 1:
Son los consumidores finales (clientes corporativos e individuales) los cuales son
atendidos a través de distintos canales como: web, teléfono y contacto directo.
• Consumidores Capa 2:
Está conformado por el canal minorista como tiendas de abarrotes o tiendas pequeñas
a través de los cuales los consumidores finales pueden adquirir sus productos.
• Consumidores Capa 3:
Está conformado por los canales mayoristas exclusivos y multimarcas, los cuales son
los intermediarios para que el cliente pueda obtener el producto final. Dentro de ella se
encuentran Makro, Vega, Wong, Tottus, Metro, entre otros.
33
Flujo de materiales:
En este flujo podemos observar todos los materiales que se tienen en la cadena de
suministro de Molitalia, tanto los que están de lado de la oferta y de la demanda. Entre estos
se encuentran los materiales que son manejados por distintos proveedores como los
componentes para la fabricación de los productos entre otros.
Flujo de efectivo:
Consiste en el flujo de efectivo de dinero que manejan los agentes en toda la cadena.
Flujo de información:
En este flujo se puede observar toda la información que se cruza entre los distintos
agentes que se encuentran en la cadena de suministros como:
A. Visión:
34
B. Misión:
Dar siempre lo mejor de nosotros para que las personas disfruten más la vida.
C. Valores:
Soy fiel a mi esencia sin aparentar una imagen diferente a lo que soy.
Busco la simpleza fomentando una competencia sana.
• Yo soy honesto:
35
• Implementar tecnologías disruptivas para la mejora de procesos
MATRIZ EFE
Factor crítico de éxito Peso Clasificación Puntuación
Oportunidades
Incremento de ventas e-commerce 0.1 4 0.4
Innovar las categorías de productos 0.1 3 0.3
Aplicar nuevas soluciones tecnológicas 0.1 3 0.3
Alianzas con empresas del sector 0.09 2 0.18
Incremento de consumo de alimentos básicos 0.1 4 0.4
Subtotal Fortalezas 1.58
Amenazas
Crisis sanitaria 0.2 2 0.4
Empresas competidoras a bajos precios 0.07 2 0.14
Aumento del precio de las materias primas 0.08 1 0.08
Descenso de la demanda en categorías confitería 0.09 2 0.18
Inestabilidad política del país 0.07 1 0.07
Subtotal Fortalezas 0.87
Total 1 - 2.45
Tabla 2. Matriz de Evaluación del Factor Externo
La matriz EFE se desarrolló en base a las distintas fuerzas externas que se identificaron
en la industria de Alimentos referente a la empresa Molitalia, se ponderó y calificó cada
variable según su importancia e influencia. Debido a ello, se obtuvo una puntuación
ponderada de 2.45 lo que quiere decir que la empresa Molitalia está respondiendo
extraordinariamente bien a las oportunidades que el mercado le está planteando, como el uso
de la tecnología, innovaciones en productos, alianzas estratégicas con otras empresas, entre
otros. Además, las amenazas presentes en la industria están siendo gestionadas de manera
eficiente, de tal forma que no afecte a la empresa. Finalmente, se concluye que la empresa
36
está aplicando estrategias para aprovecha de manera eficaz las oportunidades y contrarrestar
los posibles efectos de las amenazas en el ambiente externo.
MATRIZ EFI
Factor crítico de éxito Peso Clasificación Puntuación
Fortalezas
Personal calificado en todas las áreas 0.2 4 0.8
Buena relación con los proveedores 0.1 4 0.4
Situación financiera estable 0.1 3 0.3
Puntos de venta estratégicos 0.1 3 0.3
Excelencia operacional 0.2 4 0.8
Subtotal Fortalezas 2.6
Debilidades
Incursión en ventas e-commerce a través del nuevo 0.09 1 0.09
Market place
Proceso de devolución de mercadería deficiente 0.06 2 0.12
Ubicación de las Plantas en puntos no estratégicos 0.08 2 0.16
Atraso en la investigación y desarrollo de productos 0.01 2 0.02
Alta rotación de proveedores de Transporte 0.06 2 0.12
Subtotal Fortalezas 0.51
Total 1 - 3.11
Tabla 3. Matriz de Evaluación del Factor Interno
La matriz EFI se desarrolló en base a las distintas fuerzas internas que se identificaron
en la empresa Molitalia, se ponderó y calificó cada variable según su importancia e
influencia. Los resultados arrojaron una puntuación de 3.11, lo cual indica que la empresa
tiene una fuerte posición interna de sus fortalezas, el cual se refleja en sus colaboradores, la
buena relación con sus proveedores, situación financiera, entre otros. Asimismo, es posible
mejorar los factores débiles para convertirlas en fortalezas hasta llegar obtener ventajas
competitivas de estas.
37
FODA CUANTITATIVO
Fortalezas Debilidades
F1 F2 F3 F4 F5 D1 D2 D3 D4 D5
Incursió
n en
ventas Proceso
Persona Ubicació Atraso en Alta
Diagnóstico e- de
l Buena Situació n de las la rotación
Puntos Excelenci commer devoluci
FODA califica relación n
de venta a ce a ón de
Plantas investigaci de
do en con los financie en puntos ón y proveedor
estratégic operacion través mercade
todas proveedo ra no desarrollo es de
os al del ría
las res estable estrategic de Transport
nuevo deficient
áreas os productos e
Market e
place
B2E
Increment
O o de
1 ventas e-
1 2 2 1 3 9 3 2 1 1 1 8
commerce
Innovar
las
O
2
categorías 2 2 1 1 3 9 1 0 0 3 0 4
de
productos
Aplicar
nuevas
O
3
soluciones 1 2 3 0 1 7 2 1 0 3 0 6
tecnologic
as
Alianzas
O con
4 empresas
0 1 2 2 3 8 1 3 2 0 1 7
del sector
Oportunidades
Increment
o de
O consumo
5 de
0 2 1 3 3 9 1 3 1 1 2 8
alimentos
básicos
A Crisis
sanitaria 2 1 3 2 1 9 1 2 2 0 3 8
1
Empresas
A competido
2 ras a bajos
0 1 2 3 1 7 1 2 1 3 0 7
precios
Aumento
del precio
A
3
de las 0 2 3 1 0 6 0 0 0 1 0 1
materias
primas
Descenso
de la
A demanda
4 en 0 1 2 3 0 6 1 3 1 3 0 8
categorías
Amenazas
confitería
Inestabilid
A
5
ad política 2 2 3 1 1 9 2 3 1 1 0 7
del país
FODA Fortalezas Debilidades
Oportunidades 42 33
Amenazas 37 31
Tabla 4. Matriz FODA cuantitativo
38
Se concluye que las oportunidades son factores claves que pueden aprovecharse junto a
las fortalezas para crear ventajas competitivas en el mercado, en este análisis se resalta la O1,
para B2E. Al mismo tiempo estas oportunidades frente a las debilidades pueden ayudar a
mitigar fácilmente los factores internos como la D1, mediante el desarrollo de modelos
predictivos que permitan segmentar a los clientes según su perfil de compra en el canal de
Por el lado de las amenazas frente a las fortalezas, los resultados demuestran que los
factores están fuertemente ligados y a un corto plazo estas pueden ser perjudiciales para la
empresa, como lo es la A1, el cual afectó directamente la F3. Finalmente, las amenazas frente
a las debilidades muestran que los factores tienen una relación moderada, sin embargo,
39
3.2. Modelo de negocio actual (CANVAS)
40
pretende satisfacer a su consumidor final e incluso adelantándose a sus nuevos
requerimientos.
La empresa maneja distintos canales de comunicación con todas sus partes interesadas:
colaboradores, consumidores, accionistas, proveedores, agricultores, clientes, comunidades,
autoridades e instituciones de orden público, asociaciones gremiales, nutricionistas y medios
de comunicación. Sin embargo, exclusivamente para sus clientes utiliza:
Dentro de los canales que utiliza, resalta su Portal Web, debido en 2 diferentes
conceptos; el primero, estrictamente de Molitalia, donde la compra se hace directa haciendo
la función de un supermercado virtual; el segundo, nace de una estrategia de expansión
digital, posicionándose en los “supermercados virtuales”, ya que además de encontrarlos
digitalmente a través de las plataformas de sus mayoristas (Makro, Tottus, Metro, entre
otros), también se pueden concretar ventas a través de plataforma como Juntoz, uno de los
Marketplace más utilizados. Además, utiliza sus redes sociales, principalmente Facebook,
como canal intermediario que facilita su redirección hacia la página web de la empresa.
41
Finalmente, y no menos importante, Molitalia participa activamente en las ferias
nacionales e internacionales del sector consumo masivo, obteniendo la oportunidad de
utilizarlas como ventanas para pactar futuras ventas o contactar con posibles socios
estratégicos.
- Cliente Mayorista:
Comprendido por los supermercados como Metro, Makro, Tottus, Plaza Vea,
Wong, Vivanda y otros. Aquí también se encuentran clientes corporativos,
nacionales e internacionales, como es el caso de Carozzi.
- Cliente Minorista:
Estos clientes abarcan Practi-Tiendas o tienes de conveniencia, como Tambo,
Mass, Oxxo y otros; grifos, mercados y tiendas de abarrotes al paso.
- Clientes o consumidor final:
Aquel que compra directamente solo productos de Molitalia a través de cualquier
canal directo de venta (redes sociales, teléfono y/o página web de Molitalia).
42
3.2.6. Recursos Clave
- Infraestructura:
Este punto comprende todos aquellos recursos que utiliza la empresa para poder
cumplir con sus operaciones y hacer llegar su propuesta de valor al mercado.
Otro recurso imprescindible para Molitalia, son sus colaboradores. Como se mencionó
líneas arriba, la empresa reconoce el alto valor que tienen las actividades que realizan sus
colaboradores, quienes están comprometidos con el cumplimiento de los objetivos
organizacionales, por lo cual los capacita continuamente y les otorga todas las facilidades
para que realicen sus actividades y se desarrollen personas y profesionalmente, de la mejor
manera posible.
- Materiales e insumos
Definitivamente no existiría productos sin insumos, por lo cual Molitalia procura tener
una relación estrecha y de cordialidad con los agricultores y sus comunidades, de manera que
el impacto positivo que se pueda generar repercuta en la calidad de los insumos requeridos.
- Tecnologías
43
3.2.7. Actores/Socios Clave
Si bien Molitalia cuenta con una lista extensa de interesados, estrictamente requiere de
actores y/o socios clave que contribuyan con el desarrollo positivo del modelo de negocio.
Además de los proveedores, Molitalia considera como actor clave a los entes
reguladores como SUNAFIL, INDECOPI, OEA, PRODUCE, HACCP, grupos gremiales,
alguno clientes auditores y casas certificadores, ya que estos entes suelen repercutir de
manera significativa en las operaciones de la empresa, siendo muchas veces determinantes
para las decisiones de compra, producción, distribución y comercialización.
Como se puede ver, el modelo de negocio de Molitalia requiere de una fuerte inversión
de dinero para asegurar el cumplimiento de sus operaciones, mantenerse en constante
evolución y potenciar su propuesta de valor, en ese sentido, es de suma importancia
identificar cuales sus costos y qué porcentaje representan del total, con la finalidad de
utilizarlo a favor de su crecimiento; por lo cual, en términos aproximados podemos decir que
la estructura de sus costos se disgrega de la siguiente manera:
- Planilla: 15%
- Costo de Materia prima y de conversión: 55%
44
- Gastos administrativos: 5%
- Mantenimiento de plantas, equipos y tecnologías: 15 %
- Gastos diversos (certificaciones, cumplimiento de regulaciones, licencias de
tecnología y funcionamiento, entre otros): 10%
- Depreciación de activos y costos indirectos de fabricación: 2%
Está la venta de subproductos, comprendidos como los productos devueltos por fallas
en el empaque u otros relacionados que son retornados a la planta y, luego de pasar por un
riguroso control de calidad, pueden ser desechados, recolocados en el mercado y/o vendidos a
través del canal interno de Molitalia, es decir, se venden a los colaboradores de la empresa a
precios mucho más accesibles. Además, gracias a su compromiso con la sustentabilidad y sus
buenas prácticas empresariales, Molitalia también tiene ingresos por venta de recursos
reciclables, Uno de sus objetivos es lograr la digitalización al 100% lo que propicia un
escenario aún mejor para este tipo de venta. Para concluir, tenemos los ingresos por ventas de
activos en desuso, llámese maquinaria obsoleta y/o averiada, equipos de oficina u otros.
45
3.3. Mapa de procesos actual
46
• Control de Riesgos y Cumplimiento: El alcance del Macroproceso comprende
desde la auditoría interna, hasta la gestión de riesgos.
• Reputación Corporativa: El alcance del macroproceso de Reputación
Corporativa va desde la planificación de ésta hasta el seguimiento.
47
3.3.3. Procesos de Soporte
49
4.1.5. Instrumentos de medida
Variable Indicador
Inertia:
Se calcula como la sumatoria de las distancias entre
cada punto de datos y su centroide, elevado al cuadrado.
𝑁
∑ ||𝑋𝑖 − 𝜇|2
Técnica de K-Means
𝑖=0
Para encontrar el K óptimo para un conjunto de datos se
usa el método Elbow o también llamado del codo el cual
encuentra el punto de quiebre donde la disminución de
la inercia empieza a hacer constante.
Tabla 7: Operacionalización de Variables
Fuente: Elaboración Propia
4.2. Metodología de implementación de la solución
50
4.2.1. Base de Datos
Se utilizará la base de ventas internas de los años 2019 y 2020. Esta base de datos
contiene información del historial de las ventas y de los clientes. En total se tiene 32,182
registros y 26 variables. Dentro de estas se tienen:
51
4.2.2. Pre-procesamiento
En este paso se valida el estado de los datos contenidos en cada variable. Para ello, se
analiza si existe presencia de ruido en la data como valores nulos, duplicados, errores en las
etiquetas o en la homologación de datos.
- Valores nulos:
Se analizaron los datos de las variables con el fin de identificar valores nulos, para
ello se importó la librería Missingno el cual nos permite visualizar de manera
gráfica los valores nulos.
52
Ilustración 21: Duplicados de la data
Fuente: Elaboración Propia
- Selección de variables:
Al visualizar las 26 variables de la base de datos, notamos que existen variables
que son identificadores, ya sea del cliente o de la venta. Este tipo de variables no
deben ser considerados en el modelo dado que no explican el comportamiento de
la venta o del cliente por ser un valor único en la data. Dentro de dichas variables
se tienen: Id, Número de factura, número de pedido, folio y el número de nota de
crédito.
Asimismo, también se identificaron variables que no tienen relación con las
compras del cliente como el “responsable” que es la persona que registra la venta
en SAP, y también la “hora creación” que es la hora en la que el responsable
registra la venta en SAP.
Por último, se identificaron variables que significaban lo mismo, la única
diferencia era la tipificación. Por ejemplo, las variables “Cod_producto”,
“Producto” y “Cat_Producto” solo se diferencian en el nivel de detalle del
producto y la tipificación que están en número o texto. Para decidir con cuál de las
3 variables quedarnos, el experto de ventas indicó que la variable “Cat_Producto”
es la que agrupa los productos por categorías y esa es la variable que se usa para
los indicadores porque es más representativa. Por ello, se decide quedar con dicha
variable y no considerar las otras dos.
El mismo escenario anterior se presentaron para las agrupaciones de
“Cant_Porc_descuento” y “Porc_descuento”, “Valor pedido” y “Valor Total”,
“Cargo” y “Categoría de cargo”, “Tiempo colaborador” y “Rango tiempo”. Al
identificar dichos grupos, de igual manera, dado que significan y explican la
misma variable, se decidió quedarnos con solo uno.
53
Finalmente, al reducir las variables de acuerdo con los criterios anteriormente
mencionados, nos quedamos con solo 12 variables, las cuales son:
54
Ilustración 23: Conversión de variables categóricas a numéricas
Fuente: Elaboración Propia
4.2.3. Modelado
En este paso se realizará la construcción del modelo propuesto, para ello, se hará
clustering a través de la técnica K-Means puesto que el tipo de aprendizaje de la
investigación es “no supervisado”. Asimismo, se realizarán diferentes escenarios con respecto
al valor del K, considerando como escenarios a los valores K entre 1 y 11. Esta cantidad de
grupos se realizará para después validar cuál es el K óptimo para el modelo.
Para el primer caso que es el teórico, se guardaron los datos de la inercia generada por
cada modelo realizado en base al K que inicia desde 1 hasta 11. Los resultados se pueden
visualizar en el siguiente gráfico:
55
Ilustración 25: Resultados de la inercia por modelo
Fuente: Elaboración Propia
Al observar el gráfico, por el método del codo, podemos decir que el punto de quiebre
en los valores de la inercia se da cuando el K=4, es decir, después de dicho valor, la
diferencia de las cantidades de inercia de los modelos se vuelve mínima, por lo cual se dice
que ya no es óptimo continuar dividiéndolo en más clusters.
56
Finalmente, con la data ya etiquetada en base al cluster asignado, se procedió a analizar
los registros de clientes que contenían cada uno con el fin de nombrarlos y validar los
beneficios y/o impacto en el negocio. Para ello, se analizaron distintas variables como la
edad, en donde se notó una gran diferencia entre los clusters como se visualiza en la siguiente
imagen:
Siguiendo los pasos anteriores, se procedió a analizar las otras variables restantes de la
data como el tiempo del colaborador en la compañía, la categoría de productos y el tipo de
puesto. Con ello, se obtuvieron los siguientes resultados:
57
Ilustración 30: Clusters vs Tipo de puesto del colaborador
Fuente: Elaboración Propia
58
Ilustración 32: Buyer persona de Beginners
Fuente: Elaboración Propia
- Cluster 2: Middle
Este tipo de cliente es considerado como “Middle” en la compañía puesto que
tiene hasta 20 años trabajando en Molitalia y se caracteriza por ser relativamente
joven teniendo una edad entre 34 y 43 años. Tiene preferencia de consumo por los
alimentos básicos, dulces y panetones. Asimismo, actualmente desempeña un
puesto de oficina o de operaciones.
59
- Cluster 0: Expert
Este tipo de cliente es considerado como “Experto” en la compañía puesto que
tiene hasta 30 años trabajando en Molitalia, también se caracteriza por ser una
persona adulta teniendo una edad entre 44 y 53 años. Tiene preferencia de
consumo por los alimentos básicos y actualmente desempeña un puesto de oficina
o de operaciones.
60
Ilustración 35: Buyer persona de Senior
Fuente: Elaboración Propia
4.2.5. Demo
61
• Práctico: Se presentará una muestra de los resultados del modelo separado por
los grupos identificados a un experto de ventas del negocio con el fin de que
pueda brindar un feedback sobre la segmentación realizada por el modelo.
62
REFERENCIAS
Ahmed, I., & Aziz, A. (2010). Dynamic Approach for Data Scrubbing Process. International
Journal on Computer Science and Engineering, 2 (2), 416-423.
Ariza, F., Rodríguez, J. y Alba, V. (2018). Control estricto de matrices de confusión por
medio de distribuciones multinomiales. GeoFocus (21), p. 215-226.
http://dx.doi.org/10.21138/GF.591
Barrueta, R y Castillo, E. (2018) Modelo de análisis predictivo para determinar clientes con
tendencia a la deserción en bancos peruanos
https://repositorioacademico.upc.edu.pe/bitstream/handle/10757/626023/Barrueta%20
MR.pdf?sequence=1
Cluster of European Research Projects on the Internet of Things (2010). Vision and
Challenges for Realising the Internet of Things [PDF file].
https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.370.8561&rep=rep1&type
=pdf
63
Flores, M., Briceño, J. y Arboleda, J. (2020). Aplicación de la inteligencia artificial en el
transporte internacional de mercancías.
http://repositorio.esumer.edu.co/jspui/handle/esumer/2637
Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and Techniques. Estados
Unidos: Elsevier.
Martin A. (2020). Big Data. Técnicas de machine learning para la creación de modelos
predictivos para empresas. Universidad Pontificia Comillas Madrid, España.
https://repositorio.comillas.edu/xmlui/bitstream/handle/11531/45878/Tecnicas%20de
%20machine%20learning%20para%20la%20creacion%20de%20modelos%20predicti
vos%20para%20empresas_Centeno_MartinRomero_Alfonso.pdf?sequence=1&isAllo
wed=y
64
Minitab (2021). Identificar valores atípicos. https://support.minitab.com/es-
mx/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/data-
concepts/identifying-outliers/
PTP (10 de marzo de 2021). ¿Cuáles son las empresas lideres en el sector de alimentos en el
Perú? https://ptp.pe/cuales-son-las-empresas-lideres-en-el-sector-de-alimentos-en-el-
peru/
Rottoli, G., Casanova, C., Schab, E. y De Battista, A. (2019). Exploración a posteriori Basada
en Clustering del Frente Pareto-óptimo aplicado al Problema del Próximo
65
Lanzamiento. http://www.frcu.utn.edu.ar/deptosistemas/wp-
content/uploads/sites/15/2019/11/CONAIISI_2019_FrenteParetoClustering.pdf
66