Grupo6 - Informe Final - Machine Learning

“MODELO PREDICTIVO PARA SEGMENTAR A LOS
CLIENTES SEGÚN SU PERFIL DE COMPRA DEL

CANAL DE VENTA INTERNA EN MOLITALIA”
PROFESOR:
Junior Fabian Arteaga

CURSO:
Machine Learning aplicado a los negocios
INTEGRANTES:
● Astrid Bernuy Murriel

● Mirella Manza Briceño
● Jessica Garay Macukachi
● Yomira Guillen Aguilar
● Jefry Juarez Polar
NOVIEMBRE - 2021
INDICE
CAPÍTULO I: PLANTEAMIENTO DEL PROBLEMA .................................................... 8
1.1. Descripción de la Realidad Problemática ........................................................ 8
1.2. Justificación de la Investigación ..................................................................... 10
1.2.1. Teórico ............................................................................................................... 10
1.2.2. Práctica ............................................................................................................... 10
1.2.3. Metodología ....................................................................................................... 10
1.3. Delimitación de la Investigación ..................................................................... 11
1.3.1. Espacial .............................................................................................................. 11
1.3.2. Temporal ............................................................................................................ 11
1.3.3. Conceptual ......................................................................................................... 11
CAPÍTULO II: MARCO TEÓRICO................................................................................... 11
2.1. Antecedentes de la Investigación .................................................................... 11
2.1.1. Tesis relacionadas .............................................................................................. 11
2.1.2. Artículos relacionados ....................................................................................... 17
2.2. Bases Teóricas .................................................................................................. 20
2.2.1. Inteligencia Artificial ......................................................................................... 20
2.2.1.1. Machine Learning .............................................................................................. 21
2.2.1.1.1. Deep Learning .................................................................................................... 21
2.2.2. Aprendizaje supervisado .................................................................................... 21
2.2.3. Aprendizaje no supervisado ............................................................................... 21
2.2.4. Técnicas de Machine Learning no supervisado ................................................. 22
2.2.4.1. Clustering ........................................................................................................... 22
2.2.4.1.1. K-Means ............................................................................................................. 22
2.2.5. Técnicas de Machine Learning Supervisado ..................................................... 23
2.2.5.1. Regresión Lineal: ............................................................................................... 23
2.2.5.2. Regresión Logística. .......................................................................................... 24
2
2.2.5.3. Clasificación (KNN) .......................................................................................... 24
2.2.6. Modelo predictivo .............................................................................................. 24
2.2.7. Matriz de confusión ........................................................................................... 25
2.2.8. Outliers............................................................................................................... 25
2.2.9. Valores nulos o perdidos:................................................................................... 26
2.2.10. Limpieza de datos .............................................................................................. 26
2.2.11. Datos, Información, Conocimiento .................................................................... 26
CAPÍTULO III: ENTORNO EMPRESARIAL .................................................................. 27
3.1. Descripción de la empresa ............................................................................... 27
3.1.1. Reseña histórica y actividad económica ............................................................ 27
3.1.2. Descripción de la organización .......................................................................... 27
3.1.2.1. Organigrama ...................................................................................................... 27
3.1.2.2. Cadena de suministros ....................................................................................... 32
3.1.3. Datos generales estratégicos de la empresa ....................................................... 34
3.1.3.1. Visión, misión y valores o principios ................................................................ 34
3.1.3.2. Objetivos estratégicos ........................................................................................ 35
3.1.3.3. Evaluación interna y externa. FODA cuantitativo ............................................. 36
3.2. Modelo de negocio actual (CANVAS) ............................................................ 40
3.2.1. Propuesta de Valor ............................................................................................. 40
3.2.2. Relaciones con Clientes ..................................................................................... 41
3.2.3. Canales “GO TO MARKET” ............................................................................ 41
3.2.4. Segmentos de Clientes ....................................................................................... 42
3.2.5. Actividades Clave .............................................................................................. 42
3.2.6. Recursos Clave................................................................................................... 43
3.2.7. Actores/Socios Clave ......................................................................................... 44
3.2.8. Estructura de Costos .......................................................................................... 44
3.2.9. Fuentes de Ingresos ............................................................................................ 45
3
3.3. Mapa de procesos actual ................................................................................. 46
3.3.1. Procesos Estratégicos ......................................................................................... 46
3.3.2. Procesos de Negocio .......................................................................................... 47
3.3.3. Procesos de Soporte ........................................................................................... 48
CAPÍTULO VI: METODOLOGÍA DE LA INVESTIGACIÓN ...................................... 49
4.1. Diseño de la Investigación ............................................................................... 49
4.1.1. Enfoque de la investigación ............................................................................... 49
4.1.2. Alcance de la investigación ............................................................................... 49
4.1.3. Diseño o tipo de la investigación ....................................................................... 49
4.1.4. Población y Muestra .......................................................................................... 49
4.1.5. Instrumentos de medida ..................................................................................... 50
4.1.6. Operacionalización de variables ........................................................................ 50
4.2. Metodología de implementación de la solución ............................................. 50
4.2.1. Base de Datos ..................................................................................................... 51
4.2.2. Pre-procesamiento.............................................................................................. 52
4.2.3. Modelado ........................................................................................................... 55
4.2.4. Evaluación de modelos ...................................................................................... 55
4.2.5. Demo .................................................................................................................. 61
4.3. Metodología para la medición de resultados de la implementación............ 61
4.4. Cronograma de actividades y presupuesto .................................................... 62
REFERENCIAS ..................................................................................................................... 63
4
INDICE DE ILUSTRACIONES
Ilustración 1: Gasto en categorías de productos de consumo .................................................... 8
Ilustración 2: Cifras del consumo actual .................................................................................... 9
Ilustración 3: Top 10 de Empresas del Sector Alimentos en el Perú ......................................... 9
Ilustración 4: Asignación de puntos a centroides (K-means) .................................................. 23
Ilustración 5: Reubicación de centroides (K-means) ............................................................... 23
Ilustración 6: Ajuste de Mínimos Cuadrados........................................................................... 24
Ilustración 7: Ejemplo de Matriz de Confusión ....................................................................... 25
Ilustración 8: Organigrama general ......................................................................................... 28
Ilustración 9: Organigrama de la gerencia de Gestión Humana .............................................. 28
Ilustración 10: Organigrama de la gerencia de Administración y Finanzas ............................ 29
Ilustración 11: Organigrama de la gerencia de Logística ........................................................ 29
Ilustración 12: Organigrama de la gerencia de Ventas ............................................................ 30
Ilustración 13: Organigrama de la gerencia de Marketing....................................................... 30
Ilustración 14: Organigrama de la gerencia de Desarrollo y Calidad ...................................... 31
Ilustración 15: Organigrama de la gerencia de Producción de alimentos ................................ 32
Ilustración 16: Cadena de suministros de Molitalia ................................................................. 32
Ilustración 17: Modelo de Negocios de Molitalia (CANVAS) ............................................... 40
Ilustración 18: Mapa de Procesos de Molitalia ........................................................................ 46
Ilustración 19: Metodología de la investigación ...................................................................... 50
Ilustración 20: Gráfico de valores nulos .................................................................................. 52
Ilustración 21: Duplicados de la data ....................................................................................... 53
Ilustración 22: Descripción de variables finales ...................................................................... 54
Ilustración 23: Conversión de variables categóricas a numéricas ........................................... 55
Ilustración 24: Código de K-Means con K desde 1 a 11 ......................................................... 55
Ilustración 25: Resultados de la inercia por modelo ................................................................ 56
Ilustración 26: Desarrollo del código del modelo óptimo ....................................................... 56
Ilustración 27: Data final con la etiqueta del cluster asignado ................................................ 56
Ilustración 28: Tabla cruzada de edad vs clusters .................................................................... 57
Ilustración 29: Clusters vs tiempo del colaborador en Molitalia ............................................. 57
Ilustración 30: Clusters vs Tipo de puesto del colaborador ..................................................... 58
Ilustración 31: Clusters vs Categoría de productos.................................................................. 58
Ilustración 32: Buyer persona de Beginners ............................................................................ 59
Ilustración 33: Buyer persona de Middle ................................................................................. 59
5
Ilustración 34: Buyer persona de Expert .................................................................................. 60
Ilustración 35: Buyer persona de Senior .................................................................................. 61
Ilustración 36: Cronograma de actividades.............................................................................. 62
Ilustración 37: Presupuesto de la investigación ....................................................................... 62
6
INDICE DE TABLAS
Tabla 1: Información compartida entre agentes....................................................................... 34
Tabla 2. Matriz de Evaluación del Factor Externo .................................................................. 36
Tabla 3. Matriz de Evaluación del Factor Interno ................................................................... 37
Tabla 4. Matriz FODA cuantitativo ......................................................................................... 38
Tabla 5: Población y Muestra de la población ......................................................................... 49
Tabla 6: Instrumentos de medida ............................................................................................ 50
Tabla 7: Operacionalización de Variables ............................................................................... 50
Tabla 8: Descripción de variables ............................................................................................ 51
7
CAPÍTULO I: PLANTEAMIENTO DEL PROBLEMA
1.1. Descripción de la Realidad Problemática
Debido a la COVID 19 muchas empresas del rubro de alimentos se han visto en la

posición de implementar estrategias que puedan contrarrestar los efectos en el porcentaje de
compra de los consumidores. Según EY (2020) uno de los efectos de la COVID 19 en Perú es
que los consumidores han reducido el poder de compra en las categorías de alimentos y
bebidas en un 65% en el 2020 a comparación del 2019. Asimismo, los consumidores finales
han reducido en 90% las compras de productos no esenciales como: Galletas, chocolates,
frunas, etc.
Ilustración 1: Gasto en categorías de productos de consumo

Fuente: EY (2020)
Por otro lado, en Perú se proyecta que los consumidores disminuirán sus consumos en
9% en las categorías de productos esenciales; sin embargo, consideran que sus gastos en
productos no esenciales podrían ir aumentando en 5%.
8
Ilustración 2: Cifras del consumo actual
Fuente: EY (2020)
Dentro del rubro de alimentos en Perú, las empresas más representativas son: Alicorp,
Leche Gloria, Nestlé, Molitalia, Mondelez y Laive, las cuales se han visto afectadas por la
COVID 19 por lo que han tomado medidas como innovar su cartera de productos y mejorar
sus procesos a través de la implementación de las tecnologías disruptivas como RPA, IA,
Chatbot, entre otras.
Ilustración 3: Top 10 de Empresas del Sector Alimentos en el Perú

Fuente: Peru Top Publications (2021)
La empresa del rubro de alimentos en la que se basa esta investigación es Molitalia, la

cual tiene su sede central en el distrito de Cercado de Lima y es una de las empresas más
sólidas del país. Sin embargo, durante la COVID 19, las ventas tanto en canales internos y
externos se vieron afectadas por lo cual la empresa se vio obligada a mapear soluciones y
estrategias que se adapten al nuevo entorno a fin de evitar aún más la caída de ventas.
9
Debido a ese análisis, uno de los hallazgos que sobresalió fue la poca capacidad de respuesta
a las exigencias y preferencias de los clientes del canal de venta interno, ya que las estrategias
inicialmente planteadas se enfocaron en el comportamiento del cliente externo por
representar un mayor porcentaje en las ventas. En base a ello, uno de los pilares para el
planteamiento de esta investigación es potenciar el canal interno que se ha dejado de lado.
Esta investigación sugiere analizar a los clientes internos para plantear estrategias que
permitan el aumento de las ventas a través de diversas tecnologías como la Inteligencia
Artificial. Este último nos podrá ayudar a segmentar a los clientes y encontrar patrones de
comportamiento que nos permitan agruparlos según sus perfiles de compra. De esta manera,
conociendo el perfil de compra del cliente se pueden ofrecer campañas o promociones
personalizadas a fin de aumentar las ventas y potenciar el canal interno.
1.2. Justificación de la Investigación

1.2.1. Teórico
Esta investigación se realiza con el fin de aportar al conocimiento actual sobre el uso de
Inteligencia Artificial como un medio para la mejora de las ventas en el canal interno de la
empresa a través de la recopilación de datos de ventas y del cliente para identificar el perfil
de compra al que corresponde cada uno. Esto nos puede ayudar a potenciar las estrategias de
marketing dirigidos a los clientes internos y con ello el aumento de las ventas y el
cumplimiento de los objetivos estratégicos.
1.2.2. Práctica
Al término de la investigación la empresa contará con un modelo de segmentación del
perfil de compra de los clientes internos con ello podrá implementar estrategias que se
adapten a las exigencias y preferencias de los clientes, responder rápidamente a los cambios
en la oferta o demanda, contar con información a tiempo real del perfil de compra del cliente,
agilizar y fortalecer los procesos de venta para beneficio de la organización. Todo ello,
permitirá que la empresa pueda mejorar la calidad de la toma de decisiones en el proceso de
venta para hacerla más flexible y adaptable a los cambios.
1.2.3. Metodología
Para el desarrollo del modelo de inteligencia artificial se usará el tipo de aprendizaje no
supervisado y la técnica clustering. Para ello, el modelo propuesto se alimentará del histórico
de ventas y los datos de los clientes internos con el objetivo de encontrar patrones de
comportamiento similares que permitan segmentarlos según su perfil de compra.
10
1.3. Delimitación de la Investigación
1.3.1. Espacial
El presente trabajo de investigación se realizará en una compañía del rubro de
alimentos ubicado en el distrito de Cercado de Lima, teniendo como giro principal la venta de
productos de primera necesidad, confitería, harinas, entre otros. Los datos para este trabajo se
obtendrán de la base de datos de ventas del canal interno de la empresa Molitalia.
1.3.2. Temporal
La presente investigación analizará la base de datos de las ventas del canal interno de
los años 2019 y 2020 de Molitalia. Se delimitó estos años debido a que la data
correspondiente al 2019 nos muestra la conducta de la operación en un año regular y la del
2020 en un año atípico por la COVID 19, donde se reflejaron distintos hechos que afectaron
la operativa regular.
1.3.3. Conceptual
Esta investigación se centrará en el desarrollo de un modelo de segmentación del perfil
de compra del cliente interno, el cual se basa en la recolección de datos de venta histórica y
de las características de los clientes para encontrar patrones de comportamiento que permitan
agruparlos. Esto se puede lograr a través de técnicas de Clustering como K-Means, el cual en
base al número de grupos (K) y a la data que se le brinde al modelo, se asignarán los datos al
grupo más cercano que encuentre.
CAPÍTULO II: MARCO TEÓRICO

2.1. Antecedentes de la Investigación
2.1.1. Tesis relacionadas
Palacios, F. & Pastor, N. (2020). Segmentación de clientes de una empresa comercializadora
de productos de consumo masivo en la ciudad de Popayán soportador en Machine Learning y
Análisis RFM.
- Problema:
La necesidad de resaltar en un entorno de alta competencia como sucede en el
sector de consumo masivo hace que las empresas se enfoquen en analizar y entender
más las necesidades y exigencias del cliente a fin de aplicar estrategias más efectivas
para lograr su fidelización y retención. Por ello, surge la importancia de agrupar a los
clientes según características comunes para su mejor entendimiento. Hoy en día
11
existen diferentes alternativas que ayudan a obtener dicha segmentación para ello la
elección adecuada de la técnica dependerá de la data que maneje la empresa.
- Metodología:
El estudio utilizó dos metodologías:
• El modelo RFM que analiza la data en 3 variables que son Recency, Frecuency
y Monetary.
• La metodología CRISP-DM en sus seis fases: Comprensión del negocio,
entendimiento de la data, preparación de data, fase de modelado, evaluación del
modelo y despliegue. Para la fase de modelado se usó el algoritmo K-means y
para la evaluación del modelo se utilizaron los índices de Dunn, Davies –
Bouldin y el coeficiente de Silueta.
- Alcance:
El alcance de la investigación se realizó solo con la data de un año anterior
para medir al cliente según la frecuencia y cantidad de compra que realiza, es decir,
desde un cliente de poco aporte hasta un vip.
- Base de Datos:
La base de datos utilizada fue del año 2019, el cual consta de 2837 clientes,
85538 registros con 112 variables. Algunas variables consideradas están en los
montos de compras, la frecuencia de compra, ubicación, tipo de producto adquirido,
fechas de compras, etc.
- Solución:
Se desarrolló el modelo de RFM para la cual se seleccionaron tres variables de
interés como la fecha que permite obtener la frecuencia y recencia, el monto neto en
referencia al valor de cada compra y el código del cliente para su identificación.
Luego de ello, se realizó la búsqueda de registros nulos o vacíos que puedan interferir
en el resultado del modelado reduciendo las 112 variables a 3 (fecha reciente de
compra, monto, código de cliente). Posteriormente, se calcularon los valores de las
tres variables importantes de recencia, frecuencia y monto del modelo para la creación
de la matriz RFM y finalmente la agrupación de los clientes.
Además, se desarrolló, también, el modelo CRISP-DM basándose en las fases
ya inicialmente mencionadas, como punto de partida en la comprensión de data se
utilizó el conjunto de datos obtenidos del modelo RFM. Para la preparación de datos
se realizó la normalización de las muestras de Frecuencia, Monto y Recencia, luego
12
de ello en el modelado, para determinar el número de clústeres se usó el método de
error de inercia dando como resultado un K=4 para un eficiente entrenamiento. La
implementación se desarrolló con los 4 clústeres y el uso de medida de distancia
Euclidiana.
En la validación del modelo, se realizó el análisis del coeficiente silueta en el
cual un K=4 mostró una cantidad mínima de muestras mal agrupadas. El índice
Davies –Bouldin indicó que cuanto menor sea la puntación se tiene un mejor
agrupamiento, dicho eso se mostró un resultado de 0.569 el cual reafirma la elección
del K. El índice de Dunn mostró un resultado de 0.95 apoyando el uso del K=4.
- Resultados:
El modelo RFM segmentó a los clientes en 5 grupos: Clientes VIP (8%),
Clientes Excelentes (14%), Clientes Buenos (16%), Clientes Regulares (36%) y
Clientes de Poco Aporte (27%). Esta segmentación se basó en el tipo de cliente según
el volumen de venta: los clientes VIP representan el 42% de las ventas totales,
Clientes Excelentes 24%, Clientes Buenos 17%, Clientes Regulares 15% y Clientes
Poco Aporte 3%.
También, mostró que 117 personas obtuvieron una recencia y frecuencia igual
a 1 que significaría que son clientes que compraron hace tiempo y no volvieron a
hacerlo por lo cual son considerados clientes perdidos. 276 personas obtuvieron una
recencia igual a 5 y frecuencia igual a 1, los cuales serían considerados como
potenciales clientes.
Los resultados del K- means muestran una segmentación de 4 grupos: Clientes
VIP, Clientes Buenos, Clientes Regulares y Clientes Poco Aporte. El clúster 0
representa a los clientes poco aporte que representan el 1% de los ingresos de la
empresa, conformados por clientes que compraron hace tiempo. El clúster 1 son los
clientes buenos que representan el 77% de los ingresos y el 61% del total de clientes.
El clúster 2 son los clientes VIP que representan el 13% de los ingresos y finalmente
el clúster 3 que son los clientes regulares representan el 32% del total de clientes y 9%
de las ventas.
13
Barrueta, R y Castillo, E. (2018) Modelo de análisis predictivo para determinar clientes con
tendencia a la deserción en bancos peruanos
- Problema:
La problemática de la presente investigación se centra dos puntos: la primera
es que las entidades como los bancos no cuentan con modelos que abarquen aspectos
que prioricen al cliente, uno de los ejemplos de ello es la venta excesiva de los
productos sin existir alguna razón, el segundo es que los modelos no trabajan con
grandes cantidades de información para un análisis exhaustivo de data.
- Metodología:
La metodología utilizada es el de CRISP-DM, en la cual se propone la
aplicación de un Modelo de Análisis Predictivo, que se enfoque en recuperar a los
clientes potenciales que tienen tendencia a desertar de los servicios y que al mismo
tiempo soporte el análisis de data a grandes escalas. Este modelo se probará en
distintas herramientas de Big Data. Por otro lado, a través de un benchmarking
alineado a las entidades financieras del Perú, se encontrará la herramienta idónea para
implementar el modelo planteado. También se relevó información de clientes de un
banco para que pueda ser trabajado, analizado e ingresado en el modelo propuesto.
Después, se implementará el Modelo de Análisis Predictivo en un ambiente donde
simule una institución financiera en el Perú para obtener la validación de la correcta
aplicación de este.
- Alcance:
El alcance de la investigación se realizó en base al análisis del comportamiento
de los clientes que quieran abandonar las entidades bancarias del Perú. Esto con el fin
de segmentar a los clientes en dos grupos: desertores y no desertores.
- Base de Datos:
La base la conforman 20,000 clientes, siendo 1,764 (9%) desertores y 18,236
(91%) no desertores. En una primera fase se utilizó el 67% del total de la data para la
fase de entrenamiento y el 33% para validación, en esta última se tendrá un total de
5,000 clientes, de los cuales 440 son desertores y 4,560 no desertores. Las variables
utilizadas son: Fecha de ingreso, que es la fecha de ingreso del cliente en el Banco y
se convierte en cliente; número de transacciones SAP, es la cantidad de transacciones
que un cliente realiza en Banca Móvil al mes; Número de transacciones HBK,
cantidad de transacciones que un cliente realiza en Homebanking en el mes; Número
14
de transacciones ATM, cantidad de transacciones que un cliente realiza en el cajero
automático en el mes; Número de transacciones en plataforma, cantidad de
transacciones que un cliente realiza en plataforma en el mes; Número de transacciones
en APP, cantidad de transacciones que un cliente realiza en el APP en el mes; Monto
de transacciones en APP, Monto de transacciones ATM, Monto de transacciones en
ventanilla, Monto de transacciones en plataforma, edad, fecha de nacimiento,
situación laboral, estado civil, número de productos, saldos activos, saldos pasivos,
nivel educacional, sexo, Flag de sueldo, Flag APP, productos activos, productos
inactivos, número de cantidad de bancos, número de hijos, SOW, utilidad neta,
clasificación riesgo del banco, clasificación riesgo SBS, Flag mora, ingreso, ingreso
conyugal, Flag tiene carro, Flag viaja, Flag supermercado, Flag restaurantes, Flag
compra ropa, dirección, distrito, agencia + transacción, encuesta_insatisfacción,
encuesta_calidad.
La base de los clientes es tipo .xlsx y puede manejarse en Microsoft Excel. En
esta base, “CC” representa el código de los clientes, la variable “Xi” representa las
variables del cliente mencionados y la variable “Y” señala la clasificación del cliente.
Dentro del cual puede ser considerado como un valor nominal entre desertor o no
desertor.
- Solución:
Se plantea desarrollar un modelo predictivo configurando el algoritmo R-K-
Means, este modelo definirá diferentes agrupaciones que representan diferentes
comportamientos de un cliente que tiende a desertar. Para estabilizar del algoritmo se
formarán 4 grupos de un máximo de 100 iteraciones. Se definirá la cantidad de grupos
que se basan en el número de registros ingresados en la muestra inicial. El segundo
algoritmo. R-NNet Neural Network es un método para identificar relaciones
implícitas en un conjunto de datos que no se conocen, además permitirá al modelo
identificar el comportamiento de un cliente asociándolo al clúster que mejor se adapte
a él, mostrando si es un cliente que tiende a desertar.
- Resultados:
Los resultados arrojaron que el algoritmo más preciso era el R-K-Means con
una precisión del 93.20% en la prueba de validación. El árbol R-CNR y la red
neuronal R-NNet tenían precisiones de validación de 92.5% y 87.3%. Además, RK-
Means tenía 8 falsos positivos, lo que significa que el cliente no está desertando, pero
la herramienta predice que sí, junto con 3 falsos negativos, lo que revela que el cliente
15
tiende a desertar, sin embargo, la herramienta no lo pronosticó como tal. El R-CNR
Tree tenía 10 falsos positivos y falsos negativos y la Red neuronal R-NNet tenía 0
falsos positivos y 14 falsos negativos.
Chamba, S. (2015). “Minería de Datos para segmentación de clientes en la empresa

tecnológica Master PC”.
- Problema:
Los contantes cambios en el entorno hacen que las necesidades de las personas
también cambien de manera frecuente. Además, la efectividad de las estrategias de
marketing de la empresa ha bajado a comparación de años anteriores y esto se debe a
que existen diferentes tipos de clientes y, a pesar de tener grandes cantidades de datos,
es complejo identificarlos usando las herramientas tradicionales como Excel. Por ello,
la empresa Master PC decidió apostar por el uso de técnicas de minería de datos para
desarrollar un modelo predictivo que segmente a sus clientes según su
comportamiento de compra.
- Metodología:
La investigación se basa en la metodología CRISP-DM, el cual consta de seis
fases: entendimiento del negocio, entendimiento de la data, preparación de la data,
modelado, evaluación y despliegue. Asimismo, para el modelado y análisis de
resultados se usaron los algoritmos de clustering K-Means, k-medoids, y Self
Organizing Maps.
- Alcance:
La investigación busca crear perfiles de clientes según su histórico de compras
y con ello implementar estrategias de marketing personalizadas efectivas. La data
usada para el modelo se basó en el histórico de ventas de los años 2010 al 2014 de la
empresa y datos obtenidos de entrevistas con gerentes y personal de la empresa.
- Base de datos:
Se obtuvo la base de datos de los registros de los clientes y ventas realizadas
desde el 2010 al 2014. Dentro de los datos de los clientes considerados se tienen:
Edad, sexo, dirección, profesión, estado civil, género, lugar de trabajo, país, correo y
teléfono. Asimismo, también se obtuvo la base de ventas donde se tienen variables
como: fecha de la venta, monto del descuento, sobrecargo, impuesto, total venta,
producto, categoría producto, cantidad, precio y marca del producto.
16
- Solución:
Desarrollar un modelo predictivo de segmentación de clientes. Para ello se
dividió la data en train (67%) y test (33%) y se usaron distintas técnicas: K-means
partiendo con un K=5; K-medoids partiendo con un K=4 y finalmente Self
Organizing Maps (SOM) con K=5, todos los modelos fueron desarrollados en
Rstudio.
- Resultados:
Para comparar los resultados de cada modelo desarrollado, se tomó en cuenta
el parámetro de precisión, en donde se obtuvieron: modelo K-means de 5 grupos un
valor de 0.9991, modelo K-medoids de 4 grupos un valor de 0.9999 y con la técnica
SOM un valor de 0.9992. Con estos resultados, el autor concluye que el mejor
algoritmo a utilizar para la segmentación de clientes es K-medoids de 4 grupos.
2.1.2. Artículos relacionados

Moya, M. (2020) “Aprendizaje no supervisado en el perfilamiento de clientes para
profit scoring”
- Problema:
En la actualidad, uno de los principales servicios financieros que están
abarcando las famosas Fintech son los microcréditos. El sector de las microfinanzas
creció a nivel mundial y se ha demostrado que es posible brindar financiamiento a
segmentos de clientes desatendidos por los servicios bancarios tradicionales. Pero uno
de los problemas más desafiantes para las Fintech consiste en encontrar las
metodologías de identificación y clasificación de personas solventes que mediante
clasificación tradicional serían imposibles o muy difíciles de clasificar ya que la
identificación de la rentabilidad de un cliente es muy volátil y no depende solo del
riesgo de incumplimiento sino de variables comportamentales del cliente.
- Metodología:
El presente trabajo usó la metodología CRISP-DM que consiste en 6 etapas:
entendimiento de negoció, comprensión de los datos, preparación de los datos,
modelado, evaluación del modelo y despliegue. Por otro lado, debemos mencionar
que estas etapas si bien se realizaron de manera secuencial, existe fases de la
metodología en las que se desarrollaron de manera iterativa, esto se debe a que el
17
objetivo fue desarrollar un modelo que responda a las necesidades del negocio, por lo
cual, se tuvieron que hacer ajustes al momento de ejecutar cada fase.
- Alcance:
El estudio se centra en una Fintech latinoamericana, el cual se enfoca en
desarrollar un modelo de clustering que tiene el objetivo de perfilar clientes a fin de
realizar un profit scoring y de esta forma determinar a qué cliente debe realizarle un
micropréstamo.
- Base de datos:
Se ha recopilado diferentes bases de datos para la construcción del set de
entrenamiento. Los datos del presente caso provienen de 3 fuentes: la información de
la Fintech de microcréditos en análisis y consultas de información de los clientes a
dos burós de crédito diferentes. En los datos de la Fintech se tiene información de
febrero a setiembre 2020 de cada solicitud de micropréstamo y préstamo tradicional.
Los campos fundamentales que tiene esta base de datos son: el plazo, el monto
solicitado, los pagos realizados.
- Solución:
El presente proyecto usó técnicas Machine Learning aprendizaje no
supervisado, técnicamente se mostró un método híbrido de agrupamiento enfocado a
mapas autoorganizados de Kohonen y algoritmos de K-medias. Como resultado se
clasifica al cliente en deseable y no deseable. Para los clientes deseables se realiza un
perfilamiento que define sus características más importantes.
- Resultados:
El desarrollo de este modelo se convirtió en una herramienta fundamental,
tanto para la toma de decisiones en la aprobación o desaprobación de microcréditos
como para la clasificación de clientes deseables, lo cual ayuda a áreas importantes
como marketing y colocación en una mejor toma de decisiones.
Rottoli, G., Casanova, C., Schab, E. y De Battista, A. (2019) “Exploración a posteriori

Basada en Clustering del Frente Pareto-óptimo aplicado al Problema del Próximo
Lanzamiento”
- Problema:
En la actualidad, la realidad indica que, a pesar de tener una rama científica
como la Ingeniería de Software que atiende la problemática del desarrollo, operación
e incluso el mantenimiento de softwares, estos continúan teniendo una gestión limita
18
debido a que las decisiones se basan, usualmente, en la experiencia de los creadores
del software. En este sentido, lo líderes y/o tomadores de decisiones, enfrentan
distintas dificultades para lograr las características necesarias que exigen los
productos requeridos ya que se debe alcanzar la integración entre la construcción,
operación y el mantenimiento del software para tener como resultado un producto de
calidad. Para esto, la Ingeniería de Software Basada en Búsqueda (ISBB) propone la
reformulación mediante la atención de múltiples objetivos y la aplicación de
algoritmos de búsqueda para lograr productos de calidad que cumplan con los
requerimientos del cliente final – Problema del Próximo Lanzamiento. (Bagnall,
Rayward y Whittley, 2001, citados en Rottoli, G., Casanova, C., Schab, E. y De
Battista, A., 2019)
- Metodología:
De carácter experimental-estadístico, se realizan 2 iteraciones. El artículo
comprende 6 etapas: (1) La preparación del Frente Óptimo de Pareto, como punto de
partida para identificar los problemas más importantes a resolver. (2) El agrupamiento
jerárquico o Clustering, aplicado sobre este óptimo de Pareto que disgregue patrones
de interés, en este caso, respecto al Problema del Próximo Lanzamiento. (3) Selección
del nivel de granulidad para identificar la validez de los grupos encontrados. (4)
Descripción de los grupos. (5) Selección de grupo. Y (6) Selección de solución.
- Alcance:
El estudio parte de el hecho de que no se cuenta con información previa sobre
las preferencias de los líderes y/o tomadores de decisiones, por lo que se dice que es
una exploración a posteriori; para esto utiliza la ISBB y el Óptimo de Pareto bajo el
enfoque e-restricciones y se utilizó la herramienta Python 3.7 de Anaconda sobre 385
soluciones propuestas para el próximo lanzamiento con 140 requerimientos y 100
stakehodlers.
- Base de datos:
Se tomó las librerías Pandas, Scipy, Numpy y Seaborn de Anaconda, además
de los 385 soluciones y 140 requisitos que atienden el problema del próximo
lanzamiento de los 100 stakeholders.
- Solución:
Crear un modelo mediante el uso de algoritmos de clustering que agrupe las
posibles soluciones que atiendan problemas de la ISBB (Ingeniería de Software
19
Basada en la Búsqueda), facilite la toma de decisiones e identifique las mejores
alternativas.
- Resultados:
Inicialmente se obtuvo la segmentación de las soluciones del Óptimo de Pareto
como base para el modelo propuesto y se realizó un dendograma en forma de árbol
que facilitó la visualización de este primer resultado; gracias a este resultado se
identificó el número de agrupaciones adecuado para el modelo en base a la cantidad
de requerimientos de los stakeholders: cuatro clusters con 109, 118, 75 y 84
soluciones cada uno respectivamente; teniendo como variables del modelo el costo (c)
y el beneficio (p). El modelo arrojó los siguientes resultados:
o Cluster 1: Valores promedio de costo y beneficios elevados con una dispersión
de 10%.
o Cluster 2: Posee los valores más bajos, pero resulta más costoso; sin embargo,
resultaría beneficioso si se tratara de un grupo menor de stakehlders pues el
modelo responde muy bien si cuenta con menos requerimientos.
o Cluster 3 y 4: Valores de costos y beneficios medios; sin embargo, el cluster 3
comprende menos requerimientos.
Bajo el supuesto de que el cluster 2 es el de mayor interés, se aplicó
nuevamente la técnica de clustering, esta vez basado en las mejores soluciones que
respondan atiendan el óptimo de pareto, tomando 4 grupos del resultado. De este
último fue el subgrupo 1 el que otorgó las soluciones de mayor beneficio, pero de
mayor costo, con una desviación estándar de 3% y 5% del valor promedio con una
cantidad de elementos del 16.1%, y la que contempla la mayor cantidad de
requerimientos, lo cual fue determinante para su selección.
2.2. Bases Teóricas

2.2.1. Inteligencia Artificial
Según Oracle (2021), la inteligencia artificial (IA) hace referencia a la
capacidad que pueden tener las máquinas para imitar el comportamiento e inteligencia
humana. Esto con el fin de minimizar errores, automatizar procesos y agregar valor.
Algunos ejemplos de aplicaciones de IA son los chatbots, los cuales ayudan a las
empresas a responder rápidamente ante las consultas y/o problemas de sus clientes,
otro ejemplo conocido son los motores de recomendaciones, los cuales se usa
20
frecuentemente en las redes sociales, páginas webs o aplicativos streaming como
Netflix para recomendar películas o series en base a su historial y perfil de cliente.
2.2.1.1.Machine Learning
Según IBM (2021), machine learning es una rama de la Inteligencia Artificial
donde se brindan a las máquinas datos para luego entrenarlos mediante
distintos algoritmos supervisados o no supervisados y con ello encontrar
patrones. Por ello, se dice que mediante machine learning las máquinas
aprenderán de los datos que le brindes, en lugar de solo seguir las reglas
establecidas en la programación.
2.2.1.1.1. Deep Learning

Según SAS (2021), es un tipo de machine learning y base de la
Inteligencia Artificial donde se entrenan a las máquinas para que
aprendan por sí mismas descubriendo patrones a través del uso de
varias capas de procesamiento de datos. Las aplicaciones más
conocidas son reconocimiento de imágenes, objetos, voz, entre otros.
2.2.2. Aprendizaje supervisado

Según Simeone (2018), en el aprendizaje supervisado, los algoritmos trabajan
con datos “etiquetados”, tratando de alcanzar una función que, dadas las variables de
entrada se les asigne una etiqueta de salida idónea. El algoritmo se enfoca en el
“histórico” de datos y así predice el valor de salida. Este tipo de aprendizaje se usa en
problemas de clasificación (donde se identifica de dígitos, diagnósticos, o detección
de fraude de identidad) y problemas de regresión (predicciones meteorológicas, de
expectativa de vida, de crecimiento, etc).
2.2.3. Aprendizaje no supervisado

Según Recuero, P (2017) El aprendizaje no supervisado se aplica cuando no se
tienen datos “etiquetados”, tiene carácter exploratorio. En este tipo de aprendizaje se
tienen datos de entrada, pero no de salida que correspondan a una determinada entrada
(input). Por tanto, se describe la estructura de los datos, para intentar llegar a algún
tipo de organización que simplifique el análisis.
21
2.2.4. Técnicas de Machine Learning no supervisado
2.2.4.1.Clustering
Técnica de aprendizaje no supervisado, basado en la clasificación por
agrupamiento obtenido a través de algoritmos. Gonzáles, H. y Ticona, U. (2019)
indican que el objetivo de esta técnica es lograr la clasificación mediante la
presentación del comportamiento de los datos para agruparlos en subgrupos (clusters)
de acuerdo a la semejanza que presenten los datos; es decir, la técnica crea subgrupos
de acuerdo a las características que compartan dentro del mismo.
2.2.4.1.1. K-Means
Dentro de los algoritmos más utilizados para la aplicación de la técnica
Clustering, está K-means, MacQueen (1967) citado en Torres, P, Gonzáles, J., López,
V. y Vaca, S. (2020) señala que el propósito es subdividir un conjunto de
observaciones (n), en K agrupaciones, esto permite conocer cada observación que se
le asigne a un grupo que tenga el valor medio más cercano a un centroide. Es decir,
dado un conjunto de observaciones X, donde cada observación representa un valor
real de dimensiones, k-means, realiza las agrupaciones con la finalidad de minimizar
la suma de los cuadrados dentro de cada grupo, donde µ representa la media de los
puntos en 𝑆𝑖 ; lo que se asemeja a minimizar las desviaciones cuadradas por pares de
puntos en el mismo grupo (cluster).
∑ ||𝑋 − µ||2 = ∑ (𝑋 − µ𝑖 )(µ𝑖−𝑦 )

𝑥 € 𝑆𝑖 𝑋 ≠𝑦 € 𝑆𝑖
El desempeño de K-means consta de 4 pasos:

- Paso 1:
Seleccionar de manera arbitraria los K objetos que serán los centroides iniciales del
modelo (x,y).
- Paso 2:
Asignar cada observación al centroide que se encuentre más próximo, basado en el
valor medio las observaciones.
22
Ilustración 4: Asignación de puntos a centroides (K-means)
Fuente: Unioviedo
Ilustración 5: Reubicación de centroides (K-means)
Fuente: Unioviedo
- Paso 3:
Actualizar la información de acuerdo con el recálculo de los centros de los subgrupos
y de la media.
- Paso 4:
Se deben iterar los pasos hasta que el algoritmo consiga una convergencia, es decir,
cuando las asignaciones ya no varían.
Este algoritmo puede ser trabajado en bajo herramientas de programación como Python.
2.2.5. Técnicas de Machine Learning Supervisado

2.2.5.1.Regresión Lineal:
Representa la relación de dos o más variables a través de una ecuación
de recta lineal, es decir muestra la influencia de una variable independiente
23
respecto a una o más dependientes asumiendo que esta(s) últimas son
continuas. Según Pereira (2010), la eficacia de la función dependerá de aquella
que muestra el menor error, es decir, menor diferencia entre valores
observados y predichos.
Ilustración 6: Ajuste de Mínimos Cuadrados

Fuente: Análisis Predictivo de Datos Mediante Técnicas de Regresión Estadísticas (Pereira,
A., 2010)
2.2.5.2.Regresión Logística.
Según Taucher, E. (1997) la regresión logística ayuda a modelar la
probabilidad de ocurrencia de la variable respuesta durante un periodo de
tiempo. La ecuación no es lineal sino exponencial y es útil para situaciones
prácticas de estudios donde la variable dependiente puede tomar dos valores: 1
(presencia con probabilidad p) y 0 (ausencia con probabilidad 1-p) según lo
indica Salcedo, C. (2002)
2.2.5.3.Clasificación (KNN)
Método que busca en los datos cercanos a la observación que se intenta
predecir y la clasifica según la mayoría de las observaciones que la rodean. Es
utilizado en sistemas de recomendación, búsqueda semántica y detección de
anomalías (Bagnato, J., 2018)
2.2.6. Modelo predictivo

El análisis predictivo es un tipo de análisis en cual hace uso de datos
determinados con el objetivo de predecir un futuro probable con respecto a un evento.
El análisis predictivo utiliza una gran variedad de metodologías y técnicas estadísticas
24
de aprendizaje automático, Big data y teoría de juegos que analizan los actos
presentes y pasados para realizar predicciones futuras. (Martín, A., 2017).
2.2.7. Matriz de confusión

También conocida como matriz de error, la matriz de confusión es una
herramienta estadística representada por una tabla que se utiliza para el análisis de
observaciones en pares (filas y columnas) que permite conocer el desempeño de
algoritmos propuestos, evidenciando qué aciertos y/o errores tiene el modelo luego de
pasar el proceso de aprendizaje. Comber et al. (2012), citado en Ariza, F., Rodriguez,
J, y Alba, V. (2018), sostiene que la matriz de confusión ha sido adoptada como un
estándar sobre la exactitud de datos provenientes de la teledetección, de hecho, es
incluso reconocida en la Norma Internacional ISO 19157, como herramienta que
brinda resultado de la calidad temática de productos que comprenden vectores y/o
imágenes, demostrando la importancia de su aplicación. Por otro lado, Barrios (2018),
agrega que, para una correcta interpretación de resultados, ésta utiliza la Exactitud
(accuracy) y la Precisión, (precision) o Sensibilidad y Especificidad, como métricas
para validar el desempeño de la herramienta estadística.
Ilustración 7: Ejemplo de Matriz de Confusión
Fuente: Control estricto de matrices de confusión por medio de distribuciones multinomiales

(Barrios 2018)
2.2.8. Outliers
Según Minitab (2021), los outliers o valores atípicos se definen como datos
extremadamente fuera de la distribución normal de los datos. Esta puede tener una
diferencia grande a comparación de los demás datos. Los outliers pueden generar un
efecto negativo en los distintos modelos estadísticos puesto que pueden ocasionar
tener resultados diferentes a los reales y con ello conducir a la malinterpretación de
estos. Para identificar aquellos datos atípicos se recomienda usar gráficos de cajas,
dispersión y/o histogramas.
25
2.2.9. Valores nulos o perdidos:
Son valores que afectan la base de datos en estudio ya que no pertenecen al
archivo de origen e incluso están en blanco. En procesos industriales es común la
producción de fallos de muestreo por un mal ingreso de datos o conversiones erróneas
(Gonzalez, A. & Alba, F.,2017)
2.2.10. Limpieza de datos

Se define Limpieza de datos al conjunto de actividades que tiene la finalidad
de identificar información incompleta o/e inexacta, detectar errores en los datos,
eliminar anomalías, corregir errores identificados e omitir fuentes de base de datos
(Ahmed & Aziz, 2010).
Los procesos de limpieza de datos también son considerados como procesos de
mejora de calidad, ya que su función es corregir inconsistencias, datos incorrectos o
valores que a ojos de un especialista no se asemejan a la realidad. Las actividades de
limpieza de datos son fundamentales ya que es el primer paso para el desarrollo de la
información y por ello la construcción de conocimiento. (Han, Kamber, & Pei, 2012).
2.2.11. Datos, Información, Conocimiento

El termino dato tiene su origen del latín “Datum” el cual su significado es ¨lo
dado¨. Se puede determinar que los datos es aquella información extraída de la
realidad que se almacena en algún soporte físico o simbólico. Los datos son
considerados como la materia prima que requiere la construcción de sistemas de
información por lo cual se puede determinar que los datos son un activo vital las
empresas ya que les permite tener una visión clara sobre los clientes, productos y
servicios. (Davenport, 1998).
La información es un conjunto organizado de datos que tiene el objetivo de
comunicar algo de la forma más objetiva y clara posible. La información tiene la
capacidad de alterar el estado de conocimiento en el sentido de las consignas
transmitidas. A diferencia de los datos, la información tiene la característica de
contener relevancia y propósito ya que está organizada y estructurada para contener
algún motivo por parte del emisor. (Davenport, 1998).
Con respecto al conocimiento, es un conjunto de experiencias, valores y de
información que se utiliza como contexto para desarrollar nuevas experiencias y toma
de decisiones. Con esta definición dejamos claro que no es un término simple ya que
mezcla varios componentes ya que es un flujo de igual forma tiene una estructura
26
formalizada, intuitivo y difícil de percibir de forma clara. En consecuencia, podemos
definir que, así como la información deriva de los datos, el conocimiento deriva de la
información. (Davenport, 1998).
CAPÍTULO III: ENTORNO EMPRESARIAL
3.1. Descripción de la empresa
3.1.1. Reseña histórica y actividad económica

Molitalia es una empresa fundada en 1964 en Perú, y está dentro de un grupo
empresarial consolidado y fuerte en el mercado, especializado en el rubro de alimentos o
también conocido como consumo masivo. Asimismo, no solo tiene presencia nacional sino
también internacional a nivel de Latinoamérica, el cual crece sostenidamente a través de los
años. Dentro de las marcas que tienen están: Molitalia, Fanny, Costa, Ambrosoli, Todinno, 3
ositos, Mimaskot, entre otras, los cuales se comercializan en distintas categorías de productos
como pastas, harinas, mermeladas, caramelos, galletas, chocolates, conservas, avenas, barras
de cereal y comida para mascotas.
Además, Molitalia posee pilares estratégicos establecidos que son muy importantes
para su crecimiento. Dentro de ello se encuentra:
- Portafolio de importantes marcas reconocidas y líderes en el mercado.

- Apuesta por la innovación, la cual se potencia año tras año y es parte clave para el
éxito de la empresa.
- Valores arraigados que son parte de la cultura organizacional.
3.1.2. Descripción de la organización

3.1.2.1. Organigrama
Molitalia se compone de siete principales gerencias, las cuales se distribuyen de la
siguiente manera:
27
Gerencia
General
Gerencia de Gerencia de Gerencia de Gerencia de

Gerencia de Gerencia de Gerencia de
Gestión Administración desarrollo y producción
Logística Ventas marketing
Humana y Finanzas calidad alimentos
Ilustración 8: Organigrama general

Fuente: Elaboración propia
Dentro de cada gerencia se tiene:
- Gerencia de Gestión Humana:

Encargada de la selección, capacitación, pago de remuneraciones y actualización
de nóminas asociada a los colaboradores de la compañía. A su vez se divide en
distintas jefaturas como la de nóminas, desarrollo organizacional, selección de
personal y de seguridad, salud y medio ambiente.
Gerencia
General
Gerencia de
Gestión
Humana
Jefatura de
Jefatura de Jefatura de
Jefatura de Seguridad,
Desarrollo Selección de
Nómina Salud y medio
Organizacional personal
ambiente
Ilustración 9: Organigrama de la gerencia de Gestión Humana

- Gerencia de Administración y Finanzas:
Encargada de la gestión de los ingresos, egresos, cuadres contables, soporte
administrativo, gestión de activos, entre otros. Dicha gerencia se encuentra
dividida en distintas jefaturas como control de gestión, contabilidad, finanzas,
créditos y cobranzas, tesorería y asesoría legal.
28
Gerencia General
Gerencia de
Administración y
Finanzas
Subgerencia de
Finanzas y control de
gestión
Jefatura de Jefatura de Jefe de

Jefatura de Jefatura de Jefatura de
control de créditos y asesoría
contabilidad finanzas tesorería
gestión cobranzas legal
Ilustración 10: Organigrama de la gerencia de Administración y Finanzas

- Gerencia de Logística:
Encargada de las compras y comercio de los productos, así como también de la
gestión de los almacenes y distribución, el cual parte desde la planificación de los
recursos de distribución hasta el despacho de producto y la posterior validación de
los fletes realizados. Dentro de la gerencia se tienen tres subgerencias de
distribución y transporte, planificación de la demanda y de comercio exterior.
Gerencia
General
Gerencia de
Logística
Subgerencia de Subgerencia de Subgerencia

distribución y Planificación de de comercio
transporte la demanda exterior
Jefatura de Jefatura de Jefatura de Coordinador

Jefatura de Jefatura de Jefatura de
distribucion y Transporte comercio de comercio
existencias planificacion compras
almacen nacional exterior exterior
Ilustración 11: Organigrama de la gerencia de Logística

29
- Gerencia de Ventas:
Encargada de la gestión de ventas, el cual comprende desde el ingreso de las
metas de ventas hasta el seguimiento de los pedidos. Esta gerencia se subdivide en
la subgerencia de ventas y la subgerencia de trademarketing.
Gerencia
General
Gerencia
de Ventas
Subgerencia Subgerencia de
de ventas trademarketing
Jefatura de
Jefatura de Jefatura de
estrategia
ventas trademarketing
comercial
Ilustración 12: Organigrama de la gerencia de Ventas

- Gerencia de Marketing:
Encargada de la gestión de marketing E2E en la compañía, el cual comprende
desde la inteligencia de mercado hasta realizar el seguimiento y control de gestión
de marketing. Dicha gerencia se divide en las jefaturas de productos y de
campañas.
Gerencia General
Gerencia de
marketing
Subgerencia de
marketing
Jefatura de productos Jefatura de campañas
Ilustración 13: Organigrama de la gerencia de Marketing
30
- Gerencia de desarrollo y calidad:
Encargada de la planificación gestión de calidad hasta la evaluación de los
resultados. Dentro de las funciones se encuentra la planificación de la gestión de
calidad, ejecución del programa de calidad, evaluación de resultados de la
ejecución del programa de calidad, auditoría de calidad, mantención del sistema
de gestión de calidad y el retiro de productos.
Gerencia
General
Gerencia de
desarrollo y
calidad
Subgerencia
de calidad
Jefatura de
calidad de
productos
Ilustración 14: Organigrama de la gerencia de Desarrollo y Calidad
- Gerencia de producción de alimentos:

Encargada de la programación de la producción hasta el control de gestión del
proceso de productivo. Dicha gerencia se encuentra conformada por las jefaturas
de Ingeniería de proyectos y mantenimiento, de producción y de aseguramiento de
la calidad de alimentos.
31
Gerencia General
Gerencia de
producción
alimentos
Subgerencia de
producción
Jefatura de Ingeniería de Jefatura de Jefatura de aseguramiento de

proyectos y mantenimiento producción calidad
Ilustración 15: Organigrama de la gerencia de Producción de alimentos
3.1.2.2. Cadena de suministros

Dentro de la cadena de suministros de Molitalia se identificaron diferentes agentes
como proveedores, fábrica, distribuidores y clientes.
Ilustración 16: Cadena de suministros de Molitalia
32
Por el lado de la oferta:
• Proveedores Capa 1:
Son los agentes que abastecen de materia prima e insumos para la producción de los
productos terminados en la fábrica. Dentro de ellos se encuentran la harina, el trigo, alcohol,
azúcar, entre otros.
• Proveedores Capa 2:
Son los agentes básicos que están presente en toda la cadena como los servicios de
agua, luz e internet.
• Fábrica:
Es el agente focal más importante donde se almacenan los insumos para después
llevarlos a preparación y producción de los productos terminados como golosinas, pastas,
alimento para mascotas, entre otros. Estas plantas están ubicadas en puntos estratégicamente
geográficos, las cuales permiten el respaldo a otras sedes corporativas. Dentro de dichas
ubicaciones se tienen en Av. Venezuela, Los Olivos, Cajamarquilla, Lurín, entre otros.
Por el lado de La Demanda:

• Distribuidor:
Es el agente que se encarga de la distribución de los productos, desde que salen de
fábrica hasta la entrega de estos a los distintos canales. Este agente tiene la responsabilidad de
velar que los productos lleguen en buen estado y en tiempo óptimo. Existen distritos centros
de distribución divididos por zonas: Norte, Norte - Sur chico, Centro, Oriente y Sur.
• Consumidores Capa 1:
Son los consumidores finales (clientes corporativos e individuales) los cuales son
atendidos a través de distintos canales como: web, teléfono y contacto directo.
Está conformado por el canal minorista como tiendas de abarrotes o tiendas pequeñas
a través de los cuales los consumidores finales pueden adquirir sus productos.
Está conformado por los canales mayoristas exclusivos y multimarcas, los cuales son
los intermediarios para que el cliente pueda obtener el producto final. Dentro de ella se
encuentran Makro, Vega, Wong, Tottus, Metro, entre otros.
33
Flujo de materiales:
En este flujo podemos observar todos los materiales que se tienen en la cadena de
suministro de Molitalia, tanto los que están de lado de la oferta y de la demanda. Entre estos
se encuentran los materiales que son manejados por distintos proveedores como los
componentes para la fabricación de los productos entre otros.
Flujo de efectivo:
Consiste en el flujo de efectivo de dinero que manejan los agentes en toda la cadena.
Flujo de información:
En este flujo se puede observar toda la información que se cruza entre los distintos
agentes que se encuentran en la cadena de suministros como:
PROVEEDOR & FÁBRICA & DISTRIBUIDOR &

FÁBRICA DISTRIBUIDOR CLIENTE
• Cotización • Lista de Pedidos • Datos del cliente

• Garantía • Órdenes de compras • Consolidado de
• Órdenes de compras • Guía de remisión productos
• Lista de • Hoja de ruta • Certificado de
requerimientos • Ficha técnica de los garantía
• Facturas productos • Lista de precios
• Plazos de entrega • Facturas • Lista de despacho
• Factura/Boleta del
cliente
Tabla 1: Información compartida entre agentes
3.1.3. Datos generales estratégicos de la empresa

3.1.3.1. Visión, misión y valores o principios
A. Visión:
Ser la compañía de consumo masivo más respetada y valorada en

Latinoamérica.
34
B. Misión:
Dar siempre lo mejor de nosotros para que las personas disfruten más la vida.
C. Valores:
Los valores de Molitalia indicados en su reporte de sostenibilidad (2019) son:
• Yo respeto a los demás:
Actúo de forma respetuosa, aceptando y respetando las diferencias de

opinión, promoviendo una cultura empática.
• Yo actúo con sencillez:
Soy fiel a mi esencia sin aparentar una imagen diferente a lo que soy.
Busco la simpleza fomentando una competencia sana.
• Yo me comprometo con nuestra compañía:
Coopero de manera activa en los retos de mi área y de la empresa

identificándome con la cultura a fin de promover una buena imagen de
la organización.
• Yo soy honesto:
Actúo con transparencia, pensando y comunicándome asertivamente y

fomentando la capacidad de escucha con mis compañeros.
• Yo siento pasión por el trabajo bien hecho:
Doy lo mejor de mí promoviendo la excelencia. Busco nuevos métodos

para solucionar e innovar con el fin de alcanzar los objetivos.
3.1.3.2. Objetivos estratégicos
• Desarrollar nuevos productos extendiendo las líneas de galletas y

chocolates de taza
• Implementar Módulo de Preventa
35
• Implementar tecnologías disruptivas para la mejora de procesos
3.1.3.3. Evaluación interna y externa. FODA cuantitativo
MATRIZ DE EVALUACIÓN DEL FACTOR EXTERNO
MATRIZ EFE
Factor crítico de éxito Peso Clasificación Puntuación
Oportunidades
Incremento de ventas e-commerce 0.1 4 0.4
Innovar las categorías de productos 0.1 3 0.3
Aplicar nuevas soluciones tecnológicas 0.1 3 0.3
Alianzas con empresas del sector 0.09 2 0.18
Incremento de consumo de alimentos básicos 0.1 4 0.4
Subtotal Fortalezas 1.58
Amenazas
Crisis sanitaria 0.2 2 0.4
Empresas competidoras a bajos precios 0.07 2 0.14
Aumento del precio de las materias primas 0.08 1 0.08
Descenso de la demanda en categorías confitería 0.09 2 0.18
Inestabilidad política del país 0.07 1 0.07
Total 1 - 2.45
Tabla 2. Matriz de Evaluación del Factor Externo
La matriz EFE se desarrolló en base a las distintas fuerzas externas que se identificaron
en la industria de Alimentos referente a la empresa Molitalia, se ponderó y calificó cada
variable según su importancia e influencia. Debido a ello, se obtuvo una puntuación
ponderada de 2.45 lo que quiere decir que la empresa Molitalia está respondiendo
extraordinariamente bien a las oportunidades que el mercado le está planteando, como el uso
de la tecnología, innovaciones en productos, alianzas estratégicas con otras empresas, entre
otros. Además, las amenazas presentes en la industria están siendo gestionadas de manera
eficiente, de tal forma que no afecte a la empresa. Finalmente, se concluye que la empresa
36
está aplicando estrategias para aprovecha de manera eficaz las oportunidades y contrarrestar
los posibles efectos de las amenazas en el ambiente externo.
MATRIZ DE EVALUACIÓN DEL FACTOR INTERNO
MATRIZ EFI
Factor crítico de éxito Peso Clasificación Puntuación
Fortalezas
Personal calificado en todas las áreas 0.2 4 0.8
Buena relación con los proveedores 0.1 4 0.4
Situación financiera estable 0.1 3 0.3
Puntos de venta estratégicos 0.1 3 0.3
Excelencia operacional 0.2 4 0.8
Debilidades
Incursión en ventas e-commerce a través del nuevo 0.09 1 0.09
Market place
Proceso de devolución de mercadería deficiente 0.06 2 0.12
Ubicación de las Plantas en puntos no estratégicos 0.08 2 0.16
Atraso en la investigación y desarrollo de productos 0.01 2 0.02
Alta rotación de proveedores de Transporte 0.06 2 0.12
Total 1 - 3.11
Tabla 3. Matriz de Evaluación del Factor Interno
La matriz EFI se desarrolló en base a las distintas fuerzas internas que se identificaron
en la empresa Molitalia, se ponderó y calificó cada variable según su importancia e
influencia. Los resultados arrojaron una puntuación de 3.11, lo cual indica que la empresa
tiene una fuerte posición interna de sus fortalezas, el cual se refleja en sus colaboradores, la
buena relación con sus proveedores, situación financiera, entre otros. Asimismo, es posible
mejorar los factores débiles para convertirlas en fortalezas hasta llegar obtener ventajas
competitivas de estas.
37
FODA CUANTITATIVO
Fortalezas Debilidades
F1 F2 F3 F4 F5 D1 D2 D3 D4 D5
Incursió
n en
ventas Proceso
Persona Ubicació Atraso en Alta
Diagnóstico e- de
l Buena Situació n de las la rotación
Puntos Excelenci commer devoluci
FODA califica relación n
de venta a ce a ón de
Plantas investigaci de
do en con los financie en puntos ón y proveedor
estratégic operacion través mercade
todas proveedo ra no desarrollo es de
os al del ría
las res estable estrategic de Transport
nuevo deficient
áreas os productos e
Market e
place
B2E
Increment
O o de
1 ventas e-
1 2 2 1 3 9 3 2 1 1 1 8
commerce
Innovar
las
O
2
categorías 2 2 1 1 3 9 1 0 0 3 0 4
de
productos
Aplicar
nuevas
O
3
soluciones 1 2 3 0 1 7 2 1 0 3 0 6
tecnologic
as
Alianzas
O con
4 empresas
0 1 2 2 3 8 1 3 2 0 1 7
del sector
Oportunidades
Increment
o de
O consumo
5 de
0 2 1 3 3 9 1 3 1 1 2 8
alimentos
básicos
A Crisis
sanitaria 2 1 3 2 1 9 1 2 2 0 3 8
1
Empresas
A competido
2 ras a bajos
0 1 2 3 1 7 1 2 1 3 0 7
precios
Aumento
del precio
A
3
de las 0 2 3 1 0 6 0 0 0 1 0 1
materias
primas
Descenso
de la
A demanda
4 en 0 1 2 3 0 6 1 3 1 3 0 8
categorías
Amenazas
confitería
Inestabilid
A
5
ad política 2 2 3 1 1 9 2 3 1 1 0 7
del país
FODA Fortalezas Debilidades
Oportunidades 42 33
Amenazas 37 31
Tabla 4. Matriz FODA cuantitativo
38
Se concluye que las oportunidades son factores claves que pueden aprovecharse junto a
las fortalezas para crear ventajas competitivas en el mercado, en este análisis se resalta la O1,
la cual se puede aprovechar Molitalia, ya que actualmente se ha aperturado el market place
para B2E. Al mismo tiempo estas oportunidades frente a las debilidades pueden ayudar a
mitigar fácilmente los factores internos como la D1, mediante el desarrollo de modelos
predictivos que permitan segmentar a los clientes según su perfil de compra en el canal de
venta interna en Molitalia.
Por el lado de las amenazas frente a las fortalezas, los resultados demuestran que los
factores están fuertemente ligados y a un corto plazo estas pueden ser perjudiciales para la
empresa, como lo es la A1, el cual afectó directamente la F3. Finalmente, las amenazas frente
a las debilidades muestran que los factores tienen una relación moderada, sin embargo,
deberían de tomarse acciones rápidas para poder contrarrestarlas.
39
3.2. Modelo de negocio actual (CANVAS)
Para entender el funcionamiento de Molitalia, es necesario conocer los 9 elementos

que ilustran el modelo de negocio que desempeña; de esta manera tenemos una mirada
general a los puntos estratégicos de la empresa.
Ilustración 17: Modelo de Negocios de Molitalia (CANVAS)

Fuente: Elaboración Propia
3.2.1. Propuesta de Valor
La propuesta de valor de Molitalia se basa en la producción y comercialización de

alimentos, golosinas y otros productos de consumo masivo de alta calidad y a precios muy
competitivos. Posee una fuerte cultura arraigada por todos sus colaboradores y partes
interesadas, enfocando todas sus operaciones a lograr un negocio altamente sustentable y
sostenible en el tiempo. Su presencia a nivel Latinoamérica y su liderazgo en el mercado
nacional, son garantía de confianza. De esta manera y manteniéndose en constante evolución,
40
pretende satisfacer a su consumidor final e incluso adelantándose a sus nuevos
requerimientos.
3.2.2. Relaciones con Clientes
La empresa maneja distintos canales de comunicación con todas sus partes interesadas:
colaboradores, consumidores, accionistas, proveedores, agricultores, clientes, comunidades,
autoridades e instituciones de orden público, asociaciones gremiales, nutricionistas y medios
de comunicación. Sin embargo, exclusivamente para sus clientes utiliza:
- Reuniones comerciales: Enfocado en clientes estratégicos y/o corporativos (B2B),

a cargo del área comercial. Usualmente ventas grades.
- Atención Telefónica: Abierto a todo interesado.
- Redes Sociales:
o Facebook: Canal informativo y atención a reclamos, también permite el
aumento de audiencia y sirve como canal de ventas.
o Instagram: Principalmente informativo, permite el acercamiento con el
pública y analizar el comportamiento de reacción antes promociones y/o
ofertas.
o Canal de YouTube: Venta hacia el mundo sobre innovaciones en Molitalia.
- Página Web: Canal de venta directa, atención de reclamos y/o inconvenientes y
cara digital de la empresa.
3.2.3. Canales “GO TO MARKET”
Molitalia hace llegar su propuesta de valor al mercado a través de herramientas

digitales, acoplándose a las nuevas tendencias del mercado y los nuevos hábitos de compra.
Dentro de los canales que utiliza, resalta su Portal Web, debido en 2 diferentes
conceptos; el primero, estrictamente de Molitalia, donde la compra se hace directa haciendo
la función de un supermercado virtual; el segundo, nace de una estrategia de expansión
digital, posicionándose en los “supermercados virtuales”, ya que además de encontrarlos
digitalmente a través de las plataformas de sus mayoristas (Makro, Tottus, Metro, entre
otros), también se pueden concretar ventas a través de plataforma como Juntoz, uno de los
Marketplace más utilizados. Además, utiliza sus redes sociales, principalmente Facebook,
como canal intermediario que facilita su redirección hacia la página web de la empresa.
41
Finalmente, y no menos importante, Molitalia participa activamente en las ferias
nacionales e internacionales del sector consumo masivo, obteniendo la oportunidad de
utilizarlas como ventanas para pactar futuras ventas o contactar con posibles socios
estratégicos.
3.2.4. Segmentos de Clientes
Los esfuerzos de Molitalia se enfocan es tres tipos de clientes:
- Cliente Mayorista:
Comprendido por los supermercados como Metro, Makro, Tottus, Plaza Vea,
Wong, Vivanda y otros. Aquí también se encuentran clientes corporativos,
nacionales e internacionales, como es el caso de Carozzi.
- Cliente Minorista:
Estos clientes abarcan Practi-Tiendas o tienes de conveniencia, como Tambo,
Mass, Oxxo y otros; grifos, mercados y tiendas de abarrotes al paso.
- Clientes o consumidor final:
Aquel que compra directamente solo productos de Molitalia a través de cualquier
canal directo de venta (redes sociales, teléfono y/o página web de Molitalia).
3.2.5. Actividades Clave
Debido a su alto grado de preocupación por la cultura organizacional, una de las

actividades claves para Molitalia, es el reclutamiento, capacitación y motivación de sus
colaboradores.
Adicional a lo antes mencionado, también tenemos a los procesos de negocio que

sustentan sus operaciones y garantizan la propuesta de valor que ofrece, esto refiere el
abastecimiento, la gestión de calidad de los procesos y productos, el almacenamiento de los
insumos y productos de acuerdo a requerimiento, la gestión comercial, la producción y
preparación de pedidos, la distribución estratégica que permita las entregas a tiempo y en las
mejores condiciones, y el Mantenimiento de quipos y sistemas de Tecnologías, que potencian
sus actividades y permiten el desarrollo de sus operaciones.
42
3.2.6. Recursos Clave
- Infraestructura:
Este punto comprende todos aquellos recursos que utiliza la empresa para poder
cumplir con sus operaciones y hacer llegar su propuesta de valor al mercado.
En ese sentido, es necesario mencionar que, debido a la alta inversión de Molitalia en

infraestructura, esta cuenta con cinco (5) plantas de producción ubicadas estratégicamente en
Lima y provincias, estas cuentan con áreas de abastecimiento, almacenamiento, producción y
distribución; por otro lado, y como parte de la infraestructura como recurso clave, Molitalia
cuenta con un Centro de Distribución Autorizado (CDA), donde se realizan solo actividades
de distribución y comercialización, gracias a la cooperación con sus proveedores.
- Capital humano - Colaboradores
Otro recurso imprescindible para Molitalia, son sus colaboradores. Como se mencionó
líneas arriba, la empresa reconoce el alto valor que tienen las actividades que realizan sus
colaboradores, quienes están comprometidos con el cumplimiento de los objetivos
organizacionales, por lo cual los capacita continuamente y les otorga todas las facilidades
para que realicen sus actividades y se desarrollen personas y profesionalmente, de la mejor
manera posible.
- Materiales e insumos
Definitivamente no existiría productos sin insumos, por lo cual Molitalia procura tener
una relación estrecha y de cordialidad con los agricultores y sus comunidades, de manera que
el impacto positivo que se pueda generar repercuta en la calidad de los insumos requeridos.
- Tecnologías
Respondiendo a los cambios en los hábitos de compra y a las nuevas tendencias en

cuanto a salud, Molitalia, posee un ERP – SAP y otros sistemas desarrollados de manera
interna, que le permite monitorear sus operaciones y atender de manera más rápida a las
necesidades de sus clientes y mantearse alerta antes cambios provocados por nuevas
tendencias. Además, la empresa suele invertir en tecnologías y maquinaria de punta que no
solo le permiten la producción sino también optimizarla.
43
3.2.7. Actores/Socios Clave
Si bien Molitalia cuenta con una lista extensa de interesados, estrictamente requiere de
actores y/o socios clave que contribuyan con el desarrollo positivo del modelo de negocio.
Dicho esto, la empresa cuenta proveedores clave, como agricultores altamente

fidelizados, distribuidores y transportistas que facilitan el intercambio de eslabón a eslabón
dentro de la cadena y hacia el mercado por vía terrestre y marítima; proveedores de
maquinaria y tecnología de puntas, sobre la que se sostienen sus operaciones y le permite
generar la propuesta de valor, proveedores de materiales e insumos que refuerzan sus
actividades y proveedores de servicios básicos, como luz, agua, aire acondicionado y otros,
indispensables para el buen funcionamiento del negocio y el desempeño de todos su
colaboradores.
Además de los proveedores, Molitalia considera como actor clave a los entes
reguladores como SUNAFIL, INDECOPI, OEA, PRODUCE, HACCP, grupos gremiales,
alguno clientes auditores y casas certificadores, ya que estos entes suelen repercutir de
manera significativa en las operaciones de la empresa, siendo muchas veces determinantes
para las decisiones de compra, producción, distribución y comercialización.
Finalmente tenemos a los socios clave, como el auditor estratégico exclusivo de

Molitalia, Prince Waterhouse Coopers (PWC), quien guía le mejora continua de las
actividades que se realizan buscando siempre maximizar la rentabilidad de la empresa y los
accionistas, encargados de la financiación de la empresa relacionada a la toma de decisiones
de la empresa y quienes marcan la pauta para el modelo del negocio.
3.2.8. Estructura de Costos
Como se puede ver, el modelo de negocio de Molitalia requiere de una fuerte inversión
de dinero para asegurar el cumplimiento de sus operaciones, mantenerse en constante
evolución y potenciar su propuesta de valor, en ese sentido, es de suma importancia
identificar cuales sus costos y qué porcentaje representan del total, con la finalidad de
utilizarlo a favor de su crecimiento; por lo cual, en términos aproximados podemos decir que
la estructura de sus costos se disgrega de la siguiente manera:
- Planilla: 15%
- Costo de Materia prima y de conversión: 55%
44
- Gastos administrativos: 5%
- Mantenimiento de plantas, equipos y tecnologías: 15 %
- Gastos diversos (certificaciones, cumplimiento de regulaciones, licencias de
tecnología y funcionamiento, entre otros): 10%
- Depreciación de activos y costos indirectos de fabricación: 2%
3.2.9. Fuentes de Ingresos
Gracias a la propuesta de valor planteada por la empresa, Molitalia tiene fuertes

ingresos que la han llevado a posicionarse como líder en el mercado nacional, estos ingresos
en su mayoría provienen de la venta de la amplia gama de productos que ofrece; sin embargo,
Molitalia cuenta también con otras tres fuentes de ingresos que representan aproximadamente
el 15 % de sus ingresos.
Está la venta de subproductos, comprendidos como los productos devueltos por fallas
en el empaque u otros relacionados que son retornados a la planta y, luego de pasar por un
riguroso control de calidad, pueden ser desechados, recolocados en el mercado y/o vendidos a
través del canal interno de Molitalia, es decir, se venden a los colaboradores de la empresa a
precios mucho más accesibles. Además, gracias a su compromiso con la sustentabilidad y sus
buenas prácticas empresariales, Molitalia también tiene ingresos por venta de recursos
reciclables, Uno de sus objetivos es lograr la digitalización al 100% lo que propicia un
escenario aún mejor para este tipo de venta. Para concluir, tenemos los ingresos por ventas de
activos en desuso, llámese maquinaria obsoleta y/o averiada, equipos de oficina u otros.
45
3.3. Mapa de procesos actual
Ilustración 18: Mapa de Procesos de Molitalia
3.3.1. Procesos Estratégicos
• Gestión de Marketing: El alcance del macroproceso va desde la inteligencia de

mercado hasta realizar el seguimiento y control de gestión de marketing.
• Investigación y Desarrollo: El alcance del macroproceso va desde la
identificación de ideas de innovación o mejora continua hasta la evaluación,
ejecución y seguimiento del resultado de los proyectos implementados.
• Planificación Estratégica: El alcance del macroproceso comprende desde la
generación del plan estratégico hasta su difusión y control.
• Gestión de Personas: El alcance del macroproceso comprende la gestión del
talento, hasta retención y fidelización de colaboradores.
• Inteligencia de Negocios: El alcance del macroproceso va desde la
identificación de las necesidades de información hasta la entrega de reportes para
la toma de decisiones.
46
• Control de Riesgos y Cumplimiento: El alcance del Macroproceso comprende
desde la auditoría interna, hasta la gestión de riesgos.
• Reputación Corporativa: El alcance del macroproceso de Reputación
Corporativa va desde la planificación de ésta hasta el seguimiento.
3.3.2. Procesos de Negocio
• Planificación de Ventas y Operaciones: Este Macroproceso norma la

planificación de las ventas y operaciones. Su alcance comprende desde el ajuste
de la venta histórica nacional, hasta la entrega del pedido al cliente.
• Abastecimiento de Producción: El alcance del macroproceso de abastecimiento
va desde la planificación de la compra, hasta la gestión de la documentación
pertinente y la verificación de la factura enviada por el proveedor.
• Gestión de materiales: El alcance del macroproceso va desde la planificación
de la recepción de los materiales, su ingreso físico y documental, su
almacenamiento y entrega de los materiales a las distintas plantas productivas y
usuarios, y su enajenación en caso de que corresponda.
• Producción: El alcance del macroproceso comprende desde la programación de
la producción hasta el control de gestión del proceso productivo.
• Ventas: El alcance del macroproceso comprende desde el ingreso de las metas
de ventas hasta el seguimiento de los pedidos.
• Distribución: El alcance del macroproceso de Distribución va desde la
planificación de los recursos de distribución hasta el despacho de producto y la
posterior validación de los fletes realizados.
• Servicios al Consumidor y Cliente: El alcance del macroproceso de Servicio al
consumidor y cliente va desde la recepción de consultas y reclamos hasta la
entrega de las respuestas correspondientes.
• Gestión del punto de venta: Este macroproceso norma todas las actividades
realizadas para la gestión del punto de venta. Su alcance va desde la
planificación de las actividades de la gestión del punto de venta, hasta el control
de la gestión de estas.
47
3.3.3. Procesos de Soporte
• Gestión TIC: El alcance de este macroproceso comprende desde la

Planificación de Proyectos TIC hasta la Gestión de operaciones y la gestión de
seguridad TIC.
• Administración de personal: El alcance del macroproceso comprende desde la
creación o actualización de la información asociada a trabajadores, hasta el pago
de remuneraciones o desvinculación.
• Gestión de procesos de negocio: El alcance de este macroproceso abarca la
gestión de procesos dentro de la compañía.
• Gestión administrativa y financiera: El alcance del macroproceso va desde la
gestión de la contabilidad, gestión de ingresos y egresos, gestión de activo fijo y
gestión de accionistas.
• Presupuesto y control de gestión: El alcance del macroproceso de Presupuesto
y control de gestión va desde la generación y carga en el sistema del presupuesto
anual hasta el control de gestión mensual de este presupuesto.
• Recaudación y cobranzas: El alcance del macroproceso comprende desde el
análisis y planificación de la recaudación hasta la recuperación de la deuda o
bien las gestiones de castigo contables.
• Gestión de Calidad: El alcance del macroproceso va desde la planificación de
gestión de calidad hasta la evaluación de los resultados.
• Gestión del Riesgo Industrial y de Personas: El alcance del macroproceso
comprende desde la planificación de la gestión de seguridad y salud en el trabajo
hasta la mantención del sistema de gestión de seguridad y salud en el trabajo.
• Abastecimiento de Materiales y Servicios de Apoyo: Macroproceso con
alcance desde la gestión de las necesidades de insumos o servicios de apoyo,
hasta gestión de la documentación para el pago y la verificación de la factura
enviada por el proveedor.
• Gestión de Mantenimiento: El alcance de este macroproceso considera desde la
planificación hasta el control de las mantenciones realizadas por la compañía
para activos, líneas y maquinas productivas.
• Administración de Proyectos: El alcance del macroproceso comprende la
generación y evaluación de proyectos, la ejecución de proyectos, control de la
ejecución y la evaluación de resultados.
48
CAPÍTULO VI: METODOLOGÍA DE LA INVESTIGACIÓN
4.1. Diseño de la Investigación
4.1.1. Enfoque de la investigación
Esta investigación es cuantitativa debido a que se propone el desarrollo de un modelo

de segmentación de clientes según su perfil de compras, el cual se realizará mediante técnicas
de Machine Learning y el modelo obtenido se podrá medir y/o validar a través de indicadores
representados por fórmulas matemáticas.
4.1.2. Alcance de la investigación
El alcance de esta investigación es correlacional dado que se busca descubrir grupos de

perfiles de los clientes internos en base a su consumo y conocer el grado de relación entre las
variables de la base de datos.
4.1.3. Diseño o tipo de la investigación
El diseño de la investigación es experimental debido a que se analizarán las variables

bajo el tipo de aprendizaje no supervisado. Asimismo, las variables serán manipuladas de
preprocesamiento donde se realizará la limpieza y carga de datos.
4.1.4. Población y Muestra
Base de datos de ventas de colaboradores internos de la

Población
empresa Molitalia.
Base de datos de ventas de colaboradores internos de la
Muestra
empresa Molitalia de los años 2019 y 2020.
Tabla 5: Población y Muestra de la población
49
4.1.5. Instrumentos de medida
Instrumento Responsable Descripción

Algoritmo de Clustering Experto en Machine Busca subdividir un conjunto de
usando la técnica de K- Learning observaciones, en K grupos, para que a
Means. cada observación se le asigne a un
grupo que tenga el valor medio más
cercano a un centroide.
Tabla 6: Instrumentos de medida
4.1.6. Operacionalización de variables
Variable Indicador
Inertia:
Se calcula como la sumatoria de las distancias entre
cada punto de datos y su centroide, elevado al cuadrado.
𝑁
∑ ||𝑋𝑖 − 𝜇|2
Técnica de K-Means
𝑖=0
Para encontrar el K óptimo para un conjunto de datos se
usa el método Elbow o también llamado del codo el cual
encuentra el punto de quiebre donde la disminución de
la inercia empieza a hacer constante.
Tabla 7: Operacionalización de Variables
4.2. Metodología de implementación de la solución
Ilustración 19: Metodología de la investigación

50
4.2.1. Base de Datos
Se utilizará la base de ventas internas de los años 2019 y 2020. Esta base de datos
contiene información del historial de las ventas y de los clientes. En total se tiene 32,182
registros y 26 variables. Dentro de estas se tienen:
Nro Variables Descripción

Código de usuario del colaborador (cliente
ID
1 interno)
2 Factura Número de factura
Provincia donde se encuentra trabajando el
Agencia
3 cliente interno
4 Número de pedido Número de orden del pedido
5 Código producto Código de producto vendido
6 Producto Nombre del producto
7 Cat_producto Categoría de producto
8 Unidad de medida Unidad de medida del producto
9 Nro_Linea_Credito Línea de crédito asignada al colaborador
10 Linea_Credito Rango de Línea de crédito
11 Nro_Porc_Descuento Porcentaje de descuento realizado
12 Porc_Descuento Rango de porcentaje de descuento realizado
13 Valor_pedido Monto total por pagar con IGV
14 Valor_Total Rango del monto total por pagar con IGV
15 Cargo Cargo que tiene el colaborador
16 Categoria_cargo Categoría del cargo o puesto del colaborador
17 Nacionalidad Nacionalidad del colaborador
18 Edad Edad del colaborador
19 Sexo Sexo del colaborador
20 Gerencias Gerencia a la cual pertenece el colaborador
Cantidad de años que el colaborador tiene en la
Tiempo_colaborador
21 compañía
Rango del tiempo del colaborador en la
Rango_tiempo
22 compañía
23 Responsable Responsable de registro de SAP por agencia
24 H. Creación Hora de creación del pedido
25 Folio Número de folio a la que pertenece el producto
26 Fact/n.créd Número de factura o nota de crédito generada
Tabla 8: Descripción de variables
51
4.2.2. Pre-procesamiento
En este paso se valida el estado de los datos contenidos en cada variable. Para ello, se
analiza si existe presencia de ruido en la data como valores nulos, duplicados, errores en las
etiquetas o en la homologación de datos.
- Valores nulos:
Se analizaron los datos de las variables con el fin de identificar valores nulos, para
ello se importó la librería Missingno el cual nos permite visualizar de manera
gráfica los valores nulos.
Ilustración 20: Gráfico de valores nulos

Al revisar el gráfico, nos damos cuenta de que todas las variables contienen
32,182 datos por lo cual se puede decir que no existe la presencia de valores nulos.
- Duplicados:
Se eliminaron los registros duplicados de la data, para lo cual se usó la función
drop_duplicates(). Sin embargo, después de ejecutarlo y volver a contar la
cantidad de datos por variables, notamos que no existían datos duplicados puesto
que la cantidad de registros sigue siendo la inicial de 32,182.
52
Ilustración 21: Duplicados de la data
- Selección de variables:
Al visualizar las 26 variables de la base de datos, notamos que existen variables
que son identificadores, ya sea del cliente o de la venta. Este tipo de variables no
deben ser considerados en el modelo dado que no explican el comportamiento de
la venta o del cliente por ser un valor único en la data. Dentro de dichas variables
se tienen: Id, Número de factura, número de pedido, folio y el número de nota de
crédito.
Asimismo, también se identificaron variables que no tienen relación con las
compras del cliente como el “responsable” que es la persona que registra la venta
en SAP, y también la “hora creación” que es la hora en la que el responsable
registra la venta en SAP.
Por último, se identificaron variables que significaban lo mismo, la única
diferencia era la tipificación. Por ejemplo, las variables “Cod_producto”,
“Producto” y “Cat_Producto” solo se diferencian en el nivel de detalle del
producto y la tipificación que están en número o texto. Para decidir con cuál de las
3 variables quedarnos, el experto de ventas indicó que la variable “Cat_Producto”
es la que agrupa los productos por categorías y esa es la variable que se usa para
los indicadores porque es más representativa. Por ello, se decide quedar con dicha
variable y no considerar las otras dos.
El mismo escenario anterior se presentaron para las agrupaciones de
“Cant_Porc_descuento” y “Porc_descuento”, “Valor pedido” y “Valor Total”,
“Cargo” y “Categoría de cargo”, “Tiempo colaborador” y “Rango tiempo”. Al
identificar dichos grupos, de igual manera, dado que significan y explican la
misma variable, se decidió quedarnos con solo uno.
53
Finalmente, al reducir las variables de acuerdo con los criterios anteriormente
mencionados, nos quedamos con solo 12 variables, las cuales son:
Nro Variables Descripción

Provincia donde se encuentra trabajando el cliente
1 Agencia
interno
2 Cat_producto Categoría de producto
3 Unidad de medida Unidad de medida del producto
4 Linea_Credito Rango de Línea de crédito
5 Porc_Descuento Rango de porcentaje de descuento realizado
6 Valor_Total Rango del monto total por pagar con IGV
7 Categoria_cargo Categoría del cargo o puesto del colaborador
8 Nacionalidad Nacionalidad del colaborador
9 Edad Edad del colaborador
10 Sexo Sexo del colaborador
11 Gerencias Gerencia a la cual pertenece el colaborador
12 Rango_tiempo Rango del tiempo del colaborador en la compañía
Ilustración 22: Descripción de variables finales

- Conversión de variables:
Una vez ya seleccionado las variables a considerar en el modelo, se procedió a
examinar los tipos de variables y se identificaron que 11 variables eran categóricas
y solo existía 1 variable numérica (edad). Dado que la investigación busca
desarrollar un modelo de clustering usando K-Means, es necesario convertir las
variables categóricas a numéricas. Para ello, se usó la función get_dummies(), la
cual crea una variable por cada valor identificado y coloca como dato 0/1. Esto se
realizó con todas las variables categóricas y después de ello se procedió a
concatenar dichas nuevas variables con la variable numérica (edad), todo en un
mismo dataframe.
54
Ilustración 23: Conversión de variables categóricas a numéricas
4.2.3. Modelado
En este paso se realizará la construcción del modelo propuesto, para ello, se hará
clustering a través de la técnica K-Means puesto que el tipo de aprendizaje de la
investigación es “no supervisado”. Asimismo, se realizarán diferentes escenarios con respecto
al valor del K, considerando como escenarios a los valores K entre 1 y 11. Esta cantidad de
grupos se realizará para después validar cuál es el K óptimo para el modelo.
Ilustración 24: Código de K-Means con K desde 1 a 11

4.2.4. Evaluación de modelos
Para la evaluación del modelo de K-Means generado se tendrán dos tipos de

validaciones: teórico, donde se usará el método “Inertia” el cual brindará un puntaje al
modelo construido en base a la cantidad de K utilizados; y práctico, el cual será validado por
un experto del negocio de ventas.
Para el primer caso que es el teórico, se guardaron los datos de la inercia generada por
cada modelo realizado en base al K que inicia desde 1 hasta 11. Los resultados se pueden
visualizar en el siguiente gráfico:
55
Ilustración 25: Resultados de la inercia por modelo
Al observar el gráfico, por el método del codo, podemos decir que el punto de quiebre
en los valores de la inercia se da cuando el K=4, es decir, después de dicho valor, la
diferencia de las cantidades de inercia de los modelos se vuelve mínima, por lo cual se dice
que ya no es óptimo continuar dividiéndolo en más clusters.
Después, dado la validación del K óptimo, se vuelve a correr el modelo K-Means

considerando K=4 para después etiquetar la data final con el cluster asignado por el modelo.
Ilustración 26: Desarrollo del código del modelo óptimo

Ilustración 27: Data final con la etiqueta del cluster asignado

56
Finalmente, con la data ya etiquetada en base al cluster asignado, se procedió a analizar
los registros de clientes que contenían cada uno con el fin de nombrarlos y validar los
beneficios y/o impacto en el negocio. Para ello, se analizaron distintas variables como la
edad, en donde se notó una gran diferencia entre los clusters como se visualiza en la siguiente
imagen:
Ilustración 28: Tabla cruzada de edad vs clusters

Ante los resultados se puede inferir que el cluster “0” está enfocado en los clientes con
rango de edad de 44 a 53 años; el cluster “1” en el rango de 19 a 33 años, el cluster “2” en el
rango de 34 a 43 años y finalmente el cluster “3” en el rango de 54 años a más.
Siguiendo los pasos anteriores, se procedió a analizar las otras variables restantes de la
data como el tiempo del colaborador en la compañía, la categoría de productos y el tipo de
puesto. Con ello, se obtuvieron los siguientes resultados:
Ilustración 29: Clusters vs tiempo del colaborador en Molitalia

57
Ilustración 30: Clusters vs Tipo de puesto del colaborador
Ilustración 31: Clusters vs Categoría de productos

En base a los resultados anteriores, se propone nombrar a los clusters de la siguiente
manera:
- Cluster “1”: Beginners

Este tipo de cliente es considerado como principiante en la compañía puesto que
tiene hasta 10 años trabajando en Molitalia y se caracteriza por ser joven teniendo
una edad entre 19 y 33 años. Tiene preferencia de consumo por los dulces y
actualmente desempeña un puesto de oficina o de operaciones.
58
Ilustración 32: Buyer persona de Beginners
- Cluster 2: Middle
Este tipo de cliente es considerado como “Middle” en la compañía puesto que
tiene hasta 20 años trabajando en Molitalia y se caracteriza por ser relativamente
joven teniendo una edad entre 34 y 43 años. Tiene preferencia de consumo por los
alimentos básicos, dulces y panetones. Asimismo, actualmente desempeña un
puesto de oficina o de operaciones.
Ilustración 33: Buyer persona de Middle

59
- Cluster 0: Expert
Este tipo de cliente es considerado como “Experto” en la compañía puesto que
tiene hasta 30 años trabajando en Molitalia, también se caracteriza por ser una
persona adulta teniendo una edad entre 44 y 53 años. Tiene preferencia de
consumo por los alimentos básicos y actualmente desempeña un puesto de oficina
o de operaciones.
Ilustración 34: Buyer persona de Expert

- Cluster 3: Senior
Este tipo de cliente es considerado como “Senior” en la compañía puesto que tiene
más de 30 años trabajando en Molitalia, también se caracteriza por ser una persona
adulta mayor teniendo una edad entre 54 años a más. Tiene preferencia de
consumo por los dulces y actualmente desempeña un puesto de operaciones.
60
Ilustración 35: Buyer persona de Senior
4.2.5. Demo
Es la etapa previa a la implementación, donde se correrá el modelo construido con data

nueva para demostrar si es funciona correctamente y el tipo de salida que tiene finalmente.
4.3. Metodología para la medición de resultados de la implementación
Según lo mencionado anteriormente, después del desarrollo del modelo propuesto de

segmentación de perfil de clientes internos según su histórico de compras, se debe validar si
la cantidad de grupos (K) seleccionados es el correcto y si se están agrupando bien.
Para ello, se propone realizar dos validaciones:
• Teórico: Se basa en el uso del método “Inertia”, la cual se puede reconocer

como una medida de cuán coherentes son los clústeres internamente. Esta se
calcula como la suma de la distancia al cuadrado de cada punto hasta su
centroide más cercano, es decir, su grupo asignado.
Siendo la fórmula: I = ∑i (d (i, cr)) donde “cr” es el centroide del grupo
asignado y “d” es la distancia entre el valor evaluado y el centroide, todo eso al
cuadrado.
Lo que se busca al desarrollar el modelo de K-Means es elegir centroides que
minimicen la inercia, o el criterio de suma de cuadrados dentro del clúster.
61
• Práctico: Se presentará una muestra de los resultados del modelo separado por
los grupos identificados a un experto de ventas del negocio con el fin de que
pueda brindar un feedback sobre la segmentación realizada por el modelo.
4.4. Cronograma de actividades y presupuesto
La presente investigación contempla el siguiente cronograma y presupuesto:
Ilustración 36: Cronograma de actividades

Ilustración 37: Presupuesto de la investigación

62
REFERENCIAS
Ahmed, I., & Aziz, A. (2010). Dynamic Approach for Data Scrubbing Process. International
Journal on Computer Science and Engineering, 2 (2), 416-423.
Ariza, F., Rodríguez, J. y Alba, V. (2018). Control estricto de matrices de confusión por
medio de distribuciones multinomiales. GeoFocus (21), p. 215-226.
http://dx.doi.org/10.21138/GF.591
Bagnato, J. (2018). Clasificar con K – Nearest – Neighbor ejemplo en Python. Aprende

Machine Learning. https://www.aprendemachinelearning.com/clasificar-con-k-
nearest-neighbor-ejemplo-en-
python/#:~:text=K%2DNearest%2DNeighbor%20es%20un,el%20mundo%20del%20
Aprendizaje%20Autom%C3%A1tico.
Barrueta, R y Castillo, E. (2018) Modelo de análisis predictivo para determinar clientes con
tendencia a la deserción en bancos peruanos
https://repositorioacademico.upc.edu.pe/bitstream/handle/10757/626023/Barrueta%20
MR.pdf?sequence=1
Chamba, S. (2015). “Minería de Datos para segmentación de clientes en la empresa

tecnológica Master PC”. Universidad Nacional de Loja.
https://dspace.unl.edu.ec/jspui/bitstream/123456789/10462/1/Chamba%20Jim%C3%A9nez%
2C%20Sairy%20Fernanda.pdf
Cluster of European Research Projects on the Internet of Things (2010). Vision and
Challenges for Realising the Internet of Things [PDF file].
https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.370.8561&rep=rep1&type
=pdf
Davenport, T. H., Delong, D. W., Brees, M. C. (1998). “successful knowledge management

projects”. sloan management review. vol. 39, núm. 2, págs. 43-57.
EY (01 de diciembre de 2020). Perspectiva de la Industria de Consumo durante COVID-19.

https://assets.ey.com/content/dam/ey-sites/ey-com/es_pe/topics/strategy/ey-
parthenon-perspectivas-de-la-industria-de-consumo-durante-covid-19.pdf
63
Flores, M., Briceño, J. y Arboleda, J. (2020). Aplicación de la inteligencia artificial en el
transporte internacional de mercancías.
http://repositorio.esumer.edu.co/jspui/handle/esumer/2637
Gonzalez, A. & Alba, F. (2017). Machine Learning en la industrial: el caso de la siderurgia.

Revista Economía Industrial. 55-63.
https://www.mincotur.gob.es/Publicaciones/Publicacionesperiodicas/EconomiaIndustr
ial/RevistaEconomiaIndustrial/405/GONZALEZ%20MARCOS%20Y%20ALBA%20
EL%C3%8DAS.pdf
Gonzáles, H. y Ticona, U. (2019). Clustering, meditarraneidad y comerio internacional:

aplicación empírica de los algoritmos Partioning Around Medoids y K-means. Revista
Latinoamericana de Desarrollo Económico (32).
http://www.scielo.org.bo/scielo.php?pid=S2074-
47062019000200005&script=sci_arttext
Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and Techniques. Estados
Unidos: Elsevier.
IBM (2021). ¿Qué es Machine Learning?. https://www.ibm.com/pe-es/analytics/machine-

learning
Leporati, M. y Morales, M. (2019). Inteligencia artificial en la gestión de cadenas de

suministro. Harvard Deusto Management & Innovation. 18, págs. 6-13.
https://repositorio.comillas.edu/xmlui/bitstream/handle/11531/40344/Harvard%20Deu
sto%20%281%29.pdf?sequence=-1&isAllowed=y
Martin A. (2020). Big Data. Técnicas de machine learning para la creación de modelos
predictivos para empresas. Universidad Pontificia Comillas Madrid, España.
https://repositorio.comillas.edu/xmlui/bitstream/handle/11531/45878/Tecnicas%20de
%20machine%20learning%20para%20la%20creacion%20de%20modelos%20predicti
vos%20para%20empresas_Centeno_MartinRomero_Alfonso.pdf?sequence=1&isAllo
wed=y
64
Minitab (2021). Identificar valores atípicos. https://support.minitab.com/es-
mx/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/data-
concepts/identifying-outliers/
Moya M. (2020). Aprendizaje no supervisado en el perfilamiento de clientes para profit

scoring. Universidad de los Andes.
https://repositorio.uniandes.edu.co/bitstream/handle/1992/51481/23230.pdf?sequence
=1&isAllowed=y
Oracle (2021). ¿Qué es la inteligencia artificial—IA?. https://www.oracle.com/mx/artificial-

intelligence/what-is-ai/
Palacios, F. & Pastor, N. (2020). Segmentación de Clientes de una Empresa

Comercializadora de Productos de Consumo Masivo en la Ciudad de Popayán
soportador en Machine Learning y Análisis RFM. (Tesis de grado). Fundación
Universitaria de Popayán.
http://unividafup.edu.co/repositorio/files/original/58784efa51bf4609763d30e2e6f70be
a.pdf
Pereira, A. (2010). Análisis Predictivo de Datos Mediante Técnicas de Regresión Estadística.

(Tesis de Magíster). Universidad Complutense de Madrid.
https://eprints.ucm.es/id/eprint/11389/1/Analisis_Predictivo_de_Datos.pdf
PTP (10 de marzo de 2021). ¿Cuáles son las empresas lideres en el sector de alimentos en el
Perú? https://ptp.pe/cuales-son-las-empresas-lideres-en-el-sector-de-alimentos-en-el-
peru/
Recuero, P (2017). Tipos de aprendizaje en Machine Learning: supervisado y no supervisado

https://empresas.blogthinkbig.com/que-algoritmo-elegir-en-ml-aprendizaje/
Rouhiainen, L. (2018). Inteligencia Artificial. Planeta.

https://static0planetadelibroscom.cdnstatics.com/libros_contenido_extra/40/39308_Int
eligencia_artificial.pdf
Rottoli, G., Casanova, C., Schab, E. y De Battista, A. (2019). Exploración a posteriori Basada
en Clustering del Frente Pareto-óptimo aplicado al Problema del Próximo
65
Lanzamiento. http://www.frcu.utn.edu.ar/deptosistemas/wp-
content/uploads/sites/15/2019/11/CONAIISI_2019_FrenteParetoClustering.pdf
Salcedo, C. (2002). Estimación de la ocurrencia de incidencias en declaraciones de pólizas

de importación. (Tesis de Grado). Universidad Nacional Mayor de San Marcos.
https://sisbib.unmsm.edu.pe/bibvirtualdata/Tesis/Basic/Salcedo_pc/enPDF/T_complet
o.pdf
SAS (2021). Deep Learning. https://www.sas.com/es_pe/insights/analytics/deep-

learning.html
Simeone, O. (2018). A Very Brief Introduction to Machine Learning With Applications to

Communication Systems. Repositorio Universidad de Cornell.
https://arxiv.org/pdf/1808.02342.pdf
Torres, P, Gonzáles, J., López, V. y Vaca, S. (2020). Aprendizaje automático aplicado al

análisis del consumo de alcohol y su relación con el estrés percibido. RISTI – Revista
Ibérica de Sistemas y Tecnologías de Información, p. 483-395.
https://www.researchgate.net/profile/Pablo-Torres-
Carrion/publication/346088807_Machine_learning_applied_to_the_analysis_of_alcoh
ol_consumption_and_its_relationship_with_perceived_stress_Aprendizaje_automatic
o_aplicado_al_analisis_del_consumo_de_alcohol_y_su_relacion_con_el_estre/links/5
fbb0e88299bf104cf6cebf0/Machine-learning-applied-to-the-analysis-of-alcohol-
consumption-and-its-relationship-with-perceived-stress-Aprendizaje-automatico-
aplicado-al-analisis-del-consumo-de-alcohol-y-su-relacion-con-el-estr.pdf
Taucher, E. (1997). Bioestadística. Editorial Universitaria
Unioviedo (2020). El algoritmo k-means aplicado a clasificación y procesamiento de

imágenes. https://www.unioviedo.es/compnum/laboratorios_py/kmeans/kmeans.html
66

Grupo6 - Informe Final - Machine Learning

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Grupo6 - Informe Final - Machine Learning

Cargado por

Copyright:

Formatos disponibles

“MODELO PREDICTIVO PARA SEGMENTAR A LOS

CLIENTES SEGÚN SU PERFIL DE COMPRA DEL

Junior Fabian Arteaga

Machine Learning aplicado a los negocios

● Astrid Bernuy Murriel

1.1. Descripción de la Realidad Problemática ........................................................ 8

1.2. Justificación de la Investigación ..................................................................... 10

1.2.1. Teórico ............................................................................................................... 10

1.2.2. Práctica ............................................................................................................... 10

1.2.3. Metodología ....................................................................................................... 10

1.3. Delimitación de la Investigación ..................................................................... 11

1.3.1. Espacial .............................................................................................................. 11

1.3.2. Temporal ............................................................................................................ 11

1.3.3. Conceptual ......................................................................................................... 11

CAPÍTULO II: MARCO TEÓRICO................................................................................... 11

2.1. Antecedentes de la Investigación .................................................................... 11

2.1.1. Tesis relacionadas .............................................................................................. 11

2.1.2. Artículos relacionados ....................................................................................... 17

2.2. Bases Teóricas .................................................................................................. 20

2.2.1. Inteligencia Artificial ......................................................................................... 20

2.2.1.1. Machine Learning .............................................................................................. 21

2.2.1.1.1. Deep Learning .................................................................................................... 21

2.2.2. Aprendizaje supervisado .................................................................................... 21

2.2.3. Aprendizaje no supervisado ............................................................................... 21

2.2.4. Técnicas de Machine Learning no supervisado ................................................. 22

2.2.4.1. Clustering ........................................................................................................... 22

2.2.4.1.1. K-Means ............................................................................................................. 22

2.2.5. Técnicas de Machine Learning Supervisado ..................................................... 23

2.2.5.1. Regresión Lineal: ............................................................................................... 23

2.2.5.2. Regresión Logística. .......................................................................................... 24

2.2.6. Modelo predictivo .............................................................................................. 24

2.2.7. Matriz de confusión ........................................................................................... 25

2.2.9. Valores nulos o perdidos:................................................................................... 26

2.2.10. Limpieza de datos .............................................................................................. 26

2.2.11. Datos, Información, Conocimiento .................................................................... 26

CAPÍTULO III: ENTORNO EMPRESARIAL .................................................................. 27

3.1. Descripción de la empresa ............................................................................... 27

3.1.1. Reseña histórica y actividad económica ............................................................ 27

3.1.2. Descripción de la organización .......................................................................... 27

3.1.2.1. Organigrama ...................................................................................................... 27

3.1.2.2. Cadena de suministros ....................................................................................... 32

3.1.3. Datos generales estratégicos de la empresa ....................................................... 34

3.1.3.1. Visión, misión y valores o principios ................................................................ 34

3.1.3.2. Objetivos estratégicos ........................................................................................ 35

3.1.3.3. Evaluación interna y externa. FODA cuantitativo ............................................. 36

3.2. Modelo de negocio actual (CANVAS) ............................................................ 40

3.2.1. Propuesta de Valor ............................................................................................. 40

3.2.2. Relaciones con Clientes ..................................................................................... 41

3.2.3. Canales “GO TO MARKET” ............................................................................ 41

3.2.4. Segmentos de Clientes ....................................................................................... 42

3.2.5. Actividades Clave .............................................................................................. 42

3.2.6. Recursos Clave................................................................................................... 43

3.2.7. Actores/Socios Clave ......................................................................................... 44

3.2.8. Estructura de Costos .......................................................................................... 44

3.2.9. Fuentes de Ingresos ............................................................................................ 45

3.3.1. Procesos Estratégicos ......................................................................................... 46

3.3.2. Procesos de Negocio .......................................................................................... 47

3.3.3. Procesos de Soporte ........................................................................................... 48

CAPÍTULO VI: METODOLOGÍA DE LA INVESTIGACIÓN ...................................... 49

4.1. Diseño de la Investigación ............................................................................... 49

4.1.1. Enfoque de la investigación ............................................................................... 49

4.1.2. Alcance de la investigación ............................................................................... 49