Está en la página 1de 46

1

UNIVERSIDAD PERUANA DE CIENCIAS APLICADAS


EPE: ESTUDIOS PROFESIONALES PARA EJECUTIVOS

Data Science III – AP317

PROYECTO DE INVESTIGACIÓN (TF)

Avance N° 1

Profesor:
Mg. Julio Cesar Palacios Ruiz

Sección: QD14

Sede: Monterrico

GRUPO: DEVELOPERS GROUP

INTEGRANTES
⮚ Escapa Checco, Marcos Alexander U201625762
⮚ Giolito Lohse Paolo Augusto U201721260
⮚ Medina Trujillo, Lizbeth Roxana U201501197
⮚ Porras Arias, Katherine Luz U201720821

Lima, 26 de abril del 2021

TABLA DE CONTENIDOS

2
I. PRESENTACIÓN DE LA EMPRESA PARA EL PROYECTO 5
a) Presentación y descripción de la empresa 5
1.1. Modelo con Lean Canvas 6
1.2. Modelo de las 5 fuerzas de Porter 8
d) Análisis PESTEL 9
II. COMENZANDO EL PROYECTO 11
a) Identificación del problema – Comprendiendo el negocio y el problema (sustentado con
datos) 11
b) Alcance del Proyecto 12
c) Formulación de preguntas para Data Science 13
d) Justificación 13
e) Objetivos del proyecto 14
f) Posibles soluciones del problema, basadas en ciencia de datos 14
g) Hipótesis 15
III. MARCO TEÓRICO: 15
a) Metodología de ciencia de datos 15
IV. REQUISITOS Y RECOPILACIÓN DE DATOS 18
a) Determinación de datos necesarios para responder las preguntas 18
b) Ubicación de fuentes de datos 19
c) Presentación de datos recopilados 19
Clientes 19
Artículos 20
Frecuencia de visita 21
Cabecera de facturas 21
Detalle de facturas 22
Clima 22
REFERENCIAS BIBLIOGRÁFICAS 42
ANEXOS 43

ÍNDICE DE TABLAS

3
Tabla 1. Análisis PESTEL realizado a Freshkolita S.A. 7
Tabla 2. Temperatura promedio mensual de Piura 2017-2019 18
Tabla 3. Variables originales 19

ÍNDICE DE FIGURAS

Figura 1. Cadena de valor de distribución Freshkolita S.A. 4


Figura 2. Modelo de negocio con Lean Canvas de Freshkolita S.A. 5
Figura 3. Cantidad de transacciones realizadas durante el 2019 vs 2020. 9
Figura 4. Ubicación del CDA Piura y de las embotelladoras de Freshkolita S.A. 10
Figura 5. Metodología fundamental para la ciencia de datos, por IBM. 12
Figura 6. Muestra de la tabla de clientes de Freshkolita (2021) 16
Figura 6. Muestra de la tabla de clientes de Freshkolita (2021) 16

4
I. PRESENTACIÓN DE LA EMPRESA PARA EL PROYECTO
a) Presentación y descripción de la empresa
1.1. Descripción de la empresa
Freshkolita S.A. es una empresa privada del rubro de consumo masivo, que tiene
como objeto social la formulación, producción, fabricación, embotellado y venta de
bebidas gaseosas carbonatadas, bebidas gasificadas y no gasificadas (jarabeadas o no
jarabeadas) y jugos de fruta para la producción de néctar y sodas. Actualmente cuenta
con plantas de producción en Trujillo, Lima, Arequipa, Iquitos y Cusco.

Trabaja de manera directa con Centros de Distribución Autorizados (CDA), empresas


terceras con las cuales Freshkolita S.A. tiene acuerdos comerciales de exclusividad
para el envío y distribución de sus productos. Adicionalmente, la gestión de pedidos y
ventas están a cargo de Freshkolita S.A. La Figura 1 muestra la cadena de valor de
distribución.

Figura 1. Cadena de valor de distribución Freshkolita S.A.

1.2. Misión y Visión


● Misión: Ser líderes en todas las ocasiones de consumo de bebidas y alimentos
en los mercados donde participamos, de forma rentable y sustentable.

5
● Visión: Generar el máximo valor para nuestros clientes, colaboradores,
comunidades y accionistas, satisfaciendo en todo momento y con excelencia
las expectativas de nuestros consumidores.

6
b) Modelo del Negocio
1.1. Modelo con Lean Canvas
Aliados Clave Actividades Claves Propuesta de Valor Relación con el cliente Segmento de clientes

● Alianzas estratégicas con ● Productos y procesos ● Ofrecemos a los consumidores un ● Asegurar a los clientes que los ● Freshkolita
Centros de Distribución productivos de alta calidad avalados por amplio portafolio de productos de insumos ofrecidos son de la mejor atiende a los
Autorizado (CDA). certificaciones ISO 14001:2004, FSSC aguas, jugos y bebidas no calidad a fin de garantizar su salud. segmentos de los
● Almacenes: Centro de 22000:2010, OHSAS 18001. alcohólicas de diferentes tipos y ● Cuenta con un buzón de sugerencias a N.S.E. A,
Distribución Autorizado-Piura. ● Monitoreo continuo de los clientes funcionalidades, producidas con través del portal web de Freshkolita. B, C, D y E del departamento de
● Cadena de suministros con directos en los diferentes canales e los más altos estándares de ● Exhibidoras a puntos de venta Piura. Se
proveedores clave de diferentes impulso constante de la fuerza de ventas calidad.. (bodegas) que son top en ventas. enfoca con fuerza en
materias e insumos para las que aseguran la rotación de los productos. ● Nuestra variada gama de ● Adecuada atención al cliente las bodegas (canal
diferentes fases de la cadena de ● Control logístico y despacho continuo a productos ofrece opciones para acreditado por la norma ISO tradicional),
producción y distribución: través de los Centros de Distribución diferentes momentos del día, para 9001:2008 canal moderno (supermercado,
Insumos, empaque, jabas de Autorizados (CDA). las diversas preferencias del autoservicios), mayoristas,
transporte, cajas, etc. mercado y distintas empresas diversas del canal
Recursos claves Canales
personalidades. Horeca.
● Nuestro portafolio ofrece frescura,
● Infraestructura de planta de producción y ● Bodegas
hidratación, energía, y deliciosos
embotelladora. ● Supermercados
sabores que complementan los
● Equipo especializado de investigación y ● Distribuidores mayorista y minorista
diferentes momentos del día.
desarrollo de productos. ● Mercados de abastos
● Patentes de marcas y fórmulas de los ● Empresas del canal HORECA.
productos. ● .
● Cadena de suministros estandarizada y de
alta capacidad de proveeduría.
● Cadena de distribución.
● Fuerza de ventas especializada.
Estructura de coste Fuentes de Ingreso

● Pagos planilla de personal administrativo y operativo. ● Ingreso por venta de bebidas diversas.
● Adquisición de insumos y materias primas para producción y embotellado ● Otros ingresos financieros.
● Pagos de servicios básicos y gestión tributaria.
● Pagos mensuales por el sistema de solución logística.
7
Figura 2. Modelo de negocio con Lean Canvas de Freshkolita S.A.

8
1.2. Modelo de las 5 fuerzas de Porter
1.2.1. Nuevos entrantes
No se evidencia una amenaza significativa de ingreso de nuevos entrantes a corto y
mediano plazo. Además, este tipo de amenaza no influye en la información a considerar
para el proyecto.

1.2.2. Competidores o rivalidad en la industria


Existe un alto nivel de competencia en el rubro debido a que Corporación Lindley S.A.
tiene más del 50% de participación del mercado, a este le sigue PEPSICO con una baja
participación, y Ajeper S.A., cuyos productos se dirigen a la población NSE bajo ubicado
en zonas distantes donde no llegan los productos de Freshkolita S.A. No obstante, la
amenaza de los competidores actuales no impacta en los resultados de este proyecto.

1.2.3. Poder de negociación de los proveedores


Cuenta con un alto poder de negociación con los proveedores que brindan productos y/o
servicios, en estos no se incluye al proveedor de PET, botellas de vidrio y azúcar, ya que
con éstos últimos se ha establecido alianzas estratégicas, debido a que son elementos
esenciales para la producción.

1.2.4. Amenaza de productos sustitutos


Existe amenaza actual de productos sustitutos debido al cambio en los hábitos de
consumo y su tendencia de crecimiento. Los consumidores buscan bebidas no
carbonatadas y encuentran sustitutos como néctares, jugos de fruta, agua mineral, bebidas
energéticas.
Si bien es cierto que Freshkolita cuenta también con esta gama de productos, son las
gaseosas las que generan mayores ganancias. No obstante, el crecimiento de dichos
sustitutos podría afectar los resultados a mediano y largo plazo.

1.2.5. Poder de negociación de los compradores o clientes:


Representan un total de 300,000 clientes a nivel nacional, los cuales están segmentados
según canal:

a. Canal moderno

9
Se efectúa una negociación estratégica ya que no solo se busca vender sino tener
presencia en el mercado, por lo que se generan promociones y estrategias de marketing
que beneficie a ambas partes.
b. Canal tradicional
Conformado por las bodegas de barrio, la negociación es directa entre el desarrollador de
mercado y dueño de la bodega, donde se aseguran pedidos basados en un mix de
productos según los objetivos del día.
d) Análisis PESTEL
● Aspecto Político – Inestabilidad Política
Debido a la inestabilidad política, la empresa posee zozobra por lo cual la inversión para
el proyecto Producto sugerido, puede verse afectada y aplazada, como sucedió en el año
2020 debido a la pandemia. Además, las propuestas hechas por un candidato a la
presidencia en las elecciones del 2021 dan cuenta de posibilidades de anulación de TLC,
los cuales afectarían directamente a las adquisiciones de materias primas de Freshkolita.
Adicionalmente, las decisiones políticas temporales para combatir la pandemia del
Covid-19, como las cuarentenas, control de aforo a establecimientos de concurrencia
masiva, restricción de operatividad del canal Horeca y aviación afectan directamente los
ingresos que se generan a través de estos canales.

● Aspecto económico – Reducción del poder adquisitivo.


Los efectos de la crisis sanitaria del Covid-19 iniciada en el 2020 han generado una
reducción considerable de los ingresos en los sectores públicos y privados, por lo que los
ingresos fiscales han caído; asimismo los despidos masivos han venido afectando al
poder adquisitivo de la canasta básica en los hogares. Según un informe del Banco
Mundial, es probable que la recuperación económica sea moderada y dependerá de las
políticas y reformas que se tomen por parte del gobierno.
Además, Freshkolita suele realizar compra de insumos a largo plazo, las cuales pueden
verse afectadas en sus proyecciones de adquisiciones debido al incremento del dólar, el
cual a la fecha viene acumulando un alza de 8.36% (BCR, 2021).

● Aspecto Social –
Cambio de hábitos, producto de los nuevos confinamientos por rebrotes. La demora en el
proceso de inmunización y la generación de una mayor tasa de infecciones por nuevas
variantes de coronavirus y/o rebrotes podría conducir a nuevos confinamientos, y con

10
ello generar cambios que podrían afectar ligeramente la tendencia de consumo de
bebidas. Además, estudios recientes dan cuenta del crecimiento en la tendencia de
consumo de productos más saludables, lo cual podría afectar a mediano –largo plazo la
tendencia de consumo actual de gaseosas de Freshkolita., no obstante, esta empresa
cuenta dentro de su portafolio de productos aquellas bebidas más saludables, con menor
contenido de azúcar, por lo que esta amenaza no podría repercutir en gran magnitud.

● Aspecto Tecnológico –
El sistema core de la compañía es el “Sistema Comercial”, un sistema in-house
desarrollado en AS400 (IBM), desde hace muchos años, en la actualidad es difícil lograr
encontrar profesionales que puedan brindar soporte tecnológico a esta plataforma, y
debido a las exigencias de los avances tecnológicos, requiere la migración a sistemas
modernos como empresa de clase mundial. Dentro de la cartera de proyectos para el
presente año, considera esta migración como un punto importante pero requiere el
análisis de las diferentes aristas para no afectar las operaciones de la compañía.

● Aspecto Legal –

Los productos de Freshkolita se encuentran sujetos a diferentes cargas impositivas


referentes al Impuesto Selectivo al Consumo (ISC). Dichas cargas van desde 0%, 12%,
17% hasta 25%, dependiendo del producto y de acuerdo a las condiciones aplicables a
cada uno de estos según lo establecido en el decreto Decreto Supremo Nº 181-2019-EF.

De acuerdo con la Ley N°30021 “Ley de Promoción de la Alimentación Saludable para


Niños, Niñas y Adolescentes”, promulgada por el Congreso de la República en el 2018,
se establece que las futuras advertencias que se incluyan en el etiquetado de los
alimentos y bebidas procesadas sean mediante el denominado “semáforo nutricional” de
tres colores, de acuerdo con el nivel que cada alimento tenga en grasas, grasas saturadas,
azúcar y sal, y deberá consignar la frase “Evitar su consumo excesivo”.

11
c) Objetivos iniciales de la empresa

✔ Incrementar las ventas en un 10% para los próximos dos años (2021 y 2022).en el canal
bodegas de la ciudad de Piura.
✔ Incrementar la cuota de pedidos ingresados en un 25% para los siguientes 5 años.
✔ Desarrollar alternativas alineadas a los nuevos hábitos de consumo - saludables, sin
azúcar, etc.- para el 30% del portafolio actual de Freshkolita, en los próximos 3 años
(2022-2024).

II. COMENZANDO EL PROYECTO


a) Identificación del problema – Comprendiendo el negocio y el problema (sustentado con
datos)
Según los resultados obtenidos por la Asociación de Bebidas y Refrescos sin Alcohol del
Perú en el 2020, la industria de bebidas es la responsable de generar el 2.51% del PBI
nacional (S/. 19,312 MM), el 20.4% del PBI de manufactura, el 14% del ISC recaudado (S/.
689 MM) y de generar 128,625 puestos de trabajo directo e indirecto a nivel nacional 1. Estas
estadísticas reflejan la importancia del sector de comercio de bebidas no alcohólicas, que
frente a los retos de la crisis sanitaria continúa dirigiendo sus esfuerzos y recursos en
fortalecer y ampliar su cadena de valor, que va desde el suministro y producción hasta la
distribución y comercialización en grandes tiendas y sobre todo en las más de 400 mil
bodegas de barrio del Perú (PeruRetail, 2020).

Siguiendo esta línea de análisis y según los resultados de Freshkolita S.A., se precisa que tras
el impacto de la crisis sanitaria del Covid-19 las ventas en el primer semestre del 2020 han
descendido en más del 50% en comparación con el año anterior. En la Figura 3 se puede
observar la diferencia que hay entre la cantidad de transacciones realizadas entre los años
2019 y 2020, donde se observa una notable caída entre los meses de marzo y abril del 2020.
Luego, a medida que se fueron reactivando algunos sectores y por ende aperturando más
negocios, las transacciones fueron incrementándose, sin embargo, al cierre del 2020 no se
lograron superar las ventas realizadas en el año anterior, lo cual no solo es evidente en el
resultado total sino también en cada uno de los meses transcurridos.

1
Información extraída de la página web de PeruRetail
https://www.peru-retail.com/peru-abresa-genera-el-20-4-del-pbi-de-manufactura/
12
Asimismo, se precisa que según el análisis de los resultados de los años 2019 y 2020 de
Freshkolita S.A., el canal tradicional, y en específico las bodegas de barrio son las que
concentran más del 60% de los ingresos de la compañía.

Figura 3. Cantidad de transacciones realizadas durante el 2019 vs 2020.

Frente a este panorama, el Gerente Comercial de Freshkolita S.A. con el apoyo de su equipo
han identificado una oportunidad de aumentar las ventas mejorando la experiencia de
compra de los clientes, por lo que, desean se desarrolle una aplicación que le ofrezca al
cliente un “pedido sugerido”, mediante el cual el cliente podrá efectuar su pedido de manera
más fácil, rápida y la venta se realizará de manera más asertiva, disminuyendo los pedidos
rechazados y aumentando los productos convenientes para el cliente. Para el desarrollo de
dicha aplicación, Freshkolita S.A. tiene la necesidad de conocer las tendencias de
consumo de sus clientes de acuerdo con su historial de compras de los últimos 4 años
(2017 al 2020).

b) Alcance del Proyecto


Las fases del proyecto piloto de Freshkolita S.A. consideran tomar en cuenta un Centro de
Distribución Autorizado (CDA), el cual una vez obtenido los resultados, será replicado al
resto de centros de distribución con los que cuenta la compañía. Por ello, este estudio se
centrará en el análisis del historial de consumo durante los últimos 4 años, del 2017 al 2020,

13
de los clientes del canal tradicional, específicamente, bodegas con factura pertenecientes al
Centro de Distribución Autorizado de la ciudad de Piura, cuya ubicación se aprecia en la
Figura 4.

CDA Piura

Figura 4. Ubicación del CDA Piura y de las embotelladoras de Freshkolita S.A.

c) Formulación de preguntas para Data Science


Pregunta General
¿Cuál será la tendencia de consumo de las bodegas en los siguientes dos años, 2021 y 2022?

Preguntas Específicas
● ¿Cuáles son las variables que influyeron en el comportamiento de compra de las bodegas
entre el 2017 al 2020?
● ¿Qué relación existe entre el consumo de determinados productos y el clima?
● ¿Es adecuada la distribución actual de la frecuencia de visita asignada a los clientes?

d) Justificación
Esta investigación nace en respuesta de las necesidades de la empresa Freshkolita S.A., la
cual desea conocer la tendencia de consumo de sus clientes, bodegas del canal tradicional,
para el desarrollo de la solución de “pedido sugerido” con el cual desea identificar con

14
mayor certeza los productos que son más susceptibles de tener éxito entre sus clientes a fin
de incrementar sus ventas.

e) Objetivos del proyecto


Objetivo General
Identificar la tendencia de consumo de las bodegas en los siguientes dos años (2021 y 2022).

Objetivos Específicos
● Identificar las variables que influyeron en el comportamiento de compra de las bodegas
entre los años 2017 al 2020.
● Identificar la relación del consumo de productos según el tipo de clima
● Analizar si la frecuencia de la distribución de visitas asignadas a los clientes es la
adecuada para el incremento de ventas.
f) Posibles soluciones del problema, basadas en ciencia de datos
Para la primera fase se utilizará un “enfoque de diagnóstico” que permitirá identificar y
evaluar las relaciones que existen entre las variables que influyen en el comportamiento de
compra de los clientes para el diseño de estrategias en los conjuntos de datos, los cuales
posteriormente serán sometidos a técnicas de aprendizaje automático, con el cual se podrá
realizar segmentaciones, agrupaciones y análisis para la identificación de patrones. Una vez
se tenga más información se utilizará un “enfoque predictivo” para investigar qué sucederá
con el comportamiento de compra de los clientes en periodos donde hay más demanda o
viceversa sobre los diversos productos que ofrece la compañía, y observar las probabilidades
en que este comportamiento se vuelva a repetir.

Pregunta Algoritmo

¿Cuál será la tendencia de consumo de las Algoritmo de forecasting


bodegas en los siguientes dos años, 2021 y
2022?

¿Cuáles son las variables que influyeron en Regresión


el comportamiento de compra de las bodegas
entre el 2017 al 2020?

¿Qué relación existe entre el consumo de Clustering


Regresión
determinados productos y el clima?

15
¿Es adecuada la distribución actual de la Regresión
frecuencia de visita asignada a los clientes?

g) Hipótesis
En la actualidad, el mercado de bebidas carbonatadas no alcohólicas es responsable del
2.51% del PBI, número que viene en incremento constante, por lo que se deduce que para los
próximos dos años la tendencia de consumo continuará en aumento.
El consumo de diferentes tipos de bebidas está condicionado por las preferencias y
comportamiento del consumidor. Sin embargo, estas preferencias y comportamientos están
directamente relacionados a factores externos a ellos; el más importante y de mayor
influencia es el clima. Las temperaturas y factores climatológicos juegan un rol importante
en el comportamiento de consumo de los consumidores de bebidas no alcohólicas.
Por otro lado, los clientes directos de la compañía son influenciados no solamente por la
demanda de los consumidores, sino por las políticas propias de la empresa como son las
políticas de precios y créditos, o la presencia y estimulación por parte de la fuerza de ventas,
por lo que la frecuencia de visita realizada por los vendedores a las bodegas guarda estrecha
relación con la frecuencia de compra de dichos clientes.

h) Limitaciones
No contar con acceso a información sobre ventas de Centros Autorizados de Distribución
ubicados en otras zonas del país (Región Centro, Región Lima y Región Sur), por lo que
para este trabajo de investigación solo se utilizarán datos del CDA de la ciudad de Piura.
Además, la empresa Freshkolita S.A. solo permite acceso a información histórica limitada,
por esa razón se empleará la información correspondiente a los años del 2017 al 2020.
No contar con acceso a información estructurada de los competidores no permite hacer un
análisis completo del mercado, por lo que se limita a históricos propios del comportamiento
de los productos propios de Freshkolita S.A..

III. MARCO TEÓRICO:


a) Metodología de ciencia de datos
Según Rollins, J. (2015), la metodología es entendida como una estrategia general para
orientar, agilizar y mejorar el proceso para la obtención de respuestas o resultados.

16
La Figura 4 muestra las 10 etapas que conforman la metodología de ciencia de datos, las
cuales están involucradas, cada una tiene un papel importante y en conjunto forman un
proceso iterativo para el uso de datos que conlleva el descubrimiento de insights (Rollins, J.,
2015).

Figura 5. Metodología fundamental para la ciencia de datos, por IBM.

Comprensión empresarial
La aplicación de la metodología de datos inicia con la búsqueda de aclaraciones con respecto al
objetivo de la investigación. Esta etapa permite responder a la pregunta sobre cuál es el
problema que se está tratando de resolver. En tal sentido, define la pregunta que dirigirá el
enfoque analítico a adoptar para responder a la cuestión (García, C., 2019). Acorde con los
objetivos de la empresa.

Enfoque analítico
Según Patel, A. (2019), esta etapa involucra expresar el problema bajo el contexto de técnicas
estadísticas y herramientas de aprendizaje automático adecuadas que conduzcan a la obtención
del resultado deseado. Si lo que se busca es determinar probabilidades de una determinada
acción, entonces el enfoque predictivo es el más apropiado.

Requisitos de datos
Esta etapa busca responder a la pregunta sobre qué tipo de datos se necesitarán ya que los
métodos de análisis podrían requerir “(…) determinados contenidos de datos, formatos y
representaciones orientados por el conocimiento del dominio” (IBM, 2015, p. 4). Los datos que

17
se requieren son recopilados del sistema comercial de la empresa así como también la tendencia
del clima dentro del periodo analizado.

Recopilación de datos
En esta fase se identifica, reúne y recopila los recursos de datos disponibles y relevantes para el
área del problema. En caso de obtener lagunas durante el proceso, es probable que se deba
revisar los requisitos de datos y recopilar más o menos datos (IBM, 2015). Por tal motivo se
extrae información interna de la empresa a través de diversos sistemas, así como también de
informes relacionados al clima de instituciones como Senamhi.

Comprensión de datos
En esta etapa, IBM (2015) señala que se suele emplear estadísticas descriptivas y técnicas de
visualización para comprender el contenido de los datos, evaluar su calidad, evaluar su calidad y
descubrir insights; además al encontrar vacíos es posible que sea necesario regresar a recopilar
datos (p.4). Para este trabajo se aplicará la estadística descriptiva y predictiva, con técnicas de
visualización para resaltar los cruces de variables que nos ayuden a responder nuestras preguntas
de investigación.

Preparación de datos
De acuerdo con IBM (2015), esta etapa abarca todas las actividades para construir el conjunto de
datos; entre estas actividades comprenden la limpieza de datos (tratar con valores no válidos o
que faltan, eliminar duplicados y dar un formato adecuado); combinar datos de diversas fuentes
y transformarlos en variables más útiles (p.4).

Modelado
Este paso se centra en elaborar modelos que sean descriptivos (aborden qué sucedió) o
predictivos (infieran qué podría suceder), u otro modelo dependiendo del enfoque analítico
elegido. Este proceso suele ser iterativo ya que las organizaciones van adquiriendo insights, lo
cual conlleva a realizar ajustes en la preparación y especificación del modelo (IBM, 2015).

Evaluación
En esta etapa se evalúa el modelo para comprender su calidad y garantizar que aborda el
problema empresarial de forma adecuada y completa. Esta evaluación implica el cálculo de

18
varias medidas de diagnóstico y otros resultados que permitirá interpretar la calidad y eficacia
del modelo (IBM, 2015).

Implementación
Luego de la aprobación del modelo, éste se implementará en el ambiente de producción o en un
entorno de prueba. Este despliegue en un proceso comercial, por lo general, involucra contar con
múltiples grupos, capacidades y tecnologías ya que esta etapa suele ser netamente operativa
(Patel, A., 2019).

Comentarios
Luego de implementado el modelo la organización recibe retroalimentación sobre su
rendimiento y su impacto en el entorno de implementación, con esto se podrá refinar el modelo,
aumentar su precisión y por ende su utilidad (IBM, 2015).

IV. REQUISITOS Y RECOPILACIÓN DE DATOS


a) Determinación de datos necesarios para responder las preguntas
Con los análisis de situación se determina que se utilizará la fuente primaria de la empresa de
la cual se obtendrá la data estructurada relacionada al histórico de ventas del CDA de Piura y
los datos relacionados a las temperaturas mensuales de la región, provenientes de los
histogramas de la base de datos del INEI como fuente secundaria. Se recopilaron las facturas
de las compras realizadas por los clientes (bodegas) del CDA.

Las facturas recopiladas fueron emitidas durante el período del 2017 al 2020, también se
cuenta con la tabla de asignación de la frecuencia de visitas de los vendedores. Finalmente,
se espera encontrar una tendencia en el comportamiento de compra de los clientes (bodegas)
por ello se analizarán las siguientes variables:

● Código del cliente bodega: Se obtendrá de la cabecera de las facturas en un archivo


Excel de la data del sistema comercial de Freshkolita.
● Fecha de emisión para observar la frecuencia de compra: Se obtendrá de las fechas
registradas en el encabezado de las facturas emitida para cada cliente ubicadas en el
archivo Excel de cabecera de facturas de Freshkolita.

19
● Código de Productos que compran: Se obtendrá del detalle de los productos
registrados en cada factura emitida para cada cliente ubicada en el archivo Excel
artículos de facturas de Freshkolita.
● Importe total: Se obtendrá del detalle y valor de los productos tanto valor unitario y
total por tipo de producto registrado en la factura para cada cliente ubicado en el
archivo de Excel detalle de facturas de Freshkolita.
● Frecuencia de visita de los vendedores: Se obtendrá del archivo de comercial de
Freshkolita llamado frecuencia de visita realizado por cada vendedor por parte de la
distribuidora.
● Clima mensual: Se obtendrá de la data pública e histórica del INEI por cada mes de
los años analizados.

La información para indagar los datos en los que se centrará la investigación se obtendrá de
cuadros de Excel con información estructurada tanto de la data del sistema comercial de la
distribuidora Freshkolita, como del INEI.

b) Ubicación de fuentes de datos


Se ha decidido determinar que se utilizarán dos fuentes de datos una interna proveniente de
la compañía y otra externa proveniente del gobierno de Perú. Se determinó que la fuente de
datos de la compañía serán los datos del sistema comercial donde se registran todas las
actividades que comprenden las transacciones comerciales y las actividades que esta
representa junto a los responsables de cada una de ellas.
Asimismo, se determina que la fuente externa será el SENAMHI donde se obtendrán
gráficos de los datos históricos de las temperaturas mensuales de la región Piura de los años
que comprenden la investigación, del 2017 al 2020, con el fin de observar la variación del
clima y el impacto que este ha podido tener en el aumento o disminución de los productos
vendidos.

c) Presentación de datos recopilados


Los datos recopilados son datos estructurados.

20
Clientes
La variable de clientes nos muestra el cliente directo de Freshkolita en la Región de Piura, al
ser la región elegida para el inicio del proyecto “Producto sugerido”, siendo la capital de la
región el que genera mayor importancia y relevancia para el empresa.

Figura 6. Gráfica de cantidad de clientes por sector (zona geográfica) de Piura

Artículos
La empresa Freshkolita trabaja con diversos productos o artículos, por lo que para el
proyecto Producto Sugerido, se decidió agrupar los diversos artículos y presentaciones de los
mismos según características similares generando por consiguiente las categorías de
refrescos/gaseosas, bebidas fruta, agua purificada/sabores, energéticas/deportivas y tés. La
cantidad de presentaciones que conforman cada una de estas categorías se muestran en la
Figura 7.

21
Figura 7. Gráfica de cantidad de presentaciones de artículos por categoría.
Frecuencia de visita
Este reporte nos ayudará a conocer la frecuencia de visita de los asesores comerciales a las
bodegas según los sectores (zona geográfica) y día de la semana, ayudando a identificar los
días que poseen mayor. La Figura 8 muestra la frecuencia de visita a los puntos de venta
(bodegas) durante los días de la semana en las provincias de Piura.

Figura 8. Gráfica de cantidad de frecuencia de visita de los vendedores a las bodegas de las
provincias de Piura

22
Cabecera de facturas
El siguiente reporte nos muestra el listado de facturas generados durante el periodo de
investigación, logrando obtener un histórico de ventas por meses del periodo analizado,
identificando los periodos con mayor incremento de ventas (véase Figura 9)..

Figura 9. Gráfica del histórico de la cantidad de facturas de venta del 2017-2020.

Detalle de facturas
En los detalles podemos visualizar los productos adquiridos, la cantidad solicitada de
productos, los importes de venta unitario y total; además esta variable ayuda a identificar los
volúmenes de compra logrado en cada mes del año durante el periodo de estudio (ver Figura
10).

Figura 10. Gráfica del volumen de compra de las bodegas en cada mes del año durante el
2017-2020.

23
Clima
La Figura 12 muestra las temperaturas que se tuvieron por meses en los año 2017, 2018,
2019 y 2020.

Figura 11. Tipo de clima durante el periodo de estudio, fuente: SENAMHI.

COMPRENSIÓN Y PREPARACIÓN DE DATOS

a) Uso de herramientas para determinar posibles relaciones entre los datos.


Determinando el punto de partida
● Herramientas estadísticas:
Coeficiente de Correlación de Pearson:
Para el uso de esta técnica se empleó las fórmulas de coeficiente de correlación de
Pearson a través del uso del Ms. Excel, el cual permitió identificar correlaciones entre
variables. Para efectos del estudio las variables a considerar fueron: volumen de venta,
clima, forma de pago, categoría de artículo, ingresos, frecuencia de visita.

Análisis de Regresión Lineal


Técnica estadística utilizada para predecir el valor de una variable (dependiente) según el
valor de la otra (independiente) (IBM, 2021). Para esto, se empleó gráficos de dispersión
de datos (X, Y) a través del uso del Ms. Excel, con el cual se mostró la relación entre
conjuntos de valores. Además, esta técnica permite conocer las relaciones e identificar
correlaciones existentes entre variables del estudio. Cabe precisar que las variables
analizadas mediante el uso de esta herramienta fueron: volumen de venta, clima, forma
de pago, categoría de artículo, ingresos, frecuencia de visita.

24
● Técnicas de visualización:
Gráficos para visualización de tendencias
Uso de gráficos combinados, que incluyen dos tipos de gráficos diferentes en uno solo,
muestra los datos usando barras o líneas, donde cada una representa una categoría o
variable concreta. Esta técnica facilita la detección de tendencias o patrones ya que
resulta visualmente más comprensible y atractivo. Al igual que en el punto anterior, las
variables analizadas a través del uso de esta herramienta fueron: volumen de venta,
clima, forma de pago, categoría de artículo, ingresos, frecuencia de visita.

b) Revisión y depuración de datos que se usarán en el estudio


1. Comprensión de los datos
Para esta etapa se realizó la revisión y evaluación para comprender el contenido de los
datos con la finalidad de asegurar que se cuenta con la cantidad de datos idóneos. Al
encontrar datos insuficientes se volvió a recopilar más datos para contar con información
suficiente. Por lo que, se seleccionaron las variables que se muestran en la tabla 3;
asimismo se generaron variables adicionales, las cuales serán útiles para las siguientes
etapas del proyecto, estas se muestran en la Tabla 8.

Tabla 3. Variables originales

1 NUCOR Número correlativo de factura


2 FEEMI Fecha de emisión de factura
3 RUCREC R.U.C. del receptor
4 RZOREC Razón social del receptor
5 CATPRO Categoría de artículos
Valor de venta por cada ítem de artículo
6 TOTCIM vendido
7 NUMVEN Código del vendedor
8 CDRUT Código de ruta
9 CANVEN Volumen de venta facturado
10 IMPTVT Valor de venta de cada factura
11 CLICAN Descripción de zona geográfica de venta
12 DSBCHN Código de zona geográfica
13 DESPRO Descripción de artículos vendidos

Tabla 8 Variables adicionales


1 AÑO Año correspondiente a la fecha de factura
2 MES Mes correspondiente a la fecha de factura
TEMPERATURA
3 PROMEDIO Temperatura promedio mensual
25
4 FRECUENCIA DE VISITA Frecuencia de visita para toma de pedidos
Condición de pago:
5 DETCOD 111: Contado
113: Crédito

2. Preparación de los datos


En esta fase se realizó la limpieza de datos (tratamiento de datos no válidos, duplicados y
eliminación de datos no necesarios); así como la combinación con otras fuentes con la
finalidad de transformar los datos en variables más útiles.

En tal sentido, se realizó las siguientes actividades detalladas a continuación:

Primer paso: Consistencia de los datos


● Revisar la consistencia de los datos que se encuentren en formatos de número
entero, número decimal o en cadena de caracteres (texto, etc.) cuyos contenidos
están sujetos a restricciones detalladas en el diccionario de datos, ver ítem e del
presente capítulo.
● Eliminación de los espacios en blanco.

Segundo paso: Construcción de variables adicionales necesarias para el procesamiento


de datos (véase Tabla 8).

Tercer paso: Creación de tabla dinámica, a partir de la cual se generarán las


visualizaciones pertinentes.

A continuación, se describe el desarrollo de la preparación de datos:

a. Ingresos totales
Se tomó el ingreso acumulado mensual, de todos los servicios efectuados durante los
años 2017 al 2020. Como se puede observar en la Figura 5, la información original
sobre la fecha de emisión de las facturas estaba en formato texto y dispuestos de
manera diaria.
Se realizó la transformación de los datos de fecha a través del uso de fórmulas Excel,
obteniéndose como resultado el formato MM-YY.
La Figura 6 muestra la distribución de las ventas acumuladas mensuales, las cuales
serán empleadas para los análisis de datos y visualizaciones.

26
Figura 12. Ingresos acumulados mensuales reales.

b. Categorías de artículos (productos)


Inicialmente la base de datos recopilada solo mostraba la descripción de artículos, el
cual hacía referencia 235 tipos de artículos diversos que varían en presentación y
marca.
Entonces, a partir de la variable descripción de producto se procedió a agrupar
productos según características similares de acuerdo a la clasificación sugerida
detallada..Luego de realizado las agrupaciones se obtuvo el campo de categorías, el
cual será de utilidad para los análisis que involucren generar relaciones con categorías
de productos (ver Tabla 9).

Categoría

Refrescos/Gaseosas

Aguas Purificadas

Bebidas Fruta

Energéticas/Deportivas

Tés

Tabla 9 Categorías de artículo


c. Zona geográfica de clientes
A través del código CLICAN que refiere a la descripción del área geográfica de venta
se realizó la asociación de lugares a zonas. Los resultados se muestran en la Tabla 10.

Tabla 10. Resultados obtenidos sobre la zona geográfica de venta

27
d. Impacto del clima en los ingresos
Para la variable del impacto del clima, se ha considerado la temperatura promedio
mensual, para su tratamiento en los análisis se consideró únicamente las cifras más no
los caracteres de “°C”.

e. Impacto de la forma de pago en los ingresos


Se ha construido la variable “forma de pago” que proporciona una escala asociada con
la obtención de liquidez a través de las ventas. Se ha considerado la generación de
esta variable como oportunidad para medir la estabilidad de ingresos a crédito y al
contado direccionado a la obtención de insights que resulten útiles para la compañía.

Para ello, se partió de la variable forma de pago original (ver Figura 9), a partir de la
cual se asignó puntuación según el criterio descrito a continuación. Los resultados se
aprecian en la tabla 11.

Puntuación por forma de pago:


▪ 2: Ventas efectuadas al contado
▪ 1: Ventas efectuadas a crédito

Al contado A crédito Datos reales Datos imputados


Mes
2 1 Forma de pago Ingreso Forma de pago Ingreso
ene-17 1041 7 2089 162582.28 2089 162582.3
feb-17 1055 1 2111 139346.22 2111 139346.2
mar-17 1140 0 2280 157063.34 2280 157063.3
abr-17 1117 0 2234 151384.34 2234 151384.3
may-17 1163 2 2328 133306.7 2328 133306.7
jun-17 1371 0 2742 112474.83 2742 112474.8
jul-17 1310 9 2629 107404.32 2629 107404.3
ago-17 1406 7 2819 110881.88 2819 110881.9
sep-17 1592 1 3185 112851.68 3185 112851.7
oct-17 1617 3 3237 122041.41 3237 122041.4
nov-17 1356 134 2846 115784.61 2846 115784.6
dic-17 1325 120 2770 162045.16 2770 162045.2
28
ene-18 1351 71 2773 162301.95 2773 162302.0
feb-18 1301 54 2656 181367.2 2656 181367.2
mar-18 1350 46 2746 168873.34 2746 168873.3
abr-18 1205 49 2459 145066.16 2459 145066.2
may-18 1202 72 2476 136290.28 2476 136290.3
jun-18 1023 77 2123 102494.99 2123 102495.0
jul-18 1099 50 2248 108022.91 2248 108022.9
ago-18 1013 88 2114 115380.81 2114 115380.8
sep-18 1056 85 2197 111883.02 2197 111883.0
oct-18 1160 95 2415 115768.8 2415 115768.8
nov-18 1125 106 2356 112635.54 2356 112635.5
dic-18 1402 120 2924 165510.42 2924 165510.4
ene-19 1252 127 2631 162556.68 2631 162556.7
feb-19 1379 98 2856 157631.98 2856 157632.0
mar-19 1587 105 3279 191191.74 3279 191191.7
abr-19 1370 105 2845 163422.27 2845 163422.3
may-19 1407 67 2881 145527.99 2881 145528.0
jun-19 1226 74 2526 114462.6 2526 114462.6
jul-19 1040 24 2104 113379.95 2104 113380.0
ago-19 1100 15 2215 111833.05 2215 111833.1
sep-19 1021 17 2059 104101.45 2059 104101.5
oct-19 1144 22 2310 129045.92 2310 129045.9
nov-19 1083 21 2187 126890.28 2187 126890.3
dic-19 1277 23 2577 184098.32 2577 184098.3
ene-20 1100 18 2218 174171.35 2218 174171.4
feb-20 1267 16 2550 180524.95 2550 180525.0
mar-20 1100 19 2219 160677.21 2219 160677.2
abr-20 865 19 1749 103068.36 1749 103068.4
may-20 1006 16 2028 110783.14 2028 110783.1
jun-20 1112 17 2241 104745.85 2241 104745.9
jul-20 1032 21 2085 103896.13 2085 103896.1
ago-20 951 18 1920 97427.21 1920 97427.2
sep-20 998 23 2019 104137.01 2019 104137.0
oct-20 1056 19 2131 145644.23 2131 145644.2
nov-20 964 23 1951 117209.77 1951 117209.8
dic-20 1129 19 2277 185251.52 2277 185251.5

La Tabla 11 Forma de pago sobre datos reales e imputados.

f. Impacto del volumen de venta en los ingresos


Se ha construido la variable adicional de volumen de venta a partir de las variables de
cajas y unidades recopilados originalmente. Se asignó una puntuación de acuerdo al
criterio de mayor capacidad de artículos. La Tabla 12 muestra los resultados de este
tratamiento.

Puntuación por volumen de venta:


▪ 2: Cantidad de artículos vendidos en cajas.
▪ 1: Cantidad de artículos vendidos en unidades.

29
Venta Datos reales Datos imputados
Venta de de
Mes cajas unidad
Volumen de venta Ingreso Volumen de venta Ingreso
2 es
1
ene-17 5759 1345 12863 162582.28 12863 162.6
feb-17 5350 1356 12056 139346.22 12056 139.3
mar-17 5734 1524 12992 157063.34 12992 157.1
abr-17 5832 1111 12775 151384.34 12775 151.4
may-17 5399 1216 12014 133306.7 12014 133.3
jun-17 4378 1229 9985 112474.83 9985 112.5
jul-17 4227 1084 9538 107404.32 9538 107.4
ago-17 4424 1170 10018 110881.88 10018 110.9
sep-17 4582 1338 10502 112851.68 10502 112.9
oct-17 4912 1440 11264 122041.41 11264 122.0
nov-17 4665 1493 10823 115784.61 10823 115.8
dic-17 6186 1895 14267 162045.16 14267 162.0
ene-18 5712 1846 13270 162301.95 13270 162.3
feb-18 6466 1776 14708 181367.2 14708 181.4
mar-18 6298 1967 14563 168873.34 14563 168.9
abr-18 5311 1671 12293 145066.16 12293 145.1
may-18 4758 1369 10885 136290.28 10885 136.3
jun-18 3451 1002 7904 102494.99 7904 102.5
jul-18 3609 1184 8402 108022.91 8402 108.0
ago-18 4145 938 9228 115379.72 9228 115.4
sep-18 3977 1065 9019 111882.64 9019 111.9
oct-18 4365 1148 9878 115767.6 9878 115.8
nov-18 4396 1335 10127 112633.33 10127 112.6
dic-18 5560 1819 12939 165509.49 12939 165.5
ene-19 5738 1660 13136 162233.93 13136 162.2
feb-19 5214 1792 12220 157637.26 12220 157.6
mar-19 6255 2121 14631 191198.93 14631 191.2
abr-19 5627 1882 13136 163430.01 13136 163.4
may-19 5128 1601 11857 145534.62 11857 145.5
jun-19 4079 1326 9484 114468.09 9484 114.5
jul-19 3895 1197 8987 113385.19 8987 113.4
ago-19 3949 1311 9209 111838.38 9209 111.8
sep-19 3957 1202 9116 104106.72 9116 104.1
oct-19 4682 1661 11025 129051.91 11025 129.1
nov-19 4691 1430 10812 126895.96 10812 126.9
dic-19 6594 1567 14755 184105.96 14755 184.1
ene-20 6496 1711 14703 174179.59 14703 174.2
feb-20 6395 1821 14611 180532.58 14611 180.5
mar-20 5718 1546 12982 160684.75 12982 160.7
abr-20 3896 805 8597 103073.81 8597 103.1
may-20 3761 756 8278 110787.86 8278 110.8
jun-20 3355 678 7388 104750.15 7388 104.8
jul-20 3584 677 7845 103901.5 7845 103.9
ago-20 3486 718 7690 97432.09 7690 97.4
sep-20 3682 937 8301 104142.27 8301 104.1
oct-20 4786 1366 10938 145650.16 10938 145.7
nov-20 4134 1106 9374 117214.74 9374 117.2
dic-20 5731 1330 12792 185254.66 12792 185.3
La Tabla 12. Forma de pago sobre datos reales e imputados.

30
g. Impacto de la frecuencia de visita en los ingresos
A partir de los datos recopilados sobre rutas se realizó los filtros necesarios,
determinando que la frecuencia de visita para todos los clientes de la muestra se
efectúa dos veces por semana. Debido a la falta de variabilidad, y por ende la ausencia
de correlaciones, no se consideró esta variable como útil para efectos del proyecto.
Resultados de la Depuración de Datos
La Tabla 13 muestra los resultados de la depuración de datos, luego de efectuar la
limpieza, eliminación de los datos recopilados, así como las variables que serán útiles
para el estudio.

Variable Tipo de dato Nivel de Luego de limpieza y N° total de Cantidad


calidad recuperación datos Datos Nulos

Variable 1 Cadena de caracteres 0% 0% 48 0

Variable 2 Numérico 0% 0% 48 0

Variable 3 Cadena de caracteres 0% 0% 8 0

Variable 4 Cadena de caracteres 0% 0% 48 0

Variable 5 Numérico 0% 0% 48 0

Variable 6 Cadena de caracteres 0% 0% 5 0

Variable 7 Cadena de caracteres 0% 0% 1 0

La Tabla 13. Resultados de la depuración de datos recopilados

c) Calidad de datos

La información original recopilada, fue obtenida del Sistema Comercial en AS400 (IBM), el
cual ofreció data estructurada confiable, organizada, no se reportó errores durante la
revisión de los datos, por lo que no hubo necesidad de realizar correcciones y/o
recuperaciones, no obstante, solo se hicieron cambios en la cantidad de campos ya que
muchos de estos fueron eliminados a fin de obtener únicamente los campos y datos sobre
variables relevantes para el estudio. Asimismo, la data recopilada sobre la variable clima
partió de datos estructurados en los que no se reportó errores.

31
Cabe precisar que el Sistema Comercial en AS400, permite la parametrización en los
campos de datos, limitando a los usuarios que incurran en errores al momento del
llenado de la información, brindando con ello una mayor confianza en la data trabajada.
Asimismo, posee tablas de ayuda al usuario que pueden ser consultadas en cualquier
momento del llenado.

Importante mencionar que, el sistema comercial de Freshkolita S.A. cuenta con un


módulo de mantenimiento de tablas maestras, entre ellos el Maestro de Clientes y el
Maestro de Artículos. El mantenimiento cuenta con las validaciones necesarias para cada
campo solicitado durante el alta2 o actualización de un cliente o artículo.El sistema
comercial con el que opera Freshkolita S.A., es un sistema in-house creado a medida de
los requerimientos de la empresa, el soporte y mantenimiento del mismo es brindado por
el área de TI, por lo que las reglas de negocio y configuraciones de estos módulos son
gestionadas únicamente por la compañía.

Cabe precisar que, los mantenimientos y/o actualizaciones son realizados a


requerimiento del usuario. Por ejemplo: el código de cliente o artículo se autogenera
durante el alta, en el caso de campos numéricos no se permite el ingreso de datos en
texto, entre otros. Además, el módulo de mantenimiento de clientes, asigna a cada cliente
el tipo de comprobante a emitir (boleta o factura) y esto dependerá del número de RUC
indicado en la ficha de inscripción de SUNAT.
Los datos de mayor relevancia ingresados al sistema comercial para emisión de facturas
son:
o Razón social
o Descripción de la dirección del cliente
o Ruta del cliente
o Segmento del cliente
En cuanto al maestro de artículos también cuenta con sus propias validaciones
necesarias siendo los datos de mayor relevancia: código de artículos, descripción de
artículos.
Por último, se remarca que cada departamento o área cuenta con acceso a distintos
reportes diseñados con acceso a información relevante y apropiada para sus funciones.
Para esto, en cuanto a nombres de campo y contenido a nivel de base de datos (de uso

2
Alta, refiere a la creación de un nuevo cliente y/o artículo en el sistema.
32
para desarrolladores) son configurados internamente para luego brindar información
(campos y contenido) de fácil lectura y comprensión para cada área de la compañía.

d) Gobierno de datos
Las variables de Volumen de Venta y Categoría de producto están comprendidos en el
Maestro de Artículos, el área encargada de la administración de estos, de establecer los
lineamientos, velar porque la data esté correcta y realizar los mantenimientos pertinentes, es
el área de Administración Comercial. Esta área recepciona la solicitud de alta toda vez que se
requiere la activación de un nuevo SKU. Además, es preciso mencionar que, para el caso de
la creación de un nuevo SKU, este es solicitado por el Área de Planeamiento y Marketing,
cuya solicitud es recibida por el área de Administración Comercial a fin de realizar la
creación de los códigos. Una vez generado el código de artículo se crean las cuentas
contables en el sistema SAP de la compañía.

Por otro lado, en cuanto a las variables de ingresos, zona geográfica, forma de pago y
frecuencia de producto, estos están comprendidos en el Maestro de Clientes, el área
encargada de la administración, de establecer los lineamientos, velar porque la data esté
correcta y de realizar los mantenimientos pertinentes, es el área de Administración
Comercial. Esta área recepciona la solicitud de alta de un nuevo cliente. Además, de
mencionar que toda creación o actualización de un cliente son realizados a requerimiento del
usuario, que en este caso es solicitado por el gestor comercial (ventas).

e) Diccionario de datos

Variable Longit Tipo de Dato Nul Uni Formato Descripción Regla de Negocio
ud o co

Clima 4 Cadena de No No Texto Temperatura Solo son validos datos en


caracteres promedio mensual °C

Ingresos 10 Numérico No No Entero 10, Ingreso total de Ninguna


Totales decimal 2 ventas

Zona 15 Cadena de No No Texto Zona geográfica de Solo de la región Piura


geográfica caracteres venta

Forma de 8 Numérico No No Entero 10 Condición de pago 111=Contado,


pago 113=Crédito

Volumen de 8 Numérico No No Entero 10 Volumen de artículos Ninguna


venta vendidos

33
Categoria de 12 Cadena de No No Texto Categoria de Solo son válidos
articulos caracteres articulos Refrescos/Gaseosas,
Aguas Purificadas,
Bebidas Fruta,
Energéticas/Deportivas y
Tés

Frecuencia de 10 Cadena de No No Texto Frecuencia de visita Ninguna


visita caracteres de los vendedores

Mes de venta 6 Cadena de No Si Texto Mes de venta de Solo meses del año
caracteres artículos

Tabla 13 Diccionario de datos

VISUALIZACIÓN
a) Presentación de datos a utilizar para el estudio
Se decidió seleccionar las variables detalladas a continuación:
a. Zona geográfica de ventas
En la Tabla 14 se detalla los ingresos por zona geográfica, la Figura 13 muestra la
gráfica de cada zona geográfica según nivel de ventas alcanzado y la Figura 14
presenta las zonas geográficas según total de ingresos.

Tabla 14. Impacto de la zona geográfica en los ingresos.

34
Figura 13. Gráfica de Distribución de ventas en soles por provincias de Piura por año.

Figura 14. Treemap de la distribución de ventas por zona geográfica según nivel de
ingresos alcanzado.

b. Categorías de productos
La Tabla 15 presenta la cantidad de ventas (facturas emitidas) según categoría de
producto y en la Figura 15 se muestra estos datos mediante un diagrama de pareto.

Cantidad de % % Acumulado
Categoría
venta Categorías de Categorías
Refrescos/Gaseosas 194383 68% 67.53%
35
Aguas Purificadas 50874 18% 85.20%
Bebidas Fruta 34092 12% 97.04%
Energéticas/Deportiva
s 8398 3% 99.96%
Tés 112 0% 100.00%
Total general 287859
Tabla 15. Cantidad de ventas por categoría de productos.

Figura 15. Diagrama de Pareto de cantidad de ventas por categoría.

c. Clima
La Figura 16 muestra el comportamiento de las temperaturas promedio de la región de
Piura.

Figura 16. Temperaturas promedio de la región Piura durante el 2017-2020.

36
d. Ingresos Totales
A continuación se presenta el nivel de ingresos totales mensuales durante el 2018-
2020.

Figura 17. Ingresos totales mensuales durante el 2017-2020.

e. Forma de Pago
La Figura 18 presenta la cantidad de ventas, es decir, la cantidad de facturas emitidas
según forma de pago durante el periodo de estudio.

Figura 18. Cantidad de ventas según forma de pago durante el 2017-2020.

f. Volumen de Venta
En la Figura 19 se muestra los volúmenes de venta (cantidad de articulos vendidos)
mensual.

37
Figura 19. Volúmenes de venta mensual durante el 2017-2020.

b) Determinación de las herramientas de visualización a utilizar para el proyecto


Se decidió emplear las herramientas de visualización ofrecidas por el Microsoft Excel para el
desarrollo de gráficas, para la identificación de relaciones sobre los conjuntos de datos
recopilados en tablas dinámicas, correlaciones de las variables del estudio elegidas y el
desarrollo de técnicas de visualización para identificación patrones en el análisis de
relaciones de dichas variables.
Por otro lado, se empleará la versión del Power BI Desktop para el diseño de modelamiento
de datos y la elaboración de visualizaciones interactivas de los resultados del proyecto. La
razón de la elección de esta herramienta se debe a las bondades de la misma frente a otras
herramientas del mercado, las cuales se muestran en la Figura 20.

38
Figura 20. Comparativo de herramientas interactivas similares.

PRODUCCIÓN Y ANÁLISIS EXPLORATORIO DE DATOS


a) Plan de muestreo y tamaño de la muestra
El método de muestreo empleado es de tipo discrecional, no probabilístico. Este tipo de
muestreo es también denominado muestreo por juicio, el cual se caracteriza en que la
selección de la muestra se realiza en base al criterio profesional del investigador y su
conocimiento sobre la población, así como el comportamiento de ésta frente a las
características que se estudian. Por lo antes expuesto, se decide tomar la muestra del universo
de 16492 clientes solo en la Región piura en solo 125 clientes los cuales corresponden a
bodegas en las provincias de Piura, Sullana, Chulucanas, Paita, Talara - Centro y Negritos.
La empresa ha basado estudios previos en esta muestra.

b) Diseño del estudio de muestreo


Se establece el siguiente conjunto de estrategias y procedimientos para la selección de la
muestra que será objetivo del estudio:

c) Ejecución del muestreo


Por lo expuesto en la etapa anterior, se establece el tamaño de muestra según el siguiente
criterio:

En primer lugar, se partió del universo a nivel del Centro de Distribución Autorizado de
Piura el cual cuenta con 16,492 clientes activos. De esta cantidad se consideró el canal de
bodegas que son 5,378 clientes activos. Luego, de esta cantidad se filtró únicamente a los
39
clientes (bodega) a los que se emite factura siendo esta cantidad 1.329 clientes. Luego, se
tomó el criterio de considerar a los clientes con antigüedad mayor a 4 años resultando 910
clientes. Finalmente se filtró y consideró para efectos del estudio a los clientes que cuentan
con correo electrónico, siendo esta cantidad 125 clientes.

Esquema del criterio propuesto:


Criterio 1: Universo (CDA Piura): 16,492 clientes
Criterio 2: Selección del canal bodegas: 5,378 clientes.
Criterio 3: Bodega con factura: 1,329 clientes.
Criterio 4: Clientes con antigüedad mayor a 4 años: 910 clientes.
Criterio 5: Clientes con correo electrónico: 125 clientes.

d) Resumen y examen de la distribución de variables


Se consideraron las siguientes variables:
● Cantidad de ventas
● Distribución geográfica de bodegas
● Ingresos
● Clima mensual
● Categorías de productos

A partir de nuestra muestra, se realizó la distribución de los clientes por sectores de


ventas en Piura de donde se pudo deducir en qué provincias se encuentra la mayor
cantidad de clientes y qué provincias generan la mayor cantidad de ingresos.

40
● Distribución porcentual de ventas por provincias

Otras variables que se consideraron son los ingresos por categoría de producto, así como
la cantidad de ventas de cada una de ellas. Con este análisis se busca encontrar relación
entre el número de ventas y los ingresos totales.

41
● Cantidad de comprobantes según categoría de producto

e) Resultado del análisis de relaciones

COMENZANDO LA INTERPRETACIÓN DE DATOS


a) Estudio probabilístico de los datos obtenidos

Para el estudio del caso se ha empleado el método de muestreo por juicio, basados en la
experiencia y conocimiento del mercado y comportamiento de los clientes. Dicho método es
un método de muestreo no probabilístico. La muestra estudiada corresponde a clientes del
canal “bodegas”. Se consideran características que nos ayudan a visualizar y entender los
comportamientos históricos, información que nos ayuda a determinar tendencias de
comportamiento futuro. Debemos considerar que este tipo de muestreo incurre en menos
costos para realizar la investigación, pueden controlarse las características de la muestra y
conlleva menos tiempo, ya que se conoce al individuo que formará parte de la muestra.
Además se considera, para efectos de este análisis, que el muestreo no probabilístico es el
más indicado ya que no se conoce la probabilidad con la que se puede seleccionar a cada
individuo.

b) Distribución de la muestra: Interpretación del comportamiento

42
Nuestra muestra presenta un comportamiento lógico según su distribución geográfica e ingresos
percibidos por provincias de Piura. Sin embargo tiene un comportamiento anómalo en la cantidad de
agua vendida, ya que los ingresos que genera para la compañía son superiores.

https://www.universoformulas.com/estadistica/inferencia/muestreo-no-probabilistico/

REFERENCIAS BIBLIOGRÁFICAS
Alcarraz, M. (2016). Cadena de valor-Distribución-Arca Continental-Lindley (Trabajo de
investigación de bachiller en Administración de Empresas). Repositorio de la Universidad
de Piura. Facultad de Ciencias Económicas y Empresariales.
https://pirhua.udep.edu.pe/bitstream/handle/11042/2857/T_AEL_017.pdf?
sequence=1&isAllowed=y
Arca Continental Lindley. (2020). Información general.
https://www.arcacontinentallindley.pe/arca-continental-lindley.php
García, C. (2019, noviembre, 28). Metodología de la ciencia de datos (IBM) 2020.
CarlosGrowth(g). https://carlosgrowth.com/blog/metodologia-ciencia-datos/
Instituto Nacional de Estadística e Informática (2020). Anuario de estadísticas ambientales.
https://www.inei.gob.pe/media/MenuRecursivo/publicaciones_digitales/Est/Lib1760/libro
.pdf
Instituto Nacional de Estadística e Informática (2019). Anuario de estadísticas ambientales.
https://www.inei.gob.pe/media/MenuRecursivo/publicaciones_digitales/Est/Lib1704/libro
.pdf
Patel, A. (12 agosto del 2019). Part-4 Data Science Methodology from Modelling to Evaluation.
From Modelling to Evaluation. ML Research Lab – Medium(g) https://medium.com/ml-
research-lab/part-4-data-science-methodology-from-modelling-to-evaluation-
3fb3c0cdf805

43
Rollins, J. (2015). Foundational methodology for data science.  IBM Analytics.
https://www.ibm.com/downloads/cas/6RZMKDN8
Senamhi (2021). Pronóstico del tiempo para PIURA https://www.senamhi.gob.pe/main.php?
dp=piura&p=pronostico-detalle

ANEXOS
Diccionario de datos

44
Presentación del equipo de ciencia de datos

45
ESCAPA CHECCO, MARCOS ALEXANDER
Estudios: Administración de Empresas
Experiencia: Comunity Manager
Rol: Analista del Negocio

PORRAS ARIAS, KATHERINE LUZ


Estudios: Administración de Empresas
Experiencia: Gestión Comercial -
Exportaciones
Rol: Ingeniera de Datos

GIOLITO LOHSE, PAOLO AUGUSTO


Estudios: Administración de Empresas
Experiencia: Gestion Comercial - Ventas
Rol: Desarrollador de Datos

MEDINA TRUJILLO, LIZBETH ROXANA


Estudios: Ingeniería de Sistemas
Experiencia: Analista de Sistemas Comerciales
Rol: Cientifica de Datos

46

También podría gustarte