Documentos de Académico
Documentos de Profesional
Documentos de Cultura
VENTAS
MENSUALES
MENDIANTE
MODELOS BOX –
JENKINS
2020
El presente trabajo realiza proyecciones de productos
pertenecientes a la empresa Movistar o también
conocida como Telefónica. A pesar de haber tenido
unas caídas significativas durante los primeros meses
de la cuarentena dictada por el Gobierno Peruano, el
algoritmo desarrollado nos permite conocer cerca de
1900 proyecciones para distintos productos. Además,
ha funcionado sin problema alguno detectando así las
caídas y utilizándolas para proyectar con las
variaciones que tuvieron impacto en toda empresa
para el cierre de cada mes.
La utilidad del presente trabajo sigue siendo parte del
análisis de datos diarios en la empresa mencionada.
Siendo considerada no solo para el área de Ventas sino
también para el área de Finanzas y Cobranzas.
INDICE
1. Introducción.................................................................................................................2
2. Objetivos .....................................................................................................................2
3. Metodología ................................................................................................................2
a. Recopilación de datos ....................................................................................................... 2
b. Variables ............................................................................................................................ 2
4. Resultados ...................................................................................................................3
4.1. Resultados Descriptivos ............................................................................................ 3
4.1.1. AED .................................................................................................................... 3
4.1.2. AC ...................................................................................................................... 6
4.2. Resultados Evolutivos................................................................................................ 8
5. Conclusiones ..................................................................... ¡Error! Marcador no definido.
6. ANEXOS ............................................................................ ¡Error! Marcador no definido.
1. Introducción
2. Objetivos
3. Metodología
a. Recopilación de datos
Para la obtención de las salidas se utilizó softwares de índole estadística como R y Rstudio. La
librería ggplot2 permitió, mediante el uso progresivo del software, graficas adecuadas que sean
visibles para las conclusiones. La utilización de líneas de códigos en el interfaz permitió la
clusterizacion y modelación de los datos recopilados.
b. Variables
4. Resultados
Los resultados se mostrarán de acuerdo al análisis que se realizó. Actualmente toda empresa es
poseedora de una gran cantidad de datos y no tiene idea de como utilizarlos para mejorar su
perfil en el mercado del rubro al cual se dedica. Es por eso que los resultados se clasificaran de
la siguiente forma: Descriptivos, evolutivos y resultados de las Proyecciones.
4.1.1. AED
Figura Nº1 – Figura Nº4: Gráficos evolutivos de los productos que más ventas han tenido.
Los gráficos mostrados son totalizados de los productos registrados diariamente que han sido
vendidos de forma ONLINE a lo largo de este año. Lo resaltante es que el patrón de
comportamiento de una tiene una cercanía significativa con las demás (siendo solo considerados
3 productos de estos 4). Claro está que la caída se debió a las medidas de cuarentena tomadas
por parte del Gobierno.
Nota: Dada la cercanía del comportamiento evolutivo y por cuestiones de tiempo en los
posteriores análisis como el análisis evolutivo solamente se utilizará el producto “Trio – Online
– Lima Centro”.
Figura Nº5: Grafico de cajas del numero de Figura Nº6: Grafico de puntos por mes para el
ventas online 2020 numero de ventas online 2020
Los gráficos mostrados permiten una visualización tanto del comportamiento como el
reconocimiento de outliers de los datos recopilados.
Por ejemplo, en la Figura Nº5 se ve un dato atípico el cual no esta siendo considerado como
parte de la caja graficada. Este dato atípico puede deberse a un error al procesar la data o al
registrarla. Para este caso en particular no lo es ya que figura en el archivo de colocaciones del
presente año.
Figura Nº7: Grafico de cajas con Figura Nº8: Grafico de cajas observable de ventas
promedio por día 2020 diarias realizadas a lo largo del 2020.
Del mismo modo que se pueden evaluar diariamente el comportamiento de los días para las
ventas de los productos. Esto con la finalidad de evaluar una estacionalidad, como vemos en la
Figura Nº8 en los días martes a sábado tienen un nivel promedio parecido y dado que el grafico
es semanal se podria estar hablando de un comportamiento semanal entre estos días. Esta
“supuesta” estacionalidad se confirmará con el AC (análisis composicional).
Las caídas entre el día lunes y los días domingos podría estarse debiendo a la continuidad de un
fin de semana. Es decir que la caída que presentan los días domingos en cuanto a ventas podría
estar impactando en los días lunes de una semana consecutiva y de esta forma impidiendo una
mayor cantidad de ventas. Además, factores externos como el inicio de una semana lleno de
responsabilidades para la semana pueden estar limitando la adquisición de productos por parte
de los clientes y no clientes.
4.1.2. AC
El Análisis Composicional (AC) se basa en el principio de que toda serie de tiempo tiene
elementos pocas veces visible para la observación de el grafico de esta. El modelo basado en las
ventas realizadas por parte de Trio – Online – Lima Centro podría ser multiplicativo o aditivo.
Una herramienta para el reconocimiento de estas es el Grafico de Dispersión vs Nivel.
Figura Nº10:
Grafico de
Dispersión vs Nivel
de las ventas
realizadas para los
Tríos – Online –
Lima Centro en el
2020.
En las figuras mostradas es visible que la tendencia era relativamente creciente durante las
primeras semanas. Mientras que durante la cuarentena la tendencia fue casi nula generando así
perdidas y dificultando el análisis continuo de la data. Después del levantamiento de la
cuarentena cerca de la semana 16 vemos que la tendencia continua su comportamiento
creciente.
Nota: Las gráficas se ven distintas a las ya vistas puesto que los algoritmos utilizados para el
análisis composicional no utilizan la librería “ggplot”. (Librería con la cual es más detallado la
gráfica).
Figura Nº11: Estacionalidad de las ventas de Figura Nº12: Estacionalidad promedio de las
Movistar 2020 ventas Movistar 2020
Los resultados evolutivos son básicamente tomar los resultados observados en un AED y un AC
para definir qué modelo estadístico podria ser útil y eficiente. Además, en esta parte lo que se
evaluaran serán los distintos parámetros que podrían generar estimaciones mas cercanas a la
realidad sin mucho margen de error. Cabe recordar que ningún modelo podria ser exacto ya que
el mercado actual como lo conocemos cambia diariamente por variables aleatorias imposibles
de controlar: catástrofes naturales, devaluación de la moneda, etc.
Se ha visto a través de las graficas relacionadas con el Analisis Composicional (AC) que hay una
tendencia, pero no muy marcada. Y el ruido es muy marcado para el sistema de serie de tiempo
que se manejó. Dada la caída significativa que tuvo la cuarentena se propuso manejar otras
herramientas: Modelos SARIMA.
Los modelos SARIMA plantean que se pueden formar modelos tanto predictivos como de
ajuste a una curva basados en 3 componentes no estacionales y 3 componentes estacionales,
siendo estas ultimas extraídas del total de número de datos observados.
Al igual que en el AC, nos enfocaremos en una sola variable como ejemplo. (Siendo viable hacer
para todas las variables con forme sea necesario).
Figura N°15: Matriz de las componentes de la serie de tiempo basados en las Ventas Semanales
del 2020.
Generalmente todo modelo con parámetros fijos sin importar la metodología generará lo que
denominamos como “valores estimados” o “valores ajustados” que no son mas que valores
generados a partir de los coeficientes del modelo. Estos al compararlos con los valores
observados (datos reales), tienen como resultado lo que denominamos como residuos. Un
calculo con estos residuos que nos permita comparar modelos en ocasiones es el RMSE (Error
cuadrático medio).
𝑒𝑖 = 𝑌̂𝑖 − 𝑌𝑖 , 𝑖 ∈ {1, … , 𝑛}
Estos residuos son esenciales para el desarrollo de los modelos y por sobre todo suponer un
modelo SARIMA.
Para ser puntual, si seguimos el comportamiento de la línea azul (datos ajustados), veremos que
cumplen con la distribución de los datos observados. Además, cumplen los residuos bajo una
distribución normal según el grafico Normal Q-Q. Esto es sumamente importante pues permite
seguir adelante con el modelizado SARIMA.
Lo que ahora faltaría seria definir los parámetros para poder encontrar un modelo más eficiente.
Los modelos SARIMA dependen primordialmente de los valores de los parámetros utilizados.
Cabe resaltar que todo este proceso también tiene como antecedente un gran numero de
pruebas las cuales no se están mostrando para fines prácticos. Sin embargo, pruebas como la de
Shapiro, Kolgomorov o Dickey-Fuley han sido confirmadas si es que se tiene alguna duda.
Para comparar todos los modelos posibles es necesario el uso de funciones y el uso de
multiplicadores de Lagrange. Este tipo de funciones y algoritmos son bastante pesados,
abstractos y extensos para la comprensión inmediata. Debido a esto, se decidió realizar una
función que brindara el RMSE como resultado de un modelo con ciertos parámetros
determinados.
Se observa que los residuos se encuentran alrededor del 0, también podemos ver que en el ACF
que las líneas se encuentran dentro de nuestra banda de confianza, además se observa que en
el histograma la forma que muestran los residuos en forma de campana (normalidad).
En esta prueba que llevaremos a cabo se verá si el modelo presenta el conocido “ruido blanco”
(media de los errores igual a 0, varianza constante y no estar seriamente correlacionada) y así
afirmar si el modelo se ajusta a los datos.
Con un 5 % de significancia podemos afirmar que los errores presentan ruido blanco
(p.value =0.57)
Se observa justamente que el modelo capto el patrón de que se está observando en la serie.
scrip
Lopa Ruben
11 de septiembre de 2020
library(lubridate)
library(zoo)
library(forecast)
library(dplyr)
setwd("D:/2020-1/Estadística Computacional/Exposión")
Q2<-read.csv("Q2.csv",header = T,sep = ";")
head(Q2,6)
Q2$Fecha<-as.Date(Q2$Fecha,"%d/%m/%y")
str(Q2)
View(Q2)
levels(Q2$Producto)
levels(Q2$Canal)
levels(Q2$Zonal)
pro<-"TRIO"
canal<-"ONLINE"
zonal<-"LIMA CENTRO"
minimo<-"2020-06-01"
maximo<-"2020-08-15"
# COMPROBANDO
comp<-filter(Q2,Producto==pro,Canal==canal,Zonal==zonal,month(Fecha)==
8)
head(comp,6)
sum(comp$Q)
# COMENZANDO EL MODELO
data_completa<-filter(Q2,Fecha>=minimo,Fecha<=maximo)
data_completa<-filter(data_completa,Producto==pro,Canal==canal,Zonal==
zonal)
# CORROBORAR SI ES VERDADERO
dim(data_completa)[1]>=30
## [1] TRUE
x<-data_completa
x<-arrange(x,Fecha)
if(max(x$Fecha)<maximo){
ma<-data.frame(Producto=pro,Canal=canal,Zonal=zonal,Fecha=maximo,Q=0
)
x<-rbind(x,ma)
}
if(min(x$Fecha)>minimo){
mi<-data.frame(Producto=pro,Canal=canal,Zonal=zonal,Fecha=minimo,Q=0
)
x<-rbind(x,mi)
}
x<-arrange(x,Fecha)
# VENTAS A LA FECHA
a<-day(max(x$Fecha))
# CANTIDAD DE PRONOSTICOS A LA FECHA QUE FALTAN A CERRAR EL MES
b<-31-a
#VENTA A LA FECHA 14
dia<-sum(x2$Q2[(dim(x2)[1]-a+1):dim(x2)[1]])
tsx2<-ts(x2$Q2,start=1,frequency = 7)
plot(tsx2)
# CANTIDAD DE PRÓNOSTICOS
pronostico<-forecast(modelo,b,10)
# GRÁFICA DE PRONÓSTICO
plot(pronostico,main=c(pro,canal,zonal))
falta<-sum(pronostico$mean)
proyeccion<-round(dia+falta)
proyeccion
## [1] 9504
## [1] 0.0622555
En la data de la empresa Telefónica abordaremos para este caso del servicio “Trio Online Lima
Centro”: Producto Trio, del canal de venta tipo Online, en la zona Lima Centro; el cual lo
mencionado anteriormente en la parte teórica del presente trabajo, utilizando el modelo
Sarima, con las fechas siguientes:
En la que veremos el comportamiento de las ventas, los cuales son susceptibles a cambios en
función al tiempo.
Modelo Sarima
En el modelo observamos que en la parte no estacionaria se realizó 1 diferencia, eso es para que
se vuelva estacionaria, [7] este valor nos indica que es diaria (7 dias = semanal), respecto a los
indicadores AIC Y BIC nos indicaría que son el mejor modelo en comparación a los otros.
Respecto al análisis de componentes se observa estable con una ligera tendencia ascendente
hasta el punto 7 luego vuelve a ser estable.