Está en la página 1de 15

Previsión probabilística de series temporales heterogéneas de transacción de consumo

Introducción

Los desarrollos recientes en el modelado del espacio de estado Bayesiano para series de tiempo de conteo entero no negativas han
demostrado la capacidad de mejorar la precisión del pronóstico a través de series de tiempo heterogéneas en estudios individuales y
multivariados. Los ejemplos para pronosticar las ventas diarias de artículos de supermercados en varios artículos a diferentes niveles y
exhibir patrones diversos a lo largo del tiempo muestran la promesa de mejorar la precisión de corto a largo plazo y, de manera más
importante, caracterizar las incertidumbres presentadas en el futuro entre las distribuciones de pronóstico profiláctico completo (Berry y
West, 2018). Estos modelos de mezcla de recuento dinámico (DCMM) están abiertos a la publicación de múltiples formas de
reactivación dinámica, tendencias y efectos adversos en el extranjero, una variación en los efectos a la baja y una variación impredecible
de los resultados. La integración de información sobre patrones comunes a través de elementos relacionados que utilizan conceptos de
desacople / recuperación de Bayes para modelos dinámicos multivariables puede proporcionar mejoras de pronóstico adicionales al
tiempo que permite la escalabilidad de muchas series temporales de nivel de elemento. Los sistemas automatizados para la predicción
específica de artículos de las ventas de supermercados pueden explotar aspectos de tales enfoques de modelado dinámico. Las
características clave son definir distribuciones de pronósticos probabilísticos completos para cada uno de los muchos artículos a nivel de
tiendas individuales y departamentos dentro de las tiendas, con un enfoque en las previsiones de ventas diarias durante varios días en
cada punto de tiempo. El objetivo es hacer esto con una clase de modelo que sea lo suficientemente flexible como para adaptarse a
productos individuales, para abordar la enorme diversidad experimentada en las ventas diarias a través de miles de artículos de
supermercado en un gran número de tiendas en cadenas de supermercados. Dichos modelos deben integrar y dar cuenta de varios niveles
de estacionalidad (semanal, mensual, anual), covariables a nivel de artículo (información de precio / promoción, local / nivel de tienda y
efectos de vacaciones) y permitir y adaptarse a derivas impredecibles en niveles y la variabilidad de las ventas a medida que surgen. Los
desafíos en el pronóstico diario de ventas a nivel de tienda comienzan con muchos artículos que se venden esporádicamente, es decir, el
llamado problema de demanda intermitente que genera muchos días con cero ventas para tales artículos (por ejemplo, Croston, 1972;
Syntetos y Boylan, 2005; Teunter y Duncan , 2009; Arunraj y Ahrens, 2015; Li y Lim, 2018; Willemain et al., 2004; Seaman, 2018;
Kolassa, 2018). Un modelo probabilístico completo debe definir probabilidades adaptables en función del tiempo, específicas de los
ítems de patrones de ventas cero / no cero, y la evaluación de precisión del pronóstico debe incluir métricas relevantes para las
predicciones probabilísticas. Un segundo desafío es el de la alta variabilidad potencial y los valores extremos en las ventas diarias de
artículos que sí se venden con mayor frecuencia, características que han sido abordadas usando varios Poisson modificados, binomios
negativos, modelos de procesos de salto y otros (por ejemplo, Chen et al. 2016; Chen y Lee, 2017; Snyder et al., 2012; McCabe y Martin,
2005; Yelland, 2009; Terui y Ban, 2014). Estos y más recientes enfoques de espacio-estado que incorporan efectos aleatorios dinámicos
(Berry y West, 2018) pueden representar de forma adecuada variaciones excesivas impredecibles y extremos. El desafío es ir más allá
para diseccionar la heterogeneidad observada de los resultados, es decir, para explicar y, al menos parcialmente, predecir / anticipar
diversos niveles de variación en las ventas. Un tercer desafío es explotar las relaciones de series cruzadas que requieren el modelado de
series multivariadas de conteos (Aktekin et al., 2018). Aquí un aspecto clave de esto es la "fuerza de endeudamiento", es decir, vincular
los modelos de previsión entre artículos para compartir información sobre patrones relacionados, como patrones de variación estacional
en días dentro de semanas y su variación en el tiempo, que pueden conducir a una mejor cuantificación de tales patrones para obtener
pronósticos probabilísticos mejorados a nivel de ítems individuales y grupos de ítems relacionados. Estos intereses en mejorar la
previsión a nivel de artículo deben entenderse en el contexto comercial: incluso mejoras muy modestas en la precisión del pronóstico para
varios ítems individuales pueden producir un impacto práctico sustancial en términos de planificación resultante y decisiones de
inventario en el departamento dentro de la tienda , tienda y niveles de todo el sistema. Finalmente, nuestro objetivo es realizar un análisis
rutinario y automatizado aplicable a miles de artículos a diario en múltiples tiendas, de modo que las implementaciones de los modelos
deben aprovechar al máximo tanto la capacidad de tratamiento teórico como la paralelización.

La Sección 2 define el contexto de las previsiones de ventas diarias de los supermercados con un enfoque probabilístico de varios pasos,
y la nueva clase de modelos de recuento dinámico que incorpora el nuevo concepto de cascadas binarias. Esto comienza con modelos
flexibles de mezcla de recuento dinámico, es decir, modelos de espacio de estado para series de recuento heterogéneas, para evaluar y
pronosticar la demanda a nivel de artículo de supermercado en términos de eventos de transacciones. Aunado a esto, el desarrollo de
nuestro concepto dinámico de cascada binaria implica una clase de modelos bayesianos no paramétricos para predecir el número de
artículos vendidos por transacción (o "canasta"). Este es un nuevo enfoque que involucra nuevos modelos dinámicos bayesianos que se
pueden personalizar para diversos niveles de ventas desde niveles esporádicos / intermitentes a niveles persistentes. El componente final
de esta sección se refiere a la integración de la información de series cruzadas utilizando el novedoso enfoque de series temporales
multiescala / multivariante recientemente introducido en Berry y West (2018). Adaptamos esto a las transacciones de previsión en lugar
de ventas; esto permite el intercambio de datos relevantes en la previsión de la demanda a nivel de artículo, que luego se combina con el
nuevo enfoque de cascada binaria para las ventas por transacción. Este marco de desacoplamiento / recuperación aprovecha al máximo la
capacidad de análisis analítico para el aprendizaje secuencial y el pronóstico para cada elemento individual y permite el intercambio de
información a través de elementos mientras se mantiene la escalabilidad computacional; la carga computacional resultante sigue siendo
lineal en el número de elementos. El apéndice técnico resume la estructura del modelo relevante y los detalles metodológicos, incluidos
los aspectos del análisis de filtrado bayesiano directo / secuencial de los nuevos modelos y los detalles consiguientes de la predicción
basada en la simulación para la predicción de los resultados de ventas en múltiples pasos en cada punto temporal. La Sección 3 desarrolla
y muestra una serie de ejemplos de la aplicación de la nueva clase de modelo en el análisis y pronóstico de ventas de supermercados con
una serie de artículos que evidencian características sustancialmente diferentes en los niveles de ventas y la variación en el tiempo. Las
cuestiones de métricas relevantes para la evaluación del pronóstico, incluidas las medidas estándar de pronóstico puntual, la calibración
probabilística y la cobertura, son fundamentales para el estudio de la relevancia aplicada y el rol de los modelos estadísticos. Uno de los
fundamentos de este estudio es promover una comprensión más amplia de la importancia práctica de considerar una gama más amplia de
resúmenes de evaluación de la exactitud del pronóstico. Los comentarios adicionales en la Sección 4 así como el material técnico de
apoyo en los Apéndices concluyen el documento.

2. Contexto y Modelos

2.1. Ajuste

Los avances de modelado en este trabajo capitalizan la disponibilidad de datos detallados del punto de venta sobre transacciones e
información de ventas por transacción en artículos de supermercado. Considere un artículo específico en una tienda determinada. Los
datos se observan a diario con registros diarios t de (a) el número de transacciones que involucran este artículo, es decir, de clientes que
compran un cierto número del artículo, y (b) para cada transacción, el número de unidades vendidas. Muchos artículos se venden
esporádicamente sin o con pocas transacciones por día, y con una alta probabilidad de que solo se venda una unidad por transacción.
Muchos otros artículos se venden con mayor frecuencia, pero de nuevo generalmente en 1 o tal vez 2 unidades por transacción. Luego,
otros artículos pueden venderse a niveles más altos por transacción, aunque de nuevo en general son números pequeños. Se producen
rachas infrecuentes de ventas de artículos, a menudo en el contexto de promociones conocidas o cambios de precios. Algunos artículos
experimentan eventos raros en términos de un mayor número de ventas en compras por lotes raros. De pie al final del día t, el objetivo de
previsión es predecir las ventas futuras durante el próximo período de k días; nuestro contexto aplicado requiere pronósticos de 2
semanas, entonces k = 14. Nuestro objetivo es hacer esto en términos de una distribución de pronóstico de probabilidad completa para ese
próximo período, y este proceso se repite todos los días. El nuevo modelo desarrollado disecciona y modela las ventas de artículos por
transacción, con la siguiente notación indexada para el día t:

• yt es la cantidad total de unidades vendidas.

• bt es la cantidad de transacciones o canastas que involucran al menos una venta de unidad.

• zt = 1 (bt> 0) donde 1 (·) es la función del indicador; por lo tanto, zt = 0 implica cero transacciones, mientras que zt = 1 indica algunas
transacciones.

• nr, t es el número de transacciones con más de r unidades, donde r = 0: d para un entero positivo específico pequeño (pequeño) d. Por
definición, n0, t ≡ bt. Evidentemente también, si nr, t = 0 para algunos r ≤ d, entonces nr + 1, t = ··· = nd, t = 0.

• et ≥ 0 es el recuento del exceso de ventas de todas las transacciones que tienen más de d artículos. Evidentemente, et = 0 a menos que
nd, t> 0.

Los nuevos modelos dinámicos para pronosticar la serie yt se construyen a partir de componentes acoplados que modelan por separado
las transacciones bt = n0, t y la secuencia de valores n1: d, t, et, como se detalla ahora.

2.2. Predicción de transacción usando modelos de mezcla de recuento dinámico (DCMM) Primero, utilizamos un modelo dinámico de
mezcla de datos para presentar y predecir el proceso de transacción específica de bitácora por hora extra.

Esta clase de DCMM proporciona un marco flexible para el modelado de recuentos no negativos que se personalizan para lidiar con
recuentos cero junto con patrones de variación potencialmente diferentes de recuentos distintos de cero. Dos componentes del modelo de
espacio de estado están involucrados. El primero es un modelo de regresión binario / logístico dinámico para transacciones cero / no cero;
el segundo es un modelo log-lineal de Poisson dinámico y desplazado para niveles de transacción condicionados a la existencia de
algunas transacciones. Cada componente del modelo puede implicar covariables, como predictores de precios y promociones, variables
de efectos estacionales, efectos de vacaciones, etc., que pueden explicar parcialmente y, por lo tanto, predecir la variación en el tiempo en
los resultados de las transacciones. Una aplicación de inicio para el desarrollo de DCMM fue en la previsión de ventas de artículos, y un
aspecto importante de estos modelos es que naturalmente integran efectos aleatorios específicos del tiempo, por ejemplo, efectos
aleatorios diarios en el contexto de previsión de supermercados. Esto anticipa y se adapta a niveles impredecibles de variación en los
resultados superiores a los explicados por los modelos dinámicos condicionales de Bernoulli y Poisson. En el pronóstico de ventas, esto
es particularmente clave para lidiar con la variación "extra-Poisson" relativamente común y las explosiones ocasionales en los niveles de
ventas. El punto clave aquí es adaptar DCMM para modelar transacciones, no ventas. La heterogeneidad y la sobredispersión observada
en los datos de ventas se debe, en parte, al efecto compuesto de diferentes tamaños de transacciones por cliente a lo largo del día. Al
modelar transacciones por sí solo, este nivel de complejidad y diversidad en los resultados se ve disminuido; la oportunidad de mejorar la
precisión del pronóstico en el nivel de las transacciones es entonces clara. ADCMM for transaction out comes bt se define por un par de
pares de distribución de observación que
todo el tiempo t. Aquí Ber (π) denota la distribución de Bernoulli con éxito (zt = 1) probabilidad π, mientras que Po (μ) denota la
distribución de Poisson con media μ. Los parámetros πt y μt varían en el tiempo de acuerdo con los modelos lineales dinámicos binarios
y de Poisson generalizados (DGLM: West y Harrison, 1997, capítulo 15, Prado y West, 2010, sección 4.4), respectivamente; es decir,

2.3. Modelos dinámicos de cascada binarios para ventas por transacción

Un modelo central e innovación metodológica es un nuevo modelo dinámico de cascada binaria (DBCM) que aborda directamente los
intereses de precisión en la disección de la heterogeneidad en los resultados de ventas centrándose en una descomposición jerárquica de
números de unidades por transacción. Muchos artículos se venden solo una vez por transacción, muchos otros se venden tal vez en 2 o 3
artículos, y cada vez son más raros. La formulación a múltiples escalas de un DBCM está motivada por la realidad de que la predicción
de eventos raros de cualquier tipo -en este caso, un mayor número de unidades por transacción- solo se aborda de manera adecuada
utilizando secuencias jerárquicas de probabilidades condicionales para definir las posibilidades de resultados. El DCMM define las
distribuciones de pronósticos para las transacciones hacia el futuro, y se utiliza para calcular las probabilidades predictivas de los
resultados de las transacciones, así como también, críticamente, para simular resultados futuros representativos. Dado un valor elegido o
simulado / sintético de bt, entonces condicionamos a modelar y pronosticar las ventas diarias condicionadas a ese nivel de transacciones
utilizando el DBCM definido a continuación. En un análisis bayesiano de Monte Carlo, la simulación repetida de muchos valores
representativos de bt y luego las ventas acopladas a cada valor definen el cómputo formal a partir de la distribución predictiva requerida
de las ventas. A medida que avanzamos en las muestras de Monte Carlo, se representa la incertidumbre sobre los niveles de transacción y
luego la incertidumbre condicional sobre las ventas por factores de transacción. Considere entonces un valor dado de bt ≡ n0, t. El
DBCM define un modelo de probabilidad para yt | bt. Primero, si bt = 0, entonces las ventas yt = 0, el caso trivial. Considere ahora casos
cuando bt> 0 y refiérase a eqn. (2) centrarse en la incertidumbre sobre el recuento de ventas resultante yt. El modelo está estructurado de
la siguiente manera:

• For each r = 1: d, denote by r, t la probabilidad de que el número de elementos de la operación de exportación supere r dado que excede
r - 1, y suponga que el número de unidades por transacción es condicionalmente independiente en las cestas.

• Para cualquier número r = 1: d, la probabilidad (cada vez más pequeña) de más de r ventas por cesta se implica entonces como π1, tπ2, t
··· πr, t. Esta es la clave de la estrategia y la utilidad del concepto de cascada binaria: modela y, por lo tanto, pronostica eventos raros
(ventas de niveles inusualmente altos para una transacción) a través de una secuencia de probabilidades condicionales, cada una de las
cuales es estimable a partir de los datos mientras su producto puede ser muy pequeño

• Para cada r = 1: d, la jerarquía de niveles de ventas nr, t sigue una secuencia de distribuciones binomiales condicionales, a saber nr, t |
nr-1, t ~ Bin (nr-1, t, πr, t) basado en estas probabilidades. A medida que secuenciamos a través de r = 0,1, ..., si experimentamos un nivel
r con nr, t = 0, esto implica, por supuesto, que nj, t = 0 para todo j ≥ r.

• Las ventas excedentes se calculan sumando transacciones posibles con más de d ventas cada una. Si nd, t = 0, entonces et = 0. Si, por
otro lado, si nd, t> 0 entonces et ≥ (d + 1) nd, t. Dado que generalmente se espera que la probabilidad de más de d + 1 por canasta sea
bastante pequeña, el análisis será bastante sólido para la distribución condicional de et. Por lo tanto, consideramos dos estrategias para
cuantificar el exceso. Una estrategia es dejar la distribución del exceso completamente sin especificar y simplemente informar la
probabilidad de nd, t> 0 junto con la distribución del pronóstico de ventas yt condicional en nd, t = 0. Una segunda estrategia es
simplemente usar un análisis de arranque en que un pronóstico simulado con nd, t> 0 da como resultado el muestreo aleatorio del exceso
de previsión correspondiente de la distribución empírica de los valores excedentes observados en el pasado. Esto se analiza y desarrolla
en las Secciones 2.4 y 3.2.3, y se ejemplifica en la aplicación. Al igual que con el modelo de Bernoulli para transacciones cero / no cero
zt, tenemos acceso a la clase flexible de modelos de espacio de estado logístico dinámico para cada uno de los elementos de la cascada en
los niveles de ventas por transacción. Es decir, el modelo condicional de nr, t tiene la forma logística binomial dinámica

con vectores de estado latente ξr, t y vectores conocidos de regresión dinámica F0r, t en una extensión obvia de la notación anterior. Los
vectores de regresión pueden incluir diferentes covariables y variables ficticias para cada nivel r, y pueden personalizarse para nivelar. El
πr, t puede ser relativamente estable en el tiempo, pero se ve afectado por los efectos de precio y promoción que aumentan las
probabilidades relativas de mayores niveles de ventas por artículo, por lo que dicha información es candidata para su inclusión en
términos de regresión. Al igual que con los eventos de transacción, los aspectos de la variación a lo largo del tiempo provienen de las
covariables incluidas, pero también se representan potencialmente a través de la variación de tiempo en los agentes de estados
dependientes ξr, t de los coeficientes de evolución variables en el tiempo. Los detalles adicionales de la especificación del modelo y los
análisis Bayesianos de filtrado / pronóstico se resumen en el Apéndice A.

2.4. Predicción de varios pasos anticipados

Los pronósticos Bayesianos se basan en distribuciones predictivas completas. En la mayoría de las aplicaciones, es interesante utilizar la
simulación directa / directa de distribuciones predictivas de varios pasos adelante. Entre otras cosas, esto permite el cálculo trivial de
resúmenes de pronósticos probabilísticos para funciones arbitrarias de los datos futuros en múltiples pasos adelante. En la previsión de
transacciones y ventas, la generación de muestras de futuros sintéticos en Monte Carlo proporciona resúmenes de pronósticos para las
ventas de cada día, los patrones de variación y dependencia día a día y otros aspectos de la relevancia aplicada, como los pronósticos
acumulados sobre una período de días. Por lo tanto, por "pronóstico" ahora nos referimos a simulación, es decir, la generación de
muestras aleatorias múltiples de transacciones y resultados de ventas en varios días, definiendo futuros "sintéticos" que se pueden resumir
para calcular un rango de pronósticos puntuales de interés bajo varias funciones de utilidad , así como resúmenes probabilísticos
completos que capturan y reflejan formalmente las incertidumbres predictivas. La previsión de pasos múltiples a través de la simulación
en modelos dinámicos de venta de transacciones se basa en simulaciones básicas de los conjuntos de DGLM que definen los
componentes del modelo. En cualquier día t mirando hacia adelante durante los próximos k días según la información actual {Dt, It}, el
requisito es generar una gran muestra de Monte Carlo a partir de la distribución predictiva bayesiana completa para las transacciones y
ventas del artículo durante los días t + 1: t + k. Denote por superíndice * una única muestra de Monte Carlo de cantidades relevantes,
denominado resultado "sintético". Generamos grandes muestras de resultados de Monte Carlo mediante la generación independiente y
repetida de resultados sintéticos únicos de la siguiente manera. Indicadores de transacciones pronosticadas: en los próximos días j = 1: k,
genere el conjunto de k transacciones sintéticas / sin indicadores de transacciones z * t + j del componente binario DGLM del modelo de
transacción DCMM. Este es un sorteo representativo de la distribución predictiva k-dimensional actual de (zt + 1: t + k | Dt, It).
Técnicamente, esto utiliza el muestreo composicional directo que aplica, cada día en el futuro, el análisis de filtrado y actualización
directa de los DGLM binarios. Esto explota la representación

Los resultados se simulan por secuenciación a través de la composición aquí. Muestra z * t + 1 del primer componente, simplemente la
distribución de 1 paso adelante implícita en el DGLM binario en el tiempo t. Condición sobre este valor z * t + 1 para actualizar la
información de resumen en el DGLM, evolucionar un día y luego predecir zt + 2 usando p (zt + 2 | z * t + 1, Dt, It); esto es nuevamente
solo la distribución de 1 paso por delante en el DGLM binario movido a lo largo de un día y condicional en el valor sintético z * t + 1.
Esto se aplica recursivamente durante los días siguientes hasta k pasos adelante para producir la ruta sintética completa z * t + 1: t + k.
Niveles de transacciones no-cero pronosticados: para cada día anterior j tal que z * t + j = 1, genere el número de transacciones n * 0, t + j
= b * t + j del componente Poisson DGLM desplazado del modelo de transacción DCMM . Esto proporciona un sorteo representativo de
la distribución predictiva condicional actual de (bt + 1: t + k | z * t + 1: t + k, Dt, It) con los valores cero implícitos implicados en días
tales que z * t + j = 0. Técnicamente, esto nuevamente usa muestreo composicional directo, ahora basado en el filtrado directo y el
análisis de actualización de los DGLM de Poisson. El concepto y el formato son idénticos a los detalles anteriores para el DGLM binario,
simplemente difieren en las formas de distribución involucradas. Previsión de ventas por transacción: para cada día anterior j para el que
z * t + j = 1, genere un conjunto de tamaños de cesta n * 1: d, t del modelo de cascada binaria dinámica condicionado al número de
transacciones n * 0, t + j = b * t + j. Esto proporciona un sorteo representativo de la distribución predictiva condicional actual de la
secuencia completa de tamaños de cestas (n1: d, t + 1: t + k | b * t + 1: t + k, z * t + 1: t + k , Dt, It) con los valores implícitos de cero
implicados en días tales que z * t + j = 0. Técnicamente, esto se hace secuenciando a través de la cascada en cada día, generando el
número de cestas con un solo elemento y condicionado a eso número que simula el número con dos elementos, y así sucesivamente hasta
los elementos d. En los casos en que el número total de elementos simulados con menos de d + 1 elementos en cualquier transacción
alcanza b * t + j, se establece el número sintético implícito de artículos vendidos. De lo contrario, las (restantes pocas) transacciones
restantes implican más de d artículos cada una. Si la distribución excedente no está especificada, el DBCM genera la probabilidad
sintética actual del evento de ventas excedentes et + j ≥ (d + 1) n * d, t. Si se ha especificado la distribución en exceso en el DBCM,
podemos proceder simulando a partir de esta distribución en exceso. Una distribución excedente específica que encaja muy bien en el
marco de previsión composicional simula el exceso de ventas desde la distribución excedente empírica hasta el tiempo t. Por ejemplo,
antes del tiempo t, supongamos que hemos observado un exceso de ventas por transacciones de (d + 1, ..., D) con frecuencias (wd + 1, ...,
wD), donde PD i = d + 1 wi es el número total de transacciones con nd, t> 0. Dado nd, t + k> 0, podemos pronosticar el exceso de ventas
futuras et + k muestreando los valores nd, t + k con el reemplazo de (d + 1 ,. .., D) con un peso proporcional a (wd + 1, ..., wD). Al igual
que con las simulaciones de transacciones anteriores, avanzar en los días implica un muestreo composicional directo, ahora basado en el
filtrado directo y el análisis de actualización de los conjuntos de DGLM binomiales condicional. El concepto y el formato son idénticos a
los detalles anteriores para el DGLM binario, simplemente difieren en las formas de distribución involucradas. La incertidumbre acerca
de los componentes subyacentes del modelo DGLM se tiene en cuenta en la simulación anticipada de cada uno de los vectores de estado.
Críticamente también, cada resultado sintético refleja intrínsecamente las dependencias diarias así como las incertidumbres sobre los
vectores de estado del modelo DGLM subyacente; es decir, generamos muestras predictivas completas de la distribución conjunta de las
transacciones latentes binarias, Poisson y binomiales y las variables de ventas en la ruta k-step ahead. Esto significa que las inferencias
resumidas sobre agregados y otras funciones de indicadores de transacciones, niveles de transacciones, tamaños de canasta y ventas
pueden deducirse directamente mediante simples resúmenes numéricos del conjunto de muestra de Monte Carlo
con subvectores de dimensiones ajustables; el predictor lineal es entonces λi, t = γ0i, tfi, t + β0i, tφt. Aquí fi, t contiene constantes y
predictores específicos de la serie, tales como precios y promociones específicos del artículo en el contexto de pronóstico de ventas. El
vector de factor latente φt es común a todas las series, como los efectos estacionales o de marca en el contexto de pronóstico de ventas.
Cada serie tiene su propio componente de estado βi, t de modo que los impactos de los factores comunes son específicos de la serie, así
como variables en el tiempo.

Un modelo diferente depende de φt y posiblemente de otros factores. Denota este modelo por M0. El análisis secuencial directo de datos
relevantes para M0 define distribuciones posteriores para φt en cualquier momento t que pueden usarse para inferir y pronosticar el
proceso φt como se desee. Estas inferencias sobre los factores comunes se envían a cada modeloMi para usar en el pronóstico de las
series individuales. Técnicamente, esto se hace a través de la simulación directa, de modo que los valores actuales y futuros φ * se
simulen a partir de las distribuciones actuales posteriores y predictivas bajoM0, y luego se reenvíen a cadaMi. En cada valor simulado,
cada simulación posterior y pronosticada en condiciones Mi en una muestra φ *, de modo que las inferencias bajo Mi estén entonces
disponibles usando los cálculos estándar para modelos individuales. Críticamente, las actualizaciones y los cálculos de pronóstico en cada
millón se realizan por separado y en paralelo, condicional en los valores de los factores comunes φ *; este desacoplamiento de series para
cómputos centrales permite escalar en el número N de elementos, mientras se mantiene el intercambio de información entre artículos. El
modelo M0 puede ser cualquier modelo externo que genere información sobre factores comunes. Los casos especiales clave relevantes
para los DCMM para las transacciones se conocen como modelos de escala múltiple. Esto se resalta en casos de colecciones de artículos
dentro de una tienda que naturalmente comparten patrones comunes de estacionalidad semanal basados en el tráfico de clientes a través
de la tienda. En tales casos, φt puede ser un factor escalar que representa el día de la semana actual basado en un modelo externo de
tráfico. El caso especial a múltiples escalas surge cuando se usan datos agregados de transacciones, como el número total de
transacciones en todos los productos, o en algún subgrupo específico de productos, para definir M0. Cada modelo a nivel de artículo se
basa en las predicciones sobre la variación diaria del modelo agregado, mientras que los elementos βi, t proporcionan desviaciones
idiosincrásicas específicas del elemento de los valores agregados imputados.

3. Aplicación

3.1. Datos

El objetivo de nuestro estudio de caso es predecir las ventas futuras de artículos individuales de supermercado 1: 14 días antes.
Comparamos el rendimiento de previsión del marco de cascada binario con un modelo de referencia; este último es un DCMM para
ventas diarias como en Berry y West (2018). Este punto de referencia cumple con los objetivos clave de definición de predicciones
predictivas completas, flexibilidad al modelar diversos patrones en series de recuentos, incorporación de efectos dinámicos estacionales y
de regresión variables en el tiempo y adaptabilidad a patrones heterogéneos de variabilidad impredecible. El conjunto de datos registra
compras a nivel de transacción de artículos de supermercados en una tienda de una gran cadena minorista durante el período de 762 días
del 1 de junio de 2015 al 1 de julio de 2017. Cada fila en el conjunto de datos de nivel de transacción representa la compra de uno o más
consumidores. unidades de un solo elemento. Los artículos se identifican por un único código de producto universal (UPC) en la
categoría "DryNoodlesandPasta". Por cada evento de transacción, los datos incluyen el artículo UPC, la fecha de compra, el precio
efectivo por unidad, si el artículo fue comprado o no en la promoción y las ventas de la unidad en la transacción dada. El recuento de
transacciones diarias para un artículo es el número de filas en un día determinado con la UPC del artículo; las ventas diarias totales son
entonces la suma de las ventas unitarias en todas las transacciones. Exploramos el pronóstico de tres ítems espagueti para ilustrar las
posibles mejoras que ofrece la descomposición de la heterogeneidad en transacciones y ventas por transacción. Estos artículos
representan una gama de transacciones -patrocinador de ventas ytififican las características de datos en muchos artículos. En la Tabla 1 se
detallan las transacciones diarias y las ventas por transacción para el artículo A, la Figura 1 de la BandaC muestra las transacciones
diarias y la publicidad de la venta para ilustrar la diversidad más importante de transacciones diarias a nivel de anuncios, en comparación
con las ventas diarias. Dentro de esta categoría y tienda elegidas, los artículos A y B son artículos de venta moderada a alta, y el artículo
C es un artículo relativamente poco vendida. Las ventas y transacciones diarias de cada elemento comparten características similares,
como el nivel general y las tendencias en el tiempo, y el evidente efecto de día de la semana. Ambas series también comparten la
característica de valores extremos algo raros, aunque la variabilidad disminuida de los datos de transacción es evidente.
3.2. Especificación del modelo

3.2.1. Transacciones DCMM Especificación

Como se describe en la Sección 2.2, el marco DBCM utiliza un DCMM para pronosticar las transacciones diarias. En este análisis,
consideramos dos DCMM para pronosticar transacciones: DCMM independientes con efectos estacionales semanales específicos, y un
DCMM de múltiples escalas que comparte información sobre el efecto estacional semanal en todos los ítems de espagueti. La misma
forma de DCMM se especifica en el marco de DBCM independiente y los DCMM de referencia en las ventas diarias. En estos DCMM
independientes, cada componente de Bernoulli y condicionalmente de Poisson incluye un nivel local, un componente estacional completo
de Fourier con período 7, y un componente de regresión con precio de registro y un indicador binario de promociones como predictores.
Cada DGLM de Poisson binario y condicional se puede definir a través de vectores de regresión y matrices de evolución de estado de la
forma

donde pricet es el precio específico del artículo el día t, y promotor es igual a 1 si el artículo está en promoción el día t, y 0 si no. A través
del uso estándar de los factores de descuento, cada componente es dinámico, lo que permite la variación de tiempo en el nivel, la
estacionalidad semanal y los efectos de precio y promoción. Con base en análisis previos de ventas y transacciones a nivel de artículo,
establecemos factores de descuento fijos de 0.99 (Poisson) y 0.999 (Bernoulli) en cada componente. El DBCM de escala múltiple incluye
modelos a nivel de artículo Mi con f0i, t = 1, log (pricei, t), promoi, t ?, y un factor escalar φt que representa el efecto de día actual de la
semana. En este análisis de múltiples escalas, M0 es un modelo lineal dinámico (DLM) en el agregado de transacciones diarias de todos
los elementos espaciales en la biblioteca de sonido. Este DLM agregado incluye una tendencia lineal local, el precio de spaghetti
promedio a escala escalado como predictor, y componentes estacionales de forma completa de Fourier de los períodos 7 y 365 que
representan los efectos estacionales semanales y anuales. Permitimos niveles dinámicos, tendencias, efectos de regresión y estacionalidad
con factores de descuento de δ = 0.995 para los componentes de tendencia y regresión, δ = 0.999 para cada componente estacional y β =
0.999 para el proceso de varianza estocástica residual. El rendimiento predictivo en todos los DCMM de ventas / transacciones se evalúa
en un rango de factores de descuento de efectos aleatorios, ρ ∈ (.2, .4, .6, .8,1). El sombreado en la Figura 1 indica la configuración del
análisis. Para cada DCMM y el DLM agregado, los antecedentes previos utilizan tres semanas de datos de entrenamiento (sombreado
amarillo). Para el DLM log-normal agregado y los DGLM condicionalmente de Poisson, definimos momentos previos aproximados para
los vectores de estado basados en los momentos posteriores en un análisis de referencia estándar de un modelo lineal bayesiano de las
ventas / transacciones diarias del registro. Para los DGLM binarios, estimamos que la media previa del nivel es log (p / (1-p)), donde p es
la proporción observada de los primeros 21 días con al menos una transacción. Todos los demás medios anteriores en el DGLM binario
se establecen en cero, con la matriz de covarianza previa como identidad. La región sombreada verde en la Figura 1 denota el período de
un año que comienza el día 22 (denotado t = 1) en el cual nuestros modelos están entrenados. Después de este período de un año, en la
región sombreada azul, se realiza un pronóstico de 1: 14 días antes en cada uno de los 332 días.

3.2.2. Especi fi cación del modelo de cascada binaria Con base en un análisis exploratorio de ventas típicas por transacción, establecemos
d = 4 para todos los ítems en este análisis. Como se ve en la Tabla 1, alrededor del 99% de todas las transacciones de los artículos
elegidos incluyen cuatro o menos ventas de unidades. La forma de los DGLM logísticos binomiales es la misma para todos los elementos
y para todos r = 1: d. Cada modelo condicional de nr, t incluye un nivel local dinámico y un componente de regresión estático con un
indicador binario de promoción como predictor. Cada DGLM binomial permite una variación de tiempo lenta en el nivel a través de un
factor de descuento de δ = 0.999. En análisis previos, encontramos un efecto de promoción estático, con δ = 1, para ser suficiente. Para
cada DGLM logístico binomial, especificamos,

donde la promoción es un indicador de ítem específico de una promoción en el tiempo t. De nuevo, utilizamos tres semanas de datos de
entrenamiento para especificar la media anterior del nivel. En un modelo logístico de πr, t, establecemos la media anterior del nivel para
que sea log (p / (1-p)) donde p es la proporción de transacciones con exactamente r unidades de ventas de todas las transacciones con al
menos r unidad ventas. Establecimos que la media anterior del coeficiente de promoción es cero y la matriz de covarianza anterior para el
vector de estado es (.1) I.

3.2.3. Exceso de distribución Consideramos dos perspectivas: dejar el exceso de distribución completamente sin especificar, o arrancar
desde el exceso de distribución empírica. En este contexto de previsión de ventas diarias, pueden surgir situaciones impredecibles y
relativamente raras en las que, por ejemplo, un consumidor compre docenas o cientos de unidades en un único pedido en bloque. Debido
a la falta de datos relevantes y predictores que podrían modelar estos raros resultados posibles, a menudo es preferible dejar la cola de la
distribución de venta por transacción sin especificar. Sin embargo, sin restricciones o suposiciones sobre el exceso de distribución,
estamos limitados en las conclusiones que podemos hacer sobre la distribución predictiva. En el tiempo t-1, la densidad de predicción de
1 paso de yt es
donde: (i) qt = Pr (nd, t> 0) es la probabilidad de que nd, t> 0, es decir, que algunas de las transacciones tengan más de d unidades; (ii) f
(yt) es el p.d.f. de la distribución de ventas dado que nd, t> 0; y pd (yt) es el p.d.f. de la distribución (especificada) dado que nd, t = 0. Las
previsiones p.d.f.s para múltiples pasos adelante tienen formas similares. Si f (·) no está especificado, no podemos identificar
exactamente la media o los cuantiles de la distribución. Es posible identificar límites inferiores / superiores para cualquier cuantil de la
distribución del pronóstico, incluida la mediana, pero sin suposiciones adicionales sobre f, los límites en la media de la distribución del
pronóstico no están disponibles. La segunda perspectiva es utilizar la distribución empírica del exceso de ventas durante un período de
tiempo pasado. Simular el exceso de ventas por transacción a partir de la distribución empírica en exceso da como resultado el acceso a
toda la distribución predictiva a través de las muestras de Monte Carlo. Con este enfoque, podemos informar cualquier cantidad de interés
de la distribución del pronóstico. Dado que los pronosticadores a menudo están interesados en la precisión de muchas métricas de error
diferentes (y las correspondientes predicciones de puntos óptimos), presentamos los resultados de los modelos de DBCM utilizando la
distribución de exceso empírica. Un posible inconveniente de este enfoque es que los únicos valores posibles de ventas por transacción
son los que se han observado anteriormente; que los excesos son muy raros mejora esta preocupación. Otras especi fi caciones que
pueden ser de utilidad se anotan en la sección final.

3.3. Ejemplos y evaluaciones

3.3.1. Pronóstico de trayectorias conjuntas y probabilísticas

Ejemplo de evaluación Las trayectorias de pronóstico de este análisis se muestran en la Figura 2. Estas representaciones ilustran los
pronósticos conjuntos de 1 y 14 días en dos días, 20 de marzo de 2017 (columna de la izquierda) y 25 de abril de 2017 (columna de la
derecha). Para cada ítem, estos pronósticos se generaron a partir del modelo de cascada binaria multiescala, y el exceso de ventas se tomó
de la distribución excedente empírica. Los pronósticos mostrados del modelo DBCM son basado en pronósticos de transacciones de un
DCMM con un factor de descuento de efectos aleatorios de ρ = 1. Estos gráficos proporcionan información sobre la distribución del
pronóstico (50,90% intervalos creíbles en sombreado gris), así como la ubicación de pronósticos de puntos comunes (media, mediana y (-
1) -medio). Las ventas diarias observadas se muestran como círculos negros. En general, las previsiones hechas el 20 de marzo fueron
precisas en términos de ubicación y propagación. Para el artículo A, 7/14 días están incluidos en los intervalos creíbles al 50% y 14/14 en
los intervalos del 90%. Para el artículo B, los intervalos del 50% contienen 11/14 días, y los intervalos del 90% contienen 14/14 días.
Para el elemento C, los intervalos del 50% contienen 8/14 días, y los intervalos del 90% contienen 14/14 días. El 25 de abril, las
previsiones puntuales son un tanto sobreestimaciones, mientras que los intervalos del 50% muestran cierta falta de cobertura. Para los
artículos A, B y C, los intervalos del 50% solo contienen 2/14, 4/14 y 5/14 días, respectivamente. Sin embargo, los intervalos del 90%
para cada elemento son más precisos y contienen 13/14, 13/14 y 14/14 observaciones, respectivamente. Estas trayectorias simplemente
brindan instantáneas de los pronósticos en dos días, para resaltar el proceso de pronóstico subyacente; aunado a esto, ahora evaluamos
aspectos del rendimiento de pronósticos a más largo plazo. La Figura 3 (columna izquierda) muestra la cobertura de las distribuciones de
pronósticos para previsiones de 1, 7 y 14 días para cada artículo. Estas gráficas muestran la cobertura empírica obtenida durante el
período de pronóstico de 322 días para los intervalos predictivos creíbles (HPD - densidad posterior más alta) de diferentes porcentajes.
Idealmente, la cobertura empírica de nuestros intervalos creíbles se acerca al nivel nominal, lo que da como resultado una cobertura
cercana a la línea de 45 grados. Para el ítem A, la cobertura empírica de los intervalos creíbles se acerca a la cobertura nominal, aunque
hay alguna evidencia de una leve falta de cobertura. Por ejemplo, la cobertura empírica de 1 paso adelante 65% de intervalos creíbles es
de aproximadamente 60%. Para el ítem B, la cobertura empírica de los intervalos creíbles se acerca a la cobertura nominal. Para
intervalos creíbles del 5% y del 20%, existe una leve sobrecobertura y para intervalos del 65% y 80%, hay una leve falta de cobertura.
Para el elemento C, los intervalos de pronóstico tienen una ligera sobrecobertura. Por ejemplo, la cobertura empírica de los intervalos del
1% por delante del 65% es aproximadamente del 71%. La Figura 3 (columna derecha) muestra los valores de prob
lebilisticintegraltransform (PIT; Kolassa, 2016) aleatorizados. Si el recuento de los datos y se pronostica con cdf predictivo, P (·), defina
P (-1) = 0 y dibuje una cantidad aleatoria py ~ U (P (y -1), P (y)) dado el valor observado de y Con pronósticos repetidos, un modelo
ideal generaría valores de py que están distribuidos de manera aproximadamente uniforme. La Figura 3 traza valores PIT aleatorizados
ordenados para predicciones de 1: 14 días por adelantado versus cuantiles uniformes. Para el ítem A, los valores aparecen relativamente
uniformes. Un ligero descenso por debajo de la línea de 45 grados podría ser una variación aleatoria, o puede indicar que la cola inferior
de la distribución del pronóstico es demasiado clara. Para el ítem B, los valores aleatorizados de PIT parecen reflejar de cerca cuantiles
uniformes. Para el ítem C, los valores aleatorizados de PIT están cerca de la uniformidad; hay pequeños saltos por debajo de la línea de
45 grados que podrían reflejar la variabilidad aleatoria, o ligeramente por debajo del peso de las colas inferiores de las distribuciones de
pronósticos.

3.3.2. Pronósticos de puntos

Las métricas de error para los pronósticos de puntos seleccionados se muestran en la Figura 4. Nos enfocamos en dos métricas de
pronóstico de punto estándar, la desviación absoluta media (MAD) y el error de porcentaje absoluto medio (MAPE). Las métricas son
específicas para un tiempo de entrega elegido k> 0. Para una serie yt, denote por ft + k una previsión de yt + k hecha en el tiempo t. MAD
es el promedio de tiempo de la desviación absoluta, | yt + k -ft + k |, y el pronóstico de punto óptimo es la mediana predictiva de k-step
ahead. MAPE, una métrica de error común en el pronóstico de demanda, es simplemente el promedio de tiempo de | yt + k -ft + k | / yt +
k, y el pronóstico de punto óptimo es el k-step predictivo (-1) -median. El (-1) -medio de una distribución f (y) es la mediana de g (y)
donde g α f (y) / y. Al evaluar las métricas de error elegidas, utilizamos el pronóstico de punto óptimo correspondiente de cada modelo.
Para cada métrica, evaluamos el error con 1:14 días de anticipación cada día. El DCMM de referencia y ambos modelos de DBCM
(escala múltiple e independiente) se evalúan en un rango de factores de descuento de efecto aleatorio de DCMM, ρ ∈ {.2, .4, .6, .8,1}. La
exactitud de la previsión bajo cada efecto aleatorio puede depender del horizonte de pronóstico, por lo que informamos solo el error más
bajo en cada uno de los cinco factores de descuento. La Figura 4 muestra el error del mejor DCMM de línea de base, DBCM
independiente y DBCM de múltiples escalas en el elemento, el horizonte de previsión y la métrica.
Comparaciones bajo MAD :.

A: El DBCM de escala múltiple tiene el MAD más bajo en todo el horizonte de pronóstico. A lo largo del horizonte de pronóstico, el
DBCM de escala múltiple tiene una disminución promedio de 1.4% en MAD en comparación con el DCMM. El DBCM de múltiples
escalas produce el mayor porcentaje de disminución en MAD para pronósticos de corto y mediano plazo de 1 a 3 y de 6 a 9 días más
adelante. El DBCM independiente y el DCMM tienen un rendimiento MAD similar. B: El DBCM de escala múltiple tiene el MAD más
bajo en todo el horizonte de pronóstico. A lo largo del horizonte de pronóstico, el DBCM de escala múltiple tiene un promedio de una
disminución del 2,6% en MAD en comparación con el DCMM. Las mayores disminuciones porcentuales en MAD ocurren para
pronósticos de medio a largo plazo de 7 a 14 días. El DBCM independiente y el DCMM tienen un rendimiento MAD similar. C: El
DBCM de escala múltiple tiene el MAD más bajo en todo el horizonte de pronóstico. A lo largo del horizonte de pronóstico, el DBCM de
escala múltiple tiene un promedio de una disminución del 1,6% en MAD en comparación con el DCMM. El DBCM de múltiples escalas
tiene la mayor disminución porcentual en MAD en pronósticos de rango medio de 3,4,5,7,8 y 10 días antes. El DCMM tiene un MAD
más bajo que el DBCM independiente en todo el horizonte de pronóstico.

Comparaciones bajo MAPE :.

R: Los DBCM independientes y de escala múltiple tienen un MAPE más bajo en todo el horizonte de pronóstico. A lo largo del horizonte
de pronóstico, el DBCM de múltiples escalas tuvo una disminución promedio en MAPE de 3.4% en comparación con el DCMM. El
mayor porcentaje de caídas en MAPE se produjo para los bosques a más corto plazo de 1-6 días. B: Los DBCM independientes y de
escala múltiple tienen un MAPE más bajo en todo el horizonte de pronóstico. A lo largo del horizonte de pronóstico, el DBCM de escala
múltiple tuvo una disminución promedio en el MAPE de 4.3% en comparación con el DCMM. Las mayores caídas porcentuales en
MAPE ocurrieron esporádicamente al pronosticar 1,2,8,11,13 y 14 días más adelante. C: El DBCM de múltiples escalas tiene el MAPE
más bajo para 10 de los 14 orificios previos. Acrosstheentireforecast horizon, el DBCM multiescala tuvo una disminución promedio de
1.6% en comparación con el DCMM. Las mejoras más grandes en MAPE ocurrieron esporádicamente cuando se pronosticaban 3,4,9 y
14 días más adelante. El DCMM tiene un MAPE menor que el DBCM independiente para 11 de los 14 horizontes de pronóstico.

3.3.3. Pronóstico e impacto del exceso

También es interesante ejemplificar la disección de pronósticos basados en la distribución en exceso de la cascada binaria, y explorar el
impacto en las incertidumbres del pronóstico en particular. A partir de las distribuciones de pronóstico conjunto de DBCM basadas en
simulación, podemos extraer trivialmente probabilidades pronosticadas de no excedente en un día futuro; la probabilidad de que ninguna
de las transacciones de ese día sea mayor a la de los artículos especificados. En el nivel de la tienda, esta información de resumen
adicional potencialmente útil por sí misma. Además, si se observan las distribuciones de pronósticos de ventas con la condición de que no
existan canastas en exceso en un día en particular, se obtiene información sobre el impacto, tanto en el nivel de pronóstico como en las
incertidumbres, del componente excedente del modelo. Un ejemplo seleccionado se resume en la Figura 5 usando predicciones de 1-14
días para cada elemento realizado en la fecha seleccionada más temprano del 20 de marzo de 2017. La figura muestra las trayectorias de
las distribuciones de pronóstico conjuntas de más de 14 días, actualmente condicionalmente sin exceso (es decir, condicional
pronosticada nd, t + k = 0para k = 1: 14 donde t índices 20 de marzo de 2017). Estas cifras tienen el mismo formato que las de las
predicciones incondicionales completas que se muestran en la Figura 2. Pueden verse pequeñas diferencias, con las distribuciones de
pronósticos condicionales que naturalmente se minimizan a la vez, sin dejar de ser difusas; Esto también se menciona de manera más
amplia para niveles más altos de ventas, como para el ítem A. La figura 5 también muestra las trayectorias de las probabilidades
predictivas de no exceder durante los próximos 14 días, indicando naturalmente mayores probabilidades para los niveles inferiores de
ventas exhibidos por el ítem C

4. Comentarios resumidos

Motivados por una aplicación a la previsión de demanda de productos, y habilitados por la disponibilidad de datos de puntos de venta,
hemos introducido un nuevo marco para el modelado espacial estatal bayesiano de series de tiempo de transacciones-ventas heterogéneas.
Este trabajo se debe al reconocimiento de que la variabilidad que se observa en las ventas de alta frecuencia surge del efecto combinado
de la variabilidad en el número de transacciones y el número de ventas por transacción. El modelo dinámico de cascada binaria se basa en
enfoques previos a series de tiempo de recuento univariadas, notablemente el DCMM de Berry y West (2018). La etapa inicial en este
marco implica adaptar el DCMM a transacciones modelo en lugar de ventas. Dada la reducida variabilidad de las transacciones en
relación con las ventas, esta es una aplicación prometedora en la que el DCMM puede mejorar la precisión del pronóstico. La aplicación
del DCMM a transacciones de artículos relacionados ofrece la oportunidad de integrar información entre series a través de un modelo de
factor dinámico multifactorial y multifactorial. Junto con el DCMM en las transacciones, el concepto de cascada binaria implica una
secuencia de modelos bayesianos para predecir el número de unidades vendidas por transacción. La motivación detrás de esta cascada
binaria es que la forma apropiada de pronosticar eventos raros es a través de una secuencia de probabilidades condicionales que de fi ne
posibilidades de resultados de ventas cada vez más altas y más raras por transacción. La etapa final del marco DBCM es la elección del
exceso de distribución, dejándola sin especificar o eligiendo una forma específica. Dejar el exceso de la distribución sin especificar evita
la tarea difícil de ajustar la larga cola de la distribución de ventas por transacción, sin embargo, este enfoque limita las conclusiones que
podemos presentar sobre la distribución del pronóstico. También presentamos una opción lógica no paramétrica para la distribución en
exceso que implica el arranque de la distribución de exceso empírica. Además de la incorporación de covariables en los componentes
binarios y DGLM de Poisson del DCMM, el marco DBCM amplía aún más la descomposición jerárquica al incorporar covariables en la
cascada de DGLM logísticos binomiales. Esto permite la incorporación de efectos complejos de precio / promoción que pueden afectar el
tráfico general en la tienda, la probabilidad de que un cliente realice una compra y el número de unidades compradas dado que se produce
una transacción. El marco bayesiano utilizado para el DBCM permite la simulación directa / directa de predicciones de varios pasos hacia
adelante, permitiendo el cálculo trivial de los resúmenes de pronóstico de interés. Los ejemplos seleccionados de previsión de ventas
muestran la promesa de una mejora en el pronóstico del DBCM a través de tamaños de demanda, métricas de error y horizonte de
pronóstico, enfatizando la evaluación de la precisión del pronóstico probabilístico en métricas múltiples, así como a través de resúmenes
de pronósticos de puntos estándar. Los estudios futuros explorarán los beneficios y desventajas del enfoque DBCM a través de un gran
número de artículos y en múltiples puntos de venta. Un componente específico aplicado de los modelos abiertos a un mayor desarrollo es
la integración de información adicional sobre las promociones a nivel de artículo. Esto es particularmente interesante en relación con la
previsión de tamaños de canasta más altos y poco frecuentes en función, por ejemplo, de los tipos de promoción "compre 1 y obtenga 1
gratis". Tal información puede incorporarse en modelos modificados de la distribución en exceso de varias maneras que deberían
producir mejoras de pronóstico prácticas en tales casos. Finalmente, además de contribuir con los avances en el pronóstico basado en
modelos dinámicos para las ventas al consumidor, la nueva clase de DBCM debería ser de interés en otras áreas que involucran múltiples
series de tiempo heterogéneas de enteros no negativos. Esto incluye áreas como el marketing y modelar el comportamiento del
consumidor en otros contextos donde los recuentos surgen de procesos compuestos subyacentes, como pronosticar visitantes a diferentes
sitios turísticos al pronosticar el número de automóviles y luego el número de pasajeros por auto.

4. Comentarios resumidos

Motivados por una aplicación a la previsión de demanda de productos, y habilitados por la disponibilidad de datos de puntos de venta,
hemos introducido un nuevo marco para el modelado espacial estatal bayesiano de series de tiempo de transacciones-ventas heterogéneas.
Este trabajo se debe al reconocimiento de que la variabilidad que se observa en las ventas de alta frecuencia surge del efecto combinado
de la variabilidad en el número de transacciones y el número de ventas por transacción. El modelo dinámico de cascada binaria se basa en
enfoques previos a series de tiempo de recuento univariadas, notablemente el DCMM de Berry y West (2018). La etapa inicial en este
marco implica adaptar el DCMM a transacciones modelo en lugar de ventas. Dada la reducida variabilidad de las transacciones en
relación con las ventas, esta es una aplicación prometedora en la que el DCMM puede mejorar la precisión del pronóstico. La aplicación
del DCMM a transacciones de artículos relacionados ofrece la oportunidad de integrar información entre series a través de un modelo de
factor dinámico multifactorial y multifactorial. Junto con el DCMM en las transacciones, el concepto de cascada binaria implica una
secuencia de modelos bayesianos para predecir el número de unidades vendidas por transacción. La motivación detrás de esta cascada
binaria es que la forma apropiada de pronosticar eventos raros es a través de una secuencia de probabilidades condicionales que de fi ne
posibilidades de resultados de ventas cada vez más altas y más raras por transacción. La etapa final del marco DBCM es la elección del
exceso de distribución, dejándola sin especificar o eligiendo una forma específica. Dejar el exceso de la distribución sin especificar evita
la tarea difícil de ajustar la larga cola de la distribución de ventas por transacción, sin embargo, este enfoque limita las conclusiones que
podemos presentar sobre la distribución del pronóstico. También presentamos una opción lógica no paramétrica para la distribución en
exceso que implica el arranque de la distribución de exceso empírica. Además de la incorporación de covariables en los componentes
binarios y DGLM de Poisson del DCMM, el marco DBCM amplía aún más la descomposición jerárquica al incorporar covariables en la
cascada de DGLM logísticos binomiales. Esto permite la incorporación de efectos complejos de precio / promoción que pueden afectar el
tráfico general en la tienda, la probabilidad de que un cliente realice una compra y el número de unidades compradas dado que se produce
una transacción. El marco bayesiano utilizado para el DBCM permite la simulación directa / directa de predicciones de varios pasos hacia
adelante, permitiendo el cálculo trivial de los resúmenes de pronóstico de interés. Los ejemplos seleccionados de previsión de ventas
muestran la promesa de una mejora en el pronóstico del DBCM a través de tamaños de demanda, métricas de error y horizonte de
pronóstico, enfatizando la evaluación de la precisión del pronóstico probabilístico en métricas múltiples, así como a través de resúmenes
de pronósticos de puntos estándar. Los estudios futuros explorarán los beneficios y desventajas del enfoque DBCM a través de un gran
número de artículos y en múltiples puntos de venta. Un componente específico aplicado de los modelos abiertos a un mayor desarrollo es
la integración de información adicional sobre las promociones a nivel de artículo. Esto es particularmente interesante en relación con la
previsión de tamaños de canasta más altos y poco frecuentes en función, por ejemplo, de los tipos de promoción "compre 1 y obtenga 1
gratis". Tal información puede incorporarse en modelos modificados de la distribución en exceso de varias maneras que deberían
producir mejoras de pronóstico prácticas en tales casos. Finalmente, además de contribuir con los avances en el pronóstico basado en
modelos dinámicos para las ventas al consumidor, la nueva clase de DBCM debería ser de interés en otras áreas que involucran múltiples
series de tiempo heterogéneas de enteros no negativos. Esto incluye áreas como el marketing y modelar el comportamiento del
consumidor en otros contextos donde los recuentos surgen de procesos compuestos subyacentes, como pronosticar visitantes a diferentes
sitios turísticos al pronosticar el número de automóviles y luego el número de pasajeros por auto.

donde λt es el predictor lineal en el tiempo t. • Este modelo de proceso de Markov condicionalmente lineal para overt a lo largo del
tiempo ha conocido la evolución del estado (o transición) de la matriz Gt y el vector de innovación estocástica (o evolución "ruido") ωt. •
Los ωt son condicionalmente independientes y también independientes de los estados actuales y pasados, y tienen momentos E [ωt | Dt-1,
It-1] = 0 y V [ωt | Dt-1, It-1] = Wt, conocidos en el momento t-1. Apéndice A.2. Aprendizaje Secuencial Apéndice A.2.1. Casos no
normales En un modelo con estructura binomial o de Poisson, el predictor lineal λt es una transformación uno-a-uno del parámetro
natural de la distribución de muestreo. Como en eqns. (3,4) implican transformaciones logísticas y de registro. El único estepanálisis de t-
1 a t utiliza restricciones para controlar las anteriores / posteriores de los parámetros naturales para permitir la actualización cerrada y el
acceso a distribuciones predictivas relevantes para la predicción. El detalle incluye los siguientes pasos (por ejemplo, Westetal., 1985;
WestandHarrison, 1997, capítulo 15; Prado y West, 2010, sección 4.4). (a) En t-1, la información actual se resume mediante el vector
medio y la matriz de varianza del posterior para el vector de estado actual, concretamente (θt-1 | Dt-1, It-1) ~ [mt-1, Ct- 1]. (B) Los
momentos previos implícitos de 1 paso para el vector de estado t de tiempo son (θt | Dt-1, It-1) ~ [at, Rt] con at = Gtmt-1 y Rt = GtCt-
1G0 t + Wt. (c) El tiempo t anterior se elige para que sea de forma conjugada con parámetros definidos por los momentos anteriores de λt
implicados por el punto b anterior, es decir, el conjugado anterior satisface

d) Predicción yt 1 paso adelante usa la distribución predictiva inducida por conjugación con p.d.f. p (yt | Dt-1, It-1). En todos los modelos
conjugados esto es de forma analítica conocida y se puede simular trivialmente. (e) Al observar yt, el posterior para λt está implícito en la
forma conjugada posterior para el parámetro natural. (f) Debajo de este posterior, el mapeo de regreso al predictor lineal λt = g (ηt)
implica media posterior y varianza gt = E [λt | Dt] y pt = V [λt | Dt]. (g) La actualización lineal de Bayes (Goldstein y Wooff, 2007)
proporciona el vector medio posterior y la matriz de varianza en (θt | Dt) ~ [mt, Ct] como

Esto completa el ciclo t-1-to-t evolución-predicción-actualización. Esta estructura general se especializa en los modelos binarios,
binomiales y de Poisson de la siguiente manera. DGLM de logística binomial: DGLM binarios o binomiales se utilizan para el
componente de modelo DCMM para transacciones cero / no cero zt en eqn. (2) y para cada uno de los modelos de componentes en la
cascada dinámica binaria para ventas por transacción nr, t en eqn. (4) El caso binario, el de un DGLM de Bernoulli, es simplemente un
caso especial del modelo binomial resumido aquí. Aquí la serie yt es condicionalmente binomial con, en una notación general, yt ~ Bin
(ht, πt) donde ht es el entero positivo "número de ensayos" y la probabilidad de éxito πt se relaciona con el predictor lineal mediante λt =
logit (πt) . El caso binario tiene, por supuesto, ht = 1. El conjugado anterior en el paso (c) anterior es Beta, πt ~ Be (αt, βt), con los
hiperparámetros que definen ft = ψ (αt) -ψ (βt) y qt = ψ0 (αt) + ψ0 (βt), donde ψ (·) y ψ0 (·) son las funciones de digamma y trigamma,
respectivamente. Los valores (αt, βt) se pueden calcular trivialmente a partir de (ft, qt) mediante una solución numérica iterativa basada
en el estándar Newton-Raphson. El pronóstico de 1 paso por delante es Beta-Bernoulli con (yt | Dt-1, It-1) ~ BBer (ht, αt, βt). El
conjugado posterior en el paso (e) anterior es πt ~ Be (αt + yt, βt + ht-yt). Los momentos actualizados del predictor lineal en el paso f
anterior se calculan trivialmente mediante las ecuaciones gt = ψ (αt + yt) - ψ (βt + ht - zt) y pt = ψ0 (αt + yt) + ψ0 (βt + ht -Zt). DGLM
loglinear de Poisson: en el componente del modelo DCMM, hemos cambiado los datos de Poisson en función del Poisson DGLM. El
análisis general de Poisson se aplica trivialmente a la serie temporal desplazada por 1 unidad. En el ajuste general, yt ~ Po (μt) con λ =
log (μt). El conjugado anterior en el paso (c) anterior es Gamma, μt ~ Ga (αt, βt), con los hiperparámetros que definen ft = ψ (αt) - log
(βt) y qt = ψ0 (αt). Los valores (αt, βt) se pueden calcular trivialmente a partir de (ft, qt) a través de una solución numérica iterativa
basada en NewtonRaphson estándar. El pronóstico de 1 paso a continuación es binomial negativo, (yt | Dt-1, It-1) ~ Nb (αt, βt / (1 + βt).
El conjugado posterior en el paso (e) anterior es μt ~ Ga (αt + yt, βt + 1). Los momentos actualizados del predictor lineal en el paso (f)
anterior se calculan trivialmente a través de las ecuaciones gt = ψ (αt + yt) -log (βt +1) y pt = ψ0 (αt + yt )

Apéndice A.2.2. Casos normales Cuando yt es condicionalmente normal, el DGLM se reduce a un DLM condicionalmente normal. Esto
es relevante para el recuento de series de tiempo en el caso de recuentos grandes en los que una transformación de registro, por ejemplo,
de la serie de conteos a menudo se puede modelar bien utilizando un DLM normal como una aproximación. Esto también permite la
inclusión de volatilidad a través de una varianza condicional variable en el tiempo. En el ajuste general, yt ~ N (μt, vt) con λt = μt
definiendo la regresión dinámica y vt una variación potencialmente variable en el tiempo. Considere primero el caso de vt conocido. El
conjugado anterior en el paso (c) del apéndice A.2.1 de la sección anterior es normal, al igual que la distribución de previsión de 1 paso
adelante y la posterior implícita para μt. La actualización previa a la posterior en el paso (g) se reduce a una actualización de filtro de
Kalman estándar. Cuando está incrustado en el DLM, la suposición adicional de que los términos de ruido de evolución ωt en eqn. (A.1)
también son normales implica que las ecuaciones de evolución / actualización de DGLM son exactas en este caso especial. Sin embargo,
para la mayoría de las aplicaciones prácticas, es relevante también estimar las varianzas condicionales vt = 1 / φt. La extensión más
simple y ampliamente utilizada es la basada en un modelo estándar de volatilidad estocástica Beta-Gamma para φt que es analíticamente
tratable. La teoría resultante se basa en distribuciones anterior / posterior gamma normal / inversa para (μt, vt). Los detalles de las
modificaciones resultantes para el análisis de filtrado y pronóstico son muy estándar (West y Harrison, 1997, capítulo 4 y sección 10.8,
Prado y West, 2010, sección 4.3).

Apéndice A.3. Factor de descuento para matrices de varianza de evolución Valores de matrices de varianza Wt en eqn. (A.1) use el
descuento de componentes (West y Harrison, 1997, capítulo 6). En modelos prácticos, el vector de estado se divide en componentes que
representan diferentes efectos explicativos, como tendencias (por ejemplo, nivel local, gradiente local), estacionalidad (factores
estacionales variables en el tiempo o coeficientes de Fourier) y coeficientes de las variables predictoras. Entonces, para un entero J
tenemos θ0 t = (θ0 t1, ..., θ0tJ). Entonces es natural definir Wt para representar grados potencialmente diferentes de variación estocástica
en estos componentes y esto se habilita usando factores de descuento separados δ1, ..., δJ, donde cada δj ∈ (0,1). Un factor de descuento
alto implica una bajo nivel de cambio estocástico en los elementos correspondientes del vector de estado, y viceversa (con δj = 1 que no
implica ningún ruido estocástico, obviamente deseable pero rara vez prácticamente relevante). Del Apéndice A.2 parte b anterior, el
tiempo t-1 matriz de varianza previa de Gtθt-1 es Pt = GtCt-1G0 t, esto representa niveles de información sobre el vector de estado
siguiendo la evolución determinística a través de Gt pero antes del impacto del ruido de evolución que luego simplemente agrega Wt.
Escribe Ptj para el bloque diagonal de Pt correspondiente al subvector de estado θtj y establece

Entonces, la matriz de varianza previa implícita de θt después de la evolución tiene elementos de bloque diagonales correspondientes Rtj
= Ptj / δj mientras mantiene bloques fuera de diagonal de Pt. Por lo tanto, la parte estocástica de la evolución aumenta las incertidumbres
sobre todos los elementos veraces en cada subvectorj en 100 (1-δj) / δj%, mantiene las correlaciones en Ptj para los elementos de estado
dentro del subvector j, mientras que reduce las correlaciones cruzadas entre los elementos del vector de estado en diferentes subvectores.
En la práctica, los valores altos de δj son deseables y las aplicaciones típicas usan valores en el rango de 0.97-0.99 con, generalmente,
robustez en términos de rendimiento de pronóstico con respecto a los valores en el rango. La evaluación de las métricas de pronóstico
sobre datos de capacitación utilizando diferentes opciones de factores de descuento es una estrategia básica en la creación y ajuste del
modelo.

Apéndice A.4. Extensiones dinámicas de efectos aleatorios de los componentes de modelo de estado de estado Una extensión de los
DGLM tradicionales utilizados como componente de modelo de clave que es muy relevante para la previsión de transacciones implica la
introducción de efectos aleatorios adicionales y temporales en el vector de estado. Esto se puede usar en componentes de Poisson binarios
y modificados ya que generalmente es aplicable a cualquier DGLM, pero aquí tiene un interés principal y una importancia potencial en el
componente de Poisson condicional ya que tiene la capacidad de capturar una variación adicional en los niveles de conteo más allá de lo
predicho por un modelo de espacio de estado central. Esto se introdujo en Berry y West (2018) en DCMM para la previsión de ventas. En
el trabajo actual, mientras que el nuevo modelo acoplado de ventas-transacciones ya analiza explícitamente las variaciones observadas en
las cuentas de ventas para la heterogeneidad del tamaño de las cestas en todas las transacciones, aún habrá una necesidad de representar y
estimar variaciones impredecibles adicionales específicas para un día que vayan más allá de lo capturado por el modelo específico.
Resumimos esto aquí en el contexto del Poisson DGLM modificado para las transacciones. Use la notación modificada de Ft, 0, θt, 0 y
λt, 0 = F0t, 0θt, 0 para el vector de re- gresión dinámica, el vector de estado y el predictor lineal en un modelo "basal" específico. Luego
defina un modelo extendido de efectos aleatorios para tener el vector de estado θt = (ζt, θ0t, 0) 0 y el vector de regresión Ft = (1, F0t, 0) 0
donde ζt es una serie de efectos aleatorios independientes de cero que también son independiente de los vectores de estado base actuales y
pasados. El predictor lineal implícito λt y la media de Poisson resultante μt están dados por log (mut) = λt = λt, 0 + ζt; por lo tanto, ζt
proporciona "shocks" adicionales, específicos del día, para las tasas de transacción latentes, por separado de los cambios inferidos por el
modelo predictivo de referencia. La extensión del modelo utiliza un factor de descuento de efectos aleatorios ρ, (0 <ρ ≤ 1), para definir
los niveles de variabilidad de los efectos aleatorios. Este parámetro de ajuste se usa de la siguiente manera. En el momento t-1,
incertidumbre previa sobre el vector de estado de línea base Rt, 0 = V [θt, 0 | Dt-1, It-1] implica qt, 0 ≡ V [λt, 0 | Dt-1, It-1] = F0t, 0Rt,
0Ft, 0. El modelo establece vt = V [ζt | Dt-1, It-1] = qt, 0 (1-ρ) / ρ La línea base de Poisson DGLM surge como el caso especial ρ = 1,
mientras que un valor más pequeño de ρ induce un nivel más alto de la variación temporal específica del tiempo, lo que implica una
mayor dispersión de las distribuciones del pronóstico. El análisis DGLM de la Sección Apéndice A.2.1 se aplica con una extensión trivial
a los tecnicismos: el resultado efectivo es que la varianza previa qt del predictor lineal, en el apéndice Apéndice A.2 parte b anterior, se
modi fi ca a qt = qt, 0 + vt = qt, 0 / ρ. Esto deja en claro que el factor de descuento ρ define una in fl ación de varianza de predicción
relativa a la del modelo de referencia.

También podría gustarte