Tesis Andrés Camilo Peña Ordóñez PDF

Pronóstico de la Inflación Colombiana: una aproximación desde un
modelo Arima desagregado y Machine Learning
Andrés Camilo Peña Ordóñez
Trabajo de grado para optar al título de ingeniero industrial
Asesor:
Adriana Abrego Pérez
Departamento de Ingeniería Industrial
Universidad de Los Andes
Diciembre 2019
1
Agradezco a mi mamá por siempre apoyarme de todas las formas
posibles, sin ella, nada de esto sería posible
2
Pronóstico de la Inflación Colombiana: Una aproximación desde un
modelo Arima desagregado y Machine Learning
Andrés Peña Ordóñez
Resumen
Este artículo realiza dos cosas. Primero, realiza un modelo Arima para cada una de las 12 divisiones de
gasto que conforma el IPC base 2018, para así, ponderar el pronóstico un paso hacia delante de la
inflación mensual. Para este modelo fue necesario la serie de empalme del IPC entre la canasta base 2008
y base 2018. Segundo, realiza un modelo mediante un Random Forest que permita pronosticar la
inflación mensual. Ambos modelos realizaron el pronóstico desde noviembre de 2017 hasta octubre de
2019. Como resultado, el modelo a través de Random Forest mejora el pronóstico que realizó el modelo
desagregado Arima, esto bajo diferentes medidas de error.
Palabras clave: Inflación, Arima, IPC, Machine Learning, Random Forest,
3
Forecast of Colombian Inflation Rate: An approach from an Arima
disaggregated model and Machine Learning
Andrés Peña Ordóñez
Abstract
This article is a twofold objective. First, it performs an Arima model for each of the 12 spending groups
which conforms the CPI, thus, the forecast one step ahead of the monthly inflation will be the pooling of
the forecasts. For this model, it was necessary the joint series between 2018´s CPI and 2008´s CPI.
Second, it applies a Random Forest, Machine Learning technique to forecast monthly inflation. Both
models forecasted from November 2017 to October 2019. As a result, the Random Forest improves the
Arima disaggregated´s model, under different error measurements.
Key words: Inflation, Arima, CPI, Machine Learning, Random Forest.
4
Tabla de contenido
1. Introducción ....................................................................................................................................................6
2. Revisión de literatura .....................................................................................................................................9
2.1. Pronósticos de la inflación colombiana usando la metodología Arima ....................................................9
2.2. Pronósticos de la inflación colombiana mediante otras metodologías .................................................. 12
2.3. Modelos de pronóstico de la inflación del Banco de la República ........................................................ 14
2.4. Estudios sobre la naturaleza de la inflación colombiana y pregunta de investigación .......................... 15
3. Datos ............................................................................................................................................................. 17
4. Pronóstico a través Arima .......................................................................................................................... 19
4.1. Alimentos y bebidas no alcohólicas ...................................................................................................... 20
4.2. Bebidas alcohólicas y tabaco ................................................................................................................. 21
4.3. Prendas de vestir y calzado .................................................................................................................... 23
4.4. Alojamiento, agua, electricidad, gas y otros combustibles .................................................................... 25
4.5. Muebles, artículos para el hogar y para la conservación ordinaria del hogar ........................................ 26
4.6. Salud ...................................................................................................................................................... 28
4.7. Transporte .............................................................................................................................................. 30
4.8. Información y comunicación ................................................................................................................. 31
4.9. Recreación y cultura .............................................................................................................................. 33
4.10. Educación .......................................................................................................................................... 34
4.11. Restaurantes y hoteles ....................................................................................................................... 37
4.12. Bienes y servicios diversos ................................................................................................................ 38
5. Pronóstico a través de Random Forest ....................................................................................................... 39
6. Resultados .................................................................................................................................................... 44
7. Conclusiones................................................................................................................................................. 46
8. Referencias ................................................................................................................................................... 49
9. Anexos ........................................................................................................................................................... 51
5
1. Introducción
Desde los inicios de la teoría macroeconómica, se ha estudiado la inflación como un fenómeno
económico el cual afecta de gran manera a una economía. El nivel inflacionario de un país puede variar
dependiendo de su economía, desde valores negativos como los que ha presentado Japón (-0.29% en
2018), valores positivos moderados como E.E.U.U (1.9% EA en 2018) a valores positivos altos como
Venezuela (1.698.844,2 % EA en 2018) (StatBureau, 2019). Aunque tener inflación con valores
moderados cercanos a cero tiene sus beneficios, años de estudios teóricos y empíricos indican que estos
niveles de inflación benefician el desarrollo, crecimiento y estabilidad económica.
En el conocimiento común de la sociedad se relaciona la inflación como el aumento de los precios debido
al comportamiento de los individuos que buscan aumentar sus ingresos mediante el aumento de los
precios a medida que pasa el tiempo, sin embargo, la inflación va mucho más allá de eso. La variación
en el nivel general de precios puede verse afectada por la oferta de dinero, tasa de interés, aumento en
precios de los insumos de producción, efectos climáticos, entre otras variables exógenas. Por lo tanto, no
es una variable de la cual se espere que tenga un comportamiento plano a través del tiempo (Echavarría,
López, & Misas, 2010).
Debido a lo que significa la inflación para una economía, el comportamiento de esta es de interés para el
sector público, privado y hogares (Alonso & Rivera, 2017). Primero, el sector público, mediante el banco
central, toma decisiones de política monetaria teniendo en cuenta el nivel actual de la inflación y las
expectativas que existan sobre esta, con el fin de anticiparse a niveles inflacionarios indeseados. Segundo,
el sector privado necesita saber los niveles de inflación ya que, a esta tasa, su dinero perderá poder de
adquisición. Además, entidades financieras podrán tomar posiciones favorables en títulos de deuda
pública o privada, y de esta manera, bajo una inflación esperada, poder tener ingresos debido a su
6
posición o trading de estos títulos. Finalmente, los hogares también están interesados en el
comportamiento de la inflación ya que, altos niveles de inflación aumentarán los costos de sus insumos,
lo que, en términos reales, generaría disminución en el consumo, ingreso y calidad de vida. Según lo
anterior, poder pronosticar apropiadamente la inflación en corto y largo plazo, permitirá a los distintos
agentes de la economía poder tomar decisiones beneficien su bienestar, y, por lo tanto, beneficiar el nivel
general de la economía.
En aras de lograr que los distintos agentes estén preparados para choques inflacionarios, es necesario
crear un modelo que permita pronosticar futuros choques en el corto, mediano y largo plazo. Sin
embargo, dependiendo del plazo del pronóstico deseado, será necesario definir qué tipo de modelo
realizar. Debido a falta de información y efectos con rezago, la inflación en el corto plazo se hace más
difícil de pronosticar. Además, como se enfatizará en la revisión de literatura, según Echavarría, López,
& Misas (2010), los choques en la inflación desaparecerán en el mediano-largo plazo, por lo tanto, la
volatilidad de la inflación en estos plazos será menor.
Actualmente, los modelos de pronóstico de inflación consisten en tres grandes grupos: modelos
univariados, multivariados y modelos de equilibrio general (Meyer & Pasaogullari, 2010). Debido a la
gran información que puede manejar, los modelos multivariados y de equilibrio general tienden a
pronosticar mejor la inflación en el mediano y largo plazo. Mientras, que el comportamiento de la
inflación en el corto plazo puede ser pronosticado de mejor manera usando modelos univariados. Esto se
debe a que utilizar series de tiempo con variables macroeconómicas tiene dos problemas principales.
Primero, la gran cantidad de variables económicas potencialmente informativas y segundo, la duración
de cada una de las series de tiempo. Estos problemas pueden llevar a sobre ajustar el modelo.
Recientemente, se están utilizando modelos de Machine Learning, como Random Forest (RF), para
7
pronosticar variables macroeconómicas. Estos modelos de ML permiten evitar el sobre ajuste de los
modelos; además de permitir la existencia de dependencias no lineales (Baybuza, 2018)
Es por esto, que el presente artículo busca comparar el pronóstico de la inflación mensual (corto plazo)
mediante dos enfoques. El primero mediante un modelo econométrico tradicional (Arima) y el segundo,
mediante un enfoque de Inteligencia Artificial, con una técnica de Autoaprendizaje (Machine Learning)
a través de un modelo denominado Random Forest1. Con base en las dificultades previamente
comentadas acerca de las complicaciones de generar pronósticos de la inflación según el plazo, es de
interés comparar el poder de generar pronósticos más acertados en el corto plazo mediante los enfoques
aquí propuestos los cuales se enfocarán a emplear datos univariados. Finalmente, es necesario considerar
que la metodología por la cual el DANE calcula el IPC cambia cada 10 años, por lo tanto, en este artículo
se usó tanto la canasta válida2 para 2009-2018, así como la canasta válida a partir de 2019 en adelante
Este artículo tiene la siguiente estructura: la sección 2 contiene la revisión de literatura sobre el pronóstico
de la inflación en Colombia; la sección 3 abarca la explicación de los datos usados para los modelos; la
sección 4 y 5 contienen los modelos realizados por el autor, Arima y Random Forest (RF),
respectivamente; la sección 6 contiene los resultados arrojados por ambos modelos junto a su posterior
comparación y la sección 7 tiene conclusiones y recomendaciones pertinentes sobre lo hallado en este
artículo.
1
La metodología de Random Forest consiste en la elaboración de múltiples árboles de decisión cuya
función es pronosticar o clasificar a partir de una muestra de datos. Este modelo será abordado con más
detalle en la sección 5.
2
Con el fin de conformar el IPC, el Departamento Administrativo Nacional de Estadística (DANE)
conforma un grupo de bienes (canasta) que representa el consumo de los hogares colombianos durante
el periodo de su vigencia. Cada 10 años, el DANE modifica dicha canasta con el fin de representar los
hábitos de consumo al momento de la modificación, es ahí cuando la canasta anterior deja de ser
vigente para calcular el IPC.
8
2. Revisión de literatura
En el ámbito colombiano se han hecho numerosos estudios en cuanto al pronóstico de la inflación
colombiana mediante diferentes metodologías. Dentro de estas metodologías se encuentran modelos
mediante redes neuronales (Camaro, Jiménez, Santana, & Casas, 2006), redes neuronales artificiales
(Aristizabal, 2006), Arima (Alonso & Rivera, 2017), equilibrio general (González, Mahadeva, Prada, &
Rodríguez, 2011), Kernel, STAR (Rodríguez N. & Siado C., 2003), entre otras. Cada uno de estos
modelos se ha utilizado para pronosticar la inflación a distintos plazos; bien sea a un mes, como el Arima
(Alonso & Rivera, 2017) y STAR (Rodríguez N. & Siado C., 2003), o a mediano y largo plazo como el
modelo de equilibrio general del Banco de la República, PATACON3. A continuación, se hará una
revisión de la literatura en aras de poder analizar ventajas y desventajas de las metodologías ya
mencionadas. No se analizará literatura sobre pronósticos de la inflación en otros países, ya que la serie
inflación de otros países puede ser diferente a la colombiana; tanto por su canasta de consumo, como por
su volatilidad y las variables exógenas que las afectan. Por lo tanto, asegurar que una metodología es
acertada para pronosticar la inflación en otro país, no significa que será acertada para el caso colombiano.
A continuación, se hará una revisión de estudios la cual se dividirá en 4 partes: (1) Pronóstico de la
inflación colombiana con Arima, (2) Pronóstico de la inflación colombiana con otras metodologías (3)
Modelos de pronóstico de la inflación del Banco de la República y (4) Estudios de la naturaleza de la
inflación en Colombia.
2.1. Pronósticos de la inflación colombiana usando la metodología Arima
Primero, Rodríguez y Siado (2003) realizaron los primeros pronósticos de la inflación colombiana
usando métodos de predicción no paramétricos basados en estimación Kernel, la cual se comparó con
pronósticos realizados mediante Arima y STAR. La información utilizada para el pronóstico fue el IPC
3
PATACON: Policy Analysis Tool Applied to Colombian Needs
9
de enero de 1980 hasta septiembre de 2002, y se evaluó los pronósticos en el periodo de enero de 2000
a mayo de 2003. Rodríguez y Siado (2003) encontraron que los datos de la inflación que se tomaron no
presentaban estacionariedad, por lo que hicieron diferenciación de orden 1 en la serie original. Una vez
realizado el pronóstico mediante las tres metodologías, se procedió a compararlas entre sí para los plazos
de un mes hasta doce meses. En aras de poder comparar las diferentes metodologías de pronóstico, se
utilizó como criterio de evaluación el error cuadrático medio. Para el periodo de evaluación elegido,
Rodríguez y Siado (2003) concluyeron que el pronóstico de la metodología Kernel mejora la estimación
de la inflación para todos los periodos de dos a 12 meses. En el caso de la estimación a un mes, el modelo
Arima fue el que tuvo menor error cuadrático medio (Rodríguez N. & Siado C., 2003). Debido a que el
presente artículo pretende pronosticar la inflación mensual un paso hacia adelante, es de gran utilidad lo
encontrado por los anteriores investigadores. Esto permite afirmar que efectivamente, el uso de Arima
para el plazo pronosticado puede llegar a ser más acertado que otras metodologías.
Años más tarde y con la canasta de consumo válida para el periodo 2009-2018, Alonso y Rivera (2017)
realizaron varios pronósticos mediante la metodología Arima desde 4 aproximaciones. Estas
aproximaciones consistían en desagrupar la composición del IPC por ciudades, división de gasto, nivel
de ingreso, subgrupos y grupos. En las figuras 3.1.1 y 3.1.2, se muestra la conformación del IPC utilizado
(2009-2018) para más adelante explicar en qué consiste cada propuesta realizada por Alonso y Rivera
(2017). El pronóstico de la inflación consiste en encontrar la información desagregada según ciudad,
ingreso, grupo, clase y subgrupo; luego se pondera todos los pronósticos con el fin de encontrar el IPC
nacional y así, hallar la inflación mensual.
Antes de explicar cada aproximación de Alonso y Rivera (2017), es necesario resaltar que el DANE
revela la información desagregada para 13 de las 24 ciudades con la cual se calcula la canasta; por lo
10
tanto, el pronóstico de las 11 ciudades restantes se hizo sobre el total del IPC para cada una de las
ciudades. La primera aproximación consiste en pronosticar para cada uno de los 3 niveles de ingreso,
cada uno de los 181 IPC de las categorías de gasto en las 13 ciudades en las cuales existe la información
desagregada. La segunda aproximación toma los precios de cada uno de los 88 productos y servicios para
cada nivel de ingreso en las 13 ciudades con la información disponible. La tercera estimación implica
pronosticar los 34 elementos de cada categoría del subgrupo para cada nivel de ingreso en las 13 ciudades
con información desagregada. La cuarta y última estimación consiste en pronosticar las 9 divisiones de
gasto para cada nivel de ingreso en las 13 ciudades con la información disponible. Para ordenar cada
posible pronóstico de las series según cada criterio se utilizaron los coeficientes AIC (criterio de
información Akaike), AICC (corrección de muestras infinitas para el AIC) y BIC (criterio bayesiano)
por lo tanto, para cada serie se obtienen 3 pronósticos.
Una vez se ponderan todos los pronósticos según su aproximación propuesta para conformar el IPC
nacional, se procede a comparar las 4 aproximaciones junto a un pronóstico agregado sobre el IPC
nacional/total. El estudio comprobó que las 4 aproximaciones con información desagregada mejoraban
el pronóstico univariado que se hizo sobre el total del IPC nacional. En cuanto a la mejor aproximación
con información desagregada fue la cuarta estimación, la cual realiza el pronóstico a partir de la
información de cada uno de los 9 grupos de gasto para cada nivel de ingreso en las 13 ciudades; este
presentó el menor error cuadrático medio4. Por lo tanto, para calcular la inflación un mes hacia adelante
con la mejor metodología, será necesario realizar 362 pronósticos. Esto puede suponer un problema en
cuanto a la especificación y forma correcta de cada pronóstico.
4
Este error fue calculado obteniendo la raíz cuadrática del promedio de la sumatoria de los errores cuadráticos.
11
La metodología antes referida de utilizar y pronosticar información desagregada para su posterior
ponderación tiene beneficios que son discutidos en la literatura. Primero, el pronosticar una variable
general puede tener problemas al no tener en cuenta las características de las variables que se ponderan,
por lo tanto, se podría estar incurriendo en una forma funcional incorrecta y a su vez en problemas de
autocorrelación residual. Segundo, una estimación desagregada de una variable permite realizar mejor
análisis previo e identificar la tendencia y forma de cada serie; además, el pronóstico de cada una de las
variables que componen la variable total permite mejor análisis de cada una de estas (Hendry & Michael,
2001). Sin embargo, esta metodología también ha recibido críticas debido a la gran cantidad de
información que se puede llegar a involucrar en el pronóstico. El hecho de tener más información no
implica obtener un mejor pronóstico, ya que se podría estar saturando el modelo y terminar pronosticando
variables que se reflejan de la mejor manera en la suma de estas (Theil, 1955). Este puede ser el caso del
estudio de Alonso y Rivera (2017) el cual necesita 362 pronósticos. Aunque se comprobó que esta
metodología es mejor al resto planteadas, se podría realizar una metodología de pronóstico con
información desagregada, pero agrupando ciertas categorías. De esta manera se podría darle el análisis
necesario a cada una de las series de tiempo que se pronosticará, para así asignar un método de pronóstico
sea Arima o no a cada serie, pero manteniendo el número de pronósticos a realizar en una cantidad
razonable.
2.2. Pronósticos de la inflación colombiana mediante otras metodologías
En la literatura reciente sobre pronósticos se han comenzado a utilizar modelos más avanzados que
han reemplazado a modelos tradicional como lo es Arima. Una de las críticas que se la han hecho a los
modelos Arima es el fuerte supuesto de que sigue una forma funcional lineal, además, no es un modelo
que pueda capturar de forma correcta los choques exógenos recientes que afecten una variable (Alonso
& Rivera, 2017). Dentro de las nuevas metodologías de pronóstico que han tenido gran acogida están las
12
redes neuronales, debido a su gran capacidad de aprendizaje sobre la misma serie (Camaro, Jiménez,
Santana, & Casas, 2006).
En Colombia se han hecho estudios utilizando redes neuronales como metodología para pronosticar
variables económicas, y la inflación no es la excepción. Misas, López y Borrero (2002) realizaron un
estudio en el cual pronosticaban la inflación mediante redes neuronales, el cual era comparada
posteriormente con metodologías lineales tradicionales como Arima, suavizamiento exponencial y
mínimos cuadrados flexibles. Las variables que las redes neuronales tuvieron en cuenta fue el IPC
nacional, agregado monetario M15 y M26, desde 1969 a 2001. A partir de esto, se plantearon dos redes
neuronales, la primera de forma autorregresiva en la que se utilizan los agregados monetarios en rezago
con el fin de redecir la demanda de efectivo; la segunda red neuronal es de manera ampliada en la cual
se integran tanto los agregados monetarios como la serie del IPC en rezagos. Ambas redes neuronales
lograron mejorar los pronósticos tradicionales y la red neuronal ampliada fue la que mejor pronosticó la
inflación, mejorando los pronósticos de la red autorregresiva. Posteriormente, Aristizábal (2006) retomó
el estudio realizado por Misas, López y Borrero (2002) en el que mediante redes neuronales buscaba
pronosticar la inflación con la relación del dinero. En este caso, se realizó mediante un proceso dinámico
de pronóstico conocido como Rolling, el cual consiste en estimar los parámetros antes de realizar las
predicciones fuera de la muestra.
Posteriormente, (Camaro, Jiménez, Santana, & Casas, 2006) evaluaron la capacidad de predicción de las
redes neuronales, y se compararon los resultados con los modelos tradicionales Arima, suavizamiento
exponencial y modelos de regresión con coeficientes variantes en el tiempo. Para el modelo Arima, según
5
Agregado monetario M1: Cuentas corrientes en bancos comerciales más el efectivo en poder del público.
6
Agregado monetario M2: Incluye el M1 más depósitos de ahorro, y certificados de depósito a todos sus plazos e
indexaciones existentes (Banco de la Repúbica, 2004)
13
el criterio BIC, se determinó un modelo SArima (1,1,1) (0,1,1)12 para la serie del IPC nacional de enero
de 1998 a diciembre de 2005. Una vez realizadas diferentes redes neuronales, se demostró que estas
mejoraban la predicción de la variación del IPC, en comparación con las metodologías tradicionales ya
mencionadas.
2.3. Modelos de pronóstico de la inflación del Banco de la República
Debido a que el Banco de la República es el ente encargado de tomar las decisiones de política
monetaria, es necesario revisar los modelos de pronóstico de la inflación que maneja dicha entidad y en
las cuales basa sus decisiones de política. Después de la implementación del esquema de inflación
objetivo en 1999, era necesario una herramienta que pronosticara la inflación bajo el nuevo esquema, por
lo tanto, se crearon modelos que cubrieran esta necesidad.
El Banco de la República creó un modelo macroeconómico diseñado para Colombia, el cual permite
pronosticar variables económicas a mediano y largo plazo. El MMT7 consiste principalmente de
pronósticos mediante la desviación de una variable y su estado natural en el largo plazo. Este modelo
recibió críticas ya que no capturaba de manera correcta los choques que podían afectar el producto, por
lo tanto, se podían llegar a tomar decisiones de política monetaria erróneas (Bejarano, 2002). Este modelo
fue reemplazado posteriormente por el modelo PATACON.
El modelo que actualmente maneja el Banco de la República, PATACON, surgió como una variación al
Modelo de Mecanismo de Transmisión (MMT). Este tipo de modelo ha sido utilizado para varias
economías pequeñas y abiertas como Suecia, España, Noruega, Chile, entre otras. Este es un modelo
estocástico dinámico de equilibrio general micro fundamentado, el cual sirve para dar recomendaciones
7
Modelo de Mecanismo de Transmisión de Política Monetaria
14
de política monetaria, simular choques exógenos en la economía y pronosticar variables económicas
como la inflación y el PIB a mediano y largo plazo. El modelo se basa en agentes que optimizan el uso
de sus recursos en distintos periodos de tiempo, sujetos a restricciones de presupuesto, expectativas
económicas y a cantidades de bienes en el mercado. Además, este modelo considera varios supuestos
como rigidez de salarios, hábitos de consumo, depreciación de capital, costos de inversión, entre otros.
Para ver más detalles consultar (González, Mahadeva, Prada, & Rodríguez, 2011). Actualmente se está
trabajando en un modelo semi estructural para el análisis de política monetaria, con el cual también será
posible pronosticar la inflación a mediano y largo plazo. A la fecha, este documento no ha sido publicado
en la sección de borradores de economía del Banco de La República.
2.4. Estudios sobre la naturaleza de la inflación colombiana y pregunta de investigación
Aunque la canasta utilizada en los estudios recientemente explicados es muy distante a la actual en
términos de composición por división de gasto, volatilidad y niveles; Echavarría, López y Misas (2010)
demostraron la persistencia estadística de la inflación en Colombia para el periodo 1990-2010, lo cual
permite que dicha serie sea comparable con la actual. Dicho estudio tuvo dos hallazgos importantes que
se utilizarán en este trabajo. En primer lugar, se comprobó que la serie de la inflación anual es estacionaria
alrededor de una tendencia determinística entre el periodo de enero de 1990 a junio de 2010, lo cual
implica que los choques a la inflación se diluyen en el tiempo. En segundo lugar, mediante el método
Markov-Switching, los autores encuentran dos estados de distinta naturaleza en la inflación. El primer
estado comprende de enero de 1990 a enero de 2001, donde la inflación era alta y muy volátil. Cabe
destacar que, en gran parte de este periodo (1991-1999), el Banco de La República no contaba con
política monetaria independiente, por lo tanto, no podían controlar la inflación mediante la tasa de interés;
esto cambió en 1999 con la adopción de una tasa de cambio libre y el control de la política monetaria del
país. El segundo estado comprende desde enero de 2001 hasta el último periodo estudiado, junio de 2010,
15
y se caracteriza por inflación más baja y menos volátil, con sobre saltos en 2007. Estos sobresaltos se
dieron debido a un aumento mundial en el precio de los alimentos, siendo este el grupo con mayor
representación histórica en la canasta de consumo representativa.
Echavarría, López y Misas (2010) atribuyeron las diferencias en ambos estados a la implementación en
1999 del “Esquema de inflación objetivo en Colombia”. Este esquema consiste en que el Banco de la
República fija cada año una meta de inflación para anclar las expectativas de los agentes. En presencia
de algún choque que aleje la inflación de esta meta, el Banco de la República mueve su tasa de interés
para alterar la liquidez y la demanda de dinero en el mercado interbancario, para así llevar la inflación a
niveles cercanos de la meta (Banco de la República, 2008). En consecuencia, estos hallazgos que indican
un cambio de naturaleza en la inflación debido a la implementación del “Esquema de inflación objetivo
en Colombia”, permiten atribuir que la inflación seguirá su persistencia estadística. Aunque la inflación
tenga periodos volátiles (2007 y 2016), esta volverá cerca a su nivel meta fijado por el Banco de la
República, tal y como sucedió en ambos periodos. Conjuntamente, Echavarría, López y Misas (2010)
estimaron que, para el periodo 2001-2010, el choque sobre la inflación desaparece en 4 meses, y 1 mes,
en caso de ser positivo o negativo, respectivamente. Según lo mencionado anteriormente, se puede
suponer que la inflación, después de 2010, siga con persistencia estadística encontrada mediante
absorción de los choques exógenos rápidamente. Además, no se espera que esto cambie hasta que ocurra
un fundamental tan fuerte como el del “Esquema de Inflación Objetivo”, el cual dio paso a este nuevo
estado de una inflación menos volátil y más baja.
Finalmente, en aras de continuar con la estructuración de los modelos, es necesario tener en cuenta lo
hallado en la revisión de literatura. Los modelos Arima logran dar un mejor pronóstico a un mes que
otros modelos, como STAR y Kernel, además, un pronóstico desagregado del IPC logra mejorar el
pronóstico Arima agregado. Por lo tanto, este artículo busca responder la siguiente pregunta:
16
¿El pronóstico a un mes de la inflación mensual colombiana mediante Machine Learning logra mejorar
el pronóstico de un modelo Arima desagregado?
Esta pregunta se responderá abordando así dos enfoques. Primero, el modelo Arima desagregado y
segundo, un modelo de Machine Learning, mediante la metodología de Random Forest (RF). Una vez
realizados los pronósticos, se seleccionará el modelo que se desempeñe mejor bajo diferentes medidas
de error. Finalmente, en aras de poder generar los modelos de pronóstico ya descritos, a continuación
se explicará la naturaleza de los datos empleados en ambos modelos.
3. Datos
En aras de pronosticar a un mes la inflación colombiana de manera desagregada mediante la
metodología Arima, es necesario tener suficiente información desagregada en las 12 divisiones de gasto.
Debido a que esta canasta con 12 divisiones de gasto comenzó a ser vigente a partir de 2019 y la anterior
canasta, vigente de 2009 a 2018, contaba con distintos grupos (9 en total), no se puede tomar la
información de la canasta anterior. El Departamento Administrativo Nacional de Estadística (DANE)
creó una serie de empalme entre ambas canastas. La creación de esta serie consistió en reorganizar la
información de la anterior canasta (2009-2018) y replicar, bajo la nueva metodología, las 12 divisiones
de gasto para el periodo vigente de la canasta anterior. De esta manera, se obtiene la canasta actual para
el periodo 2009 a 2018, la cual permite analizar las 12 divisiones de gasto de manera individual desde
2009 hasta la actualidad. Es importante aclarar que la serie de empalme realizada por el DANE es la
aproximación más exacta que se puede hacer, teniendo en cuenta que ambas canastas tienen diferencias
en cuanto a artículos, cantidad, ciudades, entre otros. Para conformar el IPC total, cada división de gasto
aporta un porcentaje a la ponderación total. Los porcentajes de cada división de gasto para la nueva
metodología solo se utilizarán para ponderar los pronósticos desde enero de 2019 en adelante. Mientras,
para las 12 divisiones de gasto durante el periodo 2009-2018 es necesario utilizar diferentes pesos, debido
17
a como el DANE conformó la canasta. Estos pesos son definidos por el DANE. La información de los
pesos correspondiente a cada periodo se encuentra en la tabla 3.1. Cabe resaltar que las principales
diferencias en cuanto al porcentaje de composición entre le metodología de empalme y la canasta actual,
se deben principalmente a las categorías “Alimentos y Bebidas No Alcohólicas” y “Alojamiento, Agua,
Electricidad, Gas”. Entre estos dos grupos conforman casi el 50% de la canasta válida para 2019 a 2028.
Ponderación Divisiones de Gasto. Tabla 3.1.
División de gasto Peso Empalme (2009-2018) Peso base 2018 (2019 - )

Alimentos Y Bebidas No Alcohólicas 20.14% 15.05%
Bebidas Alcohólicas y Tabaco 1.25% 1.70%
Prendas De Vestir Y Calzado 4.96% 3.98%
Alojamiento, Agua, Electricidad, Gas 24.90% 33.12%
Muebles y artículos para el hogar 5.20% 4.19%
Salud 1.91% 1.71%
Transporte 15.25% 12.93%
Información y comunicación 3.72% 4.33%
Recreación Y Cultura 3.83% 3.79%
Educación 4.82% 4.41%
Restaurantes Y Hoteles 8.07% 9.43%
Bienes Y Servicios Diversos 5.95% 5.36%
En cuanto al Random Forest, las propiedades de este método no permiten que se pueda pronosticar una
serie con tendencia, por lo tanto, no se podrá utilizar la serie del IPC (Arora, 2018). Con el fin de
pronosticar la inflación, se utilizará la serie de la inflación mensual desde enero de 2009. Así, el modelo
de RF podrá realizar el pronóstico sobre una serie sin tendencia (gráfica 3.1.). Además, no se agregará
ninguna variable económica adicional en el modelo RF, ya que se considera que la discusión sobre las
variables explicativas podría conllevar una extensión no deseada para el presente artículo.
18
Inflación Mensual Gráfica 3.1.
4. Pronóstico a través Arima
A continuación, se realizará el pronóstico para cada una de las 12 divisiones de gasto, con la
información de la serie de empalme de enero de 2009 a octubre de 2019. Además, cada división de gasto
se pronosticará mediante la metodología Arima; sin embargo, el grupo Educación tendrá un manejo
especial el cual se profundizará más adelante8. Adicionalmente, para comprobar la estacionariedad de las
series, se utilizó la prueba de Dickey-Fuller Aumentada, la cual incorpora un rezago máximo dado por
1
𝑇
la regla 𝑝𝑚𝑎𝑥 = 12 ∗ (100)4 , y verificar si el t-estadístico de ese último rezago en la prueba es mayor que
1.6 en valor absoluto. Si esto se cumple, la prueba se realiza 𝑝𝑚𝑎𝑥 , de lo contrario se empiezan a reducir
los rezagos uno a uno hasta que se cumpla esta condición (Vega, 1990). Todas las series tienen 130
observaciones por lo tanto 𝑝𝑚𝑎𝑥 ≈ 13. Los resultados de las pruebas de Dickey-Fuller y Portmanteau se
encuentran en la tabla 4.1. y 4.2. respectivamente. Mediante estas pruebas se comprobará estacionariedad
8
Este grupo presenta un comportamiento con clara estacionalidad por lo cual se empleará un método Holt-Winters
Multiplicativo para aprovechar la naturaleza de la serie.
19
de la serie y no autocorrelación residual. En cada sección se concluirá sobre estas pruebas. Además, las
raíces características de cada modelo son estrictamente menores a 1, así algunas de ellas se vean
gráficamente cerca del círculo unitario. Finalmente, para realizar las respectivas pruebas y auto-
correlograma, se usó una significancia del 5%9. Todos los procedimientos del modelo econométrico
Arima se realizaron mediante el programa estadístico Stata.
4.1. Alimentos y bebidas no alcohólicas
En aras de poder realizar el pronóstico del grupo “Alimentos y bebidas no alcohólicas” mediante
la metodología ARIMA, se debe comprobar que esta serie sea estacionaria. La gráfica 4.1.1. muestra que
esta tiene tendencia y no sigue un proceso estacionario. Además, la gráfica 4.1.2. muestra como el auto-
correlograma de la serie sin diferenciar presenta decrecimiento lento hacia las bandas de contingencia,
comportamiento característico de una caminata aleatoria. Por lo tanto, es necesario diferenciar la serie
para lograr que se asemeje a un proceso estacionario.
IPC Alimentos y bebidas no alcohólicas. Gráfica 4.1.1
Alimentos y bebidas no alcohólicas

110
100
90
IPC
80
70
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Posteriormente, se diferencia la serie original de la siguiente manera: 𝛥𝐼𝑃𝐶𝑡+1 = 𝐼𝑃𝐶𝑡+1 − 𝐼𝑃𝐶𝑡 . La
gráfica 4.1.3. muestra como la serie diferencia parece seguir un proceso estacionario. Además, la gráfica
9
A continuación solo se mostrarán las gráficas del comportamiento de cada grupo y el ajuste del pronóstico. El resto de
gráficas y/o tablas pueden ser consultadas en la sección de anexos (Sección 9)
20
4.1.4 muestra que los coeficientes de autocorrelación decrecen rápidamente hacia las bandas de
contingencia, patrón común de un proceso estocástico estacionario. Consecutivamente, se comprobó la
estacionalidad de esta serie mediante la prueba de Dickey-Fuller (tabla 4.1.). La serie en primera
diferencia muestra ser estacionaria al 5% de significancia. Una vez se diferencia la serie y se comprueba
su estacionariedad, se obtienen los auto-correlograma simple y parcial, con el fin de identificar los
componentes Ar y Ma de la serie. En la función de autocorrelación simple (gráfica 4.1.4), se evidencian
picos fuera de las bandas de contingencia en los rezagos 1 y 2, dando indicios de tener componentes Ma
(1) y Ma (2). Además, el auto-correlograma parcial tiene un solo pico significativo en el primer rezago,
siendo muestra de un componente Ar (1). Debido a lo anterior, se evaluaron 4 modelos: Arima (1,1,0),
Arima (0,1,2), Arima (1,1,2) y Arima (1,1,1). Finalmente, el modelo Arima (1,1,0) fue el que menor
AIC y BIC presentó, por lo tanto, será el modelo que pronostique la división de gasto “Alimentos y
bebidas no alcohólicas”. Este modelo presenta raíces características menores a 1 y sus errores no están
correlacionados, como se muestra en la gráfica 4.1.6. y gráfica 4.1.7. El ajuste del pronóstico se muestra
en la gráfica 4.1.8.
Pronóstico Alimentos y bebidas no alcohólicas. Gráfica 4.1.8.

110
100
IPC
90
80
70
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Alimentos y bebidas no alcohólicas Pronóstico
4.2. Bebidas alcohólicas y tabaco
21
La gráfica 4.2.1. muestra como el IPC se ha comportado con tendencia, por lo tanto, es claro que
no sigue un proceso estocástico estacionario. Además, la gráfica 4.2.2. evidencia como las correlaciones
dejan de ser significativas en rezagos muy lejanos, por lo tanto, no se asemeja a un proceso estacionario.
Consecuentemente, es necesario diferenciar la serie para lograr que se asemeje a un proceso estocástico
estacionario.
Bebidas alcohólicas y tabaco. Gráfica 4.2.1.
Bebidas alcohólicas y tabaco

110
100
90
IPC
80
70
60
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Primero, se realiza la diferencia 𝛥𝐼𝑃𝐶𝑡+1 = 𝐼𝑃𝐶𝑡+1 − 𝐼𝑃𝐶𝑡 a la serie original, sin embargo, esta no
muestra ser estacionario, tal y como muestra la gráfica 4.2.3 y 4.2.4. Consecuentemente, se añade una
diferencia estacional de la siguiente manera: 𝛥2 𝐼𝑃𝐶𝑡 = 𝛥𝐼𝑃𝐶𝑡 − 𝛥𝐼𝑃𝐶𝑡−12. Esta serie, con una
diferencia estacionaria y otra estacional, presenta un comportamiento que parece ser estacionario. En la
gráfica 4.2.5 se observa como la serie ya no tiene tendencia ni estacionalidad. Además, el índice de
correlación entra rápidamente en las bandas de contingencia (gráfica 4.2.6.). Una vez se tiene una serie
que, a priori muestra ser estacionaria, se realiza la prueba de raíz unitaria de Dickey-Fuller. Esta prueba
indica que la serie sigue un proceso estocástico estacionario, con significancia del 5% (tabla 4.1.).
Posteriormente, es necesario obtener y analizar el auto-correlograma simple y parcial, con el fin de
identificar los componentes Ar y Ma de la serie. La gráfica 4.2.6 muestra componentes Ma (1), Ma (2),
22
SMa10(1); mientras la gráfica 4.2.7. muestra componentes Ar (1), Ar (2) y SMa (1). Según lo anterior, se
evaluaron 4 modelos: SArima (2,1,1) (0,1,1,12), SArima (1,1,1) (1,1,1,12), SArima (1,1,1) (0,1,1,12) y
SArima (0,1,2) (0,1,1,12). El modelo SArima (1,1,1) (0,1,1,12) fue el modelo que menor AIC y BIC
obtuvo, por lo tanto, es el modelo elegido para pronosticar esta división de gasto. Este modelo presenta
raíces características menores a 1 y no presenta auto correlación, como se muestra en la gráfica 4.2.8. y
4.2.9. El ajuste del pronóstico se muestra en la gráfica 4.2.10.
Pronóstico Bebidas alcohólicas y tabaco. Gráfica 4.2.10.
Pronóstico Bebidas Alcohólicas y Tabaco

110
100
90
IPC
80
70
60
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Bebidas Alcohólicas y Tabaco Pronóstico
4.3. Prendas de vestir y calzado
De manera similar a las series anteriormente pronosticadas, la división de gasto “Prendas de vestir
y calzado” presenta tendencia y sus índices de correlación entran lentamente en las bandas de
contingencia, como lo muestra la gráfica 4.3.2; por lo tanto, es necesario diferenciar la serie de la
siguiente manera: 𝛥𝐼𝑃𝐶𝑡+1 = 𝐼𝑃𝐶𝑡+1 − 𝐼𝑃𝐶𝑡
10
SMa: Componente de media móvil estacional.
23
Prendas de vestir y calzado. Gráfica 4.3.1.
Prendas de vestir y calzado
100
95
IPC
90
85
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
La diferencia realizada no muestra seguir un proceso estacionario, ya que parece tener tendencia entre
2010 y 2016, como lo muestra la gráfica 4.3.3. Además, la gráfica 4.3.4. evidencia como su auto-
correlograma muestra un decaimiento lento dentro de las bandas de contingencia. Debido a que no se
muestra un componente estacional, se diferenciará una vez más de la siguiente manera: 𝛥2 𝐼𝑃𝐶𝑡+1 =
𝛥𝐼𝑃𝐶𝑡+1 − 𝛥𝐼𝑃𝐶𝑡 con el fin de lograr una serie estacionaria. La serie con doble diferenciación si muestra
un comportamiento estacionario como se observa en la gráfica 4.3.5. Además, la gráfica 4.3.6. muestra
como los índices de autocorrelación presentan un decaimiento rápido dentro de las bandas de
contingencia. Posteriormente, se procede a realizar la prueba de raíz unitaria de Dickey-Fuller, la cual
indica que la serie diferenciada doble vez, se comporta como un proceso estocástico estacionario al 5%,
el cual se evidencia en la tabla 4.1. La gráfica 4.3.6. muestra tener componentes Ma (1) y Ma (3), mientras
la gráfica 4.3.7. indica un componente Ar (1) y SAr (1). Según lo anterior, se compararon 4 modelos:
Arima (0,2,1), Arima (0,2,3), Arima (1,2,0) y SArima (0,2,1) (0,0,1,12). El modelo que mejor desempeño
tuvo en cuanto al AIC y BIC fue el modelo SArima (0,2,1) (0,0,1,12). Este modelo presenta raíces
características menores a 1 y no presenta autocorrelación residual, como se muestra en la gráfica 4.3.8.
y 4.3.9. El ajuste del pronóstico se muestra en la gráfica 4.3.10
24
Pronóstico prendas de vestir y calzado. Gráfica 4.3.10.
100
95
IPC
90
85
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Prendas de vestir y calzado Pronóstico
4.4. Alojamiento, agua, electricidad, gas y otros combustibles
La gráfica 4.4.1. evidencia como esta división de gasto presenta una clara tendencia. Además, la
autocorrelación simple (gráfica 4.4.2) presenta el comportamiento tradicional de un proceso de caminata
aleatoria con deriva. Por lo tanto, en aras de generar una serie estacionaria, es necesario diferencia la
serie de la siguiente manera: 𝛥2 𝐼𝑃𝐶𝑡 = 𝛥𝐼𝑃𝐶𝑡 − 𝛥𝐼𝑃𝐶𝑡−12. La diferencia estacional se hace con el fin
de eliminar el componente estacional de la serie.
Alojamiento, agua, electricidad, gas y otros combustibles. Gráfica 4.4.1.

Alojamiento, agua, electricidad, gas y otros combustibles
110
100
90
IPC
80
70
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
La gráfica 4.4.3. evidencia que la serie diferenciada luce como un proceso estocástico estacionario.
Además, la gráfica 4.4.4. muestra que los índices de autocorrelación decrecen rápidamente y solo algunos
25
salen de las bandas de contingencia. Una vez la serie indica ser estacionaria, es necesario evaluar su
estacionariedad mediante la prueba de raíz unitaria de Dickey Fuller. La prueba indica que esta serie
sique un proceso estacionario, bajo el 5% de significancia (tabla 4.2.). Posteriormente, las funciones de
autocorrelación simple y parcial darán indicios de los componentes autorregresivos y de media móvil
existentes en la serie. La gráfica 4.4.4. muestra principalmente un componente SMa (1), mientras la
gráfica 4.4.5. indica un componente SAr (1). Junto lo anterior, se analizó el auto-correlograma de los
errores de cada modelo con el fin de ir capturando y eliminando la autocorrelación. Según lo anterior,
SArima (0,1,2) (1,1,0,12), SArima (0,1,0) (1,1,0,12), SArima (0,1,1) (1,1,0,12) y SArima (1,1,0)
(2,1,0,12). Consecuentemente, se realizó una comparación mediante los criterios AIC y BIC; resultando
como mejor modelo el de forma SArima (1,1,0) (2,1,0,12). Este modelo cumple con las condiciones de
las raíces características y no presenta autocorrelación residual, como se muestra en la gráfica 4.4.6. y
4.4.7, respectivamente. El ajuste del pronóstico se muestra en la gráfica 4.4.8
Pronóstico Alojamiento, agua, electricidad, gas y otros combustibles. Gráfica 4.4.8.

110
100
90
IPC
80
70
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo

Pronóstico
4.5. Muebles, artículos para el hogar y para la conservación ordinaria del hogar
Este grupo muestra un comportamiento similar al grupo de “Alojamiento, agua, electricidad, gas
y otros combustibles”, ya que no presenta componente estacional claro (gráfica 4.5.1), pero sí una
26
tendencia marcada (gráfica 4.5.1.). Por lo tanto, sumado a que los índices de autocorrelación caen
lentamente dentro de las bandas de contingencia (gráfica 4.5.2.), patrón típico de una camina aleatoria
con deriva, se puede concluir que es un proceso estocástico no estacionario. Consecuentemente, se evalúa
la serie con dos diferencias estacionarias, por lo tanto, la diferencia aplicada sigue la forma: 𝛥2 𝐼𝑃𝐶𝑡+1 =
𝛥𝐼𝑃𝐶𝑡+1 − 𝛥𝐼𝑃𝐶𝑡
Muebles, artículos para el hogar y para la conservación ordinaria del hogar. Gráfica 4.5.1.
Muebles y artículos para el hogar

100
95
90
IPC
85
80
75
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
La gráfica 4.5.3. evidencia que la serie diferenciada muestra seguir un proceso estocástico sin deriva ni
componente estacional. Además, su función de autocorrelación muestra como la autocorrelación con los
rezagos deja de ser significativa (gráfica 4.5.4). La prueba de raíz unitaria de Dickey-Fuller indica que
la serie diferenciada sigue un proceso estocástico estacionario (tabla 4.1.). Posteriormente, se analiza la
función de autocorrelación simple (gráfica 4.5.4) y parcial (gráfica 4.5.5) con el fin de identificar los
componentes autorregresivos y de media móvil presentes en la serie. El auto-correlograma simple indica
que la serie tiene un componente SAr (1), mientras el auto-correlograma parcial muestra un componente
SMa (1). Según lo anterior, se evaluaron 3 posibles modelos: SArima (0,2,0) (1,0,1,12), SArima (0,2,0)
(1,0,1,6) y SArima (0,2,0) (0,0,1,12). El modelo que tiene menor criterio AIC y BIC, fue el SArima
(0,2,0) (1,0,1,12). Finalmente, este modelo cumple con las condiciones de las raíces características y no
27
presenta autocorrelación residual, como se muestra en la gráfica 4.5.6. y 4.5.7, respectivamente. El ajuste
del pronóstico se muestra en la gráfica 4.5.8
Pronóstico muebles, artículos para el hogar y para la conservación ordinaria del hogar. Gráfica 4.5.8.
100
90
IPC
80
70
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Muebles y artículos para el hogar Pronóstico
4.6. Salud
En la gráfica 4.6.1 se evidencia como la serie tiene tendencia y no sigue un proceso estacionario.
Además, la autocorrelación simple (gráfica 4.6.2) decae lentamente dentro de las bandas de contingencia,
por lo cual no sigue un proceso estacionario. Esta serie aparte de tendencia parece tener estacionalidad
cada 12 periodos. Según lo anterior, la serie no muestra ser estacionaria hasta aplicar dos diferencias
estacionarias. Por lo tanto, la diferencia realizada a la serie sigue la forma: 𝛥2 𝐼𝑃𝐶𝑡+1 = 𝛥𝐼𝑃𝐶𝑡+1 −
𝛥𝐼𝑃𝐶𝑡 . Esto ocurre ya que la diferenciación estacional no logra eliminar el componente estacional.
28
Salud. Gráfica 4.6.1.
Salud
100
90
IPC
80
70
60
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Aunque la nueva serie con la doble diferencia aplicada presenta un comportamiento no atribuible a algún
proceso estocástico según su auto-correlograma (gráfica 4.6.4), esta sí parece tener un comportamiento
estacionario (gráfica 4.6.3). La prueba de raíz unitaria de Dickey Fuller arroja, con una significancia del
5%, que la serie con doble diferencia sigue un proceso estocástico estacionario (tabla 4.1.).
Posteriormente, la función de autocorrelación simple (gráfica 4.6.4) indica componentes Ma (1), Ma (3)
Y SMa (1), mientras el auto-correlograma parcial (gráfica 4.6.5.) indica componentes Ar (1), Ar (2) y
SAr (1). Consecuente a los componentes identificados, se plantearon 3 modelos: SArima (1,2,1)
(1,0,1,12), SArima (1,2,3) (1,0,1,12) y SArima (2,2,3) (1,0,1,12). El modelo SArima (1,2,1) (1,0,1,12)
es el modelo con menores criterios AIC y BIC, y cumple con la condición de raíz característica y
autocorrelación, gráfica 4.6.6. y gráfica 4.6.7, respectivamente. El pronóstico de la serie “Salud” se
evidencia en la gráfica 4.6.8.
29
Salud. Gráfica 4.6.8.
Salud
100
90
IPC
80
70
60
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Salud Pronóstico
4.7. Transporte
Esta serie presenta tendencia y los índices de correlación de sus primeros rezagos son
significativos (gráfica 4.7.2) , por lo tanto, es necesario diferenciar la serie. Al realizar una diferencia, la
serie no es estacionaria, por lo tanto, se agrega otra diferencia de tal manera que la diferencia aplicada
siga la forma: 𝛥2 𝐼𝑃𝐶𝑡+1 = 𝛥𝐼𝑃𝐶𝑡+1 − 𝛥𝐼𝑃𝐶𝑡
Transporte. Gráfica 4.7.1.
Transporte
110
100
IPC
90
80
70
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
La serie con dos diferencias aplicadas muestra seguir un proceso estocástico no estacionario (gráfica
4.7.3) y su autocorrelación entra en las bandas de contingencia después del primer rezago (gráfica 4.7.4).
30
La prueba de raíz unitaria de Dickey-Fuller indica que la serie sigue un proceso estocástico estacionario.
La función de autocorrelación simple (gráfica 4.7.4) indica que existen componentes Ma (1) y SMa (1),
mientras la función de autocorrelación parcial (gráfica 4.7.5) indica existencia de componentes Ar (1),
Ar (2) y Ar (4). Consecuente a los componentes planteados, se evaluaron 3 modelos: SArima (1,2,1)
(0,0,1,12), SArima (2,2,1) (0,0,1,12) y SArima (4,2,1) (0,0,1,12). El modelo SArima (2,2,1) (0,0,1,12)
presentó menor criterio AIC y BIC, por lo tanto, es el modelo que pronosticará la división de gasto
“Transporte”. Este modelo cumple con las condiciones necesarias de raíces características (gráfica 4.7.6)
y de autocorrelación residual (gráfica 4.7.7.).
Pronóstico Transporte. Gráfica 4.7.8.
Transporte
110
100
IPC
90
80
70
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Transporte Pronóstico
4.8. Información y comunicación
El grupo de “Información y comunicación” se caracteriza por tener tendencia y volatilidad
marcada (gráfica 4.8.1). Además, el comportamiento del auto-correlograma muestra que la serie no sigue
un proceso estocástico estacionario (gráfica 4.8.2). Por lo tanto, es necesario diferenciar la serie para que
logre tener un comportamiento aproximado a uno estacionario. La diferencia aplicada es una diferencia
estacionaria y una diferencia estacional, de tal manera que la diferenciación sigue la forma: 𝛥2 𝐼𝑃𝐶𝑡 =
𝛥𝐼𝑃𝐶𝑡 − 𝛥𝐼𝑃𝐶𝑡−12.
31
Información y comunicación. Gráfica 4.8.1.
Información y comunicación
100
95
90
IPC
85
80
75
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Una vez la serie está diferenciada, esta indica tener un comportamiento estacional como muestra la
gráfica 4.8.3. Además, el auto-correlograma (gráfica 4.8.4) muestra que después del rezago 2 la
autocorrelación es cero. La prueba de raíz unitaria de Dickey Fuller indica que la serie se comporta como
un proceso estocástico estacionario (tabla 4.1.). Finalmente, para identificar los componentes
autorregresivos y de media móvil, se analizan los auto-correlograma simple (gráfica 4.8.4) y parcial
(gráfica 4.8.5). La función de autocorrelación simple muestra un componente Ma (2), mientras la función
de autocorrelación parcial indica componente SAr (1). Los auto-correlograma de los errores de cada
modelo también indican más componentes que tendrán en consideración. Según lo anterior, se plantearon
dos modelos: SArima (0,1,2) (0,1,0,12) y SArima (0,1,2) (1,1,0,12). El modelo seleccionado fue SArima
(0,1,2) (1,1,0,12) según los criterios BIC y AIC. Este modelo presenta raíces características menores a 1
y no presenta autocorrelación residual, como se muestra en la gráfica 4.8.6. y 4.8.7. El ajuste del
pronóstico se muestra en la gráfica 4.8.8
32
Pronóstico Información y comunicación. Gráfica 4.8.8.
100
90
IPC
80
70
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Información y comunicación Pronóstico
4.9. Recreación y cultura
El grupo de “Recreación y cultura” presenta alta volatilidad y una tendencia marcada (gráfica
4.9.1). La autocorrelación simple (gráfica 4.9.2) decrece lentamente dentro de las bandas de
contingencia, por lo tanto, se evidencia que la serie no es estacionaria. En aras de poder generar una serie
estacionaria, se diferencia la serie de manera estacionaria y de manera estacional; de esta manera la
diferenciación empleada sigue la forma: 𝛥2 𝐼𝑃𝐶𝑡 = 𝛥𝐼𝑃𝐶𝑡 − 𝛥𝐼𝑃𝐶𝑡−12 . Dicha diferencia estacional, se
hace debido a que se quiere eliminar el componente estacional.
Recreación y cultura. Gráfica 4.9.1.
Recreación y cultura
100
95
IPC
90
85
80
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
33
La serie diferenciada muestra indicios de seguir un proceso estacionario ya que no presenta ni tendencia
ni estacionalidad marcada (gráfica 4.9.3). Además, gran cantidad de los índices de autocorrelación no
son significativos, como se muestra en la gráfica 4.9.4. La prueba de raíz unitaria de Dickey Fuller
evidencia que la serie diferenciada sigue un proceso estocástico estacionario, bajo 5% de significancia
(tabla 4.1.). La función de autocorrelación simple (gráfica 4.9.4) indica que la serie tiene componente
Ma (2), Ma (4) y SMa (1), mientras la función de autocorrelación parcial (gráfica 4.9.5) muestra
componentes Ar (2) y SAr (1). Según los componentes encontrados anteriormente, se plantean 3
modelos: SArima (0,1,2) (1,1,0,12), SArima (0,1,4) (1,1,0,12) y SArima (1,1,4) (1,1,0). El modelo
SArima (1,1,4) (1,1,0) fue el que mejor desempeño tuvo según los criterios AIC y BIC. Este modelo
presenta raíces características menores a 1 y no presenta autocorrelación residual, como se muestra en la
gráfica 4.9.6. y 4.9.7. El ajuste del pronóstico se muestra en la gráfica 4.9.8
Pronóstico recreación y cultura. Gráfica 4.9.8.
100
95
IPC
90
85
80
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Recreación y cultura Pronóstico
4.10. Educación
La división de gasto “Educación” es el más particular de los 12 grupos. Como se ve en la gráfica
4.10.1. y el auto-correlograma (gráfica 4.10.2) esta serie tiene un claro componente estacional y con
tendencia. En aras de aprovechar las características de la serie, aparte del pronóstico mediante Arima, se
34
realizará un pronóstico mediante Holt-Winters Multiplicativo11. Posteriormente, se elegirá el modelo
cuyos pronósticos desde enero de 2016 a agosto de 2019 minimicen el MAPE12.
Pronóstico Educación. Gráfica 4.10.1.
Educación
110
100
90
IPC
80
70
60
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
El pronóstico mediante Holt-Winters Triple fue calculado mediante Stata, el cual presenta un MAPE de
0.196%. La gráfica 4.10.3. muestra el pronóstico mediante esta metodología determinística.
Pronóstico Holt-Winters Educación. Gráfica 4.10.3.
Educación
110
100
90
Pronóstico
80
70
60
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Educación Pronóstico Holt Winters
11
El método de Holt-Winters Multiplicativo es una metodología determinística que consiste en identificar las etapas
estacionales de una serie, así como cada cuanto se repite esta etapa y el número de etapas presentar en la muestra. Es por
esto, que permite pronosticar series de tiempo con un componente estacional claro.
12
Por sus siglas en inglés: Mean Absolute Percentage Error
35
En cuanto al pronóstico por Arima, es necesario diferenciar la serie dos veces de forma estacionaria más
una diferencia estacional, con el fin de eliminar la tendencia y el componente estacional tan marcado. De
esta manera, la diferenciación sigue la forma: 𝛥3 𝐼𝑃𝐶𝑡 = 𝛥2 𝐼𝑃𝐶𝑡 − 𝛥2 𝐼𝑃𝐶𝑡−12 . Posteriormente, la serie
diferenciada (gráfica 4.10.4) muestra que esta sigue un proceso estacionario y su autocorrelación simple
(gráfica 4.10.5) no es significativa en la mayoría de los rezagos. Además, la prueba de raíz unitaria de
Dickey Fuller verifica que la serie sigue un proceso estocástico estacionario (tabla 4.1.). Finalmente, se
procede a identificar los componentes Ma y Ar presentes en la función de autocorrelación simple (gráfica
4.10.5) y parcial (gráfica 4.10.6). El auto-correlograma simple muestra componentes Ma (1) y SMa (1),
mientras el auto-correlograma parcial indica Ar (1), Ar (2) Y SAr (1). Según los componentes hallados
anteriormente, se evaluaron los modelos: SArima (0,2,0) (1,1,1,12), SArima (1,2,0) (1,1,1,12) y SArima
(3,2,0) (1,1,1,12). Según los criterios AIC y BIC, el modelo SArima (3,2,0) (1 ,1,1 ,12) fue el elegido
para pronosticar este grupo. Este modelo presenta raíces características menores a 1 y no presenta
autocorrelación residual, como se muestra en la gráfica 4.10.7. y 4.10.8. El ajuste del pronóstico se
muestra en la gráfica 4.10.9. El MAPE del pronóstico mediante la metodología Arima es de 0.18%, por
lo tanto, la metodología Arima pronostica mejor este grupo que la metodología Holt-Winters
Multiplicativo.
Pronóstico ARIMA Educación. Gráfica 4.10.9.
Educación
110
100
90
IPC
80
70
60
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Educación Pronóstico
36
4.11. Restaurantes y hoteles
La división de gasto “Restaurantes y hoteles” presenta, al igual que todos los grupos, una marcada
tendencia (gráfica 4.11.1) y autocorrelación (gráfica 4.11.2). Es por esto, que es necesario diferenciar la
serie con el fin de poder lograr una serie que se asimile a un proceso estacionario. Esta serie se diferenció
con una diferencia estacionaria y otra estacional, por lo que la diferenciación sigue la forma: 𝛥2 𝐼𝑃𝐶𝑡 =
𝛥𝐼𝑃𝐶𝑡 − 𝛥𝐼𝑃𝐶𝑡−12. Este tipo de diferencia se realizó con el fin de eliminar el componente estacional y
de tendencia. Una vez diferenciada la serie, esta presenta comportamiento similar a un proceso
estacionario(gráfica 4.11.3) y se soluciona el problema de autocorrelación para una gran cantidad de
rezagos (gráfica 4.11.4). La prueba de raíz unitaria de Dickey Fuller confirma que la serie sigue proceso
estacionario (tabla 4.1) La función de autocorrelación simple (gráfica 4.11.4) da indicios de tener
componentes Ma (1), Ma (3) y SMa (1), mientras los componentes Ar (1), Ar (4) Y SAr (1) están
presentes por la forma del auto-correlograma parcial (gráfica 4.11.5).
Restaurantes y hoteles. Gráfica 4.11.1.

Restaurantes y hoteles
100
90
IPC
80
70
60
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Según estos componentes, se especificaron 3 modelos: SArima (1,1,1) (1,1,0,12), SArima (1,1,3)
(1,1,0,12) y SArima (0,1,1) (1,1,0). El mejor modelo según los criterios de AIC y BIC fue el SArima
(1,1,1) (1,1,0,12) el cual cumple con las condiciones de raíz característica (gráfica 4.11.6) y no
autocorrelación residual (gráfica 4.11.7). El ajuste del pronóstico se muestra en la gráfica 4.11.8.
37
Pronóstico restaurantes y hoteles. Gráfica 4.11.8.
100
90
IPC
80
70
60
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Restaurantes Y Hoteles Pronóstico
4.12. Bienes y servicios diversos
Finalmente, en la división de “Bienes y servicios diversos”, hay tendencia en la serie (gráfica 4.12.1)
y autocorrelación en sus primeros rezagos (gráfica 4.12.2), por lo cual, se deduce que no es una serie
estacionaria. Consecuentemente, es necesario diferencia la serie para poder lograr una serie que siga un
proceso estocástico estacionario. La diferencia aplicada para conseguir estas características en la serie
sigue la forma: 𝛥2 𝐼𝑃𝐶𝑡 = 𝛥𝐼𝑃𝐶𝑡 − 𝛥𝐼𝑃𝐶𝑡−1 .
Bienes y servicios diversos. Gráfica 4.12.1.

Bienes y servicios diversos
100
90
IPC
80
70
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Una vez la serie esta diferenciada, esta indica seguir un proceso estacionario (gráfica 4.12.3) y su
autocorrelación no es significativa a excepción de los rezagos estacionales (cada 12 meses) (gráfica

38
4.12.4). Además, la prueba de Dickey Fuller confirma su estacionariedad, bajo 5% significancia. Esta
serie muestra principalmente componentes SMa (1) y SAr (1) debido a los picos presentes en la función
de autocorrelación simple (gráfica 4.12.4) y parcial (gráfica 4.12.5). Según lo anterior, se postularon 3
modelos: SArima (0,2,0) (1,0,1,12), SArima (0,2,1) (1,0,1,12) y SArima (1,2,1) (1,0,1,12). El modelo
SArima (1,2,1) (1,0,1,12) presento los criterios AIC y BIC entre los 3 modelos. Además, este cumple
con las condiciones de raíz característica (gráfica 4.12.6) y no autocorrelación residual (gráfica 4.12.7).
El ajuste del pronóstico se muestra en la gráfica 4.12.8.
Pronóstico bienes y servicios diversos. Gráfica 4.12.8.

100
90
IPC
80
70
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Bienes y servicios diversos Pronóstico
5. Pronóstico a través de Random Forest
La creación y posterior avance de los métodos de Machine Learning han generado gran interés en
distintas áreas del conocimiento, siendo la economía una de estas. Es así como la metodología de Random
Forest ha tenido gran acogida dentro del pronóstico de series de tiempo, y a su vez las variables
macroeconómicas. El modelo de Random Forest (RF) consiste en arboles de decisión o arboles
predictores donde cada árbol depende de los valores de un vector aleatorio independiente, creando así
arboles con nodos internos y nodos terminales (Breiman, 2001).
39
La creación de los árboles de decisión consiste en varios pasos. La primera etapa consiste en la división
óptima de la muestra en dos submuestras según una regla de criterio definida así: 𝑋1 (𝑖, 𝑝) =
{𝑥|𝑥𝑖 ≤ 𝑝} 𝑋2 (𝑖, 𝑝) = {𝑥|𝑥𝑖 > 𝑝}, este paso sigue repitiéndose para cada submuestra generada. La
división en submuestras se detiene hasta que el algoritmo cumpla con una condición de pare.
Posteriormente, se crean N nodos terminales, los cuales corresponden a cada una de las submuestras. Si
el problema de análisis de regresión se corrige, cada nodo es asignado a un promedio de cada una de las
submuestras. El árbol resultante consiste en un grafo de diferentes nodos internos que, cada uno tiene un
predictor limite que parte la muestra en dos subgrupos, y nodos externos los cuales contienen las
predicciones de la variable explicativa. En resumen, en cada una de las etapas del Random Forest, el
algoritmo busca minimizar la suma ponderada de la varianza entre cada uno de los dos subgrupos creados
a partir de la división anterior.
Debido a las características que tienen los modelos de Random Forest, es necesario pronosticar la
inflación colombiana como la variación mensual del IPC; es decir, sobre la inflación mensual. Esto se
debe a que la inflación mensual presenta un comportamiento sin tendencia y aparentemente estacionario,
mientras, la serie original del IPC presenta una clara tendencia lo que dificultaría el pronóstico mediante
el modelo de Random Forest. En un modelo RF, existen hiperparámetros13 los cuales serán necesarios
definir para lograr una correcta especificación del modelo. Consecuentemente, se definirán el número de
árboles a utilizar, división de la muestra (entrenamiento, validación y prueba), observaciones mínimas
en nodos terminales (tamaño del nodo) y cuantas variables se deben tener en cuenta en la división del
nodo (Orellana, 2018). El software empleado en los procedimientos de cálculo fue R mediante la librería
H2O.
13
Los hiperparámetros de uno Random Forest son aquellos parámetros que el modelo no puede aprender y es necesario
que el investigador defina en base al conocimiento y naturaleza de la muestra.
40
Primero, es necesario definir los intervalos donde el modelo aprenderá de la serie (entrenamiento) y
posteriormente evaluará lo aprendido (prueba). En la literatura se manejan valores alrededor de 70%-
80% y 20%-30% para definir los intervalos de entrenamiento y prueba, respectivamente. Teniendo en
cuenta que la serie cuenta con datos desde 2009, el modelo RF aprenderá de la serie con los datos de
enero de 2009 a octubre de 2017, y evaluará lo aprendido con los datos de noviembre de 2017 hasta
octubre de 2019.
Dentro del grupo de datos de entrenamiento existen dos divisiones: entrenamiento y validación. En la
fase de entrenamiento, el RF buscará ajustarse al modelo, mientras en la fase de validación el RF ajusta
los parámetros del modelo para obtener un pronóstico insesgado. De tal manera, la muestra de datos
queda como se ilustra en la gráfica 5.1. (Shah, 2017). Actualmente, existen varias metodologías para
elegir como se debe porcionar la fase de entrenamiento. La metodología de validación cruzada con k
iteraciones ha ganado aceptación en los años recientes ya que permite definir las fases de entrenamiento
y validación; además de la ventaja de crear un modelo no sobre especificado. Esta metodología consiste
en tomar toda la muestra, excepto la fase de prueba, y dividirla en k partes iguales, para así tomar una
parte como fase de validación y k-1 partes como fase de entrenamiento. Este proceso se repite k veces
con el fin que cada una de las divisiones sea la fase de entrenamiento una vez. Finalmente, se toman los
resultados de cada una de las iteraciones y se promedian (gráfica 5.2). Bajo esta metodología no se ha
definido un valor óptimo para k, sin embargo, los modelos de RF recientes utilizan un k igual a 5 o 10.
El parámetro debe generar conjuntos de la muestra que sean significativos, ya que sobre cada uno de
estos entrenará el modelo (Brownlee, 2018). Por lo tanto, se define el valor de k como 5, con el fin de
tener más datos en la fase de entrenamiento de cada iteración.
41
División de la muestra. Gráfica 5.1.
Entrenamiento Validación Prueba
En cuanto al tamaño de los nodos, este valor normalmente se define a 1 debido a sugerencias de (Breiman,
2001) sobre el desempeño de este hiperparámetro con este valor. El número de variables para tener en
cuenta en cada nodo varían dependiendo si el tipo de modelo es de clasificación o regresión. Debido a
que este es un modelo de tipo regresión, es recomendado tomar un valor de P/3, donde P es el número
de variables en x.
Validación cruzada con k iteraciones. Gráfica 5.2.
Tomado de: Stack Exchange: Cross Validated.

https://stats.stackexchange.com/questions/1826/cross-validation-in-plain-english
Consultado el 18 de octubre de 2019
Según lo anterior, se realizó un modelo de RF con 5 pliegues junto a 500 árboles realizados el cual parará
cuando después de 10 rondas no se mejore el error cuadrático medio o cuando este llegue 0.0001. El
modelo resultante tiene las características encontradas en la tabla 5.1. Además, en la gráfica 5.3. se
42
evidencia la evolución del error cuadrático medio (RMSE) a medida que aumenta los árboles del RF. El
error cuadrático medio del modelo después de realizar los 54 árboles es de 0.002243.
Evolución RMSE Random Forest. Gráfica 5.3.
Finalmente, el modelo arroja las variables que se consideran importantes para el pronóstico de la
inflación. Dicha importancia se calcula a partir de como aumenta el RMSE del modelo cuando dicha
variable no es incluida. Posteriormente, se normaliza con la desviación estándar, con el fin de dar un
rango de importancia. En la gráfica 5.4 se puede observar la importancia de las variables en el modelo.
Las más importantes son el componente mensual y el rezago 12 de la inflación mensual. La fecha hace
referencia a la ubicación del dato en toda la muestra de datos.
Importancia de las variables.

Gráfica 5.4.
Una vez finalizado el modelo, este pronosticó la inflación mensual para el periodo de noviembre de 2017
a octubre de 2019. Dicho pronóstico (gráfica 5.5.) para el periodo de análisis registró un MAPE de
32.34%. Este resultado se analizará a continuación en la comparación tanto del modelo Arima y RF.
43
Ajuste Pronóstico Random Forest. Gráfica 5.5.
6. Resultados
Una vez realizados los modelos Arima y Random Forest, se procede a evaluar el pronóstico para el
plazo determinado el cual comprende desde octubre de 2017 a noviembre de 2019. Primero, una vez se
han pronosticado las 12 divisiones de gasto, es necesario ponderar dichos pronósticos para conformar el
IPC total. Los pronósticos realizados para el periodo de octubre de 2017 a diciembre de 2018 fueron
ponderados según los pesos especificados por el DANE con la serie de empalme (2009-2018), tal y como
se aclaró en la sección 3- tabla 3.1. Para los pronósticos desde enero de 2019, se ponderaron las divisiones
de gasto según los pesos de la canasta vigente para este año en adelante. El ajuste de este pronóstico
sobre el IPC total se observa en la gráfica 6.1. Sin embargo, para poder comparar el pronóstico Arima
con el del modelo RF, se evaluará el ajuste de cada uno sobre la inflación mensual.
44
Ajuste Pronóstico Random Forest. Gráfica 6.1.
A partir del pronóstico desagregado del IPC, es posible calcular la inflación mensual mediante la
variación porcentual respecto al dato anterior. Una vez calculada la inflación mensual desde noviembre
de 2017 a octubre de 2017, tanto para Arima como RF, se procede a comparar el pronóstico de ambos
modelos. En la tabla 6.1. y gráfica 6.2 se ve el ajuste de los modelos respecto a la serie de inflación
mensual.
Comparación inflación mensual. Gráfica 6.2.
45
En aras de comparar los pronósticos para cada una de las metodologías es necesario fijar una o varias
medidas de comparación que sean fiables al momento de elegir el mejor modelo. Sin embargo, debido a
que se están comparando dos metodologías totalmente distintas, no es posible fijar una medida de ajuste.
Primero, se podría utilizar los criterios AIC y BIC del modelo Arima, sin embargo, el modelo RF no
presenta ninguna medida de error similar, por lo tanto, se utilizarán los coeficientes de erros más comunes
en la literatura.
Como medida de comparación de las series de pronóstico generadas mediante Random Forest y Arima,
se usaron las medidas MAPE, MAE14 y RMSE15. En la tabla 6.2. se observan los valores para cada tipo
de error en cada uno de los modelos. El pronóstico realizado por la metodología de Random Forest fue
la que obtuvo menor error para todas las medidas. Por lo tanto, según las medidas de error escogidas, el
pronóstico a un mes de la inflación mensual colombiana mediante la metodología de Random Forest,
logra mejorar el pronóstico de Arima.
Medidas de error. Tabla 6.2.
MAPE MAE RMSE

Arima 43.0% 33.9% 42.7%
Random Forest 32.3% 31.1% 35.0%
7. Conclusiones
El pronóstico de la inflación ha llamado cada vez más la atención tanto de las áreas académicas como de
otras, tales como las económico financieras, encargada de la toma de decisiones estratégicas sectoriales
y gubernamentales. Es por esto que se han aplicado distintas metodologías de pronóstico en la inflación,
desde modelos econométricos a Inteligencia Artificial. Mediante dos aproximaciones, este artículo
14
MAE: Mean Absolute Error por sus siglas en inglés
15
RMSE: Root Mean Squared Error por sus siglas en inglés
46
elaboró el pronóstico un paso hacia delante de la inflación mensual colombiana. Primero, se realizó un
modelo Arima desagregado el cual consistía en pronostica el IPC para las 12 divisiones de gasto de la
canasta vigente de 2019 a 2028. Segundo, mediante la metodología de Random Forest se pronosticó la
inflación mensual un paso hacia adelante. Estas aproximaciones permitieron dar respuesta a la pregunta
de investigación inicialmente planteada: ¿El pronóstico a un mes de la inflación mensual colombiana
mediante Machine Learning logra mejorar el pronóstico de un modelo Arima desagregado?
Para seleccionar el mejor modelo, se utilizaron 3 medidas de error: MAPE, MAE y RMSE. Según estos
criterios el modelo RF es mejor para pronosticar a un mes la inflación mensual colombiana que el modelo
Arima desagregado. Para todos los criterios de error, el RF tuvo mejor desempeño que el modelo Arima.
Sin embargo los modelos RF tienen limitantes. Primero, son considerados algoritmos de tipo caja negra,
es decir, la interpretación del proceso interno del modelo es difícil de hacer. Segundo, en algunos
conjuntos de datos el RF puede sobre ajustar el comportamiento de los datos. Finalmente, estos
algoritmos pueden llegar a ser costosos computacionalmente cuando se están trabajando grandes bases
de datos.
Adicionalmente a lo mencionado, es necesario considerar ciertas características que pueden generar
dificultades al momento del ajuste del pronóstico. Primero, aunque el Random Forest mejoró el modelo
Arima, es necesario aprovechar las ventajas del RF e investigar que variables se pueden incluir con el fin
de mejorar el modelo. Segundo, es necesario tener en cuenta que, para el plazo pronosticado, el Banco
de La República solo cambió la tasa de intervención de política monetaría al principio de dicho periodo.
Entre el octubre de 2017 y abril de 2018, la entidad cambió la tasa de interés 4 veces. Por lo tanto, estas
decisiones pueden tener efecto sobre el ajuste del pronóstico de la inflación, incluso podría afectarlo
dependiendo si la política monetaría es expansiva o contractiva. Finalmente, los métodos de Machine
47
Learning han ido ganando terreno en la aplicación de variables macroeconómicas, por lo tanto, es
importante seguir identificando las ventajas y desventajas en el uso de estos métodos en este tipo de
series. Además, cabe resaltar que la principal contribución del presente artículo es adaptar el uso de RF
a la inflación colombiana. En la literatura colombiana, no hay registros del uso de modelos de RF, por lo
tanto, este podría ser el primer artículo que aproveche las ventajas de este modelo en la economía
colombiana. Aunque no haya registros de aplicaciones de RF en la inflación colombiana, puede que
existan estudios no publicados por entidades privadas que incluyan RF en sus estudios.
48
8. Referencias
Alonso, J. C., & Rivera, A. F. (Junio de 2017). Pronosticando la inflación mensual en Colombia un paso hacia
delante: una aproximación "de abajo hacia arriba". Cali, Valle del Cauca, Colombia.
Aristizabal, M. (2006). Evaluación asimétrica de una red neuronal artificial: Aplicación al caso de la inflación en
Colombia. 2006: Banco de la República.
Arora, A. (28 de Diciembre de 2018). Medium. Obtenido de Why Random Forests can´t predict trends and how
to over come this problem?: https://medium.com/datadriveninvestor/why-wont-time-series-data-and-
random-forests-work-very-well-together-3c9f7b271631
Banco de la Repúbica. (2004). Sectorización Monetaria y Económica. Bogotá D.C.: Banco de la República.
Banco de la República. (12 de Mayo de 2008). El Esquema de Inflación. Bogotá D.C., Bogotá D.C., Colombia.
Baybuza, I. (Diciembre de 2018). Inflation Forecasting Using Machine Learning Methods. Russian Journal Of
Money And Finance, 42-59. doi:10.31477/rjmf.201804.42
Bejarano, J. A. (2002). El Canal de Oferta Agregada en un Modelo de Mecanismos de Transmisión de la Política

Monetaria en Colombia. Bogotá D.C.: Banco de la República.
Breiman, L. (2001). Random Forests. Kluwer Academic Publishers, 5-32.
Brownlee, J. (23 de Mayo de 2018). Machine Learning Mastery. Obtenido de A Gentle Introduction to k-fold
Cross-Validation: https://machinelearningmastery.com/k-fold-cross-validation/
Camaro, Á. A., Jiménez, E., Santana, J. C., & Casas, A. (18 de Julio de 2006). Estudio empírico sobre la capacidad
predictiva de las redes neuronales en el pronóstico de la inflación colombiana: una metodología
alternativa. Bogotá D.C., Bogotá D.C., Colombia.
Echavarría, J., López, E., & Misas, M. (2010). La Persistencia Estadística de la Inflación en Colombia. Bogotá D.C.:
Borradores de Economía-Banco de La República.
Fraj, M. (21 de Diciembre de 2017). In Depth: Parameter tuning for Random Forest. Obtenido de
https://medium.com/all-things-ai/in-depth-parameter-tuning-for-random-forest-d67bb7e920d
González, A., Mahadeva, L., Prada, J., & Rodríguez, D. (2011). Policy Analysis Tool Applied to Colombian Needs:
PATACON. Bogotá: Borradores de Economía-Banco de la República.
Hendry, D., & Michael, C. (Septiembre de 2001). Pooling of Forecasts. Oxford, Inglaterra.
Learning, M. (s.f.). Machine Learning. Obtenido de Practical Tutorial on Random Forest and Parameter Tuning
in R: https://www.hackerearth.com/practice/machine-learning/machine-learning-algorithms/tutorial-
random-forest-parameter-tuning-r/tutorial/
Medeiros, M., Vasconcelos, G., Veiga, Á., & Zilberman, E. (3 de Octubre de 2017). Norges Bank. Obtenido de
Forecasting Inflation in a Data-Rich Environment: The Benefits of Machine Learning Methods:
https://www.norges-
bank.no/contentassets/f2cc0752a45b4a5f8fe7eead30c0a49e/medeiros_slides.pdf
Meyer, B., & Pasaogullari, M. (2010). Simple Ways to Forecast Inflation: What works best? Cleveland: Federal
Reserve Bank of Cleveland.
49
Misas, M., López, E., & Borrero, P. Q. (Diciembre de 2002). La inflación en Colombia: una aproximación desde
las redes neuronales. Ensayos sobre política económica, 143-214. Obtenido de La inflación en
Colombia: Una aproximación desde las redes neuronales.
Orellana, J. (2018 de Noviembre de 2018). Arboles de decision y Random Forest. Obtenido de 5 Ensambladores:
Random Forest - Parte I: https://bookdown.org/content/2031/
Rodríguez N., N., & Siado C., P. (2003). UN PRONÓSTICO NO PARAMÉTRICO DE LA INFLACIÓN COLOMBIANA.
Bogotá.
Shah, T. (6 de Diciembre de 2017). Towards Data Science. Obtenido de About Train, Validation and Test Sets in
Machine Learning: https://towardsdatascience.com/train-validation-and-test-sets-72cb40cba9e7
StatBureau. (26 de Enero de 2019). StatBureau. Obtenido de Inflación:

https://www.statbureau.org/es/japan/inflation
Theil, H. (Septiembre de 1955). Linear Agreggation of Economic Relations. Nueva York, Nueva York, Estados
Unidos.
Vega, J. L. (1990). Test de raíces unitarias: Aplicación a series de la economía española y al análisis de la
velocidad de la circulación del dinero (1964-1990). Madrid: Banco de España.
50
9. Anexos
Composición del IPC por ciudad y nivel de ingreso. Figura 2.1.1
Fuente: Alonso, J. C., & Rivera, A. F. (Junio de 2017). Pronosticando la inflación mensual en
Colombia un paso hacia delante: una aproximación "de abajo hacia arriba". Cali,
Valle del Cauca, Colombia.
Esquema del IPC nacional. Figura 2.1.2
Fuente: Alonso, J. C., & Rivera, A. F. (Junio de 2017). Pronosticando la inflación mensual en Colombia un paso
hacia delante: una aproximación "de abajo hacia arriba". Cali, Valle del Cauca, Colombia.
Prueba Dickey-Fuller modelos ARIMA. Tabla 4.1.

Grupo Dif. estacionaria Dif. estacional Rezagos incluidos P-valor
Alimentos y bebidas no alcohólicas 1 0 0 0
Bebidas alcohólicas y tabaco 1 1 12 0.0345
Prendas de vestir y calzado 2 0 11 0.0053
Alojamiento, agua, electricidad, gas y otro combustibles 1 1 11 0.001
Muebles, artículos para el hogar 2 0 11 0.0007
Salud 2 0 11 0.0003
Transporte 2 0 10 0
Información y comunicación 1 1 13 0.0014
Recreación y cultura 1 1 11 0.0006
Educación 2 1 10 0
Restaurantes y hoteles 1 1 11 0,01149
Bienes y servicios diversos 2 0 11 0.039
51
Prueba Portmanteau modelos ARIMA. Tabla 4.2.
Grupo Modelo P-Valor
Alimentos y bebidas no alcohólicas (1,1,0) 0.1295
Bebidas alcohólicas y tabaco (1,1,1)(0,1,1,12) 0.9965
Prendas de vestir y calzado (0,2,1)(0,0,1,12) 0.5033
Alojamiento, agua, electricidad, gas y otro combustibles (1,1,0)(2,1,0) 0.3011
Muebles, artículos para el hogar (0,2,0)(1,0,1,12) 0.317
Salud (1,2,3)(1,0,1,12) 0.3452
Transporte (2,2,1)(0,0,1,12) 0.7061
Información y comunicación (0,1,2)(1,1,0,12) 0.3481
Recreación y cultura (0,1,2)(1,1,0,12) 0.1401
Educación (1,2,1)(1,0,1,12) 0.8839
Restaurantes y hoteles (1,1,1)(1,1,0,12) 0.2097
Bienes y servicios diversos (3,2,0)(1,1,1,12) 0.793
Autocorrelación simple: Alimentos y bebidas no alcohólicas. Gráfica 4.1.2
Autocorrelación simple
1.00
0.50
0.00
-0.50
-1.00
0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands
Alimentos y bebidas no alcohólicas (Primera diferencia). Gráfica 4.1.3

4
2
IPC (Primera diferencia)
0
-2
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
52
Auto-correlograma simple: Alimentos y bebidas no alcohólicas (Primera diferencia). Gráfica 4.1.4
0.60
0.40
0.20
0.00
-0.20
-0.40
0 10 20 30 40
Rezago
Auto-correlograma parcial: Alimentos y bebidas no alcohólicas (Primera diferencia). Gráfica 4.1.5
Autocorrelación parcial
0.60
0.40
0.20
0.00
-0.20
0 10 20 30 40
Rezago
95% Confidence bands [se = 1/sqrt(n)]
Raíces características Arima (1,1,0): Alimentos y bebidas no alcohólicas Gráfica 4.1.6

Raíces características
1
.5
Imaginario
AR
0
-.5
-1
-1 -.5 0 .5 1
Real
53
Auto-correlograma residuales: Alimentos y bebidas no alcohólicas Gráfica 4.1.7.
0.20
0.10
Residuales
0.00
-0.10
-0.20
0 5 10 15 20
Rezago
Autocorrelación simple: Bebidas alcohólicas y tabaco Gráfica 4.2.2.

1.00
0.50
0.00
-0.50
-1.00
0 10 20 30 40
Rezago
Bebidas alcohólicas y tabaco (Primera diferencia) Gráfica 4.2.3.

Bebidas alcólicas y tabaco
3
2
IPC (Primera diferencia)
1
0
-1
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
54
Autocorrelación simple: Bebidas alcohólicas y tabaco (Primera diferencia) Gráfica 4.2.4.
0.60
0.40
0.20
0.00
-0.20
-0.40
0 10 20 30 40
Rezago
Bebidas alcohólicas y tabaco (Diferencia estacional) Gráfica 4.2.5.

2
IPC (Diferencia estacional)
1
0
-1
-2
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Autocorrelación simple: Bebidas alcohólicas y tabaco (Diferencia estacional) Gráfica 4.2.6.

0.60
0.40
0.20
0.00
-0.20
-0.40
0 10 20 30 40
Rezago
55
Autocorrelación parcial: Bebidas alcohólicas y tabaco (Diferencia estacional) Gráfica 4.2.7.
0.60
0.40
0.20
0.00
-0.20
-0.40
0 10 20 30 40
Rezago
Raíces características SArima (1,1,1) (0,1,1,12): Bebidas alcohólicas y tabaco Gráfica 4.2.8
Raices características
1
.5
Imaginario
AR
0
MA
-.5
-1
-1 -.5 0 .5 1
Real
Auto-correlograma residuales: Bebidas alcohólicas y tabaco Gráfica 4.2.9.

0.20
0.10
Residuales
0.00
-0.10
-0.20
0 5 10 15 20 25
Rezago
56
Autocorrelación simple: Prendas de vestir y calzado Gráfica 4.3.2.
1.00
0.50
0.00
-0.50
-1.00
0 10 20 30 40
Rezago
Prendas de vestir y calzado (Primera diferencia) Gráfica 4.3.3.

.6
.4
IPC (1 diferencia)
.2
0
-.2
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Autocorrelación simple: Prendas de vestir y calzado (Primera diferencia) Gráfica 4.3.4.

0.60
0.40
0.20
0.00
-0.20
-0.40
0 10 20 30 40
Rezago
57
Prendas de vestir y calzado (Segunda diferencia) Gráfica 4.3.5.
.4
IPC (Segunda diferencia)
.2
0
-.2
-.4
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Autocorrelación simple: Prendas de vestir y calzado (Segunda diferencia) Gráfica 4.3.6.
0.40
0.20
0.00
-0.20
-0.40
0 10 20 30 40
Rezago
Autocorrelación parcial: Prendas de vestir y calzado (Segunda diferencia) Gráfica 4.3.7.

0.20
0.00
-0.20
-0.40
0 10 20 30 40
Rezago
58
Raíces características: Prendas de vestir y calzado Gráfica 4.3.8.
1
.5
Imaginario
MA
0
-.5
-1 -1 -.5 0 .5 1
Real
Auto-correlograma residual: Prendas de vestir y calzado Gráfica 4.3.9.
0.20
0.10
Residuales
0.00
-0.10
-0.20
0 5 10 15 20
Residuales
Autocorrelación simple: Alojamiento, agua, electricidad, gas y otros combustibles Gráfica 4.4.2.
1.00
0.50
0.00
-0.50
-1.00
0 10 20 30 40
Rezago
59
Alojamiento, agua, electricidad, gas y otros combustibles (Diferencia estacional) Gráfica 4.4.3.
1
.5
0
-.5
-1
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Autocorrelación simple: Alojamiento, agua, electricidad, gas y otros combustibles (Diferencia

estacional) Gráfica 4.4.4.
0.40
0.20
0.00
-0.20
-0.40
0 10 20 30 40
Rezago
Autocorrelación parcial: Alojamiento, agua, electricidad, gas y otros combustibles (Diferencia

estacional) Gráfica 4.4.5.
0.40
0.20
0.00
-0.20
-0.40
0 10 20 30 40
Rezago
60
Raíces características: Alojamiento, agua, electricidad, gas y otros combustibles. Gráfica 4.4.6.
Raices características
1
.5
Imaginario
AR
0
-.5
-1
-1 -.5 0 .5 1
Real
Auto-correlograma residual: Alojamiento, agua, electricidad, gas y otros combustibles. Gráfica 4.4.7.
0.20
0.10
Residuales
0.00
-0.10
-0.20
0 5 10 15 20 25
Rezago
Autocorrelación simple: Muebles, artículos para el hogar y para la conservación ordinaria del hogar.
Gráfica 4.5.2.
1.00
0.50
0.00
-0.50
-1.00
0 10 20 30 40
Rezago
61
Muebles, artículos para el hogar y para la conservación ordinaria del hogar (Segunda diferencia).
Gráfica 4.5.3.
1
.5
0
-.5
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Autocorrelación simple: Muebles, artículos para el hogar y para la conservación ordinaria del
hogar (Segunda diferencia). Gráfica 4.5.4.
0.40
0.20
0.00
-0.20
-0.40
0 10 20 30 40
Rezago
Autocorrelación parcial: Muebles, artículos para el hogar y para la conservación ordinaria del
hogar (Segunda diferencia). Gráfica 4.5.5.
0.40
Mueble y artículos para el hogar
0.20
0.00
-0.20
-0.40
0 10 20 30 40
Rezago
62
Raíces características: Muebles, artículos para el hogar y para la conservación ordinaria del hogar
(Segunda diferencia). Gráfica 4.5.6.
1
.5
Imaginario
AR
0
MA
-.5
-1
-1 -.5 0 .5 1
Real
Auto-correlograma residual: Muebles, artículos para el hogar y para la conservación ordinaria del
hogar. Gráfica 4.5.7.
0.20
0.10
Residuales
0.00
-0.10
-0.20
0 10 20 30 40
Rezago
Autocorrelación simple: Salud. Gráfica 4.6.2.
1.00
0.50
Salud
0.00
-0.50
-1.00
0 10 20 30 40
Rezago
63
Salud (Segunda diferencia). Gráfica 4.6.3.
Salud
.6
.4
.2
0
-.2
-.4
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Autocorrelación simple: Salud (Segunda diferencia). Gráfica 4.6.4.
0.40
0.20
Salud
0.00
-0.20
-0.40
0 10 20 30 40
Rezago
Autocorrelación parcial: Salud (Segunda diferencia). Gráfica 4.6.5.
0.40
0.20
Salud
0.00
-0.20
-0.40
0 10 20 30 40
Rezago
64
Raíces características: Salud. Gráfica 4.6.6.
1
.5
Imaginario
AR
0
MA
-.5
-1
-1 -.5 0 .5 1
Real
Autocorrelación residual: Salud. Gráfica 4.6.7.
Salud
0.20
0.10
Residuales
0.00
-0.10
-0.20
0 5 10 15 20
Rezago
Autocorrelación simple: Transporte. Gráfica 4.7.2.

1.00
0.50
Transporte
0.00
-0.50
-1.00
0 10 20 30 40
Rezago
65
Transporte (Segunda diferencia). Gráfica 4.7.3.
Transporte
1
.5
0
-.5
-1
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Autocorrelación simple: Transporte (Segunda diferencia). Gráfica 4.7.4.
0.20
0.10
Transporte
0.00
-0.10
-0.20
-0.30
0 10 20 30 40
Rezago
Autocorrelación parcial: Transporte (Segunda diferencia). Gráfica 4.7.5.
0.20
0.00
Transporte
-0.20
-0.40
0 10 20 30 40
Rezago
66
Raíces características: Transporte. Gráfica 4.7.6.
1
.5
Imaginario
AR
0
MA
-.5
-1
-1 -.5 0 .5 1
Real
Autocorrelación residual: Transporte. Gráfica 4.7.7.
0.20
0.10
Residuales
0.00
-0.10
-0.20
0 5 10 15 20
Rezago
Autocorrelación simple: Información y comunicación. Gráfica 4.8.2.

1.00
0.50
0.00
-0.50
-1.00
0 10 20 30 40
Rezago
67
Información y comunicación (Diferencia estacional). Gráfica 4.8.3.
2
1
0
-1
-2
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Autocorrelación simple: Información y comunicación (Diferencia estacional).

Gráfica 4.8.4.
0.20
0.00
-0.20
-0.40
-0.60
0 10 20 30 40
Rezago
Autocorrelación parcial: Información y comunicación (Diferencia estacional).

Gráfica 4.8.5.
0.20
0.00
-0.20
-0.40
-0.60
0 10 20 30 40
Rezago
68
Raíces características: Información y comunicación. Gráfica 4.8.6.
1
.5
Imaginario
AR
0
MA
-.5
-1
-1 -.5 0 .5 1
Real
Autocorrelación residual: Información y comunicación. Gráfica 4.8.7.
0.20
0.10
Residuales
0.00
-0.10
-0.20
0 5 10 15 20
Rezago
Autocorrelación simple: Recreación y cultura. Gráfica 4.9.2.
1.00
0.50
0.00
-0.50
-1.00
0 10 20 30 40
Rezago
69
Recreación y cultura (Diferencia estacional). Gráfica 4.9.3.
2
1
0
-1
-2
-3
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Autocorrelación simple: Recreación y cultura (Diferencia estacional).

Gráfica 4.9.4.
0.40
0.20
0.00
-0.20
-0.40
0 10 20 30 40
Rezago
Autocorrelación parcial: Recreación y cultura (Diferencia estacional). Gráfica 4.9.5.

0.40
0.20
0.00
-0.20
-0.40
0 10 20 30 40
Rezago
70
Raíces características: Recreación y cultura. Gráfica 4.9.6.
1
.5
Imaginario AR
0
MA
-.5
-1
-1 -.5 0 .5 1
Real
Autocorrelación residual: Recreación y cultura. Gráfica 4.9.7.

0.20
0.10
Residuales
0.00
-0.10
-0.20
0 5 10 15 20
Rezago
Autocorrelación simple: Educación. Gráfica 4.10.2.

1.00
0.50
Educación
0.00
-0.50
-1.00
0 10 20 30 40
Rezago
71
Educación. (Triple diferencia) Gráfica 4.10.4.
Educación
2
1
0
-1
-2
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Autocorrelación simple: Educación. (Triple diferencia) Gráfica 4.10.5

0.40
0.20
Educación
0.00
-0.20
-0.40
0 10 20 30 40
Rezago
Autocorrelación parcial: Educación. (Triple diferencia) Gráfica 4.10.6
0.60
0.40
0.20
Educación
0.00
-0.40 -0.20
0 10 20 30 40
Rezago
72
Raíces características: Educación. Gráfica 4.10.7
1
.5
Imaginario AR
0
MA
-.5
-1
-1 -.5 0 .5 1
Real
Auto-correlograma residual: Educación. Gráfica 4.10.8
0.20
0.10
Residuales
0.00
-0.10
-0.20
0 5 10 15 20
Rezago
Autocorrelación simple: Restaurantes y hoteles. Gráfica 4.11.2
1.00
0.50
0.00
-0.50
-1.00
0 10 20 30 40
Rezago
73
Restaurantes y hoteles (Diferencia estacional). Gráfica 4.11.3
1
.5
0
-.5
-1
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Autocorrelación simple: Restaurantes y hoteles (Diferencia estacional).

Gráfica 4.11.4
0.40
0.20
0.00
-0.20
-0.40
0 10 20 30 40
Rezago
Autocorrelación parcial: Restaurantes y hoteles (Diferencia estacional).

Gráfica 4.11.5
0.40
0.20
0.00
-0.20
-0.40
-0.60
0 10 20 30 40
Rezago
74
Raíces características: Restaurantes y hoteles. Gráfica 4.11.6
1
.5
Imaginario
AR
0
MA
-.5-1
-1 -.5 0 .5 1
Real
Auto-correlograma residual: Restaurantes y hoteles. Gráfica 4.11.6
0.20
0.10
Residuales
0.00
-0.10
-0.20
0 5 10 15 20
Rezago
Autocorrelación simple: Bienes y servicios diversos. Gráfica 4.12.2

1.00
0.50
0.00
-0.50
-1.00
0 10 20 30 40
Rezago
75
Bienes y servicios diversos (Segunda diferencia). Gráfica 4.12.3
1
.5
0
-.5
2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1

Tiempo
Autocorrelación simple: Bienes y servicios diversos (Segunda diferencia).

Gráfica 4.12.4
0.60
0.40
0.20
0.00
-0.20
-0.40
0 10 20 30 40
Rezago
Autocorrelación parcial: Bienes y servicios diversos (Segunda diferencia).

Gráfica 4.12.5
0.60
0.40
0.20
0.00
-0.20
-0.40
0 10 20 30 40
Rezago
76
Raíces características: Bienes y servicios diversos. Gráfica 4.12.6
1
.5
Imaginario
AR
0
MA
-.5
-1
-1 -.5 0 .5 1
Real
Auto-correlograma residual: Bienes y servicios diversos. Gráfica 4.12.7

0.20
0.10
Residuales
0.00
-0.10
-0.20
0 5 10 15 20
Rezago
Características Random Forest resultante. Tabla 5.1.
Resumen Random Forest

No. De árboles 54
Profundidad mínima 8
Profundidad máxima 14
Profundidad promedio 10.7
Mín. Nodos terminales 40
Máx. Nodos terminales 63
Nodos terminales promedio 53.18
77
Ajuste de pronósticos Arima y RF. Tabla 6.1.
Fecha Inflación Real Inflación Arima Inflación RF

noviembre-17 0.18% 0.14% 0.21%
diciembre-17 0.38% 0.24% 0.29%
enero-18 0.63% 0.46% 0.73%
febrero-18 0.71% 0.87% 0.79%
marzo-18 0.24% 0.43% 0.29%
abril-18 0.46% 0.27% 0.28%
mayo-18 0.25% 0.31% 0.20%
junio-18 0.15% 0.21% 0.18%
julio-18 -0.13% 0.16% 0.07%
agosto-18 0.12% 0.11% 0.12%
septiembre-18 0.16% 0.25% 0.11%
octubre-18 0.12% 0.21% 0.06%
noviembre-18 0.12% 0.24% 0.21%
diciembre-18 0.30% 0.33% 0.30%
enero-19 0.60% 0.54% 0.73%
febrero-19 0.57% 0.75% 0.68%
marzo-19 0.43% 0.43% 0.30%
abril-19 0.50% 0.26% 0.28%
mayo-19 0.31% 0.38% 0.20%
junio-19 0.27% 0.29% 0.19%
julio-19 0.22% 0.24% 0.06%
agosto-19 0.09% 0.18% 0.12%
septiembre-19 0.23% 0.18% 0.21%
octubre-19 0.16% 0.20% 0.16%
78

Tesis Andrés Camilo Peña Ordóñez PDF

Cargado por

Copyright:

Formatos disponibles

También podría gustarte

Tesis Andrés Camilo Peña Ordóñez PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tesis Andrés Camilo Peña Ordóñez PDF

Cargado por

Copyright:

Formatos disponibles

Pronóstico de la Inflación Colombiana: una aproximación desde un

modelo Arima desagregado y Machine Learning

Andrés Camilo Peña Ordóñez

Trabajo de grado para optar al título de ingeniero industrial

Andrés Peña Ordóñez

Palabras clave: Inflación, Arima, IPC, Machine Learning, Random Forest,

Andrés Peña Ordóñez

Key words: Inflation, Arima, CPI, Machine Learning, Random Forest.

Desde los inicios de la teoría macroeconómica, se ha estudiado la inflación como un fenómeno

niveles de inflación benefician el desarrollo, crecimiento y estabilidad económica.

López, & Misas, 2010).

volatilidad de la inflación en estos plazos será menor.

pronosticar mejor la inflación en el mediano y largo plazo. Mientras, que el comportamiento de la

Primero, la gran cantidad de variables económicas potencialmente informativas y segundo, la duración

modelos; además de permitir la existencia de dependencias no lineales (Baybuza, 2018)

comentadas acerca de las complicaciones de generar pronósticos de la inflación según el plazo, es de

comparación y la sección 7 tiene conclusiones y recomendaciones pertinentes sobre lo hallado en este

En el ámbito colombiano se han hecho numerosos estudios en cuanto al pronóstico de la inflación

colombiana mediante diferentes metodologías. Dentro de estas metodologías se encuentran modelos

revisión de la literatura en aras de poder analizar ventajas y desventajas de las metodologías ya

Modelos de pronóstico de la inflación del Banco de la República y (4) Estudios de la naturaleza de la

2.1. Pronósticos de la inflación colombiana usando la metodología Arima

realizaron varios pronósticos mediante la metodología Arima desde 4 aproximaciones. Estas

(2017). El pronóstico de la inflación consiste en encontrar la información desagregada según ciudad,

nacional y así, hallar la inflación mensual.

por lo tanto, para cada serie se obtienen 3 pronósticos.

cuanto a la especificación y forma correcta de cada pronóstico.

2.2. Pronósticos de la inflación colombiana mediante otras metodologías

Santana, & Casas, 2006).

variables económicas, y la inflación no es la excepción. Misas, López y Borrero (2002) realizaron un

posteriormente con metodologías lineales tradicionales como Arima, suavizamiento exponencial y

predicciones fuera de la muestra.

2.3. Modelos de pronóstico de la inflación del Banco de la República

lo tanto, se crearon modelos que cubrieran esta necesidad.

pronosticar variables económicas a mediano y largo plazo. El MMT7 consiste principalmente de

fue reemplazado posteriormente por el modelo PATACON.

de sus recursos en distintos periodos de tiempo, sujetos a restricciones de presupuesto, expectativas

en la sección de borradores de economía del Banco de La República.

2.4. Estudios sobre la naturaleza de la inflación colombiana y pregunta de investigación

demostraron la persistencia estadística de la inflación en Colombia para el periodo 1990-2010, lo cual

representación histórica en la canasta de consumo representativa.

un cambio de naturaleza en la inflación debido a la implementación del “Esquema de inflación objetivo

en caso de ser positivo o negativo, respectivamente. Según lo mencionado anteriormente, se puede

estado de una inflación menos volátil y más baja.

el pronóstico de un modelo Arima desagregado?

se explicará la naturaleza de los datos empleados en ambos modelos.

En aras de pronosticar a un mes la inflación colombiana de manera desagregada mediante la

información de la canasta anterior. El Departamento Administrativo Nacional de Estadística (DANE)

diferencias en cuanto al porcentaje de composición entre le metodología de empalme y la canasta actual,

se deben principalmente a las categorías “Alimentos y Bebidas No Alcohólicas” y “Alojamiento, Agua,

Ponderación Divisiones de Gasto. Tabla 3.1.

División de gasto Peso Empalme (2009-2018) Peso base 2018 (2019 - )

4. Pronóstico a través Arima

Arima se realizaron mediante el programa estadístico Stata.

4.1. Alimentos y bebidas no alcohólicas

para lograr que se asemeje a un proceso estacionario.

IPC Alimentos y bebidas no alcohólicas. Gráfica 4.1.1

Alimentos y bebidas no alcohólicas