Tesis Andrés Camilo Peña Ordóñez PDF

También podría gustarte

Está en la página 1de 78

Pronóstico de la Inflación Colombiana: una aproximación desde un

modelo Arima desagregado y Machine Learning

Andrés Camilo Peña Ordóñez

Trabajo de grado para optar al título de ingeniero industrial

Asesor:
Adriana Abrego Pérez
Departamento de Ingeniería Industrial
Universidad de Los Andes

Diciembre 2019

1
Agradezco a mi mamá por siempre apoyarme de todas las formas
posibles, sin ella, nada de esto sería posible

2
Pronóstico de la Inflación Colombiana: Una aproximación desde un
modelo Arima desagregado y Machine Learning

Andrés Peña Ordóñez

Resumen
Este artículo realiza dos cosas. Primero, realiza un modelo Arima para cada una de las 12 divisiones de
gasto que conforma el IPC base 2018, para así, ponderar el pronóstico un paso hacia delante de la
inflación mensual. Para este modelo fue necesario la serie de empalme del IPC entre la canasta base 2008
y base 2018. Segundo, realiza un modelo mediante un Random Forest que permita pronosticar la
inflación mensual. Ambos modelos realizaron el pronóstico desde noviembre de 2017 hasta octubre de
2019. Como resultado, el modelo a través de Random Forest mejora el pronóstico que realizó el modelo
desagregado Arima, esto bajo diferentes medidas de error.

Palabras clave: Inflación, Arima, IPC, Machine Learning, Random Forest,

3
Forecast of Colombian Inflation Rate: An approach from an Arima
disaggregated model and Machine Learning

Andrés Peña Ordóñez

Abstract
This article is a twofold objective. First, it performs an Arima model for each of the 12 spending groups
which conforms the CPI, thus, the forecast one step ahead of the monthly inflation will be the pooling of
the forecasts. For this model, it was necessary the joint series between 2018´s CPI and 2008´s CPI.
Second, it applies a Random Forest, Machine Learning technique to forecast monthly inflation. Both
models forecasted from November 2017 to October 2019. As a result, the Random Forest improves the
Arima disaggregated´s model, under different error measurements.

Key words: Inflation, Arima, CPI, Machine Learning, Random Forest.

4
Tabla de contenido
1. Introducción ....................................................................................................................................................6
2. Revisión de literatura .....................................................................................................................................9
2.1. Pronósticos de la inflación colombiana usando la metodología Arima ....................................................9
2.2. Pronósticos de la inflación colombiana mediante otras metodologías .................................................. 12
2.3. Modelos de pronóstico de la inflación del Banco de la República ........................................................ 14
2.4. Estudios sobre la naturaleza de la inflación colombiana y pregunta de investigación .......................... 15
3. Datos ............................................................................................................................................................. 17
4. Pronóstico a través Arima .......................................................................................................................... 19
4.1. Alimentos y bebidas no alcohólicas ...................................................................................................... 20
4.2. Bebidas alcohólicas y tabaco ................................................................................................................. 21
4.3. Prendas de vestir y calzado .................................................................................................................... 23
4.4. Alojamiento, agua, electricidad, gas y otros combustibles .................................................................... 25
4.5. Muebles, artículos para el hogar y para la conservación ordinaria del hogar ........................................ 26
4.6. Salud ...................................................................................................................................................... 28
4.7. Transporte .............................................................................................................................................. 30
4.8. Información y comunicación ................................................................................................................. 31
4.9. Recreación y cultura .............................................................................................................................. 33
4.10. Educación .......................................................................................................................................... 34
4.11. Restaurantes y hoteles ....................................................................................................................... 37
4.12. Bienes y servicios diversos ................................................................................................................ 38
5. Pronóstico a través de Random Forest ....................................................................................................... 39
6. Resultados .................................................................................................................................................... 44
7. Conclusiones................................................................................................................................................. 46
8. Referencias ................................................................................................................................................... 49
9. Anexos ........................................................................................................................................................... 51

5
1. Introducción

Desde los inicios de la teoría macroeconómica, se ha estudiado la inflación como un fenómeno

económico el cual afecta de gran manera a una economía. El nivel inflacionario de un país puede variar

dependiendo de su economía, desde valores negativos como los que ha presentado Japón (-0.29% en

2018), valores positivos moderados como E.E.U.U (1.9% EA en 2018) a valores positivos altos como

Venezuela (1.698.844,2 % EA en 2018) (StatBureau, 2019). Aunque tener inflación con valores

moderados cercanos a cero tiene sus beneficios, años de estudios teóricos y empíricos indican que estos

niveles de inflación benefician el desarrollo, crecimiento y estabilidad económica.

En el conocimiento común de la sociedad se relaciona la inflación como el aumento de los precios debido

al comportamiento de los individuos que buscan aumentar sus ingresos mediante el aumento de los

precios a medida que pasa el tiempo, sin embargo, la inflación va mucho más allá de eso. La variación

en el nivel general de precios puede verse afectada por la oferta de dinero, tasa de interés, aumento en

precios de los insumos de producción, efectos climáticos, entre otras variables exógenas. Por lo tanto, no

es una variable de la cual se espere que tenga un comportamiento plano a través del tiempo (Echavarría,

López, & Misas, 2010).

Debido a lo que significa la inflación para una economía, el comportamiento de esta es de interés para el

sector público, privado y hogares (Alonso & Rivera, 2017). Primero, el sector público, mediante el banco

central, toma decisiones de política monetaria teniendo en cuenta el nivel actual de la inflación y las

expectativas que existan sobre esta, con el fin de anticiparse a niveles inflacionarios indeseados. Segundo,

el sector privado necesita saber los niveles de inflación ya que, a esta tasa, su dinero perderá poder de

adquisición. Además, entidades financieras podrán tomar posiciones favorables en títulos de deuda

pública o privada, y de esta manera, bajo una inflación esperada, poder tener ingresos debido a su

6
posición o trading de estos títulos. Finalmente, los hogares también están interesados en el

comportamiento de la inflación ya que, altos niveles de inflación aumentarán los costos de sus insumos,

lo que, en términos reales, generaría disminución en el consumo, ingreso y calidad de vida. Según lo

anterior, poder pronosticar apropiadamente la inflación en corto y largo plazo, permitirá a los distintos

agentes de la economía poder tomar decisiones beneficien su bienestar, y, por lo tanto, beneficiar el nivel

general de la economía.

En aras de lograr que los distintos agentes estén preparados para choques inflacionarios, es necesario

crear un modelo que permita pronosticar futuros choques en el corto, mediano y largo plazo. Sin

embargo, dependiendo del plazo del pronóstico deseado, será necesario definir qué tipo de modelo

realizar. Debido a falta de información y efectos con rezago, la inflación en el corto plazo se hace más

difícil de pronosticar. Además, como se enfatizará en la revisión de literatura, según Echavarría, López,

& Misas (2010), los choques en la inflación desaparecerán en el mediano-largo plazo, por lo tanto, la

volatilidad de la inflación en estos plazos será menor.

Actualmente, los modelos de pronóstico de inflación consisten en tres grandes grupos: modelos

univariados, multivariados y modelos de equilibrio general (Meyer & Pasaogullari, 2010). Debido a la

gran información que puede manejar, los modelos multivariados y de equilibrio general tienden a

pronosticar mejor la inflación en el mediano y largo plazo. Mientras, que el comportamiento de la

inflación en el corto plazo puede ser pronosticado de mejor manera usando modelos univariados. Esto se

debe a que utilizar series de tiempo con variables macroeconómicas tiene dos problemas principales.

Primero, la gran cantidad de variables económicas potencialmente informativas y segundo, la duración

de cada una de las series de tiempo. Estos problemas pueden llevar a sobre ajustar el modelo.

Recientemente, se están utilizando modelos de Machine Learning, como Random Forest (RF), para

7
pronosticar variables macroeconómicas. Estos modelos de ML permiten evitar el sobre ajuste de los

modelos; además de permitir la existencia de dependencias no lineales (Baybuza, 2018)

Es por esto, que el presente artículo busca comparar el pronóstico de la inflación mensual (corto plazo)

mediante dos enfoques. El primero mediante un modelo econométrico tradicional (Arima) y el segundo,

mediante un enfoque de Inteligencia Artificial, con una técnica de Autoaprendizaje (Machine Learning)

a través de un modelo denominado Random Forest1. Con base en las dificultades previamente

comentadas acerca de las complicaciones de generar pronósticos de la inflación según el plazo, es de

interés comparar el poder de generar pronósticos más acertados en el corto plazo mediante los enfoques

aquí propuestos los cuales se enfocarán a emplear datos univariados. Finalmente, es necesario considerar

que la metodología por la cual el DANE calcula el IPC cambia cada 10 años, por lo tanto, en este artículo

se usó tanto la canasta válida2 para 2009-2018, así como la canasta válida a partir de 2019 en adelante

Este artículo tiene la siguiente estructura: la sección 2 contiene la revisión de literatura sobre el pronóstico

de la inflación en Colombia; la sección 3 abarca la explicación de los datos usados para los modelos; la

sección 4 y 5 contienen los modelos realizados por el autor, Arima y Random Forest (RF),

respectivamente; la sección 6 contiene los resultados arrojados por ambos modelos junto a su posterior

comparación y la sección 7 tiene conclusiones y recomendaciones pertinentes sobre lo hallado en este

artículo.

1
La metodología de Random Forest consiste en la elaboración de múltiples árboles de decisión cuya
función es pronosticar o clasificar a partir de una muestra de datos. Este modelo será abordado con más
detalle en la sección 5.
2
Con el fin de conformar el IPC, el Departamento Administrativo Nacional de Estadística (DANE)
conforma un grupo de bienes (canasta) que representa el consumo de los hogares colombianos durante
el periodo de su vigencia. Cada 10 años, el DANE modifica dicha canasta con el fin de representar los
hábitos de consumo al momento de la modificación, es ahí cuando la canasta anterior deja de ser
vigente para calcular el IPC.
8
2. Revisión de literatura

En el ámbito colombiano se han hecho numerosos estudios en cuanto al pronóstico de la inflación

colombiana mediante diferentes metodologías. Dentro de estas metodologías se encuentran modelos

mediante redes neuronales (Camaro, Jiménez, Santana, & Casas, 2006), redes neuronales artificiales

(Aristizabal, 2006), Arima (Alonso & Rivera, 2017), equilibrio general (González, Mahadeva, Prada, &

Rodríguez, 2011), Kernel, STAR (Rodríguez N. & Siado C., 2003), entre otras. Cada uno de estos

modelos se ha utilizado para pronosticar la inflación a distintos plazos; bien sea a un mes, como el Arima

(Alonso & Rivera, 2017) y STAR (Rodríguez N. & Siado C., 2003), o a mediano y largo plazo como el

modelo de equilibrio general del Banco de la República, PATACON3. A continuación, se hará una

revisión de la literatura en aras de poder analizar ventajas y desventajas de las metodologías ya

mencionadas. No se analizará literatura sobre pronósticos de la inflación en otros países, ya que la serie

inflación de otros países puede ser diferente a la colombiana; tanto por su canasta de consumo, como por

su volatilidad y las variables exógenas que las afectan. Por lo tanto, asegurar que una metodología es

acertada para pronosticar la inflación en otro país, no significa que será acertada para el caso colombiano.

A continuación, se hará una revisión de estudios la cual se dividirá en 4 partes: (1) Pronóstico de la

inflación colombiana con Arima, (2) Pronóstico de la inflación colombiana con otras metodologías (3)

Modelos de pronóstico de la inflación del Banco de la República y (4) Estudios de la naturaleza de la

inflación en Colombia.

2.1. Pronósticos de la inflación colombiana usando la metodología Arima

Primero, Rodríguez y Siado (2003) realizaron los primeros pronósticos de la inflación colombiana

usando métodos de predicción no paramétricos basados en estimación Kernel, la cual se comparó con

pronósticos realizados mediante Arima y STAR. La información utilizada para el pronóstico fue el IPC

3
PATACON: Policy Analysis Tool Applied to Colombian Needs
9
de enero de 1980 hasta septiembre de 2002, y se evaluó los pronósticos en el periodo de enero de 2000

a mayo de 2003. Rodríguez y Siado (2003) encontraron que los datos de la inflación que se tomaron no

presentaban estacionariedad, por lo que hicieron diferenciación de orden 1 en la serie original. Una vez

realizado el pronóstico mediante las tres metodologías, se procedió a compararlas entre sí para los plazos

de un mes hasta doce meses. En aras de poder comparar las diferentes metodologías de pronóstico, se

utilizó como criterio de evaluación el error cuadrático medio. Para el periodo de evaluación elegido,

Rodríguez y Siado (2003) concluyeron que el pronóstico de la metodología Kernel mejora la estimación

de la inflación para todos los periodos de dos a 12 meses. En el caso de la estimación a un mes, el modelo

Arima fue el que tuvo menor error cuadrático medio (Rodríguez N. & Siado C., 2003). Debido a que el

presente artículo pretende pronosticar la inflación mensual un paso hacia adelante, es de gran utilidad lo

encontrado por los anteriores investigadores. Esto permite afirmar que efectivamente, el uso de Arima

para el plazo pronosticado puede llegar a ser más acertado que otras metodologías.

Años más tarde y con la canasta de consumo válida para el periodo 2009-2018, Alonso y Rivera (2017)

realizaron varios pronósticos mediante la metodología Arima desde 4 aproximaciones. Estas

aproximaciones consistían en desagrupar la composición del IPC por ciudades, división de gasto, nivel

de ingreso, subgrupos y grupos. En las figuras 3.1.1 y 3.1.2, se muestra la conformación del IPC utilizado

(2009-2018) para más adelante explicar en qué consiste cada propuesta realizada por Alonso y Rivera

(2017). El pronóstico de la inflación consiste en encontrar la información desagregada según ciudad,

ingreso, grupo, clase y subgrupo; luego se pondera todos los pronósticos con el fin de encontrar el IPC

nacional y así, hallar la inflación mensual.

Antes de explicar cada aproximación de Alonso y Rivera (2017), es necesario resaltar que el DANE

revela la información desagregada para 13 de las 24 ciudades con la cual se calcula la canasta; por lo

10
tanto, el pronóstico de las 11 ciudades restantes se hizo sobre el total del IPC para cada una de las

ciudades. La primera aproximación consiste en pronosticar para cada uno de los 3 niveles de ingreso,

cada uno de los 181 IPC de las categorías de gasto en las 13 ciudades en las cuales existe la información

desagregada. La segunda aproximación toma los precios de cada uno de los 88 productos y servicios para

cada nivel de ingreso en las 13 ciudades con la información disponible. La tercera estimación implica

pronosticar los 34 elementos de cada categoría del subgrupo para cada nivel de ingreso en las 13 ciudades

con información desagregada. La cuarta y última estimación consiste en pronosticar las 9 divisiones de

gasto para cada nivel de ingreso en las 13 ciudades con la información disponible. Para ordenar cada

posible pronóstico de las series según cada criterio se utilizaron los coeficientes AIC (criterio de

información Akaike), AICC (corrección de muestras infinitas para el AIC) y BIC (criterio bayesiano)

por lo tanto, para cada serie se obtienen 3 pronósticos.

Una vez se ponderan todos los pronósticos según su aproximación propuesta para conformar el IPC

nacional, se procede a comparar las 4 aproximaciones junto a un pronóstico agregado sobre el IPC

nacional/total. El estudio comprobó que las 4 aproximaciones con información desagregada mejoraban

el pronóstico univariado que se hizo sobre el total del IPC nacional. En cuanto a la mejor aproximación

con información desagregada fue la cuarta estimación, la cual realiza el pronóstico a partir de la

información de cada uno de los 9 grupos de gasto para cada nivel de ingreso en las 13 ciudades; este

presentó el menor error cuadrático medio4. Por lo tanto, para calcular la inflación un mes hacia adelante

con la mejor metodología, será necesario realizar 362 pronósticos. Esto puede suponer un problema en

cuanto a la especificación y forma correcta de cada pronóstico.

4
Este error fue calculado obteniendo la raíz cuadrática del promedio de la sumatoria de los errores cuadráticos.
11
La metodología antes referida de utilizar y pronosticar información desagregada para su posterior

ponderación tiene beneficios que son discutidos en la literatura. Primero, el pronosticar una variable

general puede tener problemas al no tener en cuenta las características de las variables que se ponderan,

por lo tanto, se podría estar incurriendo en una forma funcional incorrecta y a su vez en problemas de

autocorrelación residual. Segundo, una estimación desagregada de una variable permite realizar mejor

análisis previo e identificar la tendencia y forma de cada serie; además, el pronóstico de cada una de las

variables que componen la variable total permite mejor análisis de cada una de estas (Hendry & Michael,

2001). Sin embargo, esta metodología también ha recibido críticas debido a la gran cantidad de

información que se puede llegar a involucrar en el pronóstico. El hecho de tener más información no

implica obtener un mejor pronóstico, ya que se podría estar saturando el modelo y terminar pronosticando

variables que se reflejan de la mejor manera en la suma de estas (Theil, 1955). Este puede ser el caso del

estudio de Alonso y Rivera (2017) el cual necesita 362 pronósticos. Aunque se comprobó que esta

metodología es mejor al resto planteadas, se podría realizar una metodología de pronóstico con

información desagregada, pero agrupando ciertas categorías. De esta manera se podría darle el análisis

necesario a cada una de las series de tiempo que se pronosticará, para así asignar un método de pronóstico

sea Arima o no a cada serie, pero manteniendo el número de pronósticos a realizar en una cantidad

razonable.

2.2. Pronósticos de la inflación colombiana mediante otras metodologías

En la literatura reciente sobre pronósticos se han comenzado a utilizar modelos más avanzados que

han reemplazado a modelos tradicional como lo es Arima. Una de las críticas que se la han hecho a los

modelos Arima es el fuerte supuesto de que sigue una forma funcional lineal, además, no es un modelo

que pueda capturar de forma correcta los choques exógenos recientes que afecten una variable (Alonso

& Rivera, 2017). Dentro de las nuevas metodologías de pronóstico que han tenido gran acogida están las

12
redes neuronales, debido a su gran capacidad de aprendizaje sobre la misma serie (Camaro, Jiménez,

Santana, & Casas, 2006).

En Colombia se han hecho estudios utilizando redes neuronales como metodología para pronosticar

variables económicas, y la inflación no es la excepción. Misas, López y Borrero (2002) realizaron un

estudio en el cual pronosticaban la inflación mediante redes neuronales, el cual era comparada

posteriormente con metodologías lineales tradicionales como Arima, suavizamiento exponencial y

mínimos cuadrados flexibles. Las variables que las redes neuronales tuvieron en cuenta fue el IPC

nacional, agregado monetario M15 y M26, desde 1969 a 2001. A partir de esto, se plantearon dos redes

neuronales, la primera de forma autorregresiva en la que se utilizan los agregados monetarios en rezago

con el fin de redecir la demanda de efectivo; la segunda red neuronal es de manera ampliada en la cual

se integran tanto los agregados monetarios como la serie del IPC en rezagos. Ambas redes neuronales

lograron mejorar los pronósticos tradicionales y la red neuronal ampliada fue la que mejor pronosticó la

inflación, mejorando los pronósticos de la red autorregresiva. Posteriormente, Aristizábal (2006) retomó

el estudio realizado por Misas, López y Borrero (2002) en el que mediante redes neuronales buscaba

pronosticar la inflación con la relación del dinero. En este caso, se realizó mediante un proceso dinámico

de pronóstico conocido como Rolling, el cual consiste en estimar los parámetros antes de realizar las

predicciones fuera de la muestra.

Posteriormente, (Camaro, Jiménez, Santana, & Casas, 2006) evaluaron la capacidad de predicción de las

redes neuronales, y se compararon los resultados con los modelos tradicionales Arima, suavizamiento

exponencial y modelos de regresión con coeficientes variantes en el tiempo. Para el modelo Arima, según

5
Agregado monetario M1: Cuentas corrientes en bancos comerciales más el efectivo en poder del público.
6
Agregado monetario M2: Incluye el M1 más depósitos de ahorro, y certificados de depósito a todos sus plazos e
indexaciones existentes (Banco de la Repúbica, 2004)
13
el criterio BIC, se determinó un modelo SArima (1,1,1) (0,1,1)12 para la serie del IPC nacional de enero

de 1998 a diciembre de 2005. Una vez realizadas diferentes redes neuronales, se demostró que estas

mejoraban la predicción de la variación del IPC, en comparación con las metodologías tradicionales ya

mencionadas.

2.3. Modelos de pronóstico de la inflación del Banco de la República

Debido a que el Banco de la República es el ente encargado de tomar las decisiones de política

monetaria, es necesario revisar los modelos de pronóstico de la inflación que maneja dicha entidad y en

las cuales basa sus decisiones de política. Después de la implementación del esquema de inflación

objetivo en 1999, era necesario una herramienta que pronosticara la inflación bajo el nuevo esquema, por

lo tanto, se crearon modelos que cubrieran esta necesidad.

El Banco de la República creó un modelo macroeconómico diseñado para Colombia, el cual permite

pronosticar variables económicas a mediano y largo plazo. El MMT7 consiste principalmente de

pronósticos mediante la desviación de una variable y su estado natural en el largo plazo. Este modelo

recibió críticas ya que no capturaba de manera correcta los choques que podían afectar el producto, por

lo tanto, se podían llegar a tomar decisiones de política monetaria erróneas (Bejarano, 2002). Este modelo

fue reemplazado posteriormente por el modelo PATACON.

El modelo que actualmente maneja el Banco de la República, PATACON, surgió como una variación al

Modelo de Mecanismo de Transmisión (MMT). Este tipo de modelo ha sido utilizado para varias

economías pequeñas y abiertas como Suecia, España, Noruega, Chile, entre otras. Este es un modelo

estocástico dinámico de equilibrio general micro fundamentado, el cual sirve para dar recomendaciones

7
Modelo de Mecanismo de Transmisión de Política Monetaria
14
de política monetaria, simular choques exógenos en la economía y pronosticar variables económicas

como la inflación y el PIB a mediano y largo plazo. El modelo se basa en agentes que optimizan el uso

de sus recursos en distintos periodos de tiempo, sujetos a restricciones de presupuesto, expectativas

económicas y a cantidades de bienes en el mercado. Además, este modelo considera varios supuestos

como rigidez de salarios, hábitos de consumo, depreciación de capital, costos de inversión, entre otros.

Para ver más detalles consultar (González, Mahadeva, Prada, & Rodríguez, 2011). Actualmente se está

trabajando en un modelo semi estructural para el análisis de política monetaria, con el cual también será

posible pronosticar la inflación a mediano y largo plazo. A la fecha, este documento no ha sido publicado

en la sección de borradores de economía del Banco de La República.

2.4. Estudios sobre la naturaleza de la inflación colombiana y pregunta de investigación

Aunque la canasta utilizada en los estudios recientemente explicados es muy distante a la actual en

términos de composición por división de gasto, volatilidad y niveles; Echavarría, López y Misas (2010)

demostraron la persistencia estadística de la inflación en Colombia para el periodo 1990-2010, lo cual

permite que dicha serie sea comparable con la actual. Dicho estudio tuvo dos hallazgos importantes que

se utilizarán en este trabajo. En primer lugar, se comprobó que la serie de la inflación anual es estacionaria

alrededor de una tendencia determinística entre el periodo de enero de 1990 a junio de 2010, lo cual

implica que los choques a la inflación se diluyen en el tiempo. En segundo lugar, mediante el método

Markov-Switching, los autores encuentran dos estados de distinta naturaleza en la inflación. El primer

estado comprende de enero de 1990 a enero de 2001, donde la inflación era alta y muy volátil. Cabe

destacar que, en gran parte de este periodo (1991-1999), el Banco de La República no contaba con

política monetaria independiente, por lo tanto, no podían controlar la inflación mediante la tasa de interés;

esto cambió en 1999 con la adopción de una tasa de cambio libre y el control de la política monetaria del

país. El segundo estado comprende desde enero de 2001 hasta el último periodo estudiado, junio de 2010,

15
y se caracteriza por inflación más baja y menos volátil, con sobre saltos en 2007. Estos sobresaltos se

dieron debido a un aumento mundial en el precio de los alimentos, siendo este el grupo con mayor

representación histórica en la canasta de consumo representativa.

Echavarría, López y Misas (2010) atribuyeron las diferencias en ambos estados a la implementación en

1999 del “Esquema de inflación objetivo en Colombia”. Este esquema consiste en que el Banco de la

República fija cada año una meta de inflación para anclar las expectativas de los agentes. En presencia

de algún choque que aleje la inflación de esta meta, el Banco de la República mueve su tasa de interés

para alterar la liquidez y la demanda de dinero en el mercado interbancario, para así llevar la inflación a

niveles cercanos de la meta (Banco de la República, 2008). En consecuencia, estos hallazgos que indican

un cambio de naturaleza en la inflación debido a la implementación del “Esquema de inflación objetivo

en Colombia”, permiten atribuir que la inflación seguirá su persistencia estadística. Aunque la inflación

tenga periodos volátiles (2007 y 2016), esta volverá cerca a su nivel meta fijado por el Banco de la

República, tal y como sucedió en ambos periodos. Conjuntamente, Echavarría, López y Misas (2010)

estimaron que, para el periodo 2001-2010, el choque sobre la inflación desaparece en 4 meses, y 1 mes,

en caso de ser positivo o negativo, respectivamente. Según lo mencionado anteriormente, se puede

suponer que la inflación, después de 2010, siga con persistencia estadística encontrada mediante

absorción de los choques exógenos rápidamente. Además, no se espera que esto cambie hasta que ocurra

un fundamental tan fuerte como el del “Esquema de Inflación Objetivo”, el cual dio paso a este nuevo

estado de una inflación menos volátil y más baja.

Finalmente, en aras de continuar con la estructuración de los modelos, es necesario tener en cuenta lo

hallado en la revisión de literatura. Los modelos Arima logran dar un mejor pronóstico a un mes que

otros modelos, como STAR y Kernel, además, un pronóstico desagregado del IPC logra mejorar el

pronóstico Arima agregado. Por lo tanto, este artículo busca responder la siguiente pregunta:

16
¿El pronóstico a un mes de la inflación mensual colombiana mediante Machine Learning logra mejorar

el pronóstico de un modelo Arima desagregado?

Esta pregunta se responderá abordando así dos enfoques. Primero, el modelo Arima desagregado y

segundo, un modelo de Machine Learning, mediante la metodología de Random Forest (RF). Una vez

realizados los pronósticos, se seleccionará el modelo que se desempeñe mejor bajo diferentes medidas

de error. Finalmente, en aras de poder generar los modelos de pronóstico ya descritos, a continuación

se explicará la naturaleza de los datos empleados en ambos modelos.

3. Datos

En aras de pronosticar a un mes la inflación colombiana de manera desagregada mediante la

metodología Arima, es necesario tener suficiente información desagregada en las 12 divisiones de gasto.

Debido a que esta canasta con 12 divisiones de gasto comenzó a ser vigente a partir de 2019 y la anterior

canasta, vigente de 2009 a 2018, contaba con distintos grupos (9 en total), no se puede tomar la

información de la canasta anterior. El Departamento Administrativo Nacional de Estadística (DANE)

creó una serie de empalme entre ambas canastas. La creación de esta serie consistió en reorganizar la

información de la anterior canasta (2009-2018) y replicar, bajo la nueva metodología, las 12 divisiones

de gasto para el periodo vigente de la canasta anterior. De esta manera, se obtiene la canasta actual para

el periodo 2009 a 2018, la cual permite analizar las 12 divisiones de gasto de manera individual desde

2009 hasta la actualidad. Es importante aclarar que la serie de empalme realizada por el DANE es la

aproximación más exacta que se puede hacer, teniendo en cuenta que ambas canastas tienen diferencias

en cuanto a artículos, cantidad, ciudades, entre otros. Para conformar el IPC total, cada división de gasto

aporta un porcentaje a la ponderación total. Los porcentajes de cada división de gasto para la nueva

metodología solo se utilizarán para ponderar los pronósticos desde enero de 2019 en adelante. Mientras,

para las 12 divisiones de gasto durante el periodo 2009-2018 es necesario utilizar diferentes pesos, debido

17
a como el DANE conformó la canasta. Estos pesos son definidos por el DANE. La información de los

pesos correspondiente a cada periodo se encuentra en la tabla 3.1. Cabe resaltar que las principales

diferencias en cuanto al porcentaje de composición entre le metodología de empalme y la canasta actual,

se deben principalmente a las categorías “Alimentos y Bebidas No Alcohólicas” y “Alojamiento, Agua,

Electricidad, Gas”. Entre estos dos grupos conforman casi el 50% de la canasta válida para 2019 a 2028.

Ponderación Divisiones de Gasto. Tabla 3.1.

División de gasto Peso Empalme (2009-2018) Peso base 2018 (2019 - )


Alimentos Y Bebidas No Alcohólicas 20.14% 15.05%
Bebidas Alcohólicas y Tabaco 1.25% 1.70%
Prendas De Vestir Y Calzado 4.96% 3.98%
Alojamiento, Agua, Electricidad, Gas 24.90% 33.12%
Muebles y artículos para el hogar 5.20% 4.19%
Salud 1.91% 1.71%
Transporte 15.25% 12.93%
Información y comunicación 3.72% 4.33%
Recreación Y Cultura 3.83% 3.79%
Educación 4.82% 4.41%
Restaurantes Y Hoteles 8.07% 9.43%
Bienes Y Servicios Diversos 5.95% 5.36%

En cuanto al Random Forest, las propiedades de este método no permiten que se pueda pronosticar una

serie con tendencia, por lo tanto, no se podrá utilizar la serie del IPC (Arora, 2018). Con el fin de

pronosticar la inflación, se utilizará la serie de la inflación mensual desde enero de 2009. Así, el modelo

de RF podrá realizar el pronóstico sobre una serie sin tendencia (gráfica 3.1.). Además, no se agregará

ninguna variable económica adicional en el modelo RF, ya que se considera que la discusión sobre las

variables explicativas podría conllevar una extensión no deseada para el presente artículo.

18
Inflación Mensual Gráfica 3.1.

4. Pronóstico a través Arima

A continuación, se realizará el pronóstico para cada una de las 12 divisiones de gasto, con la

información de la serie de empalme de enero de 2009 a octubre de 2019. Además, cada división de gasto

se pronosticará mediante la metodología Arima; sin embargo, el grupo Educación tendrá un manejo

especial el cual se profundizará más adelante8. Adicionalmente, para comprobar la estacionariedad de las

series, se utilizó la prueba de Dickey-Fuller Aumentada, la cual incorpora un rezago máximo dado por
1
𝑇
la regla 𝑝𝑚𝑎𝑥 = 12 ∗ (100)4 , y verificar si el t-estadístico de ese último rezago en la prueba es mayor que

1.6 en valor absoluto. Si esto se cumple, la prueba se realiza 𝑝𝑚𝑎𝑥 , de lo contrario se empiezan a reducir

los rezagos uno a uno hasta que se cumpla esta condición (Vega, 1990). Todas las series tienen 130

observaciones por lo tanto 𝑝𝑚𝑎𝑥 ≈ 13. Los resultados de las pruebas de Dickey-Fuller y Portmanteau se

encuentran en la tabla 4.1. y 4.2. respectivamente. Mediante estas pruebas se comprobará estacionariedad

8
Este grupo presenta un comportamiento con clara estacionalidad por lo cual se empleará un método Holt-Winters
Multiplicativo para aprovechar la naturaleza de la serie.
19
de la serie y no autocorrelación residual. En cada sección se concluirá sobre estas pruebas. Además, las

raíces características de cada modelo son estrictamente menores a 1, así algunas de ellas se vean

gráficamente cerca del círculo unitario. Finalmente, para realizar las respectivas pruebas y auto-

correlograma, se usó una significancia del 5%9. Todos los procedimientos del modelo econométrico

Arima se realizaron mediante el programa estadístico Stata.

4.1. Alimentos y bebidas no alcohólicas

En aras de poder realizar el pronóstico del grupo “Alimentos y bebidas no alcohólicas” mediante

la metodología ARIMA, se debe comprobar que esta serie sea estacionaria. La gráfica 4.1.1. muestra que

esta tiene tendencia y no sigue un proceso estacionario. Además, la gráfica 4.1.2. muestra como el auto-

correlograma de la serie sin diferenciar presenta decrecimiento lento hacia las bandas de contingencia,

comportamiento característico de una caminata aleatoria. Por lo tanto, es necesario diferenciar la serie

para lograr que se asemeje a un proceso estacionario.

IPC Alimentos y bebidas no alcohólicas. Gráfica 4.1.1

Alimentos y bebidas no alcohólicas


110
100
90
IPC
80
70

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Posteriormente, se diferencia la serie original de la siguiente manera: 𝛥𝐼𝑃𝐶𝑡+1 = 𝐼𝑃𝐶𝑡+1 − 𝐼𝑃𝐶𝑡 . La

gráfica 4.1.3. muestra como la serie diferencia parece seguir un proceso estacionario. Además, la gráfica

9
A continuación solo se mostrarán las gráficas del comportamiento de cada grupo y el ajuste del pronóstico. El resto de
gráficas y/o tablas pueden ser consultadas en la sección de anexos (Sección 9)
20
4.1.4 muestra que los coeficientes de autocorrelación decrecen rápidamente hacia las bandas de

contingencia, patrón común de un proceso estocástico estacionario. Consecutivamente, se comprobó la

estacionalidad de esta serie mediante la prueba de Dickey-Fuller (tabla 4.1.). La serie en primera

diferencia muestra ser estacionaria al 5% de significancia. Una vez se diferencia la serie y se comprueba

su estacionariedad, se obtienen los auto-correlograma simple y parcial, con el fin de identificar los

componentes Ar y Ma de la serie. En la función de autocorrelación simple (gráfica 4.1.4), se evidencian

picos fuera de las bandas de contingencia en los rezagos 1 y 2, dando indicios de tener componentes Ma

(1) y Ma (2). Además, el auto-correlograma parcial tiene un solo pico significativo en el primer rezago,

siendo muestra de un componente Ar (1). Debido a lo anterior, se evaluaron 4 modelos: Arima (1,1,0),

Arima (0,1,2), Arima (1,1,2) y Arima (1,1,1). Finalmente, el modelo Arima (1,1,0) fue el que menor

AIC y BIC presentó, por lo tanto, será el modelo que pronostique la división de gasto “Alimentos y

bebidas no alcohólicas”. Este modelo presenta raíces características menores a 1 y sus errores no están

correlacionados, como se muestra en la gráfica 4.1.6. y gráfica 4.1.7. El ajuste del pronóstico se muestra

en la gráfica 4.1.8.

Pronóstico Alimentos y bebidas no alcohólicas. Gráfica 4.1.8.

Alimentos y bebidas no alcohólicas


110
100
IPC
90
80
70

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Alimentos y bebidas no alcohólicas Pronóstico

4.2. Bebidas alcohólicas y tabaco

21
La gráfica 4.2.1. muestra como el IPC se ha comportado con tendencia, por lo tanto, es claro que

no sigue un proceso estocástico estacionario. Además, la gráfica 4.2.2. evidencia como las correlaciones

dejan de ser significativas en rezagos muy lejanos, por lo tanto, no se asemeja a un proceso estacionario.

Consecuentemente, es necesario diferenciar la serie para lograr que se asemeje a un proceso estocástico

estacionario.

Bebidas alcohólicas y tabaco. Gráfica 4.2.1.

Bebidas alcohólicas y tabaco


110
100
90
IPC
80
70
60

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Primero, se realiza la diferencia 𝛥𝐼𝑃𝐶𝑡+1 = 𝐼𝑃𝐶𝑡+1 − 𝐼𝑃𝐶𝑡 a la serie original, sin embargo, esta no

muestra ser estacionario, tal y como muestra la gráfica 4.2.3 y 4.2.4. Consecuentemente, se añade una

diferencia estacional de la siguiente manera: 𝛥2 𝐼𝑃𝐶𝑡 = 𝛥𝐼𝑃𝐶𝑡 − 𝛥𝐼𝑃𝐶𝑡−12. Esta serie, con una

diferencia estacionaria y otra estacional, presenta un comportamiento que parece ser estacionario. En la

gráfica 4.2.5 se observa como la serie ya no tiene tendencia ni estacionalidad. Además, el índice de

correlación entra rápidamente en las bandas de contingencia (gráfica 4.2.6.). Una vez se tiene una serie

que, a priori muestra ser estacionaria, se realiza la prueba de raíz unitaria de Dickey-Fuller. Esta prueba

indica que la serie sigue un proceso estocástico estacionario, con significancia del 5% (tabla 4.1.).

Posteriormente, es necesario obtener y analizar el auto-correlograma simple y parcial, con el fin de

identificar los componentes Ar y Ma de la serie. La gráfica 4.2.6 muestra componentes Ma (1), Ma (2),

22
SMa10(1); mientras la gráfica 4.2.7. muestra componentes Ar (1), Ar (2) y SMa (1). Según lo anterior, se

evaluaron 4 modelos: SArima (2,1,1) (0,1,1,12), SArima (1,1,1) (1,1,1,12), SArima (1,1,1) (0,1,1,12) y

SArima (0,1,2) (0,1,1,12). El modelo SArima (1,1,1) (0,1,1,12) fue el modelo que menor AIC y BIC

obtuvo, por lo tanto, es el modelo elegido para pronosticar esta división de gasto. Este modelo presenta

raíces características menores a 1 y no presenta auto correlación, como se muestra en la gráfica 4.2.8. y

4.2.9. El ajuste del pronóstico se muestra en la gráfica 4.2.10.

Pronóstico Bebidas alcohólicas y tabaco. Gráfica 4.2.10.

Pronóstico Bebidas Alcohólicas y Tabaco


110
100
90
IPC
80
70
60

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Bebidas Alcohólicas y Tabaco Pronóstico

4.3. Prendas de vestir y calzado

De manera similar a las series anteriormente pronosticadas, la división de gasto “Prendas de vestir

y calzado” presenta tendencia y sus índices de correlación entran lentamente en las bandas de

contingencia, como lo muestra la gráfica 4.3.2; por lo tanto, es necesario diferenciar la serie de la

siguiente manera: 𝛥𝐼𝑃𝐶𝑡+1 = 𝐼𝑃𝐶𝑡+1 − 𝐼𝑃𝐶𝑡

10
SMa: Componente de media móvil estacional.
23
Prendas de vestir y calzado. Gráfica 4.3.1.

Prendas de vestir y calzado

100
95
IPC

90
85

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

La diferencia realizada no muestra seguir un proceso estacionario, ya que parece tener tendencia entre

2010 y 2016, como lo muestra la gráfica 4.3.3. Además, la gráfica 4.3.4. evidencia como su auto-

correlograma muestra un decaimiento lento dentro de las bandas de contingencia. Debido a que no se

muestra un componente estacional, se diferenciará una vez más de la siguiente manera: 𝛥2 𝐼𝑃𝐶𝑡+1 =

𝛥𝐼𝑃𝐶𝑡+1 − 𝛥𝐼𝑃𝐶𝑡 con el fin de lograr una serie estacionaria. La serie con doble diferenciación si muestra

un comportamiento estacionario como se observa en la gráfica 4.3.5. Además, la gráfica 4.3.6. muestra

como los índices de autocorrelación presentan un decaimiento rápido dentro de las bandas de

contingencia. Posteriormente, se procede a realizar la prueba de raíz unitaria de Dickey-Fuller, la cual

indica que la serie diferenciada doble vez, se comporta como un proceso estocástico estacionario al 5%,

el cual se evidencia en la tabla 4.1. La gráfica 4.3.6. muestra tener componentes Ma (1) y Ma (3), mientras

la gráfica 4.3.7. indica un componente Ar (1) y SAr (1). Según lo anterior, se compararon 4 modelos:

Arima (0,2,1), Arima (0,2,3), Arima (1,2,0) y SArima (0,2,1) (0,0,1,12). El modelo que mejor desempeño

tuvo en cuanto al AIC y BIC fue el modelo SArima (0,2,1) (0,0,1,12). Este modelo presenta raíces

características menores a 1 y no presenta autocorrelación residual, como se muestra en la gráfica 4.3.8.

y 4.3.9. El ajuste del pronóstico se muestra en la gráfica 4.3.10

24
Pronóstico prendas de vestir y calzado. Gráfica 4.3.10.

Prendas de vestir y calzado

100
95
IPC
90
85

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Prendas de vestir y calzado Pronóstico

4.4. Alojamiento, agua, electricidad, gas y otros combustibles

La gráfica 4.4.1. evidencia como esta división de gasto presenta una clara tendencia. Además, la

autocorrelación simple (gráfica 4.4.2) presenta el comportamiento tradicional de un proceso de caminata

aleatoria con deriva. Por lo tanto, en aras de generar una serie estacionaria, es necesario diferencia la

serie de la siguiente manera: 𝛥2 𝐼𝑃𝐶𝑡 = 𝛥𝐼𝑃𝐶𝑡 − 𝛥𝐼𝑃𝐶𝑡−12. La diferencia estacional se hace con el fin

de eliminar el componente estacional de la serie.

Alojamiento, agua, electricidad, gas y otros combustibles. Gráfica 4.4.1.


Alojamiento, agua, electricidad, gas y otros combustibles
110
100
90
IPC

80
70

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

La gráfica 4.4.3. evidencia que la serie diferenciada luce como un proceso estocástico estacionario.

Además, la gráfica 4.4.4. muestra que los índices de autocorrelación decrecen rápidamente y solo algunos

25
salen de las bandas de contingencia. Una vez la serie indica ser estacionaria, es necesario evaluar su

estacionariedad mediante la prueba de raíz unitaria de Dickey Fuller. La prueba indica que esta serie

sique un proceso estacionario, bajo el 5% de significancia (tabla 4.2.). Posteriormente, las funciones de

autocorrelación simple y parcial darán indicios de los componentes autorregresivos y de media móvil

existentes en la serie. La gráfica 4.4.4. muestra principalmente un componente SMa (1), mientras la

gráfica 4.4.5. indica un componente SAr (1). Junto lo anterior, se analizó el auto-correlograma de los

errores de cada modelo con el fin de ir capturando y eliminando la autocorrelación. Según lo anterior,

SArima (0,1,2) (1,1,0,12), SArima (0,1,0) (1,1,0,12), SArima (0,1,1) (1,1,0,12) y SArima (1,1,0)

(2,1,0,12). Consecuentemente, se realizó una comparación mediante los criterios AIC y BIC; resultando

como mejor modelo el de forma SArima (1,1,0) (2,1,0,12). Este modelo cumple con las condiciones de

las raíces características y no presenta autocorrelación residual, como se muestra en la gráfica 4.4.6. y

4.4.7, respectivamente. El ajuste del pronóstico se muestra en la gráfica 4.4.8

Pronóstico Alojamiento, agua, electricidad, gas y otros combustibles. Gráfica 4.4.8.


110
100
90
IPC

80
70

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Alojamiento, agua, electricidad, gas y otros combustibles


Pronóstico

4.5. Muebles, artículos para el hogar y para la conservación ordinaria del hogar

Este grupo muestra un comportamiento similar al grupo de “Alojamiento, agua, electricidad, gas

y otros combustibles”, ya que no presenta componente estacional claro (gráfica 4.5.1), pero sí una

26
tendencia marcada (gráfica 4.5.1.). Por lo tanto, sumado a que los índices de autocorrelación caen

lentamente dentro de las bandas de contingencia (gráfica 4.5.2.), patrón típico de una camina aleatoria

con deriva, se puede concluir que es un proceso estocástico no estacionario. Consecuentemente, se evalúa

la serie con dos diferencias estacionarias, por lo tanto, la diferencia aplicada sigue la forma: 𝛥2 𝐼𝑃𝐶𝑡+1 =

𝛥𝐼𝑃𝐶𝑡+1 − 𝛥𝐼𝑃𝐶𝑡

Muebles, artículos para el hogar y para la conservación ordinaria del hogar. Gráfica 4.5.1.

Muebles y artículos para el hogar


100
95
90
IPC
85
80
75

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

La gráfica 4.5.3. evidencia que la serie diferenciada muestra seguir un proceso estocástico sin deriva ni

componente estacional. Además, su función de autocorrelación muestra como la autocorrelación con los

rezagos deja de ser significativa (gráfica 4.5.4). La prueba de raíz unitaria de Dickey-Fuller indica que

la serie diferenciada sigue un proceso estocástico estacionario (tabla 4.1.). Posteriormente, se analiza la

función de autocorrelación simple (gráfica 4.5.4) y parcial (gráfica 4.5.5) con el fin de identificar los

componentes autorregresivos y de media móvil presentes en la serie. El auto-correlograma simple indica

que la serie tiene un componente SAr (1), mientras el auto-correlograma parcial muestra un componente

SMa (1). Según lo anterior, se evaluaron 3 posibles modelos: SArima (0,2,0) (1,0,1,12), SArima (0,2,0)

(1,0,1,6) y SArima (0,2,0) (0,0,1,12). El modelo que tiene menor criterio AIC y BIC, fue el SArima

(0,2,0) (1,0,1,12). Finalmente, este modelo cumple con las condiciones de las raíces características y no

27
presenta autocorrelación residual, como se muestra en la gráfica 4.5.6. y 4.5.7, respectivamente. El ajuste

del pronóstico se muestra en la gráfica 4.5.8

Pronóstico muebles, artículos para el hogar y para la conservación ordinaria del hogar. Gráfica 4.5.8.

Muebles y artículos para el hogar

100
90
IPC
80
70

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Muebles y artículos para el hogar Pronóstico

4.6. Salud

En la gráfica 4.6.1 se evidencia como la serie tiene tendencia y no sigue un proceso estacionario.

Además, la autocorrelación simple (gráfica 4.6.2) decae lentamente dentro de las bandas de contingencia,

por lo cual no sigue un proceso estacionario. Esta serie aparte de tendencia parece tener estacionalidad

cada 12 periodos. Según lo anterior, la serie no muestra ser estacionaria hasta aplicar dos diferencias

estacionarias. Por lo tanto, la diferencia realizada a la serie sigue la forma: 𝛥2 𝐼𝑃𝐶𝑡+1 = 𝛥𝐼𝑃𝐶𝑡+1 −

𝛥𝐼𝑃𝐶𝑡 . Esto ocurre ya que la diferenciación estacional no logra eliminar el componente estacional.

28
Salud. Gráfica 4.6.1.

Salud

100
90
IPC
80
70
60

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Aunque la nueva serie con la doble diferencia aplicada presenta un comportamiento no atribuible a algún

proceso estocástico según su auto-correlograma (gráfica 4.6.4), esta sí parece tener un comportamiento

estacionario (gráfica 4.6.3). La prueba de raíz unitaria de Dickey Fuller arroja, con una significancia del

5%, que la serie con doble diferencia sigue un proceso estocástico estacionario (tabla 4.1.).

Posteriormente, la función de autocorrelación simple (gráfica 4.6.4) indica componentes Ma (1), Ma (3)

Y SMa (1), mientras el auto-correlograma parcial (gráfica 4.6.5.) indica componentes Ar (1), Ar (2) y

SAr (1). Consecuente a los componentes identificados, se plantearon 3 modelos: SArima (1,2,1)

(1,0,1,12), SArima (1,2,3) (1,0,1,12) y SArima (2,2,3) (1,0,1,12). El modelo SArima (1,2,1) (1,0,1,12)

es el modelo con menores criterios AIC y BIC, y cumple con la condición de raíz característica y

autocorrelación, gráfica 4.6.6. y gráfica 4.6.7, respectivamente. El pronóstico de la serie “Salud” se

evidencia en la gráfica 4.6.8.

29
Salud. Gráfica 4.6.8.
Salud

100
90
IPC
80
70
60

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Salud Pronóstico

4.7. Transporte

Esta serie presenta tendencia y los índices de correlación de sus primeros rezagos son

significativos (gráfica 4.7.2) , por lo tanto, es necesario diferenciar la serie. Al realizar una diferencia, la

serie no es estacionaria, por lo tanto, se agrega otra diferencia de tal manera que la diferencia aplicada

siga la forma: 𝛥2 𝐼𝑃𝐶𝑡+1 = 𝛥𝐼𝑃𝐶𝑡+1 − 𝛥𝐼𝑃𝐶𝑡

Transporte. Gráfica 4.7.1.

Transporte
110
100
IPC
90
80
70

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

La serie con dos diferencias aplicadas muestra seguir un proceso estocástico no estacionario (gráfica

4.7.3) y su autocorrelación entra en las bandas de contingencia después del primer rezago (gráfica 4.7.4).

30
La prueba de raíz unitaria de Dickey-Fuller indica que la serie sigue un proceso estocástico estacionario.

La función de autocorrelación simple (gráfica 4.7.4) indica que existen componentes Ma (1) y SMa (1),

mientras la función de autocorrelación parcial (gráfica 4.7.5) indica existencia de componentes Ar (1),

Ar (2) y Ar (4). Consecuente a los componentes planteados, se evaluaron 3 modelos: SArima (1,2,1)

(0,0,1,12), SArima (2,2,1) (0,0,1,12) y SArima (4,2,1) (0,0,1,12). El modelo SArima (2,2,1) (0,0,1,12)

presentó menor criterio AIC y BIC, por lo tanto, es el modelo que pronosticará la división de gasto

“Transporte”. Este modelo cumple con las condiciones necesarias de raíces características (gráfica 4.7.6)

y de autocorrelación residual (gráfica 4.7.7.).

Pronóstico Transporte. Gráfica 4.7.8.

Transporte
110
100
IPC
90
80
70

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Transporte Pronóstico

4.8. Información y comunicación

El grupo de “Información y comunicación” se caracteriza por tener tendencia y volatilidad

marcada (gráfica 4.8.1). Además, el comportamiento del auto-correlograma muestra que la serie no sigue

un proceso estocástico estacionario (gráfica 4.8.2). Por lo tanto, es necesario diferenciar la serie para que

logre tener un comportamiento aproximado a uno estacionario. La diferencia aplicada es una diferencia

estacionaria y una diferencia estacional, de tal manera que la diferenciación sigue la forma: 𝛥2 𝐼𝑃𝐶𝑡 =

𝛥𝐼𝑃𝐶𝑡 − 𝛥𝐼𝑃𝐶𝑡−12.
31
Información y comunicación. Gráfica 4.8.1.

Información y comunicación

100
95
90
IPC
85
80
75

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Una vez la serie está diferenciada, esta indica tener un comportamiento estacional como muestra la

gráfica 4.8.3. Además, el auto-correlograma (gráfica 4.8.4) muestra que después del rezago 2 la

autocorrelación es cero. La prueba de raíz unitaria de Dickey Fuller indica que la serie se comporta como

un proceso estocástico estacionario (tabla 4.1.). Finalmente, para identificar los componentes

autorregresivos y de media móvil, se analizan los auto-correlograma simple (gráfica 4.8.4) y parcial

(gráfica 4.8.5). La función de autocorrelación simple muestra un componente Ma (2), mientras la función

de autocorrelación parcial indica componente SAr (1). Los auto-correlograma de los errores de cada

modelo también indican más componentes que tendrán en consideración. Según lo anterior, se plantearon

dos modelos: SArima (0,1,2) (0,1,0,12) y SArima (0,1,2) (1,1,0,12). El modelo seleccionado fue SArima

(0,1,2) (1,1,0,12) según los criterios BIC y AIC. Este modelo presenta raíces características menores a 1

y no presenta autocorrelación residual, como se muestra en la gráfica 4.8.6. y 4.8.7. El ajuste del

pronóstico se muestra en la gráfica 4.8.8

32
Pronóstico Información y comunicación. Gráfica 4.8.8.

Información y comunicación

100
90
IPC
80
70

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Información y comunicación Pronóstico

4.9. Recreación y cultura

El grupo de “Recreación y cultura” presenta alta volatilidad y una tendencia marcada (gráfica

4.9.1). La autocorrelación simple (gráfica 4.9.2) decrece lentamente dentro de las bandas de

contingencia, por lo tanto, se evidencia que la serie no es estacionaria. En aras de poder generar una serie

estacionaria, se diferencia la serie de manera estacionaria y de manera estacional; de esta manera la

diferenciación empleada sigue la forma: 𝛥2 𝐼𝑃𝐶𝑡 = 𝛥𝐼𝑃𝐶𝑡 − 𝛥𝐼𝑃𝐶𝑡−12 . Dicha diferencia estacional, se

hace debido a que se quiere eliminar el componente estacional.

Recreación y cultura. Gráfica 4.9.1.

Recreación y cultura
100
95
IPC
90
85
80

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

33
La serie diferenciada muestra indicios de seguir un proceso estacionario ya que no presenta ni tendencia

ni estacionalidad marcada (gráfica 4.9.3). Además, gran cantidad de los índices de autocorrelación no

son significativos, como se muestra en la gráfica 4.9.4. La prueba de raíz unitaria de Dickey Fuller

evidencia que la serie diferenciada sigue un proceso estocástico estacionario, bajo 5% de significancia

(tabla 4.1.). La función de autocorrelación simple (gráfica 4.9.4) indica que la serie tiene componente

Ma (2), Ma (4) y SMa (1), mientras la función de autocorrelación parcial (gráfica 4.9.5) muestra

componentes Ar (2) y SAr (1). Según los componentes encontrados anteriormente, se plantean 3

modelos: SArima (0,1,2) (1,1,0,12), SArima (0,1,4) (1,1,0,12) y SArima (1,1,4) (1,1,0). El modelo

SArima (1,1,4) (1,1,0) fue el que mejor desempeño tuvo según los criterios AIC y BIC. Este modelo

presenta raíces características menores a 1 y no presenta autocorrelación residual, como se muestra en la

gráfica 4.9.6. y 4.9.7. El ajuste del pronóstico se muestra en la gráfica 4.9.8

Pronóstico recreación y cultura. Gráfica 4.9.8.

Recreación y cultura
100
95
IPC
90
85
80

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Recreación y cultura Pronóstico

4.10. Educación

La división de gasto “Educación” es el más particular de los 12 grupos. Como se ve en la gráfica

4.10.1. y el auto-correlograma (gráfica 4.10.2) esta serie tiene un claro componente estacional y con

tendencia. En aras de aprovechar las características de la serie, aparte del pronóstico mediante Arima, se

34
realizará un pronóstico mediante Holt-Winters Multiplicativo11. Posteriormente, se elegirá el modelo

cuyos pronósticos desde enero de 2016 a agosto de 2019 minimicen el MAPE12.

Pronóstico Educación. Gráfica 4.10.1.

Educación

110
100
90
IPC
80
70
60

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

El pronóstico mediante Holt-Winters Triple fue calculado mediante Stata, el cual presenta un MAPE de

0.196%. La gráfica 4.10.3. muestra el pronóstico mediante esta metodología determinística.

Pronóstico Holt-Winters Educación. Gráfica 4.10.3.

Educación
110
100
90
Pronóstico

80
70
60

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Educación Pronóstico Holt Winters

11
El método de Holt-Winters Multiplicativo es una metodología determinística que consiste en identificar las etapas
estacionales de una serie, así como cada cuanto se repite esta etapa y el número de etapas presentar en la muestra. Es por
esto, que permite pronosticar series de tiempo con un componente estacional claro.
12
Por sus siglas en inglés: Mean Absolute Percentage Error
35
En cuanto al pronóstico por Arima, es necesario diferenciar la serie dos veces de forma estacionaria más

una diferencia estacional, con el fin de eliminar la tendencia y el componente estacional tan marcado. De

esta manera, la diferenciación sigue la forma: 𝛥3 𝐼𝑃𝐶𝑡 = 𝛥2 𝐼𝑃𝐶𝑡 − 𝛥2 𝐼𝑃𝐶𝑡−12 . Posteriormente, la serie

diferenciada (gráfica 4.10.4) muestra que esta sigue un proceso estacionario y su autocorrelación simple

(gráfica 4.10.5) no es significativa en la mayoría de los rezagos. Además, la prueba de raíz unitaria de

Dickey Fuller verifica que la serie sigue un proceso estocástico estacionario (tabla 4.1.). Finalmente, se

procede a identificar los componentes Ma y Ar presentes en la función de autocorrelación simple (gráfica

4.10.5) y parcial (gráfica 4.10.6). El auto-correlograma simple muestra componentes Ma (1) y SMa (1),

mientras el auto-correlograma parcial indica Ar (1), Ar (2) Y SAr (1). Según los componentes hallados

anteriormente, se evaluaron los modelos: SArima (0,2,0) (1,1,1,12), SArima (1,2,0) (1,1,1,12) y SArima

(3,2,0) (1,1,1,12). Según los criterios AIC y BIC, el modelo SArima (3,2,0) (1 ,1,1 ,12) fue el elegido

para pronosticar este grupo. Este modelo presenta raíces características menores a 1 y no presenta

autocorrelación residual, como se muestra en la gráfica 4.10.7. y 4.10.8. El ajuste del pronóstico se

muestra en la gráfica 4.10.9. El MAPE del pronóstico mediante la metodología Arima es de 0.18%, por

lo tanto, la metodología Arima pronostica mejor este grupo que la metodología Holt-Winters

Multiplicativo.

Pronóstico ARIMA Educación. Gráfica 4.10.9.

Educación
110
100
90
IPC
80
70
60

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Educación Pronóstico

36
4.11. Restaurantes y hoteles

La división de gasto “Restaurantes y hoteles” presenta, al igual que todos los grupos, una marcada

tendencia (gráfica 4.11.1) y autocorrelación (gráfica 4.11.2). Es por esto, que es necesario diferenciar la

serie con el fin de poder lograr una serie que se asimile a un proceso estacionario. Esta serie se diferenció

con una diferencia estacionaria y otra estacional, por lo que la diferenciación sigue la forma: 𝛥2 𝐼𝑃𝐶𝑡 =

𝛥𝐼𝑃𝐶𝑡 − 𝛥𝐼𝑃𝐶𝑡−12. Este tipo de diferencia se realizó con el fin de eliminar el componente estacional y

de tendencia. Una vez diferenciada la serie, esta presenta comportamiento similar a un proceso

estacionario(gráfica 4.11.3) y se soluciona el problema de autocorrelación para una gran cantidad de

rezagos (gráfica 4.11.4). La prueba de raíz unitaria de Dickey Fuller confirma que la serie sigue proceso

estacionario (tabla 4.1) La función de autocorrelación simple (gráfica 4.11.4) da indicios de tener

componentes Ma (1), Ma (3) y SMa (1), mientras los componentes Ar (1), Ar (4) Y SAr (1) están

presentes por la forma del auto-correlograma parcial (gráfica 4.11.5).

Restaurantes y hoteles. Gráfica 4.11.1.


Restaurantes y hoteles
100
90
IPC
80
70
60

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Según estos componentes, se especificaron 3 modelos: SArima (1,1,1) (1,1,0,12), SArima (1,1,3)

(1,1,0,12) y SArima (0,1,1) (1,1,0). El mejor modelo según los criterios de AIC y BIC fue el SArima

(1,1,1) (1,1,0,12) el cual cumple con las condiciones de raíz característica (gráfica 4.11.6) y no

autocorrelación residual (gráfica 4.11.7). El ajuste del pronóstico se muestra en la gráfica 4.11.8.

37
Pronóstico restaurantes y hoteles. Gráfica 4.11.8.

Restaurantes y hoteles

100
90
IPC

80
70
60

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Restaurantes Y Hoteles Pronóstico

4.12. Bienes y servicios diversos

Finalmente, en la división de “Bienes y servicios diversos”, hay tendencia en la serie (gráfica 4.12.1)

y autocorrelación en sus primeros rezagos (gráfica 4.12.2), por lo cual, se deduce que no es una serie

estacionaria. Consecuentemente, es necesario diferencia la serie para poder lograr una serie que siga un

proceso estocástico estacionario. La diferencia aplicada para conseguir estas características en la serie

sigue la forma: 𝛥2 𝐼𝑃𝐶𝑡 = 𝛥𝐼𝑃𝐶𝑡 − 𝛥𝐼𝑃𝐶𝑡−1 .

Bienes y servicios diversos. Gráfica 4.12.1.


Bienes y servicios diversos
100
90
IPC
80
70

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Una vez la serie esta diferenciada, esta indica seguir un proceso estacionario (gráfica 4.12.3) y su

autocorrelación no es significativa a excepción de los rezagos estacionales (cada 12 meses) (gráfica


38
4.12.4). Además, la prueba de Dickey Fuller confirma su estacionariedad, bajo 5% significancia. Esta

serie muestra principalmente componentes SMa (1) y SAr (1) debido a los picos presentes en la función

de autocorrelación simple (gráfica 4.12.4) y parcial (gráfica 4.12.5). Según lo anterior, se postularon 3

modelos: SArima (0,2,0) (1,0,1,12), SArima (0,2,1) (1,0,1,12) y SArima (1,2,1) (1,0,1,12). El modelo

SArima (1,2,1) (1,0,1,12) presento los criterios AIC y BIC entre los 3 modelos. Además, este cumple

con las condiciones de raíz característica (gráfica 4.12.6) y no autocorrelación residual (gráfica 4.12.7).

El ajuste del pronóstico se muestra en la gráfica 4.12.8.

Pronóstico bienes y servicios diversos. Gráfica 4.12.8.

Bienes y servicios diversos


100
90
IPC
80
70

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Bienes y servicios diversos Pronóstico

5. Pronóstico a través de Random Forest

La creación y posterior avance de los métodos de Machine Learning han generado gran interés en

distintas áreas del conocimiento, siendo la economía una de estas. Es así como la metodología de Random

Forest ha tenido gran acogida dentro del pronóstico de series de tiempo, y a su vez las variables

macroeconómicas. El modelo de Random Forest (RF) consiste en arboles de decisión o arboles

predictores donde cada árbol depende de los valores de un vector aleatorio independiente, creando así

arboles con nodos internos y nodos terminales (Breiman, 2001).

39
La creación de los árboles de decisión consiste en varios pasos. La primera etapa consiste en la división

óptima de la muestra en dos submuestras según una regla de criterio definida así: 𝑋1 (𝑖, 𝑝) =

{𝑥|𝑥𝑖 ≤ 𝑝} 𝑋2 (𝑖, 𝑝) = {𝑥|𝑥𝑖 > 𝑝}, este paso sigue repitiéndose para cada submuestra generada. La

división en submuestras se detiene hasta que el algoritmo cumpla con una condición de pare.

Posteriormente, se crean N nodos terminales, los cuales corresponden a cada una de las submuestras. Si

el problema de análisis de regresión se corrige, cada nodo es asignado a un promedio de cada una de las

submuestras. El árbol resultante consiste en un grafo de diferentes nodos internos que, cada uno tiene un

predictor limite que parte la muestra en dos subgrupos, y nodos externos los cuales contienen las

predicciones de la variable explicativa. En resumen, en cada una de las etapas del Random Forest, el

algoritmo busca minimizar la suma ponderada de la varianza entre cada uno de los dos subgrupos creados

a partir de la división anterior.

Debido a las características que tienen los modelos de Random Forest, es necesario pronosticar la

inflación colombiana como la variación mensual del IPC; es decir, sobre la inflación mensual. Esto se

debe a que la inflación mensual presenta un comportamiento sin tendencia y aparentemente estacionario,

mientras, la serie original del IPC presenta una clara tendencia lo que dificultaría el pronóstico mediante

el modelo de Random Forest. En un modelo RF, existen hiperparámetros13 los cuales serán necesarios

definir para lograr una correcta especificación del modelo. Consecuentemente, se definirán el número de

árboles a utilizar, división de la muestra (entrenamiento, validación y prueba), observaciones mínimas

en nodos terminales (tamaño del nodo) y cuantas variables se deben tener en cuenta en la división del

nodo (Orellana, 2018). El software empleado en los procedimientos de cálculo fue R mediante la librería

H2O.

13
Los hiperparámetros de uno Random Forest son aquellos parámetros que el modelo no puede aprender y es necesario
que el investigador defina en base al conocimiento y naturaleza de la muestra.
40
Primero, es necesario definir los intervalos donde el modelo aprenderá de la serie (entrenamiento) y

posteriormente evaluará lo aprendido (prueba). En la literatura se manejan valores alrededor de 70%-

80% y 20%-30% para definir los intervalos de entrenamiento y prueba, respectivamente. Teniendo en

cuenta que la serie cuenta con datos desde 2009, el modelo RF aprenderá de la serie con los datos de

enero de 2009 a octubre de 2017, y evaluará lo aprendido con los datos de noviembre de 2017 hasta

octubre de 2019.

Dentro del grupo de datos de entrenamiento existen dos divisiones: entrenamiento y validación. En la

fase de entrenamiento, el RF buscará ajustarse al modelo, mientras en la fase de validación el RF ajusta

los parámetros del modelo para obtener un pronóstico insesgado. De tal manera, la muestra de datos

queda como se ilustra en la gráfica 5.1. (Shah, 2017). Actualmente, existen varias metodologías para

elegir como se debe porcionar la fase de entrenamiento. La metodología de validación cruzada con k

iteraciones ha ganado aceptación en los años recientes ya que permite definir las fases de entrenamiento

y validación; además de la ventaja de crear un modelo no sobre especificado. Esta metodología consiste

en tomar toda la muestra, excepto la fase de prueba, y dividirla en k partes iguales, para así tomar una

parte como fase de validación y k-1 partes como fase de entrenamiento. Este proceso se repite k veces

con el fin que cada una de las divisiones sea la fase de entrenamiento una vez. Finalmente, se toman los

resultados de cada una de las iteraciones y se promedian (gráfica 5.2). Bajo esta metodología no se ha

definido un valor óptimo para k, sin embargo, los modelos de RF recientes utilizan un k igual a 5 o 10.

El parámetro debe generar conjuntos de la muestra que sean significativos, ya que sobre cada uno de

estos entrenará el modelo (Brownlee, 2018). Por lo tanto, se define el valor de k como 5, con el fin de

tener más datos en la fase de entrenamiento de cada iteración.

41
División de la muestra. Gráfica 5.1.

Entrenamiento Validación Prueba

En cuanto al tamaño de los nodos, este valor normalmente se define a 1 debido a sugerencias de (Breiman,

2001) sobre el desempeño de este hiperparámetro con este valor. El número de variables para tener en

cuenta en cada nodo varían dependiendo si el tipo de modelo es de clasificación o regresión. Debido a

que este es un modelo de tipo regresión, es recomendado tomar un valor de P/3, donde P es el número

de variables en x.

Validación cruzada con k iteraciones. Gráfica 5.2.

Tomado de: Stack Exchange: Cross Validated.


https://stats.stackexchange.com/questions/1826/cross-validation-in-plain-english
Consultado el 18 de octubre de 2019

Según lo anterior, se realizó un modelo de RF con 5 pliegues junto a 500 árboles realizados el cual parará

cuando después de 10 rondas no se mejore el error cuadrático medio o cuando este llegue 0.0001. El

modelo resultante tiene las características encontradas en la tabla 5.1. Además, en la gráfica 5.3. se

42
evidencia la evolución del error cuadrático medio (RMSE) a medida que aumenta los árboles del RF. El

error cuadrático medio del modelo después de realizar los 54 árboles es de 0.002243.

Evolución RMSE Random Forest. Gráfica 5.3.

Finalmente, el modelo arroja las variables que se consideran importantes para el pronóstico de la

inflación. Dicha importancia se calcula a partir de como aumenta el RMSE del modelo cuando dicha

variable no es incluida. Posteriormente, se normaliza con la desviación estándar, con el fin de dar un

rango de importancia. En la gráfica 5.4 se puede observar la importancia de las variables en el modelo.

Las más importantes son el componente mensual y el rezago 12 de la inflación mensual. La fecha hace

referencia a la ubicación del dato en toda la muestra de datos.

Importancia de las variables.


Gráfica 5.4.

Una vez finalizado el modelo, este pronosticó la inflación mensual para el periodo de noviembre de 2017

a octubre de 2019. Dicho pronóstico (gráfica 5.5.) para el periodo de análisis registró un MAPE de

32.34%. Este resultado se analizará a continuación en la comparación tanto del modelo Arima y RF.
43
Ajuste Pronóstico Random Forest. Gráfica 5.5.

6. Resultados

Una vez realizados los modelos Arima y Random Forest, se procede a evaluar el pronóstico para el

plazo determinado el cual comprende desde octubre de 2017 a noviembre de 2019. Primero, una vez se

han pronosticado las 12 divisiones de gasto, es necesario ponderar dichos pronósticos para conformar el

IPC total. Los pronósticos realizados para el periodo de octubre de 2017 a diciembre de 2018 fueron

ponderados según los pesos especificados por el DANE con la serie de empalme (2009-2018), tal y como

se aclaró en la sección 3- tabla 3.1. Para los pronósticos desde enero de 2019, se ponderaron las divisiones

de gasto según los pesos de la canasta vigente para este año en adelante. El ajuste de este pronóstico

sobre el IPC total se observa en la gráfica 6.1. Sin embargo, para poder comparar el pronóstico Arima

con el del modelo RF, se evaluará el ajuste de cada uno sobre la inflación mensual.

44
Ajuste Pronóstico Random Forest. Gráfica 6.1.

A partir del pronóstico desagregado del IPC, es posible calcular la inflación mensual mediante la

variación porcentual respecto al dato anterior. Una vez calculada la inflación mensual desde noviembre

de 2017 a octubre de 2017, tanto para Arima como RF, se procede a comparar el pronóstico de ambos

modelos. En la tabla 6.1. y gráfica 6.2 se ve el ajuste de los modelos respecto a la serie de inflación

mensual.

Comparación inflación mensual. Gráfica 6.2.

45
En aras de comparar los pronósticos para cada una de las metodologías es necesario fijar una o varias

medidas de comparación que sean fiables al momento de elegir el mejor modelo. Sin embargo, debido a

que se están comparando dos metodologías totalmente distintas, no es posible fijar una medida de ajuste.

Primero, se podría utilizar los criterios AIC y BIC del modelo Arima, sin embargo, el modelo RF no

presenta ninguna medida de error similar, por lo tanto, se utilizarán los coeficientes de erros más comunes

en la literatura.

Como medida de comparación de las series de pronóstico generadas mediante Random Forest y Arima,

se usaron las medidas MAPE, MAE14 y RMSE15. En la tabla 6.2. se observan los valores para cada tipo

de error en cada uno de los modelos. El pronóstico realizado por la metodología de Random Forest fue

la que obtuvo menor error para todas las medidas. Por lo tanto, según las medidas de error escogidas, el

pronóstico a un mes de la inflación mensual colombiana mediante la metodología de Random Forest,

logra mejorar el pronóstico de Arima.

Medidas de error. Tabla 6.2.

MAPE MAE RMSE


Arima 43.0% 33.9% 42.7%
Random Forest 32.3% 31.1% 35.0%

7. Conclusiones

El pronóstico de la inflación ha llamado cada vez más la atención tanto de las áreas académicas como de

otras, tales como las económico financieras, encargada de la toma de decisiones estratégicas sectoriales

y gubernamentales. Es por esto que se han aplicado distintas metodologías de pronóstico en la inflación,

desde modelos econométricos a Inteligencia Artificial. Mediante dos aproximaciones, este artículo

14
MAE: Mean Absolute Error por sus siglas en inglés
15
RMSE: Root Mean Squared Error por sus siglas en inglés
46
elaboró el pronóstico un paso hacia delante de la inflación mensual colombiana. Primero, se realizó un

modelo Arima desagregado el cual consistía en pronostica el IPC para las 12 divisiones de gasto de la

canasta vigente de 2019 a 2028. Segundo, mediante la metodología de Random Forest se pronosticó la

inflación mensual un paso hacia adelante. Estas aproximaciones permitieron dar respuesta a la pregunta

de investigación inicialmente planteada: ¿El pronóstico a un mes de la inflación mensual colombiana

mediante Machine Learning logra mejorar el pronóstico de un modelo Arima desagregado?

Para seleccionar el mejor modelo, se utilizaron 3 medidas de error: MAPE, MAE y RMSE. Según estos

criterios el modelo RF es mejor para pronosticar a un mes la inflación mensual colombiana que el modelo

Arima desagregado. Para todos los criterios de error, el RF tuvo mejor desempeño que el modelo Arima.

Sin embargo los modelos RF tienen limitantes. Primero, son considerados algoritmos de tipo caja negra,

es decir, la interpretación del proceso interno del modelo es difícil de hacer. Segundo, en algunos

conjuntos de datos el RF puede sobre ajustar el comportamiento de los datos. Finalmente, estos

algoritmos pueden llegar a ser costosos computacionalmente cuando se están trabajando grandes bases

de datos.

Adicionalmente a lo mencionado, es necesario considerar ciertas características que pueden generar

dificultades al momento del ajuste del pronóstico. Primero, aunque el Random Forest mejoró el modelo

Arima, es necesario aprovechar las ventajas del RF e investigar que variables se pueden incluir con el fin

de mejorar el modelo. Segundo, es necesario tener en cuenta que, para el plazo pronosticado, el Banco

de La República solo cambió la tasa de intervención de política monetaría al principio de dicho periodo.

Entre el octubre de 2017 y abril de 2018, la entidad cambió la tasa de interés 4 veces. Por lo tanto, estas

decisiones pueden tener efecto sobre el ajuste del pronóstico de la inflación, incluso podría afectarlo

dependiendo si la política monetaría es expansiva o contractiva. Finalmente, los métodos de Machine

47
Learning han ido ganando terreno en la aplicación de variables macroeconómicas, por lo tanto, es

importante seguir identificando las ventajas y desventajas en el uso de estos métodos en este tipo de

series. Además, cabe resaltar que la principal contribución del presente artículo es adaptar el uso de RF

a la inflación colombiana. En la literatura colombiana, no hay registros del uso de modelos de RF, por lo

tanto, este podría ser el primer artículo que aproveche las ventajas de este modelo en la economía

colombiana. Aunque no haya registros de aplicaciones de RF en la inflación colombiana, puede que

existan estudios no publicados por entidades privadas que incluyan RF en sus estudios.

48
8. Referencias

Alonso, J. C., & Rivera, A. F. (Junio de 2017). Pronosticando la inflación mensual en Colombia un paso hacia
delante: una aproximación "de abajo hacia arriba". Cali, Valle del Cauca, Colombia.

Aristizabal, M. (2006). Evaluación asimétrica de una red neuronal artificial: Aplicación al caso de la inflación en
Colombia. 2006: Banco de la República.

Arora, A. (28 de Diciembre de 2018). Medium. Obtenido de Why Random Forests can´t predict trends and how
to over come this problem?: https://medium.com/datadriveninvestor/why-wont-time-series-data-and-
random-forests-work-very-well-together-3c9f7b271631

Banco de la Repúbica. (2004). Sectorización Monetaria y Económica. Bogotá D.C.: Banco de la República.

Banco de la República. (12 de Mayo de 2008). El Esquema de Inflación. Bogotá D.C., Bogotá D.C., Colombia.

Baybuza, I. (Diciembre de 2018). Inflation Forecasting Using Machine Learning Methods. Russian Journal Of
Money And Finance, 42-59. doi:10.31477/rjmf.201804.42

Bejarano, J. A. (2002). El Canal de Oferta Agregada en un Modelo de Mecanismos de Transmisión de la Política


Monetaria en Colombia. Bogotá D.C.: Banco de la República.

Breiman, L. (2001). Random Forests. Kluwer Academic Publishers, 5-32.

Brownlee, J. (23 de Mayo de 2018). Machine Learning Mastery. Obtenido de A Gentle Introduction to k-fold
Cross-Validation: https://machinelearningmastery.com/k-fold-cross-validation/

Camaro, Á. A., Jiménez, E., Santana, J. C., & Casas, A. (18 de Julio de 2006). Estudio empírico sobre la capacidad
predictiva de las redes neuronales en el pronóstico de la inflación colombiana: una metodología
alternativa. Bogotá D.C., Bogotá D.C., Colombia.

Echavarría, J., López, E., & Misas, M. (2010). La Persistencia Estadística de la Inflación en Colombia. Bogotá D.C.:
Borradores de Economía-Banco de La República.

Fraj, M. (21 de Diciembre de 2017). In Depth: Parameter tuning for Random Forest. Obtenido de
https://medium.com/all-things-ai/in-depth-parameter-tuning-for-random-forest-d67bb7e920d

González, A., Mahadeva, L., Prada, J., & Rodríguez, D. (2011). Policy Analysis Tool Applied to Colombian Needs:
PATACON. Bogotá: Borradores de Economía-Banco de la República.

Hendry, D., & Michael, C. (Septiembre de 2001). Pooling of Forecasts. Oxford, Inglaterra.

Learning, M. (s.f.). Machine Learning. Obtenido de Practical Tutorial on Random Forest and Parameter Tuning
in R: https://www.hackerearth.com/practice/machine-learning/machine-learning-algorithms/tutorial-
random-forest-parameter-tuning-r/tutorial/

Medeiros, M., Vasconcelos, G., Veiga, Á., & Zilberman, E. (3 de Octubre de 2017). Norges Bank. Obtenido de
Forecasting Inflation in a Data-Rich Environment: The Benefits of Machine Learning Methods:
https://www.norges-
bank.no/contentassets/f2cc0752a45b4a5f8fe7eead30c0a49e/medeiros_slides.pdf

Meyer, B., & Pasaogullari, M. (2010). Simple Ways to Forecast Inflation: What works best? Cleveland: Federal
Reserve Bank of Cleveland.
49
Misas, M., López, E., & Borrero, P. Q. (Diciembre de 2002). La inflación en Colombia: una aproximación desde
las redes neuronales. Ensayos sobre política económica, 143-214. Obtenido de La inflación en
Colombia: Una aproximación desde las redes neuronales.

Orellana, J. (2018 de Noviembre de 2018). Arboles de decision y Random Forest. Obtenido de 5 Ensambladores:
Random Forest - Parte I: https://bookdown.org/content/2031/

Rodríguez N., N., & Siado C., P. (2003). UN PRONÓSTICO NO PARAMÉTRICO DE LA INFLACIÓN COLOMBIANA.
Bogotá.

Shah, T. (6 de Diciembre de 2017). Towards Data Science. Obtenido de About Train, Validation and Test Sets in
Machine Learning: https://towardsdatascience.com/train-validation-and-test-sets-72cb40cba9e7

StatBureau. (26 de Enero de 2019). StatBureau. Obtenido de Inflación:


https://www.statbureau.org/es/japan/inflation

Theil, H. (Septiembre de 1955). Linear Agreggation of Economic Relations. Nueva York, Nueva York, Estados
Unidos.

Vega, J. L. (1990). Test de raíces unitarias: Aplicación a series de la economía española y al análisis de la
velocidad de la circulación del dinero (1964-1990). Madrid: Banco de España.

50
9. Anexos

Composición del IPC por ciudad y nivel de ingreso. Figura 2.1.1

Fuente: Alonso, J. C., & Rivera, A. F. (Junio de 2017). Pronosticando la inflación mensual en
Colombia un paso hacia delante: una aproximación "de abajo hacia arriba". Cali,
Valle del Cauca, Colombia.

Esquema del IPC nacional. Figura 2.1.2

Fuente: Alonso, J. C., & Rivera, A. F. (Junio de 2017). Pronosticando la inflación mensual en Colombia un paso
hacia delante: una aproximación "de abajo hacia arriba". Cali, Valle del Cauca, Colombia.

Prueba Dickey-Fuller modelos ARIMA. Tabla 4.1.


Grupo Dif. estacionaria Dif. estacional Rezagos incluidos P-valor
Alimentos y bebidas no alcohólicas 1 0 0 0
Bebidas alcohólicas y tabaco 1 1 12 0.0345
Prendas de vestir y calzado 2 0 11 0.0053
Alojamiento, agua, electricidad, gas y otro combustibles 1 1 11 0.001
Muebles, artículos para el hogar 2 0 11 0.0007
Salud 2 0 11 0.0003
Transporte 2 0 10 0
Información y comunicación 1 1 13 0.0014
Recreación y cultura 1 1 11 0.0006
Educación 2 1 10 0
Restaurantes y hoteles 1 1 11 0,01149
Bienes y servicios diversos 2 0 11 0.039

51
Prueba Portmanteau modelos ARIMA. Tabla 4.2.
Grupo Modelo P-Valor
Alimentos y bebidas no alcohólicas (1,1,0) 0.1295
Bebidas alcohólicas y tabaco (1,1,1)(0,1,1,12) 0.9965
Prendas de vestir y calzado (0,2,1)(0,0,1,12) 0.5033
Alojamiento, agua, electricidad, gas y otro combustibles (1,1,0)(2,1,0) 0.3011
Muebles, artículos para el hogar (0,2,0)(1,0,1,12) 0.317
Salud (1,2,3)(1,0,1,12) 0.3452
Transporte (2,2,1)(0,0,1,12) 0.7061
Información y comunicación (0,1,2)(1,1,0,12) 0.3481
Recreación y cultura (0,1,2)(1,1,0,12) 0.1401
Educación (1,2,1)(1,0,1,12) 0.8839
Restaurantes y hoteles (1,1,1)(1,1,0,12) 0.2097
Bienes y servicios diversos (3,2,0)(1,1,1,12) 0.793

Autocorrelación simple: Alimentos y bebidas no alcohólicas. Gráfica 4.1.2

Autocorrelación simple
1.00
Alimentos y bebidas no alcohólicas

0.50
0.00
-0.50
-1.00

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Alimentos y bebidas no alcohólicas (Primera diferencia). Gráfica 4.1.3


Alimentos y bebidas no alcohólicas
4
2
IPC (Primera diferencia)

0
-2

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

52
Auto-correlograma simple: Alimentos y bebidas no alcohólicas (Primera diferencia). Gráfica 4.1.4

Autocorrelación simple

0.60
Alimentos y bebidas no alcohólicas

0.40
0.20
0.00
-0.20
-0.40

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Auto-correlograma parcial: Alimentos y bebidas no alcohólicas (Primera diferencia). Gráfica 4.1.5

Autocorrelación parcial
0.60
Alimentos y bebidas no alcohólicas

0.40
0.20
0.00
-0.20

0 10 20 30 40
Rezago
95% Confidence bands [se = 1/sqrt(n)]

Raíces características Arima (1,1,0): Alimentos y bebidas no alcohólicas Gráfica 4.1.6


Raíces características
1
.5
Imaginario

AR
0
-.5
-1

-1 -.5 0 .5 1
Real

53
Auto-correlograma residuales: Alimentos y bebidas no alcohólicas Gráfica 4.1.7.
Autocorrelación simple

0.20
0.10
Residuales

0.00
-0.10
-0.20

0 5 10 15 20
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Autocorrelación simple: Bebidas alcohólicas y tabaco Gráfica 4.2.2.


Autocorrelación simple
1.00
Bebidas alcohólicas y tabaco

0.50
0.00
-0.50
-1.00

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Bebidas alcohólicas y tabaco (Primera diferencia) Gráfica 4.2.3.


Bebidas alcólicas y tabaco
3
2
IPC (Primera diferencia)

1
0
-1

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

54
Autocorrelación simple: Bebidas alcohólicas y tabaco (Primera diferencia) Gráfica 4.2.4.
Autocorrelación simple

0.60
Bebidas alcohólicas y tabaco

0.40
0.20
0.00
-0.20
-0.40

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Bebidas alcohólicas y tabaco (Diferencia estacional) Gráfica 4.2.5.


Bebidas alcohólicas y tabaco
2
IPC (Diferencia estacional)

1
0
-1
-2

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Autocorrelación simple: Bebidas alcohólicas y tabaco (Diferencia estacional) Gráfica 4.2.6.


Autocorrelación simple
0.60
0.40
0.20
0.00
-0.20
-0.40

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

55
Autocorrelación parcial: Bebidas alcohólicas y tabaco (Diferencia estacional) Gráfica 4.2.7.
Autocorrelación parcial

0.60
0.40
Bebidas alcohólicas y tabaco

0.20
0.00
-0.20
-0.40

0 10 20 30 40
Rezago
95% Confidence bands [se = 1/sqrt(n)]

Raíces características SArima (1,1,1) (0,1,1,12): Bebidas alcohólicas y tabaco Gráfica 4.2.8
Raices características
1
.5
Imaginario

AR
0

MA
-.5
-1

-1 -.5 0 .5 1
Real

Auto-correlograma residuales: Bebidas alcohólicas y tabaco Gráfica 4.2.9.


Autocorrelación simple
0.20
0.10
Residuales

0.00
-0.10
-0.20

0 5 10 15 20 25
Rezago
Bartlett's formula for MA(q) 95% confidence bands

56
Autocorrelación simple: Prendas de vestir y calzado Gráfica 4.3.2.

Autocorrelación simple

1.00
Prendas de vestir y calzado

0.50
0.00
-0.50
-1.00

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Prendas de vestir y calzado (Primera diferencia) Gráfica 4.3.3.


Prendas de vestir y calzado
.6
.4
IPC (1 diferencia)

.2
0
-.2

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Autocorrelación simple: Prendas de vestir y calzado (Primera diferencia) Gráfica 4.3.4.


Autocorrelación simple
0.60
0.40
Prendas de vestir y calzado

0.20
0.00
-0.20
-0.40

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

57
Prendas de vestir y calzado (Segunda diferencia) Gráfica 4.3.5.
Prendas de vestir y calzado

.4
IPC (Segunda diferencia)

.2
0
-.2
-.4

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Autocorrelación simple: Prendas de vestir y calzado (Segunda diferencia) Gráfica 4.3.6.

Autocorrelación simple
0.40
Prendas de vestir y calzado

0.20
0.00
-0.20
-0.40

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Autocorrelación parcial: Prendas de vestir y calzado (Segunda diferencia) Gráfica 4.3.7.


Autocorrelación parcial
0.20
Prendas de vestir y calzado

0.00
-0.20
-0.40

0 10 20 30 40
Rezago
95% Confidence bands [se = 1/sqrt(n)]

58
Raíces características: Prendas de vestir y calzado Gráfica 4.3.8.

Raíces características

1
.5
Imaginario
MA

0
-.5
-1 -1 -.5 0 .5 1
Real

Auto-correlograma residual: Prendas de vestir y calzado Gráfica 4.3.9.

Autocorrelación simple
0.20
0.10
Residuales

0.00
-0.10
-0.20

0 5 10 15 20
Residuales
Bartlett's formula for MA(q) 95% confidence bands

Autocorrelación simple: Alojamiento, agua, electricidad, gas y otros combustibles Gráfica 4.4.2.

Autocorrelación simple
1.00
0.50
0.00
-0.50
-1.00

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

59
Alojamiento, agua, electricidad, gas y otros combustibles (Diferencia estacional) Gráfica 4.4.3.

Alojamiento, agua, electricidad, gas y otros combustibles

1
.5
IPC (Diferencia estacional)

0
-.5
-1

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Autocorrelación simple: Alojamiento, agua, electricidad, gas y otros combustibles (Diferencia


estacional) Gráfica 4.4.4.
Autocorrelación simple
0.40
0.20
0.00
-0.20
-0.40

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Autocorrelación parcial: Alojamiento, agua, electricidad, gas y otros combustibles (Diferencia


estacional) Gráfica 4.4.5.
Autocorrelación parcial
0.40
0.20
0.00
-0.20
-0.40

0 10 20 30 40
Rezago
95% Confidence bands [se = 1/sqrt(n)]

60
Raíces características: Alojamiento, agua, electricidad, gas y otros combustibles. Gráfica 4.4.6.
Raices características

1
.5
Imaginario

AR

0
-.5
-1

-1 -.5 0 .5 1
Real

Auto-correlograma residual: Alojamiento, agua, electricidad, gas y otros combustibles. Gráfica 4.4.7.

Autocorrelación simple
0.20
0.10
Residuales

0.00
-0.10
-0.20

0 5 10 15 20 25
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Autocorrelación simple: Muebles, artículos para el hogar y para la conservación ordinaria del hogar.
Gráfica 4.5.2.
Autocorrelación simple
1.00
Muebles y artículos para el hogar

0.50
0.00
-0.50
-1.00

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

61
Muebles, artículos para el hogar y para la conservación ordinaria del hogar (Segunda diferencia).
Gráfica 4.5.3.

Muebles y artículos para el hogar

1
IPC (Segunda diferencia)

.5
0
-.5

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Autocorrelación simple: Muebles, artículos para el hogar y para la conservación ordinaria del
hogar (Segunda diferencia). Gráfica 4.5.4.

Autocorrelación simple
0.40
Muebles y artículos para el hogar

0.20
0.00
-0.20
-0.40

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Autocorrelación parcial: Muebles, artículos para el hogar y para la conservación ordinaria del
hogar (Segunda diferencia). Gráfica 4.5.5.

Autocorrelación parcial
0.40
Mueble y artículos para el hogar

0.20
0.00
-0.20
-0.40

0 10 20 30 40
Rezago
95% Confidence bands [se = 1/sqrt(n)]

62
Raíces características: Muebles, artículos para el hogar y para la conservación ordinaria del hogar
(Segunda diferencia). Gráfica 4.5.6.
Raíces características

1
.5
Imaginario
AR

0
MA

-.5
-1

-1 -.5 0 .5 1
Real

Auto-correlograma residual: Muebles, artículos para el hogar y para la conservación ordinaria del
hogar. Gráfica 4.5.7.

Autocorrelación simple
0.20
0.10
Residuales

0.00
-0.10
-0.20

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Autocorrelación simple: Salud. Gráfica 4.6.2.

Autocorrelación simple
1.00
0.50
Salud

0.00
-0.50
-1.00

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

63
Salud (Segunda diferencia). Gráfica 4.6.3.
Salud

.6
.4
IPC (Segunda diferencia)

.2
0
-.2
-.4

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Autocorrelación simple: Salud (Segunda diferencia). Gráfica 4.6.4.

Autocorrelación simple
0.40
0.20
Salud

0.00
-0.20
-0.40

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Autocorrelación parcial: Salud (Segunda diferencia). Gráfica 4.6.5.

Autocorrelación parcial
0.40
0.20
Salud

0.00
-0.20
-0.40

0 10 20 30 40
Rezago
95% Confidence bands [se = 1/sqrt(n)]

64
Raíces características: Salud. Gráfica 4.6.6.
Raíces características

1
.5
Imaginario
AR

0
MA

-.5
-1

-1 -.5 0 .5 1
Real

Autocorrelación residual: Salud. Gráfica 4.6.7.

Salud
0.20
0.10
Residuales

0.00
-0.10
-0.20

0 5 10 15 20
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Autocorrelación simple: Transporte. Gráfica 4.7.2.


Autocorrelación simple
1.00
0.50
Transporte

0.00
-0.50
-1.00

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

65
Transporte (Segunda diferencia). Gráfica 4.7.3.
Transporte

1
.5
IPC (Segunda diferencia)

0
-.5
-1

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Autocorrelación simple: Transporte (Segunda diferencia). Gráfica 4.7.4.

Autocorrelación simple
0.20
0.10
Transporte

0.00
-0.10
-0.20
-0.30

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Autocorrelación parcial: Transporte (Segunda diferencia). Gráfica 4.7.5.

Autocorrelación parcial
0.20
0.00
Transporte

-0.20
-0.40

0 10 20 30 40
Rezago
95% Confidence bands [se = 1/sqrt(n)]

66
Raíces características: Transporte. Gráfica 4.7.6.

Raíces características

1
.5
Imaginario
AR

0
MA

-.5
-1

-1 -.5 0 .5 1
Real

Autocorrelación residual: Transporte. Gráfica 4.7.7.

Autocorrelación simple
0.20
0.10
Residuales

0.00
-0.10
-0.20

0 5 10 15 20
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Autocorrelación simple: Información y comunicación. Gráfica 4.8.2.


Autocorrelación simple
1.00
Información y comunicación

0.50
0.00
-0.50
-1.00

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

67
Información y comunicación (Diferencia estacional). Gráfica 4.8.3.

Información y comunicación

2
IPC (Diferencia estacional)

1
0
-1
-2

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Autocorrelación simple: Información y comunicación (Diferencia estacional).


Gráfica 4.8.4.
Autocorrelación simple
0.20
Información y comunicación

0.00
-0.20
-0.40
-0.60

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Autocorrelación parcial: Información y comunicación (Diferencia estacional).


Gráfica 4.8.5.
Autocorrelación parcial
0.20
Información y comunicación

0.00
-0.20
-0.40
-0.60

0 10 20 30 40
Rezago
95% Confidence bands [se = 1/sqrt(n)]

68
Raíces características: Información y comunicación. Gráfica 4.8.6.

Raíces características

1
.5
Imaginario
AR

0
MA

-.5
-1

-1 -.5 0 .5 1
Real

Autocorrelación residual: Información y comunicación. Gráfica 4.8.7.

Autocorrelación simple
0.20
0.10
Residuales

0.00
-0.10
-0.20

0 5 10 15 20
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Autocorrelación simple: Recreación y cultura. Gráfica 4.9.2.

Autocorrelación simple
1.00
0.50
Recreación y cultura

0.00
-0.50
-1.00

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

69
Recreación y cultura (Diferencia estacional). Gráfica 4.9.3.
Recreación y cultura

2
IPC (Diferencia estacional)

1
0
-1
-2
-3

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Autocorrelación simple: Recreación y cultura (Diferencia estacional).


Gráfica 4.9.4.
Autocorrelación simple
0.40
0.20
Recreación y cultura

0.00
-0.20
-0.40

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Autocorrelación parcial: Recreación y cultura (Diferencia estacional). Gráfica 4.9.5.


Autocorrelación parcial
0.40
0.20
Recreación y cultura

0.00
-0.20
-0.40

0 10 20 30 40
Rezago
95% Confidence bands [se = 1/sqrt(n)]

70
Raíces características: Recreación y cultura. Gráfica 4.9.6.
Raíces características

1
.5
Imaginario AR

0
MA

-.5
-1

-1 -.5 0 .5 1
Real

Autocorrelación residual: Recreación y cultura. Gráfica 4.9.7.


Autocorrelación simple
0.20
0.10
Residuales

0.00
-0.10
-0.20

0 5 10 15 20
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Autocorrelación simple: Educación. Gráfica 4.10.2.


Autocorrelación simple
1.00
0.50
Educación

0.00
-0.50
-1.00

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

71
Educación. (Triple diferencia) Gráfica 4.10.4.
Educación

2
1
0
-1
-2

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Autocorrelación simple: Educación. (Triple diferencia) Gráfica 4.10.5


Autocorrelación simple
0.40
0.20
Educación

0.00
-0.20
-0.40

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Autocorrelación parcial: Educación. (Triple diferencia) Gráfica 4.10.6

Autocorrelación parcial
0.60
0.40
0.20
Educación

0.00
-0.40 -0.20

0 10 20 30 40
Rezago
95% Confidence bands [se = 1/sqrt(n)]

72
Raíces características: Educación. Gráfica 4.10.7
Raíces características

1
.5
Imaginario AR

0
MA

-.5
-1

-1 -.5 0 .5 1
Real

Auto-correlograma residual: Educación. Gráfica 4.10.8

Autocorrelación simple
0.20
0.10
Residuales

0.00
-0.10
-0.20

0 5 10 15 20
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Autocorrelación simple: Restaurantes y hoteles. Gráfica 4.11.2

Autocorrelación simple
1.00
0.50
Restaurantes y hoteles

0.00
-0.50
-1.00

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

73
Restaurantes y hoteles (Diferencia estacional). Gráfica 4.11.3

Restaurantes y hoteles

1
.5
IPC (Diferencia estacional)

0
-.5
-1

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Autocorrelación simple: Restaurantes y hoteles (Diferencia estacional).


Gráfica 4.11.4
Autocorrelación simple
0.40
0.20
Restaurantes y hoteles

0.00
-0.20
-0.40

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Autocorrelación parcial: Restaurantes y hoteles (Diferencia estacional).


Gráfica 4.11.5
Autocorrelación parcial
0.40
0.20
Restaurantes y hoteles

0.00
-0.20
-0.40
-0.60

0 10 20 30 40
Rezago
95% Confidence bands [se = 1/sqrt(n)]

74
Raíces características: Restaurantes y hoteles. Gráfica 4.11.6
Raíces características

1
.5
Imaginario
AR

0
MA

-.5-1

-1 -.5 0 .5 1
Real

Auto-correlograma residual: Restaurantes y hoteles. Gráfica 4.11.6

Restaurantes y hoteles
0.20
0.10
Residuales

0.00
-0.10
-0.20

0 5 10 15 20
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Autocorrelación simple: Bienes y servicios diversos. Gráfica 4.12.2


Autocorrelación simple
1.00
Bienes y servicios diversos

0.50
0.00
-0.50
-1.00

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

75
Bienes y servicios diversos (Segunda diferencia). Gráfica 4.12.3

Bienes y servicios diversos

1
IPC (Segunda diferencia)

.5
0
-.5

2008m1 2010m1 2012m1 2014m1 2016m1 2018m1 2020m1


Tiempo

Autocorrelación simple: Bienes y servicios diversos (Segunda diferencia).


Gráfica 4.12.4

Autocorrelación simple
0.60
0.40
Bienes y servicios diversos

0.20
0.00
-0.20
-0.40

0 10 20 30 40
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Autocorrelación parcial: Bienes y servicios diversos (Segunda diferencia).


Gráfica 4.12.5

Autocorrelación parcial
0.60
0.40
Bienes y servicios diversos

0.20
0.00
-0.20
-0.40

0 10 20 30 40
Rezago
95% Confidence bands [se = 1/sqrt(n)]

76
Raíces características: Bienes y servicios diversos. Gráfica 4.12.6

Raíces características

1
.5
Imaginario
AR

0
MA

-.5
-1
-1 -.5 0 .5 1
Real

Auto-correlograma residual: Bienes y servicios diversos. Gráfica 4.12.7


Bienes y servicios diversos
0.20
0.10
Residuales

0.00
-0.10
-0.20

0 5 10 15 20
Rezago
Bartlett's formula for MA(q) 95% confidence bands

Características Random Forest resultante. Tabla 5.1.

Resumen Random Forest


No. De árboles 54
Profundidad mínima 8
Profundidad máxima 14
Profundidad promedio 10.7
Mín. Nodos terminales 40
Máx. Nodos terminales 63
Nodos terminales promedio 53.18

77
Ajuste de pronósticos Arima y RF. Tabla 6.1.

Fecha Inflación Real Inflación Arima Inflación RF


noviembre-17 0.18% 0.14% 0.21%
diciembre-17 0.38% 0.24% 0.29%
enero-18 0.63% 0.46% 0.73%
febrero-18 0.71% 0.87% 0.79%
marzo-18 0.24% 0.43% 0.29%
abril-18 0.46% 0.27% 0.28%
mayo-18 0.25% 0.31% 0.20%
junio-18 0.15% 0.21% 0.18%
julio-18 -0.13% 0.16% 0.07%
agosto-18 0.12% 0.11% 0.12%
septiembre-18 0.16% 0.25% 0.11%
octubre-18 0.12% 0.21% 0.06%
noviembre-18 0.12% 0.24% 0.21%
diciembre-18 0.30% 0.33% 0.30%
enero-19 0.60% 0.54% 0.73%
febrero-19 0.57% 0.75% 0.68%
marzo-19 0.43% 0.43% 0.30%
abril-19 0.50% 0.26% 0.28%
mayo-19 0.31% 0.38% 0.20%
junio-19 0.27% 0.29% 0.19%
julio-19 0.22% 0.24% 0.06%
agosto-19 0.09% 0.18% 0.12%
septiembre-19 0.23% 0.18% 0.21%
octubre-19 0.16% 0.20% 0.16%

78

También podría gustarte