Está en la página 1de 16

DOS MODELOS DE PREDICCIN DEL NDICE DE

PRODUCCIN INDUSTRIAL EUROPEO


Alberto Snchez Argelles*
Mayo de 2015

UNED

Abstract
En este trabajo de investigacin se presentan dos mtodos de modelizar y predecir el ndice de
produccin industrial europeo. En primer lugar demostraremos como realizar este anlisis mediante
el mtodo clsico de modelos ARIMA, y en segundo lugar mostraremos que sta prediccin puede
ser realizada tambin mediante el mtodo de anlisis espectral, consiguiendo resultados similares.

1 Introduccin y objetivos
El anlisis de series temporales se reere al conjunto de estudios en donde, a partir de datos u
observaciones recogidos de forma secuencial, se intenta entender la relacin de causalidad entre las
distintas variables, y comprender sus compenentes: tendencia, estacionalidad, ciclo, y ruido. Como
n ltimo se intenta explotar la dependencia entre esas observaciones para realizar predicciones para
anlisis tan diversos como poltica econmica, procesamiento de seales, climatologa, o sismologa.
El presente paper se centra en la modelizacin y la prediccin del ndice de produccin industrial
europeo mensual corregido por efectos de calendario, y que comprende observaciones mensuales
desde el mes de enero del ao 2000, hasta diciembre del ao 2014, y la correspondiente prediccin
del ao 2015.1
* Contacto:
1 El anlisis

asarguelles019@gmail.com
se realiza a partir del indice de produccin mensual europeo 18 (en adelante IPE), es decir los pases

integrantes de la Unin Europea hasta el 1 de enero de 2014, para el cual los datos recogidos comprenden pases con
un desarrollo industrial relativamente similar. Los sectores que comprendel el IPE son el minero, manufacturero,
energa elctrica, gas, vapor, y aire acondicionado de los aos 2000 al 2014 (180 observaciones en total).

Los

datos han sido obtenidos de la pgina web del Eurostat (http://ec.europa.eu/eurostat/web/short-term-businessstatistics/data/database) y procesados primero en Microsoft Excel, para su posterior anlisis en el paquete estadstico
SPSS.

2 Modelizacon y prediccin mediante modelos ARIMA


Un modelo ARIMA (por su acrnimo en ingls autoregressive integrated moving average ) es un
modelo estocstico de prediccin que permite describir un valor como una funcin lineal de datos
pasados y errores debidos al azar, y que adems puede incluir un componenete cclico y estacional.
El modelo ARIMA deriva de sus tres componentes AR (Autorregresivo), I (Integrado), y MA
(Medias mviles)2 :
Un proceso autorregresivo de orden p, ARIMA (p,0,0) o AR (p) se puede expresar como:
Xt = 1 Xt=1 + 2 Xt=2 + ... + p Xt=p + t , y que se puede escribir mediante el operador de
cambio retroactivo como:(B) = 1-1 B -2 B 2 -...-p B p
Un proceso de media movil de orden q, ARIMA (0,0,q) o MA (q) se puede escribir como:
Xt = + t 1 t1 ... q tq , y como el anterior, puede ser expresado como: Xt =
+ (1 1 B ... q B q )t
Un proceso integrado de orgen d, ARIMA (0,d,0) o I (d) se puede anotar como: (1B)d Xt = t

A continuacin podemos escribir el modelo general ARIMA (p,d,q) de la siguiente forma: Xt (1


B)d = Xt=1 + 2 Xt=2 + ... + p Xt=p + t 1 t1 ... q tq , (1)
y que puede escribirse como: Xt (1B)d Xt=1 2 Xt=2 ...p Xt=p = t 1 t1 ...q tq ,
(2)
es decir: (1-1 B -2 B 2 -...-p B p )(1 B)d Xt = (1 1 B ... q B q )t (3)

2.1 Identicacin del modelo


En primer lugar procedemos a realizar un grco de secuencias para observar si la serie es estacionaria, o si presenta estacionalidad y/o ciclos3 :
2 Para

el desarollo matemtico de los modelos ARIMA y sus aplicaciones ver Chareld, C, The Analysis of Time

Series An Introduction, sixth edition, chapter 4. 2004.

3 Todos

los grcos y tablas, salvo indicacin contraria, proceden de elaboracin propia a partir de los datos

obtenidos del IPE del Eurostat.

Vemos que la serie presenta picos espaciados uniformemente, lo que indica estacionalidad al repetirse
varias veces a lo largo de cada ao. Adicionalmente podemos observar que a partir de 2008 la
serie experimenta un cambio de ciclo o tendencia. La estacionariedad y estacionalidad puede ser
detectada de forma ms precisa mediante un anlisis de las ACF y ACFP (autocorrelation function
y partial autocorrelation function respectivamente):

Como podemos observar, la ACF, al estar congurada en forma de abanico y sin que sus retardos
decaigan rpidamente, nos indica falta de estacionariedad en media. Si observamos adems la
ACFP, veremos que la serie tampoco es estacionaria y presenta estacionalidad marcada en el retardo
12, 24 y 36. Para los diferentes meses tambin existe una fuerte dependencia estacional que se repirte
cada ao. Para certicar la falta de estacionariedad en varianza, agrupamos anualmente los datos
y calculamos la media y varianza de los mismos:
3

Ao Media Varianza
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014

99.58
99.85
99.31
99.56
101.69
103.21
107.57
111.69
109.71
93.31
100
103.51
101.08
100.41
101.28

62.12
56.66
61.55
63.61
66.06
66.21
64.66
69.18
82.06
45.92
53.29
42.68
36.77
40.99
40.80

A continuacin, para poder diferenciar la parte estacionaria y estacional de la serie, diferenciamos


la serie original tomando logaritmos, de forma separada para la parte regular y para la estacional.
Para la parte regular diferenciada, la ACF y ACFP es como sigue:

Si diferenciamos la parte regular, las funciones de autocorrelacin, no superan el problema de la


estacionariedad, pues estas no decaen rpidamente debido al componente estacional. Procedemos
por tanto a diferenciar el componente estacional:

Tambin aqu observamos en el caso de la ACF, que aunque el componente estacional ha sido
eliminado, la serie sigue presentando una forma estacionaria. Por tanto procedemos a diferenciar
la parte regular y estacional al mismo tiempo:

Los ltimos gracos calculados muestran que una diferenciacin en el componente regular y estacional es el adecuado para la formulacin del modelo, es por ello por lo que resulta razonable
aplicar un modelo SARIMA (seasonally autoregressive integrated moving average ) en donde tenemos en cuenta de forma especca la estacinalidad al ser integrado en orden 1. Este modelo se
presenta de la siguiente forma: ARIMA (0,1,0) (0,1,0)12 . Si analizamos los grcos de las autocorrelaciones, comprobamos que el componenete autorregresivo apenas tiene un impacto en el
primer retardo, pero que sin embargo nos hace pensar que tiene un componente de media movil que
dura varios retardos en la parte regular y por lo menos uno en la parte estacional. Procederemos
por tanto a estimar estos dos modelo para nuestra prediccin: ARIMA (0,1,3) (0,1,1)12 y ARIMA
(1,1,3) (0,1,1)12

2.2 Estimacin del modelo, comparacin, y validacin


Adicionalmente a los modelos comentados en el apartado anterior, para su comparacin y validacin
estimaremos dos modelos adicionales, uno de ruido blanco - ARIMA (0,1,0) (0,1,0)12 , y otro que a
5

priori puede parecer razonable - ARIMA (1,1,1) (0,1,1)12 . Los estadsticos ms relevantes despus
de estimar estos cuatro modelos con los datos mensuales del IPE 18 son los siguientes:

R-squared
RMSE
MAPE
MaxMAPE
MAE
MaxMAE
Norm. BIC
Ljung-Box

(1,1,3) (0,1,1)
0.971
1.486
1.091
4.938
1.094
4.714
0.945
0.407

12

(0,1,3) (0,1,1)
0.97
1.486
1.109
5.077
1.112
4.843
0.853
0.425

12

(1,1,1) (0,1,1)

12

0.967
1.553
1.167
4.863
1.184
5.222
0.973
0.008

(0,1,0) (0,1,)
0.959
1.725
1.332
5.748
1.351
5.933
1.112
0

12

Como podemos observar los dos modelos escogidos son claramete superiores a los otros dos en todos
los valores. Presentan un R cuadrado superior (explican cerca del 97% de la variacin), y un error
cuadrtico medio (RMSE), un error porcentual absoluto medio (MAPE), y un error absoluto medio
(MAE) menor. Adicionalmente el test de Ljung-Box nos indica que no existe autocorrelacin de los
residuos, mientras que en los otros dos modelos es muy prximo a cero, y por tanto enfrentaramos
un problema de correlacin serial. Los dos modelos escogidos mediante la ACF y ACFP son
muy similares. La regresin del modelo ARIMA (0,1,3) (0,1,1)12 nos indica sin embargo que el
retardo autorregresivo de orden 1 no es signicativo (p value de 0.760). Por tanto, y dado que
adicionalmentre presenta un BIC inferior, presentaremos y analizaremos a continuacin el modelo
ARIMA (0,1,3) (0,1,1)12 .
Los coecientes de regresion estimados de dicho modelo son los siguientes:

ARIMA (1,1,3) (0,1,1)

Diference
MA Lag 3
Diference
MA Seasonal 1

Estimate
1
-0.317
1
0.484

12

SE

sig

0.075

-0.4212

0.000

0.073

6.664

0.000

El modelo se puede escribir como: (1 B)(1 B 12 )Xt = (1 + 0.317B 12 )(1 0.484B 12 ), vase
ecuacin 3. Todos los coecientes como vemos son signicativos al 99% y presentan un error
estandar inferior a 0.1, y no hemos includo termino constante ya que en todas las regresiones
realizadas ste ha resultado ser no signicativo. A continuacin presentamos el correlograma de
los residuos del modelo estimado en donde podemos observar que no existe correlacin entre los
errores:

Tambin el grco de secuencias nos conrma que los residuos no son correlados, al presentar una
estructura aleatoria:

2.3 Prediccin del modelo


La modelizacin de toda la serie hasta el 2014, y su correspondiente prediccin para 2015 en forma
de grco, es la siguiente:

A continuacin presentamos las estimaciones realizadas del ao 2015 a partir del modelo ARIMA
y que toma datos nicamente hasta el ao 2014. Estas estimaciones son a su vez comparadas con
los datos reales recopilados del ndice de produccin industrial por el Eurostat para comprobar su
fuerza predictiva:
Jan 2015
Feb 2015
Mar 2015
Apr 2015
May 2015
Jun 2015
Jul 2015
Aug 2015
Sep 2015
Oct 2015
Nov 2015
Dec 2015

Real IPE Prediccin UCL LCL Desviacin Desviacin %


97.46
101.55
111.34
101.69
102.42
106.12
105.54
86.54
106.95
108.87
107.94
98.07

97.80
100.47
110.43
101.79
102.67
105.65
104.67
86.44
106.86
108.02
107.69
99.08

100.71
104.58
115.47
108.11
110.06
113.98
96.37
117.50
119.33
119.63
119.63
111.62

94.90
96.36
105.40
95.46
95.27
97.33
95.51
76.51
96.22
96.71
95.75
86.54

0.34
-1.08
-0.91
0.10
0.25
-0.47
-0.87
-0.10
-0.09
-0.85
-0.25
1.01

0.4%
-1.1%
-0.8%
0.1%
0.2%
-0.4%
-0.8%
-0.1%
-0.1%
-0.8%
-0.2%
1.0%

En la tabla anterior tambin detallamos los intervalos de conanza estimados al 95%. Como podemos observar las desviaciones entre el modelo estimado y el real son muy reducidas, encontrndose
8

que la desviacin media porcentual en trminos absolutos es del 0.5%. Por ltimo mostramos un
grco de los valores observados y estimados hasta el 2015:

3 Modelizacin y prediccin mediante Anlisis Espectral


El mtodo espectral descompone una serie temporal estacionaria como la suma de un conjunto
de componentes cclicos con propiedades especcas. La idea bsica del anlisis espectral explica
que cualquier proceso estacionario Yt puede ser descrito como la suma de sus movimientos seno
y coseno de diferente frecuencia y amplitud. El objetivo es determinar cuales son los ciclos de
diferentes frecuencias importantes para describir el comportamiento de Yt . A diferencia de los
modelos clsicos, en el anlisis espectral no se realiza descomposicin de la serie en tendencia,
ciclo, estacionalidad, y componente irregular, sino que la serie se descompone en la totalidad de
frecuencias existentes.
Se puede demostrar que el espectro poblacional se puede escribir como4 :
Sy (w) =
4 Para

1
2

[y0 + 2

j cos(wj)](1)

el desarollo matemtico del anlisis espectral ver Hamilton, J (1994), pgs. 152-179.

La representacin espectral - dominio de frecuencias - puede trasladarse al dominio del tiempo


mediante el siguiente teorema:
yt = +

{j cos [wj (t 1)]} + j sin [wj (t 1)](2)

en donde wj es igual a 2F y M es ((T 1)/2). Los parmetros j y j como veremos pueden ser
estimados mediante una regresin lineal.

3.1 Identicacin, estimacin y validacin del modelo


Como hemos visto en la seccin 2, la serie no es estacionaria, por lo que tomamos logaritmos para
diferenciar as la serie y adecuarla a la descomposicin espectral. Al igual que para la prediccin
anterior utilizaremos los datos comprendidos entre 2000 y 2014. Procedemos a continuacin a la
identicacin del espectro:

Guardamos las frecuencias obtenidas, y escogemos para nuestra regresin las ms relevantes segn
el valor obtenido del periodograma (por encima de 0.002). De las 90 frecuencias obtenidas, las 18
ms relevantes son:

10

Frecuencia Periodo Periodograma


0.00556
0.01111
0.01667
0.02222
0.02778
0.03333
0.03889
0.04444
0.05556
0.06667
0.07778
0.08333
0.08889
0.16667
0.25
0.33333
0.41667
0.5

180
90
60
45
36
30
26
23
18
15
13
12
11
6
4
3
2
2

0.07981
0.08604
0.06617
0.06122
0.03526
0.01159
0.00579
0.01112
0.00512
0.00305
0.00257
0.02221
0.00355
0.24228
0.33327
0.16124
0.05488
0.2784

A continuacin trasladamos los resultados obtenidos del dominio de la frecuencia al dominio del
tiempo. Primero para ello obtenemos wj y que es igual a 2F . Una vez obtenido wj para todos
los periodos de frecuencia relevantes (18 en nuestro caso) se multiplica cada periodo muestral (180
para la muestra de 15 aos) por T 1, y sobre cada resultado se calcula el seno y el coseno. Una
vez obtenidos estos ltimos datos se realiza una regresin lineal cuya variable dependiente son los
datos muestrales del IPI euro 18, siendo las variables independientes los senos y cosenos obtenidos
mediante la ecuacn 2 descrita en la introduccin de la seccin 3. Los estadsticos y coecientes de
Fourier obtenidos de la regresin lineal son los siguientes:

R-squared
RMSE
MAPE
MaxMAPE
MAE
MaxMAE

11

0.983
0.013
0.184
0.988
0.008
0.044

IPE_EUR_2014_LN

Model Parameters
Estimate SE

Constant
C180
C90
C60
C45
C36
C30
C25.71429
C22.5
C18
C15
C12.85714
C12
C11.25
C6
C4
C3
C2.4
C2
S180
S90
S60
S45
S36
S30
S25.71429
S22.5
S18
S15
S12.85714
S12
S11.25
S6
S4
S3
S2.4
S2

4.622
-.030
.025
-.025
.025
-.010
-.005
.005
-.011
-.004
.003
.003
.014
-.002
-.046
-.023
.010
-.021
.031
.003
-.019
.010
.008
-.017
.010
-.007
.002
-.006
-.005
-.004
.007
.006
-.024
.056
-.041
.013
48.986

.001
.001
.001
.001
.001
.001
.001
.001
.001
.001
.001
.001
.001
.001
.001
.001
.001
.001
.002
.001
.001
.001
.001
.001
.001
.001
.001
.001
.001
.001
.001
.001
.001
.001
.001
.001
27.554

4956.252
-22.478
18.739
-19.022
18.845
-7.866
-3.735
3.513
-8.315
-2.989
2.359
2.542
10.811
-1.792
-35.069
-17.378
7.390
-15.933
16.472
2.159
-14.060
7.859
5.890
-12.794
7.768
-4.940
1.489
-4.886
-3.716
-3.133
4.951
4.426
-17.858
42.767
-31.172
9.947
1.778

Sig.

0.000
.000
.000
.000
.000
.000
.000
.001
.000
.003
.020
.012
.000
.075
.000
.000
.000
.000
.000
.033
.000
.000
.000
.000
.000
.000
.139
.000
.000
.002
.000
.000
.000
.000
.000
.000
.078

Vemos que el R cuadrado es 0.983, y que explica la prctica totalidad de la serie, siendo la raiz
cuadrada del error cuadrtico medio 0.013. Esto nos hace indicar que el modelo es muy robusto.
A continuacin procedemos a realizar una representacin grca de los residuos del modelo para
comprobar la no existencia de autocorrelacin. Vemos que no existe correlacin y que siguen una
distribucin normal:
12

3.2 Prediccin del modelo


La modelizacin de toda la serie hasta el 2014 mediante el mtodo de anlisis espectral, y su
correspondiente prediccin para 2015 en forma de grco, es la siguiente:

13

Del mismo modo que para el modelo ARIMA, presentamos las estimaciones realizadas del ao 2015
mediante el mtodo del anlisis espectral, y que toma datos nicamente hasta el ao 2014. Estas
estimaciones son a su vez comparadas con los datos reales recopilados del ndice de produccin
industrial por el Eurostat para comprobar su fuerza predictiva:
Jan 2015
Feb 2015
Mar 2015
Apr 2015
May 2015
Jun 2015
Jul 2015
Aug 2015
Sep 2015
Oct 2015
Nov 2015
Dec 2015

Real IPE Prediccin UCL LCL Desviacin Desviacin %


4.58
4.62
4.71
4.62
4.63
4.66
4.66
4.46
4.67
4.69
4.68
4.59

4.55
4.58
4.66
4.58
4.59
4.63
4.61
4.39
4.65
4.68
4.67
4.59

4.58
4.60
4.69
4.61
4.61
4.65
4.63
4.42
4.67
4.70
4.70
4.62

4.53
4.56
4.64
4.56
4.56
4.60
4.58
4.37
4.62
4.65
4.65
4.57

-0.03
-0.04
-0.05
-0.04
-0.04
-0.03
-0.05
-0.07
-0.02
-0.01
-0.01
0.00

-1%
-1%
-1%
-1%
-1%
-1%
-1%
-2%
0%
0%
0%
0%

En la tabla anterior tambin detallamos los intervalos de conanza estimados al 95%. Como podemos observar las desviaciones entre el modelo estimado y el real son muy reducidas, encontrndose
14

que la desviacin media porcentual en trminos absolutos es del 0.7%, pero que sin embargo es un
0.2% superior al modelo ARIMA estimado. Cabe destacar que el modelo subestima los valores, y
siempre cae por debajo de la serie real. Por ltimo mostramos un grco de los valores observados
y estimados hasta el 2015:

4 Consideraciones nales
Este documento pretender servir como base para difundir dos modelos distintos de prediccin y que
sean utilizados conjuntamente en la elaboracin de estudios de series temporales. Ambos tienen
ventajas y desventajas, por un lado los modelos ARIMA necesitan menos datos para su elaboracin,
pueden ser realizados para cualquier tipo de serie, sea estacionaria o no, y obedecen casi siempre
a un modelo que est soportado por una teora econmica, sin embargo con estos modelos existe
riesgo de subespecicacin, y a la vez es un mtodo matemtico menos riguroso. Por otro lado,
el anlisis espectral permite captar con ms detalle todas las relaciones econmicas al considerar
el comportamiento histrico de toda la serie, no es necesario descomponer la serie en tendencia,
ciclo, estacionalidad, y componente irregular, y puede ser utilizada en series con cualquier tipo
de periodicidad. Este mtodo presenta tambin sus desventajas, al requerir ms observaciones, y
cuando la serie no es estacionaria, an eliminando la estacionariedad, presentan ciertas desviaciones
no deseadas.
15

5 Bibliografa
Chareld, C, The Analysis of Time Series An Introduction, sixth edition. CRC Press. 2004.
Hamilton, J. Time Series Analysis. Princeton University Press: Estados Unidos. 1994.
Matilla Garca, M, Prez Pascual, P, y Sanz Carnero, B. Econometra y prediccin. McGraw-

Hill Interamericana de Espaa S.L., 2013

Gonzalez Gmez, D. Anlisis espectral: consideraciones tericas y aplicabilidad. Departa-

mento de Investigaciones Econmicas del B.C.C.R.

16

También podría gustarte