Está en la página 1de 51

Traducido del inglés al español - www.onlinedoctranslator.

com

36 Conceptos útiles en el análisis de series temporales univariadas

el operador de retrasoL, el modelo en (3.7) se puede escribir de forma más compacta como

φpags(L)yt=εt, (3.8)

dónde

φpags(L) = 1 −φ1L−· · · −φpagsLpags, (3.9)

que se llama el polinomio AR enLde ordenpags. Los pesos en los retrasos son los
parámetros.φ1aφpags, y estos expresan hasta qué puntoytdepende de su propio pasado.
La declaración hecha arriba, que en el AR(pags) modelo (3.7) La observaciónytestá
relacionado con elpagsobservaciones previasyt−1, . . . ,yt−pags, es algo engañoso. como la
observaciónyt−pagsestá relacionado conyt−pags−1, . . . ,yt−2pagsDe la misma manera, en realidad hay
dependencia entreytytodossus observaciones pasadas.
Para poder construir un pronóstico significativo para futuras observaciones yT+1,yT+2, . . .,usando el
RA(pags) modelo en (3.7), debe sostenerse ante todo que esta dependencia del pasado es constante.
De hecho, si esta dependencia variara aleatoriamente con el tiempo, no tiene sentido tratar de
pronosticaryT+hcomo para cualquier valorhla función de pronóstico relevante puede diferir. Además,
para hacer afirmaciones sensatas sobre yT+h,debería sostener que el pasado inmediato es más
importante que las observaciones menos recientes. En otras palabras, el impacto de la observación
en el momentot=10,y10, debería ser más pequeño para, digamos,y80que pory11. Tenga en cuenta que
todavía no abordamos las series de tiempo estacionales aquí, dondeytpuede parecerse más ayt−12(en
el caso de una serie mensual) que ayt−1. Debido a (3.7),y10implica una observación de ruido blancoε10,
o, como se suele decir, unchoque en el momentot=10, y por lo tanto también podemos afirmar que el
impacto del choque ent=10 debería ser menos importante para la observacióny80que pory11. Del
mismo modo, la observación y80debería depender más del choque que se produzca ent=79 que en el
choque que ocurre ent=10

En términos de (3.7), esto se puede afirmar algo más formalmente expresandoytcomo una función de
todos los choques pasados, como

t−1

yt= [φpags(L)]−1εt= θiεt−i+y0, (3.10)
i=0

dóndey0es una función de los valores iniciales de muestra previa y los parámetros
autorregresivos φ1aφpags. El requisito de que el efecto de los choquesεt−i,i=0,1,2, . . .,enyt
se vuelve más pequeño a medida queise vuelve más grande sugiere que los valores deθidebería converger
hacia cero con el aumentoi.Más precisamente, el efecto de los shocks desaparece si el
∑ ∞
condición i=1|θi|<∞Está satisfecho.
Para adjuntar alguna interpretación a esta declaración, considere la autorregresión de
primer orden

yt=φ1yt−1+εt, t=1,2, . . . ,t (3.11)


3.1 Modelos de media móvil autorregresivos 37

Ya que (3.11) implica que

y1=φ1y0+ε1,
y2=φ1y1+ε2=φ1φ1y0+φ1ε1+ε2,
y3=φ1y2+ε3=φ1(φ1φ1y0+φ1ε1+ε2) +ε3,

...

yt= (φ1)ty0+ (φ1)t−1ε1+ (φ1)t−2ε2+· · · +εt,

dóndey0es un valor inicial previo a la muestra, el modelo AR(1) en (3.11) Se puede escribir como

t−1

yt= (φ1)ty0+ (φ1)iεt−i, t=1,2, . . . ,t (3.12)
i=0

Claramente, los parámetros (φ1)ien (3.12) para los choquesεt−iconverger a cero con
∑ ∞
crecienteicuando |φ1|<1. En ese caso también se sostiene que i=0(φ1)i<∞.

Ejercicio3.1

Cuandoφ1excede 1, (3.12) muestra que el efecto de las perturbacionesεt−ienytaumenta coni. En


ese caso la serie de tiempoytse llama explosivo, que es una característica que no suele ocurrir
en la práctica. En este libro, excluimos el caso explosivo.
Cuandoφ1es exactamente igual a 1, (3.12) se simplifica a

t−1

yt=y0+ εt−i, t=1,2, . . . ,T, (3.13)
i=0

por lo que es claro que los efectos de, digamos,ε10en, decir,y11yy80son iguales y ambos iguales a 1. En
general, un choqueεtahora tiene el mismo impacto en todas las observacionesyt+h, h=0,1,2, . . .,y se
dice que los choques tienen efectos permanentes. Esto significa que si por casualidad un cierto shock
εtes muy grande y todos los choques posteriores son pequeños, el nivel de la serie de tiempo
después de este tiempotcambia bastante dramáticamente en relación con la situación queεtes
pequeño. Esto también sugiere que una serie de tiempo como (3.13) es altamente impredecible, ya
que cada shock futuro puede tener efectos dramáticos similares en el desarrollo deyt.Un modelo
AR(1) conφ1= 1 por lo tanto se llamaCaminata aleatoriamodelo.
Ilustramos el impacto del valor deφ1en el patrón deytmediante la simulación de tres series de
tiempo conT=200 observaciones del modelo AR(1) (3.11) con diferentes valores del parámetroφ1. La
serie, que se muestra en la figura3.1, se generan de la siguiente manera. Primero, se generan 200
números independientes a partir de una distribución normal estándar, denotada como norte(0,1).
Estas son observaciones de ruido blanco ya que se extraen independientemente de una distribución
con media cero y con la misma varianzaσ2= 1. Como tal, lo harán
38 Conceptos útiles en el análisis de series temporales univariadas

0.5 0.9 1.0


30

20

10

- 10

25 50 75 100 125 150 175 200

Figura 3.1:Serie temporal AR(1) simulada conφ1igual a 0,5,


0,9 y 1,0.

ser utilizado como choquesεt.A continuación, reemplazamos la observación ent=100ε100


porε100+ 20, para ilustrar el impacto de un gran shock en la serie temporalyt.Finalmente,y
1se iguala a cero y las siguientes 199 observacionesytportque van de 2 a 200 son
generados poryt=φ1yt−1+εt,donde el parámetro ARφ1se establece igual a 0.5, 0.9 y 1.0.
La línea continua en la Figura3.1corresponde conφ1= 0.5. El efecto deε100enyt
desaparece con bastante rapidez, como puede observarse por el hecho de que la serie temporal
vuelve rápidamente a su nivel medio. Por supuesto, esto no es sorprendente dada la representación
del modelo AR(1) en términos de choques rezagados en (3.12). Esto demuestra que el efecto de la
choque que ocurre en el momentotenyt+ies igual aφi 1vecesεt,que declina a cero rápidamente
porφ1= 0.5. El efecto del valor agregado de 20 aεten el tiempo 100 es 10 ent=101, 5 a last=102, y es
despreciable en, digamos,t=110. Este no es el caso cuandoφ1= 0.9, como se puede ver en la serie de
tiempo relevante en la Figura3.1. De hecho, toma algún tiempo antes de (0.9)imultiplicado por 20 se
vuelve razonablemente pequeño. Sin embargo, en ambos casos la serie temporal muestra una
tendencia a volver al nivel medio (también llamadoreversión a la media), o, en otras palabras, las
perturbaciones sólo tienen efectos transitorios. Finalmente, y más obvio de la Figura3.1, la serie de
tiempo no regresa a su nivel promedio original después de la observación 100 cuandoφ1= 1.0. Por lo
tanto, el efecto de este choque parece permanecer presente en la serie de tiempo, es decir, este
choque parece tener un efecto permanente. De nuevo, esto también se sigue de la representación del
modelo AR(1) dada en (3.12). Por supuesto, cuando ocurren grandes choques negativos despuést=
100, la serie temporal puede volver a descender en una etapa posterior.
3.1 Modelos de media móvil autorregresivos 39

En este capítulo limitamos la discusión a las series de tiempo donde los shocks tienen solo efectos
transitorios. En caso de que sospechemos haber encontrado una variable que muestre efectos
permanentes de choques, generalmente transformamos esa serie en una serie de tiempo con efectos
transitorios tomando las primeras diferenciasyt−yt−1. Esto está estrechamente relacionado con el
concepto de estacionariedad, que se discutirá en detalle en el Capítulo4. Luego procederíamos con el
análisis deyt−yt−1en vez deyt.La motivación para tomar las primeras diferencias se vuelve clara al
notar que en casoφ1= 1, el modelo AR(1) (3.11) en realidad está dada por

yt=yt−1+εt. (3.14)

De (3.14), también se sigue inmediatamente que la serie de tiempo transformadazt=yt−yt−1


puede ser descrito por el modelo de ruido blanco simple, es decir

zt=εt, (3.15)

tal que el pasado chocaεtsólo tienen efectos transitorios. En otras palabras, mientras, digamos,ε100
puede cambiar el nivel deytdespuést=100 permanentemente, no lo hace para el nivel de zten (3.15).
Nótese nuevamente que cuandoytes registro (wt),laztvariable en (3.15) es aproximadamente igual a la
tasa de crecimiento dewt,y por lo tanto, un solo gran choque puede cambiar el nivel de una serie,
pero no tanto la tasa de crecimiento.
A veces puede darse el caso de queytnecesita ser diferenciado dos veces para obtener un resultado
similar. Nuevamente, para mantener la notación simple, el filtro de diferenciación o el operador de
diferenciación jque se usa a menudo, se define por

d
j= (1 -Lj)d porre, j=. . . ,−2,−1,0,1,2, . . . (3.16)

En la práctica solemos considerar los casosj=1 oS(conSsiendo el número de temporadas) yd


igual a 0, 1 o 2. Observe que cuandodes 2, yyt=Iniciar sesión(wt),la serie diferenciada de
segundo orden resultante mide el cambio en la tasa de crecimiento dewt. En caso de que sea
necesario diferenciar una serie temporaldtiempos, se dice que es integrado de orden d,
abreviado comoyo(d). Cuandoytes unyo(d) serie de tiempo, y cuando se puede modelar con un
AR(pags) modelo después de diferenciarlodtiempos, el modelo paraytSe puede escribir como

d dyt−1−· · · −φpags d
1yt−φ1 1 1yt−pags=εt, t=pags+re, pag+d+1, . . . ,T,
(3.17)

Este modelo generalmente se abrevia como ARI (p, d) modelo.


Otra terminología para los efectos permanentes y transitorios de los shocks se basa en
las raíces del polinomio característico de un AR(pags) modelo. El polinomio característico
no es más que el polinomio rezagadoφpags(L) dada en (3.9), pero ahora considerado como
una función dezen lugar del operador de retrasoL, eso es,

φpags(z) = 1 −φ1z−· · · −φpagszpags. (3.18)


40 Conceptos útiles en el análisis de series temporales univariadas

Sus raíces son las soluciones aφpags(z) = 0. Como ejemplo, considere nuevamente el modelo
AR(1) en (3.11). Su polinomio característico está dado por

φ1(z) = 1 −φ1z, (3.19)

y su raiz esz= (φ1)−1. Cuandoφ1= 1, esta solución es igual a 1, y en ese caso se dice que el
polinomio AR(1) tiene raíz unitaria. Cuandoφ1es menor que 1 en valor absoluto, la raíz de
(3.19) excede 1. Dado que AR(pags) los modelos pueden tener raíces complejas, la
solución a (3.19) se dice que está fuera del círculo unitario cuando |φ1|<1.
Una serie de tiempo que puede ser descrita por un AR(pags) no es necesario diferenciar el
modelo cuando todospagssoluciones a su polinomio característicoφpags(z) como se indica en (
3.18) están fuera del círculo unitario, verBatán(1976). En la práctica, esto puede ser difícil de
verificar, especialmente porque los parámetrosφi,i=1,2, . . . ,pags, tienen que ser estimados a
partir de los datos disponibles. Dado que lo que nos interesa principalmente es saber si
necesitamos diferenciar o no, generalmente verificamos solo si una o más de las soluciones del
polinomio característico son exactamente iguales a 1. Por ejemplo, el polinomio característico
del ARI(p, d) modelo (3.17), dado por

(1 -z)d−φ1(1 -z)dz−· · · −φpags(1 -z)dzpags, (3.20)

claramente tiene (al menos)draícesz=1. En la práctica, una estimación dedhay que conseguirlo, y
parece que esto no es fácil. en el capítulo4, analizamos los procedimientos de prueba para
determinar el número de raíces unitarias.

Modelo de promedio móvil autorregresivo [ARMA]

Uno de los supuestos cruciales en el AR(pags) modelo (3.7) es que los choquesεtson
independientes e idénticamente distribuidos para todost,o al menos que no están
correlacionados. En la práctica, esto suele comprobarse examinando si los residuos de la
regresión correspondiente muestran las supuestas propiedades del ruido blanco en (3.1)–(3.3),
mira la sección3.3para una discusión detallada. Bien puede ocurrir que el orden de retardo
pagsrequerida para satisfacer este requisito es bastante grande, es decir, necesitamos incluir
una gran cantidad de rezagos deytpara capturar completamente las propiedades de
autocorrelación de la serie temporal. Cuando pagsaumenta, el número de parámetros
desconocidos a estimar en (3.7) también aumenta. Haciendo uso de las propiedades del
operador de retrasoLcomo en (3.5) y (3.6), ahora es posible aproximar un polinomio AR largo
por una relación de dos polinomios que juntos involucran menos parámetros. Dicho de otra
manera, podemos considerar aproximar elφpags(L) polinomio en (3.8) por la razón de un
diferenteφpags(L) polinomio (con estopags menor que el anterior) y otro polinomioθq(L). El
modelo de serie de tiempo resultante es
φpags(L)
yt=εt,
θq(L)
3.1 Modelos de media móvil autorregresivos 41

φpags(L)yt=θq(L)εt, t=pags+1,pags+2, . . . ,T, (3.21)

con

φpags(L) = 1 −φ1L−· · · −φpagsLpags,

θq(L) = 1 +θ1L+· · · +θqLq,

donde esta convención de notación se elige de tal manera que el modelo en (3.21) es el modelo de regresión

yt=φ1yt−1+· · · +φpagsyt−pags+εt+θ1εt−1+· · · +θqεt−q. (3.22)

Este modelo se denomina modelo de orden de promedio móvil autorregresivo (pag q) o,


brevemente, ARMA(pag q). Cuando elytla serie necesita ser diferenciadadveces, tal queyt
d
es reemplazado por 1yten (3.22), Nosotros decimos esoytes descrito por un autorregresivo integrado

modelo de media móvil de orden (p, d, q) [ARIMA(p, d, q)]. Es exactamente esta clase de
modelos de series temporales univariadas la que se hizo muy popular entre los
profesionales a través del trabajo seminal deCaja y Jenkins(1970). La etiqueta de media
móvil se asigna a este modelo como el lado derecho de (3.21) imita una media móvil deεt
términos. Además de ser una aproximación parsimoniosa a un AR(pags), los modelos
ARMA también pueden surgir a través de la agregación temporal o transversal de series
temporales.

Ejercicio3.2–3.4

Cabe mencionar que para muchos propósitos prácticos consideramos el modelo ARI en lugar del
modelo ARIMA. Las principales razones de esta preferencia son que los parámetros en los modelos
ARI se pueden estimar fácilmente (consulte la Sección3.3), que las medidas de diagnóstico se pueden
calcular fácilmente (ver también la Sección3.3), y que tal ARI(p, d) los modelos se pueden ampliar
fácilmente para permitir la estacionalidad, los cambios en la media o las tendencias y la no linealidad.

Modelo de media móvil [MA]


Sin embargo, en algunos casos prácticos puede ser conveniente considerar una versión simplificada
de un ARMA(pag q), es decir, el modelo MA(q) modelo dado por

yt=εt+θ1εt−1+· · · +θqεt−q, (3.23)

yt=θq(L)εt, (3.24)
42 Conceptos útiles en el análisis de series temporales univariadas

con
θq(L) = 1 +θ1L+· · · +θqLq. (3.25)

Una característica importante de la MA(q) modelo (y por lo tanto también del modelo ARMA(pag q)
modelo) es que las variables explicativas en (3.23), eso es,εt−1aεt−q,no se observan y deben estimarse
utilizando los datos disponibles. Para evitar problemas de estimación que puedan surgir por ello, el
orden MAqgeneralmente se mantiene bastante pequeño. En la práctica, estoqa menudo se establece
en 1 o 2 (oS=4 o 12 en caso de series temporales estacionales).
A primera vista puede parecer queytno depende de su propio pasado cuando un MA(q)
modelo describe esta variable. Sin embargo, similar a (3.10), podemos reescribir (3.24) como un
modelo AR de orden infinito,

[θq(L)]−1yt=εt, (3.26)

lo que demuestra queytde hecho depende de todos sus valores anteriores. Por ejemplo, para el
modelo MA(1)

yt=εt+θ1εt−1, (3.27)

se sigue que (suponiendo queε0es 0)

y1=ε1,
y2=ε2+θ1ε1=ε2+θ1y1,
y3=ε3+θ1ε2=ε3+θ1(y2−θ1y1),
y4=ε4+θ1ε3=ε4+θ1(y3−θ1(y2−θ1y1)),

...

o, en general,
t−1

yt=εt+ (-1)i−1θi 1yt−i. (3.28)
i=1

Esta expresión será útil al estimarθ1, como se discutirá en la Sección3.3.

Similar al concepto de raíz unitaria en AR(pags) polinomio (3.9), la MA(q) polinomio


(3.25) también puede contener una o más raíces unitarias. En el caso del modelo
MA(1) (3.27), el polinomio característico dado por

1 +θ1z, (3.29)

contiene una raíz unitaria cuandoθ1= −1. Si es así, el modelo MA(1) se llama no invertible.
Intuitivamente, la invertibilidad de la MA(q) modelo significa que los valores de los choquesεt
puede recuperarse de la serie de tiempo observadayt.En principio, esto se puede hacer
3.1 Modelos de media móvil autorregresivos 43

6
- 0.5 - 2.0

-2

-4

-6
25 50 75 100 125 150 175 200

Figura 3.2:Serie temporal MA(1) simulada conθ1igual a


− 0.5 y −2.0.

escribiendo el modelo en la forma AR equivalente como en (3.26). Un requisito crucial para


Sin embargo, la invertibilidad es que los coeficientes AR resultantes convergen hacia cero o,
∑ ∞
dicho más precisamente, que i=0|φi|<∞.Resulta que esta condición se cumple sólo
si las raíces del polinomio MA característico

θq(z) = 1 +θ1z+· · · +θqzq, (3.30)

todos están fuera del círculo unitario. Por ejemplo, en el modelo MA(1) los coeficientes en el
la representación AR equivalente está dada porφi= (−1)iθi 1, que se sigue de (3.28).
La suma de los valores absolutos deφies finito solo cuando |θ1|<1.
Dos realizaciones simuladas de procesos MA(1) conθ1igual a −0.5 y −2.0 se muestran
en la figura3.2, donde las 200 observaciones sobreεtse extraen del mismo norte(0,1)
distribución.
Claramente, el impacto de los valores del parámetro MA en el patrón de la serie temporal es
menos claro que en el caso de los modelos AR. La diferencia clave entre el modelo MA con θ1= −0.5 y
−2.0 es que este último parece mostrar una mayor reacción a valores grandes de un período valores
retrasados deεt,es decir, su varianza es mayor. Dado que el impacto de los choquesεtse convierte en
cero después de un período por construcción (ya que las series se generan a partir de un modelo MA
de orden 1), los choques grandes no tienden a cambiar el nivel de la serie de tiempo de forma
permanente. Figura de comparación3.2con figura3.1muestra claramente que el impacto de los
shocks es un tema mucho menos importante para estudiar para los modelos MA.
44 Conceptos útiles en el análisis de series temporales univariadas

Todavía puede ser de interés examinar siθ1= −1, ya que la presencia de una raíz unitaria en
el polinomio MA generalmente es una indicación de sobrediferenciación. Por ejemplo,
considere el modelo ARMA(1,1) conφ1= 1,

yt−yt−1=εt+θ1εt−1. (3.31)

En caso de que se sostengaθ1= −1,ytse ha diferenciado erróneamente demasiadas veces como


el polinomio (1-L) cancela desde ambos lados. Las pruebas formales de sobrediferenciación se
derivan deBreitung(1994),franceses(1995), yTsay(1993), entre otros. En teoría, queremos
diferenciar una serie de tiempo hasta que la serie de tiempo resultante pueda ser descrita por
un ARMA(pag q) modelo sin ninguno de los polinomiosφpags(L) yθq(L) que contiene el
componente (1 −L).

Media de series de tiempo e intercepción en el modelo

Hasta ahora se ha supuesto implícitamente que la media incondicionalmdeytes igual a 0. En


caso de un conocidom= 0,ytpuede ser reemplazado poryt−men las expresiones anteriores, lo
que implica que su media se resta antes del análisis. Por ejemplo, el modelo AR(1) (3.11) puede
escribirse entonces como

(yt−m) =φ1(yt−1−m) +εt. (3.32)

En la práctica, sin embargo, la media incondicionalmes desconocido y necesita ser estimado a partir
de los datos. Un método simple para lograr esto es reescribir por ejemplo (3.32) como

yt= (1 -φ1)m+φ1yt−1+εt, (3.33)

o
yt=α+φ1yt−1+εt, (3.34)

dóndeα= (1 -φ1)m. Tenga en cuenta que esto esencialmente modifica el modelo de regresión (3.11)
incluyendo un término de intersecciónα. Para el AR general(pags) modelo esta regresión se convierte en

φpags(L)yt=α+εt. (3.35)

El medio incondicionalmdeytahora se puede determinar multiplicando (3.35) con φpags(L)


−1a la izquierda y a la derecha y tomando expectativas, lo que hace

m= [φpags(L)]−1α (3.36)
= [φpags(1)]−1α (3.37)
α
= , (3.38)
1 -φ1−· · · −φpags
donde reemplazarLpor 1 enφpags(L) se hace porqueLkα=αpor cualquier valor dek. La inclusión
de una intersección en una regresión AR es bastante importante en caso de tendencia
3.2 Autocorrelación e identificación 45

variables, como veremos en el próximo capítulo (y también en el capítulo9donde se discutirán


las tendencias comunes).
En caso de MA(q) modelo con un intercepto, es decir

yt=α+θq(L)εt, (3.39)

el interceptoαcorresponde con la mediamcomoεtes una serie de media cero.


Al incluir un término de intersección en un modelo ARMA, puede ocurrir que elt-
relación del valor estimado deαsugiere que es insignificante y por lo tanto queαpodría
eliminarse del modelo. La expresión para el modelo AR(1) en (3.33) muestra, sin embargo,
que suprimirαno siempre puede ser sensato. De hecho, cuandomno es cero, pero α= (1 -φ
1)mse impone que sea cero, esta restricción suponeφ1es igual a 1, aunque podría no
serlo. Como consecuencia, eliminar un intercepto sesga las estimaciones deφ1hacia 1.
Con los métodos de estimación que se describen en la Sección3.3, podemos verificar esto
fácilmente generando datos conm= 10 yφ1= 0.5, que dan una estimaciónφ̂1≈1 cuando la
regresión AR(1) no incluye un intercepto. Para muchas aplicaciones prácticas, es mejor
incluir un intercepto en el modelo de estimación, aunque no sea significativamente
diferente de cero.

Ejercicio3.6

3.2 Autocorrelación e identificación


---------------------------------------------

El modelo ARMA discutido en la sección anterior tiene una característica importante que lo
distingue de muchos otros modelos econométricos. Esta propiedad es que la capacidad de un
modelo ARMA para describir una determinada serie de tiempo puede ser "reconocida" por
características específicas de los datos reales. Estas características son las llamadas
autocorrelaciones y autocorrelaciones parciales. El proceso de reconocer un modelo
posiblemente apropiado se llama identificación, verCaja y Jenkins(1970). La idea es que si una
serie de tiempo se describe mejor mediante un ARMA(pags,q), debe mostrar propiedades de
autocorrelación que correspondan a las de ese modelo en particular. En la práctica, las órdenes
pagsyqdel modelo ARMA son desconocidos y tienen que ser estimados a partir de los datos
(ver Sección3.4). Esto se puede hacer calculando las autocorrelaciones empíricas y las
autocorrelaciones parciales para ver si coinciden con ciertos patrones implícitos en diferentes
modelos ARMA. En esta sección, analizamos en detalle las funciones de autocorrelación y
autocorrelación parcial, e ilustramos cómo se pueden usar para identificar algunos modelos
simples de series de tiempo ARMA.
46 Conceptos útiles en el análisis de series temporales univariadas

Autocorrelación
loskAutocorrelación de orden ésimo de una serie de tiempoytes definido por

ρk=γk/γ0, (3.40)

dóndeγkes elkautocovarianza de -ésimo orden deyt,eso es,

γk=MI[(yt−MI[yt])(yt−k−MI[yt−k])], k=. . . ,−2,−1,0,1,2, . . .


(3.41)

Dado (3.41), está claro queρ0= 1,ρ−k=ρky que −1< ρk<1 para todosk. La colección de
todas las autocorrelaciones.ρk,k=0,1,2, . . .,se denomina función de autocorrelación
[ACF].
Este ACF puede ser útil para caracterizar los modelos de series temporales ARMA. Un ejemplo
simple es la serie de ruido blanco.εtpara cualρk=0 para todosk=0. Como otro ejemplo, considere el
modelo AR(1)

yt−m=φ1(yt−1−m) +εt, t=2,3, . . . ,norte. (3.42)

Como se discutió en la sección anterior, cuando |φ1|<1,men (3.42) es la media incondicional de


yt,que se puede verificar fácilmente tomando las expectativas de los lados izquierdo y derecho
de (3.42) y suponiendo queMI[yt] =MI[yt−1].

Ejercicio3.7

Para calcular el ACF, comenzamos con la varianza

γ0=MI[(yt−MI[yt])(yt−MI[yt])]. (3.43)

Para el modelo AR(1), el lado derecho de (3.43) es igual a

MI[(yt−m)(yt−m)] =MI[φ1(yt−1−m)φ1(yt−1−m)] +MI[ε2 t]

+ 2MI[φ1(yt−1−m)εt]. (3.44)

Para resolver (3.44) para la varianza deyt,hacemos uso de una serie de resultados generales
sobre las covarianzas entre las series de tiempoyty los choquesεt.Primero, considere de nuevo (
3.10), donde el modelo AR(1) se escribe como

yt=εt+θ1εt−1+θ2εt−2+· · · +y0, (3.45)

donde los parámetros están escalados porθ0(que es igual a 1 de todos modos). Su versión rezagada
un período es

yt−1=εt−1+θ1εt−2+θ2εt−3+· · · +y0, (3.46)


3.2 Autocorrelación e identificación 47

De (3.46), está claro queMI[yt−1εt] =0. De hecho, moviendo (3.46) aún más atrás en el
tiempo, se hace evidente queMI[yt−jεt] =0 para todosj >0. Segundo, de (3.45) podemos
mira esoMI[ytεt] =mi[ε2 t] =σ2para todost.En tercer y último lugar, la covarianza demcon un
La serie temporal es, por supuesto, igual a cero. Combinando estos resultados, y haciendo uso del hecho de
que para una serie de tiempo estacionaria la varianza incondicional es constante en el tiempo, (3.44) se
convierte

γ0= (1 -φ2 1)−1σ2, cuando |φ1|<1. (3.47)

La autocovarianza de primer orden para una serie de tiempo AR(1) se obtiene como:

γ1=MI[(yt−m)(yt−1−m)]
=MI[φ1(yt−1−m)(yt−1−m)] +MI[εt(yt−1−m)]
=φ1γ0. (3.48)

Por lo tanto, la autocorrelación de primer ordenρ1para el modelo AR(1) se convierte en

ρ1=γ1/γ0=φ1. (3.49)

Calcularρk,es conveniente considerar la siguiente relación para un modelo AR(1)

MI[(yt−m)(yt−k−m)] =MI[φ1(yt−1−m)(yt−k−m)], (3.50)

oγk=φ1γk−1, donde nuevamente usamos esoMI[yt−kεt] =0. Dividiendo ambos lados deγk= φ1γk−1
porγ0da como resultado una relación recursiva para las autocorrelaciones:

ρk=φ1ρk−1 pork=1,2,3, . . . (3.51)

Las autocorrelaciones de un modelo AR(1) con |φ1|<1 declina así exponencialmente hacia cero.
por ejemplo, cuandoφ1= 0.8, las cuatro primeras autocorrelaciones (teóricas) son 0,8, 0,64,
0,512 y 0,4096. En la práctica, podemos estimar tales correlaciones para datos reales, ver más
abajo. Entonces podemos examinar si las autocorrelaciones empíricas muestran el patrón
teórico. Si es así, podemos considerar un modelo AR(1) para la serie de tiempo en cuestión.

Las derivaciones para el modelo AR(1) anterior son válidas solo cuando la condición |φ1|<1 está
satisfecho. Antes vimos queφ1= 1 es un caso especial, ya que implica un comportamiento de caminata
aleatoria de la serie de tiempoyt,en el sentido de que el polinomio AR(1) tiene una raíz unitaria y
choquesεttener efectos permanentes. Para demostrar sus consecuencias para el ACF, es conveniente
reescribir el modelo de paseo aleatorio

yt=yt−1+εt, (3.52)

como
yt=εt+εt−1+εt−2+· · · +ε2+ε1+y0, t=1,2, . . . ,t (3.53)
48 Conceptos útiles en el análisis de series temporales univariadas

ComoMI[εt] =0 para todost,yMI[εtεt−k] =0 para todosk=0, y suponiendo quey0es una


constante fija, que igualamos a 0 por conveniencia, se sigue que la media incondicional
MI[yt] =0 para todost.Por el contrario, la varianza incondicional y las autocovarianzas deyt
ya no son constantes. De (3.53), resulta que

γ0,t=MI[y2t] =tu2, (3.54)

donde el subíndice adicionaltindica que el valor de la varianza depende det. De hecho, la


varianza aumenta linealmente cont.Comparando (3.53) con su versión retrasada de un
período

yt−1=εt−1+εt−2+· · ·ε2+ε1+y0, (3.55)

encontramos eso

γ1,t=MI[ytyt−1] = (t−1)σ2, (3.56)

que, junto con (3.54), resulta en

t−1
ρ1,t= . (3.57)
t
Del mismo modo, se sigue que en generalρk, t= (t−k)/tpara cualquierk >0. Resultados similares a
(3.57) se puede derivar para cualquier AR(pags) modelo que tiene un factor (1 −L) en su
polinomio ARφpags(L) por reemplazoyten (3.52) por el filtradoφpags−1(L)ytserie, donde φpags(L) =φ
pags−1(L)(1 -L).
Debido a la naturaleza variable en el tiempo de las autocorrelaciones, este ACF no es muy
útil para generar información sobre un modelo ARMA posiblemente adecuado. Además, tenga
en cuenta que todas las autocorrelacionesρk, ttienden al valor 1 comotaumenta En otras
palabras, el ACF no es interpretable para modelos AR con raíces unitarias. Por lo tanto, de
ahora en adelante se asume en este capítulo que si existe tal (1 −L), se ha eliminado filtrando la
serie temporal con el1filtrar. Para mantener la notación simple, continuaremos usandoyt
para los datos transformados apropiadamente. También, y por razones similares, establecemosmigual a
cero a partir de ahora (excepto cuando se indique lo contrario).
En principio, la determinación de las autocorrelaciones para los modelos autorregresivos de orden
superior procede de forma similar a la demostrada para el modelo AR(1). Por ejemplo, considere el
modelo AR(2) escrito convenientemente como

yt−φ1yt−1−φ2yt−2=εt. (3.58)

Multiplicando ambos lados poryt−1, tomando las expectativas y dividiendo porγ0da como resultado

ρ1−φ1ρ0−φ2ρ1= 0. (3.59)
3.2 Autocorrelación e identificación 49

.8

.7

.6

.5

.4

.3

.2

.1

.0
5 10 15 20 25 30

Figura 3.3:Función de autocorrelación teórica de


un proceso AR(2) conφ1= 0.5 yφ2= 0.3.

Comoρ0= 1, primero obtenemos que

φ1 .
ρ1= (3.60)
1 -φ2
Para obtener una expresión paraρ2, se realizan operaciones análogas sobre (3.58)
excepto para usaryt−2en vez deyt−1, dando

ρ2−φ1ρ1−φ2ρ0= 0. (3.61)

Sustituyendo (3.60) dentro (3.61) da

φ12
ρ2= + φ.2 (3.62)
1 -φ 2

Análogo a (3.59) y (3.61) podemos deducir que en general

ρk=φ1ρk−1+φ2ρk−2. pork=2,3,4, . . . (3.63)

Para encontrar expresiones para el ACF para AR(pags) modelos conpag >2, podemos usar las mismas
técnicas que arriba.
En general, sostiene que el ACF de un proceso AR muestra un patrón exponencialmente
decreciente. Considere, por ejemplo, la función de autocorrelación teórica de un modelo AR(2)
como (3.58) con parámetrosφ1= 0.5 yφ2= 0.3 (en la figura3.3) yφ1= 0.5 yφ2= 0.49 (en la figura3.4
). Ambos gráficos muestran el ACF hasta el ordenk=30. Figura3.3 muestra claramente la caída
exponencial en los valores de las autocorrelacionesρkcuandok
50 Conceptos útiles en el análisis de series temporales univariadas

1.00

0,96

0,92

0.88

0.84

0.80
5 10 15 20 25 30

Figura 3.4:Función de autocorrelación teórica de un


proceso AR(2) conφ1= 0.5 yφ2= 0.49.

aumenta, dondeρ30es de hecho muy cerca de cero. Por otro lado, cuandoφ2se incrementa de
0.3 a 0.49, el ACF es Figura3.4muestra que el ACF no disminuye rápidamente en absoluto. En
realidad,ρ30aún excede 0.8 (observe la escala en el eje vertical). Esta característica refleja el
hecho de que el polinomio AR(2) 1 − 0.5z−0.49z2es casi igual a (1 −z)(1 + 0.5z), con este último
conteniendo el (1 −z) componente raíz unitaria. Recuerde que, en presencia de una raíz
unitaria, la expresión paraρk, tdado antes sugiere que sus valores son cercanos a 1 para todosk.
Por lo tanto, una primera indicación tentativa de que una serie de tiempo ytse puede describir
mediante un modelo ARMA cuya parte AR contiene el (1 −L) componente, que debe eliminarse
aplicando el primer filtro de diferenciación 1,

viene dado por una caída muy lenta del ACF.Caja y Jenkins(1970) de hecho recomiendan utilizar esta
evidencia visual como una herramienta para decidir sobre la aplicación de la 1filtrar o no. En la
actualidad existen procedimientos de prueba estadística que nos permiten tomar una decisión más
formal sobre la presencia o no de una raíz unitaria, ver Capítulo4.
Las raíces del carácter√polinomio rístico 1 −φ1z−φ2z2= 0 de un modelo AR(2)
son dados porz1,2= (φ1±φ2 1+ 4φ2)/2φ2. En casoφ2 1+ 4φ2<0 estas raíces son
complejo, es decir,z1,2=a±bi,dóndeies el número imaginario definido pori2= −1. Esto da como
resultado un patrón cíclico de la ACF. La serie de tiempo correspondienteytmuestra un patrón
cíclico con la duración del ciclo

C=2π/[broncearse−1(licenciado en Letras)], (3.64)


3.2 Autocorrelación e identificación 51

1.0

0.8

0.6

0.4

0.2

0.0

- 0.2
5 10 15 20 25 30

Figura 3.5:Función de autocorrelación teórica de un


proceso AR(2) conφ1= 1.2 yφ2= −0.4.

que es un resultado que se sigue del cálculo diferencial estándar. Este patrón cíclico
puede ilustrarse con los valores ACF de los modelos AR(2) conφ1= 1.2 yφ2= −0.4 (en la
figura3.5) y conφ1= 1.0 yφ2= −0.5 (en la figura3.6).
Con (3.64) podemos demostrar queCes mayor para la serie con el ACF como en la Figura3.5
que para eso en la figura3.6. De la figura3.6se puede observar que los picos positivos y
negativos en el ACF ocurren en los retrasos 4, 8, 12 y así sucesivamente. Como las soluciones
del polinomio característico correspondiente 1 −z+0.5z2son iguales az1,2= 1±i, (3.64) indica que
Ces exactamente igual a 8.
Cifras3.3a3.6demostrar que los valores deρkpork=3,4,5, . . .todavía puede ser bastante
grande para un modelo AR(2). Por lo tanto, el ACF puede no ser particularmente útil para
identificar si un modelo AR de orden específico es adecuado. De hecho, el ACF es más útil en
caso de MA(q) modelos. Considere por ejemplo el modelo MA(2)

yt=εt+θ1εt−1+θ2εt−2, (3.65)

y correspondientemente

yt−k=εt−k+θ1εt−k−1+θ2εt−k−2. (3.66)

Como todas las covarianzas entreεty sus rezagos son iguales a cero, la varianzaγ0es igual

γ0= (1 +θ2 1+θ2 2)σ2. (3.67)


52 Conceptos útiles en el análisis de series temporales univariadas

.8

.6

.4

.2

.0

-.2

-.4
5 10 15 20 25 30

Figura 3.6:Función de autocorrelación teórica de un


proceso AR(2) conφ1= 1.0 yφ2= −0.5.

Con (3.65) y (3.66) Podemos ver eso

γ1=MI[ytyt−1] = (θ1+θ1θ2)σ2, (3.68)


γ2=MI[ytyt−2] =θ2σ2, (3.69)
γk=0 parak=3,4, . . . , (3.70)

y por lo tanto esoρk=0 para todosk >2. En general, para un MA(q) modelo sostiene que

⎧[ ]
⎨ ∑q−k
i=0θiθi+kσ 2pork=0,1, . . . ,q,
γk= (3.71)
⎩ 0 pork > q,

conθ0= 1.
Lo anterior implica que cuando en la práctica se dispone de la ACF empírica [EACF], y los valores
son cero después de laq-th lag, podemos decidir seleccionar tentativamente un MA (q) modelo parayt
para un análisis más detallado.
Para ARMA(pag q) modela el patrón de ACF es una mezcla de los patrones de ACF para
modelos AR y MA puros. Por ejemplo, considere el modelo ARMA(1,1)

yt=φ1yt−1+εt+θ1εt−1, (3.72)
3.2 Autocorrelación e identificación 53

por lo que podemos derivar (en líneas similares a las anteriores) que

γ0=φ1γ1+σ2+θ1MI[ytεt−1]
=φ1γ1+ [1 +θ1(φ1+θ1)]σ2,
γ1=φ1γ0+θ1σ2,
γ2=φ1γ1,
γk=φ1γk−1 pork=3,4,5, . . .

tal que (después de un poco de álgebra)

φ1k(1
−1
+φ1θ1)(φ1+θ1)
ρk= , pork=1,2,3, . . . (3.73)
(1 + 2φ1θ1+θ2 1)
De esta expresión se puede ver queρkpuede tomar una amplia variedad de valores para
distintas opciones deφ1yθ1. Esto sugiere que la identificación de un modelo de serie temporal
ARMA a partir de los patrones del ACF solo puede ser bastante difícil. Note que cuando φ1= −θ1,
las autocorrelacionesρkser igual a 0 para todosk=0 como (3.72) colapsa a un modelo de ruido
blanco.

Ejercicio3.8–3.9

Autocorrelación parcial
El ACF es útil para identificar que un modelo MA de algún ordenqes posiblemente útil para
describirytporqueρk=0 para todosk > qcomo se muestra (3.71). El ACF parece menos útil para
identificar modelos AR(MA). Los ejemplos de AR(2) en Figuras3.3–3.6sugieren que el ACF puede
tomar una amplia variedad de patrones dependiendo de los valores específicos de los
parámetrosφ1yφ2. En cualquier caso, las autocorrelacionesρkno se vuelve igual a cero después
de un orden de retraso específicok. Para entender la razón de esto, considere el modelo AR(1)

yt=φ1yt−1+εt, (3.74)

que se puede escribir como

yt=φ2 1yt−2+εt+φ1εt−1. (3.75)

Esto demuestra que la inclusión deyt−1en un modelo de regresión paraytimplica queyt


también depende deyt−2(aunque la dependencia es ligeramente más débil como |φ2 1|<|φ1|dado
que requerimos |φ1|<1). Por supuesto, esto también se puede observar a partir de la expresión
para las autocorrelacionesρk=φk 1, que se sigue de (3.49) y (3.51). Ahora que
es útil para identificar un modelo AR es notar que agregaryt−2a la regresión
54 Conceptos útiles en el análisis de series temporales univariadas

(3.74), que ya incluyeyt−1, no ayudaría a explicaryt,es decir, el parámetro correspondiente


debe ser igual a cero. En términos generales, los llamadoskLa autocorrelación parcial de
-ésimo orden mide la dependencia o correlación entreytyyt−k, después de su dependencia
común de las observaciones intermediasyt−1, . . . ,yt−k+1ha sido removido. Más
precisamente, elkLa autocorrelación parcial de orden ésimo se define como el coeficiente
ψken la regresión

yt=η1yt−1+η2yt−2+· · · +ηk−1yt−k+1+ψkyt−k+tut. (3.76)

En este sentido podemos construir la función de autocorrelación parcial completa [PACF].


La autocorrelación parcial de primer orden viene dada por el valor deψ1en

yt=ψ1yt−1+tut, (3.77)

dóndetutsería una serie de tiempo de error de ruido blanco cuando el proceso generaytes de
hecho un AR(1). De (3.77) resulta queψ1es igualγ1/γ0, tal que por construcción tenemos queψ1=
ρ1para todos los modelos de series temporales. La segunda autocorrelación parcialψ2
puede obtenerse del modelo de regresión

yt=η1yt−1+ψ2yt−2+tut. (3.78)

Ejercicio3.10

En el caso de una serie temporal AR(1),ψ2es igual a cero En caso de AR(2) o superior, es
diferente de cero. De manera similar, para una serie AR(2), se cumple queψ3= 0 en la regresión

yt=η1yt−1+η2yt−2+ψ3yt−3+tut. (3.79)

Por lo tanto, en general cuandoψpags+1es igual a cero, mientras queψpagsno lo hace, es posible que
deseemos considerar un modelo AR de ordenpags. Derivaciones más formales del PACF, donde
también se muestra que elψkpuede escribirse como funciones deρk,puede encontrarse enCaja y
Jenkins (1970).

sobrediferenciación

Como se muestra en el Capítulo2, muchas series de tiempo económicas muestran un comportamiento de


tendencia y, como quedará claro en el Capítulo4, debe ser diferenciado usando el1filtro para eliminar el (1 −L)
componente en el polinomio AR. Sin embargo, puede ser que nos equivoquemos y apliquemos
erróneamente el1filtrar una vez con demasiada frecuencia de modo que la serie de tiempo resultante sea
sobrediferenciada. Por ejemplo, cuando la serie de ruido blancoyt=εtse diferencia, el modelo parayt−yt−1se
convierte

yt−yt−1=εt+θ1εt−1 conθ1= −1. (3.80)


3.2 Autocorrelación e identificación 55

Definiciónzt=1yt,la autocorrelación de primer orden deztcuandoθ= −1 es igualρ1=


− 0.5, que se sigue de combinar (3.71) conk=q=1 con el hecho de queγ0= 2σ2
en este caso. En general, se puede demostrar que la sobrediferenciación da como resultado un
patrón típico del ACF. Supongamos que las autocovarianzas de la serieytse denotan comoγky esos
de1ytcomoγk∗,después

γk∗=MI[(yt−yt−1)(yt−k−yt−k−1)] = 2γk−γk−1−γk+1. (3.81)

Dada esta conexión entreγ∗ kyγj,j=k−1,k, k+1, se sigue que


∑∞ γ1−γ0 = −0.5,
ρi∗ = (3.82)
i=1
2γ0 − 2γ1

dóndeρ∗i es eli-Autocorrelación de th orden de 1yt.En resumen, si consideramos la diferenciación

las seriesyt,por ejemplo, debido a que su ACF se extingue muy lentamente, es útil examinar el
ACF de la primera serie diferenciada. En caso de que sus valores sumen aproximadamente
− 0.5, podemos tomar esto como evidencia de que nos hemos diferenciado demasiado a menudo.

Ejercicio3.11

Funciones de autocorrelación empíricas (parciales)

En la práctica, para una determinada serie temporal económica o empresarialyt,las funciones de


autocorrelación y autocorrelación parcial tienen que ser estimadas. loskLa autocorrelación de -ésimo
orden se puede estimar mediante

ρ̂k=γ̂k/γ̂0, (3.83)

dóndeγ̂kes una estimación de lakautocovarianza de orden -ésimo, es decir

1∑ T
γ̂k= (yt−ȳ)(yt−k−ȳ), (3.84)
T t=k+1

dóndeȳdenota la media muestral deyt,t=1,2,3, . . . ,T.losρ̂kpork=0,1,2. . . forman el ACF empírico


[EACF]. Como ilustración, considereρ̂kpork=1, . . . ,20 para las diferencias anuales del logaritmo
mensual de la producción industrial de EE. UU. para el período 1959–2012, como se muestra en la
Figura3.7. Está claro a partir de este gráfico que los valores de EACF se extinguen con bastante
rapidez.
Los equivalentes muestrales deψk,que forman el ACF parcial empírico [EPACF], se puede
obtener aplicando mínimos cuadrados ordinarios [OLS] a

yt−ȳ=η1(yt−1−ȳ) +· · · +ηk−1(yt−k+1−ȳ) +ψk(yt−k−ȳ) +vt,


(3.85)
56 Conceptos útiles en el análisis de series temporales univariadas

1.0

0.8

0.6

0.4

0.2

0.0

- 0.2

- 0.4
2 4 6 8 10 12 14 dieciséis 18 20

Figura 3.7:Función de autocorrelación empírica de las diferencias anuales del


logaritmo mensual de la producción industrial de EE. UU. (sin ajuste estacional),
1959–2012.

por cualquier valor dek, dóndevtno es necesariamente una serie temporal de ruido blanco. Darse
cuenta de (3.85) sólo proporciona una estimación de lak-autocorrelación parcial de orden ésimoψ̂k
parámetro. Para obtener el EPACF completo, (3.85) debe estimarse parak=1,2,3, . . .
En principio, podemos considerar la estimaciónt-estadísticas para elψken (3.85) para
establecer el significado de los valores EPACF. Para los valores de EACF debemos considerar la
distribución de losρ̂k.Se puede demostrar que esta distribución depende del modelo verdadero
subyacente, verCaja y Jenkins(1970), entre otros. En la práctica, solemos aproximarnos √comió

la distribución de laρ̂kyψ̂kestableciendo sus errores estándar asintóticos en 1/T. Los detalles de


qué tan buena es esta aproximación se pueden encontrar en, por ejemplo,Granger y Newbold(
1986). En nuestro libro, seguimos el enfoque habitual al decir queρkyψk
son significativos en el 5√nivel de porcentaje√en caso de que su em√cuenta pirical√
rparts sostiene que
los intervalos (ρ̂k−2/T , ρ̂k+2/T)y (ψ̂k−2/T , ψ̂k+2/T),respectivamente, no
incluyen cero.
Como una ilustración de EACF y EPACF, considere sus primeros 12 valores como se dan en la
Tabla3.1para las diferencias anuales del logaritmo mensual de ingresos por pasajero-kilómetro
de las aerolíneas europeas, para el período 1994.1–2006.12. Los E(P)ACF se calculan utilizando
las 156 observaciones en este período y omitiendo las observaciones
3.2 Autocorrelación e identificación 57

Tabla 3.1:Funciones de autocorrelación empíricas (parciales) para diferencias anuales de logaritmo mensual

ingresos-pasajeros-kilómetro de las aerolíneas europeas, 1994.1–2006.12

Todas las observaciones Sin 2001.9–2001.12

Retraso EACF EPACF EACF EPACF

1 0.803∗ 0.803∗ 0.713∗ 0.713∗

2 0.598∗ − 0,131 0.478∗ − 0,064

3 0.429∗ − 0,023 0.299∗ − 0,038

4 0.301∗ − 0,012 0.090 − 0,189∗

5 0.269∗ 0.178∗ − 0,001 0.061

6 0.266∗ 0.038 − 0,048 − 0,013

7 0.272∗ 0.043 − 0,045 0.059

8 0.298∗ 0.093 0.047 0.136

9 0.242∗ − 0,156 0.078 − 0,043

10 0.152 − 0,073 0.148 0.118

11 0.057 − 0,067 0.187∗ − 0,001

12 − 0,069 − 0,162 0.109 − 0,121

Nota:Un asterisco indica significancia al nivel del 5%. El error estándar estimado para la muestra
completa es 0,160 y 0,163 para la muestra sin las observaciones 2001.7–2001.12.

2001.9–2001.12. La primera característica obvia de la EACF en la Tabla3.1es que estos cuatro puntos
de datos aberrantes tienen un gran efecto en el EACF. En realidad,ρ̂1es 0,803 para la muestra
completa, mientras que es 0,71 para la muestra menos los cuatro últimos meses de 2001. Además, la
EACF desciende mucho más rápido hacia cero para la muestra interrumpida. Para la muestra
completa, las autocorrelaciones empíricas siguen siendo significativas hasta el desfase 9. Por lo tanto,
es difícil sugerir un tipo de modelo AR ya que no hay una disminución exponencial. Por el contrario,
los patrones EACF y EPACF de la muestra interrumpida parecen sugerir la posible adecuación de un
AR(1).
En la práctica, por lo general no analizamos todos los modelos posibles que la EACF y la EPACF
indican como posiblemente útiles. De hecho, las cuestiones clave a menudo son (i) si los valores EACF
se extinguen lo suficientemente rápido, donde la suficiencia aquí no es un concepto formal
58 Conceptos útiles en el análisis de series temporales univariadas

sino simplemente una regla basada en la experiencia, (ii) si el EACF señala sobrediferenciación, y (iii) si
el EACF y el EPACF muestran picos significativos y fácilmente interpretables en ciertos retrasos,
preferiblemente en horizontes cortos. La razón principal de este enfoque menos formal en la práctica
es que cada variante de un modelo ARMA implica ciertas propiedades de ACF y PACF, pero dado el
hecho de que estas funciones tienen que ser estimadas, un conjunto dado de valores EACF y EPACF
puede sugerir una gran cantidad de modelos posiblemente útiles. Por lo tanto, generalmente
seleccionamos un conjunto aparentemente razonable de modelos tentativos, es decir, elegimos
valores parapagsy/oq, luego estimamos los parámetros del modelo y aplicamos verificaciones de
diagnóstico para ver si los modelos capturan la dinámica de la serie temporal lo suficientemente bien.
Si es así, podemos emplear criterios adicionales para seleccionar un modelo final, como se explica en
la Sección3.4.

3.3 Medidas de estimación y diagnóstico


---------------------------------------------

Una estrategia de especificación útil para series de tiempo ARMA comienza con una inspección
de los valores EACF y EPACF, para verificar qué valores son significativos, de modo que se
puedan formular hipótesis de estructuras de modelo ARMA razonablemente simples, para
estimar los parámetros de los diversos modelos e investigar si el los residuos estimados
pueden verse aproximadamente como ruido blanco. Esta estrategia equivale a una interacción
sutil entre identificación, estimación y modificación, y se necesita experiencia práctica para
adquirir alguna habilidad. Por lo general, no tiene mucho sentido comenzar con un modelo
ARMA muy grande y simplificarlo eliminando parámetros insignificantes. La razón de esto es
que es probable que nos encontremos con una situación en la que partes de los componentes
AR y MA se cancelen. Intuitivamente, si los datos se generan a partir de un modelo AR(1),

(1 -α1L)(1 -α2L)yt= (1 +θ1L)εt, (3.86)

los verdaderos valores de los parámetros sonα2=φ1,α1= 0, yθ1= 0 (dondeα1yα2podría ser


intercambiado, por supuesto). Sin embargo, (3.86) se cumple para cualquier valor deα1yθ1con α1= −θ1
porque entonces el modelo se reduce a la verdadera especificación AR(1). Por lo tanto, podemos
esperar problemas de estimación de los parámetros, y también problemas con la distribución de lat-
estadísticas de prueba paraα1yθ1. Por supuesto, cuando solo consideramos modelos AR, podemos
comenzar con un AR (pags∗) conpags∗grande, y trabajar hacia abajo a un AR(pags), dóndepagses un
valor menor que el inicialpags∗. Tenga en cuenta que esto constituye una ventaja adicional de los
modelos AR sobre los modelos ARMA.
Una vez estimados los parámetros, los residuosε̂tgeneralmente se inspeccionan para detectar la
presencia de alguna autocorrelación restante. Una vez más, esto contrasta con los modelos de regresión
basados en datos transversales, como en el caso de los modelos ARMA, los resultados de las
comprobaciones de diagnóstico pueden proporcionar sugerencias claras para la modificación del modelo.
3.3 Medidas de estimación y diagnóstico 59

En esta sección, analizamos los métodos para estimar los parámetros desconocidos en los
modelos AR y ARMA. Se pueden encontrar otras rutinas de estimación en la literatura avanzada sobre
modelos ARMA, verhamilton(1994), entre otros. Además, consideramos dos pruebas aplicadas a
menudo para la correlación en elε̂tseries de tiempo. Por lo general, se aplican otras medidas de
diagnóstico para verificar la idoneidad del modelo estimado, incluidas pruebas para detectar la
presencia de observaciones aberrantes, heteroscedasticidad y no linealidad, pero estas se analizan
más adelante en los capítulos correspondientes.

Estimación de modelos AR

Los parámetros en el AR(pags) modelo, dado por

yt=α+φ1yt−1+φ2yt−2+· · · +φpagsyt−pags+εt, t=pags+1,pags+2, . . . ,T,

(3.87)

se puede estimar por mínimos cuadrados ordinarios [OLS], donde las observacionesy1aypagsse
utilizan como valores iniciales. Se puede demostrar que los estimadores MCO de los
parámetrosα yφ1, . . . , φpagsson consistentes y asintóticamente normales, y ese estándart-las
estadísticas se pueden utilizar para investigar su significado. El medio incondicionalmdeytse
puede estimar usando

α̂
μ̂= . (3.88)
1 -φ̂1−φ̂2−· · · −φ̂pags

Una vez más, cabe subrayar que imponerαser cero, mientras quemno lo es, fuerza la estimación
(1 -φ̂1−φ̂ 2−· · · −φpagsˆ) hacia cero, y por lo tanto sugiere espuriamente la presencia de
una raíz unitaria, ver (3.38).
Considere los siguientes resultados de estimación para un modelo AR de orden 1 para el 12y t
logaritmo de ingresos mensuales por pasajero-kilómetro de aerolíneas europeas, para la muestra de
estimación 1994.1–2006.12, omitiendo las observaciones para 2001.9–2001.12:

12yt=0.019 + 0.71112yt−1+ε̂t, (3.89)


(0.004) (0.052)

donde los errores estándar estimados aparecen entre paréntesis. Claramente,φ̂1es


significativamente diferente de cero. El significadomde12ytse estima como 0.019/(1 − 0.711) = 0.
064. En la figura3.8, presentamos el gráfico de la serie de tiempo, el ajuste de la regresión (3.89
) y la serie temporal residual estimada. Esta figura ilustra una característica típica del ajuste de
los modelos de series temporales AR. Parece que la línea ajustada es aproximadamente igual a
la serie temporal original, pero con un período de retraso. Dada la expresión en (3.89), esto no
es sorprendente. Además, parece que el modelo AR(1) encuentra dificultades para ajustarse
60 Conceptos útiles en el análisis de series temporales univariadas

. 20
. 15
. 10
. 05
. 15 . 00

. 10 - . 05

- . 10
. 05
. 00
- . 05

- . 10
1996 1998 2000 2002 2004 2006

Figura 3.8:Ajuste típico de un modelo de serie temporal AR:


resultados de la estimación de un AR(1) en12ytconytel logaritmo
mensual de ingresos-pasajeros-pasajeros-kilómetros de las
aerolíneas europeas, 1994,1-2001,8 y 2002,1-2006,12. Las líneas
discontinuas cortas y largas corresponden a la serie temporal real y
los valores ajustados, respectivamente. La línea continua
representa los residuos. La línea vertical indica la brecha en la
muestra de estimación debido a la omisión de las observaciones
para 2001.9–2001.12.

las observaciones más extremas. En otras palabras, estas observaciones no pueden predecirse
bien dado el pasado (que, por supuesto, no esperaríamos).

Estimación de modelos ARMA


Existe una amplia variedad de métodos de estimación para modelos ARMA. La razón principal
de esto es que el retrasoεtlas variables en la parte MA no se observan y, por lo tanto, también
deben estimarse. Por ejemplo, para el modelo ARMA(1,1)

yt=φ1yt−1+εt+θ1εt−1, (3.90)

no solo los parametrosφ1yθ1son desconocidos, losεt−1la variable también lo es.


Un procedimiento de estimación simple basado en las propiedades de autocorrelación fue
propuesto porTuán(1979) yGalbraith y Zinde-Walsh(1994). De la expresión general para lak
Autocorrelación de -ésimo orden de un modelo ARMA(1,1) como se indica en (3.90), sigue
3.3 Medidas de estimación y diagnóstico 61

que
(1 +φ 1θ1)(φ1+θ1)
ρ1= , (3.91)
(1 + 2φ1θ1+θ2 1)
ρ2=φ1ρ1. (3.92)

Podemos reescribir (3.91) como una ecuación cuadrática en el parámetro de promedio móvilθ1,

φ12+ 1 − 2ρ1φ1.
θ12+segundo1+ 1 = 0 con b= (3.93)
φ1−ρ1
Tenga en cuenta quebno está bien definido siρ1=φ1. Se puede mostrar desde (3.91) que esto
solo ocurre si |φ1| =1 oθ1= 0. Por lo tanto, debemos asumir estacionariedad y un coeficiente de
promedio móvil distinto de cero para descartar ambos casos. Bajo este supuesto,
|b|>2, y la ecuación cuadrática tiene soluciones dadas por

− b±b2− 4
θ1= , (3.94)
2
donde una solución es menor que 1 en valor absoluto, mientras que la otra solución es mayor.
Estimaciones de los parámetrosφ1yθ1ahora se puede obtener de la siguiente manera. Primero
estimamos el parámetro AR comoφ̂1=ρ̂2/ρ̂1Residencia en (3.92), dóndeρ̂kdenota elk
Autocorrelación empírica de -ésimo orden. Combinamos esto conρ̂1para obtener una
estimaciónbde (3.93). Finalmente, el parámetro MA se estima sustituyendoben (3.94), donde
seleccionamos la solución |θ̂1|<1 para obtener un modelo invertible.
Un método de estimación alternativo que se usa con frecuencia comienza reescribiendo el modelo
ARMA(1,1) como

(1 +θ1L)−1yt=φ1(1 +θ1L)−1yt−1+εt. (3.95)

denotandozt= (1 +θ1L)−1yttal que

zt=yt−θ1yt−1+θ2 1yt−2−θ3 1yt−3+· · ·, (3.96)

podemos construir elztserie para un valor dado deθ1y suponiendo quey0= 0, como

z1=y1,
z2=y2−θ1y1,
z3=y3−θ1y2+θ2 1y1,

,
...

y así. Entonces podemos estimarφ1a través de OLS aplicado a (3.95). Esta regresión da una estimación
ε̂tserie, que se puede utilizar en (3.90) (ajusteε1= 0), para obtener nuevas estimaciones para ambosφ1y
paraθ1en un segundo paso. Dadas estas nuevas estimaciones, los residuos de (3.90) proporcionar
una nuevaε̂tserie, que se puede utilizar de nuevo para obtener nuevos
62 Conceptos útiles en el análisis de series temporales univariadas

estimaciones paraφ1yθ1de la regresión ARMA(1,1). Este procedimiento iterativo puede


continuar hasta la convergencia.
Como ilustración, considere las primeras diferencias de los precios de los logaritmos mensuales de la
plata, que se muestran en niveles en la Figura2.20, para el período de febrero de 1978 a diciembre de 2012
(la observación de enero de 1978 se pierde debido a la primera diferenciación). Inspeccionando el EACF para
esta serie, solo el primer orden aut√ ocorrelación parece significativa en 0.253 (basado en
el error estándar asintótico 1/TconT=419), lo que sugiere un modelo MA(1) para esta
serie. Usando el método de estimación iterativo descrito anteriormente, obtenemos

1yt=0.0038 +ε̂t+0.337ε̂t−1, (3.97)


(0.0053) (0.046)

con los errores estándar entre paréntesis debajo de las estimaciones de los parámetros. Dado que
este es un modelo MA, la media de 1ytviene dado por el intercepto, que no difiere
significativamente de 0. Elθ1el parámetro claramente es significativo al nivel del 5%.

Pruebas de diagnóstico para la autocorrelación residual

Un requisito obvio para un modelo de serie temporal ARMA es que la serie temporal de residuos sea
aproximadamente ruido blanco. En particular, los residuales deben tener autocorrelaciones
insignificantes en todos los rezagos. Si este no fuera el caso, es posible que nos hayamos perdido
alguna estructura dinámica enytque podría haberse incorporado en un modelo ARMA.
loskLa autocorrelación de -ésimo orden de los residuos estimados se puede calcular como
∑T
t=k+1ε̂tε̂t−k
rk(ε̂) = ∑T 2
, (3.98)
t=1ε̂t

pork=1,2,3. . .. Cuando el modelo estimado es adecuado, los equivalentes poblacionales derk(ε̂) no


están asintóticamente correlacionados y tienen varianzas que pueden aproximarse mediante (T−k)/(T
2+ 2T)≈T−1. Por lo tanto, bajo el supuesto adicional de normalidad, una verificación aproximada en el 5
por ciento significa√ nivel de cancelación es probar si el valor residual estimado
autocorrelaciones se encuentran dentro de la±2/Tintervalo.Ljung y caja(1978) proponen una prueba conjunta
para la significación de la primerametroautocorrelaciones residuales, que viene dada por

∑ metro

LB(metro) =T(T+2) (T−k)−1r2 k(ε̂). (3.99)


k=1

El LB(metro) el estadístico sigue asintóticamente ax2(metro−pags−q) distribución bajo la hipótesis de no


autocorrelación residual siempre quemontees pequeño ymetroes medianamente grande. Autocorrelación
residual en un ARMA(pags,q) el modelo no solo puede ser causado por los pedidospagsyqsiendo demasiado
bajo, sino también por otros tipos de errores de especificación del modelo, como la no linealidad o los
valores atípicos ignorados, consulteLumsdaine y Ng(1999). Por lo tanto, la prueba LB podría considerarse
como una prueba general para cualquier tipo de error de especificación dinámica.
3.3 Medidas de estimación y diagnóstico 63

en el modelo y, por lo tanto, se suele denominar prueba de baúl. Un inconveniente de esta


prueba de baúl es que puede ser útil para detectar que el modelo estimado es inadecuado,
pero no es útil para indicar cómo se debe modificar el modelo. Además, si por ejemplo la orden
metrose establece demasiado grande, la prueba LB carece de potencia frente a la
autocorrelación residual de bajo orden.
Una alternativa es considerar las pruebas de hipótesis anidadas desarrolladas enGodofredo
(1979), entre otros. Como se basan en el principio del multiplicador de Lagrange (LM), estas
pruebas son relativamente fáciles de calcular. Por ejemplo, para probar un AR(pags) modelo
contra un AR(pags+r)o contra un ARMA(pag, r)modelo, la prueba LM se obtiene ejecutando la
regresión auxiliar

ε̂t=α1yt−1+· · · +αpagsyt−pags+αpags+1ε̂t−1+· · · +αpags+rε̂t−r+vt,(3.100)

dóndeε̂tson los residuos de AR(pags) modelo, conε̂tse iguala a cero cuandot <pag+1. La
estadística de prueba se calcula comoTR2dóndeR2es el coeficiente de determinación de (3.100)
y es asintóticamentex2(r)distribuida bajo la hipótesis nula de que el AR(pags) modelo es
adecuado. Denotamos elF-versión de esta prueba LM comoFC.A.,1−r.La simulación da como
resultadoHall y McAleer(1989) indican que esta prueba LM a menudo tiene mayor potencia que
la prueba LB.
Para el modelo AR(1) de las aerolíneas europeas, la regresión auxiliar como (3.100) para la
autocorrelación residual de orden 1 da como resultado

ε̂t=0.001 - 0.0215 1yt−1+ 0.064ε̂t−1+v̂t, (3.101)


(0.0053) (0.074) (0.110)

para el período de muestra 1994.1–2001.8 y 2002.1–2006.12 (dondeε̂0y los valores


faltantes interiores deε̂t−1para 2001.9–2001.12 ambos se fijan en cero) con unR2
de 0.0024, dondeT=151. ElFC.A,1−1-la prueba toma el valor de 0,367, que no es significativo
al 5% de nivel de significación de laF(1,148) distribución. Por lo tanto, el modelo AR(1)
para esta serie ingresos-pasajeros-kilómetros no necesita ampliarse incluyendo rezagos
adicionales deyto deεt.
En el caso de un modelo MA(1) (y esto se aplica naturalmente a los modelos MA de orden
superior), es necesario tener en cuenta el hecho de que el regresorε̂t−1no se puede agregar al
modelo porque ese regresor ya está incluido. En ese caso, construimos una nueva serie de
tiempo.

yt∗=yt+θ̂1y∗ t−1, cony∗ 0= 0,


ε̂t∗=ε̂t+θ̂1ε̂∗ t−1, conε̂∗ 0= 0,

y realice la regresión auxiliar

ε̂t=α̂∗ 1ε̂t−1+β1y∗ t−1+· · · +βry∗ t−r+vt, (3.102)


64 Conceptos útiles en el análisis de series temporales univariadas

para contrastar la hipótesis nula del modelo MA(1) frente a un modelo MA(1+r)o un
ARMA(r,1) modelo como alternativa.
Para el modelo MA(1) estimado para la primera diferencia de los precios del logaritmo de la
plata, la resultanteFC.A,1−1-la prueba contra un modelo MA(2) o ARMA(1,1) toma un valor de 3.16,
que no es significativo al nivel del 5%.

Pruebas de diagnóstico para la normalidad de los residuos.

Para facilitar la interpretación de, por ejemplo, estimaciones de parámetros yt-proporciones,


los residuos deben tener una distribución aproximadamente normal. Un enfoque común para
verificar esto es comparar los momentos estandarizados tercero y cuarto, es decir, la asimetría
y la curtosis de los residuos con los valores implícitos en la distribución normal. La asimetría
[SK] deε̂tse puede calcular como

SK =metro3/metro3/2
2, (3.103)

y la curtosis [K] como

k =metro4/metro2
2, (3.104)

dóndemetrojes elj-momento deε̂t,dada por

1∑ T
metroj= ε̂tj, j=2,3,4. (3.105)
T t=1

Bajo la hipótesis nula de normalidad (y gi√hasta la ausencia de au√correlación en


ε̂t),podemos construir las estadísticas de prueba SK∗=T/6 SK y K∗=T/24 (K − 3), que son
independientes y cada uno tiene una asintóticanorte(0,1) distribución, verLomnicki (1961).
El conocido test de Jarque-Bera viene dado por

JB = (SK∗2+ k∗2)∼x2(2), (3.106)

verBera y Jarque(mil novecientos ochenta y dos).bai y ng(2005) discuten las modificaciones necesarias
a las estadísticas de prueba para datos de series de tiempo. El rechazo de la hipótesis nula de
normalidad puede indicar que hay algunas observaciones fuera de lugar o que el proceso de error no
es homocedástico. en capítulos6y7tratamos con modelos de series de tiempo que incorporan estas
características.
Los 151 residuos del modelo AR(1) para las diferencias anuales de ingresos logarítmicos
mensuales-pasajero-kilómetro de las aerolíneas europeas tienen SK = 0.22 yk=4.84. El JB toma
el valor de 22,66, que es significativo al nivel del 5 por ciento. Los 335 residuos del modelo
MA(1) para los precios logarítmicos de la plata diferenciados tienen asimetría y curtosis igual a
−0.45 y 11,72, respectivamente. Dado que aquí hay muchas más observaciones, la prueba JB
ahora alcanza el valor muy grande de 1340,37. Por lo tanto, la serie temporal de rendimientos
de la plata parece mostrar una o más observaciones periféricas.
3.4 Selección de modelo sesenta y cinco

Otras pruebas diagnósticas

Para el pronóstico fuera de la muestra, es importante que la serie de tiempo


continúe comportándose de manera similar durante el período de pronóstico ("fuera
de la muestra") como lo hace dentro de la muestra de estimación ("dentro de la
muestra"). Si esto es así, hay confianza en la posible utilidad del modelo de serie de
tiempo para propósitos de pronóstico. Si el modelo de series de tiempo sufre
cambios estructurales en la muestra, estos cambios deben tenerse en cuenta al
generar pronósticos. En el Capítulo6.
En los Capítulos7y8. en el capítulo7, discutimos las comprobaciones
diagnósticas de la presencia de heteroscedasticidad condicional. en el
capítulo8, nos centraremos en las pruebas para formas específicas de no
linealidad.

3.4 Selección de modelo


---------------------------------------------

La identificación, la estimación de parámetros y la aplicación de diagnósticos pueden dar como resultado un


conjunto de modelos tentativamente útiles, en el sentido de que estos modelos no pueden rechazarse
utilizando las medidas de diagnóstico anteriores. Es posible que luego queramos seleccionar un modelo final
usando algunos criterios adicionales. Una opción particular es considerar todos los modelos para el
pronóstico fuera de la muestra a fin de decidir qué modelo funciona mejor en algunos datos no vistos
anteriormente. Esto se discute con más detalle en la siguiente sección. Aquí analizamos varios criterios de
selección de modelos útiles que se basan en el rendimiento de los modelos dentro de la muestra de
estimación.
Se proporciona una encuesta de criterios de selección de modelos en, por ejemplo,De
Gooijeret al.(1985). Parece sensato suponer que ningún modelo esa prioripreferible, y por lo
tanto que los modelos deben ser tratados simétricamente. Esto corrobora las opiniones
expresadas enGranjeroet al.(1995). En general, esto implica que se selecciona un modelo final
que optimiza el valor de una determinada función de criterio.
Dos criterios populares para seleccionar entre modelos de series de tiempo son los criterios
de información propuestos porakaike(1974) yNegro(1978). Ambos criterios evalúan los
modelos en función de su ajuste en la muestra, teniendo en cuenta el número de parámetros
estimados o la “parsimonia” de los diferentes modelos. CuandoTahora denota el número de
observaciones efectivas (que son las observaciones utilizadas para estimar los parámetros), y
cuandokdenota el número de parámetros ARMA a estimar, el criterio de información de Akaike
[AIC] viene dado por

AIC(k) =TIniciar sesiónσ̂2+ 2k, (3.107)


66 Conceptos útiles en el análisis de series temporales univariadas

∑T 2
dóndeσ̂2= t=1ε̂t/Tes la varianza residual estimada. Las órdenes ARMApagsy
qque minimizan AIC(k) están seleccionados. La misma regla de decisión se aplica para el criterio de
información de Schwarz [SIC], que viene dado por

SIC(k) =TIniciar sesiónσ̂2+kIniciar sesiónt (3.108)

Comparando las expresiones para AIC y SIC, es claro que cuandoT≥8, el criterio SIC
penaliza la inclusión de regresores (y por tanto de parámetros adicionales) más que el
criterio AIC. Esto significa que los pedidos modelo seleccionados con SIC suelen ser más
pequeños que los pedidos modelo seleccionados con AIC.

3.5 Pronóstico
---------------------------------------------

Una vez que se han seleccionado uno o más modelos de series de tiempo, podemos considerar
pronosticar los valores futuros de la serie de tiempo en cuestión. Específicamente, podemos generar
unh-pronóstico paso adelante parayt,dóndehdenota el llamado horizonte de pronóstico. Dado que la
muestra que se utiliza para especificar el modelo de serie temporal está formada porTobservaciones
y1,y2, . . . ,yT,el pronóstico se refiere a la observaciónyT+hy se basa en el conjuntoYT. Se pueden
considerar tres tipos de pronósticos diferentes, pero relacionados. Primero unpronóstico puntual dey
T+h,denotado comoŷT+h|T,proporciona un valor específico para esta observación. En principio,
cualquier número proporcionaría un pronóstico puntual válido, pero obviamente el objetivo es hacer
pronósticos lo más precisos posible. La precisión del pronóstico se mide por medio de un llamado
función de pérdida, que luego también determina cuál es elh óptimo-el pronóstico del punto paso
adelante es. La idea subyacente es que cualquier diferencia entre el valor realyT+h
y el pronosticoŷT+h|Timplica una cierta pérdida para el usuario del pronóstico. El mejor pronóstico
puntual posible es el valor que minimiza el valor esperado de esta función de pérdida. En este libro,
asumimos que el usuario del pronóstico tiene una función de pérdida cuadrática, es decir

PérdidaT+h|T=mi2T+h|T, (3.109)

dóndemiT+h|Tdenota el error de pronóstico, es decirmiT+h|T=yT+h−ŷT+h|T.En ese caso, se puede


demostrar que el pronóstico puntual óptimo es la expectativa condicional deyT+h, eso es

ŷT+h|T=MI[yT+h|YT]. (3.110)

Notemos que al usar la expectativa condicional deyT+hcomo pronóstico puntual, la media condicional
del error de pronósticomiT+h|Tes igual a cero, de modo que la función de pérdida cuadrática se reduce
a la varianza del error de pronóstico. Por esa razón, en los ejemplos a continuación proporcionamos
expresiones explícitas para esta varianza.
3.5 Pronóstico 67

Remitimos al lector interesado a Christoffersen y Diebold (1996, 1997) para una


caracterización de pronósticos puntuales óptimos bajo funciones de pérdida alternativas, como
pérdida absoluta |miT+h|T| (donde el pronóstico puntual óptimo es la mediana deyT+h).
En segundo lugar, unpronóstico de intervaloconsiste en un límite inferiorL̂T+h|Ty
un límite superior ÛT+h|Ttal que el intervalo (L̂T+h|T, ÛT+h|T)contiene el valor realyT+h
con cierta probabilidad. Los subíndices enL̂yÛvolver a indicar que estos sonh
-pronósticos anticipados hechos en el momentot=T,es decir, condicionado aYT.
Obviamente, muchas opciones deL̂T+h|TyÛT+h|Tsatisfacer este requisito. Es común
construir pronósticos de intervalo de tal manera que sean simétricos alrededor del
pronóstico puntual. ŷT+h,eso es, (L̂T+h|T, ÛT+h|T) = (ŷT+h|T−c, ŷT+h|T+C) por ciertoC.
Tercero, unpronóstico de densidadse refiere a la distribución condicional deyT+h,denotado como F(
yT+h|YT).Un pronóstico de densidad proporciona una caracterización completa de la observación
futurayT+h,en el sentido de que también se puede usar para construir cualquier tipo de pronóstico de
punto e intervalo para esta observación.

Predicción con modelos MA


La construcción de pronósticos a partir de modelos ARMA es bastante sencilla, como quedará
claro en los siguientes ejemplos. Considere el modelo MA(2) con media cero

yt=εt+θ1εt−1+θ2εt−2, t=1,2, . . . ,T, (3.111)

y supongamos que nuestro objetivo es construir unh-pronóstico paso adelanteŷT+h|Tutilizando este


modelo. Comenzando con el pronóstico de un paso adelante parayT+1, notamos eso (3.111) implica
que para la verdadera observación enT+1 se sostiene que

yT+1=εT+1+θ1εT+θ2εT−1. (3.112)

En el momentoT,El valor deεT+1aún se desconoce. Sin embargo, sabemos que su expectativa


condicional en el tiempoT,MI[εT+1|YT],es igual a cero. Por lo tanto, el pronóstico puntual óptimo yT+1
(asumiendo pérdida cuadrática) es igual

ŷT+1|T=MI[yT+1|YT] =θ1εT+θ2εT−1. (3.113)

En la práctica, los valores deθ1,θ2,εT,yεT−1son, por supuesto, desconocidos y deben


estimarse, pero por conveniencia de la notación aquí asumimos que se dan.
Comparando las expresiones deyT+1yŷT+1|T,el error de pronóstico de un paso adelante (o
error de predicción)miT+1|Tes igual al choque que ocurre ent=norte+1, es decir,

miT+1|T=yT+1−ŷT+1|T=εT+1. (3.114)

Por lo tanto, la varianza del error de pronósticoV[miT+1|T]es igual aσ2, que es la varianza
deεt.
68 Conceptos útiles en el análisis de series temporales univariadas

Para dos pasos adelante, tenemos

miT+2|T=yT+2−ŷT+2|T= (εT+2+θ1εT+1+θ2εT) − (θ2εT), (3.115)

como en el tiempoT,εT+2yεT+1son desconocidos, tal queŷT+2|T=MI[yT+2|YT] =θ2εT.los


la varianza del error de pronóstico de dos pasos adelante es igual a (1 +θ2 1)σ2. Por tres pasos adelante,
obtenemos

ŷT+3|T=MI[yT+3|YT] =MI[εT+3+θ1εT+2+θ2εT+1|YT] =0, (3.116)

es decir, no hay memoria en el modelo MA(2) que pueda ayudar a pronosticaryT+3. Por lo tanto,
el error de pronóstico correspondientemiT+3|Tes igual a la observación realyT+3,

miT+3|T=yT+3−ŷT+3|T=εT+3+θ1εT+2+θ2εT+1, (3.117)

tal que la varianza del error de pronóstico es igual aV[miT+3|T] = (1 +θ2 1+θ2 2)σ2. de hecho,
sigue desde (3.111) que para cualquier horizonteh≥3, el pronóstico de punto óptimoŷT+h|T
del modelo MA(2) es igual a 0, y el error de pronóstico correspondiente es igual
a la observación real con varianzaV[miT+h|T] = (1 +θ2 1+θ2 2)σ2.
En general, para un MA(q) modelar elh-pronóstico paso adelante es igual

∑q
ŷT+h|T= θi+hεT−i, (3.118)
i=0

conθ0= 1 yθi+h=0 parai+h > q. De (3.118) se sigue que, para una serie de tiempo de media
cero que puede ser descrita por un MA(q) modelo,ŷT+h|T=0 cuandoh > q. los h-Error de
pronóstico de paso adelante correspondiente a (3.118) es igual a

h−1

miT+h|T=yT+h−ŷT+h|T= θiεT+h−i. (3.119)
i=0

La suposición del ruido blanco en los amortiguadores.εtimplica que

MI[miT+h|T|YT] =0,y (3.120)


h−1

V[miT+h|T] =MI[mi2 T+h|YT] =σ2 θi2. (3.121)
i=0

Dado que

yT+h=ŷT+h|T+miT+h|T, (3.122)

y dado queŷT+h|Tes la expectativa condicional deyT+h,se sigue que la varianza condicional


deyT+hes igual aV[miT+h|T].De hecho, la distribución condicional de yT+hen el momentoT,o
el pronóstico de densidad, es igual a la distribución demiT+h|T,excepto con mediaŷT+h|Ten
lugar de cero. Suponiendo normalidad deεt,se sigue de (3.119) que
3.5 Pronóstico 69

miT+h|TyyT+hse distribuyen normalmente. En ese caso, un pronóstico de intervalo de 95 por ciento


parayT+hes dado por
√ √
(ŷT+h|T−1.96 V[miT+h|T], ŷT+h|T+1.96V[miT+h|T]). (3.123)

Pronóstico con modelos AR


Para un AR(pags) modelo sostiene queytdepende de todas las observaciones anteriores, y por lo tanto
lahLos pronósticos de paso adelante tienen una dependencia similar. Considere por ejemplo el
modelo AR(2)

yt=φ1yt−1+φ2yt−2+εt, (3.124)

y el pronóstico de un paso adelante en el momentoT,eso es

ŷT+1|T=φ1yT+φ2yT−1. (3.125)

Como el verdadero valor ent=norte+1 está dado por

yT+1=φ1yT+φ2yT−1+εT+1, (3.126)

el error de pronóstico de un paso adelantemiT+1|Tde nuevo es igual aεT+1con varianzaσ2. Para dos
pasos adelante, obtenemos

ŷT+2|T=MI[φ1yT+1+φ2yT+εT+2|YT]
=φ1ŷT+1|T+φ2yT
=φ1(φ1yT+φ2yT−1) +φ2yT. (3.127)

Como

yT+2=φ1yT+1+φ2yT+εT+2
=φ1(φ1yT+φ2yT−1+εT+1) +φ2yT+εT+2, (3.128)

sostiene quemiT+2|T=εT+2+φ1εT+1y

V[miT+2|T] = (1 +φ21)σ2. (3.129)

Para tres pasos adelante, tendríamos

ŷT+3|T=MI[φ1yT+2+φ2yT+1+εT+3|YT]
=φ1ŷT+2|T+φ2ŷT+1|T
=φ1(φ1(φ1yT+φ2yT−1) +φ2yT) +φ2(φ1yT+φ2yT−1), (3.130)
70 Conceptos útiles en el análisis de series temporales univariadas

y como

yT+3=φ1yT+2+φ2yT+1+εT+3
=φ1(φ1(φ1yT+φ2yT−1+εT+1) +φ2yT+εT+2)
+ φ2(φ1yT+φ2yT−1+εT+1) +εT+3, (3.131)

el error de pronosticomiT+3|T=εT+3+φ1εT+2+ (φ2 1+φ2)εT+1con varianza

V[miT+3|T] = (1 +φ21+φ2 2+ 2φ21φ2+φ4 1)σ2, (3.132)

lo que demuestra queV[miT+3|T]>V[miT+2|T].

Ejercicio3.12

En general, para AR(pags) sostiene que la varianza del error de pronóstico aumenta con el
horizonte de pronóstico, es decir,V[miT+h|T]>V[miT+h−1|T]para todosh >1. La expresión en (3.132)
muestra claramente que la expresión para lah-La varianza del error de pronóstico paso
adelante puede ser notablemente engorrosa. Entonces es más útil escribir un AR(pags) modelo
en formato MA y, como tal, utiliza fórmulas similares a (3.121). Por ejemplo, el modelo AR(2) (
3.124) Se puede escribir como

yt=εt+η1εt−1+η2εt−2+η3εt−3+· · ·, (3.133)

por lo que sostiene que


h−1

V[miT+h|T] =MI[mi2 T+h|YT] =σ2 ηi2, conη0= 1. (3.134)
i=0

Para el modelo AR(2), es fácil verificar queη1=φ1yη2=φ2 1+φ2, tal que para
h=3 (3.134) de hecho es igual a (3.132).

Ejercicio3.13

loshLos pronósticos paso a paso para los modelos ARMA se derivan de manera similar a
los modelos AR y MA. Por ejemplo, para el modelo ARMA(1,1) tenemos

ŷT+1|T=φ1yT+θ1εT, (3.135)

con obviamente de nuevoV[miT+1|T] =σ2. Más lejos,

ŷT+2|T=MI[φ1yT+1+εT+2+θ1εT+1|YT]
=φ1ŷT+1
=φ1(φ1yT+θ1εT). (3.136)
3.5 Pronóstico 71

el valor realyT+2se puede expresar como

yT+2=φ1yT+1+εT+2+θ1εT+1
=φ1(φ1yT+εT+1+θ1εT) +εT+2+θ1εT+1, (3.137)

tal quemiT+2|T=εT+2+ (φ1+θ1)εT+1yV[miT+2|T] = (1 +θ2 1+φ2 1+ 2φ1θ1)σ2.


Esta última expresión también se puede derivar escribiendo el modelo ARMA(1,1) como

yt= (1 -φ1L)−1(1 +θ1L)εt


=εt+η1εt−1+η2εt−2+η3εt−3+· · ·, (3.138)

dóndeη1=φ1+θ1.
Un comentario final sobre la construcción de pronósticos se refiere a pronosticar la serie de tiempo
originalwtcuando se ha hecho un modelo parayt=Iniciar sesión(wt).Considere nuevamente el modelo MA(2) y
su pronóstico de un paso adelante

ŷT+1|T=θ1εT+θ2εT−1. (3.139)

Si entonces tomamos el pronóstico parawT+1como

ŵT+1|T=Exp(ŷT+1|T), (3.140)

es fácil demostrar queŵT+1|Testá sesgado porwT+1como

MI[wT+1] =MI[Exp(εT+1+θ1εT+θ2εT−1)]
=Exp(σ2/2)MI[Exp(θ1εT+θ2εT−1)]
=Exp(σ2/2)ŵT+1|T, (3.141)

cuando la normalidad deεtse supone. Por lo tanto, en el caso de un modelo para registros, un
pronóstico no sesgado dewT+1viene dada por exp(σ2/2)ŵT+1|T,dóndeŵT+1|Tse llama el pronóstico
"ingenuo". Para dos pasos adelante, tenemos que

MI[wT+2] =MI[Exp(εT+2+θ1εT+1+θ2εT)]
=exp[(1 +θ2 1)σ2/2]MI[Exp(θ2εT)]
=exp[(1 +θ2 1)σ2/2]ŵT+2|T. (3.142)

Cuando los modelos ARMA se escriben en formato MA como (3.133), expresiones propias para
el factor de corrección de los pronósticos ingenuos parawT+hse puede derivar, verGranger y
Newbold(1976) para derivaciones adicionales.

Evaluación y comparación de pronósticos

La previsión del rendimiento es una herramienta útil para evaluar y comparar modelos de series
temporales. Un procedimiento práctico común es mantenerPAGSobservaciones separadas en orden
72 Conceptos útiles en el análisis de series temporales univariadas

para poder evaluar lah-pronósticos paso adelanteŷT+h+i|T+i=MI[yT+h+i|YT+i]por i=0, . . . ,PAGS−ha partir


de modelos que se construyen utilizando la primeraTobservaciones. Se deben tomar varias
decisiones al implementar el ejercicio de pronóstico. Primero, el horizonte de pronósticohnecesita ser
seleccionado. Los pronósticos a corto plazo a menudo son de mayor interés, sugiriendo tomarh=1,
pero en otras aplicaciones los pronósticos a largo plazo también pueden ser relevantes. En segundo
lugar, la muestra disponible de tamañoT+PAGSdebe dividirse en una parte inicial de Tobservaciones
que se utilizan para la especificación del modelo y la estimación de parámetros, y una segunda parte
(o muestra reservada) dePAGSobservaciones para las cuales se hacen y evalúan pronósticos.
Intuitivamente, nos gustaría establecerPAGStan grande como sea posible, con el fin de tener un gran
número de pronósticos para evaluar la precisión de los modelos de la competencia. Por otro lado, sin
embargo, también nos gustaría establecerTsuficientemente grande, para ayudar a identificar
modelos potencialmente útiles y obtener estimaciones de parámetros razonablemente precisas. No
existe una regla estricta que pueda guiar la elección adecuada deTyPAGS. Tercero, debemos decidir si
reestimar o no los parámetros del modelo durante el período de pronóstico. Es decir, al hacer el
pronósticoŷT+h+i|T+i=MI[yT+h+i|YT+i]para una dadai=0, . . . ,PAGS−h, podemos usar las estimaciones de
parámetros iniciales basadas en observacionesy1, . . . ,yT,o reestimar los parámetros basados en el
conjuntoYT+ique contiene observaciones hastayT+i.Si decidimos volver a estimar los parámetros,
debemos elegir entre usar una ventana expandible o una ventana móvil para la estimación. En el
primer caso, para cualquier valor dado deiestimamos los parámetros usando todas las observaciones
disponiblesy1,y2, . . . ,yT+i.En el segundo caso, borramos el primero.ipuntos de datos tales que la
muestra de estimación tiene el mismo tamañoTpara todos losPAGSpronósticos

La precisión del pronóstico de un modelo de serie de tiempo individual se puede evaluar de varias
maneras. Para pronósticos puntualesŷT+h+i|T+i,una posibilidad obvia es considerar su precisión en
términos de la función de pérdida en la que se basan. Por ejemplo, para pronósticos puntuales
basados en la función de pérdida cuadrática (3.109), un criterio de evaluación de pronóstico sensible
es el error de predicción cuadrático medio [MSPE], que se puede calcular como

1 ∑
PAGS−h

2
MSPE(h) = (y T+h+i−ŷ T+h+i|T+i)
PAGS−h+1
i=0

1 ∑
PAGS−h

= mi
T+2h+i|T+i. (3.143)
PAGS−h+1
i=0

Es útil notar que el MSPE se puede escribir como la suma de la varianza del error de pronóstico
y el sesgo al cuadrado, es decir,

MSPE(h) =σ̂2 mi
h
+ mi
h 2, (3.144)

1 ∑ 1 ∑
dóndeσ̂2mih= i=0(miT+h+i|T+i−mih)2ymih= miT+h+i|T+i.En
PAGS−h PAGS−h

PAGS−h+1 PAGS−h+ 1 i=0


En la práctica, a menudo es deseable tener pronósticos que no estén sesgados, es decir, pronósticos promedio.
3.5 Pronóstico 73

errormih,debe estar cerca de cero. Si este no es el caso, el modelo subestima o sobreestima la


media condicional de la serie temporal. Por lo general, esto se puede interpretar como que el
componente determinista del modelo, como la media y la tendencia, no se especifica
adecuadamente. Por otro lado, en algunas aplicaciones resulta que los pronósticos levemente
sesgados tienen una varianza considerablemente menor que los no sesgados, por lo que el
MSPE puede ser menor.
Los criterios alternativos de evaluación del pronóstico incluyen el error absoluto medio [MAE],

1 ∑
PAGS−h∣

MAE(h) = ∣y T+h+i − ŷT+h+i|T+i ∣, (3.145)
PAGS−h+1
i=0

y el error porcentual absoluto medio [MAPE],


∑∣
PAGS−h∣ ∣
1
∣yT+h+i−ŷT+h+i|T+i∣ ∣
MAPA(h) = ∣ ∣. (3.146)
PAGS−h+1
i=0 yT+h+i

Cabe mencionar que MAPE no es muy útil cuando la serie de tiempoytpuede tomar valores muy
cercanos a cero, como en el caso de las tasas de crecimiento.
La comparación de diferentes modelos de series temporales en términos de precisión del
pronóstico fuera de la muestra se puede basar en criterios como el MSPE definido en (3.143),
donde obviamente el modelo que da el valor de MSPE más pequeño es el preferido ya que da
los pronósticos más precisos.diebold y mariano(1995) consideran varias estadísticas para
probar si la diferencia en MSPE de dos modelos competidores, digamos A y B, es significativa o
no. La estadística de prueba que se ha vuelto más popular en la práctica se basa en el llamado
diferencial de pérdidas.dt,definió un

dt≡mi2A|t−h−mi2 segundo|t−h,

dóndemiA|t−hymisegundo|t−hdenote los errores de pronóstico de los modelos A y B,


respectivamente. La hipótesis nula a probar es que los MSPE son iguales, lo que se puede
reformular como MI[dt] =0. Dada una secuencia dePAGSrealizacionesdtport=T+h, . . . , T+h+
PAGS−1, el diferencial de pérdida media de la muestrad=1∑PAGS−1

PAGSi=0dT+h+id ividido por su patrón de muestra


desviación tiene una distribución normal estándar asintóticamente, es decir

d
√ ∼norte(0,1),
σ̂2/PAGS
d
t

dóndeσ̂2dt es la varianza dedt,que puede ser com puesto como

h−1

σ̂d2t=γ̂0 + 2 γ̂j,
j=0
74 Conceptos útiles en el análisis de series temporales univariadas

conγ̂jdenotando elj-autocovarianza muestral de th orden

− 1−j(
1PAGS ∑ )( )
γ̂j= dt− d dt−j−d . ¯
PAGS
i=0

La corrección de la varianza muestral.γ̂0con las autocovarianzasγ̂j,j=1, . . . ,h−


1, se basa en el hecho de que los errores de pronóstico parah-los pronósticos paso a paso se
correlacionan en serie hasta (al menos) el ordenh−1 por construcción. Nos referimos anewbold y
harvey (2002) yOeste(2006) para discusiones detalladas sobre la evaluación de pronósticos puntuales
y, en particular, estadísticas para comparar la precisión predictiva.
Para evaluar los pronósticos por intervalos, una posibilidad obvia es verificar si efectivamente pagspor
ciento de los pronósticos de hecho se encuentran dentro de lapagsintervalo de pronóstico porcentual. Si es
así, ganamos confianza en el modelo. De lo contrario, es probable que la varianza de los datos esté
subestimada o sobrestimada. Las estadísticas de prueba formales para evaluar dichos pronósticos de
intervalo se desarrollan enChristoffersen(1998) yWallis(2003), ver tambiénclementes(2005) para una revisión.
Los temas involucrados en la evaluación de los pronósticos de densidad se discuten enCorradi y Swanson (
2006).
Finalmente, debemos notar que aquí hemos discutido solo los ingredientes más importantes para
el pronóstico fuera de la muestra. Se pueden encontrar tratamientos más extensos de pronóstico en
Clements y Hendry (1998, 1999), mientras que los capítulos en los volúmenes editados por Clements y
Hendry (2002) y Ellioty otros. (2006) se centran en ciertos temas específicos.

CONCLUSIÓN

En este capítulo hemos discutido algunos conceptos importantes en el modelado y pronóstico de


series temporales univariadas. Estos conceptos deberían ser una base útil al analizar series de tiempo
con las características típicas revisadas en el Capítulo2. En muchos casos a continuación nos
limitaremos a ARI (p, d) modelos. Dichos modelos tienen varias ventajas sobre ARIMA (p, d, q)
modelos. Por ejemplo, la estimación de parámetros y la verificación de diagnóstico son bastante
sencillas, la memoria más larga hace que los modelos AR sean quizás más útiles para el pronóstico, y
pueden extenderse a modelos multivariados con bastante facilidad (como veremos en el Capítulo 1).9
). Además, la no linealidad y los valores atípicos se manejan más fácilmente dentro de
el marco ARI.
En el próximo capítulo comenzamos con una discusión de las tendencias. La idoneidad de los pronósticos
para las series temporales económicas y comerciales puede depender en gran medida de la forma adecuada
de la tendencia en el modelo. Se demostrará que el concepto de raíces unitarias en el polinomio AR juega un
papel crucial.
Ejercicios 75

EJERCICIOS

3.1Supongamos que cambiamos el modelo en (3.11) ayt=α+φ1yt−1+εt.Expresar el valor


inicialy0en términos de observaciones previas a la muestra,αyφ.
3.2Derive los primeros cuatro valoresπ1,π2,π3, yπ4en el polinomio aproximado

π(L) = 1 −π1L−π2L2−π3L3−π4L4 (3.147)

cuando es cierto que


1 -φ1L−φ2L2
π(L) = . (3.148)
1 +θ1L
Esta última relación de polinomios corresponde a un modelo ARMA(2,1).
3.3Considere una serie de tiempo semestralyt,t=1,2, . . . ,T,que puede ser descrito por

yt=φ1yt−1+εt, (3.149)

dóndeεtes una variable estándar de ruido blanco con varianzaσ2 ε.Supongamos que un agregado
divide los datos bianuales en observaciones anualesXa,cona=1,2, . . . ,T/2, es
decir,

X1=y1+y2,X2=y3+y4,X3=y5+y6, . . .
y en general

Xa=y2a−1+y2a.
Demuestre que el modelo ARMA paraXaes

Xa=αXa−1+Va+θVa−1, (3.150)

dóndeαyθson funciones deφ1yσ2 ε.


3.4Considere las variablesytyXt,que puede ser descrito por

yt=φ1yt−1+εt,
y
Xt=xt−4+tut+tut−1.
Demuestre que la variableztdefinido porzt=yt+Xtse puede describir mediante un
modelo ARMA(5,4).
3.5Considere una serie de tiempoyt,que puede ser descrito por

yt=φ1yt−1+εt+θ1εt−1, (3.151)

dóndeεtes una variable estándar de ruido blanco con varianzaσ2 ε.Desafortunadamente,

resulta queytsolo se observa con error de medida, es decir, se observa


76 Conceptos útiles en el análisis de series temporales univariadas

zt,dada por

zt=yt+tut, (3.152)

en vez deyt,dóndetutes también una variable estándar de ruido blanco con varianzaσ2 tu.
Se sabe queεtytutno están mutuamente correlacionados en todos los
rezagos. una. Derive el modelo ARMA parazt
b. ¿Es posible recuperar los parámetros en el modelo paraytde las estimaciones de
parámetros para este modelo ARMA(1,1) parazt?Y, cuando se supone queσ2 tu
es igual aσ2ε?
3.6Generar 100 series temporales artificiales deT=200 observaciones del modelo AR(1)
dado en (3.33)m= 10 yφ1= 0.5. Establecer el valor inicialy0=m= 10 para todas las
series, pero use amortiguadores diferentesεt,t=1, . . . ,200 conεt∼norte(0,1). Para
cada una de esas series, estime el parámetro en una regresión AR(1) que no incluya
un intercepto, es decir,yt=φyt−1+εt.Examine las propiedades de las estimaciones de
mínimos cuadrados. En particular, ¿cómo la media deφ̂1relacionar con el valor real
φ1= 0.5?
3.7Demuestre que la media incondicional de una serie de tiempoytque puede ser descrita por
el modelo AR(1) (3.42) es igual amcuando |φ1|<1.
3.8Muestre que elkLa autocorrelación de orden ésimo de un modelo ARMA(1,1) viene dada por (3.73).

3.9Considere el siguiente modelo ARMA(1,2) para una serie de tiempoyt,eso es,

yt=φ1yt−1+εt+θ1εt−1+θ2εt−2 (3.153)

dóndeεtes un proceso estándar de ruido blanco con varianzaσ2, y con |φ1|<1 y


dondeφ1,θ1yθ2son desiguales a cero. Dé expresiones para las tres primeras
autocorrelaciones deyt.
3.10Demuestre que se sigue de (3.77) que la autocorrelación parcial de primer ordenψ1= γ1
/γ0.
3.11Muestra esa (3.81) implica que la suma de las autocorrelaciones de una serie temporal
sobrediferenciada es igual a −0.5, como lo sugiere (3.82).
3.12Demuestre que la varianza del error de pronóstico de 2 y 3 pasos adelante para un modelo AR(2)
está dada por (3.129) y (3.132), respectivamente.
3.13Verifique que para un modelo AR(2)η1=φ1yη2=φ2 1+φ2en (3.134), tal que para
h=3 la expresión resultante de la varianza del error de pronóstico es igual a (3.132).
4Tendencias

Los ejemplos enCapítulo2demuestran que muchas series de tiempo en economía y negocios tienen
un patrón de tendencia, donde para las series de tiempo macroeconómicas tales tendencias
típicamente se mueven hacia arriba. Aunque muchos profesionales podrían indicar
aproximadamente qué es una tendencia ("una tendencia general de una variable a aumentar o
disminuir con el tiempo"), no se puede dar una definición formal de tendencia sino en el contexto de
un modelo. Dicho de otra manera, solo después de haber acordado un modelo de serie de tiempo
que (presuntamente) describa los datos disponibles, podemos definir una tendencia dentro de este
marco y discutir las "propiedades de tendencia" de la serie de tiempo de manera significativa. En este
libro, la atención se centra en los modelos de series temporales de tipo ARMA y, por lo tanto, el
capítulo actual se ocupa de las tendencias dentro de esta clase de modelo.

Por varias razones, es importante investigar la formulación adecuada de la tendencia en una serie de
tiempo antes de esforzarse en modelar otras características de datos y pronósticos. En primer lugar,
la tendencia dominará los pronósticos fuera de la muestra a largo plazo, aunque también los
pronósticos a corto plazo pueden verse afectados, como veremos en la Sección4.4. Una especificación
inadecuada de la tendencia posiblemente conduce a pronósticos sesgados o inexactos en otros
aspectos. En segundo lugar, una serie de tiempo que muestra una tendencia no es estacionaria, en el
sentido de que no tiene una media constante. Además, dependiendo de la naturaleza de la tendencia,
la varianza incondicional de la serie no es constante en el tiempo sino que aumenta con cada nueva
observación. Esto implica que la función de autocorrelación también puede variar con el tiempo,
simplemente porque depende de la varianza. Para cualquier serie temporal dada, podemos calcular
la media de la muestra, la varianza y las autocorrelaciones. Sin embargo, para las series de tiempo
con tendencias, estas estimaciones no son significativas, ya que no convergen a valores específicos
cuando aumenta el número de observaciones. En otras palabras, para que las estadísticas de
resumen como la media, la varianza y las autocorrelaciones sean interpretables, estas tres medidas
deben ser constantes a lo largo del tiempo, lo que normalmente no es el caso de las series de
tendencia. Por lo tanto, se debe tener mucho cuidado al analizar tales series de tiempo, y en este
capítulo se discutirán varios aspectos de dicho análisis.

77
78 Tendencias

Una definición más formal de estacionariedad de una serie de tiempoytes que las tres propiedades
siguientes deben cumplirse:

MI[yt] =m para todost=1,2, . . . ,T, (4.1)


MI[(yt−m)2] =γ0 para todost=1,2, . . . ,T, (4.2)
MI[(yt−m)(yt−k−m)] =γk para todost=1,2, . . . ,T, (4.3)
yk=. . . ,−2,−1,0,1,2, . . .

dóndem,γ0yγkson todos números de valores finitos. Para una serie de tiempo dada es difícil verificar
si estas tres condiciones se cumplen al mismo tiempo. Intuitivamente, para verificar (4.1) con un
determinado estadístico de prueba, necesitamos una estimación de la varianza deyt,que a su vez
debe obedecer (4.2), que a su vez depende de la validez de (4.1). Por lo tanto, para propósitos
prácticos de diagnóstico (4.1)–(4.3) no son fácilmente útiles.
Una forma de superar las limitaciones prácticas de (4.1)–(4.3) al investigar la estacionariedad o el
comportamiento de tendencias de una serie de tiempo es considerar la estacionariedad y las
tendencias dentro del marco de un AR(pags) modelo de serie temporal, posiblemente con
componentes deterministas. Es decir, es posible examinar para qué valores de los parámetros
autorregresivos o para qué componentes en la parte determinista de un AR(pags) modelar las
condiciones (4.1)–(4.3) no lo sujetes. Obviamente, cuando el componente determinista incluye la
variablet,t=1,2, . . . ,T,la serie de tiempo tiene una tendencia determinista. Por ejemplo, supongamos
que un modelo útil esyt=m+δt+εt,cond= 0 yεtuna serie de ruido blanco con varianzaσ2. En este caso la
media incondicional deytes igual am+dt y por lo tanto varía con el tiempo, pero su varianza
incondicional es igual aσ2y es constante. Por otro lado, cuando el AR(pags) parte del modelo contiene
el componente (1 −L), decimos que elytserie tiene una tendencia estocástica, como se describe a
continuación. La media incondicional de una serie con tendencia estocástica puede ser constante o
variable en el tiempo dependiendo de la especificación del componente determinista, pero en
cualquier caso su varianza incondicional aumenta con el tiempo, como demostraremos en la Sección
4.1. En suma, diferentes especificaciones de tendencia implican diferentes propiedades de series de
tiempo.
En la práctica, procedemos de la siguiente manera para determinar la especificación de
tendencia apropiada para una serie de tiempo dada. Un RA(pags) el modelo se ajusta a la serie
temporalyt.A continuación, probamos si la variable de tendenciatcontribuye a la explicación dey
t,o si a (1 −L) componente se puede separar del AR(pags) parte, o tal vez incluso ambos. Tener
un (1 −L) en el polinomio AR es equivalente a tener una solución igual a 1 para la ecuación
característica correspondiente. Por lo tanto, al examinar la relevancia de una tendencia
estocástica en una serie de tiempo dada, decimos que investigamos la presencia de una raíz
unitaria.
En este capítulo, revisamos las especificaciones de tendencias determinísticas y estocásticas en AR(
pags) modelos en la Sección4.1. Métodos para verificar si una serie de tiempo es estacionaria o no y,
por lo tanto, para hacer la elección necesaria entre las dos caracterizaciones de tendencias.
4.1 Tendencias de modelado 79

se discuten en las siguientes dos secciones, enfocándose en elDickey y Fuller(1979) método en la


Sección4.2y en elkwiatkowskiet al.(1992) método en la Sección4.3. La literatura sobre este tema se ha
expandido enormemente en las últimas décadas, principalmente porque los métodos estadísticos
involucrados no son estándar. Por supuesto, es virtualmente imposible tratar todos los temas aquí. El
lector interesado debe consultar encuestas más extensas, que aparecen enhamilton(1994),Hansen(
1996), yphillips y xiao (1998), entre muchos otros. El objetivo principal de este capítulo es mostrar
cómo se pueden modelar las tendencias en el contexto de los modelos AR y cómo las diversas
decisiones que deben tomarse pueden afectar el pronóstico fuera de la muestra. Este último tema se
trata en la Sección4.4. en el capítulo9Veremos que una decisión sobre tendencias en series de tiempo
univariadas tiene un impacto en cómo proceder con el modelado de un conjunto de series de tiempo
en un modelo multivariado.

4.1 Tendencias de modelado


---------------------------------------------

Para discutir las diversas representaciones posibles de tendencias dentro del contexto de un modelo
de serie de tiempo autorregresivo, considere el modelo AR(1) donde la serie de tiempoyt
se considera en desviación de una tendencia lineal determinista, es decir

yt−m−δt=φ1(yt−1−m−d(t−1)) +εt, t=1,2, . . . ,t (4.4)

cuando |φ1|<1, la serie de tiempoytmedia-revierte am+dt,vea abajo. Esto se puede reescribir


en formato de regresión como

yt= (1 -φ1)m+φ1d+ (1 -φ1)δt+φ1yt−1+εt, (4.5)

o más compacto como

yt=α+βt+φ1yt−1+εt, (4.6)

que se corresponde con el modelo que consideraríamos para la estimación dem,d yφ1,
véase también el capítulo3para el caso sin tendencia determinista.

Ejercicio4.1

Definiciónzt=yt−m−δt,podemos expresarzten términos de los choques actuales y rezagados εt−i,i


=0,1, . . . ,t−1 sustituyendo recursivamente rezagadoztvalores en (4.4) como

∑t
zt= (φ1)tz0+ (φ1t−)iεi, (4.7)
i=1

dóndez0es un valor inicial previo a la muestra dezt.Esto, por supuesto, se parece a (3.12). Como se
discutió en el Capítulo3, cuando |φ1|<1, (4.7) indica que los shocks más recientesεitener un mayor
impacto enztque los menos recientes. De hecho, el efecto de tales choques se extingue en
80 Tendencias

el largo plazo o, en otras palabras, tales choques son transitorios. Se sigue de (4.7) y el
análisis en el capítulo anterior que, suponiendo que |φ1|<1, la media incondicional deztes
igual az0, que normalmente establecemos igual a 0 por conveniencia. Por lo tanto, la
media incondicional deytes igual am+dtpara todost=1,2, . . ..Así mismo, se sigue
que la varianza incondicional deytes igual aσ2/(1 -φ2 1).
Como (4.4) Se puede escribir comozt=φ1zt−1+εt,o equivalentemente como

1zt= (φ1− 1)zt−1+εt, (4.8)

se puede observar que cuando |φ1|<1, valores positivos dezt−1conducirá en promedio a


un valor negativo de 1zty por lo tanto a una disminución dezt.Del mismo modo, los valores
negativos tienden a aumentarzt.Dado que los valores positivos y negativos deztcorresponde conyt
siendo mayor o menor que su media incondicionalm+dt,decimos que cuando |φ1|<1, la serie de tiempoyt
muestra un comportamiento de reversión de la media a la tendenciam+dt,que también se denomina
comportamiento de inversión de tendencia. Los resultados en el Capítulo3en el ACF y PACF de un modelo
AR(1) muestran que estas funciones toman valores constantes cuando |φ1|es menor que 1. Como la variable
de tendencia deterministatestá incluido en (4.4), cuando |φ1|<1 decimos que ytes una serie de tiempo
estacionaria de tendencia y que puede describirse mediante un modelo de tendencia determinista [modelo
DT].
Cuandoφ1= 1 en (4.4), la serie de tiempoytno muestra un comportamiento de reversión a la media como
en ese caso (4.8) reduce a

1zt=εt, (4.9)

o en términos deyt,

yt=d+yt−1+εt. (4.10)

Este modelo en particular se llama caminata aleatoria con deriva, donde la deriva es igual ad. Con φ1= 1,
también se cumple que (4.9) Se puede escribir como

∑t
zt=z0+ εi, (4.11)
i=1

o de nuevo en términos deytcomo

∑t
yt=y0+dt+ εi, (4.12)
i=1

dóndey0es alguna función de las observaciones previas a la muestra ym. El tiempo de suma parcial
∑t
serieSt= i=1εique aparece en (4.12) se llama tendencia estocástica. Por lo tanto, cuando

la serie de tiempoytse puede describir mediante el modelo de paseo aleatorio con deriva (4.10) con d=
0, (4.12) muestra que entonces tiene tanto una tendencia determinista como una tendencia
estocástica. Para evitar confusiones, cuandoφ1= 1,ytse dice que está descrito por un modelo de
tendencia estocástica [modelo ST], independientemente de sid= 0 o no. La propiedad clave de un
4.1 Tendencias de modelado 81

modelo ST es que choquesεt−itener un efecto permanente en la serie de tiempoyt,ver (4.12),


como los pesos enεt−ison todos iguales a 1.

Ejercicio4.2

El polinomio AR(1) para (4.10) es igual a (1 −L) y la solución de la ecuación característica


correspondiente (1 −z) = 0 es igual a 1. Por lo tanto, el modelo ST se corresponde con un
modelo AR con solución unitaria a la ecuación característica, o la llamada raíz unitaria. Darse
cuenta de (4.10) implica que las primeras diferenciasyt−yt−1igual a una serie de ruido blanco,
aunque con una media distinta de cerod, y esta serie es estacionaria por definición. En general,
se sostiene que una serie de tiempo ST se puede hacer estacionaria aplicando el filtro de 1
diferenciación. Por eso, a veces llamamosytuna serie de tiempo estacionaria en diferencias.
Cuandoεten (4.4) se sustituye porηt= [φpags−1(L)]−1εt,dóndeφpags−1(L) no contiene el
componente (1 −L), todos los resultados anteriores siguen siendo válidos. Por lo tanto, cuando
un AR(pags) polinomioφpags(L) se puede descomponer comoφpags−1(L)(1 -L), la serie de tiempoyt
tiene una tendencia estocástica. Cuandoφpags(L) no contiene (1 −L) y la parte determinista del
modelo incluye un término de tendenciat,yttiene una tendencia determinista. Esto ya sugiere
que una forma simple de elegir entre un modelo DT o ST equivale a buscar la presencia de un
(1 −L) en el polinomio AR, es decir, para una raíz unitaria.
Para tener una idea de las diferencias entre los modelos DT y ST, considere los datos
representados en la Figura4.1, que se generan a partir de

DT:yt=0.2t+εt, t=1,2,3, . . . ,200, (4.13)


S T :yt=0.2 +yt−1+εt, t=1,2,3. . . ,200 yy0= 0, (4.14)

donde las observaciones para los choquesεtson iguales en ambas ecuaciones, y extraídas de
unanorte(0,0.25) distribución. Claramente, la tendencia alcista en ambas series temporales es
similar, como es de esperar dado (4.6) y (4.12). La diferencia clave entre la serie es que el ST
series de tiempo pueden desviarse sustancialmente de esta tendencia por períodos prolongados de tiempo debido
∑ t
a la tendencia estocásticaS t= i=1εitambién se muestra en la figura. Esto demuestra la
falta de fuerzas de reversión a la media para series de tiempo ST. Para valores dedque son pequeños en
relación con la varianza de laεtobservaciones, de hecho podemos generar datos que nunca parecen volver a
alguna media, véase también la Figura3.1. Por lo tanto, la serie de tiempo ST muestra características
diferentes de la serie de tiempo DT debido a la serie de suma parcialSt.

Ejercicio4.3–4.4

Como ejemplo empírico para ilustrar que los patrones en la Figura4.1puede reflejar el comportamiento de
series de tiempo realmente observadas, considere los resultados de la regresión auxiliar

yt=α̂+β̂t+ût, (4.15)
82 Tendencias

50
Serie DT tendencia estocástica
40
Serie ST
30
6
20
4
10
2
0
0
- 10
-2

-4

-6
25 50 75 100 125 150 175 200

Figura 4.1:Series temporales simuladas a partir de modelos de tendencias deterministas y

de tendencias estocásticas.

que también se utilizó en el capítulo2, para la serie de producción industrial trimestral de EE. UU.
(ajustada estacionalmente) para el período de muestra 1960.1–2012.4 en la Figura4.2. Este gráfico
muestra los valores reales de la serie temporalyt,los valores ajustadosŷt=α̂+β̂tde (4.15) y los residuosû
t.Claramente, hay una tendencia alcista en la producción industrial estadounidense. Además, los
residuosûtparecen imitar los patrones de la tendencia estocásticaStEn figura4.1, y por lo tanto, puede
ser que esta variable se describa mejor mediante un modelo ST.
La selección entre los modelos ST y DT paraytpuede ser importante desde un punto de vista
económico. Por ejemplo, puede ser útil saber si los choques a una determinada serie de tiempo
tienen efectos permanentes o no, como en los modelos ST y DT, respectivamente. Si una cierta regla
de política crea un gran valor deεt,en el modelo ST su efecto dura indefinidamente, mientras que en
el modelo DT su efecto ya no se nota pronto. Desde una perspectiva de pronóstico, también es
importante determinar la especificación de tendencia más apropiada. Considere, por ejemplo, el
modelo de caminata aleatoria con deriva

yt=yt−1+d+εt. (4.16)

El pronóstico de dos pasos por delante en el momentoTimplícita en este modelo es

ŷT+2|T=ŷT+1|T+d=yT+2δ. (4.17)

Como el verdadero valoryT+2es igual

yT+2=yT+1+d+εT+2=yT+2d+εT+2+εT+1, (4.18)
4.1 Tendencias de modelado 83

4.8

4.4

4.0
0.2
3.6
0.1
3.2
0.0
2.8
- 0.1

- 0.2
residual actual equipado

- 0.3
1960 1970 1980 1990 2000 2010

Figura 4.2:Resultados de una regresión de la producción industrial estadounidense

sobre una tendencia determinista constante y lineal.

la varianza del error de pronóstico correspondienteV[miT+2|T]es igual a 2σ2. Por otro lado,
para el modelo DT

yt=α+βt+φ1yt−1+εt, (4.19)

con |φ1|<1, se deduce fácilmente queV[miT+2|T] = (1 +φ2 1)σ2. Obviamente, cuandoφ1es


menos de 1 en valor absoluto, la varianza del error de pronóstico para el modelo DT es menor que
para el modelo de caminata aleatoria con deriva. También se puede demostrar que la diferencia de V[
miT+h|T]entre los dos modelos aumenta con el horizonte de pronósticoh. Por lo tanto, los pronósticos
fuera de la muestra del modelo ST son menos seguros que los del modelo DT. El mayor nivel de
incertidumbre para el modelo ST, que se refleja en el hecho de que los choques tienen un efecto
permanente y, por lo tanto, pueden cambiar el nivel deytpermanentemente, se refleja a su vez en
pronósticos de intervalos más amplios en relación con el modelo DT. Discutimos el tema de las
tendencias y los pronósticos con más detalle en la Sección4.4.
Se dispone de una amplia variedad de métodos para seleccionar entre un modelo ST y
DT para una serie temporal empírica dadayt.Estos métodos examinan las posibles
presencia de un componente (1 −L) en el polinomio AR de AR(pags) modelo parayt,o
∑ t
la importancia relativa del componente de tendencia estocásticaS t= i=1εi.el primer conjunto
de los métodos se denominan pruebas de raíz unitaria, y en la sección se analizará un método que se aplica
a menudo en la práctica.4.2. El segundo conjunto de métodos se denominan pruebas de estacionariedad y
uno de ellos se analizará en la sección4.3.
84 Tendencias

Integración
una serie de tiempoytque requiere el primer filtro de diferenciación 1para eliminar un estocástico
la tendencia se llama integrada de orden 1 [I(1)]. También hay series de tiempo que, incluso después de la
primera diferenciación, aún contienen una tendencia estocástica. Un ejemplo lo da

yt=2yt−1−yt−2+d+εt, (4.20)

que se puede escribir como

zt=zt−1+d+εt, (4.21)

conzt=yt−yt−1, tal que2 1yt=d+εt.En este caso,ytes una serie de tiempo I(2) como
necesita el1filtrar dos veces para que quede estacionario.
Una forma de comprender la posible relevancia práctica de los procesos I(2), que típicamente
parecen ocurrir para los agregados monetarios nominales y los niveles de precios de las economías
en rápido crecimiento, es por medio de la representación

1yt=dt+εt, (4.22)
dt=dt−1+ηt, (4.23)

dóndeηtes una serie de ruido blanco con varianzaσ2 η,y la varianza deεtse denotaσ2
como antes. Es decir, el paseo aleatorio.yttiene una deriva variable en el tiempodt(o, de manera equivalente,
la tasa de crecimiento deyttiene una media variable en el tiempo), que nuevamente es un proceso de
caminata aleatoria, verharvey(1989). Cuando la varianza deηtes igual a cero, la media de1ytes constante, y
por lo tanto1ytmuestra un comportamiento de reversión a la media tal queytes yo(1). Las expresiones en (
4.22) y (4.23) se puede combinar en

2
1yt=vt, (4.24)

dóndevt=ηt+ (1 -L)εtes un proceso MA(1). La varianza de lavtla serie es


ση2+2σ2, su autocovarianza de primer orden es igual aγ1= −σ2, mientras que todos los de orden superior
autocovarianzas son iguales a 0. Por lo tanto, la autocorrelación de primer orden devt,eso es,
ρ1= −σ2/(σ2 η+2σ2) está acotado entre −0.5 y 0. Cuandoσ2 ηes muy pequeño relativo
aσ2,ρ1aproxima −0.5, y por lo tanto parece que la diferenciaciónytdos veces es una vez con demasiada frecuencia.
2
Dicho de otra manera, la 1ytlas series pueden parecer fácilmente sobrediferenciadas. En general, el

modelo en (4.24) se puede reescribir como

2
1yt= (1 +θ1L)vt, (4.25)

convtuna serie de errores de ruido blanco yθ1<0, lo que se deduce del hecho de que el
la autocorrelación de primer orden en un modelo MA(1) es igual aθ1/(1 +θ2 1). Por lo tanto, en caso
ση2es relativamente pequeño tal quedtsolo cambia ligeramente, el componente MA en (4.25)
será grande en el sentido de queθ1→ −1 para obtenerρ1cerca de −0.5. Esto podría
4.1 Tendencias de modelado 85

hacer que sea difícil decidir siytdebe diferenciarse una o dos veces, ya que el
1el polinomio casi se cancela en ambos lados.

Ejercicio4.5

Una serie de tiempo I(2) tiene una tasa de crecimiento que fluctúa aleatoriamente con el tiempo y, por lo tanto, tiene

una tendencia estocástica doble. Esto se puede observar al resolver (4.21) como

∑t
zt=z0+dt+ εi,
i=1

tal que

y1=z1=z0+d+ε1,
y2=z1+z2=z0+d+ε1+z0+ 2d+ε1+ε2,
y3=z0+d+ε1+z0+ 2d+ε1+ε2+z0+ 3d+ε1+ε2+ε3,

...

∑t ∑i
yt=y0+z0t+δt(t+1)/2 + εj. (4.26)
i=1 j=1

Este resultado muestra que cuandodes diferente de cero, deberíamos ser capaces de detectar un
Serie de tiempo I(2) de su gráfico, ya que muestra un crecimiento explosivo a través del componente
∑ t ∑i
t(t+1)/2. Además, la tendencia del doble estocástico aparece en el i=1 j=1εj
componente, ya que necesita doble diferenciación para ser eliminado.
En la figura se da un ejemplo empírico de una serie de tiempo posiblemente I(2).4.3, que muestra
el stock de motocicletas en los Países Bajos para el período 1946–2012, junto con los valores
ajustadosŷty residuosûtde la regresión sobre una constante, una tendencia lineal y una tendencia
cuadrática, es decir,

yt=α̂+β̂t+γ̂ t(t+1)/2 +ût, (4.27)

comparar (4.26). Obviamente, los residuos no se parecen en nada al ruido blanco y en


∑ t ∑i
De hecho, podrían mostrar el comportamiento suave de una tendencia estocástica doble. i=1 j=1εj.

Tendencias estocásticas comunes

Como se mencionó anteriormente, es importante analizar la naturaleza de las tendencias en series de


tiempo univariadas también con el fin de modelar multivariadas, es decir, analizar simultáneamente dos o
más series de tiempo. La principal razón es que hay ocasiones en las que varias series temporales tienen
tendencias estocásticas en común. Como ejemplo, es poco probable que la tendencia
86 Tendencias

800
residual actual equipado

600

400

200
100
0
50
0
- 50
- 100

- 150
1950 1960 1970 1980 1990 2000 2010

Figura 4.3:Resultados de una regresión del stock de motocicletas sobre una


tendencia determinista cuadrática.

en el ingreso real disponible es diferente al del consumo real, simplemente porque si este
fuera el caso, consumiríamos demasiado o ahorraríamos demasiado de manera persistente. En
el largo plazo, el ingreso y el consumo deben estar en equilibrio. Podemos esperar que
consumir demasiado ahora (es decir, en relación con el nivel actual de ingresos) reducirá el
consumo futuro y, por lo tanto, habrá alguna forma de corrección hacia el equilibrio. Más
adelante en el Capítulo9, veremos que las tendencias comunes y este mecanismo de corrección
del equilibrio están íntimamente ligados en el sentido de que uno implica al otro y viceversa.

Ejercicio4.6

Como ejemplo ilustrativo de la posible presencia de tendencias estocásticas comunes,


considere las sumas parciales estimadas de los residuos de la regresión en (4.15) para las cinco
series de PIB per cápita de América Latina en el gráfico4.4. Dado que estos cinco países están
estrechamente relacionados, no solo geográficamente sino también en términos económicos,
no es de extrañar que elStseries parecen mostrar patrones comunes. Por lo tanto, puede ser
que ciertas combinaciones lineales de estosStLas variables no contienen componentes de
tendencia estocástica. De hecho, parece de la Figura4.4que si hay tendencias estocásticas en
Argentina, Brasil y Chile, pueden tener un patrón similar. Volveremos sobre estos datos en el
capítulo9, cuando se trata del concepto de tendencias comunes en términos de su concepto
complementario de integración común, o brevemente, cointegración.

También podría gustarte