Está en la página 1de 101

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/335825923

Series de tiempo cointegradas y una aplicación

Thesis · September 2019


DOI: 10.13140/RG.2.2.24056.80641

CITATIONS READS
0 597

1 author:

Orlando Uc
Centro de Investigación en Matemáticas (CIMAT)
1 PUBLICATION   0 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Series de tiempo conintegradas y una aplicación View project

All content following this page was uploaded by Orlando Uc on 15 September 2019.

The user has requested enhancement of the downloaded file.


Universidad Autónoma de Yucatán
Facultad de Matemáticas

Series de tiempo cointegradas y una aplicación

TESIS

presentada por:

Orlando de Jesus Uc Kantun

en opción al tı́tulo de:

Licenciado en Actuarı́a

Asesores: Dr. José Luis Batún Cutz


Y M.C.M. Ernesto Antonio Guerrero Lara

Mérida, Yucatán, México


Agosto, 2019
Dedicado a todas aquellas personas que me han hecho ser quien soy

ii
Agradecimientos

Agradezco enormemente a mis asesores, el Dr. José Luis Batún Cutz y el M.C.M. Ernesto
Antonio Guerrero Lara, pues sin ellos este trabajo no hubiera sido posible. Les agradezco su
tiempo y su esfuerzo, ası́ como sus recomendaciones y correcciones. Me siento muy orgulloso
de poder decir que trabajé con ustedes, pues son personas a quienes admiro mucho, no tanto
por sus conocimientos y su profesionalismo, sino por sus valores y por lo mucho que hacen por
nosotros los alumnos. Han sido y serán un gran modelo a seguir para mı́.

Le agradezco de la manera más atenta al Dr. Henry Gaspar Pantı́ Trejo, por sus comentarios
y correcciones con respecto al presente, pues definitivamente el trabajo se enriqueció con su
opinión.

Quiero agradecer de la manera más amorosa a mi mamá, Enf. Silvia del Socorro Kantun
Chan, por estar siempre a mi lado, por haberme querido desde antes que naciera, y por haberme
hecho un hombre de bien. Sin ti no estarı́a aquı́, ¡te quiero mamá!

Agradezco grandemente a mi papá, C.D. Lino Orlando Uc LLanes, por haberme apoyado en
mis metas, por haberme enseñado la gran lección del trabajo, el valor del esfuerzo y el hábito de
la disciplina, ası́ como los frutos de la constancia. Gracias papá.

Le agradezco a mi hermano Dani el hecho de haber nacido, pues desde entonces ha sido mi
compañero de batallas, ası́ como un gran apoyo, un gran compañero y un gran amigo. Gracias
Dani.

iii
Agradezco infinitamente a mi novia, Amecita, por estar siempre conmigo, por darme ganas
de vivir y de luchar, por enseñarme a disfrutar hasta de las cosas más pequeñitas, por ser mi
amiga y mi confidente, pero sobre todo, por ser mi felicidad. ¡Te amo!

Agradezco a mi extensa familia por todo su cariño y sus enseñanzas, pero en particular, a mi
tı́a Ale, a la prima Asteria, a Doña Rita, a mi tı́a Blanca y a mi tı́a Tere, por ser mis otras mamás.

Agradezco a mis amigos Adrián y Alex, por ser mis hermanos, y por haber estado conmigo
cuando más los he necesitado.

Por último, le agradezco al Consejo Nacional de Ciencia y Tecnologı́a, por haberme apoyado
con una beca por concepto de tesis de licenciatura, perteneciente al proyecto CB 2015/252996
”Modelos con estructuras de dependencia y sus aplicaciones II”.

iv
Índice general

Introducción 3

1. Procesos ARIMA 5
1.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. El proceso autorregresivo AR(p) . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3. El proceso de medias móviles MA(q) . . . . . . . . . . . . . . . . . . . . . . 14
1.4. El proceso autorregresivo de medias móviles ARMA(p, q) . . . . . . . . . . . 16
1.5. El proceso autorregresivo integrado de medias móviles ARIMA(p, d, q) . . . . 17
1.6. Metodologı́a Box-Jenkins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2. Pruebas de Dickey-Fuller 27
2.1. El problema de la raı́z unitaria . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2. Prueba de Dickey-Fuller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3. Prueba de Dickey-Fuller aumentada . . . . . . . . . . . . . . . . . . . . . . . 39
2.4. Procedimiento secuencial para la aplicación de la prueba de Dickey-Fuller au-
mentada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3. Procesos cointegrados 46
3.1. Cointegración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2. El modelo VECM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3. Procedimiento de Engle-Granger . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4. Procedimiento de Johansen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

1
4. Ejemplo de aplicación: Series financieras 61
4.1. La Bolsa Mexicana de Valores . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2. Modelación según la Metodologı́a Box-Jenkins . . . . . . . . . . . . . . . . . 64
4.3. Modelación según el Procedimiento de Engle-Granger . . . . . . . . . . . . . 72
4.4. Modelación según el Procedimiento de Johansen . . . . . . . . . . . . . . . . 81

Conclusiones 83

Apéndice A. El proceso VAR(p). 84

Apéndice B. Códigos de R. 85

Bibliografı́a 95

2
Introducción

El objetivo del presente documento es introducir y aplicar el concepto de cointegración en


series de tiempo, considerando la parte teórica que fundamenta a los procedimientos, ası́ como
la adecuada realización de la técnica. La cointegración es ampliamente utilizada en el análisis de
las series económicas, debido a que las variables macroeconómicas de importancia usualmente
presentan una relación en su comportamiento en el largo plazo.

Las series de tiempo económicas, históricamente, han sido difı́ciles de modelar. La metodo-
logı́a Box-Jenkins, por ejemplo, produce resultados menos satisfactorios en series económicas a
comparación de series de otro tipo.

Los primeros en señalar que la metodologı́a que se habı́a estado implementando en las series
económicas no era del todo correcta fueron Clive Granger y Paul Newbold, quienes en 1974 in-
trodujeron el concepto de regresión espuria, para aquellas series económicas que parecı́an tener
una relación directa, pero que en realidad era un factor el externo el que provocaba la correlación.

Más adelante, Engle y Granger, presentaron en 1987 su artı́culo “Co-integration and error co-
rrection: Representation, estimation and testing”, con el cual, introdujeron el concepto de coin-
tegración como una posible solución a la modelación de parejas de series de tiempo económicas.

En términos muy generales, se dice que dos series de tiempo no estacionarias están coin-
tegradas si existe una combinación lineal de ellas que genera una serie de tiempo estacionaria.
Para determinar si una serie es estacionaria, es necesario aplicar pruebas de raı́ces unitarias, por
lo que las pruebas de Dickey-Fuller son una herramienta adecuada para esta metodologı́a.

3
En 1991, Soren Johansen propuso una nueva manera de abordar la cointegración, al presen-
tar un modelo que permite considerar más de una relación de cointegración, lo cual es un avance
significativo de la técnica.

En el primer capı́tulo se introducen los conceptos básicos de las series de tiempo, los pro-
cesos ARIMA y sus caracterı́sticas, ası́ como la metodologı́a Box-Jenkins y un ejemplo de su
aplicación, utilizando el software estadı́stico R.

En el segundo capı́tulo se presentan la prueba de Dickey-Fuller y la Prueba de Dickey-Fuller


aumentada para raı́ces unitarias, con el fin de probar estadı́sticamente si una serie es estacionaria
o no, lo cuál, como se verá en el tercer capı́tulo, está fuertemente relacionado con la cointegra-
ción.

En el tercer capı́tulo se define formalmente el concepto de cointegración, la relación que se


tiene con el modelo de corrección de errores, ası́ como el procedimiento de Engle-Granger y el
procedimiento de Johansen.

El cuarto capı́tulo consiste en un ejemplo de aplicación a un par de series financieras, apli-


cando la metodologı́a Box-Jenkins, el procedimiento de Engle-Granger y el procedimiento de
Johansen, utlizando nuevamente al software estadı́stico R.

Por último, en los apéndices se introduce al proceso VAR(p) y se presenta al lector los
códigos de R que fueron utilizados.

4
Capı́tulo 1

Procesos ARIMA

En este capı́tulo se introducen las bases teóricas que sustentan la aplicación estadı́stica de las
series de tiempo, sus caracterı́sticas y los principales modelos que se ajustan. También se pre-
sentan los pasos necesarios para la modelación de una serie de tiempo a través de la metodologı́a
Box-Jenkins, mostrando su aplicación mediante un ejemplo.

1.1. Conceptos básicos


En palabras muy sencillas, una serie de tiempo es una colección de observaciones de un
fenómeno en particular, indexada a través del tiempo, que permite analizar el comportamiento
histórico de los datos con un nivel alto de confianza. El mencionar la palabra colección es inten-
cional, pues el concepto de serie de tiempo está ligado con el concepto de proceso estocástico.

Definición 1.1.1 Un proceso estocástico es una colección de variables aleatorias {Xt }t∈T , don-
de T es un conjunto de ı́ndices arbitrario.

La frecuencia de observación varı́a con respecto al evento de interés, pudiendo ser años,
meses, dı́as e incluso horas, minutos y segundos. A un conjunto de observaciones de un proceso
estocástico se le conoce como realización.

Definición 1.1.2 Una serie de tiempo es una realización de un proceso estocástico en tiempo
discreto, donde los elementos del conjunto de ı́ndices T están ordenados.

5
A continuación se definen los momentos de un proceso estocástico o de una serie de tiempo.

Definición 1.1.3 Sea {Xt }t∈T un proceso estocástico:

1. La función media µ : T → R, se define por:

µX (t) = E[Xt ]

2. La función autocovarianza γ : T × T → R se define por:

γt1 ,t2 = Cov(Xt1 , Xt2 ) = E[(Xt1 − µX (t1 ))(Xt2 − µX (t2 ))]

3. La función autocorrelación ρ : T × T → R se define por:

E[(Xt1 − µX (t1 ))(Xt2 − µX (t2 ))]


ρt1 ,t2 = Corr(Xt1 , Xt2 ) = p p
E[(Xt1 − µX (t1 ))2 ] E[(Xt2 − µX (t2 ))2 ]

La función media permite examinar el comportamiento que sigue el valor esperado del pro-
ceso a través del tiempo. Para algunos procesos la media es constante, mientras que en otros,
varı́a con respecto al valor de t.

Por otro lado, la función autocovarianza permite analizar la asociación entre dos elementos
del proceso. Si la función de autocovarianza toma un valor positivo entonces existe una relación
directa entre Xt1 y Xt2 (si Xt1 aumenta Xt2 también), pero si toma un valor negativo entonces exis-
te una relación inversa (si Xt1 aumenta Xt2 disminuye), mientras que si es igual a cero entonces
no existe asociación entre las observaciones.

La función de autocorrelación es una versión estandarizada de la función de autocovarianza.


Es muy útil, ya que permite cuantificar que tanta asociación tuvo la observación Xt1 sobre Xt2 ,
si t1 < t2 . Dado que la traducción al inglés de la función de autocorrelación es autocorrelation
function, es común abreviarla como ACF.

Un concepto muy importante en los procesos estocásticos y en las series de tiempo es el de


estacionariedad.

6
Definición 1.1.4 Un proceso estocástico {Xt }t∈T es estrictamente estacionario de orden n, con
n ∈ N si
Ft1 ,··· ,tn (x1 , · · · , xn ) = Ft1 +h,··· ,tn +h (x1 , · · · , xn )

para cualquier h ∈ Z y x1 , · · · , xn ∈ R, donde Ft1 ,··· ,tn denota a la distribución conjunta de


Xt1 , · · · , Xtn .

La estacionariedad en el sentido estricto quiere decir que la distribución conjunta de las va-
riables Xt1 , · · · , Xtn es igual a la distribución conjunta de las variables Xt1 +h , · · · , Xtn +h . Obsérvese
que la Definición 1.1.4 es para un valor de n en particular, sin embargo, es posible realizar una
generalización.

Definición 1.1.5 Un proceso estocástico es estrictamente estacionario si es estrictamente esta-


cionario de orden n, ∀n ∈ N.

Existe una versión menos fuerte de la estacionariedad llamada estacionariedad débil.

Definición 1.1.6 Un proceso estocástico {Xt }t∈T es débilmente estacionario si satisface las
condiciones siguientes:

1. La función media µX (t) = E[Xt ] no depende de t.

2. La función correlación ρt1 ,t2 = Corr(Xt1 , Xt2 ) depende de t1 y t2 a través de la diferencia


t1 − t2 .

Por lo tanto, para un proceso débilmente estacionario las funciones de autocovarianza y de


autocorrelación pueden ser expresadas en función de k = t2 − t1 :

γt1 ,t2 = γk = Cov(Xt1 , Xt2 ) = Cov(Xt1 , Xt1 +k ) = Cov(Xt2 , Xt2 +k )

ρt1 ,t2 = ρk = Corr(Xt1 , Xt2 ) = Corr(Xt1 , Xt1 +k ) = Corr(Xt2 , Xt2 +k )

Observación 1.1.7 Desde este punto, y a menos que se indique lo contrario, cuando se afirme
que un proceso es estacionario se hará referencia a que es estacionario en el sentido débil.

Un buen ejemplo de un proceso estacionario es el siguiente:

7
Definición 1.1.8 Un proceso {εt }t∈T es un proceso ruido blanco si es una colección no correla-
cionada de variables aleatorias con media constante E[εt ] = µ, varianza constante Var(εt ) = σ 2
y γk = Cov(εt , εt+k ) = 0, para k 6= 0.

Este proceso es importante pues serán las innovaciones en la definición de un modelo de


series de tiempo. La interpretación intuitiva que se le puede dar al concepto de ruido blanco es
que es un proceso con un comportamiento totalmente aleatorio, es una manera de definir a un
proceso que no parece tener ningún patrón que no sea la aleatoriedad.

Una manera breve de definir a un modelo de series de tiempo es a través del operador retar-
do. Este operador permite plantear una igualdad entre una observación de la serie en términos
de observaciones anteriores.

Definición 1.1.9 Sea {Xt }t∈T un proceso estocástico. Se define al operador retardo B como

BXt = Xt−1

Esto es, B es el operador que aplicado a una observación de una serie de tiempo da como
resultado la observación anterior. Este concepto se puede generalizar, como se observa en la
siguiente definición.

Definición 1.1.10 Sea {Xt }t∈T un proceso estocástico. Se define al operador retardo B p como

B p Xt = Xt−p

Por ejemplo, considérese el proceso de caminata aleatoria tal que:

Xt = Xt−1 + εt

Reescribiendo lo anterior:

Xt − Xt−1 = εt

Xt − BXt =εt

(1 − B)Xt =εt

ρ(B)Xt =εt

8
Al polinomio ρ(B) = (1 − B) se le conoce como polinomio caracterı́stico, ya que define de
manera única al proceso de caminata aleatoria Xt , a través de un polinomio cuya variable es el
operador retardo.

Por último en esta sección, es importante señalar que en la literatura, cuando la variable de
interés es Xt , entonces a las observaciones pasadas Xt−1 , Xt−2 , Xt−3 , . . . se les conoce como lags,
cuya traducción al español podrı́a ser retrasos o desfaces.

1.2. El proceso autorregresivo AR(p)


Uno de los procesos que se utilizan para modelar una serie de tiempo es el proceso autorre-
gresivo, que se abrevia como AR(p), donde p es el número de observaciones previas ponderadas
que se incluyen en el modelo. Esta representación define a la observación al tiempo t a través de
cierto número de observaciones pasadas más una innovación.

Definición 1.2.1 El proceso autorregresivo de orden p se define como

Xt = φ1 Xt−1 + · · · + φ p Xt−p + εt

o bien, a través del operador retardo

φ (B)Xt = εt

donde φ (B) = (1 − φ1 B − · · · − φ p B p ) es el polinomio caracterı́stico del proceso y εt un proceso


de ruido blanco.

Como se aprecia, un proceso AR(p) está definido mediante p elementos previos ponderados
de la serie, más un término error que es aleatorio.

Los procesos AR no siempre son estacionarios, por lo que es necesario determinar bajo qué
condiciones se alcanza la estacionariedad.

Considérese el proceso AR(1)


Xt = φ Xt−1 + εt

9
Realizando una recursión sobre Xt−1 se obtiene:

Xt = φ (φ Xt−2 + εt−1 ) + εt

= φ 2 Xt−2 + φ εt−1 + εt

Y realizando recursiones consecutivas:

Xt = φ 2 (φ Xt−3 + εt−2 ) + φ εt−1 + εt

= φ 3 Xt−3 + φ 2 εt−2 + φ εt−1 + εt

= φ 3 (φ Xt−4 + εt−3 ) + φ 2 εt−2 + φ εt−1 + εt

= φ 4 Xt−4 + φ 3 εt−3 + φ 2 εt−2 + φ εt−1 + εt


..
.
" #
n−1
Xt = lı́m φ n Xt−n + ∑ φ j εt− j (1.1)
n→∞
j=0

Como se puede encontrar en Fuller (1996), bajo los supuestos |φ | < 1 y E[Xt2 ] < K < ∞ se
cumple:  !2 
n
lı́m E  Xt − ∑ φ j εt− j  = 0,
n→∞
j=0

donde K es algún valor finito y εt está definido para t ∈ {0, ±1, ±2, . . .}. Entonces el proceso Xt
en la ecuación (1.1) puede ser expresado como:

Xt = ∑ φ j εt− j (1.2)
j=0

Resulta que la condición |φ | < 1 es suficiente para que la ecuación (1.2) sea convergente, y
es también la condición suficiente para que el proceso AR(1) sea estacionario. La demostración
de este hecho se puede encontrar en (Fuller, 1996).

A partir de la ecuación (1.2) se puede observar que se puede expresar a un proceso AR(1)
a través de una serie infinita de observaciones de un proceso ruido blanco, y de ahı́ se pueden
calcular los momentos del proceso, a saber (Rao, 1994):

E[Xt ] = 0

10
σ2
Var(Xt ) =
1−φ2
φ kσ 2
γk = , k = t2 − t1
1−φ2
ρk = φ k , k = t2 − t1

Nótese que la esperanza y la varianza del proceso son constantes a través del tiempo y que las
funciones autocovarianza y autocorrelación depende de la diferencia de tiempo entre las obser-
vaciones y no de los tiempos t1 y t2 en particular. Estas observaciones son las que se enuncian en
la Definición 1.1.6, de ahı́ se concluye que el proceso AR(1) es estacionario en esta situación.

Ahora, para definir la estacionariedad en términos del polinomio caracterı́stico, obsérvese


que el proceso AR(1) expresado a través del operador retardo es:

φ (B)Xt = (1 − φ B)Xt = εt .

Considerando a B como una variable, y encontrando la raı́z del polinomio caracterı́stico:

1−φB = 0

1 = φB

Si se considerado el valor absoluto de φ tal que |φ | < 1, entonces:

|1| = |φ B| = |φ ||B| < |B|

Mientras que si |B| > 1, entonces:

|1| = |φ B| = |φ ||B| > |φ |

Se sigue que |φ | < 1 sı́ y sólo sı́ |B| > 1. Entonces, como |φ | < 1 es una condición suficiente
para que el proceso AR(1), la condición |B| > 1 también lo es. Equivalentemente, el proceso
AR(1) es estacionario si la raı́z del polinomio caracterı́stico está fuera del cı́rculo unitario.

Es posible generalizar el razonamiento presentado en esta sección para un proceso AR(p),


resultando que si todas las raı́ces, reales o imaginaras, del polinomio caracterı́stico se encuen-
tran fuera del cı́rculo unitario, entonces el proceso AR(p) tiene media cero, una representación
infinita y es estacionario (Box, Jenkins, Reinsel y Ljung, 2016).

11
Función de autocorrelación parcial

Existe otra función interesante, llamada función de autocorrelación parcial, que ayuda a rea-
lizar inferencias sobre el comportamiento de una serie de tiempo (Box et al., 2016).

Considérese un proceso AR(p) estacionario expresado como

Xt = φ1 Xt−1 + · · · + φ p Xt−p + εt

Multiplicando por Xt−k con k ≥ 0

Xt−k Xt = φ1 Xt−k Xt−1 + φ2 Xt−k Xt−2 + · · · + φ p Xt−k Xt−p + Xt−k εt

Y calculando la esperanza de ambos lados de la ecuación

E[Xt−k Xt ] = E[φ1 Xt−k Xt−1 + φ2 Xt−k Xt−2 + · · · + φ p Xt−k Xt−p + Xt−k εt ]


(1.3)
= φ1 E[Xt−k Xt−1 ] + φ2 E[Xt−k Xt−2 ] + · · · + φ p E[Xt−k Xt−p ] + E[Xt−k εt ]
Antes de continuar, obsérvese que

γk = Cov(Xt−k , Xt )

= E[Xt−k Xt ] − E[Xt−k ]E[Xt ]

= E[Xt−k Xt ] − (0)(0)

= E[Xt−k Xt ]
Sustituyendo γk = E[Xt−k Xt ] en la ecuación (1.3).

γk = φ1 γk−1 + φ2 γk−2 + φ p γk−p + E[Xt−k εt ], k > 0.

Por otro lado


E[Xt−k εt ] = Cov(Xt−k , εt ) + E[Xt−k ]E[εt ]

= Cov(Xt−k , εt ) + (0)(0)
Y dado que el proceso Xt−k es estacionario, entonces puede ser expresado como una serie infinita
de innovaciones
!

E[Xt−k εt ] = Cov ∑ φ j εt−k− j , εt
j=0

= Cov(εt−k , εt ) + φ1Cov(εt−k−1 , εt ) + φ2Cov(εt−k−2 , εt ) + . . .

=0

12
Por tanto
γk = φ1 γk−1 + φ2 γk−2 + · · · + φ p γk−p , k > 0. (1.4)

Obsérvese que cuando un proceso es estacionario, se cumple


Cov(Xt1 , Xt2 ) Cov(Xt1 , Xt2 ) Cov(Xt1 , Xt2 ) γk
ρk = p p =p p = =
Var(Xt1 ) Var(Xt2 ) Var(Xt1 ) Var(Xt1 ) Var(Xt1 ) γ0
Dividiendo a la ecuación (1.4) entre γ0

ρk = φ1 ρk−1 + φ2 ρk−2 + · · · + φ p ρk−p , k > 0. (1.5)

La función de autocorrelación parcial se puede definir a través de un conjunto de ecuaciones


que son una generalización de la ecuación (1.5), en donde φk j denota al j-ésimo coeficiente de
un proceso AR(k), de tal forma que φkk es el último coeficiente.

ρ j = φk1 ρ j−1 + · · · + φk(k−1) ρ j−k+1 + φkk ρ j−k , j = 1, 2, . . . , k.

Lo cual lleva a las ecuaciones de Yule-Walker, que en forma matricial pueden ser expresadas
como
    
1 ρ1 ρ2 . . . ρk−1 φ ρ
   k1   1 
    
 ρ1 1 ρ1 . . . ρk−2  φk2  ρ2 
 .. .. .. ..   ..  =  .. 
    
 . . . ... .  .   . 
..
    
ρk−1 ρk−2 ρk−3 . 1 φkk ρk
o bien

Pk φk = ρk

Son precisamente los valores φkk los que determinan a la función de autocorrelación parcial,
y que se pueden interpretar como la correlación ajustada que existe entre las variables Xt y Xt−k ,
ya que no considera a las observaciones que se encuentran entre ellas (Xt−1 , Xt−2 , . . . , Xt−k+1 ).
La función de autocorrelación parcial será importante en la sección 1.6.

Dado que en inglés se le conoce como partial autocorrelation function es una práctica común
abreviar a la función de autocorrelación parcial como PACF.

13
1.3. El proceso de medias móviles MA(q)
Otro modelo importante es el proceso de medias móviles, en el cual la observación al dı́a
de hoy de algún evento en particular está determinado por cierto número de innovaciones que
ocurrieron en el pasado.

Definición 1.3.1 El proceso de medias móviles de orden q se define como

Xt = εt − θ1 εt−1 − · · · − θq εt−q

o bien, a través del operador retardo

Xt = θ (B)εt

donde θ (B) = (1 − θ1 B − · · · − θq Bq ) es el polinomio caracterı́stico del proceso y εt un proceso


de ruido blanco.

A través de su definición, no es difı́cil calcular los siguientes momentos para el proceso


MA(1):

E[Xt ] = 0

Var(Xt ) = (1 + θ12 )σ 2



 (1 + θ12 )σ 2 , k = 0







γk = −θ1 σ 2 , k=1









 0 , k>1



 1 , k=0







 θ1
ρk = − 2
, k=1

 1 + θ 1








 0 , k>1

14
Donde k = t1 − t2 .

Nótese que independientemente del valor del parámetro θ la media y la varianza del proceso
son constantes a través del tiempo, mientras que las funciones γk y ρk dependen de la diferencia
t1 − t2 , por lo que se concluye que el proceso MA(1) siempre es estacionario.

Recordando que en la ecuación (1.2) se expresó a un proceso AR(1) a través de una serie
infinita de innovaciones, y conociendo ahora la definición de un proceso MA(q), se deduce que
esta serie infinita de innovaciones es en realidad un proceso MA(∞).

Observación 1.3.2 Se denotará como un proceso MA(∞) a un proceso Xt que tiene una repre-
sentación infinita de la forma:

Xt = ∑ φ j εt− j
j=0

Entonces, resulta natural preguntarse si es posible expresar un proceso MA(1) en términos


de un Xt .

Partiendo de la definición del proceso MA(1)

εt = Xt + θ εt−1

= Xt + θ (Xt−1 + θ εt−2 )

= Xt + θ Xt−1 + θ 2 εt−2

= Xt + θ Xt−1 + θ 2 (Xt−2 + θ εt−3 )

= Xt + θ Xt−1 + θ 2 Xt−2 + θ 3 εt−3


..
.
" #
n−1
εt = lı́m
n→∞
∑ θ j Xt− j + θ nεt−n
j=0

Análogamente a los resultados del proceso AR(1) en la página 10, el proceso MA(1) puede ser
expresado a través de la ecuación:

εt = ∑ θ j Xt− j (1.6)
j=0

15
Siendo la condición |θ | < 1 suficiente para que la ecuación 1.6 converja. Por tanto, es posible
expresar a un proceso MA(1) a través de un proceso AR(∞) bajo la restricción |θ | < 1. A
esta caracterı́stica se le conoce como invertibilidad y se puede generalizar a cualquier proceso
MA(q).

Observación 1.3.3 Se denotará como un proceso AR(∞) a un proceso et que tiene una repre-
sentación infinita de la forma:

εt = ∑ θ j Xt− j
j=0

Análogamente al concepto de estacionariedad, la invertibilidad sucede cuando las raı́ces del


polinomio caracterı́stico del proceso MA son estrictamente mayores que 1.

Observación 1.3.4 Los procesos MA(q) son siempre estacionarios pero no siempre son inver-
tibles, mientras que los procesos AR(p) son siempre invertibles pero no siempre estacionarios
(Box et al., 2016).

1.4. El proceso autorregresivo de medias móviles ARMA(p, q)


Para algunas series, debido a sus particularidades, no basta con un modelo AR(p) o un
MA(q) para describir su comportamiento, es por ello que se desarrolló un modelo que tuviera
tanto una una parte AR como una parte MA, bautizado como proceso ARMA(p, q). Al incluir
más parámetros es un modelo que permite modelar un espectro más grande de series de tiempo.

Definición 1.4.1 El proceso autorregresivo de medias móviles ARMA(p, q) se define como

Xt = φ1 Xt−1 + · · · + φ p Xt−p + εt − θ1 εt−1 − · · · − θq εt−q

o bien, a través del operador retardo

φ (B)Xt = θ (B)εt

con

φ (B) = (1 − φ1 B − · · · − φ p B p )

16
θ (B) = (1 − θ1 B − · · · − θq Bq ) y

εt un proceso de ruido blanco.

Los procesos ARMA, al tener la particularidad de contar con una parte AR y con una parte
MA, pueden ser tanto estacionarios como invertibles, pero estas condiciones deben verificarse
de manera independiente.

La estacionariedad del proceso ARMA(p, q) se verifica a través del polinomio caracterı́sti-


co de la parte AR, siendo la condición suficiente que las raı́ces del polinomio φ (B) estén
fuera del cı́rculo unitario.

La invertibilidad del proceso ARMA(p, q) se verifica a través del polinomio caracterı́stico


de la parte MA, siendo la condición suficiente que las raı́ces del polinomio θ (B) estén
fuera del cı́rculo unitario.

Una consecuencia de las afirmaciones anteriores es que un proceso ARMA(p, q) que es estacio-
nario e invertible tiene tanto una representación AR(∞) como una representación MA(∞).

Una observación interesante es que un proceso ARMA(0, 0) se considera un proceso ruido


blanco, pues el proceso se reduce a la ecuación Xt = εt .

1.5. El proceso autorregresivo integrado de medias móviles


ARIMA(p, d, q)
No todas las series se pueden modelar con un proceso ARMA, pues el supuesto de estaciona-
riedad no se cumple en todas las ocasiones. El proceso ARIMA(p, d, q) es uno de los modelos
que se pueden ajustar cuando se está analizando una serie que no es estacionaria, y también
puede ajustarse después de aplicar otras transformaciones, como las logarı́tmicas o las transfor-
maciones Box-Cox (Montgomery, 2012).

Considérese el siguiente ejemplo, sea un modelo con tendencia

Wt = α + βt + εt

17
Si al valor de Wt se le resta el valor del tiempo anterior

Wt −Wt−1 = α + βt + εt − α − β (t − 1) − εt−1

= β + εt + εt−1
Nótese que desaparece el término tendencia βt. A esta técnica se le conoce como diferenciación,
y a las series a las que tras aplicar cierto número de diferencias se vuelven estacionarias se les
llama estacionarias en diferencia. Cabe señalar que existen casos en los que basta con aplicar
diferenciación para obtener una serie estacionaria, pero existen otros casos en los que aún apli-
cando diferenciación no se logra observar un comportamiento estacionario.

Supóngase que Xt es una serie definida por un proceso ARMA(p, q) que no es estacionario,
¿cuál serı́a el modelo adecuado para la serie ∆Xt = Xt − Xt−1 ?

Obsérvese que:

∆Xt = Xt − Xt−1
!
p q p q
= ∑ φi Xt−i − ∑ θi εt−i − ∑ φiXt−i−1 − ∑ θiεt−i−1
i=1 i=1 i=1 i=1
p q
= ∑ φi (Xt−i − Xt−i−1 ) − ∑ θi (εt−i − εt−i−1 )
i=1 i=1

p q
∆Xt = ∑ φi (1 − B)Xt−i − ∑ θi (1 − B)εt−i
i=1 i=1
" #
p q
= (1 − B) ∑ φiXt−i − ∑ θiεt−i
i=1 i=1
| {z }
ARMA(p,q)

Lo anterior quiere decir que la serie ∆Xt se puede modelar a través de un proceso ARMA(p, q)
al que se le aplica una diferencia. Este procedimiento se puede generalizar para un número d de
diferencias sobre la serie Xt , lo que lleva a la siguiente definición.

Definición 1.5.1 El proceso autorregresivo integrado de medias móviles ARIMA(p, d, q) se de-


fine como
φ (B)(1 − B)d Xt = θ (B)εt

con

18
φ (B) = (1 − φ1 B − · · · − φ p B p )

θ (B) = (1 − θ1 B − · · · − θq Bq ) y

εt un proceso de ruido blanco.

De la definición anterior se deduce que si ∆d Xt ∼ ARMA(p, q), entonces Xt ∼ ARIMA(p, d, q),


puesto que se cumple (1 − B)d Xt = ∆d Xt (Box et al., 2016) y donde ∆d representa la d-ésima
diferenciación de una serie. Esta propiedad implica que si la serie Xt es de interés, entonces una
posible manera de analizarla es a través de sus diferencias.

1.6. Metodologı́a Box-Jenkins


Una de las metodologı́as más difundidas para la modelación de series de tiempo es la me-
todologı́a Box-Jenkins, que consiste en una secuencia de pasos para el ajuste y estimación de
modelos. Ésta se basa en aplicar diferencias y/o transformaciones a la serie que se desea mode-
lar hasta obtener una serie estacionaria.

Para verificar si la serie cumple con el supuesto de estacionariedad es necesario graficarla y


analizar su comportamiento.

Los supuestos distribucionales que permiten calcular los estimadores de los modelos esta-
cionarios son que los residuales sigan un comportamiento de ruido blanco, y también, que los
residuales estandarizados sigan un comportamiento de ruido blanco gaussiano. Para verificar
esto se aplican las pruebas de Ljung-Box y de Shapiro-Wilk, que están incluidas en la gran ma-
yorı́a de los softwares estadı́sticos.

En términos generales, los pasos a efectuar son:

1. Verificación de la estacionariedad.

2. Identificación del modelo.

3. Estimación de los parámetros.

19
4. Validación del modelo.

5. Adecuación del modelo.

A manera de ejemplo, se analizará la serie {Xt } que consiste 197 observaciones de la con-
centración de cierto proceso quı́mico, para el cual el periodo entre observaciones es de 2 horas.
(Box et al., 2016).

Paso 1. Verifiación de la estacionariedad

Primero es necesario graficar a los datos para poder observar el comportamiento que sigue la
serie. Obsérvese en la Figura 1.1 que la media no es constante a través del tiempo, pues existen
periodos en los que el comportamiento es hacia la alta, pero en otros tiene una tendencia a la
baja. Por otro lado, la varianza es constante, ya que la amplitud de la serie permanece constante
a lo largo del tiempo.

Figura 1.1: Concentración de un proceso quı́mico.

Dado que la media no es constante, se concluye que es necesario aplicar una primera dife-
rencia a través de la función diff de R, obteniendo a la serie {∆Xt }.

La gráfica de primera de {∆Xt }, presentada en la Figura 1.2 tiene un comportamiento desea-


ble, pues la media es constante y fluctúa alrededor del cero, mientras que la varianza es constante

20
Figura 1.2: {∆Xt }.

exceptuando el intervalo de entre las 40 y 70 observaciones, pues hay picos que se alejan bas-
tante de la media. De aquı́ se puede inferir que la serie de primera diferencia es estacionaria, y
por tanto, se ajustarán las estimaciones a través de ella.

Paso 2. Identificación del modelo

Para la identificación del modelo es necesario apoyarse por las gráficas ACF y PACF de la
serie de primera diferencia, sin embargo, las definiciones que se dieron previamente son teóricas,
por lo que es necesario introducir a los estimadores:

El estimador de la función de autocovarianza de una serie {Xt } con n observaciones está


definido por:
1 n−k
γ̂k = ∑ (Xt − X̄)(Xt+k − X̄)
n t=1

El estimador de la función de autocorrelación de una serie {Xt } con n observaciones está


definido por:
n−k

γ̂k
∑ (Xt − X̄)(Xt+k − X̄)
t=1
ρ̂k = =
γ̂0 nγ̂0

Donde X̄ = 1n ∑t=1
n
Xt . Por otro lado, la estimación de la PACF no es trivial y se escapa de los
objetivos del presente, pero un algoritmo de estimación se puede encontrar en (Box et al., 2016).

21
Habiendo estimado a la ACF y la PACF se pueden obtener gráficas que sirven de apoyo
para poder identificar el número de parámetros a incluir en el modelo. La tabla 1.1 es de suma
utilidad, pues a partir del comportamiento de ambas gráficas se llega a una conclusión.

Proceso ACF PACF

AR(p) Decrece exponencialmente Hace un pico en el lag p y se va a cero


MA(q) Hace un pico en el lag q y se va a cero Decrece exponencialmente
ARMA(p, q) Decrece exponencialmente Decrece exponencialmente

Tabla 1.1: Identificación del número de parámetros según la metodologı́a Box-Jenkins.

Se observa en la Figura 1.3 que en la ACF de la serie {Xt } prácticamente todas las barras
se encuentran dentro de las lı́neas azules, conocidas como bandas de Bartlett, exceptuando por
muy poco, al lag 7. Si una barra de la ACF se encuentra dentro de las bandas de Bartlett entonces
en ése punto la ACF no es significativa. Los lags posteriores al 7 son lejanos por lo que no se
consideran significativos. El razonamiento anterior sugiere ajustar un modelo MA(1).

También en la Figura 1.3, se nota que en la PACF son 4 las barras que se encuentran fuera de
las bandas, es decir, alcanzaron la significancia. Las barras decrecen lentamente, y guarda cierto
parecido a un comportamiento exponencial. Lo anterior sugiere también el ajuste de un modelo
MA.

A partir de lo observado en las gráficas ACF y PACF se sugiere un proceso MA(1) para
modelar a la primera diferencia de la serie concentración. Es decir, se propone:

{∆Xt } ∼ MA(1)

A su vez, esto lleva a deducir que:

{Xt } ∼ ARIMA(0, 1, 1)

pues solamente fue necesario aplicar una diferencia.

22
(a) ACF (b) PACF

Figura 1.3: ACF y PACF - {∆Xt }.

Paso 3. Estimación de los parámetros

La estimación de los parámetros se realiza vı́a máxima verosimilitud, a través de la función


arima de R, obteniendo los resultados de la Tabla 1.2.

θ1

-0.6994
s.e. 0.0645

Tabla 1.2: Parámetros estimados de {Xt }.

Ahora es necesario escribir al modelo para la serie {Xt } de manera explı́cita. A partir de la
Definición 1.5.1:
φ (B)(1 − B)d Xt = θ (B)εt

(1 − B)Xt = (1 − θ1 B)εt

Xt − Xt−1 = εt − θ1 εt−1

Xt = Xt−1 + εt − θ1 εt−1

Xt = Xt−1 + εt + 0.6994εt−1

23
Paso 4. Validación del modelo

En esta subsección es necesario verificar que el modelo ajustado cumpla con todos los su-
puestos. Como se denotó anteriormente, un modelo MA es estacionario pero no necesariamente
es invertible. En la sección 1.3 se vio que la invertibilidad puede ser verificada resolviendo el
polinomio caracterı́stico con respecto al operador retardo.

1 − θ1 B = 0

1 + 0.6994B = 0

0.6994B = −1
1
B=−
0.6994
B = −1.4297

Nótese que |B| > 1, por lo que se encuentra fuera del cı́rculo unitario. Luego entonces, el
modelo cumple con el supuesto de invertibilidad.

Ahora es necesario verificar que el modelo cumple con el supuesto de que los residuales
siguen un proceso ruido blanco, apoyándose a través de la prueba de Ljung-Box y de la función
Box.test de R.

Hipótesis:

H0 : Los residuales del modelo ARIMA(0, 1, 1) siguen un proceso ruido blanco

vs.

H1 : Los residuales del modelo ARIMA(0, 1, 1) no siguen un proceso ruido blanco

Resultado: Con un estadı́stico χ 2 obtenido de 14.935, un p-valor de 0.1344 y a un nivel de


significancia α = 0.05, no existe suficiente evidencia estadı́stica para rechazar la hipótesis nula
a favor de la hipótesis alternativa, es decir, no existe suficiente evidencia para afirmar que los
residuales del modelo ARIMA(0,1,1) no siguen un proceso ruido blanco.

24
Se supondrá entonces que los residuales del modelo siguen un proceso ruido blanco.

Por último, es necesario verificar si el modelo ajustado cumple con el supuesto de que
los residuales estandarizados siguen una distribución gaussiana. Para esto se aplicará la prue-
ba Shapiro-Wilk de normalidad, mediante la función shapiro.test de R.

Hipótesis:

H0 : Los residuales estandarizados del modelo ARIMA(0, 1, 1) siguen

una distribución normal

vs.

H1 : Los residuales estandarizados del modelo ARIMA(0, 1, 1) no siguen

una distribución normal

Resultado: Con un estadı́stico W obtenido de 0.98974, un p-valor de 0.1565, y a un nivel de


significancia α = 0.05, no existe suficiente evidencia estadı́stica para rechazar la hipótesis nula
a favor de la hipótesis alternativa, es decir, no existe suficiente evidencia para afirmar que los
residuales estandarizados del modelo ARIMA(0,1,1) no siguen una distribución normal.

Se supondrá entonces que los residuales estandarizados del modelo siguen una distribución
normal.

Paso 5. Adecuación del modelo

En el caso de la serie {Xt }, se verificó que el modelo ARIMA(0,1,1) cumple con todos los
supuestos, por lo que no es necesario realizar alguna modificación al modelo.

Si el modelo no hubiese cumplido con alguno de los supuestos, se pudo haber aplicado al-
guna transformación que corrija el problema que se hubiera presentado. En el peor de los casos,
es necesario ajustar un nuevo modelo y aplicar los pasos 3 y 4 hasta verificar que sı́ se cumplen

25
Figura 1.4: Gráfica de la serie concentración y del modelo ARIMA(0, 1, 1) ajustado.

los supuestos.

En la figura 1.4 se encuentra la gráfica de la serie {Xt } en color verde, mientras que en color
azul se encuentra la gráfica del modelo ARIMA(0, 1, 1) ajustado. Se observa que el proceso
ARIMA modela satisfactoriamente el comportamiento de la serie.

26
Capı́tulo 2

Pruebas de Dickey-Fuller

Como se mencionó en el capı́tulo 1, la estacionariedad es una condición deseada para la


modelación de series de tiempo a través de la metodologı́a Box-Jenkins. Sin embargo, no todas
las series son estacionarias, por lo que es necesario determinar cuáles de ellas sı́ lo son.

Se han desarrollado diversas pruebas de hipótesis para verificar la estacionariedad de una


serie de tiempo. A este tipo de pruebas se les conoce como pruebas de raı́ces unitarias, ya que
están ligadas con las raı́ces del polinomio caracterı́stico de la serie.

En este capı́tulo se introducirá el concepto de raı́z unitaria, ası́ como la prueba clásica que
desarrollaron David A. Dickey y Wayne A. Fuller en 1979, y que fue mejorada por los mismos
autores al presentar la prueba de Dickey-Fuller aumentada en 1981.

2.1. El problema de la raı́z unitaria


La ausencia de estacionariedad en una serie tiene implicaciones en la modelación de una
serie de tiempo. Mucha literatura se ha escrito proponiendo diversas metodologı́as para tratar
esta problemática, y son varios los autores los que dan sus opiniones con respecto a cuál método
es el mejor.

27
Considérese, por simplicidad, el proceso AR(1) definido a través de la ecuación:

Xt = φ Xt−1 + εt (2.1)

Como fue señalado en la Sección 1.2 el valor del parámetro φ es el que determina si el
proceso AR(1) es estacionario o no. Se han simulado 100 observaciones del proceso (2.1) para
ejemplificar el cambio que genera en su comportamiento el valor de φ , donde los residuales εt
siguen un proceso gaussiano estándar y X0 = 0.

El caso φ = 0.1 se observa en la Figura 2.1, en el que el proceso AR(1) es estacionario, pues
la media y la varianza tienen un comportamiento constante a través de las 100 observaciones.

Figura 2.1: Xt = 0.1Xt−1 + εt .

En la Figura 2.2 se presenta el proceso AR(1) con φ = 1, que es el caso en el cual Xt sigue
el comportamiento de una caminata aleatoria. En las primeras 20 observaciones la media del
proceso se encuentra alrededor del cero, pero luego da un brusco salto hacia arriba, para luego
decaer y estabilizarse después de la observación número 70. La varianza tampoco es constante.

28
Figura 2.2: Xt = Xt−1 + εt .

Cuando φ = 1.1 la media del proceso Xt tiene un comportamiento exponencial, como se


puede observar en la Figura 2.3.

Figura 2.3: Xt = 1.1Xt−1 + εt .

El trabajo de Dickey, Bell y Miller (1986) señala que, ante la presencia de una raı́z unitaria,
el no aplicar alguna transformación a la serie puede llevar a regresiones falsamente significati-
vas, mientras que la sobrediferenciación, aunque es ineficiente, produce estimadores insesgados
y consistentes.

29
En un estudio realizado por Nelson y Plosser (1982) se analizaron 14 series macroeconómi-
cas de los Estados Unidos, en las que se encontraban el PIB real, el PIB nominal, la tasa de
desempleo, un ı́ndice de precios de acciones, entre otras. Se concluyó que no bastaba con ajustar
polinomios para obtener una serie estacionaria a partir de alguna de estas 14 series, pero que si
se aplicaba una diferencia sı́ se obtenı́an series estacionarias.

La presencia de una raı́z unitaria ocasiona que el error estándar de los pronósticos y la va-
rianza del proceso crezcan hacia el infinito.

Raı́z unitaria en el proceso AR(1)

Considérese el proceso AR(1) de la forma

Xt = φ Xt−1 + εt (2.2)

Reescribiendo a través del operador retardo

εt = Xt − φ Xt−1

= Xt − φ BXt−1

= (1 − φ B)Xt

Que expresado a través del polimio caracterı́stico φ (B) tiene la forma

εt = φ (B)Xt (2.3)

Donde φ (B) = 1 − φ B es una función lineal de B. Igualando a 0, se obtiene que su raı́z es


B = 1/φ .

De ahı́ que si φ = 1 entonces B = 1, por lo que la raı́z del polinomio caracterı́stico estarı́a
dentro del cı́rculo unitario, lo cual implica a su vez que el proceso AR(1) no es estacionario. En
el caso B = 1 se dice que el proceso AR(1) tiene una raı́z unitaria.

El razonamiento anterior implica que los siguientes enunciados son equivalentes:

El proceso AR(1) no es estacionario.

30
El proceso AR(1) tiene una raı́z unitaria.

B=1

φ ≥1

Entonces, la estacionariedad del proceso AR(1) se puede analizar a través del valor de φ .

Suponiendo que φ = 1, a partir de la ecuación (2.1) se obtiene:

Xt − Xt−1 = ∆Xt = εt .

Donde εt es un proceso estacionario, debido a que es un ruido blanco. Luego, se dice que Xt es
integrada de orden uno, denotado como Xt ∼ I(1), ya que para obtener una serie estacionaria
derivada de Xt solamente fue necesaria una diferencia.

Una serie que es estacionaria sin necesidad de aplicar diferencias es conocida como integra-
da de orden cero y se denota como Xt ∼ I(0).

Definición 2.1.1 Sea Xt una serie de tiempo. Se dice que Xt es integrada de orden n, denotado
como Xt ∼ I(n), cuando al aplicarle n-diferencias se obtiene una serie estacionaria.

Raı́z unitaria en el proceso AR(2)

Considérese ahora el modelo AR(2) definido como

Xt = φ1 Xt−1 + φ2 Xt−2 + εt

O bien
φ2 (B)Xt = εt

Donde
φ2 (B) = 1 − φ1 B − φ2 B2

Dado que el polinomio φ2 (B) es cuadrático, entonces la condición de estacionariedad es que am-
bas raı́ces, r1 y r2 , sean mayores que uno en valor absoluto. En el caso en que alguna (o ambas)

31
raı́ces sean imaginarias, la condición de estacionariedad es que la norma del número complejo
sea mayor que uno en valor absoluto.

Supóngase que el proceso AR(2) tiene una raı́z unitaria (r2 = 1). Escribiendo al polinomio
caracterı́stico como:
φ2 (B) = (1 − α1 B)(1 − α2 B),
1 1
donde α1 = y α2 = = 1 y suponiendo que |r1 | > 1 se sigue |α1 | < 1 y
r1 r2

φ2 (B)Xt = (1 − α1 B)(1 − B)Xt = (1 − α1 B)∆Xt = ∆Xt − α1 ∆Xt−1 = εt

De aquı́ que
∆Xt = α1 ∆Xt−1 + εt (2.4)

donde |α1 | < 1, luego ∆Xt es estacionario, o lo que es igual, ∆Xt ∼ I(0). Esto quiere decir que
cuando el proceso AR(2) tiene una raı́z unitaria basta con aplicar una diferencia para obtener
una serie estacionaria.

Si el proceso AR(2) tiene dos raı́ces unitarias, r1 = 1 y r2 = 1, entonces |α1 | = |α2 | = 1, por
lo que el polinomio caracterı́stico se reduce a

φ2 (B) = (1 − B)(1 − B) = (1 − B)2

luego

φ2 (B)Xt = (1 − B)2 Xt

= Xt − Xt−1 − Xt−1 + Xt−2

= ∆Xt − ∆Xt−1

= ∆2 Xt

= εt ,

de aquı́, se observa que


∆Xt = ∆Xt−1 + εt

32
donde el coeficiente de ∆Xt−1 es igual a 1, consecuentemente ∆Xt ∼ I(1). Por otro lado, ∆2 Xt = εt
es generado por un ruido blanco, el cual es un proceso estacionario, luego ∆2 Xt ∼ I(0). Entonces,
se deben aplicar dos diferencias para obtener una serie estacionaria a partir de Xt , o lo que es
igual, Xt ∼ I(2).

2.2. Prueba de Dickey-Fuller


La prueba de Dickey-Fuller (1979) es una prueba para raı́ces unitarias y debe su nombre
a quienes la desarrollaron. Está basada en el supuesto empı́rico de que una serie de tiempo se
puede aproximar a través de un proceso AR(1).

Sea el proceso AR(1) definido como

Xt = φ Xt−1 + εt , t = 0, 1, 2, . . . (2.5)

donde se asume que x0 es un valor fijo inicial del proceso y εt es un proceso de ruido blanco.

Se desea verificar si |φ | = 1, ya que esto implicarı́a que Xt tiene una raı́z unitaria, por lo que
las hipótesis de la prueba son:

H0 : |φ | = 1 vs. H1 : |φ | < 1

Ya que bajo la hipótesis nula el proceso es una caminata aleatoria, y si se rechaza la hipótesis
nula se concluye que el proceso es estacionario.

Estadı́stico de prueba

El estadı́stico clásico para la prueba de Dickey-Fuller se obtiene a través del estimador de


mı́nimos cuadrados ordinarios para φ . Sean n observaciones del proceso AR(1):

xi = φ xi−1 + εi i = 1, 2, . . . , n. (2.6)

33
Si se deseara obtener una estimación de un valor futuro a partir de (2.6) se obtendrı́a un
modelo cuya estimación futura no contempla al término error, y que se expresa como:

x̂i = φ̂ xi−1 (2.7)

Entonces el error de estimación, que es la diferencia entre el valor real y el valor estimado
del modelo se determina a través de:

εi = xi − x̂i = xi − φ̂ xi−1 (2.8)

El estimador de mı́nimos cuadrados para φ se calcula a través del valor que minimiza la
suma de los cuadrados de los errores. Calculando:

n
SCE = ∑ εi2
i=1
n
= ∑ (xi − φ̂ xi−1 )2
i=1
n
= ∑ (xi2 − 2φ̂ xi xi−1 + φ̂ 2 xi−1
2
)
i=1

Derivando con respecto a φ̂ para obtener el mı́nimo de la suma de cuadrados:

∂ SCE ∂ ∑ni=1 εi2


=
∂ φ̂ ∂ φ̂
∂ ∑ni=1 (xi2 − 2φ̂ xi xi−1 + φ̂ 2 xi−1
2 )
=
∂ φ̂
n ∂ (x2 − 2φ̂ x x 2 2
i i i−1 + φ̂ xi−1 )
=∑
i=1 ∂ φ̂
n
2
= ∑ (−2xi xi−1 + 2φ̂ xi−1 )
i=1

Igualando a 0 y resolviendo con respecto a φ̂ para hallar el punto crı́tico:


n n
2
0 = −2 ∑ xi xi−1 + 2φ̂ ∑ xi−1
i=1 i=1
n n
2
2φ̂ ∑ xi−1 = 2 ∑ xi xi−1
i=1 i=1

34
∑ni=1 xi xi−1
φ̂ =
∑ni=1 xi−1
2

Calculando la segunda derivada de la suma de cuadrados de los errores para verificar que el
punto crı́tico sea un mı́nimo:

 
∂ SCE
∂ 2 SCE ∂ ∂ φ̂
=
∂ φ̂ 2 ∂ φ̂
∂ ∑ni=1 (−2xi xi−1 + 2φ̂ xi−1
2 )
=
∂ φ̂
n 2 )
∂ (−2xi xi−1 + 2φ̂ xi−1
=∑
i=1 ∂ φ̂
n
2
= ∑ 2xi−1
i=1
n
2
= 2 ∑ xi−1
i=1

∂ 2 SCE
El cuadrado de las observaciones siempre es positivo, por lo que ∂ φ̂ 2
> 0, lo cual significa
que se cumple el criterio de la segunda derivada, es decir, el estadı́stico:

∑ni=1 xi xi−1
φ̂ = (2.9)
∑ni=1 xi−1
2

es el que minimiza la suma de cuadrados de los errores, por lo que es el estimador por mı́nimos
cuadrados para φ .

A partir de la ecuación (2.9) y bajo la hipótesis nula se obtiene:

∑ni=1 xi xi−1
φ̂ − 1 = −1
∑ni=1 xi−1
2

∑ni=1 xi xi−1 − ∑ni=1 xi−1


2
=
∑ni=1 xi−1
2

∑n xi−1 (xi − xi−1 )


= i=1 n 2
∑i=1 xi−1
n
∑ xi−1 εi
= i=1
∑ni=1 xi−1
2

Multiplicando la expresión anterior por n:

35
!
1 n
∑ni=1 xi−1 εi n ∑i=1 xi−1 εi
τ = n(φ̂ − 1) = n = (2.10)
∑ni=1 xi−1
2 1 n
x2
n2 ∑i=1 i−1
El estadı́stico τ es el estadı́stico de Dickey-Fuller que se utiliza para una prueba de raı́ces
unitarias. La distribución del estadı́stico se puede obtener a través de la solución de una ecuación
diferencial estocástica, y los valores crı́ticos tabulados se pueden encontrar en (Fuller, 1996).

Deriva y tendencia

Para la construcción del estadı́stico τ se supuso que la ecuación que genera el modelo no
contenı́a ni intercepto ni tendencia con respecto al tiempo. Sin embargo, a través de análisis
posteriores hechos por Dickey y Fuller se llegó a la conclusión de que era necesario considerar
incluir estos dos conceptos al momento de ajustar los modelos.

Es por ello que surgieron variantes del estadı́stico τ a partir de los siguientes tres modelos:

Xt = φ Xt−1 + εt , t = 1, 2, . . . (2.2.11)

Xt = α + φ Xt−1 + εt , t = 1, 2, . . . (2.2.12)

Xt = α + βt + φ Xt−1 + εt , t = 1, 2, . . . (2.2.13)

Donde para cada ecuación se supone que εt es un proceso de variables aleatorias indepen-
dientes e idénticamente distribuidas.

Si |φ | < 1 entonces:

El modelo (2.2.11) es un proceso AR(1) estacionario de media cero.


α
El modelo (2.2.12) es un proceso AR(1) estacionario de media
1−φ
El modelo (2.2.13) es un proceso AR(1) estacionario con una tendencia lineal, si β 6= 0.

Por otro lado, si φ = 1 entonces:

En el modelo (2.2.11), Xt es integrado de orden uno y es una caminata aleatoria sin deriva.

36
En el modelo (2.2.12), Xt es integrado de orden uno y es una caminata aleatoria con deriva.

En el modelo (2.2.13), Xt es integrado de orden uno y es una caminata aleatoria con deriva
y con tendencia.

Para poder aplicar una prueba de raı́ces unitarias se debe considerar que la serie a estudiar
puede seguir cualquiera de los modelos (2.2.11), (2.2.12) o (2.2.13), por lo que es necesario
aplicar un procedimiento secuencial en el que se pueda probar al mismo tiempo la presencia de
una raı́z unitaria y la presencia de un intercepto y/o una tendencia. Esto conlleva a variantes del
estadı́stico τ, los cuales se pueden encontrar en (Dickey y Fuller, 1979):

1. Bajo la hipótesis nula de que el modelo que sigue el proceso es el (2.2.11), se construyó
el estadı́stico τ1 .

2. Bajo la hipótesis nula de que el modelo que sigue el proceso es el (2.2.12), se construyó
el estadı́stico τ2 .

3. Bajo la hipótesis nula de que el modelo que sigue el proceso es el (2.2.13), se construyó
el estadı́stico τ3 .

Las distribuciones lı́mite de los estadı́sticos τ1 , τ2 y τ3 no son distribuciones conocidas. Los


valores crı́ticos son calculados a través de simulaciones y se encuentran en Fuller (1996). Sin
embargo, existen dos casos particulares importantes:

1. Si los datos siguen el modelo (2.2.12) con α 6= 0, entonces la distribución lı́mite del es-
tadı́stico τ2 sigue una normal estándar.

2. Si los datos siguen el modelo (2.2.13) con β 6= 0, entonces la distribución lı́mite de los
estadı́sticos τ2 y τ3 siguen una normal estándar.

Más aún, Dickey y Fuller (1981) proporcionaron tres estadı́sticos adicionales basados en la
prueba F de Fisher, denotados por Φ1 , Φ2 y Φ3 , para probar hipótesis conjuntas de los coefi-
cientes α, β y φ .

El estadı́stico Φ1 se construyó para probar la hipótesis nula de que la serie sigue un proceso
AR(1) con raı́z unitaria y sin deriva.

37
El estadı́stico Φ2 se construyó para probar la hipótesis nula de que la serie sigue un proceso
AR(1) con una raı́z unitaria, sin tendencia ni deriva.

El estadı́stico Φ3 se construyó para probar la hipótesis nula de que la serie sigue un proceso
AR(1) con una raı́z unitaria sin tendencia, independientemente del término deriva.

La Tabla 2.1 resume al conjunto de pruebas que pueden ser aplicadas a partir de los estadı́sti-
cos que desarrollaron Dickey y Fuller (1979, 1981):

Modelo H0 H1 Estadı́stico Supuestos*

2.2.11 φ =1 φ <1 τ1 φ =1
2.2.12 φ =1 φ <1 τ2 (α, φ ) = (0, 1)
2.2.12 (α, φ ) = (0, 1) (α, φ ) 6= (0, 1) Φ1 (α, φ ) = (0, 1)
2.2.13 φ =1 φ <1 τ3 (α, β , φ ) = (0, 0, 1)
2.2.13 (α, β , φ ) = (0, 0, 1) (α, β , φ ) 6= (0, 0, 1) Φ2 (α, β , φ ) = (0, 0, 1)
2.2.13 (α, β , φ ) = (α, 0, 1) (α, β , φ ) 6= (α, 0, 1) Φ3 (α, β , φ ) = (0, 0, 1)

Tabla 2.1: Pruebas de Dickey-Fuller.

*En la Tabla 2.1 la columna ”Supuestos”se refiere a los supuestos necesarios para el cálculo
de los valores crı́ticos tabulados de cada estadı́stico.

Las pruebas τ1 ,τ2 y τ3 son de cola izquierda, por lo que se rechaza la hipótesis nula cuando
el estadı́stico calculado es menor que el valor crı́tico. Las pruebas Φ1 , Φ2 y Φ3 son de dos co-
las, por lo que se rechaza la hipótesis nula cuando el valor absoluto del estadı́stico calculado es
mayor que el valor crı́tico.

Resulta natural preguntarse, ¿cuál es el estadı́stico más adecuado para probar la estaciona-
riedad de una serie en particular? La respuesta no es trivial y será discutida en la sección (2.4).

38
2.3. Prueba de Dickey-Fuller aumentada
Dickey y Fuller continuaron trabajando para realizar una versión mejorada de su prueba
de raı́ces unitarias, partiendo ahora del supuesto empı́rico de que una serie de tiempo se pue-
de aproximar a través de un proceso AR(p), dando lugar a lo que se conoce como prueba de
Dickey-Fuller aumentada.

Primero, obsérvese que es posible plantear la prueba de Dickey-Fuller clásica a través de la


siguiente reparametrización de un proceso AR(1), considerando γ = φ − 1:

Xt = φ Xt−1 + εt

Xt = (γ + 1)Xt−1 + εt

Xt = γXt−1 + Xt−1 + εt

∆Xt = γXt−1 + εt

Entonces, las hipótesis a probar pasarı́an a ser:

H0 : γ = 0 vs. H1 : γ < 0

Ya que si γ = 0, se sigue que el proceso ∆Xt = εt es I(0), lo cual lleva a concluir que Xt es
I(1), o lo que es igual, Xt tiene una raı́z unitaria.

Ahora, sea el proceso AR(p) definido a través de

Xt = φ1 Xt−1 + · · · + φ p−2 Xt−p+2 + φ p−1 Xt−p+1 + φ p Xt−p + εt

Sumando y restando φ p Xt−p+1 se obtiene

Xt = φ1 Xt−1 + · · · + φ p−2 Xt−p+2 + φ p−1 Xt−p+1 + φ p Xt−p + εt + φ p Xt−p+1 − φ p Xt−p+1

= φ1 Xt−1 + · · · + φ p−2 Xt−p+2 + (φ p−1 + φ p )Xt−p+1 − φ p ∆Xt−p+1 + εt

Luego, sumando y restando (φ p−1 + φ p )Xt−p+2

39
Xt = φ1 Xt−1 + · · · + φ p−2 Xt−p+2 + (φ p−1 + φ p )Xt−p+1 − φ p ∆Xt−p+1 + εt

+ (φ p−1 + φ p )Xt−p+2 − (φ p−1 + φ p )Xt−p+2

= φ1 Xt−1 + · · · + (φ p−2 + φ p−1 + φ p )Xt−p+2 − (φ p−1 + φ p )∆Xt−p+2

− φ p ∆Xt−p+1 + εt

Y continuando de esa forma se obtiene:

p
∆Xt = γXt−1 + ∑ βi ∆Xt−i+1 + εt (2.3.1)
i=2
p
donde γ = −(1 − ∑i=1 φi ) y βi = − ∑ pj=i φ j .

Nótese que en el modelo (2.3.1) el término ∆Xt está explicado a través de los valores ponde-
rados de Xt−1 , ∆Xt−1 , ∆Xt−2 ,..., ∆Xt−p+1 . Si el coeficiente γ fuese igual a 0, entonces el modelo
estarı́a definido en términos de primeras diferencias y un proceso estacionario, por lo que ∆Xt
serı́a al menos I(0), lo cual implica que Xt tendrı́a al menos una raı́z unitaria.

Dickey y Fuller (1981) demostraron que el estadı́stico para probar la hipótesis nula γ = 0
tiene la misma distribución asintótica que el estadı́stico τ de la prueba Dickey-Fuller clásica.
Esto implica que los valores crı́ticos tabulados para la prueba de Dickey-Fuller aumentada son
iguales a los valores crı́ticos asociados al estadı́stico τ.

Es posible generalizar el razonamiento anterior para verificar que en la prueba de Dickey-


Fuller aumentada también se pueden adicionar los términos deriva y tendencia, resultando en
los estadı́sticos Φ1 , Φ2 y Φ3 .

2.4. Procedimiento secuencial para la aplicación de la prueba


de Dickey-Fuller aumentada
Debido a que existen diferentes variantes de la prueba de Dickey-Fuller aumentada, diversos
autores proponen distintas secuencias para la aplicación de ésta. A pesar de las diferencias que

40
se encuentran en las secuencias el objetivo es el mismo, poder determinar, a un nivel de signifi-
cancia dado, si la serie en cuestión tiene una raı́z unitaria.

En particular, el procedimiento que se presentará puede consultarse en (Rao, 1994), aunque


esta versión difiere ligeramente en el orden de las pruebas. Los pasos se encuentran enumerados
y el objetivo es poder considerar todas las posibles combinaciones de las pruebas con deriva y/o
tendencia.

Paso 1: Estima la ecuación:

q
xt = α + βt + φ xt−1 + ∑ θi ∆xt−i + εt
i=1

Paso 2: Utilice al estadı́stico Φ3 para probar:

H0 : (α, β , φ ) = (α, 0, 1) vs. H1 : (α, β , φ ) 6= (α, 0, 1)

1. Si la hipótesis nula es rechazada ve al paso 3.

2. Si la hipótesis nula no es rechazada ve al paso 7.

Paso 3: Utilice al estadı́stico τ3 con los valores crı́ticos de una distribución normal estándar
para probar:
H0 : φ = 1 vs. H1 : φ < 1

1. Si la hipótesis nula es rechazada ve al paso 4.

2. Si la hipótesis nula no es rechazada se concluye que la serie tiene una raı́z unitaria y
tendencia.

Paso 4: Utilice el estadı́stico t de Student para probar

H0 : β = 0 vs. H1 : β 6= 0

1. Si la hipótesis nula es rechazada ve al paso 5.

2. Si la hipótesis nula no es rechazada ve al paso 6.

41
Paso 5: Utilice el estadı́stico t de Student para probar

H0 : α = 0 vs. H1 : α 6= 0

1. Si la hipótesis nula es rechazada se concluye que la serie es estacionaria con deriva


y con tendencia.

2. Si la hipótesis nula no es rechazada se concluye que la serie es estacionaria sin deriva


y con tendencia.

Paso 6: Utilice el estadı́stico t de Student para probar

H0 : α = 0 vs. H1 : α 6= 0

1. Si la hipótesis nula es rechazada se concluye que la serie es estacionaria con deriva


y sin tendencia.

2. Si la hipótesis nula no es rechazada se concluye que la serie es estacionaria sin deriva


y sin tendencia.

Paso 7: Suponga que β = 0 y utilice al estadı́stico τ3 con los valores crı́ticos tabulados
para probar:
H0 : φ = 1 vs. H1 : φ < 1

1. Si la hipótesis nula es rechazada se concluye que la serie es estacionaria y sin ten-


dencia.

2. Si la hipótesis nula no es rechazada ve al paso 8.

Paso 8: Utilice al estadı́stico Φ2 para probar:

H0 : (α, β , φ ) = (0, 0, 1) vs. H1 : (α, β , φ ) 6= (0, 0, 1)

1. Si la hipótesis nula es rechazada se concluye que la serie tiene una raı́z unitaria, ası́
como deriva y tendencia.

2. Si la hipótesis nula no es rechazada ve al paso 9.

Paso 9: Suponga que β = 0 y utilice al estadı́stico Φ1 para probar:

H0 : (α, φ ) = (0, 1) vs. H1 : (α, φ ) 6= (0, 1)

42
1. Si la hipótesis nula es rechazada se concluye que la serie es estacionaria sin tendencia
y con deriva.

2. Si la hipótesis nula no es rechazada se concluye que la serie tiene una raı́z unitaria,
sin tendencia y sin deriva.

Para facilitar la correcta aplicación del procedimiento secuencial se le presenta al lector la


Figura 2.4, que es un diagrama que incluye de manera ordenada los estadı́sticos a aplicar, las
hipótesis a probar y las distintas conclusiones que se pueden obtener.

A pesar de que la prueba de Dickey-Fuller aumentada tiene un fundamento teórico robus-


to y bien desarrollado, existen ciertos detalles que deben ser considerados al momento de su
aplicación:

La prueba de Dickey-Fuller fue desarrollada para probar la presencia de solamente una


raı́z unitaria, pero la serie en cuestión pudiese tener dos o más raı́ces unitarias. En éste
caso se tendrı́an que aplicar las pruebas a la serie diferenciada, como señalan Dickey y
Pantula (1987).

No se toma en consideración la posible existencia de un componente estacional, esto es,


que los valores que tome la serie tiendan a repetirse cada cierto periodo de tiempo. Esto se
podrı́a observar en una serie cuyos valores sean mediciones de la temperatura ambiente,
es evidente que en los meses de verano las temperaturas casi tenderán a ser altas, mientras
que en diciembre tenderán a ser bajas.

Es posible que la serie a analizar no se pueda aproximar a través de un proceso AR(p),


pues existe la serie analizada contenga tantos términos autorregresivos como términos de
medias móviles. En éste caso, se puede utilizar un resultado probado por Said y Dickey
(1984) , que señala que un proceso ARIMA(p, 1, q), donde los parámetros p y q son
1
desconocidos, puede ser aproximado por un ARIMA(m, 1, 0) para m ≤ n 3 , donde n es el
número de observaciones.

Por último, para estimar al parámetro γ en la ecuación (2.3.1) no se conoce el verdade-


ro valor de p, ya que el orden del proceso autorregresivo es desconocido, entonces, es

43
necesario determinar el número adecuado de lags a incluir. Para ello, es útil señalar al
resultado probado por Sims, Stock y Watson (1990), qué dice la distribución de los esti-
madores de los coeficientes βi converge a una t de Student, bajo el supuesto de que las
variables ∆Xt−i+1 son estacionarias con media cero y que εt es un proceso ruido blanco.
Luego, es posible aplicar pruebas t individuales sobre cada parámetro, ası́ como pruebas
F a conjuntos formados por los coeficientes βi .

44
Figura 2.4: Diagrama del procedimiento secuencial para la prueba de Dickey-Fuller aumentada.

45
Capı́tulo 3

Procesos cointegrados

En este capı́tulo se introduce la definición de cointegración, el modelo de corrección de


errores y el modelo de corrección de errores vectorial, junto con el concepto de causalidad en el
sentido de Granger.

Se presenta el procedimiento de Engle-Granger, que es una secuencia de pasos para identi-


ficar si un par de series integradas de orden uno están cointegradas, ası́ como también el pro-
cedimiento de Johansen, como una generalización que permite identificar relaciones de cointe-
gración entre dos o más series. También se introduce la prueba Henze-Zinkler para normalidad
multivariada.

3.1. Cointegración
Las series económicas y financieras frecuentemente presentan relaciones entre ellas debido
en parte a la naturaleza de los mercados. Hoy en dı́a, el internet ha hecho posible transmitir
información desde un extremo del planeta a otro casi instantáneamente, y estos cambios tan
rápidos ocasionan que una variable sea afectada por muchos factores. Las decisiones polı́ticas,
las tendencias de consumo y muchas otras cuestiones impactan de una manera importante a
prácticamente todas las variables de la economı́a.

46
Analizar los valores pasados de una serie aplicando la metodologı́a Box-Jenkins puede pro-
ducir pronósticos confiables, pero tomar en cuenta alguna otra variable de importancia podrı́a
enriquecer las proyecciones.

Considérese, por ejemplo, un modelo que relaciona el cambio en el valor del consumo de
una población ∆Ct en función del cambio en su ingreso ∆It :

∆Ct = α∆It + εt (3.1.1)

Donde α es un parámetro positivo y εt es un proceso ruido blanco.

En la ecuación (3.1.1) el cambio en el consumo de un periodo ∆Ct de tiempo al siguiente


está explicado por un valor ponderado del cambio en el ingreso ∆It en el mismo periodo de
tiempo. Entonces, un cambio positivo en el ingreso implicarı́a un incremento en el consumo,
sin importar si el gasto que ya se haya realizado fue muy grande o muy pequeño. Esto serı́a un
enfoque poco realista.

El modelo se puede compensar si se toma en cuenta un valor ponderado de los valores que
tomaron las variables Ct e It una periodo de observación antes, de tal forma que:

∆Ct = α∆It + θ (Ct−1 − It−1 ) + εt (3.1.2)

En la literatura, a un proceso que tiene la forma de la ecuación (3.1.2) se le conoce como me-
canismo de correción de errores, y se abrevia como ECM, pues proviene del término en inglés
error correction mechanism.

En la sección (2.1) fue señalado que una gran cantidad de variables macroeconómicas son
I(1), entonces se puede suponer que tanto Ct como It son I(1), implicando que ∆Ct ∼ I(0) y
∆It ∼ I(0). En general, una combinación lineal de variables I(1) es también I(1), consecuente-
mente, θ (Ct−1 − It−1 ) ∼ I(1).

Luego, la parte derecha del modelo (3.1.2) es una combinación de dos variables I(0) y una
variable I(1):

47
∆C = α∆I + θ (C − I ) + et
|{z}t |{z}t | t−1{z t−1} |{z}
I(0) I(0) I(1) I(0)

Esto podrı́a analizarse a través de una relación entre los órdenes de integración, o una coin-
tegración, entre las variables. La pregunta de interés es, ¿bajo qué condiciones una combinación
lineal de variables no estacionarias es I(0)?

Engle y Granger (1987) introdujeron el concepto de cointegración. En su trabajo desarro-


llaron un análisis de las relaciones entre series de tiempo con el mismo orden de integración
y propusieron resultados que en conjunto con otros teoremas llevaron a un procedimiento para
determinar si una combinación lineal de series no estacionarias es estacionaria. Engle y Granger
compararon varios estadı́sticos y dieron pie a desarrollar nuevos modelos y metodologı́as.

Definición 3.1.1 Se dice que los componentes del vector Xt = (X1t , X2t , · · · , Xnt )0 están cointe-
grados de orden d,b, denotado como Xt ∼ CI(d, b) si:

1. Todos los componentes de Xt son integrados de orden d.

2. Existe un vector β = (β1 , β2 , · · · , βn ) llamado vector cointegrante, de tal forma que la


combinación lineal βXt = β1 X1t + β2 X2t + · · · + βn Xnt es integrada de orden (d − b), con
b > 0.

Algunas observaciones importantes de la definición que propusieron Engle y Granger son:

El vector cointegrante no es único. Si (β1 , · · · , βn ) es un vector cointegrante, entonces


(λ β1 , · · · , λ βn ) con λ 6= 0 también lo es.

Todos los componentes del vector Xt deben tener el mismo orden de integración.

Si Xt tiene n componentes, entonces existen a lo más n − 1 vectores cointegrantes lineal-


mente independientes. Al número de vectores cointegrantes se le conoce como rango de
cointegración de Xt .

48
3.2. El modelo VECM
Una generalización del modelo ECM es el modelo de corrección de errores vectorial, abre-
viado como VECM, que son las siglas de vector error correction model (Engle y Granger, 1987).
Un vector aleatorio Xt = (X1t , X2t , · · · , Xnt )0 tiene una representación VECM(p) si puede ser ex-
presado en la forma:

∆Xt = µ + ΓXt−1 + Γ1 ∆Xt−1 + Γ2 ∆Xt−2 + · · · + Γ p ∆Xt−p + t (3.2.1)

donde:

µ es un vector de interceptos de dimensión n × 1.

Γi son matrices de coeficientes de dimensión n × n.

Γ es una matriz de dimensión n × n con elementos π jk tal que al menos uno de ellos es
distinto de cero.

t es un vector de residuales de dimensión n × 1.

En particular, cuando Xt ∼ CI(1, 1), el VECM(p) se expresa como:

∆Xt = µ + αβXt−1 + Γ1 ∆Xt−1 + Γ2 ∆Xt−2 + · · · + Γ p ∆Xt−p + t (3.2.2)

Donde α es un vector de coeficientes de dimensión (n × 1), β es el vector cointegrante y las Γi


son matrices de coeficientes de dimensión (n × n) (Juselius, 2007). Resulta interesante notar que
en la ecuación (3.2.2) todos los términos son estacionarios, pues βXt−1 ∼ I(0) y ∆Xt−i ∼ I(0),
para i = 0, 1, · · · , p.

No es difı́cil notar que un VECM(p) guarda cierto parecido a un modelo VAR(p) en dife-
rencias (ver Apéndice A), pero incluyendo al término αβXt−1 .

Sea el proceso VECM(p) definido de acuerdo a la expresión (3.2.2):

∆Xt = µ + αβXt−1 + Γ1 ∆Xt−1 + Γ2 ∆Xt−2 + · · · + Γ p ∆Xt−p + t

Xt − Xt−1 = µ + αβXt−1 + Γ1 (Xt−1 − Xt−2 ) + Γ2 (Xt−2 − Xt−3 )

+ · · · + Γ p−1 (Xt−(p−1) − Xt−p ) + Γ p (Xt−p − Xt−(p+1) ) + t

49
Luego:

Xt = µ + αβXt−1 + Xt−1 + Γ1 Xt−1 − Γ1 Xt−2 + Γ2 Xt−2 − Γ2 Xt−3

+ · · · + Γ p−1 Xt−(p−1) − Γ p−1 Xt−p + Γ p Xt−p − Γ p Xt−(p+1) + t

= µ + (αβ + Γ1 + 1)Xt−1 + (Γ2 − Γ1 )Xt−2 + · · · + (Γ p − Γ p−1 )Xt−p

− Γ p Xt−(p+1) + t

Reparametrizando y sustituyendo A1 = αβ + Γ1 + 1, Ai = Γi − Γi−1 , para i = 2, 3, · · · , p y


A p+1 = −Γ p , se cumple que:

Xt = µ + A1 Xt−1 + A2 Xt−2 + · · · + A p Xt−p + A p+1 Xt−(p+1) + t (3.2.3)

De la ecuación (3.2.3) se deduce un modelo VECM(p) es una reparametrización de un mo-


delo VAR(p + 1).

Ciertas restricciones en las matrices de coeficientes del proceso (3.2.3) deben ser impuestas
para asegurar que el proceso se puede expresar en términos de innovaciones previas, que los
estimadores de las matrices son convergentes y que el proceso es estacionario. A un proceso
VAR(p + 1) que cumple con los supuestos anteriores se le conoce como proceso VAR(p + 1)
estable, pero no es el objetivo definirlos en este trabajo.

Si un proceso VAR(p + 1) es estable y además está formado por series que están cointe-
gradas entonces se le conoce como modelo VAR cointegrado. Una buena referencia para seguir
investigando acerca de los procesos VAR estables es (Lütkepohl, 2005).

Existe un resultado fuerte y muy útil conocido como Teorema de la representación de Gran-
ger que fue demostrado y publicado en el artı́culo Engle y Granger (1987). De este teorema
se deducen varios resultados y es básicamente la fundamentación teórica del porqué existe una
relación directa entre la cointegración, el modelo VECM(p) y el modelo VAR(p + 1).

50
Teorema 3.2.1 (Teorema de la Representación de Granger) Sea el proceso vectorial Yt de
dimensión n × 1, tal que Yt ∼ I(1) y supóngase que existen exactamente r relaciones de cointe-
gración entre los elementos de Yt . Entonces existe una matriz A de dimensión n × r cuyas filas
son linealmente independientes tal que el vector Zt definido por:

Zt = A0 Yt

es estacionario. Si además el proceso Yt puede expresarse como un proceso VAR(p), entonces


existe una matriz B de dimensión n × r tal que:

φ (1) = BA0

donde φ (1) = In − φ1 B, con φ1 siendo una matriz de dimensión n × n y B es el operador retardo.


Más aún, existen matrices Γ1 ,Γ2 ,· · · , Γ p−1 de dimensión n × n y un vector α de dimensión n × 1
con interceptos, tales que:

∆Yt = α − BZt−1 + Γ1 ∆Yt−1 + · · · + Γ p−1 ∆Yt−p+1 + t

que es la representación del modelo de corrección de errores vectorial.

La demostración del Teorema de la Representación de Granger se encuentra en Engle y


Granger (1987).

Definiendo al término que guarda la relación de cointegración como:

ECTt−1 = βXt−1 = β1 X1t−1 + β2 X2t−1 + · · · + βn Xnt−1

donde ECT son las siglas de error correction term, también es posible escribir al VECM(p) de
la forma:

∆Xt = µ + αECTt−1 + Γ1 ∆Xt−1 + Γ2 ∆Xt−2 + · · · + Γ p ∆Xt−p + t , (3.2.4)

bajo los supuestos dados para obtener la ecuación (3.2.2).

En el modelo (3.2.4) es posible interpretar al término αECTt−1 como el que mantiene la


relación de cercanı́a del comportamiento entre las variables cointegradas.

51
3.3. Procedimiento de Engle-Granger
Engle y Granger (1987) propusieron un procedimiento para probar si dos series con orden
de integración uno están cointegradas. A continuación se presenta una versión más amigable del
propuesto en Enders (2014).

Sean Xt y Yt dos series de las que se desea probar si existe una relación de cointegración.

Paso 1. Determine si Xt y Yt son I(1).

Paso 2. Estime la ecuación


Yt = a + β1 Xt + εt ,

y pruebe si los residuales εt son estacionarios, utlizando el estadı́stico Engle-Yoo (1987),


pero comparando con los valores crı́ticos tabulados por MacKinnon (1991).

Paso 3. Estime el modelo de corrección de errores.

Paso 4. Realice la validación del modelo.

Para efectuar el paso 1, es necesario recurrir a la prueba de Dickey-Fuller aumentada, pues


a través de ella se puede determinar si las series ∆Xt y ∆Yt son estacionarias, concluyendo que
Xt ∼ I(1) y Yt ∼ I(1). Es recomendable aplicar el procedimiento secuencial presentado en la
Sección 2.4, con el fin de cerciorarse de que las conclusiones son las correctas.

El paso 2 es estimar el modelo:

Yt = a + β1 Xt + εt (3.3.1)

a través de mı́nimos cuadrados ordinarios, donde un resultado interesante es que si las variables
están cointegradas, los estimadores de los parámetros a y β1 son superconsistentes, pues con-
vergen más rápido a los valores verdaderos que los estimadores de mı́nimos cuadrados usando
series de tiempo estacionarias (Enders, 2014).

52
Después, es necesario probar si los residuales εt son estacionarios. Sin embargo, debido a
que los εt son generados a través de la ecuación (3.3.1), no se conocen los verdaderos valores,
solamente se tienen los residuales estimados εˆt , y dado que mı́nimos cuadrados selecciona los
valores â y βˆ1 para los cuales la suma de cuadrados de los residuales es mı́nima, entonces existe
una predisposición a encontrar que εt es estacionario.

Dado el razonamiento anterior, probar la estacionariedad de los residuales con una prueba
Dickey-Fuller aumentada es incorrecto. Engle y Yoo (1987) propusieron un estadı́stico y calcu-
laron valores crı́ticos para probar si los residuales εt son estacionarios. Sin embargo, MacKinnon
(1991) señaló que dado que el estadı́stico propuesto por Engle y Yoo no sigue una distribución
conocida ni de forma asintótica, entonces era necesario realizar un número mayor de simula-
ciones, por lo que propone una nueva tabla de valores crı́ticos, en términos de superficies de
respuesta. Para una prueba de cointegración según el procedimiento de Engle-Granger, deben
de utilizarse los valores crı́ticos de MacKinnon.

En la Sección 2.4 se mencionó que, si se quiere probar si una serie es estacionaria, se plantean
las hipótesis de la prueba de Dickey-Fuller aumentada de la forma:

H0 : φ = 1 vs. H1 : φ < 1

Donde φ es el parámetro de interés de un proceso AR(1). Luego, una manera de plantear las
hipótesis para probar la estacionariedad de εt es:

H0 : εt tiene una raiz unitaria vs. H1 : εt es un proceso estacionario

Lo anterior es equivalente, en el contexto de cointegración a las hipótesis:

H0 : Xt ,Yt  CI(1, 1) vs. H1 : Xt ,Yt ∼ CI(1, 1)

Observe que el par de hipótesis anterior no es de la manera usual de planear hipótesis es-
tadı́sticas, dado que la hipótesis nula de una prueba para cointegración es que las series no están
cointegradas. Sin embargo, el origen del planteamiento de estas hipótesis yace en la forma en la
que se escriben las hipótesis de estacionariedad para εt .

53
El paso 3 es la estimación del VECM a través de las ecuaciones:

p 2p
∆Xt = µ1 + α1 ECTt−1 + ∑ γ1i ∆Xt−i + ∑ γ1i ∆Yt+p−i + ε1t (3.3.2)
i=1 i=p+1

p 2p
∆Yt = µ2 + α2 ECTt−1 + ∑ γ2i ∆Xt−i + ∑ γ2i ∆Yt+p−i + ε2t (3.3.3)
i=1 i=p+1
El paso 4 es la validación del modelo, que consiste en:

i) Verificar que los coeficientes µi , αi y γi j son distintos de cero, pudiendo ser aplicadas prue-
bas t individuales, según el trabajo de Sims, Stock y Watson (1990).

Puede darse el caso en el que las ecuaciones 3.3.2 y 3.3.3 sean ambas significativas, que
solamente una sea significativa o que ninguna sea significativa, lo cual va de la mano con el
concepto de causalidad de Granger. Se dice que una serie Xt causa en el sentido de Granger
a Yt si Xt ayuda a predecir a Yt en algún punto del futuro.

Supóngase que las ecuaciones 3.3.2 y 3.3.3 son ambas significativas, esto quiere decir que
Xt causa en el sentido de Granger a Yt , y que Yt causa en el sentido de Granger a Xt , esto se
puede representar como:

G G
Xt −
→ Yt y Yt −
→ Xt

Si ninguna de las series causa en el sentido de Granger a la otra, entonces existe la posibi-
lidad de que la relación de cointegración no sea verdadera, o que las series difieran en su
orden de integración.

ii) Probar que los residuales siguen una distribución normal multivariada.

Una prueba de normalidad multivariada no es trivial, pues diferentes autores han desarro-
llado su análisis con diferentes metodologı́as, lo que ha dado pie a alrededor de 50 pruebas
diferentes. Mecklin y Mundfrom (2005) realizaron una comparación vı́a simulación mon-
tecarlo de los errores tipo I y tipo II de las 13 pruebas que consideraron más prometedoras.

54
Dividieron a las pruebas en cuatro clases:

Enfoque en gráficas y correlaciones.

Enfoque en sesgo y curtosis.

Enfoque en bondad de ajuste.

Enfoque en consistencia.

Concluyeron que ninguna prueba resultó ser la más potente en todas las situaciones. Sin em-
bargo, si se tuviese que elegir una de entre todas las pruebas, y considerando las siguientes
caracterı́sticas como las más valiosas en una prueba de hipótesis:

Facilidad de cálculo y aplicación.

Potencia de prueba ante una gran variedad de distribuciones alternativas.

Propiedades matemáticas deseables como invarianza y consistencia.

entonces la prueba Henze-Zirkler (1990) serı́a la más adecuada.

La prueba Henze-Zirkler está basada en una función no negativa que mide la distancia entre
dos distribuciones, la distribución normal multivariada hipotética y la distribución observa-
da.

El estadı́stico de Henze-Zirkler tiene una distribución aproximadamente lognormal, y está


construido a partir de la siguiente función no negativa:
Z
Dβ (P, Q) = |P̂(t) − Q̂(t)|2 ϕβ (t)dt,

donde P̂(t) es la función caracterı́stica de la distribución normal multivariada hipotética,


Q̂(t) es la función caracterı́stica empı́rica, ϕβ es la función kernel N p (0, β 2 I p ) y β es un
parámetro de suavizamiento. Después de analizar distintos valores, Henze y Zinkler propu-
sieron utilizar β = 0.05.

55
Las hipótesis planteadas en la prueba son:

H0 : El vector t sigue una distribución normal multivariada

vs.

H1 : El vector t no sigue una distribución normal multivariada

Mecklin y Mundfrom (2005) sugirieron que, debido a que la prueba Henze-Zinkler no ayu-
da a determinar la razón de la no normalidad, si se rechaza la hipótesis nula se complemente
el análisis con gráficos y medidas multivariadas de sesgo y curtosis.

3.4. Procedimiento de Johansen


Aunque el procedimiento de Engle-Granger fue el primer método para modelar series coin-
tegradas, es importante señalar que tiene ciertos inconvenientes. Por ejemplo, en el paso 2, se
debe definir cuál es la variable dependiente y cuál es el variable independiente, pudiéndose lle-
gar a conclusiones diferentes dependiendo de la decisión.

Además, en el procedimiento de Engle-Granger no se considera la posibilidad de más de una


relación de cointegración, lo que motivó a matemáticos y economistas a continuar desarrollando
investigación referente a la cointegración.

Entre 1998 y 1992, Soren Johansen, reconocido econometrista Danés, realizó una serie pu-
blicaciones en las que probó resultados referentes al análisis estadı́stico de las series cointegradas
y que permitió generalizar el concepto y aplicar pruebas de hipótesis que permitiesen determi-
nar la existencia de más de una relación de cointegración. Al conjunto de pasos necesarios para
realizar este análisis se le conoce como Procedimiento de Johansen.

De una manera intuitiva, el procedimiento de Johansen se puede interpretar como una gene-
ralización de la prueba de Dickey-Fuller aumentada (Enders, 2014). En la sección 2.3 se señaló

56
que es posible plantear a la prueba de Dickey-Fuller clásica a través de la siguiente reparametri-
zación de un proceso AR(1), considerando γ = φ − 1:

∆Xt = γXt−1 + εt (3.4.1)

Entonces, las hipótesis a probar serı́an:

H0 : γ = 0 vs. H1 : γ < 0

Ahora si se considera el caso multivariado de un proceso VAR(1) generado por n series de


tiempo:
Xt = A1 Xt−1 + t

Reescribiendo:

Xt − Xt−1 = A1 Xt−1 − Xt−1 + t

∆Xt = (A1 − In )Xt−1 + t

∆Xt = ΠXt−1 + t

Luego, es de particular interés el analizar a la matriz Π. Supóngase que Ran(Π) = 0, esto


implica que Π es la matriz nula, luego:

∆Xt = t

Lo cual significa que los componentes (X1t , · · · , Xnt ) del proceso Xt son estacionarios al aplicar
una diferencia, o lo que es igual Xt ∼ I(1). Y dado que Xt es un proceso conformado por series
con raı́z unitaria y no se observa alguna combinación lineal de series que sea estacionaria, el
número de relaciones de cointegración es igual a 0.

Johansen (1988) enfocó su inferencia en el análisis de la matriz Π = αβ y probó que su


rango es igual al número de relaciones de cointegración que se encuentran en un conjunto de n
series de tiempo.

Más aún, es posible generalizar este resultado para el caso de un proceso VAR(p) de la
forma:
Xt = A1 Xt−1 + · · · + A p Xt−p + t (3.4.2)

57
Sumando y restando A p Xt−p+1 se obtiene:

Xt = A1 Xt−1 + · · · + A p−2 Xt−p+2 + A p−1 Xt−p+1 + A p Xt−p + εt + A p Xt−p+1 − A p Xt−p+1

= A1 Xt−1 + · · · + A p−2 Xt−p+2 + (A p−1 + A p )Xt−p+1 − A p ∆Xt−p+1 + t

Luego, sumando y restando (A p−1 + A p )Xt−p+2

Xt = A1 Xt−1 + · · · + A p−2 Xt−p+2 + (A p−1 + A p )Xt−p+1 − A p ∆Xt−p+1 + t

+ (A p−1 + A p )Xt−p+2 − (A p−1 + A p )Xt−p+2

= A1 Xt−1 + · · · + (A p−2 + A p−1 + A p )Xt−p+2 − (A p−1 + A p )∆Xt−p+2

− A p ∆Xt−p+1 + t

Y continuando de esa forma se obtiene:

p−1
∆Xt = ΠXt−1 + ∑ Πi∆Xt−i + t (3.4.3)
i=1
p p
donde Π = −(In − ∑ Ai ) y Πi = − ∑ A j.
i=1 j=i+1

Un resultado interesante de álgebra lineal dice que el rango de una matriz es igual al núme-
ro de sus eigenvalores distintos de cero (Enders, 2014). Luego, es posible ordenar de manera
descendiente a las raı́ces caracterı́sticas de la matriz Π tal que:

λ1 > λ2 > · · · λn

Supóngase que Ran(Π) = 0, esto implicarı́a que todas las raı́ces caracterı́sticas son iguales a
cero. Como ln(1) = 0, entonces ln(1 − λi ) = 0, con i = 1, 2, · · · , n.

Ahora, si Ran(Π) = 1, dado 0 < λ1 < 1 se cumple que ln(1 − λ1 ) < 0, y ln(1 − λi ) = 0, con
i = 2, 3, · · · , n.

Analizando el comportamiento de los valores ln(1 − λi ), Johansen (1991) desarrolló los


siguientes dos estadı́sticos:

58
1. El estadı́stico λtrace :
n
λtrace (r) = −k ∑ ln(1 − λ̂i ) (3.4.4)
i=r+1
Que se utiliza para probar las hipótesis:

H0 : r = i vs. H1 : r > i

Para i = 0, 1, · · · , n − 1, donde r es el número de relaciones de cointegración y k es el


número de observaciones.

2. El estadı́stico λmax :
λmax (r, r + 1) = −kln(1 − λ̂r+1 ) (3.4.5)

Que se utiliza para probar las hipótesis:

H0 : r = i vs. H1 : r = i + 1

Para i = 0, 1, · · · , n, donde r es el número de relaciones de cointegración y k es el número


de observaciones.

Dado que las hipótesis que se plantean en la construcción de los estadı́sticos son distintas,
existe la posibilidad de que las conclusiones sean diferentes, sin embargo, se debe preferir el
resultado que establece el estadı́stico λmax por tener una hipótesis alternativa más especı́fica
(Enders, 2014).

Si se tiene la sospecha de que entre las n componentes de un vector Xt = (X1t , · · · , Xnt ) existe
al menos una relación de cointegración, los pasos para efectuar el procedimiento de Johansen son
análogos a los del procedimiento de Engle-Granger, con la diferencia de que se deben utilizar a
los estadı́sticos λmax y λtrace para probar si existen relaciones de cointegración.

Paso 1. Determine si las series X1t , · · · , Xnt son I(1).

Paso 2. Aplique los estadı́sticos de λmax y λtrace para determinar el número de relaciones
de cointegración.

Paso 3. Estime el modelo de corrección de errores.

59
Paso 4. Realice la validación del modelo.

Resulta evidente notar que el procedimiento de Johansen puede aplicarse para el caso de
un vector que tiene más de dos componentes, por lo que en ése sentido tiene una ventaja con
respecto al procedimiento de Engle-Granger.

Sin embargo, para el caso en el que se quiere determinar si existe una relación de coin-
tegración entre dos series, Gonzalo y Lee (1998) afirman que en la mayorı́a de los casos el
procedimiento de Engle-Granger es más robusto que el procedimiento de Johansen, pero reco-
miendan aplicar ambos procedimientos con el fin de evitar conclusiones erróneas.

Se recomienda leer detenidamente el artı́culo de Gonzalo y Lee (1998), pues los autores
consideraron varios escenarios y analizaron las conclusiones que se obtenı́an de ambos proce-
dimientos. Por ejemplo, en el caso en el que es difı́cil determinar si las series son I(0) o I(1) el
procedimiento de Engle-Granger es más potente.

60
Capı́tulo 4

Ejemplo de aplicación: Series financieras

En este capı́tulo se realizará la aplicación de un análisis de cointegración a un par de se-


ries de tiempo financieras. Primero se realizará la modelación cada una de las series según la
metodologı́a Box-Jenkins, luego se aplicará el procedimiento de Engle-Granger y por último el
procedimiento de Johansen. En todos los casos se aplicarán los pasos que fueron planteados en
los capı́tulos anteriores.

4.1. La Bolsa Mexicana de Valores


La Bolsa Mexicana de Valores, S.A.B de C.V. (BMV), es una entidad financiera de carácter
privado en el que se llevan a cabo las operaciones del mercado de valores organizado en México.
El objetivo de la BMV es el facilitar las transacciones con valores y procurar el desarrollo del
mercado, ası́ como fomentar su expansión y competitividad. La BMV se regula por la Ley de
Mercado de Valores y es supervisada por la Secretarı́a de Hacienda y Crédito Público, ası́ como
por el Banco de México.

En la BMV se realiza la compra y la venta de diversos instrumentos financieros, como es el


caso de acciones, tı́tulos de deuda, etc, entre los inversionistas y las empresas y entidades que
están en búsqueda de financiamiento. Actualmente la gran mayorı́a de las operaciones se llevan
a cabo de manera electrónica, como consecuencia de los grandes avances de las tecnologı́as de
la información.

61
El Índice de Precios y Cotizaciones, abreviado como S& P/BMV o simplemente IPC, es el
ı́ndice accionario que busca medir el rendimiento de las acciones de mayor tamaño y liquidez
listadas en la Bolsa Mexicana de Valores. El IPC se construye a través de los valores ponderados
por capitalización de mercado modificado de las 35 empresas más representativas de México.
Es calculado por la calificadora estadounidense Standard & Poor’s.

Entre las compañı́as que son consideradas para el cálculo del IPC en el 2019 se encuentran
América Móvil, FEMSA, WALMEX, Alfa, Grupo Financiero Banorte, CEMEX, Grupo Finan-
cieron Inbursa, Grupo México, etc.

Para realizar el ejemplo de aplicación de las metodologı́as de Box-Jenkins y de Engle-


Granger fue necesario obtener la información histórica, en observaciones mensuales, del precio
al cierre, en pesos mexicanos (MXN), de las acciones de cierto número de series. La principal
fuente de información fue la página web mx.investing.com, que es un portal global de servicios
financieros, propiedad de la compañı́a Fusion Media Limited. Se realizaron consultas en esta
página de diferentes series financieras de las empresas que aportan al IPC, durante el mes de
marzo de 2019 .

Se graficaron diferentes series en distintos periodos de observación, y para ilustrar la meto-


dologı́a se seleccionaron el valor al cierre mensual de las acciones de Alfa y de Grupo Financiero
Inbursa, en el periodo comprendido entre enero del 2011 y enero del 2019. Cada serie tiene un
total de 97 observaciones.

Alfa S.A.B. de C.V. es una empresa mexicana con presencia global, con subsidiarias en
diferentes giros, como es el caso de alimentos refrigerados, petroquı́micos, componentes auto-
motrices, comunicaciones y más. Alfa tiene sede en San Pedro Garza Garcı́a, en la Zona Metro-
politana de Monterrey, Nuevo León. Por otro lado, Grupo Financiero Inbursa es un corporativo
financiero mexicano que proporciona servicios de banca, seguros, afores y demás, con sede en
la Ciudad de México.

62
Figura 4.1: Precio al cierre en MXN de las acciones de Alfa y Grupo Financiero Inbursa entre
enero del 2011 y enero del 2019.

En la figura 4.1 se graficaron el precio al cierre de las acciones de Alfa y de Grupo Financie-
ro Inbursa. Nótese que entre el 2011 y el 2014 las series muestran una tendencia similar hacia el
incremento, y en el perı́odo 2014 al 2017 toman valores muy cercanos, aunque a partir del 2017
las series tienden a disminuir. Este comportamiento de tendencia común y valores cercanos es
un indicio de que pudiese existir una cointegración entre las series.

Primero se ajustarán modelos univariados a las series según la metodologı́a Box-Jenkins,


para compararlos con el modelo que se puede construir a partir del procedimiento de Engle-
Granger.

63
4.2. Modelación según la Metodologı́a Box-Jenkins
En la Sección 1.6 se introdujo la metodologı́a Box-Jenkins, que consta de 5 pasos a partir de
los cuales es posible ajustar un modelo a una serie de tiempo univariada.

Sea {Xt } la serie que mide el precio al cierre (en pesos) mensual de las acciones de Alfa,
y sea {Yt } la serie que mide el precio al cierre (en pesos) mensual de las acciones de Grupo
Financiero Inbursa. Se procederá a aplicar la metodologı́a Box-Jenkins a cada serie.

Alfa

Figura 4.2: Precio al cierre en MXN de las acciones de Alfa entre enero del 2011 y enero del
2019.

El paso 1 es identificar, a partir de la gráfica de la serie, si {Xt } es estacionaria. Se puede


observar en la Figura 4.2 que entre el 2011 y el 2015 existe una clara tendencia hacia arriba,
pero a partir del 2015 el precio de las acciones de Alfa ha ido decreciendo, lo anterior lleva
a considerar que la media de {Xt } no es constante. A pesar de que la varianza no es de gran
amplitud, la media no constante implica que {Xt } no es estacionaria.

Dado que {Xt } no es estacionaria, se le aplica una primera diferencia, aplicando la función
diff de R. La serie {∆Xt }, como se puede observar en la figura 4.3, tiene una media constante

64
alrededor del cero. Exceptuando el intervalo entre el 2014 y el 2015, la varianza se mantiene
entre -2 y 2 de manera constante. Esto lleva a inferir que {∆Xt } es estacionaria, por lo que se
trabajará con esta serie.

Figura 4.3: {∆Xt }.

El paso 2 es la identificación de los parámetros del modelo, por lo que es necesario observar
las gráficas ACF y PACF de {∆Xt }.

(a) ACF (b) PACF

Figura 4.4: ACF y PACF - {∆Xt }.

65
En la figura 4.4 se puede observar que, en conjunto, el ACF y el PACF de {∆Xt } sugieren
un posible comportamiento de ruido blanco, pues prácticamente todas las barras se encuentran
dentro de las bandas de Bartlett. Aplicando la prueba Ljung-Box mediante la función Box.test
Hipótesis:
H0 : La serie {∆Xt } sigue un proceso ruido blanco

vs.

H0 : La serie {∆Xt } no sigue un proceso ruido blanco

Resultado: Con un estadı́stico χ 2 obtenido de 12.632, un p-valor de 0.245 y a un nivel de


significancia α = 0.05, no existe suficiente evidencia estadı́stica para rechazar la hipótesis nula a
favor de la hipótesis alternativa, es decir, no existe suficiente evidencia para afirmar que la serie
{∆Xt } no sigue un proceso ruido blanco.

Se supondrá entonces que {∆Xt } sigue un proceso ruido blanco, esto es:

{∆Xt } ∼ ARMA(0, 0)

lo cual implica que:


{Xt } ∼ ARIMA(0, 1, 0)

El paso 3 corresponderı́a a la estimación de los parámetros del modelo, pero escribiendo a


{Xt } de manera explı́cita a partir de la Definición 1.5.1:

φ (B)(1 − B)d Xt = θ (B)νt

(1 − B)Xt = νt

Xt − Xt−1 = νt

Xt = Xt−1 + νt

Se observa que {Xt } sigue un proceso de caminata aleatoria, por lo que los parámetros son
los coeficientes de Xt−1 y νt , es decir, ambos son iguales a uno.

66
El paso 4 es la validación del modelo, por lo que se verificará si el modelo cumple con el su-
puesto de que los residuales siguen un proceso ruido blanco, a través de la prueba de Ljung-Box.

Hipótesis:
H0 : Los residuales νt siguen un proceso ruido blanco

vs.

H1 : Los residuales νt no siguen un proceso ruido blanco

Resultado: Con un estadı́stico χ 2 obtenido de 12.379, un p-valor de 0.2386 y a un nivel de


significancia α = 0.05, no existe suficiente evidencia estadı́stica para rechazar la hipótesis nula
a favor de la hipótesis alternativa, es decir, no existe suficiente evidencia estadı́stica para afirmar
que los residuales νt no siguen un proceso ruido blanco.

Se supondrá entonces que los residuales de la serie {Xt } siguen un proceso ruido blanco.

Ahora, se debe verificar el supuesto de que los residuales estandarizados de la serie {Xt }
siguen una distribución gaussiana. Aplicando la prueba Shapiro-Wilk para normalidad con la
función shapiro.test de R.

Hipótesis:

H0 : Los residuales estandarizados νestt siguen una distribución normal

vs.

H0 : Los residuales estandarizados νestt no siguen una distribución normal

Resultado: Con un estadı́stico W obtenido de 0.97235, un p-valor de 0.03819 y a un nivel


de significancia α = 0.05, existe suficiente evidencia estadı́stica para rechazar la hipótesis nula
a favor de la hipótesis alternativa, es decir, existe suficiente evidencia para afirmar que los resi-
duales νestt no siguen una distribución normal.

67
El paso 5 corresponderı́a a la adecuación del modelo, sin embargo, a una caminata aleatoria
no se le aplican transformaciones por el comportamiento aleatorio que describe el proceso.

Debido a que el modelo obtenido para la serie {Xt } sigue una caminata aleatoria, y que
los residuales no cumplen el supuesto de seguir una distribución normal, se concluye que la
metodologı́a Box-Jenkins no proporciona un modelo satisfactorio, es decir, el modelo no ajusta
adecuadamente el comportamiento de la serie.

Grupo Financiero Inbursa

El primer paso es la verificación de la estacionariedad de la serie {Yt }. Nótese en la Figura


4.5 que la serie tiene una tendencia creciente entre 2011 y 2015, pero a partir del 2015 comienza
a decrementar. Lo anterior es indicio de que la media no es constante. A pesar de que la varianza
tiene un comportamiento que parece constante a lo largo del periodo de observación, se infiere
que la serie {Yt } no es estacionaria.

Figura 4.5: Precio al cierre en MXN de las acciones de Grupo Financiero Inbursa entre enero
del 2011 y enero del 2019.

Al aplicar una primera diferencia a la serie {Yt } se obtiene la Figura 4.6, la cual tiene una
media constante alrededor del cero en todo el periodo de observación, y, salvo ciertos picos entre

68
el 2012 y el 2014, la varianza también es constante. Se concluye que la serie {∆Yt } es estacio-
naria, por lo que a partir de ella se realizará la modelación.

Figura 4.6: {∆Yt }.

El paso 2, correspondiente a la identificación de los parámetros del modelo se realiza a través


de las gráficas ACF y PACF de {∆Yt } que, dado que en ambas gráficas las barras se encuentran
dentro de las bandas de Bartlett, sugieren un posible comportamiento de ruido blanco.

(a) ACF (b) PACF

Figura 4.7: ACF y PACF - {∆Yt }.

69
Aplicando la prueba Ljung-Box:

Hipótesis:
H0 : La serie {∆Yt } sigue un proceso ruido blanco

vs.

H0 : La serie {∆Yt } no sigue un proceso ruido blanco

Resultado: Con un estadı́stico χ 2 obtenido de 8.3427, un p-valor de 0.5954, y a un nivel de


significancia α = 0.05, no existe suficiente evidencia estadı́stica para rechazar la hipótesis nula a
favor de la hipótesis alternativa, es decir, no existe suficiente evidencia para afirmar que la serie
{∆Yt } no sigue un proceso ruido blanco.

Se supondrá entonces que {∆Yt } sigue un proceso ruido blanco, esto es:

{∆Yt } ∼ ARMA(0, 0)

lo cual implica que:


{Yt } ∼ ARIMA(0, 1, 0)

Entonces, análogamente al caso de {Xt }, se deduce que {Yt } es una caminata aleatoria, por
lo que el paso 3 correspondiente a la estimación de los parámetros no aplica.

El paso 4 es la validación del modelo, por lo que se verificará si el modelo Yt = Yt−1 + ηt


cumple el supuesto de que sus residuales siguen un proceso ruido blanco a través de la prueba
Ljung-Box:

Hipótesis:
H0 : Los residuales ηt siguen un proceso ruido blanco

vs.

H1 : Los residuales ηt no siguen un proceso ruido blanco

70
Resultado: Con un estadı́stico χ 2 obtenido de 8.4257, un p-valor de 0.5873 y a un nivel de
significancia α = 0.05, no existe suficiente evidencia estadı́stica para rechazar la hipótesis nula
a favor de la hipótesis alternativa, es decir, no existe suficiente evidencia estadı́stica para afirmar
que los residuales ηt no sigue un proceso ruido blanco.

Se supondrá entonces que el modelo {Yt } cumple con el supuesto de que los residuales si-
guen un proceso ruido blanco.

Después, es necesario verificar si el modelo {Yt } cumple con el supuesto de que los residua-
les estandarizados siguen una distribución gaussiana. Aplicando la prueba Shapiro-Wilk para
normalidad:

Hipótesis:

H0 : Los residuales estandarizados ηestt siguen una distribución normal

vs.

H0 : Los residuales estandarizados ηestt no siguen una distribución normal

Resultado: Con un estadı́stico W obtenido de 0.9932, un p-valor de 0.9137 y a un nivel de


significancia α = 0.05 no existe suficiente evidencia estadı́stica para rechazar la hipótesis nula
a favor de la hipótesis alternativa, es decir, no existe suficiente evidencia para afirmar que los
residuales ηestt no siguen una distribución normal.

Se supondrá entonces que los residuales estandarizados del modelo {Yt } siguen una distri-
bución gaussiana. Análogamente al caso de la serie {Xt } el paso 5 no aplica, debido a que {Yt }
es una caminata aleatoria.

Debido a que el modelo obtenido para la serie {Yt } sigue una caminata aleatoria, se concluye
que la metodologı́a Box-Jenkins no proporciona un modelo satisfactorio, es decir, el modelo no
ajusta adecuadamente el comportamiento de la serie.

71
4.3. Modelación según el Procedimiento de Engle-Granger
Se aplicará ahora el procedimiento de Engle-Granger para determinar si existe una relación
de cointegración entre las series {Xt } y {Yt }, siguiendo los pasos del procedimiento descrito en
la sección 3.3.

Paso 1

El paso 1 es verificar si {Xt } y {Yt } son I(1), y para ello se aplicará el procedimiento secuen-
cial para la aplicación de la prueba de Dickey-Fuller aumentada, detallado la sección 2.4. Todas
las pruebas se aplicarán a un nivel de significancia de α = 0.05.

Es importante recordar que en las pruebas Φi la hipótesis nula se rechaza cuando el valor
absoluto del estadı́stico calculado es mayor que el valor crı́tico, por ser una prueba de dos colas,
mientras que en las pruebas τi la hipótesis nula se rechazan cuando el estadı́stico calculado es
menor que el valor crı́tico, por ser pruebas de cola inferior.

Primero se aplica el procedimiento secuencial de la prueba Dickey-Fuller aumentada a la


serie {Xt }, a través de la función ur.df de la librerı́a urca. En la Tabla 4.1 se encuentra el resumen
de la aplicación, incluyendo el paso correspondiente con respecto al procedimiento secuencial,
las hipótesis consideradas, el valor del estadı́stico obtenido, el valor crı́tico y el resultado de la
prueba. La conclusión de esta secuencia de pruebas es que {Xt } tiene una raı́z unitaria, y no
tiene ni tendencia ni deriva, que coincide con el resultado obtenido a partir de la metodologı́a
Box-Jenkins.

Paso H0 H1 Prueba Est. calc. Valor c. Resultado


Paso 2 (α,β ,φ )=(α,0,1) (α,β ,φ )6=(α,0,1) Φ3 2.31 6.49 No se rechaza H0
Paso 7 φ =1 φ <1 τ3 -1.722 -3.45 No se rechaza H0
Paso 8 (α,β ,φ )=(0,0,1) (α,β ,φ )6=(0,0,1) Φ2 1.5999 4.88 No se rechaza H0
Paso 9 (α,φ )=(0,1) (α,φ )6=(0,1) Φ1 2.0006 4.71 No se rechaza H0
Conclusión: φ = 1, α = 0 y β = 0

Tabla 4.1: Procedimiento secuencial de la prueba Dickey-Fuller aumentada aplicado a {Xt }.

72
Para que el procedimiento sea más claro, al lector se le presenta el diagrama de la Figura 4.8,
en el que se encuentra una representación de las pruebas aplicadas, ası́ como la conclusión que
se obtiene.

Figura 4.8: Diagrama del procedimiento secuencial de la prueba Dickey-Fuller aumentada apli-
cada a {Xt }.

Después es necesario aplicar el procedimiento secuencial a la serie {∆Xt }. Los resultados ob-
tenidos de cada paso se encuentran en la Tabla 4.2 y el diagrama del procedimiento secuencial
se observa en la Figura 4.9, a partir de los cuales se concluye que la serie {∆Xt } es estacionaria,
y no tiene ni deriva ni tendencia.

73
Paso H0 H1 Prueba Est. calc. Valor c. Resultado
Paso 2 (α,β ,φ )=(α,0,1) (α,β ,φ )6=(α,0,1) Φ3 20.4816 6.49 Se rechaza H0
Paso 3 φ =1 φ <1 τ3 -6.3942 -1.96 Se rechaza H0
Paso 4 β =0 β 6= 0 t -1.216 1.98 No se rechaza H0
Paso 6 α =0 α 6= 0 t 1.255 1.98 No se rechaza H0
Conclusión: φ < 1, α = 0 y β = 0

Tabla 4.2: Procedimiento secuencial de la prueba Dickey-Fuller aumentada aplicado a {∆Xt }.

Figura 4.9: Diagrama del procedimiento secuencial de la prueba Dickey-Fuller aumentada apli-
cada a {∆Xt }.

74
Dado que para obtener una serie estacionaria a partir de {Xt } solamente fue necesario aplicar
una diferencia, entonces se deduce que {Xt } ∼ I(1).

Al aplicar el procedimiento secuencial de la prueba Dickey-Fuller aumentada a {Yt } y {∆Yt }


se obtienen resultados análogos a los de {Xt } y {∆Xt } respectivamente, como se puede observar
en las Tablas 4.3 y 4.4, llevando a la deducción de que {Yt } ∼ I(1).

Paso H0 H1 Prueba Est. calc. Valor c. Resultado


Paso 2 (α,β ,φ )=(α,0,1) (α,β ,φ )6=(α,0,1) Φ3 3.7207 6.49 No se rechaza H0
Paso 7 φ =1 φ <1 τ3 -2.5114 -3.45 No se rechaza H0
Paso 8 (α,β ,φ )=(0,0,1) (α,β ,φ )6=(0,0,1) Φ2 2.4857 4.88 No se rechaza H0
Paso 9 (α,φ )=(0,1) (α,φ )6=(0,1) Φ1 3.3203 4.71 No se rechaza H0
Conclusión: φ = 1, α = 0 y β = 0

Tabla 4.3: Procedimiento secuencial de la prueba Dickey-Fuller aumentada aplicado a {Yt }.

Paso H0 H1 Prueba Est. calc. Valor c. Resultado


Paso 2 (α,β ,φ )=(α,0,1) (α,β ,φ )6=(α,0,1) Φ3 32.6072 6.49 Se rechaza H0
Paso 3 φ =1 φ <1 τ3 -8.075 -1.96 Se rechaza H0
Paso 4 β =0 β 6= 0 t -1.028 1.98 No se rechaza H0
Paso 6 α =0 α 6= 0 t 0.916 1.98 No se rechaza H0
Conclusión: φ < 1, α = 0 y β = 0

Tabla 4.4: Procedimiento secuencial de la prueba Dickey-Fuller aumentada aplicado a {∆Yt }.

Paso 2

Ya que existe la sospecha de que {Xt } y {Yt } guarden algún tipo de relación, y que se ha
probado que {Xt } y {Yt } son I(1) se procede a realizar el paso 2, que consiste primero en ajustar
el modelo:

Yt = ξt + β1 Xt + et

75
Para luego aplicar la prueba Engle-Granger para determinar si existe una relación de cointe-
gración entre las variables {Xt } y {Yt }, mediante la función coint.test de la librerı́a aTSA.

Hipótesis:

H0 : et tiene una raiz unitaria vs. H1 : et es un proceso estacionario

O equivalentemente:

H0 : {Xt }, {Yt }  CI(1, 1) vs. {Xt }, {Yt } ∼ CI(1, 1)

Resultado: A un nivel de significancia de α = 0.05, y con los resultados observados en la


Tabla 4.5, existe suficiente evidencia estadı́stica para rechazar la hipótesis nula a favor de la
hipótesis alternativa, es decir, existe suficiente evidencia para afirmar que los residuales et son
estacionarios, o lo que es igual, existe suficiente evidencia para afirmar que las series {Xt } y
{Yt } están cointegradas de orden (1, 1).

Estadı́stico calculado -3.62


p-valor 0.01

Tabla 4.5: Prueba Engle-Granger aplicada a {Xt } y {Yt }, estadı́sticos obtenidos.

Que {Xt } y {Yt } estén cointegradas implica que existe una relación a largo plazo entre ambas
series, es decir, que {Xt } y {Yt } siguen una tendencia común en el periodo de observación.

Paso 3

Ya que se ha probado que {Xt }, {Yt } ∼ CI(1, 1), se procede a la estimación del V ECM(1) de
la forma:
∆Xt = µ1 + α1 ECTt−1 + γ11 ∆Xt−1 + γ12 ∆Yt−1 + ε1t (4.3.1)

∆Yt = µ2 + α2 ECTt−1 + γ21 ∆Xt−1 + γ22 ∆Yt−1 + ε2t (4.3.2)

76
La estimación se realiza a través de la función VECM de la librerı́a tsDyn, obteniendo el
siguiente par de ecuaciones:

∆Xt = 0.0785 − 0.0812ECTt−1 + 0.0680∆Xt−1 + 0.0770∆Yt−1 + ε1t (4.3.3)

∆Yt = 0.0245 + 0.0225ECTt−1 + 0.0344∆Xt−1 − 0.1065∆Yt−1 + ε2t (4.3.4)

Y donde el vector cointegrante es β = (1, −0.85283).

El coeficiente -0.0812 del término ECTt−1 de la ecuación (4.3.3) se interpreta como el valor
que mantiene atada la relación de cointegración entre las series en el largo plazo cuando se está
explicando a la serie {Xt }. El caso del coeficiente 0.0225 del término ECTt−1 en la ecuación
(4.3.4) es análogo.

Paso 4

El paso 4 corresponde a la verificación de los supuestos del modelo.

1. Primero se verificará si el número de observaciones previas es el adecuado, aplicando


pruebas t sobre los coeficientes de {∆Xt } y {∆Yt }. Los resultados de las pruebas se obser-
van en la Tabla 4.6 y llevan a inferir que los coeficientes γi j son iguales a cero.

Ecuación H0 H1 Prueba Est. calculado Valor crı́tico Resultado


4.3.3 γ11 = 0 γ11 6= 0 t 0.6595 1.98 No se rechaza H0
4.3.3 γ12 = 0 γ12 6= 0 t 0.7586 1.98 No se rechaza H0
4.3.4 γ21 = 0 γ21 6= 0 t 0.3155 1.98 No se rechaza H0
4.3.4 γ22 = 0 γ22 6= 0 t -0.9925 1.98 No se rechaza H0

Tabla 4.6: Pruebas t aplicadas a los coeficientes del modelo VECM(1).

Lo anterior implica que en el proceso VECM no es necesario incluir a las observaciones

77
previas de {∆Xt } y {∆Yt }. Reestimando el modelo VECM a través de la función lm se
obtiene el siguiente par de ecuaciones:

∆Xt = 0.0965 − 0.0875ECTt−1 + ε1t (4.3.5)

∆Yt = 0.0191 + 0.0333ECTt−1 + ε2t (4.3.6)

Y aplicando pruebas t a los interceptos y a los coeficientes del término ECTt−1 se obtienen
los resultados que se observan en la Tabla 4.8.

Ecuación H0 H1 Prueba Est. calculado Valor crı́tico Resultado


4.3.5 µ1 = 0 µ1 6= 0 t 0.475 1.98 No se rechaza H0
4.3.5 α1 = 0 α1 6= 0 t -2.367 1.98 Se rechaza H0
4.3.6 µ2 = 0 µ2 6= 0 t 0.089 1.98 No se rechaza H0
4.3.6 α2 = 0 α2 6= 0 t 0.856 1.98 No se rechaza H0

Tabla 4.7: Pruebas t aplicadas a los coeficientes del modelo VECM(0).

Dado que existe evidencia de que el coeficiente α1 es distinto de cero se concluye que la
ecuación (4.3.5) es significativa, pero, dado que no existe suficiente evidencia para afirmar
que µ1 es distinto de cero, la ecuación no deberı́a de tener intercepto.

Por otro lado, la ecuación (4.3.6) no es significativa ni deberı́a tener intercepto, pues no
existe suficiente evidencia para afirmar que α2 ni µ2 son distintos de cero, por lo que se
descarta que exista una relación verdadera entre ∆Yt y el ECT . Lo anterior lleva a concluir
que {Xt } no causa en el sentido de Granger a {Yt }.

Reestimando a la ecuación (4.3.5):

∆Xt = −0.0881ECTt−1 + ε1t (4.3.7)

78
Ecuación H0 H1 Prueba Est. calculado Valor crı́tico Resultado
4.3.7 α1 = 0 α1 6= 0 t -2.395 1.98 Se rechaza H0

Tabla 4.8: Prueba t aplicada al coeficiente de la ecuación (4.3.7).

Entonces, ya que la ecuación (4.3.7) es significativa, se concluye que es {Yt } la que causa
en el sentido de Granger a {Xt }, es decir, las acciones de Grupo Financiero Inbursa son
las que ayudan a predecir el valor de las acciones de Alfa.

G
{Yt } −
→ {Xt }

2. Luego se verificará que el vector de los residuales t = (ε1t , ε2t )0 generados por las ecua-
ciones (4.3.5) y (4.3.6) sigue una distribución normal multivariada, a través de la prueba
Henze-Zinkler, mediante la función mvn de la librerı́a MVN.

Hipótesis:

H0 : El vector t sigue una distribución normal multivariada

vs.

H1 : El vector t no sigue una distribución normal multivariada

Resultado: A un nivel de significancia de α = 0.05, y con los resultados observados en


la Tabla 4.9, no existe suficiente evidencia estadı́stica para rechazar la hipótesis nula a
favor de la hipótesis alternativa, es decir, no existe suficiente evidencia para afirmar que el
vector t no sigue una distribución normal multivariada.

Estadı́stico calculado 0.4596


p-valor 0.679

Tabla 4.9: Prueba Henze-Zinkler aplicada a t , estadı́sticos obtenidos.

79
Se concluye entonces que el vector t sigue una distribución normal multivariada.

Figura 4.10: Densidad de los residuales t .

En la Figura 4.11, se encuentran:

En rojo, la serie original {Xt }.

En verde, el modelo ajustado a través de la metodologı́a Box-Jenkins

Xt = Xt−1 + εt

En azul, el modelo ajustado a través del procedimiento de Engle-Granger

Xt = Xt−1 − 0.0881ECTt−1 + ε1t

Obsérvece que el modelo ajustado a través del procedimiento de Engle-Granger describe


con mayor exactitud el comportamiento que tiene la serie original {Xt }, en comparación con el
modelo ajustado a través de la metodologı́a Box-Jenkins.

80
Figura 4.11: Comparación de los modelos ajustados para la serie {Xt }.

4.4. Modelación según el Procedimiento de Johansen


En esta sección se ejemplificarı́a el procedimiento de Johansen como fue planteado en la
Sección 3.4 pero los pasos 1, 3 y 4 llevarı́an a las mismas conclusiones que se obtuvieron con
el procedimiento de Engle-Granger, por lo solamente se ejemplificará la aplicación de los es-
tadı́sticos λmax y λtrace , correspondientes al Paso 2.

Paso 2

1. Se utilizará al estadı́stico λtrace para verificar si existe al menos una relación de cointegra-
ción r entre las series {Xt } y {Yt } como fueron definidas en la Sección 4.2, a través de la
función ca.jo de la librerı́a urca.

Hipótesis:
H0 : r = 0 vs. H1 : r > 0

Resultado: A un nivel de significancia α = 0.05, y con los resultados observados en la


Tabla 4.10, no existe suficiente evidencia estadı́stica para rechazar la hipótesis nula a favor

81
de la hipótesis alternativa, es decir, no existe suficiente evidencia para afirmar que existe
al menos una relación de cointegración.

Valor crı́tico 17.95


Estadı́stico calculado 14.14

Tabla 4.10: Prueba λtrace aplicada a {Xt } y {Yt }, estadı́sticos obtenidos.

2. Se utilizará al estadı́stico λmax para verificar si existe una relación de cointegración r entre
las series {Xt } y {Yt } como fueron definidas en la sección 4.2, a través de la función ca.jo
de la librerı́a urca.

Hipótesis:
H0 : r = 0 vs. H1 : r = 1

Resultado: A un nivel de significancia α = 0.05, y con los resultados observados en la


Tabla 4.11, no existe suficiente evidencia estadı́stica para rechazar la hipótesis nula a favor
de la hipótesis alternativa, es decir, no existe suficiente evidencia para afirmar existe una
relación de cointegración entre las series {Xt } y {Yt }.

Valor crı́tico 14.90


Estadı́stico calculado 10.20

Tabla 4.11: Prueba λmax aplicada a {Xt } y {Yt }, estadı́sticos obtenidos.

El vector cointegrante estimado por ambos estadı́sticos es β = (1, −2.4569).

Recuérdese que en la Sección 3.4 se comentó que Gonzalo y Lee (1998) afirmaron que
en la mayorı́a de las situaciones el procedimiento de Engle-Granger era más robusto que el
procedimiento de Johansen, por lo que se considerará que entre las series {Xt } y {Yt } sı́ existe
una relación de cointegración, a pesar de las conclusiones que se obtuvieron con los estadı́sticos
λmax y λtrace .

82
Conclusiones

En el ejemplo de aplicación se verificó que de acuerdo al procedimiento de Engle-Granger


existe una relación de cointegración entre las series del valor de las acciones de Alfa y Grupo
Financiero Inbursa, y se obtuvo también un modelo que cumplió adecuadamente los supuestos
necesarios. Por otro lado, a través de la metodologı́a Box-Jenkins se obtuvieron modelos que no
ajustaron adecuadamente el comportamiento de las series.

Se concluyó que las acciones de Grupo Financiero Inbursa causan en el sentido de Granger
al valor de las acciones de Alfa, es decir, conocer el valor que toman las acciones de Grupo
Financiero Inbursa ayuda a predecir el valor de las acciones de Alfa.

Quedan muchas ideas que podrı́an ser desarrolladas en trabajos posteriores, por ejemplo,
serı́a interesante combinar el procedimiento secuencial para la aplicación de la prueba de Dickey-
Fuller aumentada con versiones más recientes de esta prueba, como es el caso de prueba de
Dickey-Fuller aumentada con mı́nimos cuadrados generalizados (GLS-ADF).

También serı́a importante comparar los pronósticos que se obtienen mediante la metodologı́a
Box-Jenkins contra los pronósticos que se obtienen a través del procedimiento de Engle-Granger
o del procedimiento de Johansen.

Otro aspecto a desarrollar es la posibilidad de asociar distribuciones distintas a la normal


multivariada a los residuales obtenidos, pues a pesar de que en el ejemplo de aplicación sı́ se
cumplió el supuesto de normalidad, existe la posibilidad de que los residuales sigan alguna otra
distribución.

83
Apéndice A

El proceso VAR(p)
La generalización del proceso autorregresivo estudiado en la Sección 1.2 es el proceso auto-
rregresivo vectorial, abreviado como VAR, por ser las siglas del inglés vector autoregression.

Definición 4.4.1 El proceso vectorial autorregresivo de orden p se define como:

Xt = µt + A1 Xt−1 + · · · + A p Xt−p + t

donde:

Xt es un vector aleatorio de dimensión (n × 1).

µt es un vector de interceptos de dimensión (n × 1).

Ai son matrices de coeficientes de dimensión (n × n).

t es un vector de innovaciones.

Análogamente al caso univariado, es posible reexpresar al proceso VAR(p) a través de una


suma ponderada de innovaciones, y a partir de aplicar ciertos resultados, se puede demostrar que
un proceso VAR(p) es estacionario si:

det(In − A1 z − · · · − A p z p ) 6= 0, para |z| < 1

En (Lütkepohl, 2005) se puede encontrar esta y mucha más información acerca del proceso
VAR(p) y sus variantes.

84
Apéndice B

Códigos de R
############################################################################
#Sección 1.6 Metodologı́a Box-Jenkins
#Aplicación de la metodologı́a Box-Jenkins a la serie "concentracion.csv"

#Librerı́a utilizada
library(stats)

#Lectura de la base
base<-read.csv("concentracion.csv",header=T)
attach(base)

#Creación del objeto serie de tiempo


Xt<-ts(Concentracion)

#Gráfica de la serie
plot(Xt,xlab="Tiempo",ylab="Índice de concentración")

#Cálculo y gráfico de la primera diferencia de la serie


DeltaXt<-diff(Xt)
plot(DeltaXt,xlab="Tiempo",ylab="Índice de concentración")

85
#Gráficas ACF y PACF de DeltaXt
par(mfrow=c(1,2))
acf(DeltaXt,lag.max=15,main="")
axis(1,at=0:15)
pacf(DeltaXt,lag.max=15,main="")
axis(1,at=0:15)

#Estimación de los parámetros


est<-arima(Xt,c(0,1,1))
plot(Xt)
library(forecast)
est2<-Arima(Xt,order=c(0,1,1))
plot(est2$x)

#Validación de supuestos
res<-est$residuals
Box.test(res,type="Ljung-Box",lag=10) #Prueba Ljung-Box
resest<-(res-mean(res))/sd(res)
shapiro.test(resest) #Prueba Shapiro-Wilk

86
#########################################################################
#Sección 4.2 Modelación según la Metodologı́a Box-Jenkins
#Aplicación de la metodologı́a Box-Jenkins a las series alfa e inbursa

#Librerı́a utilizada
library(stats)

##############################
#Serie Xt=alfa

#Lectura de la base alfa


base_alfa<-read.csv("alfa_final.csv",header=T)
attach(base_alfa)

#Creación del objeto serie de tiempo


Xt<-ts(alfa,start=2011,frequency=12)

#Gráfica de la serie alfa


plot(Xt,col="green4",lty=1,xlab="Tiempo",ylab="Precio al cierre en MXN")

#Cálculo y gráfico de la primera diferencia de la serie alfa


DeltaXt<-diff(Xt)
plot(DeltaXt,col="green4",lty=1,xlab="Tiempo",ylab="Precio al cierre en MXN")

#Gráficas ACF y PACF de la primera diferencia de la serie alfa


DeltaXt<-as.vector(DeltaXt)
par(mfrow=c(1,2))
acf(DeltaXt,lag.max=15,main="",col="green4")
axis(1,at=0:15)
pacf(DeltaXt,lag.max=15,main="",col="green4")

87
axis(1,at=0:15)

#Prueba Ljung-Box aplicada a la primera diferencia de la serie alfa


Box.test(DeltaXt, lag=10, type="Ljung-Box")

#Estimación de los parámetros


est<-arima(Xt,c(0,1,0))

#Validación de supuestos
res<-resid(est)
Box.test(res,type="Ljung-Box",lag=10) #Prueba Ljung-Box
resest<-(res-mean(res))/sd(res)
shapiro.test(resest) #Prueba Shapiro-Wilk

##############################
#Serie Yt=inbursa

#Lectura de la base inbursa


base_inbursa<-read.csv("inbursa_final.csv",header=T)
attach(base_inbursa)

#Creación del objeto serie de tiempo


Yt<-ts(inbursa,start=2011,frequency=12)

#Gráfica de la serie inbursa


plot(Yt,col="blue",lty=2,xlab="Tiempo",ylab="Precio al cierre en MXN")

#Cálculo y gráfico de la primera diferencia de la serie alfa


DeltaYt<-diff(Yt)
plot(DeltaYt,col="blue",lty=2,xlab="Tiempo",ylab="Precio al cierre en MXN")

88
#Gráficas ACF y PACF de la primera diferencia de la serie inbursa
DeltaYt<-as.vector(DeltaYt)
par(mfrow=c(1,2))
acf(DeltaYt,lag.max=15,main="",col="blue")
axis(1,at=0:15)
pacf(DeltaYt,lag.max=15,main="",col="blue")
axis(1,at=0:15)

#Prueba Ljung-Box aplicada a la primera diferencia de la serie alfa


Box.test(DeltaYt, lag=10, type="Ljung-Box")

#Estimación de los parámetros


est2<-arima(Yt,c(0,1,0))

#Validación de supuestos
res2<-resid(est2)
Box.test(res2,type="Ljung-Box",lag=10) #Prueba Ljung-Box
resest2<-(res2-mean(res2))/sd(res2)
shapiro.test(resest2) #Prueba Shapiro-Wilk

89
#########################################################################
#Sección 4.3 Modelación según el Procedimiento de Engle-Granger
#Aplicación del procedimiento de Engle-Granger a las series alfa e inbursa

#Librerı́as utilizadas
library(stats)
library(urca)
library(aTSA)
library(tsDyn)
library(VAR.etp)
library(MVN)

#Lectura de la base alfa


base_alfa<-read.csv("alfa_final.csv",header=T)
attach(base_alfa)

#Lectura de la base inbursa


base_inbursa<-read.csv("inbursa_final.csv",header=T)
attach(base_inbursa)

#Creación de los objetos en formato serie de tiempo


Xt<-ts(alfa,start=2011,frequency=12)
Yt<-ts(inbursa,start=2011,frequency=12)

#Gráfica de las series


ts.plot(Xt,Yt,gpars=list(col=c("green4","blue"),lty=1:2,
xlab="Tiempo",ylab="Precio al cierre en MXN"))
legend(x=c(2008.5,2011.5),y=c(40,34), legend=c("Alfa", "Grupo Financiero Inbursa"),
col=c("red", "blue") ,lty=1:2, cex=0.8)

90
#Primeras diferencias de las series alfa e inbursa
DeltaXt<-diff(Xt)
DeltaYt<-diff(Yt)

#Procedimiento secuencial de la prueba Dickey-Fuller


#aumentada aplicado a la serie alfa
summary(ur.df(Xt,type="trend"))
summary(ur.df(Xt,type="drift"))
summary(ur.df(DeltaXt,type="trend"))

#Procedimiento secuencial de la prueba Dickey-Fuller


#aumentada aplicado a la serie inbursa
summary(ur.df(Yt,type="trend"))
summary(ur.df(Yt,type="drift"))
summary(ur.df(DeltaYt,type="trend"))

#Prueba Engle-Granger para cointegración


summary(coint.test(Yt,Xt,nlag=1))

#Estimación del modelo VECM


base<-cbind(Xt,Yt)
vecm<-VECM(base,lag=1,estim="2OLS")
summary(vecm)

#Reestimación del VECM


ECT<-Xt-0.85283*Yt
VECMvalid1<-lm( DeltaXt ~ ECT[-97])
VECMvalid2<-lm( DeltaYt ~ ECT[-97])
summary(VECMvalid1)
summary(VECMvalid2)

91
#Validación final
VECMfinal1<-lm( DeltaXt ~ ECT[-97] + 0)
VECMfinal2<-lm( DeltaYt ~ ECT[-97] + 0)
summary(VECMfinal1)
summary(VECMfinal2)

#Grafica de los modelos ajustados para Xt


Modelo<-Xt[-97]-0.0881*ECT[-97]
Zt<-ts(Modelo,start=2011,frequency=12)
est<-arima(Xt,c(0,1,0))
ts.plot(Xt,Zt,gpars=list(col=c("red","blue"),lty=1:2,xlab="Tiempo",
ylab="Precio al cierre en MXN"))
lines(fitted(est),col="green")
legend(x=c(2011,2013.4),y=c(40,32), legend=c("Serie original",
"Modelo Box-Jenkins","Modelo Engle-Granger"),col=c("red", "green","blue"),
lty=1:2, cex=1)

#Prueba Henze-Zinkler para normalidad multivariada de los residuales


r1<-residuals(VECMfinal1)
r2<-residuals(VECMfinal2)
res<-cbind(r1,r2)
rest<-(res-(mean(res)))/sd(res)
mvn(rest,mvnTest="hz",multivariatePlot="persp")

92
#########################################################################
#Sección 4.4 Modelación según el Procedimiento de Johansen
#Aplicación del procedimiento de Johansen a las series alfa e inbursa

#Librerı́as utilizadas
library(stats)
library(urca)

#Lectura de la base alfa


base_alfa<-read.csv("alfa_final.csv",header=T)
attach(base_alfa)

#Lectura de la base inbursa


base_inbursa<-read.csv("inbursa_final.csv",header=T)
attach(base_inbursa)

#Creación de los objetos en formato serie de tiempo


Xt<-ts(alfa,start=2011,frequency=12)
Yt<-ts(inbursa,start=2011,frequency=12)

#Gráfica de las series


ts.plot(Xt,Yt,gpars=list(col=c("green4","blue"),lty=1:2,xlab="Tiempo",
ylab="Precio al cierre en MXN"))
legend(x=c(2008.5,2011.5),y=c(40,34), legend=c("Alfa", "Grupo Financiero Inbursa"),
col=c("red", "blue") ,lty=1:2, cex=0.8)

#Prueba lambda_trace
base<-cbind(Xt,Yt)
lambda_trace<-ca.jo(base,type="trace")
summary(lambda_trace)

93
#Prueba lambda_max
lambda_max<-ca.jo(base,type="eigen")
summary(lambda_max)

94
Bibliografı́a

[1] B OX , G.E.P., J ENKINS , G.M., R EINSEL , G.C. y L JUNG , G.M., (2016). Time Series
Analysis: Forecasting and Control, Fifth edition, Wiley.

[2] D ICKEY, D.A. y F ULLER , W.A., (1979). Distribution of the Estimators for Autoregressive
Time Series with a Unit Root. Journal of the American Statistical Association, 74(366a),
427-431.

[3] D ICKEY, D.A. y F ULLER , W.A., (1981). Likelihood Ratio Statistics for Autoregressive
Time Series with a Unit Root. Econometrica, 49(4), 1057-1072.

[4] D ICKEY, D.A., B ELL , W.R. y M ILLER R.B., (1986). Unit Roots in Time Series Models:
Tests and Implications. The American Statistician, 40(1), 12-26.

[5] D ICKEY, D.A. y PANTULA , S.G., (1987). Determining the Order of Differencing in Auto-
regressive Processes. Journal of Business & Economic Statistics, 5(4), 455–461.

[6] E NDERS , W., (2014). Applied Econometric Time Series, Fourth edition, Wiley.

[7] E NGLE , R.F. y G RANGER , C.W., (1987). Co-Integration and Error Correction: Represen-
tation, Estimation and Testing. Econometrica, 58(1), 251-276.

[8] E NGLE , R.F. y YOO , B.S., (1987). Forecasting and testing in co-integrated systems. Jour-
nal of Econometrics, 35, 143-159.

[9] F ULLER , W.A., (1996). Introduction to Statistical Time Series, Second edition, Wiley.

[10] G ONZALO , J. y L EE , T.H., (1998). Pitfalls in testing for long run relationships. Journal
of Econometrics, 86, 129-154.

95
[11] H ENZE , N. y Z IRKLER , B., (1990). A class of invariant consistent tests for multivariate
normality. Communications in Statistics - Theory and Methods, 19(10), 3595-3617.

[12] J OHANSEN , S., (1988). Statistical Analysis of Cointegration Vectors. Journal of Economic
Dynamics and Control, 12, 231-254.

[13] J OHANSEN , S. (1991).Estimation and Hypothesis Testing of Cointegration Vectors in


Gaussian Vector Autoregressive Models. Econometrica, 59(6), 1551-1580.

[14] L ÜTKEPOHL , H., (2005). New Introduction to Multiple Time Series Analysis, First edition.
Springer.

[15] M AC K INNON , J.G., (1991). Critical values for cointegration tests. En Engle, R.F. y Gran-
ger, G.W., (Ed.). Long-run economic relationships: readings in cointegration, First edition.
Oxford University Press.

[16] M ECKLIN , C.J. y M UNDFROM , D.J., (2005). A Monte Carlo comparison of the Type I
and Type II error rates of tests of multivariate normality. Journal of Statistical Computation
and Simulation, 75(2), 93-107.

[17] M ONTGOMERY, D.C., P ECK , E.A. y V INING , G.G., (2012). Introduction to Linear Re-
gression Analysis, Fifth edition, Wiley.

[18] N ELSON , C.R. y P LOSSER , C.I., (1982). Trends and Random Walks in Macroeconomic
Time Series: Some Evidence and Implications. Journal of Monetary Economics, 10(2),
139-162.

[19] R AO , B.B., (1994). Cointegration for the Applied Economist, First edition. Palgrave Mac-
millan.

[20] S AID , S.E. y D ICKEY, D.A., (1984). Testing for unit roots in autoregressive-moving ave-
rage models of unknown order. Biometrika, 71(3), 599-607.

[21] S IMS , C.A, S TOCK , J.H. y WATSON , M.W., (1990). Inference in linear time series mo-
dels with some unit roots. Econometrica, 58(1), 133-144.

96

View publication stats

También podría gustarte