Series de Tiempo Cointegradas y Una Aplicación: September 2019

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/335825923
Series de tiempo cointegradas y una aplicación
Thesis · September 2019

DOI: 10.13140/RG.2.2.24056.80641
CITATIONS READS
0 597
1 author:
Orlando Uc
Centro de Investigación en Matemáticas (CIMAT)
1 PUBLICATION 0 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Series de tiempo conintegradas y una aplicación View project
All content following this page was uploaded by Orlando Uc on 15 September 2019.
The user has requested enhancement of the downloaded file.

Universidad Autónoma de Yucatán
Facultad de Matemáticas
Series de tiempo cointegradas y una aplicación
TESIS
presentada por:
Orlando de Jesus Uc Kantun
en opción al tı́tulo de:
Licenciado en Actuarı́a
Asesores: Dr. José Luis Batún Cutz

Y M.C.M. Ernesto Antonio Guerrero Lara
Mérida, Yucatán, México

Agosto, 2019
Dedicado a todas aquellas personas que me han hecho ser quien soy
ii
Agradecimientos
Agradezco enormemente a mis asesores, el Dr. José Luis Batún Cutz y el M.C.M. Ernesto
Antonio Guerrero Lara, pues sin ellos este trabajo no hubiera sido posible. Les agradezco su
tiempo y su esfuerzo, ası́ como sus recomendaciones y correcciones. Me siento muy orgulloso
de poder decir que trabajé con ustedes, pues son personas a quienes admiro mucho, no tanto
por sus conocimientos y su profesionalismo, sino por sus valores y por lo mucho que hacen por
nosotros los alumnos. Han sido y serán un gran modelo a seguir para mı́.
Le agradezco de la manera más atenta al Dr. Henry Gaspar Pantı́ Trejo, por sus comentarios
y correcciones con respecto al presente, pues definitivamente el trabajo se enriqueció con su
opinión.
Quiero agradecer de la manera más amorosa a mi mamá, Enf. Silvia del Socorro Kantun
Chan, por estar siempre a mi lado, por haberme querido desde antes que naciera, y por haberme
hecho un hombre de bien. Sin ti no estarı́a aquı́, ¡te quiero mamá!
Agradezco grandemente a mi papá, C.D. Lino Orlando Uc LLanes, por haberme apoyado en
mis metas, por haberme enseñado la gran lección del trabajo, el valor del esfuerzo y el hábito de
la disciplina, ası́ como los frutos de la constancia. Gracias papá.
Le agradezco a mi hermano Dani el hecho de haber nacido, pues desde entonces ha sido mi
compañero de batallas, ası́ como un gran apoyo, un gran compañero y un gran amigo. Gracias
Dani.
iii
Agradezco infinitamente a mi novia, Amecita, por estar siempre conmigo, por darme ganas
de vivir y de luchar, por enseñarme a disfrutar hasta de las cosas más pequeñitas, por ser mi
amiga y mi confidente, pero sobre todo, por ser mi felicidad. ¡Te amo!
Agradezco a mi extensa familia por todo su cariño y sus enseñanzas, pero en particular, a mi
tı́a Ale, a la prima Asteria, a Doña Rita, a mi tı́a Blanca y a mi tı́a Tere, por ser mis otras mamás.
Agradezco a mis amigos Adrián y Alex, por ser mis hermanos, y por haber estado conmigo
cuando más los he necesitado.
Por último, le agradezco al Consejo Nacional de Ciencia y Tecnologı́a, por haberme apoyado
con una beca por concepto de tesis de licenciatura, perteneciente al proyecto CB 2015/252996
”Modelos con estructuras de dependencia y sus aplicaciones II”.
iv
Índice general
Introducción 3
1. Procesos ARIMA 5
1.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. El proceso autorregresivo AR(p) . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3. El proceso de medias móviles MA(q) . . . . . . . . . . . . . . . . . . . . . . 14
1.4. El proceso autorregresivo de medias móviles ARMA(p, q) . . . . . . . . . . . 16
1.5. El proceso autorregresivo integrado de medias móviles ARIMA(p, d, q) . . . . 17
1.6. Metodologı́a Box-Jenkins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2. Pruebas de Dickey-Fuller 27
2.1. El problema de la raı́z unitaria . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2. Prueba de Dickey-Fuller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3. Prueba de Dickey-Fuller aumentada . . . . . . . . . . . . . . . . . . . . . . . 39
2.4. Procedimiento secuencial para la aplicación de la prueba de Dickey-Fuller au-
mentada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3. Procesos cointegrados 46
3.1. Cointegración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2. El modelo VECM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3. Procedimiento de Engle-Granger . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4. Procedimiento de Johansen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
1
4. Ejemplo de aplicación: Series financieras 61
4.1. La Bolsa Mexicana de Valores . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2. Modelación según la Metodologı́a Box-Jenkins . . . . . . . . . . . . . . . . . 64
4.3. Modelación según el Procedimiento de Engle-Granger . . . . . . . . . . . . . 72
4.4. Modelación según el Procedimiento de Johansen . . . . . . . . . . . . . . . . 81
Conclusiones 83
Apéndice A. El proceso VAR(p). 84
Apéndice B. Códigos de R. 85
Bibliografı́a 95
2
Introducción
El objetivo del presente documento es introducir y aplicar el concepto de cointegración en

series de tiempo, considerando la parte teórica que fundamenta a los procedimientos, ası́ como
la adecuada realización de la técnica. La cointegración es ampliamente utilizada en el análisis de
las series económicas, debido a que las variables macroeconómicas de importancia usualmente
presentan una relación en su comportamiento en el largo plazo.
Las series de tiempo económicas, históricamente, han sido difı́ciles de modelar. La metodo-
logı́a Box-Jenkins, por ejemplo, produce resultados menos satisfactorios en series económicas a
comparación de series de otro tipo.
Los primeros en señalar que la metodologı́a que se habı́a estado implementando en las series
económicas no era del todo correcta fueron Clive Granger y Paul Newbold, quienes en 1974 in-
trodujeron el concepto de regresión espuria, para aquellas series económicas que parecı́an tener
una relación directa, pero que en realidad era un factor el externo el que provocaba la correlación.
Más adelante, Engle y Granger, presentaron en 1987 su artı́culo “Co-integration and error co-
rrection: Representation, estimation and testing”, con el cual, introdujeron el concepto de coin-
tegración como una posible solución a la modelación de parejas de series de tiempo económicas.
En términos muy generales, se dice que dos series de tiempo no estacionarias están coin-
tegradas si existe una combinación lineal de ellas que genera una serie de tiempo estacionaria.
Para determinar si una serie es estacionaria, es necesario aplicar pruebas de raı́ces unitarias, por
lo que las pruebas de Dickey-Fuller son una herramienta adecuada para esta metodologı́a.
3
En 1991, Soren Johansen propuso una nueva manera de abordar la cointegración, al presen-
tar un modelo que permite considerar más de una relación de cointegración, lo cual es un avance
significativo de la técnica.
En el primer capı́tulo se introducen los conceptos básicos de las series de tiempo, los pro-
cesos ARIMA y sus caracterı́sticas, ası́ como la metodologı́a Box-Jenkins y un ejemplo de su
aplicación, utilizando el software estadı́stico R.
En el segundo capı́tulo se presentan la prueba de Dickey-Fuller y la Prueba de Dickey-Fuller

aumentada para raı́ces unitarias, con el fin de probar estadı́sticamente si una serie es estacionaria
o no, lo cuál, como se verá en el tercer capı́tulo, está fuertemente relacionado con la cointegra-
ción.
En el tercer capı́tulo se define formalmente el concepto de cointegración, la relación que se

tiene con el modelo de corrección de errores, ası́ como el procedimiento de Engle-Granger y el
procedimiento de Johansen.
El cuarto capı́tulo consiste en un ejemplo de aplicación a un par de series financieras, apli-

cando la metodologı́a Box-Jenkins, el procedimiento de Engle-Granger y el procedimiento de
Johansen, utlizando nuevamente al software estadı́stico R.
Por último, en los apéndices se introduce al proceso VAR(p) y se presenta al lector los
códigos de R que fueron utilizados.
4
Capı́tulo 1
Procesos ARIMA
En este capı́tulo se introducen las bases teóricas que sustentan la aplicación estadı́stica de las
series de tiempo, sus caracterı́sticas y los principales modelos que se ajustan. También se pre-
sentan los pasos necesarios para la modelación de una serie de tiempo a través de la metodologı́a
Box-Jenkins, mostrando su aplicación mediante un ejemplo.
1.1. Conceptos básicos

En palabras muy sencillas, una serie de tiempo es una colección de observaciones de un
fenómeno en particular, indexada a través del tiempo, que permite analizar el comportamiento
histórico de los datos con un nivel alto de confianza. El mencionar la palabra colección es inten-
cional, pues el concepto de serie de tiempo está ligado con el concepto de proceso estocástico.
Definición 1.1.1 Un proceso estocástico es una colección de variables aleatorias {Xt }t∈T , don-
de T es un conjunto de ı́ndices arbitrario.
La frecuencia de observación varı́a con respecto al evento de interés, pudiendo ser años,
meses, dı́as e incluso horas, minutos y segundos. A un conjunto de observaciones de un proceso
estocástico se le conoce como realización.
Definición 1.1.2 Una serie de tiempo es una realización de un proceso estocástico en tiempo
discreto, donde los elementos del conjunto de ı́ndices T están ordenados.
5
A continuación se definen los momentos de un proceso estocástico o de una serie de tiempo.
Definición 1.1.3 Sea {Xt }t∈T un proceso estocástico:
1. La función media µ : T → R, se define por:
µX (t) = E[Xt ]
2. La función autocovarianza γ : T × T → R se define por:
γt1 ,t2 = Cov(Xt1 , Xt2 ) = E[(Xt1 − µX (t1 ))(Xt2 − µX (t2 ))]
3. La función autocorrelación ρ : T × T → R se define por:
E[(Xt1 − µX (t1 ))(Xt2 − µX (t2 ))]

ρt1 ,t2 = Corr(Xt1 , Xt2 ) = p p
E[(Xt1 − µX (t1 ))2 ] E[(Xt2 − µX (t2 ))2 ]
La función media permite examinar el comportamiento que sigue el valor esperado del pro-
ceso a través del tiempo. Para algunos procesos la media es constante, mientras que en otros,
varı́a con respecto al valor de t.
Por otro lado, la función autocovarianza permite analizar la asociación entre dos elementos
del proceso. Si la función de autocovarianza toma un valor positivo entonces existe una relación
directa entre Xt1 y Xt2 (si Xt1 aumenta Xt2 también), pero si toma un valor negativo entonces exis-
te una relación inversa (si Xt1 aumenta Xt2 disminuye), mientras que si es igual a cero entonces
no existe asociación entre las observaciones.
La función de autocorrelación es una versión estandarizada de la función de autocovarianza.

Es muy útil, ya que permite cuantificar que tanta asociación tuvo la observación Xt1 sobre Xt2 ,
si t1 < t2 . Dado que la traducción al inglés de la función de autocorrelación es autocorrelation
function, es común abreviarla como ACF.
Un concepto muy importante en los procesos estocásticos y en las series de tiempo es el de

estacionariedad.
6
Definición 1.1.4 Un proceso estocástico {Xt }t∈T es estrictamente estacionario de orden n, con
n ∈ N si
Ft1 ,··· ,tn (x1 , · · · , xn ) = Ft1 +h,··· ,tn +h (x1 , · · · , xn )
para cualquier h ∈ Z y x1 , · · · , xn ∈ R, donde Ft1 ,··· ,tn denota a la distribución conjunta de

Xt1 , · · · , Xtn .
La estacionariedad en el sentido estricto quiere decir que la distribución conjunta de las va-
riables Xt1 , · · · , Xtn es igual a la distribución conjunta de las variables Xt1 +h , · · · , Xtn +h . Obsérvese
que la Definición 1.1.4 es para un valor de n en particular, sin embargo, es posible realizar una
generalización.
Definición 1.1.5 Un proceso estocástico es estrictamente estacionario si es estrictamente esta-

cionario de orden n, ∀n ∈ N.
Existe una versión menos fuerte de la estacionariedad llamada estacionariedad débil.
Definición 1.1.6 Un proceso estocástico {Xt }t∈T es débilmente estacionario si satisface las
condiciones siguientes:
1. La función media µX (t) = E[Xt ] no depende de t.
2. La función correlación ρt1 ,t2 = Corr(Xt1 , Xt2 ) depende de t1 y t2 a través de la diferencia

t1 − t2 .
Por lo tanto, para un proceso débilmente estacionario las funciones de autocovarianza y de

autocorrelación pueden ser expresadas en función de k = t2 − t1 :
γt1 ,t2 = γk = Cov(Xt1 , Xt2 ) = Cov(Xt1 , Xt1 +k ) = Cov(Xt2 , Xt2 +k )
ρt1 ,t2 = ρk = Corr(Xt1 , Xt2 ) = Corr(Xt1 , Xt1 +k ) = Corr(Xt2 , Xt2 +k )
Observación 1.1.7 Desde este punto, y a menos que se indique lo contrario, cuando se afirme
que un proceso es estacionario se hará referencia a que es estacionario en el sentido débil.
Un buen ejemplo de un proceso estacionario es el siguiente:
7
Definición 1.1.8 Un proceso {εt }t∈T es un proceso ruido blanco si es una colección no correla-
cionada de variables aleatorias con media constante E[εt ] = µ, varianza constante Var(εt ) = σ 2
y γk = Cov(εt , εt+k ) = 0, para k 6= 0.
Este proceso es importante pues serán las innovaciones en la definición de un modelo de

series de tiempo. La interpretación intuitiva que se le puede dar al concepto de ruido blanco es
que es un proceso con un comportamiento totalmente aleatorio, es una manera de definir a un
proceso que no parece tener ningún patrón que no sea la aleatoriedad.
Una manera breve de definir a un modelo de series de tiempo es a través del operador retar-
do. Este operador permite plantear una igualdad entre una observación de la serie en términos
de observaciones anteriores.
Definición 1.1.9 Sea {Xt }t∈T un proceso estocástico. Se define al operador retardo B como
BXt = Xt−1
Esto es, B es el operador que aplicado a una observación de una serie de tiempo da como
resultado la observación anterior. Este concepto se puede generalizar, como se observa en la
siguiente definición.
Definición 1.1.10 Sea {Xt }t∈T un proceso estocástico. Se define al operador retardo B p como
B p Xt = Xt−p
Por ejemplo, considérese el proceso de caminata aleatoria tal que:
Xt = Xt−1 + εt
Reescribiendo lo anterior:
Xt − Xt−1 = εt
Xt − BXt =εt
(1 − B)Xt =εt
ρ(B)Xt =εt
8
Al polinomio ρ(B) = (1 − B) se le conoce como polinomio caracterı́stico, ya que define de
manera única al proceso de caminata aleatoria Xt , a través de un polinomio cuya variable es el
operador retardo.
Por último en esta sección, es importante señalar que en la literatura, cuando la variable de
interés es Xt , entonces a las observaciones pasadas Xt−1 , Xt−2 , Xt−3 , . . . se les conoce como lags,
cuya traducción al español podrı́a ser retrasos o desfaces.
1.2. El proceso autorregresivo AR(p)

Uno de los procesos que se utilizan para modelar una serie de tiempo es el proceso autorre-
gresivo, que se abrevia como AR(p), donde p es el número de observaciones previas ponderadas
que se incluyen en el modelo. Esta representación define a la observación al tiempo t a través de
cierto número de observaciones pasadas más una innovación.
Definición 1.2.1 El proceso autorregresivo de orden p se define como
Xt = φ1 Xt−1 + · · · + φ p Xt−p + εt
o bien, a través del operador retardo
φ (B)Xt = εt
donde φ (B) = (1 − φ1 B − · · · − φ p B p ) es el polinomio caracterı́stico del proceso y εt un proceso

de ruido blanco.
Como se aprecia, un proceso AR(p) está definido mediante p elementos previos ponderados
de la serie, más un término error que es aleatorio.
Los procesos AR no siempre son estacionarios, por lo que es necesario determinar bajo qué
condiciones se alcanza la estacionariedad.
Considérese el proceso AR(1)

Xt = φ Xt−1 + εt
9
Realizando una recursión sobre Xt−1 se obtiene:
Xt = φ (φ Xt−2 + εt−1 ) + εt
= φ 2 Xt−2 + φ εt−1 + εt
Y realizando recursiones consecutivas:
Xt = φ 2 (φ Xt−3 + εt−2 ) + φ εt−1 + εt
= φ 3 Xt−3 + φ 2 εt−2 + φ εt−1 + εt
= φ 3 (φ Xt−4 + εt−3 ) + φ 2 εt−2 + φ εt−1 + εt
= φ 4 Xt−4 + φ 3 εt−3 + φ 2 εt−2 + φ εt−1 + εt

..
.
" #
n−1
Xt = lı́m φ n Xt−n + ∑ φ j εt− j (1.1)
n→∞
j=0
Como se puede encontrar en Fuller (1996), bajo los supuestos |φ | < 1 y E[Xt2 ] < K < ∞ se
cumple:  !2 
n
lı́m E  Xt − ∑ φ j εt− j  = 0,
n→∞
j=0
donde K es algún valor finito y εt está definido para t ∈ {0, ±1, ±2, . . .}. Entonces el proceso Xt
en la ecuación (1.1) puede ser expresado como:
∞
Xt = ∑ φ j εt− j (1.2)
j=0
Resulta que la condición |φ | < 1 es suficiente para que la ecuación (1.2) sea convergente, y
es también la condición suficiente para que el proceso AR(1) sea estacionario. La demostración
de este hecho se puede encontrar en (Fuller, 1996).
A partir de la ecuación (1.2) se puede observar que se puede expresar a un proceso AR(1)
a través de una serie infinita de observaciones de un proceso ruido blanco, y de ahı́ se pueden
calcular los momentos del proceso, a saber (Rao, 1994):
E[Xt ] = 0
10
σ2
Var(Xt ) =
1−φ2
φ kσ 2
γk = , k = t2 − t1
1−φ2
ρk = φ k , k = t2 − t1
Nótese que la esperanza y la varianza del proceso son constantes a través del tiempo y que las
funciones autocovarianza y autocorrelación depende de la diferencia de tiempo entre las obser-
vaciones y no de los tiempos t1 y t2 en particular. Estas observaciones son las que se enuncian en
la Definición 1.1.6, de ahı́ se concluye que el proceso AR(1) es estacionario en esta situación.
Ahora, para definir la estacionariedad en términos del polinomio caracterı́stico, obsérvese

que el proceso AR(1) expresado a través del operador retardo es:
φ (B)Xt = (1 − φ B)Xt = εt .
Considerando a B como una variable, y encontrando la raı́z del polinomio caracterı́stico:
1−φB = 0
1 = φB
Si se considerado el valor absoluto de φ tal que |φ | < 1, entonces:
|1| = |φ B| = |φ ||B| < |B|
Mientras que si |B| > 1, entonces:
|1| = |φ B| = |φ ||B| > |φ |
Se sigue que |φ | < 1 sı́ y sólo sı́ |B| > 1. Entonces, como |φ | < 1 es una condición suficiente
para que el proceso AR(1), la condición |B| > 1 también lo es. Equivalentemente, el proceso
AR(1) es estacionario si la raı́z del polinomio caracterı́stico está fuera del cı́rculo unitario.
Es posible generalizar el razonamiento presentado en esta sección para un proceso AR(p),

resultando que si todas las raı́ces, reales o imaginaras, del polinomio caracterı́stico se encuen-
tran fuera del cı́rculo unitario, entonces el proceso AR(p) tiene media cero, una representación
infinita y es estacionario (Box, Jenkins, Reinsel y Ljung, 2016).
11
Función de autocorrelación parcial
Existe otra función interesante, llamada función de autocorrelación parcial, que ayuda a rea-
lizar inferencias sobre el comportamiento de una serie de tiempo (Box et al., 2016).
Considérese un proceso AR(p) estacionario expresado como
Xt = φ1 Xt−1 + · · · + φ p Xt−p + εt
Multiplicando por Xt−k con k ≥ 0
Xt−k Xt = φ1 Xt−k Xt−1 + φ2 Xt−k Xt−2 + · · · + φ p Xt−k Xt−p + Xt−k εt
Y calculando la esperanza de ambos lados de la ecuación
E[Xt−k Xt ] = E[φ1 Xt−k Xt−1 + φ2 Xt−k Xt−2 + · · · + φ p Xt−k Xt−p + Xt−k εt ]

(1.3)
= φ1 E[Xt−k Xt−1 ] + φ2 E[Xt−k Xt−2 ] + · · · + φ p E[Xt−k Xt−p ] + E[Xt−k εt ]
Antes de continuar, obsérvese que
γk = Cov(Xt−k , Xt )
= E[Xt−k Xt ] − E[Xt−k ]E[Xt ]
= E[Xt−k Xt ] − (0)(0)
= E[Xt−k Xt ]
Sustituyendo γk = E[Xt−k Xt ] en la ecuación (1.3).
γk = φ1 γk−1 + φ2 γk−2 + φ p γk−p + E[Xt−k εt ], k > 0.
Por otro lado

E[Xt−k εt ] = Cov(Xt−k , εt ) + E[Xt−k ]E[εt ]
= Cov(Xt−k , εt ) + (0)(0)
Y dado que el proceso Xt−k es estacionario, entonces puede ser expresado como una serie infinita
de innovaciones
!
∞
E[Xt−k εt ] = Cov ∑ φ j εt−k− j , εt
j=0
= Cov(εt−k , εt ) + φ1Cov(εt−k−1 , εt ) + φ2Cov(εt−k−2 , εt ) + . . .
=0
12
Por tanto
γk = φ1 γk−1 + φ2 γk−2 + · · · + φ p γk−p , k > 0. (1.4)
Obsérvese que cuando un proceso es estacionario, se cumple

Cov(Xt1 , Xt2 ) Cov(Xt1 , Xt2 ) Cov(Xt1 , Xt2 ) γk
ρk = p p =p p = =
Var(Xt1 ) Var(Xt2 ) Var(Xt1 ) Var(Xt1 ) Var(Xt1 ) γ0
Dividiendo a la ecuación (1.4) entre γ0
ρk = φ1 ρk−1 + φ2 ρk−2 + · · · + φ p ρk−p , k > 0. (1.5)
La función de autocorrelación parcial se puede definir a través de un conjunto de ecuaciones

que son una generalización de la ecuación (1.5), en donde φk j denota al j-ésimo coeficiente de
un proceso AR(k), de tal forma que φkk es el último coeficiente.
ρ j = φk1 ρ j−1 + · · · + φk(k−1) ρ j−k+1 + φkk ρ j−k , j = 1, 2, . . . , k.
Lo cual lleva a las ecuaciones de Yule-Walker, que en forma matricial pueden ser expresadas
como
    
1 ρ1 ρ2 . . . ρk−1 φ ρ
   k1   1 
    
 ρ1 1 ρ1 . . . ρk−2  φk2  ρ2 
 .. .. .. ..   ..  =  .. 
    
 . . . ... .  .   . 
..
    
ρk−1 ρk−2 ρk−3 . 1 φkk ρk
o bien
Pk φk = ρk
Son precisamente los valores φkk los que determinan a la función de autocorrelación parcial,
y que se pueden interpretar como la correlación ajustada que existe entre las variables Xt y Xt−k ,
ya que no considera a las observaciones que se encuentran entre ellas (Xt−1 , Xt−2 , . . . , Xt−k+1 ).
La función de autocorrelación parcial será importante en la sección 1.6.
Dado que en inglés se le conoce como partial autocorrelation function es una práctica común
abreviar a la función de autocorrelación parcial como PACF.
13
1.3. El proceso de medias móviles MA(q)
Otro modelo importante es el proceso de medias móviles, en el cual la observación al dı́a
de hoy de algún evento en particular está determinado por cierto número de innovaciones que
ocurrieron en el pasado.
Definición 1.3.1 El proceso de medias móviles de orden q se define como
Xt = εt − θ1 εt−1 − · · · − θq εt−q
Xt = θ (B)εt
donde θ (B) = (1 − θ1 B − · · · − θq Bq ) es el polinomio caracterı́stico del proceso y εt un proceso

de ruido blanco.
A través de su definición, no es difı́cil calcular los siguientes momentos para el proceso

MA(1):
E[Xt ] = 0
Var(Xt ) = (1 + θ12 )σ 2



 (1 + θ12 )σ 2 , k = 0







γk = −θ1 σ 2 , k=1









 0 , k>1



 1 , k=0







 θ1
ρk = − 2
, k=1

 1 + θ 1








 0 , k>1
14
Donde k = t1 − t2 .
Nótese que independientemente del valor del parámetro θ la media y la varianza del proceso
son constantes a través del tiempo, mientras que las funciones γk y ρk dependen de la diferencia
t1 − t2 , por lo que se concluye que el proceso MA(1) siempre es estacionario.
Recordando que en la ecuación (1.2) se expresó a un proceso AR(1) a través de una serie
infinita de innovaciones, y conociendo ahora la definición de un proceso MA(q), se deduce que
esta serie infinita de innovaciones es en realidad un proceso MA(∞).
Observación 1.3.2 Se denotará como un proceso MA(∞) a un proceso Xt que tiene una repre-
sentación infinita de la forma:
∞
Xt = ∑ φ j εt− j
j=0
Entonces, resulta natural preguntarse si es posible expresar un proceso MA(1) en términos

de un Xt .
Partiendo de la definición del proceso MA(1)
εt = Xt + θ εt−1
= Xt + θ (Xt−1 + θ εt−2 )
= Xt + θ Xt−1 + θ 2 εt−2
= Xt + θ Xt−1 + θ 2 (Xt−2 + θ εt−3 )
= Xt + θ Xt−1 + θ 2 Xt−2 + θ 3 εt−3

..
.
" #
n−1
εt = lı́m
n→∞
∑ θ j Xt− j + θ nεt−n
j=0
Análogamente a los resultados del proceso AR(1) en la página 10, el proceso MA(1) puede ser
expresado a través de la ecuación:
∞
εt = ∑ θ j Xt− j (1.6)
j=0
15
Siendo la condición |θ | < 1 suficiente para que la ecuación 1.6 converja. Por tanto, es posible
expresar a un proceso MA(1) a través de un proceso AR(∞) bajo la restricción |θ | < 1. A
esta caracterı́stica se le conoce como invertibilidad y se puede generalizar a cualquier proceso
MA(q).
Observación 1.3.3 Se denotará como un proceso AR(∞) a un proceso et que tiene una repre-
sentación infinita de la forma:
∞
εt = ∑ θ j Xt− j
j=0
Análogamente al concepto de estacionariedad, la invertibilidad sucede cuando las raı́ces del

polinomio caracterı́stico del proceso MA son estrictamente mayores que 1.
Observación 1.3.4 Los procesos MA(q) son siempre estacionarios pero no siempre son inver-
tibles, mientras que los procesos AR(p) son siempre invertibles pero no siempre estacionarios
(Box et al., 2016).
1.4. El proceso autorregresivo de medias móviles ARMA(p, q)

Para algunas series, debido a sus particularidades, no basta con un modelo AR(p) o un
MA(q) para describir su comportamiento, es por ello que se desarrolló un modelo que tuviera
tanto una una parte AR como una parte MA, bautizado como proceso ARMA(p, q). Al incluir
más parámetros es un modelo que permite modelar un espectro más grande de series de tiempo.
Definición 1.4.1 El proceso autorregresivo de medias móviles ARMA(p, q) se define como
Xt = φ1 Xt−1 + · · · + φ p Xt−p + εt − θ1 εt−1 − · · · − θq εt−q
φ (B)Xt = θ (B)εt
con
φ (B) = (1 − φ1 B − · · · − φ p B p )
16
θ (B) = (1 − θ1 B − · · · − θq Bq ) y
εt un proceso de ruido blanco.
Los procesos ARMA, al tener la particularidad de contar con una parte AR y con una parte
MA, pueden ser tanto estacionarios como invertibles, pero estas condiciones deben verificarse
de manera independiente.
La estacionariedad del proceso ARMA(p, q) se verifica a través del polinomio caracterı́sti-

co de la parte AR, siendo la condición suficiente que las raı́ces del polinomio φ (B) estén
fuera del cı́rculo unitario.
La invertibilidad del proceso ARMA(p, q) se verifica a través del polinomio caracterı́stico

de la parte MA, siendo la condición suficiente que las raı́ces del polinomio θ (B) estén
fuera del cı́rculo unitario.
Una consecuencia de las afirmaciones anteriores es que un proceso ARMA(p, q) que es estacio-
nario e invertible tiene tanto una representación AR(∞) como una representación MA(∞).
Una observación interesante es que un proceso ARMA(0, 0) se considera un proceso ruido

blanco, pues el proceso se reduce a la ecuación Xt = εt .
1.5. El proceso autorregresivo integrado de medias móviles

ARIMA(p, d, q)
No todas las series se pueden modelar con un proceso ARMA, pues el supuesto de estaciona-
riedad no se cumple en todas las ocasiones. El proceso ARIMA(p, d, q) es uno de los modelos
que se pueden ajustar cuando se está analizando una serie que no es estacionaria, y también
puede ajustarse después de aplicar otras transformaciones, como las logarı́tmicas o las transfor-
maciones Box-Cox (Montgomery, 2012).
Considérese el siguiente ejemplo, sea un modelo con tendencia
Wt = α + βt + εt
17
Si al valor de Wt se le resta el valor del tiempo anterior
Wt −Wt−1 = α + βt + εt − α − β (t − 1) − εt−1
= β + εt + εt−1
Nótese que desaparece el término tendencia βt. A esta técnica se le conoce como diferenciación,
y a las series a las que tras aplicar cierto número de diferencias se vuelven estacionarias se les
llama estacionarias en diferencia. Cabe señalar que existen casos en los que basta con aplicar
diferenciación para obtener una serie estacionaria, pero existen otros casos en los que aún apli-
cando diferenciación no se logra observar un comportamiento estacionario.
Supóngase que Xt es una serie definida por un proceso ARMA(p, q) que no es estacionario,
¿cuál serı́a el modelo adecuado para la serie ∆Xt = Xt − Xt−1 ?
Obsérvese que:
∆Xt = Xt − Xt−1
!
p q p q
= ∑ φi Xt−i − ∑ θi εt−i − ∑ φiXt−i−1 − ∑ θiεt−i−1
i=1 i=1 i=1 i=1
p q
= ∑ φi (Xt−i − Xt−i−1 ) − ∑ θi (εt−i − εt−i−1 )
i=1 i=1
p q
∆Xt = ∑ φi (1 − B)Xt−i − ∑ θi (1 − B)εt−i
i=1 i=1
" #
p q
= (1 − B) ∑ φiXt−i − ∑ θiεt−i
i=1 i=1
| {z }
ARMA(p,q)
Lo anterior quiere decir que la serie ∆Xt se puede modelar a través de un proceso ARMA(p, q)
al que se le aplica una diferencia. Este procedimiento se puede generalizar para un número d de
diferencias sobre la serie Xt , lo que lleva a la siguiente definición.
Definición 1.5.1 El proceso autorregresivo integrado de medias móviles ARIMA(p, d, q) se de-

fine como
φ (B)(1 − B)d Xt = θ (B)εt
con
18
φ (B) = (1 − φ1 B − · · · − φ p B p )
θ (B) = (1 − θ1 B − · · · − θq Bq ) y
εt un proceso de ruido blanco.
De la definición anterior se deduce que si ∆d Xt ∼ ARMA(p, q), entonces Xt ∼ ARIMA(p, d, q),

puesto que se cumple (1 − B)d Xt = ∆d Xt (Box et al., 2016) y donde ∆d representa la d-ésima
diferenciación de una serie. Esta propiedad implica que si la serie Xt es de interés, entonces una
posible manera de analizarla es a través de sus diferencias.
1.6. Metodologı́a Box-Jenkins

Una de las metodologı́as más difundidas para la modelación de series de tiempo es la me-
todologı́a Box-Jenkins, que consiste en una secuencia de pasos para el ajuste y estimación de
modelos. Ésta se basa en aplicar diferencias y/o transformaciones a la serie que se desea mode-
lar hasta obtener una serie estacionaria.
Para verificar si la serie cumple con el supuesto de estacionariedad es necesario graficarla y

analizar su comportamiento.
Los supuestos distribucionales que permiten calcular los estimadores de los modelos esta-
cionarios son que los residuales sigan un comportamiento de ruido blanco, y también, que los
residuales estandarizados sigan un comportamiento de ruido blanco gaussiano. Para verificar
esto se aplican las pruebas de Ljung-Box y de Shapiro-Wilk, que están incluidas en la gran ma-
yorı́a de los softwares estadı́sticos.
En términos generales, los pasos a efectuar son:
1. Verificación de la estacionariedad.
2. Identificación del modelo.
3. Estimación de los parámetros.
19
4. Validación del modelo.
5. Adecuación del modelo.
A manera de ejemplo, se analizará la serie {Xt } que consiste 197 observaciones de la con-
centración de cierto proceso quı́mico, para el cual el periodo entre observaciones es de 2 horas.
(Box et al., 2016).
Paso 1. Verifiación de la estacionariedad
Primero es necesario graficar a los datos para poder observar el comportamiento que sigue la
serie. Obsérvese en la Figura 1.1 que la media no es constante a través del tiempo, pues existen
periodos en los que el comportamiento es hacia la alta, pero en otros tiene una tendencia a la
baja. Por otro lado, la varianza es constante, ya que la amplitud de la serie permanece constante
a lo largo del tiempo.
Figura 1.1: Concentración de un proceso quı́mico.
Dado que la media no es constante, se concluye que es necesario aplicar una primera dife-
rencia a través de la función diff de R, obteniendo a la serie {∆Xt }.
La gráfica de primera de {∆Xt }, presentada en la Figura 1.2 tiene un comportamiento desea-

ble, pues la media es constante y fluctúa alrededor del cero, mientras que la varianza es constante
20
Figura 1.2: {∆Xt }.
exceptuando el intervalo de entre las 40 y 70 observaciones, pues hay picos que se alejan bas-
tante de la media. De aquı́ se puede inferir que la serie de primera diferencia es estacionaria, y
por tanto, se ajustarán las estimaciones a través de ella.
Paso 2. Identificación del modelo
Para la identificación del modelo es necesario apoyarse por las gráficas ACF y PACF de la
serie de primera diferencia, sin embargo, las definiciones que se dieron previamente son teóricas,
por lo que es necesario introducir a los estimadores:
El estimador de la función de autocovarianza de una serie {Xt } con n observaciones está

definido por:
1 n−k
γ̂k = ∑ (Xt − X̄)(Xt+k − X̄)
n t=1
El estimador de la función de autocorrelación de una serie {Xt } con n observaciones está

definido por:
n−k
γ̂k
∑ (Xt − X̄)(Xt+k − X̄)
t=1
ρ̂k = =
γ̂0 nγ̂0
Donde X̄ = 1n ∑t=1
n
Xt . Por otro lado, la estimación de la PACF no es trivial y se escapa de los
objetivos del presente, pero un algoritmo de estimación se puede encontrar en (Box et al., 2016).
21
Habiendo estimado a la ACF y la PACF se pueden obtener gráficas que sirven de apoyo
para poder identificar el número de parámetros a incluir en el modelo. La tabla 1.1 es de suma
utilidad, pues a partir del comportamiento de ambas gráficas se llega a una conclusión.
Proceso ACF PACF
AR(p) Decrece exponencialmente Hace un pico en el lag p y se va a cero

MA(q) Hace un pico en el lag q y se va a cero Decrece exponencialmente
ARMA(p, q) Decrece exponencialmente Decrece exponencialmente
Tabla 1.1: Identificación del número de parámetros según la metodologı́a Box-Jenkins.
Se observa en la Figura 1.3 que en la ACF de la serie {Xt } prácticamente todas las barras
se encuentran dentro de las lı́neas azules, conocidas como bandas de Bartlett, exceptuando por
muy poco, al lag 7. Si una barra de la ACF se encuentra dentro de las bandas de Bartlett entonces
en ése punto la ACF no es significativa. Los lags posteriores al 7 son lejanos por lo que no se
consideran significativos. El razonamiento anterior sugiere ajustar un modelo MA(1).
También en la Figura 1.3, se nota que en la PACF son 4 las barras que se encuentran fuera de
las bandas, es decir, alcanzaron la significancia. Las barras decrecen lentamente, y guarda cierto
parecido a un comportamiento exponencial. Lo anterior sugiere también el ajuste de un modelo
MA.
A partir de lo observado en las gráficas ACF y PACF se sugiere un proceso MA(1) para
modelar a la primera diferencia de la serie concentración. Es decir, se propone:
{∆Xt } ∼ MA(1)
A su vez, esto lleva a deducir que:
{Xt } ∼ ARIMA(0, 1, 1)
pues solamente fue necesario aplicar una diferencia.
22
(a) ACF (b) PACF
Figura 1.3: ACF y PACF - {∆Xt }.
Paso 3. Estimación de los parámetros
La estimación de los parámetros se realiza vı́a máxima verosimilitud, a través de la función

arima de R, obteniendo los resultados de la Tabla 1.2.
θ1
-0.6994
s.e. 0.0645
Tabla 1.2: Parámetros estimados de {Xt }.
Ahora es necesario escribir al modelo para la serie {Xt } de manera explı́cita. A partir de la
Definición 1.5.1:
φ (B)(1 − B)d Xt = θ (B)εt
(1 − B)Xt = (1 − θ1 B)εt
Xt − Xt−1 = εt − θ1 εt−1
Xt = Xt−1 + εt − θ1 εt−1
Xt = Xt−1 + εt + 0.6994εt−1
23
Paso 4. Validación del modelo
En esta subsección es necesario verificar que el modelo ajustado cumpla con todos los su-
puestos. Como se denotó anteriormente, un modelo MA es estacionario pero no necesariamente
es invertible. En la sección 1.3 se vio que la invertibilidad puede ser verificada resolviendo el
polinomio caracterı́stico con respecto al operador retardo.
1 − θ1 B = 0
1 + 0.6994B = 0
0.6994B = −1
1
B=−
0.6994
B = −1.4297
Nótese que |B| > 1, por lo que se encuentra fuera del cı́rculo unitario. Luego entonces, el
modelo cumple con el supuesto de invertibilidad.
Ahora es necesario verificar que el modelo cumple con el supuesto de que los residuales
siguen un proceso ruido blanco, apoyándose a través de la prueba de Ljung-Box y de la función
Box.test de R.
Hipótesis:
H0 : Los residuales del modelo ARIMA(0, 1, 1) siguen un proceso ruido blanco
vs.
H1 : Los residuales del modelo ARIMA(0, 1, 1) no siguen un proceso ruido blanco
Resultado: Con un estadı́stico χ 2 obtenido de 14.935, un p-valor de 0.1344 y a un nivel de

significancia α = 0.05, no existe suficiente evidencia estadı́stica para rechazar la hipótesis nula
a favor de la hipótesis alternativa, es decir, no existe suficiente evidencia para afirmar que los
residuales del modelo ARIMA(0,1,1) no siguen un proceso ruido blanco.
24
Se supondrá entonces que los residuales del modelo siguen un proceso ruido blanco.
Por último, es necesario verificar si el modelo ajustado cumple con el supuesto de que
los residuales estandarizados siguen una distribución gaussiana. Para esto se aplicará la prue-
ba Shapiro-Wilk de normalidad, mediante la función shapiro.test de R.
Hipótesis:
H0 : Los residuales estandarizados del modelo ARIMA(0, 1, 1) siguen
una distribución normal
vs.
H1 : Los residuales estandarizados del modelo ARIMA(0, 1, 1) no siguen
una distribución normal
Resultado: Con un estadı́stico W obtenido de 0.98974, un p-valor de 0.1565, y a un nivel de

residuales estandarizados del modelo ARIMA(0,1,1) no siguen una distribución normal.
Se supondrá entonces que los residuales estandarizados del modelo siguen una distribución
normal.
Paso 5. Adecuación del modelo
En el caso de la serie {Xt }, se verificó que el modelo ARIMA(0,1,1) cumple con todos los
supuestos, por lo que no es necesario realizar alguna modificación al modelo.
Si el modelo no hubiese cumplido con alguno de los supuestos, se pudo haber aplicado al-
guna transformación que corrija el problema que se hubiera presentado. En el peor de los casos,
es necesario ajustar un nuevo modelo y aplicar los pasos 3 y 4 hasta verificar que sı́ se cumplen
25
Figura 1.4: Gráfica de la serie concentración y del modelo ARIMA(0, 1, 1) ajustado.
los supuestos.
En la figura 1.4 se encuentra la gráfica de la serie {Xt } en color verde, mientras que en color
azul se encuentra la gráfica del modelo ARIMA(0, 1, 1) ajustado. Se observa que el proceso
ARIMA modela satisfactoriamente el comportamiento de la serie.
26
Capı́tulo 2
Pruebas de Dickey-Fuller
Como se mencionó en el capı́tulo 1, la estacionariedad es una condición deseada para la

modelación de series de tiempo a través de la metodologı́a Box-Jenkins. Sin embargo, no todas
las series son estacionarias, por lo que es necesario determinar cuáles de ellas sı́ lo son.
Se han desarrollado diversas pruebas de hipótesis para verificar la estacionariedad de una

serie de tiempo. A este tipo de pruebas se les conoce como pruebas de raı́ces unitarias, ya que
están ligadas con las raı́ces del polinomio caracterı́stico de la serie.
En este capı́tulo se introducirá el concepto de raı́z unitaria, ası́ como la prueba clásica que
desarrollaron David A. Dickey y Wayne A. Fuller en 1979, y que fue mejorada por los mismos
autores al presentar la prueba de Dickey-Fuller aumentada en 1981.
2.1. El problema de la raı́z unitaria

La ausencia de estacionariedad en una serie tiene implicaciones en la modelación de una
serie de tiempo. Mucha literatura se ha escrito proponiendo diversas metodologı́as para tratar
esta problemática, y son varios los autores los que dan sus opiniones con respecto a cuál método
es el mejor.
27
Considérese, por simplicidad, el proceso AR(1) definido a través de la ecuación:
Xt = φ Xt−1 + εt (2.1)
Como fue señalado en la Sección 1.2 el valor del parámetro φ es el que determina si el
proceso AR(1) es estacionario o no. Se han simulado 100 observaciones del proceso (2.1) para
ejemplificar el cambio que genera en su comportamiento el valor de φ , donde los residuales εt
siguen un proceso gaussiano estándar y X0 = 0.
El caso φ = 0.1 se observa en la Figura 2.1, en el que el proceso AR(1) es estacionario, pues
la media y la varianza tienen un comportamiento constante a través de las 100 observaciones.
Figura 2.1: Xt = 0.1Xt−1 + εt .
En la Figura 2.2 se presenta el proceso AR(1) con φ = 1, que es el caso en el cual Xt sigue
el comportamiento de una caminata aleatoria. En las primeras 20 observaciones la media del
proceso se encuentra alrededor del cero, pero luego da un brusco salto hacia arriba, para luego
decaer y estabilizarse después de la observación número 70. La varianza tampoco es constante.
28
Figura 2.2: Xt = Xt−1 + εt .
Cuando φ = 1.1 la media del proceso Xt tiene un comportamiento exponencial, como se

puede observar en la Figura 2.3.
Figura 2.3: Xt = 1.1Xt−1 + εt .
El trabajo de Dickey, Bell y Miller (1986) señala que, ante la presencia de una raı́z unitaria,
el no aplicar alguna transformación a la serie puede llevar a regresiones falsamente significati-
vas, mientras que la sobrediferenciación, aunque es ineficiente, produce estimadores insesgados
y consistentes.
29
En un estudio realizado por Nelson y Plosser (1982) se analizaron 14 series macroeconómi-
cas de los Estados Unidos, en las que se encontraban el PIB real, el PIB nominal, la tasa de
desempleo, un ı́ndice de precios de acciones, entre otras. Se concluyó que no bastaba con ajustar
polinomios para obtener una serie estacionaria a partir de alguna de estas 14 series, pero que si
se aplicaba una diferencia sı́ se obtenı́an series estacionarias.
La presencia de una raı́z unitaria ocasiona que el error estándar de los pronósticos y la va-
rianza del proceso crezcan hacia el infinito.
Raı́z unitaria en el proceso AR(1)
Considérese el proceso AR(1) de la forma
Xt = φ Xt−1 + εt (2.2)
Reescribiendo a través del operador retardo
εt = Xt − φ Xt−1
= Xt − φ BXt−1
= (1 − φ B)Xt
Que expresado a través del polimio caracterı́stico φ (B) tiene la forma
εt = φ (B)Xt (2.3)
Donde φ (B) = 1 − φ B es una función lineal de B. Igualando a 0, se obtiene que su raı́z es

B = 1/φ .
De ahı́ que si φ = 1 entonces B = 1, por lo que la raı́z del polinomio caracterı́stico estarı́a
dentro del cı́rculo unitario, lo cual implica a su vez que el proceso AR(1) no es estacionario. En
el caso B = 1 se dice que el proceso AR(1) tiene una raı́z unitaria.
El razonamiento anterior implica que los siguientes enunciados son equivalentes:
El proceso AR(1) no es estacionario.
30
El proceso AR(1) tiene una raı́z unitaria.
B=1
φ ≥1
Entonces, la estacionariedad del proceso AR(1) se puede analizar a través del valor de φ .
Suponiendo que φ = 1, a partir de la ecuación (2.1) se obtiene:
Xt − Xt−1 = ∆Xt = εt .
Donde εt es un proceso estacionario, debido a que es un ruido blanco. Luego, se dice que Xt es
integrada de orden uno, denotado como Xt ∼ I(1), ya que para obtener una serie estacionaria
derivada de Xt solamente fue necesaria una diferencia.
Una serie que es estacionaria sin necesidad de aplicar diferencias es conocida como integra-
da de orden cero y se denota como Xt ∼ I(0).
Definición 2.1.1 Sea Xt una serie de tiempo. Se dice que Xt es integrada de orden n, denotado
como Xt ∼ I(n), cuando al aplicarle n-diferencias se obtiene una serie estacionaria.
Raı́z unitaria en el proceso AR(2)
Considérese ahora el modelo AR(2) definido como
Xt = φ1 Xt−1 + φ2 Xt−2 + εt
O bien
φ2 (B)Xt = εt
Donde
φ2 (B) = 1 − φ1 B − φ2 B2
Dado que el polinomio φ2 (B) es cuadrático, entonces la condición de estacionariedad es que am-
bas raı́ces, r1 y r2 , sean mayores que uno en valor absoluto. En el caso en que alguna (o ambas)
31
raı́ces sean imaginarias, la condición de estacionariedad es que la norma del número complejo
sea mayor que uno en valor absoluto.
Supóngase que el proceso AR(2) tiene una raı́z unitaria (r2 = 1). Escribiendo al polinomio
caracterı́stico como:
φ2 (B) = (1 − α1 B)(1 − α2 B),
1 1
donde α1 = y α2 = = 1 y suponiendo que |r1 | > 1 se sigue |α1 | < 1 y
r1 r2
φ2 (B)Xt = (1 − α1 B)(1 − B)Xt = (1 − α1 B)∆Xt = ∆Xt − α1 ∆Xt−1 = εt
De aquı́ que
∆Xt = α1 ∆Xt−1 + εt (2.4)
donde |α1 | < 1, luego ∆Xt es estacionario, o lo que es igual, ∆Xt ∼ I(0). Esto quiere decir que
cuando el proceso AR(2) tiene una raı́z unitaria basta con aplicar una diferencia para obtener
una serie estacionaria.
Si el proceso AR(2) tiene dos raı́ces unitarias, r1 = 1 y r2 = 1, entonces |α1 | = |α2 | = 1, por
lo que el polinomio caracterı́stico se reduce a
φ2 (B) = (1 − B)(1 − B) = (1 − B)2
luego
φ2 (B)Xt = (1 − B)2 Xt
= Xt − Xt−1 − Xt−1 + Xt−2
= ∆Xt − ∆Xt−1
= ∆2 Xt
= εt ,
de aquı́, se observa que

∆Xt = ∆Xt−1 + εt
32
donde el coeficiente de ∆Xt−1 es igual a 1, consecuentemente ∆Xt ∼ I(1). Por otro lado, ∆2 Xt = εt
es generado por un ruido blanco, el cual es un proceso estacionario, luego ∆2 Xt ∼ I(0). Entonces,
se deben aplicar dos diferencias para obtener una serie estacionaria a partir de Xt , o lo que es
igual, Xt ∼ I(2).
2.2. Prueba de Dickey-Fuller

La prueba de Dickey-Fuller (1979) es una prueba para raı́ces unitarias y debe su nombre
a quienes la desarrollaron. Está basada en el supuesto empı́rico de que una serie de tiempo se
puede aproximar a través de un proceso AR(1).
Sea el proceso AR(1) definido como
Xt = φ Xt−1 + εt , t = 0, 1, 2, . . . (2.5)
donde se asume que x0 es un valor fijo inicial del proceso y εt es un proceso de ruido blanco.
Se desea verificar si |φ | = 1, ya que esto implicarı́a que Xt tiene una raı́z unitaria, por lo que
las hipótesis de la prueba son:
H0 : |φ | = 1 vs. H1 : |φ | < 1
Ya que bajo la hipótesis nula el proceso es una caminata aleatoria, y si se rechaza la hipótesis
nula se concluye que el proceso es estacionario.
Estadı́stico de prueba
El estadı́stico clásico para la prueba de Dickey-Fuller se obtiene a través del estimador de

mı́nimos cuadrados ordinarios para φ . Sean n observaciones del proceso AR(1):
xi = φ xi−1 + εi i = 1, 2, . . . , n. (2.6)
33
Si se deseara obtener una estimación de un valor futuro a partir de (2.6) se obtendrı́a un
modelo cuya estimación futura no contempla al término error, y que se expresa como:
x̂i = φ̂ xi−1 (2.7)
Entonces el error de estimación, que es la diferencia entre el valor real y el valor estimado
del modelo se determina a través de:
εi = xi − x̂i = xi − φ̂ xi−1 (2.8)
El estimador de mı́nimos cuadrados para φ se calcula a través del valor que minimiza la
suma de los cuadrados de los errores. Calculando:
n
SCE = ∑ εi2
i=1
n
= ∑ (xi − φ̂ xi−1 )2
i=1
n
= ∑ (xi2 − 2φ̂ xi xi−1 + φ̂ 2 xi−1
2
)
i=1
Derivando con respecto a φ̂ para obtener el mı́nimo de la suma de cuadrados:
∂ SCE ∂ ∑ni=1 εi2

=
∂ φ̂ ∂ φ̂
∂ ∑ni=1 (xi2 − 2φ̂ xi xi−1 + φ̂ 2 xi−1
2 )
=
∂ φ̂
n ∂ (x2 − 2φ̂ x x 2 2
i i i−1 + φ̂ xi−1 )
=∑
i=1 ∂ φ̂
n
2
= ∑ (−2xi xi−1 + 2φ̂ xi−1 )
i=1
Igualando a 0 y resolviendo con respecto a φ̂ para hallar el punto crı́tico:

n n
2
0 = −2 ∑ xi xi−1 + 2φ̂ ∑ xi−1
i=1 i=1
n n
2
2φ̂ ∑ xi−1 = 2 ∑ xi xi−1
i=1 i=1
34
∑ni=1 xi xi−1
φ̂ =
∑ni=1 xi−1
2
Calculando la segunda derivada de la suma de cuadrados de los errores para verificar que el
punto crı́tico sea un mı́nimo:

∂ SCE
∂ 2 SCE ∂ ∂ φ̂
=
∂ φ̂ 2 ∂ φ̂
∂ ∑ni=1 (−2xi xi−1 + 2φ̂ xi−1
2 )
=
∂ φ̂
n 2 )
∂ (−2xi xi−1 + 2φ̂ xi−1
=∑
i=1 ∂ φ̂
n
2
= ∑ 2xi−1
i=1
n
2
= 2 ∑ xi−1
i=1
∂ 2 SCE
El cuadrado de las observaciones siempre es positivo, por lo que ∂ φ̂ 2
> 0, lo cual significa
que se cumple el criterio de la segunda derivada, es decir, el estadı́stico:
∑ni=1 xi xi−1
φ̂ = (2.9)
∑ni=1 xi−1
2
es el que minimiza la suma de cuadrados de los errores, por lo que es el estimador por mı́nimos
cuadrados para φ .
A partir de la ecuación (2.9) y bajo la hipótesis nula se obtiene:
∑ni=1 xi xi−1
φ̂ − 1 = −1
∑ni=1 xi−1
2
∑ni=1 xi xi−1 − ∑ni=1 xi−1

2
=
∑ni=1 xi−1
2
∑n xi−1 (xi − xi−1 )

= i=1 n 2
∑i=1 xi−1
n
∑ xi−1 εi
= i=1
∑ni=1 xi−1
2
Multiplicando la expresión anterior por n:
35
!
1 n
∑ni=1 xi−1 εi n ∑i=1 xi−1 εi
τ = n(φ̂ − 1) = n = (2.10)
∑ni=1 xi−1
2 1 n
x2
n2 ∑i=1 i−1
El estadı́stico τ es el estadı́stico de Dickey-Fuller que se utiliza para una prueba de raı́ces
unitarias. La distribución del estadı́stico se puede obtener a través de la solución de una ecuación
diferencial estocástica, y los valores crı́ticos tabulados se pueden encontrar en (Fuller, 1996).
Deriva y tendencia
Para la construcción del estadı́stico τ se supuso que la ecuación que genera el modelo no
contenı́a ni intercepto ni tendencia con respecto al tiempo. Sin embargo, a través de análisis
posteriores hechos por Dickey y Fuller se llegó a la conclusión de que era necesario considerar
incluir estos dos conceptos al momento de ajustar los modelos.
Es por ello que surgieron variantes del estadı́stico τ a partir de los siguientes tres modelos:
Xt = φ Xt−1 + εt , t = 1, 2, . . . (2.2.11)
Xt = α + φ Xt−1 + εt , t = 1, 2, . . . (2.2.12)
Xt = α + βt + φ Xt−1 + εt , t = 1, 2, . . . (2.2.13)
Donde para cada ecuación se supone que εt es un proceso de variables aleatorias indepen-
dientes e idénticamente distribuidas.
Si |φ | < 1 entonces:
El modelo (2.2.11) es un proceso AR(1) estacionario de media cero.

α
El modelo (2.2.12) es un proceso AR(1) estacionario de media
1−φ
El modelo (2.2.13) es un proceso AR(1) estacionario con una tendencia lineal, si β 6= 0.
Por otro lado, si φ = 1 entonces:
En el modelo (2.2.11), Xt es integrado de orden uno y es una caminata aleatoria sin deriva.
36
En el modelo (2.2.12), Xt es integrado de orden uno y es una caminata aleatoria con deriva.
En el modelo (2.2.13), Xt es integrado de orden uno y es una caminata aleatoria con deriva
y con tendencia.
Para poder aplicar una prueba de raı́ces unitarias se debe considerar que la serie a estudiar
puede seguir cualquiera de los modelos (2.2.11), (2.2.12) o (2.2.13), por lo que es necesario
aplicar un procedimiento secuencial en el que se pueda probar al mismo tiempo la presencia de
una raı́z unitaria y la presencia de un intercepto y/o una tendencia. Esto conlleva a variantes del
estadı́stico τ, los cuales se pueden encontrar en (Dickey y Fuller, 1979):
1. Bajo la hipótesis nula de que el modelo que sigue el proceso es el (2.2.11), se construyó
el estadı́stico τ1 .
Las distribuciones lı́mite de los estadı́sticos τ1 , τ2 y τ3 no son distribuciones conocidas. Los

valores crı́ticos son calculados a través de simulaciones y se encuentran en Fuller (1996). Sin
embargo, existen dos casos particulares importantes:
1. Si los datos siguen el modelo (2.2.12) con α 6= 0, entonces la distribución lı́mite del es-
tadı́stico τ2 sigue una normal estándar.
2. Si los datos siguen el modelo (2.2.13) con β 6= 0, entonces la distribución lı́mite de los
estadı́sticos τ2 y τ3 siguen una normal estándar.
Más aún, Dickey y Fuller (1981) proporcionaron tres estadı́sticos adicionales basados en la
prueba F de Fisher, denotados por Φ1 , Φ2 y Φ3 , para probar hipótesis conjuntas de los coefi-
cientes α, β y φ .
El estadı́stico Φ1 se construyó para probar la hipótesis nula de que la serie sigue un proceso
AR(1) con raı́z unitaria y sin deriva.
37
AR(1) con una raı́z unitaria, sin tendencia ni deriva.
AR(1) con una raı́z unitaria sin tendencia, independientemente del término deriva.
La Tabla 2.1 resume al conjunto de pruebas que pueden ser aplicadas a partir de los estadı́sti-
cos que desarrollaron Dickey y Fuller (1979, 1981):
Modelo H0 H1 Estadı́stico Supuestos*
2.2.11 φ =1 φ <1 τ1 φ =1
2.2.12 φ =1 φ <1 τ2 (α, φ ) = (0, 1)
2.2.12 (α, φ ) = (0, 1) (α, φ ) 6= (0, 1) Φ1 (α, φ ) = (0, 1)
2.2.13 φ =1 φ <1 τ3 (α, β , φ ) = (0, 0, 1)
2.2.13 (α, β , φ ) = (0, 0, 1) (α, β , φ ) 6= (0, 0, 1) Φ2 (α, β , φ ) = (0, 0, 1)
2.2.13 (α, β , φ ) = (α, 0, 1) (α, β , φ ) 6= (α, 0, 1) Φ3 (α, β , φ ) = (0, 0, 1)
Tabla 2.1: Pruebas de Dickey-Fuller.
*En la Tabla 2.1 la columna ”Supuestos”se refiere a los supuestos necesarios para el cálculo
de los valores crı́ticos tabulados de cada estadı́stico.
Las pruebas τ1 ,τ2 y τ3 son de cola izquierda, por lo que se rechaza la hipótesis nula cuando
el estadı́stico calculado es menor que el valor crı́tico. Las pruebas Φ1 , Φ2 y Φ3 son de dos co-
las, por lo que se rechaza la hipótesis nula cuando el valor absoluto del estadı́stico calculado es
mayor que el valor crı́tico.
Resulta natural preguntarse, ¿cuál es el estadı́stico más adecuado para probar la estaciona-
riedad de una serie en particular? La respuesta no es trivial y será discutida en la sección (2.4).
38
2.3. Prueba de Dickey-Fuller aumentada
Dickey y Fuller continuaron trabajando para realizar una versión mejorada de su prueba
de raı́ces unitarias, partiendo ahora del supuesto empı́rico de que una serie de tiempo se pue-
de aproximar a través de un proceso AR(p), dando lugar a lo que se conoce como prueba de
Dickey-Fuller aumentada.
Primero, obsérvese que es posible plantear la prueba de Dickey-Fuller clásica a través de la

siguiente reparametrización de un proceso AR(1), considerando γ = φ − 1:
Xt = φ Xt−1 + εt
Xt = (γ + 1)Xt−1 + εt
Xt = γXt−1 + Xt−1 + εt
∆Xt = γXt−1 + εt
Entonces, las hipótesis a probar pasarı́an a ser:
H0 : γ = 0 vs. H1 : γ < 0
Ya que si γ = 0, se sigue que el proceso ∆Xt = εt es I(0), lo cual lleva a concluir que Xt es
I(1), o lo que es igual, Xt tiene una raı́z unitaria.
Ahora, sea el proceso AR(p) definido a través de
Xt = φ1 Xt−1 + · · · + φ p−2 Xt−p+2 + φ p−1 Xt−p+1 + φ p Xt−p + εt
Sumando y restando φ p Xt−p+1 se obtiene
Xt = φ1 Xt−1 + · · · + φ p−2 Xt−p+2 + φ p−1 Xt−p+1 + φ p Xt−p + εt + φ p Xt−p+1 − φ p Xt−p+1
= φ1 Xt−1 + · · · + φ p−2 Xt−p+2 + (φ p−1 + φ p )Xt−p+1 − φ p ∆Xt−p+1 + εt
Luego, sumando y restando (φ p−1 + φ p )Xt−p+2
39
Xt = φ1 Xt−1 + · · · + φ p−2 Xt−p+2 + (φ p−1 + φ p )Xt−p+1 − φ p ∆Xt−p+1 + εt
+ (φ p−1 + φ p )Xt−p+2 − (φ p−1 + φ p )Xt−p+2
= φ1 Xt−1 + · · · + (φ p−2 + φ p−1 + φ p )Xt−p+2 − (φ p−1 + φ p )∆Xt−p+2
− φ p ∆Xt−p+1 + εt
Y continuando de esa forma se obtiene:
p
∆Xt = γXt−1 + ∑ βi ∆Xt−i+1 + εt (2.3.1)
i=2
p
donde γ = −(1 − ∑i=1 φi ) y βi = − ∑ pj=i φ j .
Nótese que en el modelo (2.3.1) el término ∆Xt está explicado a través de los valores ponde-
rados de Xt−1 , ∆Xt−1 , ∆Xt−2 ,..., ∆Xt−p+1 . Si el coeficiente γ fuese igual a 0, entonces el modelo
estarı́a definido en términos de primeras diferencias y un proceso estacionario, por lo que ∆Xt
serı́a al menos I(0), lo cual implica que Xt tendrı́a al menos una raı́z unitaria.
Dickey y Fuller (1981) demostraron que el estadı́stico para probar la hipótesis nula γ = 0
tiene la misma distribución asintótica que el estadı́stico τ de la prueba Dickey-Fuller clásica.
Esto implica que los valores crı́ticos tabulados para la prueba de Dickey-Fuller aumentada son
iguales a los valores crı́ticos asociados al estadı́stico τ.
Es posible generalizar el razonamiento anterior para verificar que en la prueba de Dickey-

Fuller aumentada también se pueden adicionar los términos deriva y tendencia, resultando en
los estadı́sticos Φ1 , Φ2 y Φ3 .
2.4. Procedimiento secuencial para la aplicación de la prueba

de Dickey-Fuller aumentada
Debido a que existen diferentes variantes de la prueba de Dickey-Fuller aumentada, diversos
autores proponen distintas secuencias para la aplicación de ésta. A pesar de las diferencias que
40
se encuentran en las secuencias el objetivo es el mismo, poder determinar, a un nivel de signifi-
cancia dado, si la serie en cuestión tiene una raı́z unitaria.
En particular, el procedimiento que se presentará puede consultarse en (Rao, 1994), aunque

esta versión difiere ligeramente en el orden de las pruebas. Los pasos se encuentran enumerados
y el objetivo es poder considerar todas las posibles combinaciones de las pruebas con deriva y/o
tendencia.
Paso 1: Estima la ecuación:
q
xt = α + βt + φ xt−1 + ∑ θi ∆xt−i + εt
i=1
Paso 2: Utilice al estadı́stico Φ3 para probar:
H0 : (α, β , φ ) = (α, 0, 1) vs. H1 : (α, β , φ ) 6= (α, 0, 1)
1. Si la hipótesis nula es rechazada ve al paso 3.
2. Si la hipótesis nula no es rechazada ve al paso 7.
Paso 3: Utilice al estadı́stico τ3 con los valores crı́ticos de una distribución normal estándar
para probar:
H0 : φ = 1 vs. H1 : φ < 1
2. Si la hipótesis nula no es rechazada se concluye que la serie tiene una raı́z unitaria y
tendencia.
Paso 4: Utilice el estadı́stico t de Student para probar
H0 : β = 0 vs. H1 : β 6= 0
41
H0 : α = 0 vs. H1 : α 6= 0
1. Si la hipótesis nula es rechazada se concluye que la serie es estacionaria con deriva

y con tendencia.
2. Si la hipótesis nula no es rechazada se concluye que la serie es estacionaria sin deriva

y con tendencia.
H0 : α = 0 vs. H1 : α 6= 0
1. Si la hipótesis nula es rechazada se concluye que la serie es estacionaria con deriva

y sin tendencia.
2. Si la hipótesis nula no es rechazada se concluye que la serie es estacionaria sin deriva

y sin tendencia.
Paso 7: Suponga que β = 0 y utilice al estadı́stico τ3 con los valores crı́ticos tabulados
para probar:
H0 : φ = 1 vs. H1 : φ < 1
1. Si la hipótesis nula es rechazada se concluye que la serie es estacionaria y sin ten-

dencia.
Paso 8: Utilice al estadı́stico Φ2 para probar:
H0 : (α, β , φ ) = (0, 0, 1) vs. H1 : (α, β , φ ) 6= (0, 0, 1)
1. Si la hipótesis nula es rechazada se concluye que la serie tiene una raı́z unitaria, ası́
como deriva y tendencia.
Paso 9: Suponga que β = 0 y utilice al estadı́stico Φ1 para probar:
H0 : (α, φ ) = (0, 1) vs. H1 : (α, φ ) 6= (0, 1)
42
1. Si la hipótesis nula es rechazada se concluye que la serie es estacionaria sin tendencia
y con deriva.
2. Si la hipótesis nula no es rechazada se concluye que la serie tiene una raı́z unitaria,
sin tendencia y sin deriva.
Para facilitar la correcta aplicación del procedimiento secuencial se le presenta al lector la

Figura 2.4, que es un diagrama que incluye de manera ordenada los estadı́sticos a aplicar, las
hipótesis a probar y las distintas conclusiones que se pueden obtener.
A pesar de que la prueba de Dickey-Fuller aumentada tiene un fundamento teórico robus-

to y bien desarrollado, existen ciertos detalles que deben ser considerados al momento de su
aplicación:
La prueba de Dickey-Fuller fue desarrollada para probar la presencia de solamente una

raı́z unitaria, pero la serie en cuestión pudiese tener dos o más raı́ces unitarias. En éste
caso se tendrı́an que aplicar las pruebas a la serie diferenciada, como señalan Dickey y
Pantula (1987).
No se toma en consideración la posible existencia de un componente estacional, esto es,

que los valores que tome la serie tiendan a repetirse cada cierto periodo de tiempo. Esto se
podrı́a observar en una serie cuyos valores sean mediciones de la temperatura ambiente,
es evidente que en los meses de verano las temperaturas casi tenderán a ser altas, mientras
que en diciembre tenderán a ser bajas.
Es posible que la serie a analizar no se pueda aproximar a través de un proceso AR(p),

pues existe la serie analizada contenga tantos términos autorregresivos como términos de
medias móviles. En éste caso, se puede utilizar un resultado probado por Said y Dickey
(1984) , que señala que un proceso ARIMA(p, 1, q), donde los parámetros p y q son
1
desconocidos, puede ser aproximado por un ARIMA(m, 1, 0) para m ≤ n 3 , donde n es el
número de observaciones.
Por último, para estimar al parámetro γ en la ecuación (2.3.1) no se conoce el verdade-

ro valor de p, ya que el orden del proceso autorregresivo es desconocido, entonces, es
43
necesario determinar el número adecuado de lags a incluir. Para ello, es útil señalar al
resultado probado por Sims, Stock y Watson (1990), qué dice la distribución de los esti-
madores de los coeficientes βi converge a una t de Student, bajo el supuesto de que las
variables ∆Xt−i+1 son estacionarias con media cero y que εt es un proceso ruido blanco.
Luego, es posible aplicar pruebas t individuales sobre cada parámetro, ası́ como pruebas
F a conjuntos formados por los coeficientes βi .
44
Figura 2.4: Diagrama del procedimiento secuencial para la prueba de Dickey-Fuller aumentada.
45
Capı́tulo 3
Procesos cointegrados
En este capı́tulo se introduce la definición de cointegración, el modelo de corrección de

errores y el modelo de corrección de errores vectorial, junto con el concepto de causalidad en el
sentido de Granger.
Se presenta el procedimiento de Engle-Granger, que es una secuencia de pasos para identi-

ficar si un par de series integradas de orden uno están cointegradas, ası́ como también el pro-
cedimiento de Johansen, como una generalización que permite identificar relaciones de cointe-
gración entre dos o más series. También se introduce la prueba Henze-Zinkler para normalidad
multivariada.
3.1. Cointegración
Las series económicas y financieras frecuentemente presentan relaciones entre ellas debido
en parte a la naturaleza de los mercados. Hoy en dı́a, el internet ha hecho posible transmitir
información desde un extremo del planeta a otro casi instantáneamente, y estos cambios tan
rápidos ocasionan que una variable sea afectada por muchos factores. Las decisiones polı́ticas,
las tendencias de consumo y muchas otras cuestiones impactan de una manera importante a
prácticamente todas las variables de la economı́a.
46
Analizar los valores pasados de una serie aplicando la metodologı́a Box-Jenkins puede pro-
ducir pronósticos confiables, pero tomar en cuenta alguna otra variable de importancia podrı́a
enriquecer las proyecciones.
Considérese, por ejemplo, un modelo que relaciona el cambio en el valor del consumo de
una población ∆Ct en función del cambio en su ingreso ∆It :
∆Ct = α∆It + εt (3.1.1)
Donde α es un parámetro positivo y εt es un proceso ruido blanco.
En la ecuación (3.1.1) el cambio en el consumo de un periodo ∆Ct de tiempo al siguiente

está explicado por un valor ponderado del cambio en el ingreso ∆It en el mismo periodo de
tiempo. Entonces, un cambio positivo en el ingreso implicarı́a un incremento en el consumo,
sin importar si el gasto que ya se haya realizado fue muy grande o muy pequeño. Esto serı́a un
enfoque poco realista.
El modelo se puede compensar si se toma en cuenta un valor ponderado de los valores que
tomaron las variables Ct e It una periodo de observación antes, de tal forma que:
∆Ct = α∆It + θ (Ct−1 − It−1 ) + εt (3.1.2)
En la literatura, a un proceso que tiene la forma de la ecuación (3.1.2) se le conoce como me-
canismo de correción de errores, y se abrevia como ECM, pues proviene del término en inglés
error correction mechanism.
En la sección (2.1) fue señalado que una gran cantidad de variables macroeconómicas son
I(1), entonces se puede suponer que tanto Ct como It son I(1), implicando que ∆Ct ∼ I(0) y
∆It ∼ I(0). En general, una combinación lineal de variables I(1) es también I(1), consecuente-
mente, θ (Ct−1 − It−1 ) ∼ I(1).
Luego, la parte derecha del modelo (3.1.2) es una combinación de dos variables I(0) y una
variable I(1):
47
∆C = α∆I + θ (C − I ) + et
|{z}t |{z}t | t−1{z t−1} |{z}
I(0) I(0) I(1) I(0)
Esto podrı́a analizarse a través de una relación entre los órdenes de integración, o una coin-
tegración, entre las variables. La pregunta de interés es, ¿bajo qué condiciones una combinación
lineal de variables no estacionarias es I(0)?
Engle y Granger (1987) introdujeron el concepto de cointegración. En su trabajo desarro-

llaron un análisis de las relaciones entre series de tiempo con el mismo orden de integración
y propusieron resultados que en conjunto con otros teoremas llevaron a un procedimiento para
determinar si una combinación lineal de series no estacionarias es estacionaria. Engle y Granger
compararon varios estadı́sticos y dieron pie a desarrollar nuevos modelos y metodologı́as.
Definición 3.1.1 Se dice que los componentes del vector Xt = (X1t , X2t , · · · , Xnt )0 están cointe-
grados de orden d,b, denotado como Xt ∼ CI(d, b) si:
1. Todos los componentes de Xt son integrados de orden d.
2. Existe un vector β = (β1 , β2 , · · · , βn ) llamado vector cointegrante, de tal forma que la

combinación lineal βXt = β1 X1t + β2 X2t + · · · + βn Xnt es integrada de orden (d − b), con
b > 0.
Algunas observaciones importantes de la definición que propusieron Engle y Granger son:
El vector cointegrante no es único. Si (β1 , · · · , βn ) es un vector cointegrante, entonces

(λ β1 , · · · , λ βn ) con λ 6= 0 también lo es.
Todos los componentes del vector Xt deben tener el mismo orden de integración.
Si Xt tiene n componentes, entonces existen a lo más n − 1 vectores cointegrantes lineal-

mente independientes. Al número de vectores cointegrantes se le conoce como rango de
cointegración de Xt .
48
3.2. El modelo VECM
Una generalización del modelo ECM es el modelo de corrección de errores vectorial, abre-
viado como VECM, que son las siglas de vector error correction model (Engle y Granger, 1987).
Un vector aleatorio Xt = (X1t , X2t , · · · , Xnt )0 tiene una representación VECM(p) si puede ser ex-
presado en la forma:
∆Xt = µ + ΓXt−1 + Γ1 ∆Xt−1 + Γ2 ∆Xt−2 + · · · + Γ p ∆Xt−p + t (3.2.1)
donde:
µ es un vector de interceptos de dimensión n × 1.
Γi son matrices de coeficientes de dimensión n × n.
Γ es una matriz de dimensión n × n con elementos π jk tal que al menos uno de ellos es
distinto de cero.
t es un vector de residuales de dimensión n × 1.
En particular, cuando Xt ∼ CI(1, 1), el VECM(p) se expresa como:
∆Xt = µ + αβXt−1 + Γ1 ∆Xt−1 + Γ2 ∆Xt−2 + · · · + Γ p ∆Xt−p + t (3.2.2)
Donde α es un vector de coeficientes de dimensión (n × 1), β es el vector cointegrante y las Γi

son matrices de coeficientes de dimensión (n × n) (Juselius, 2007). Resulta interesante notar que
en la ecuación (3.2.2) todos los términos son estacionarios, pues βXt−1 ∼ I(0) y ∆Xt−i ∼ I(0),
para i = 0, 1, · · · , p.
No es difı́cil notar que un VECM(p) guarda cierto parecido a un modelo VAR(p) en dife-
rencias (ver Apéndice A), pero incluyendo al término αβXt−1 .
Sea el proceso VECM(p) definido de acuerdo a la expresión (3.2.2):
∆Xt = µ + αβXt−1 + Γ1 ∆Xt−1 + Γ2 ∆Xt−2 + · · · + Γ p ∆Xt−p + t
Xt − Xt−1 = µ + αβXt−1 + Γ1 (Xt−1 − Xt−2 ) + Γ2 (Xt−2 − Xt−3 )
+ · · · + Γ p−1 (Xt−(p−1) − Xt−p ) + Γ p (Xt−p − Xt−(p+1) ) + t
49
Luego:
Xt = µ + αβXt−1 + Xt−1 + Γ1 Xt−1 − Γ1 Xt−2 + Γ2 Xt−2 − Γ2 Xt−3
+ · · · + Γ p−1 Xt−(p−1) − Γ p−1 Xt−p + Γ p Xt−p − Γ p Xt−(p+1) + t
= µ + (αβ + Γ1 + 1)Xt−1 + (Γ2 − Γ1 )Xt−2 + · · · + (Γ p − Γ p−1 )Xt−p
− Γ p Xt−(p+1) + t
Reparametrizando y sustituyendo A1 = αβ + Γ1 + 1, Ai = Γi − Γi−1 , para i = 2, 3, · · · , p y

A p+1 = −Γ p , se cumple que:
Xt = µ + A1 Xt−1 + A2 Xt−2 + · · · + A p Xt−p + A p+1 Xt−(p+1) + t (3.2.3)
De la ecuación (3.2.3) se deduce un modelo VECM(p) es una reparametrización de un mo-

delo VAR(p + 1).
Ciertas restricciones en las matrices de coeficientes del proceso (3.2.3) deben ser impuestas
para asegurar que el proceso se puede expresar en términos de innovaciones previas, que los
estimadores de las matrices son convergentes y que el proceso es estacionario. A un proceso
VAR(p + 1) que cumple con los supuestos anteriores se le conoce como proceso VAR(p + 1)
estable, pero no es el objetivo definirlos en este trabajo.
Si un proceso VAR(p + 1) es estable y además está formado por series que están cointe-
gradas entonces se le conoce como modelo VAR cointegrado. Una buena referencia para seguir
investigando acerca de los procesos VAR estables es (Lütkepohl, 2005).
Existe un resultado fuerte y muy útil conocido como Teorema de la representación de Gran-
ger que fue demostrado y publicado en el artı́culo Engle y Granger (1987). De este teorema
se deducen varios resultados y es básicamente la fundamentación teórica del porqué existe una
relación directa entre la cointegración, el modelo VECM(p) y el modelo VAR(p + 1).
50
Teorema 3.2.1 (Teorema de la Representación de Granger) Sea el proceso vectorial Yt de
dimensión n × 1, tal que Yt ∼ I(1) y supóngase que existen exactamente r relaciones de cointe-
gración entre los elementos de Yt . Entonces existe una matriz A de dimensión n × r cuyas filas
son linealmente independientes tal que el vector Zt definido por:
Zt = A0 Yt
es estacionario. Si además el proceso Yt puede expresarse como un proceso VAR(p), entonces

existe una matriz B de dimensión n × r tal que:
φ (1) = BA0
donde φ (1) = In − φ1 B, con φ1 siendo una matriz de dimensión n × n y B es el operador retardo.

Más aún, existen matrices Γ1 ,Γ2 ,· · · , Γ p−1 de dimensión n × n y un vector α de dimensión n × 1
con interceptos, tales que:
∆Yt = α − BZt−1 + Γ1 ∆Yt−1 + · · · + Γ p−1 ∆Yt−p+1 + t
que es la representación del modelo de corrección de errores vectorial.
La demostración del Teorema de la Representación de Granger se encuentra en Engle y

Granger (1987).
Definiendo al término que guarda la relación de cointegración como:
ECTt−1 = βXt−1 = β1 X1t−1 + β2 X2t−1 + · · · + βn Xnt−1
donde ECT son las siglas de error correction term, también es posible escribir al VECM(p) de
la forma:
∆Xt = µ + αECTt−1 + Γ1 ∆Xt−1 + Γ2 ∆Xt−2 + · · · + Γ p ∆Xt−p + t , (3.2.4)
bajo los supuestos dados para obtener la ecuación (3.2.2).
En el modelo (3.2.4) es posible interpretar al término αECTt−1 como el que mantiene la

relación de cercanı́a del comportamiento entre las variables cointegradas.
51
3.3. Procedimiento de Engle-Granger
Engle y Granger (1987) propusieron un procedimiento para probar si dos series con orden
de integración uno están cointegradas. A continuación se presenta una versión más amigable del
propuesto en Enders (2014).
Sean Xt y Yt dos series de las que se desea probar si existe una relación de cointegración.
Paso 1. Determine si Xt y Yt son I(1).
Paso 2. Estime la ecuación

Yt = a + β1 Xt + εt ,
y pruebe si los residuales εt son estacionarios, utlizando el estadı́stico Engle-Yoo (1987),

pero comparando con los valores crı́ticos tabulados por MacKinnon (1991).
Paso 3. Estime el modelo de corrección de errores.
Paso 4. Realice la validación del modelo.
Para efectuar el paso 1, es necesario recurrir a la prueba de Dickey-Fuller aumentada, pues

a través de ella se puede determinar si las series ∆Xt y ∆Yt son estacionarias, concluyendo que
Xt ∼ I(1) y Yt ∼ I(1). Es recomendable aplicar el procedimiento secuencial presentado en la
Sección 2.4, con el fin de cerciorarse de que las conclusiones son las correctas.
El paso 2 es estimar el modelo:
Yt = a + β1 Xt + εt (3.3.1)
a través de mı́nimos cuadrados ordinarios, donde un resultado interesante es que si las variables
están cointegradas, los estimadores de los parámetros a y β1 son superconsistentes, pues con-
vergen más rápido a los valores verdaderos que los estimadores de mı́nimos cuadrados usando
series de tiempo estacionarias (Enders, 2014).
52
Después, es necesario probar si los residuales εt son estacionarios. Sin embargo, debido a
que los εt son generados a través de la ecuación (3.3.1), no se conocen los verdaderos valores,
solamente se tienen los residuales estimados εˆt , y dado que mı́nimos cuadrados selecciona los
valores â y βˆ1 para los cuales la suma de cuadrados de los residuales es mı́nima, entonces existe
una predisposición a encontrar que εt es estacionario.
Dado el razonamiento anterior, probar la estacionariedad de los residuales con una prueba
Dickey-Fuller aumentada es incorrecto. Engle y Yoo (1987) propusieron un estadı́stico y calcu-
laron valores crı́ticos para probar si los residuales εt son estacionarios. Sin embargo, MacKinnon
(1991) señaló que dado que el estadı́stico propuesto por Engle y Yoo no sigue una distribución
conocida ni de forma asintótica, entonces era necesario realizar un número mayor de simula-
ciones, por lo que propone una nueva tabla de valores crı́ticos, en términos de superficies de
respuesta. Para una prueba de cointegración según el procedimiento de Engle-Granger, deben
de utilizarse los valores crı́ticos de MacKinnon.
En la Sección 2.4 se mencionó que, si se quiere probar si una serie es estacionaria, se plantean
las hipótesis de la prueba de Dickey-Fuller aumentada de la forma:
H0 : φ = 1 vs. H1 : φ < 1
Donde φ es el parámetro de interés de un proceso AR(1). Luego, una manera de plantear las
hipótesis para probar la estacionariedad de εt es:
H0 : εt tiene una raiz unitaria vs. H1 : εt es un proceso estacionario
Lo anterior es equivalente, en el contexto de cointegración a las hipótesis:
H0 : Xt ,Yt CI(1, 1) vs. H1 : Xt ,Yt ∼ CI(1, 1)
Observe que el par de hipótesis anterior no es de la manera usual de planear hipótesis es-
tadı́sticas, dado que la hipótesis nula de una prueba para cointegración es que las series no están
cointegradas. Sin embargo, el origen del planteamiento de estas hipótesis yace en la forma en la
que se escriben las hipótesis de estacionariedad para εt .
53
El paso 3 es la estimación del VECM a través de las ecuaciones:
p 2p
∆Xt = µ1 + α1 ECTt−1 + ∑ γ1i ∆Xt−i + ∑ γ1i ∆Yt+p−i + ε1t (3.3.2)
i=1 i=p+1
p 2p
∆Yt = µ2 + α2 ECTt−1 + ∑ γ2i ∆Xt−i + ∑ γ2i ∆Yt+p−i + ε2t (3.3.3)
i=1 i=p+1
El paso 4 es la validación del modelo, que consiste en:
i) Verificar que los coeficientes µi , αi y γi j son distintos de cero, pudiendo ser aplicadas prue-
bas t individuales, según el trabajo de Sims, Stock y Watson (1990).
Puede darse el caso en el que las ecuaciones 3.3.2 y 3.3.3 sean ambas significativas, que
solamente una sea significativa o que ninguna sea significativa, lo cual va de la mano con el
concepto de causalidad de Granger. Se dice que una serie Xt causa en el sentido de Granger
a Yt si Xt ayuda a predecir a Yt en algún punto del futuro.
Supóngase que las ecuaciones 3.3.2 y 3.3.3 son ambas significativas, esto quiere decir que
Xt causa en el sentido de Granger a Yt , y que Yt causa en el sentido de Granger a Xt , esto se
puede representar como:
G G
Xt −
→ Yt y Yt −
→ Xt
Si ninguna de las series causa en el sentido de Granger a la otra, entonces existe la posibi-
lidad de que la relación de cointegración no sea verdadera, o que las series difieran en su
orden de integración.
ii) Probar que los residuales siguen una distribución normal multivariada.
Una prueba de normalidad multivariada no es trivial, pues diferentes autores han desarro-
llado su análisis con diferentes metodologı́as, lo que ha dado pie a alrededor de 50 pruebas
diferentes. Mecklin y Mundfrom (2005) realizaron una comparación vı́a simulación mon-
tecarlo de los errores tipo I y tipo II de las 13 pruebas que consideraron más prometedoras.
54
Dividieron a las pruebas en cuatro clases:
Enfoque en gráficas y correlaciones.
Enfoque en sesgo y curtosis.
Enfoque en bondad de ajuste.
Enfoque en consistencia.
Concluyeron que ninguna prueba resultó ser la más potente en todas las situaciones. Sin em-
bargo, si se tuviese que elegir una de entre todas las pruebas, y considerando las siguientes
caracterı́sticas como las más valiosas en una prueba de hipótesis:
Facilidad de cálculo y aplicación.
Potencia de prueba ante una gran variedad de distribuciones alternativas.
Propiedades matemáticas deseables como invarianza y consistencia.
entonces la prueba Henze-Zirkler (1990) serı́a la más adecuada.
La prueba Henze-Zirkler está basada en una función no negativa que mide la distancia entre
dos distribuciones, la distribución normal multivariada hipotética y la distribución observa-
da.
El estadı́stico de Henze-Zirkler tiene una distribución aproximadamente lognormal, y está

construido a partir de la siguiente función no negativa:
Z
Dβ (P, Q) = |P̂(t) − Q̂(t)|2 ϕβ (t)dt,
donde P̂(t) es la función caracterı́stica de la distribución normal multivariada hipotética,

Q̂(t) es la función caracterı́stica empı́rica, ϕβ es la función kernel N p (0, β 2 I p ) y β es un
parámetro de suavizamiento. Después de analizar distintos valores, Henze y Zinkler propu-
sieron utilizar β = 0.05.
55
Las hipótesis planteadas en la prueba son:
H0 : El vector t sigue una distribución normal multivariada
vs.
H1 : El vector t no sigue una distribución normal multivariada
Mecklin y Mundfrom (2005) sugirieron que, debido a que la prueba Henze-Zinkler no ayu-
da a determinar la razón de la no normalidad, si se rechaza la hipótesis nula se complemente
el análisis con gráficos y medidas multivariadas de sesgo y curtosis.
3.4. Procedimiento de Johansen

Aunque el procedimiento de Engle-Granger fue el primer método para modelar series coin-
tegradas, es importante señalar que tiene ciertos inconvenientes. Por ejemplo, en el paso 2, se
debe definir cuál es la variable dependiente y cuál es el variable independiente, pudiéndose lle-
gar a conclusiones diferentes dependiendo de la decisión.
Además, en el procedimiento de Engle-Granger no se considera la posibilidad de más de una

relación de cointegración, lo que motivó a matemáticos y economistas a continuar desarrollando
investigación referente a la cointegración.
Entre 1998 y 1992, Soren Johansen, reconocido econometrista Danés, realizó una serie pu-
blicaciones en las que probó resultados referentes al análisis estadı́stico de las series cointegradas
y que permitió generalizar el concepto y aplicar pruebas de hipótesis que permitiesen determi-
nar la existencia de más de una relación de cointegración. Al conjunto de pasos necesarios para
realizar este análisis se le conoce como Procedimiento de Johansen.
De una manera intuitiva, el procedimiento de Johansen se puede interpretar como una gene-
ralización de la prueba de Dickey-Fuller aumentada (Enders, 2014). En la sección 2.3 se señaló
56
que es posible plantear a la prueba de Dickey-Fuller clásica a través de la siguiente reparametri-
zación de un proceso AR(1), considerando γ = φ − 1:
∆Xt = γXt−1 + εt (3.4.1)
Entonces, las hipótesis a probar serı́an:
H0 : γ = 0 vs. H1 : γ < 0
Ahora si se considera el caso multivariado de un proceso VAR(1) generado por n series de

tiempo:
Xt = A1 Xt−1 + t
Reescribiendo:
Xt − Xt−1 = A1 Xt−1 − Xt−1 + t
∆Xt = (A1 − In )Xt−1 + t
∆Xt = ΠXt−1 + t
Luego, es de particular interés el analizar a la matriz Π. Supóngase que Ran(Π) = 0, esto

implica que Π es la matriz nula, luego:
∆Xt = t
Lo cual significa que los componentes (X1t , · · · , Xnt ) del proceso Xt son estacionarios al aplicar
una diferencia, o lo que es igual Xt ∼ I(1). Y dado que Xt es un proceso conformado por series
con raı́z unitaria y no se observa alguna combinación lineal de series que sea estacionaria, el
número de relaciones de cointegración es igual a 0.
Johansen (1988) enfocó su inferencia en el análisis de la matriz Π = αβ y probó que su

rango es igual al número de relaciones de cointegración que se encuentran en un conjunto de n
series de tiempo.
Más aún, es posible generalizar este resultado para el caso de un proceso VAR(p) de la
forma:
Xt = A1 Xt−1 + · · · + A p Xt−p + t (3.4.2)
57
Sumando y restando A p Xt−p+1 se obtiene:
Xt = A1 Xt−1 + · · · + A p−2 Xt−p+2 + A p−1 Xt−p+1 + A p Xt−p + εt + A p Xt−p+1 − A p Xt−p+1
= A1 Xt−1 + · · · + A p−2 Xt−p+2 + (A p−1 + A p )Xt−p+1 − A p ∆Xt−p+1 + t
Luego, sumando y restando (A p−1 + A p )Xt−p+2
Xt = A1 Xt−1 + · · · + A p−2 Xt−p+2 + (A p−1 + A p )Xt−p+1 − A p ∆Xt−p+1 + t
+ (A p−1 + A p )Xt−p+2 − (A p−1 + A p )Xt−p+2
= A1 Xt−1 + · · · + (A p−2 + A p−1 + A p )Xt−p+2 − (A p−1 + A p )∆Xt−p+2
− A p ∆Xt−p+1 + t
Y continuando de esa forma se obtiene:
p−1
∆Xt = ΠXt−1 + ∑ Πi∆Xt−i + t (3.4.3)
i=1
p p
donde Π = −(In − ∑ Ai ) y Πi = − ∑ A j.
i=1 j=i+1
Un resultado interesante de álgebra lineal dice que el rango de una matriz es igual al núme-
ro de sus eigenvalores distintos de cero (Enders, 2014). Luego, es posible ordenar de manera
descendiente a las raı́ces caracterı́sticas de la matriz Π tal que:
λ1 > λ2 > · · · λn
Supóngase que Ran(Π) = 0, esto implicarı́a que todas las raı́ces caracterı́sticas son iguales a
cero. Como ln(1) = 0, entonces ln(1 − λi ) = 0, con i = 1, 2, · · · , n.
Ahora, si Ran(Π) = 1, dado 0 < λ1 < 1 se cumple que ln(1 − λ1 ) < 0, y ln(1 − λi ) = 0, con
i = 2, 3, · · · , n.
Analizando el comportamiento de los valores ln(1 − λi ), Johansen (1991) desarrolló los

siguientes dos estadı́sticos:
58
1. El estadı́stico λtrace :
n
λtrace (r) = −k ∑ ln(1 − λ̂i ) (3.4.4)
i=r+1
Que se utiliza para probar las hipótesis:
H0 : r = i vs. H1 : r > i
Para i = 0, 1, · · · , n − 1, donde r es el número de relaciones de cointegración y k es el

número de observaciones.
2. El estadı́stico λmax :
λmax (r, r + 1) = −kln(1 − λ̂r+1 ) (3.4.5)
Que se utiliza para probar las hipótesis:
H0 : r = i vs. H1 : r = i + 1
Para i = 0, 1, · · · , n, donde r es el número de relaciones de cointegración y k es el número

de observaciones.
Dado que las hipótesis que se plantean en la construcción de los estadı́sticos son distintas,
existe la posibilidad de que las conclusiones sean diferentes, sin embargo, se debe preferir el
resultado que establece el estadı́stico λmax por tener una hipótesis alternativa más especı́fica
(Enders, 2014).
Si se tiene la sospecha de que entre las n componentes de un vector Xt = (X1t , · · · , Xnt ) existe
al menos una relación de cointegración, los pasos para efectuar el procedimiento de Johansen son
análogos a los del procedimiento de Engle-Granger, con la diferencia de que se deben utilizar a
los estadı́sticos λmax y λtrace para probar si existen relaciones de cointegración.
Paso 1. Determine si las series X1t , · · · , Xnt son I(1).
Paso 2. Aplique los estadı́sticos de λmax y λtrace para determinar el número de relaciones
de cointegración.
Paso 3. Estime el modelo de corrección de errores.
59
Paso 4. Realice la validación del modelo.
Resulta evidente notar que el procedimiento de Johansen puede aplicarse para el caso de
un vector que tiene más de dos componentes, por lo que en ése sentido tiene una ventaja con
respecto al procedimiento de Engle-Granger.
Sin embargo, para el caso en el que se quiere determinar si existe una relación de coin-
tegración entre dos series, Gonzalo y Lee (1998) afirman que en la mayorı́a de los casos el
procedimiento de Engle-Granger es más robusto que el procedimiento de Johansen, pero reco-
miendan aplicar ambos procedimientos con el fin de evitar conclusiones erróneas.
Se recomienda leer detenidamente el artı́culo de Gonzalo y Lee (1998), pues los autores
consideraron varios escenarios y analizaron las conclusiones que se obtenı́an de ambos proce-
dimientos. Por ejemplo, en el caso en el que es difı́cil determinar si las series son I(0) o I(1) el
procedimiento de Engle-Granger es más potente.
60
Capı́tulo 4
Ejemplo de aplicación: Series financieras
En este capı́tulo se realizará la aplicación de un análisis de cointegración a un par de se-

ries de tiempo financieras. Primero se realizará la modelación cada una de las series según la
metodologı́a Box-Jenkins, luego se aplicará el procedimiento de Engle-Granger y por último el
procedimiento de Johansen. En todos los casos se aplicarán los pasos que fueron planteados en
los capı́tulos anteriores.
4.1. La Bolsa Mexicana de Valores

La Bolsa Mexicana de Valores, S.A.B de C.V. (BMV), es una entidad financiera de carácter
privado en el que se llevan a cabo las operaciones del mercado de valores organizado en México.
El objetivo de la BMV es el facilitar las transacciones con valores y procurar el desarrollo del
mercado, ası́ como fomentar su expansión y competitividad. La BMV se regula por la Ley de
Mercado de Valores y es supervisada por la Secretarı́a de Hacienda y Crédito Público, ası́ como
por el Banco de México.
En la BMV se realiza la compra y la venta de diversos instrumentos financieros, como es el

caso de acciones, tı́tulos de deuda, etc, entre los inversionistas y las empresas y entidades que
están en búsqueda de financiamiento. Actualmente la gran mayorı́a de las operaciones se llevan
a cabo de manera electrónica, como consecuencia de los grandes avances de las tecnologı́as de
la información.
61
El Índice de Precios y Cotizaciones, abreviado como S& P/BMV o simplemente IPC, es el
ı́ndice accionario que busca medir el rendimiento de las acciones de mayor tamaño y liquidez
listadas en la Bolsa Mexicana de Valores. El IPC se construye a través de los valores ponderados
por capitalización de mercado modificado de las 35 empresas más representativas de México.
Es calculado por la calificadora estadounidense Standard & Poor’s.
Entre las compañı́as que son consideradas para el cálculo del IPC en el 2019 se encuentran
América Móvil, FEMSA, WALMEX, Alfa, Grupo Financiero Banorte, CEMEX, Grupo Finan-
cieron Inbursa, Grupo México, etc.
Para realizar el ejemplo de aplicación de las metodologı́as de Box-Jenkins y de Engle-

Granger fue necesario obtener la información histórica, en observaciones mensuales, del precio
al cierre, en pesos mexicanos (MXN), de las acciones de cierto número de series. La principal
fuente de información fue la página web mx.investing.com, que es un portal global de servicios
financieros, propiedad de la compañı́a Fusion Media Limited. Se realizaron consultas en esta
página de diferentes series financieras de las empresas que aportan al IPC, durante el mes de
marzo de 2019 .
Se graficaron diferentes series en distintos periodos de observación, y para ilustrar la meto-

dologı́a se seleccionaron el valor al cierre mensual de las acciones de Alfa y de Grupo Financiero
Inbursa, en el periodo comprendido entre enero del 2011 y enero del 2019. Cada serie tiene un
total de 97 observaciones.
Alfa S.A.B. de C.V. es una empresa mexicana con presencia global, con subsidiarias en
diferentes giros, como es el caso de alimentos refrigerados, petroquı́micos, componentes auto-
motrices, comunicaciones y más. Alfa tiene sede en San Pedro Garza Garcı́a, en la Zona Metro-
politana de Monterrey, Nuevo León. Por otro lado, Grupo Financiero Inbursa es un corporativo
financiero mexicano que proporciona servicios de banca, seguros, afores y demás, con sede en
la Ciudad de México.
62
Figura 4.1: Precio al cierre en MXN de las acciones de Alfa y Grupo Financiero Inbursa entre
enero del 2011 y enero del 2019.
En la figura 4.1 se graficaron el precio al cierre de las acciones de Alfa y de Grupo Financie-
ro Inbursa. Nótese que entre el 2011 y el 2014 las series muestran una tendencia similar hacia el
incremento, y en el perı́odo 2014 al 2017 toman valores muy cercanos, aunque a partir del 2017
las series tienden a disminuir. Este comportamiento de tendencia común y valores cercanos es
un indicio de que pudiese existir una cointegración entre las series.
Primero se ajustarán modelos univariados a las series según la metodologı́a Box-Jenkins,

para compararlos con el modelo que se puede construir a partir del procedimiento de Engle-
Granger.
63
4.2. Modelación según la Metodologı́a Box-Jenkins
En la Sección 1.6 se introdujo la metodologı́a Box-Jenkins, que consta de 5 pasos a partir de
los cuales es posible ajustar un modelo a una serie de tiempo univariada.
Sea {Xt } la serie que mide el precio al cierre (en pesos) mensual de las acciones de Alfa,
y sea {Yt } la serie que mide el precio al cierre (en pesos) mensual de las acciones de Grupo
Financiero Inbursa. Se procederá a aplicar la metodologı́a Box-Jenkins a cada serie.
Alfa
Figura 4.2: Precio al cierre en MXN de las acciones de Alfa entre enero del 2011 y enero del
2019.
El paso 1 es identificar, a partir de la gráfica de la serie, si {Xt } es estacionaria. Se puede

observar en la Figura 4.2 que entre el 2011 y el 2015 existe una clara tendencia hacia arriba,
pero a partir del 2015 el precio de las acciones de Alfa ha ido decreciendo, lo anterior lleva
a considerar que la media de {Xt } no es constante. A pesar de que la varianza no es de gran
amplitud, la media no constante implica que {Xt } no es estacionaria.
Dado que {Xt } no es estacionaria, se le aplica una primera diferencia, aplicando la función
diff de R. La serie {∆Xt }, como se puede observar en la figura 4.3, tiene una media constante
64
alrededor del cero. Exceptuando el intervalo entre el 2014 y el 2015, la varianza se mantiene
entre -2 y 2 de manera constante. Esto lleva a inferir que {∆Xt } es estacionaria, por lo que se
trabajará con esta serie.
Figura 4.3: {∆Xt }.
El paso 2 es la identificación de los parámetros del modelo, por lo que es necesario observar
las gráficas ACF y PACF de {∆Xt }.
(a) ACF (b) PACF
Figura 4.4: ACF y PACF - {∆Xt }.
65
En la figura 4.4 se puede observar que, en conjunto, el ACF y el PACF de {∆Xt } sugieren
un posible comportamiento de ruido blanco, pues prácticamente todas las barras se encuentran
dentro de las bandas de Bartlett. Aplicando la prueba Ljung-Box mediante la función Box.test
Hipótesis:
H0 : La serie {∆Xt } sigue un proceso ruido blanco
vs.
H0 : La serie {∆Xt } no sigue un proceso ruido blanco

significancia α = 0.05, no existe suficiente evidencia estadı́stica para rechazar la hipótesis nula a
favor de la hipótesis alternativa, es decir, no existe suficiente evidencia para afirmar que la serie
{∆Xt } no sigue un proceso ruido blanco.
Se supondrá entonces que {∆Xt } sigue un proceso ruido blanco, esto es:
{∆Xt } ∼ ARMA(0, 0)
lo cual implica que:

{Xt } ∼ ARIMA(0, 1, 0)
El paso 3 corresponderı́a a la estimación de los parámetros del modelo, pero escribiendo a

{Xt } de manera explı́cita a partir de la Definición 1.5.1:
φ (B)(1 − B)d Xt = θ (B)νt
(1 − B)Xt = νt
Xt − Xt−1 = νt
Xt = Xt−1 + νt
Se observa que {Xt } sigue un proceso de caminata aleatoria, por lo que los parámetros son
los coeficientes de Xt−1 y νt , es decir, ambos son iguales a uno.
66
El paso 4 es la validación del modelo, por lo que se verificará si el modelo cumple con el su-
puesto de que los residuales siguen un proceso ruido blanco, a través de la prueba de Ljung-Box.
Hipótesis:
H0 : Los residuales νt siguen un proceso ruido blanco
vs.
H1 : Los residuales νt no siguen un proceso ruido blanco

a favor de la hipótesis alternativa, es decir, no existe suficiente evidencia estadı́stica para afirmar
que los residuales νt no siguen un proceso ruido blanco.
Se supondrá entonces que los residuales de la serie {Xt } siguen un proceso ruido blanco.
Ahora, se debe verificar el supuesto de que los residuales estandarizados de la serie {Xt }
siguen una distribución gaussiana. Aplicando la prueba Shapiro-Wilk para normalidad con la
función shapiro.test de R.
Hipótesis:
H0 : Los residuales estandarizados νestt siguen una distribución normal
vs.
H0 : Los residuales estandarizados νestt no siguen una distribución normal
Resultado: Con un estadı́stico W obtenido de 0.97235, un p-valor de 0.03819 y a un nivel

de significancia α = 0.05, existe suficiente evidencia estadı́stica para rechazar la hipótesis nula
a favor de la hipótesis alternativa, es decir, existe suficiente evidencia para afirmar que los resi-
duales νestt no siguen una distribución normal.
67
El paso 5 corresponderı́a a la adecuación del modelo, sin embargo, a una caminata aleatoria
no se le aplican transformaciones por el comportamiento aleatorio que describe el proceso.
Debido a que el modelo obtenido para la serie {Xt } sigue una caminata aleatoria, y que
los residuales no cumplen el supuesto de seguir una distribución normal, se concluye que la
metodologı́a Box-Jenkins no proporciona un modelo satisfactorio, es decir, el modelo no ajusta
adecuadamente el comportamiento de la serie.
Grupo Financiero Inbursa
El primer paso es la verificación de la estacionariedad de la serie {Yt }. Nótese en la Figura

4.5 que la serie tiene una tendencia creciente entre 2011 y 2015, pero a partir del 2015 comienza
a decrementar. Lo anterior es indicio de que la media no es constante. A pesar de que la varianza
tiene un comportamiento que parece constante a lo largo del periodo de observación, se infiere
que la serie {Yt } no es estacionaria.
Figura 4.5: Precio al cierre en MXN de las acciones de Grupo Financiero Inbursa entre enero
del 2011 y enero del 2019.
Al aplicar una primera diferencia a la serie {Yt } se obtiene la Figura 4.6, la cual tiene una
media constante alrededor del cero en todo el periodo de observación, y, salvo ciertos picos entre
68
el 2012 y el 2014, la varianza también es constante. Se concluye que la serie {∆Yt } es estacio-
naria, por lo que a partir de ella se realizará la modelación.
Figura 4.6: {∆Yt }.
El paso 2, correspondiente a la identificación de los parámetros del modelo se realiza a través

de las gráficas ACF y PACF de {∆Yt } que, dado que en ambas gráficas las barras se encuentran
dentro de las bandas de Bartlett, sugieren un posible comportamiento de ruido blanco.
(a) ACF (b) PACF
Figura 4.7: ACF y PACF - {∆Yt }.
69
Aplicando la prueba Ljung-Box:
Hipótesis:
H0 : La serie {∆Yt } sigue un proceso ruido blanco
vs.
H0 : La serie {∆Yt } no sigue un proceso ruido blanco
Resultado: Con un estadı́stico χ 2 obtenido de 8.3427, un p-valor de 0.5954, y a un nivel de

significancia α = 0.05, no existe suficiente evidencia estadı́stica para rechazar la hipótesis nula a
favor de la hipótesis alternativa, es decir, no existe suficiente evidencia para afirmar que la serie
{∆Yt } no sigue un proceso ruido blanco.
Se supondrá entonces que {∆Yt } sigue un proceso ruido blanco, esto es:
{∆Yt } ∼ ARMA(0, 0)
lo cual implica que:

{Yt } ∼ ARIMA(0, 1, 0)
Entonces, análogamente al caso de {Xt }, se deduce que {Yt } es una caminata aleatoria, por
lo que el paso 3 correspondiente a la estimación de los parámetros no aplica.
El paso 4 es la validación del modelo, por lo que se verificará si el modelo Yt = Yt−1 + ηt

cumple el supuesto de que sus residuales siguen un proceso ruido blanco a través de la prueba
Ljung-Box:
Hipótesis:
H0 : Los residuales ηt siguen un proceso ruido blanco
vs.
H1 : Los residuales ηt no siguen un proceso ruido blanco
70
a favor de la hipótesis alternativa, es decir, no existe suficiente evidencia estadı́stica para afirmar
que los residuales ηt no sigue un proceso ruido blanco.
Se supondrá entonces que el modelo {Yt } cumple con el supuesto de que los residuales si-
guen un proceso ruido blanco.
Después, es necesario verificar si el modelo {Yt } cumple con el supuesto de que los residua-
les estandarizados siguen una distribución gaussiana. Aplicando la prueba Shapiro-Wilk para
normalidad:
Hipótesis:
H0 : Los residuales estandarizados ηestt siguen una distribución normal
vs.
H0 : Los residuales estandarizados ηestt no siguen una distribución normal
Resultado: Con un estadı́stico W obtenido de 0.9932, un p-valor de 0.9137 y a un nivel de

significancia α = 0.05 no existe suficiente evidencia estadı́stica para rechazar la hipótesis nula
residuales ηestt no siguen una distribución normal.
Se supondrá entonces que los residuales estandarizados del modelo {Yt } siguen una distri-
bución gaussiana. Análogamente al caso de la serie {Xt } el paso 5 no aplica, debido a que {Yt }
es una caminata aleatoria.
Debido a que el modelo obtenido para la serie {Yt } sigue una caminata aleatoria, se concluye
que la metodologı́a Box-Jenkins no proporciona un modelo satisfactorio, es decir, el modelo no
ajusta adecuadamente el comportamiento de la serie.
71
4.3. Modelación según el Procedimiento de Engle-Granger
Se aplicará ahora el procedimiento de Engle-Granger para determinar si existe una relación
de cointegración entre las series {Xt } y {Yt }, siguiendo los pasos del procedimiento descrito en
la sección 3.3.
Paso 1
El paso 1 es verificar si {Xt } y {Yt } son I(1), y para ello se aplicará el procedimiento secuen-
cial para la aplicación de la prueba de Dickey-Fuller aumentada, detallado la sección 2.4. Todas
las pruebas se aplicarán a un nivel de significancia de α = 0.05.
Es importante recordar que en las pruebas Φi la hipótesis nula se rechaza cuando el valor
absoluto del estadı́stico calculado es mayor que el valor crı́tico, por ser una prueba de dos colas,
mientras que en las pruebas τi la hipótesis nula se rechazan cuando el estadı́stico calculado es
menor que el valor crı́tico, por ser pruebas de cola inferior.
Primero se aplica el procedimiento secuencial de la prueba Dickey-Fuller aumentada a la

serie {Xt }, a través de la función ur.df de la librerı́a urca. En la Tabla 4.1 se encuentra el resumen
de la aplicación, incluyendo el paso correspondiente con respecto al procedimiento secuencial,
las hipótesis consideradas, el valor del estadı́stico obtenido, el valor crı́tico y el resultado de la
prueba. La conclusión de esta secuencia de pruebas es que {Xt } tiene una raı́z unitaria, y no
tiene ni tendencia ni deriva, que coincide con el resultado obtenido a partir de la metodologı́a
Box-Jenkins.
Paso H0 H1 Prueba Est. calc. Valor c. Resultado

Paso 2 (α,β ,φ )=(α,0,1) (α,β ,φ )6=(α,0,1) Φ3 2.31 6.49 No se rechaza H0
Paso 7 φ =1 φ <1 τ3 -1.722 -3.45 No se rechaza H0
Paso 8 (α,β ,φ )=(0,0,1) (α,β ,φ )6=(0,0,1) Φ2 1.5999 4.88 No se rechaza H0
Paso 9 (α,φ )=(0,1) (α,φ )6=(0,1) Φ1 2.0006 4.71 No se rechaza H0
Conclusión: φ = 1, α = 0 y β = 0
Tabla 4.1: Procedimiento secuencial de la prueba Dickey-Fuller aumentada aplicado a {Xt }.
72
Para que el procedimiento sea más claro, al lector se le presenta el diagrama de la Figura 4.8,
en el que se encuentra una representación de las pruebas aplicadas, ası́ como la conclusión que
se obtiene.
Figura 4.8: Diagrama del procedimiento secuencial de la prueba Dickey-Fuller aumentada apli-
cada a {Xt }.
Después es necesario aplicar el procedimiento secuencial a la serie {∆Xt }. Los resultados ob-
tenidos de cada paso se encuentran en la Tabla 4.2 y el diagrama del procedimiento secuencial
se observa en la Figura 4.9, a partir de los cuales se concluye que la serie {∆Xt } es estacionaria,
y no tiene ni deriva ni tendencia.
73
Paso 2 (α,β ,φ )=(α,0,1) (α,β ,φ )6=(α,0,1) Φ3 20.4816 6.49 Se rechaza H0
Paso 3 φ =1 φ <1 τ3 -6.3942 -1.96 Se rechaza H0
Paso 4 β =0 β 6= 0 t -1.216 1.98 No se rechaza H0
Paso 6 α =0 α 6= 0 t 1.255 1.98 No se rechaza H0
Conclusión: φ < 1, α = 0 y β = 0
Tabla 4.2: Procedimiento secuencial de la prueba Dickey-Fuller aumentada aplicado a {∆Xt }.
Figura 4.9: Diagrama del procedimiento secuencial de la prueba Dickey-Fuller aumentada apli-
cada a {∆Xt }.
74
Dado que para obtener una serie estacionaria a partir de {Xt } solamente fue necesario aplicar
una diferencia, entonces se deduce que {Xt } ∼ I(1).
Al aplicar el procedimiento secuencial de la prueba Dickey-Fuller aumentada a {Yt } y {∆Yt }

se obtienen resultados análogos a los de {Xt } y {∆Xt } respectivamente, como se puede observar
en las Tablas 4.3 y 4.4, llevando a la deducción de que {Yt } ∼ I(1).

Paso 2 (α,β ,φ )=(α,0,1) (α,β ,φ )6=(α,0,1) Φ3 3.7207 6.49 No se rechaza H0
Paso 7 φ =1 φ <1 τ3 -2.5114 -3.45 No se rechaza H0
Paso 8 (α,β ,φ )=(0,0,1) (α,β ,φ )6=(0,0,1) Φ2 2.4857 4.88 No se rechaza H0
Paso 9 (α,φ )=(0,1) (α,φ )6=(0,1) Φ1 3.3203 4.71 No se rechaza H0
Conclusión: φ = 1, α = 0 y β = 0
Tabla 4.3: Procedimiento secuencial de la prueba Dickey-Fuller aumentada aplicado a {Yt }.

Paso 2 (α,β ,φ )=(α,0,1) (α,β ,φ )6=(α,0,1) Φ3 32.6072 6.49 Se rechaza H0
Paso 3 φ =1 φ <1 τ3 -8.075 -1.96 Se rechaza H0
Paso 4 β =0 β 6= 0 t -1.028 1.98 No se rechaza H0
Paso 6 α =0 α 6= 0 t 0.916 1.98 No se rechaza H0
Conclusión: φ < 1, α = 0 y β = 0
Tabla 4.4: Procedimiento secuencial de la prueba Dickey-Fuller aumentada aplicado a {∆Yt }.
Paso 2
Ya que existe la sospecha de que {Xt } y {Yt } guarden algún tipo de relación, y que se ha
probado que {Xt } y {Yt } son I(1) se procede a realizar el paso 2, que consiste primero en ajustar
el modelo:
Yt = ξt + β1 Xt + et
75
Para luego aplicar la prueba Engle-Granger para determinar si existe una relación de cointe-
gración entre las variables {Xt } y {Yt }, mediante la función coint.test de la librerı́a aTSA.
Hipótesis:
H0 : et tiene una raiz unitaria vs. H1 : et es un proceso estacionario
O equivalentemente:
H0 : {Xt }, {Yt } CI(1, 1) vs. {Xt }, {Yt } ∼ CI(1, 1)
Resultado: A un nivel de significancia de α = 0.05, y con los resultados observados en la

Tabla 4.5, existe suficiente evidencia estadı́stica para rechazar la hipótesis nula a favor de la
hipótesis alternativa, es decir, existe suficiente evidencia para afirmar que los residuales et son
estacionarios, o lo que es igual, existe suficiente evidencia para afirmar que las series {Xt } y
{Yt } están cointegradas de orden (1, 1).
Estadı́stico calculado -3.62

p-valor 0.01
Tabla 4.5: Prueba Engle-Granger aplicada a {Xt } y {Yt }, estadı́sticos obtenidos.
Que {Xt } y {Yt } estén cointegradas implica que existe una relación a largo plazo entre ambas
series, es decir, que {Xt } y {Yt } siguen una tendencia común en el periodo de observación.
Paso 3
Ya que se ha probado que {Xt }, {Yt } ∼ CI(1, 1), se procede a la estimación del V ECM(1) de
la forma:
∆Xt = µ1 + α1 ECTt−1 + γ11 ∆Xt−1 + γ12 ∆Yt−1 + ε1t (4.3.1)
∆Yt = µ2 + α2 ECTt−1 + γ21 ∆Xt−1 + γ22 ∆Yt−1 + ε2t (4.3.2)
76
La estimación se realiza a través de la función VECM de la librerı́a tsDyn, obteniendo el
siguiente par de ecuaciones:
∆Xt = 0.0785 − 0.0812ECTt−1 + 0.0680∆Xt−1 + 0.0770∆Yt−1 + ε1t (4.3.3)
∆Yt = 0.0245 + 0.0225ECTt−1 + 0.0344∆Xt−1 − 0.1065∆Yt−1 + ε2t (4.3.4)
Y donde el vector cointegrante es β = (1, −0.85283).
El coeficiente -0.0812 del término ECTt−1 de la ecuación (4.3.3) se interpreta como el valor
que mantiene atada la relación de cointegración entre las series en el largo plazo cuando se está
explicando a la serie {Xt }. El caso del coeficiente 0.0225 del término ECTt−1 en la ecuación
(4.3.4) es análogo.
Paso 4
El paso 4 corresponde a la verificación de los supuestos del modelo.
1. Primero se verificará si el número de observaciones previas es el adecuado, aplicando

pruebas t sobre los coeficientes de {∆Xt } y {∆Yt }. Los resultados de las pruebas se obser-
van en la Tabla 4.6 y llevan a inferir que los coeficientes γi j son iguales a cero.
Ecuación H0 H1 Prueba Est. calculado Valor crı́tico Resultado

4.3.3 γ11 = 0 γ11 6= 0 t 0.6595 1.98 No se rechaza H0
4.3.4 γ22 = 0 γ22 6= 0 t -0.9925 1.98 No se rechaza H0
Tabla 4.6: Pruebas t aplicadas a los coeficientes del modelo VECM(1).
Lo anterior implica que en el proceso VECM no es necesario incluir a las observaciones
77
previas de {∆Xt } y {∆Yt }. Reestimando el modelo VECM a través de la función lm se
obtiene el siguiente par de ecuaciones:
∆Xt = 0.0965 − 0.0875ECTt−1 + ε1t (4.3.5)
∆Yt = 0.0191 + 0.0333ECTt−1 + ε2t (4.3.6)
Y aplicando pruebas t a los interceptos y a los coeficientes del término ECTt−1 se obtienen
los resultados que se observan en la Tabla 4.8.

4.3.5 µ1 = 0 µ1 6= 0 t 0.475 1.98 No se rechaza H0
4.3.5 α1 = 0 α1 6= 0 t -2.367 1.98 Se rechaza H0
4.3.6 µ2 = 0 µ2 6= 0 t 0.089 1.98 No se rechaza H0
4.3.6 α2 = 0 α2 6= 0 t 0.856 1.98 No se rechaza H0
Tabla 4.7: Pruebas t aplicadas a los coeficientes del modelo VECM(0).
Dado que existe evidencia de que el coeficiente α1 es distinto de cero se concluye que la
ecuación (4.3.5) es significativa, pero, dado que no existe suficiente evidencia para afirmar
que µ1 es distinto de cero, la ecuación no deberı́a de tener intercepto.
Por otro lado, la ecuación (4.3.6) no es significativa ni deberı́a tener intercepto, pues no
existe suficiente evidencia para afirmar que α2 ni µ2 son distintos de cero, por lo que se
descarta que exista una relación verdadera entre ∆Yt y el ECT . Lo anterior lleva a concluir
que {Xt } no causa en el sentido de Granger a {Yt }.
Reestimando a la ecuación (4.3.5):
∆Xt = −0.0881ECTt−1 + ε1t (4.3.7)
78
4.3.7 α1 = 0 α1 6= 0 t -2.395 1.98 Se rechaza H0
Tabla 4.8: Prueba t aplicada al coeficiente de la ecuación (4.3.7).
Entonces, ya que la ecuación (4.3.7) es significativa, se concluye que es {Yt } la que causa
en el sentido de Granger a {Xt }, es decir, las acciones de Grupo Financiero Inbursa son
las que ayudan a predecir el valor de las acciones de Alfa.
G
{Yt } −
→ {Xt }
2. Luego se verificará que el vector de los residuales t = (ε1t , ε2t )0 generados por las ecua-
ciones (4.3.5) y (4.3.6) sigue una distribución normal multivariada, a través de la prueba
Henze-Zinkler, mediante la función mvn de la librerı́a MVN.
Hipótesis:
H0 : El vector t sigue una distribución normal multivariada
vs.
H1 : El vector t no sigue una distribución normal multivariada
Resultado: A un nivel de significancia de α = 0.05, y con los resultados observados en

la Tabla 4.9, no existe suficiente evidencia estadı́stica para rechazar la hipótesis nula a
favor de la hipótesis alternativa, es decir, no existe suficiente evidencia para afirmar que el
vector t no sigue una distribución normal multivariada.
Estadı́stico calculado 0.4596

p-valor 0.679
Tabla 4.9: Prueba Henze-Zinkler aplicada a t , estadı́sticos obtenidos.
79
Se concluye entonces que el vector t sigue una distribución normal multivariada.
Figura 4.10: Densidad de los residuales t .
En la Figura 4.11, se encuentran:
En rojo, la serie original {Xt }.
En verde, el modelo ajustado a través de la metodologı́a Box-Jenkins
Xt = Xt−1 + εt
En azul, el modelo ajustado a través del procedimiento de Engle-Granger
Xt = Xt−1 − 0.0881ECTt−1 + ε1t
Obsérvece que el modelo ajustado a través del procedimiento de Engle-Granger describe

con mayor exactitud el comportamiento que tiene la serie original {Xt }, en comparación con el
modelo ajustado a través de la metodologı́a Box-Jenkins.
80
Figura 4.11: Comparación de los modelos ajustados para la serie {Xt }.
4.4. Modelación según el Procedimiento de Johansen

En esta sección se ejemplificarı́a el procedimiento de Johansen como fue planteado en la
Sección 3.4 pero los pasos 1, 3 y 4 llevarı́an a las mismas conclusiones que se obtuvieron con
el procedimiento de Engle-Granger, por lo solamente se ejemplificará la aplicación de los es-
tadı́sticos λmax y λtrace , correspondientes al Paso 2.
Paso 2
1. Se utilizará al estadı́stico λtrace para verificar si existe al menos una relación de cointegra-
ción r entre las series {Xt } y {Yt } como fueron definidas en la Sección 4.2, a través de la
función ca.jo de la librerı́a urca.
Hipótesis:
H0 : r = 0 vs. H1 : r > 0
Resultado: A un nivel de significancia α = 0.05, y con los resultados observados en la

Tabla 4.10, no existe suficiente evidencia estadı́stica para rechazar la hipótesis nula a favor
81
de la hipótesis alternativa, es decir, no existe suficiente evidencia para afirmar que existe
al menos una relación de cointegración.
Valor crı́tico 17.95

Tabla 4.10: Prueba λtrace aplicada a {Xt } y {Yt }, estadı́sticos obtenidos.
2. Se utilizará al estadı́stico λmax para verificar si existe una relación de cointegración r entre
las series {Xt } y {Yt } como fueron definidas en la sección 4.2, a través de la función ca.jo
de la librerı́a urca.
Hipótesis:
H0 : r = 0 vs. H1 : r = 1
Resultado: A un nivel de significancia α = 0.05, y con los resultados observados en la

Tabla 4.11, no existe suficiente evidencia estadı́stica para rechazar la hipótesis nula a favor
de la hipótesis alternativa, es decir, no existe suficiente evidencia para afirmar existe una
relación de cointegración entre las series {Xt } y {Yt }.
Valor crı́tico 14.90

Tabla 4.11: Prueba λmax aplicada a {Xt } y {Yt }, estadı́sticos obtenidos.
El vector cointegrante estimado por ambos estadı́sticos es β = (1, −2.4569).
Recuérdese que en la Sección 3.4 se comentó que Gonzalo y Lee (1998) afirmaron que
en la mayorı́a de las situaciones el procedimiento de Engle-Granger era más robusto que el
procedimiento de Johansen, por lo que se considerará que entre las series {Xt } y {Yt } sı́ existe
una relación de cointegración, a pesar de las conclusiones que se obtuvieron con los estadı́sticos
λmax y λtrace .
82
Conclusiones
En el ejemplo de aplicación se verificó que de acuerdo al procedimiento de Engle-Granger

existe una relación de cointegración entre las series del valor de las acciones de Alfa y Grupo
Financiero Inbursa, y se obtuvo también un modelo que cumplió adecuadamente los supuestos
necesarios. Por otro lado, a través de la metodologı́a Box-Jenkins se obtuvieron modelos que no
ajustaron adecuadamente el comportamiento de las series.
Se concluyó que las acciones de Grupo Financiero Inbursa causan en el sentido de Granger
al valor de las acciones de Alfa, es decir, conocer el valor que toman las acciones de Grupo
Financiero Inbursa ayuda a predecir el valor de las acciones de Alfa.
Quedan muchas ideas que podrı́an ser desarrolladas en trabajos posteriores, por ejemplo,
serı́a interesante combinar el procedimiento secuencial para la aplicación de la prueba de Dickey-
Fuller aumentada con versiones más recientes de esta prueba, como es el caso de prueba de
Dickey-Fuller aumentada con mı́nimos cuadrados generalizados (GLS-ADF).
También serı́a importante comparar los pronósticos que se obtienen mediante la metodologı́a
Box-Jenkins contra los pronósticos que se obtienen a través del procedimiento de Engle-Granger
o del procedimiento de Johansen.
Otro aspecto a desarrollar es la posibilidad de asociar distribuciones distintas a la normal

multivariada a los residuales obtenidos, pues a pesar de que en el ejemplo de aplicación sı́ se
cumplió el supuesto de normalidad, existe la posibilidad de que los residuales sigan alguna otra
distribución.
83
Apéndice A
El proceso VAR(p)
La generalización del proceso autorregresivo estudiado en la Sección 1.2 es el proceso auto-
rregresivo vectorial, abreviado como VAR, por ser las siglas del inglés vector autoregression.
Definición 4.4.1 El proceso vectorial autorregresivo de orden p se define como:
Xt = µt + A1 Xt−1 + · · · + A p Xt−p + t
donde:
Xt es un vector aleatorio de dimensión (n × 1).
µt es un vector de interceptos de dimensión (n × 1).
Ai son matrices de coeficientes de dimensión (n × n).
t es un vector de innovaciones.
Análogamente al caso univariado, es posible reexpresar al proceso VAR(p) a través de una

suma ponderada de innovaciones, y a partir de aplicar ciertos resultados, se puede demostrar que
un proceso VAR(p) es estacionario si:
det(In − A1 z − · · · − A p z p ) 6= 0, para |z| < 1
En (Lütkepohl, 2005) se puede encontrar esta y mucha más información acerca del proceso
VAR(p) y sus variantes.
84
Apéndice B
Códigos de R
############################################################################
#Sección 1.6 Metodologı́a Box-Jenkins
#Aplicación de la metodologı́a Box-Jenkins a la serie "concentracion.csv"
#Librerı́a utilizada
library(stats)
#Lectura de la base
base<-read.csv("concentracion.csv",header=T)
attach(base)
#Creación del objeto serie de tiempo

Xt<-ts(Concentracion)
#Gráfica de la serie
plot(Xt,xlab="Tiempo",ylab="Índice de concentración")
#Cálculo y gráfico de la primera diferencia de la serie

DeltaXt<-diff(Xt)
plot(DeltaXt,xlab="Tiempo",ylab="Índice de concentración")
85
#Gráficas ACF y PACF de DeltaXt
par(mfrow=c(1,2))
acf(DeltaXt,lag.max=15,main="")
axis(1,at=0:15)
pacf(DeltaXt,lag.max=15,main="")
axis(1,at=0:15)
#Estimación de los parámetros

est<-arima(Xt,c(0,1,1))
plot(Xt)
library(forecast)
est2<-Arima(Xt,order=c(0,1,1))
plot(est2$x)
#Validación de supuestos
res<-est$residuals
Box.test(res,type="Ljung-Box",lag=10) #Prueba Ljung-Box
resest<-(res-mean(res))/sd(res)
shapiro.test(resest) #Prueba Shapiro-Wilk
86
#########################################################################
#Sección 4.2 Modelación según la Metodologı́a Box-Jenkins
#Aplicación de la metodologı́a Box-Jenkins a las series alfa e inbursa
#Librerı́a utilizada
library(stats)
##############################
#Serie Xt=alfa
#Lectura de la base alfa

base_alfa<-read.csv("alfa_final.csv",header=T)
attach(base_alfa)

Xt<-ts(alfa,start=2011,frequency=12)
#Gráfica de la serie alfa

plot(Xt,col="green4",lty=1,xlab="Tiempo",ylab="Precio al cierre en MXN")
#Cálculo y gráfico de la primera diferencia de la serie alfa

DeltaXt<-diff(Xt)
plot(DeltaXt,col="green4",lty=1,xlab="Tiempo",ylab="Precio al cierre en MXN")
#Gráficas ACF y PACF de la primera diferencia de la serie alfa

DeltaXt<-as.vector(DeltaXt)
par(mfrow=c(1,2))
acf(DeltaXt,lag.max=15,main="",col="green4")
axis(1,at=0:15)
pacf(DeltaXt,lag.max=15,main="",col="green4")
87
axis(1,at=0:15)
#Prueba Ljung-Box aplicada a la primera diferencia de la serie alfa

Box.test(DeltaXt, lag=10, type="Ljung-Box")

res<-resid(est)
Box.test(res,type="Ljung-Box",lag=10) #Prueba Ljung-Box
resest<-(res-mean(res))/sd(res)
shapiro.test(resest) #Prueba Shapiro-Wilk
##############################
#Serie Yt=inbursa
#Lectura de la base inbursa

base_inbursa<-read.csv("inbursa_final.csv",header=T)
attach(base_inbursa)

Yt<-ts(inbursa,start=2011,frequency=12)
#Gráfica de la serie inbursa

plot(Yt,col="blue",lty=2,xlab="Tiempo",ylab="Precio al cierre en MXN")
#Cálculo y gráfico de la primera diferencia de la serie alfa

DeltaYt<-diff(Yt)
plot(DeltaYt,col="blue",lty=2,xlab="Tiempo",ylab="Precio al cierre en MXN")
88
#Gráficas ACF y PACF de la primera diferencia de la serie inbursa
DeltaYt<-as.vector(DeltaYt)
par(mfrow=c(1,2))
acf(DeltaYt,lag.max=15,main="",col="blue")
axis(1,at=0:15)
pacf(DeltaYt,lag.max=15,main="",col="blue")
axis(1,at=0:15)
#Prueba Ljung-Box aplicada a la primera diferencia de la serie alfa

Box.test(DeltaYt, lag=10, type="Ljung-Box")

est2<-arima(Yt,c(0,1,0))
res2<-resid(est2)
Box.test(res2,type="Ljung-Box",lag=10) #Prueba Ljung-Box
resest2<-(res2-mean(res2))/sd(res2)
shapiro.test(resest2) #Prueba Shapiro-Wilk
89
#########################################################################
#Sección 4.3 Modelación según el Procedimiento de Engle-Granger
#Aplicación del procedimiento de Engle-Granger a las series alfa e inbursa
#Librerı́as utilizadas
library(stats)
library(urca)
library(aTSA)
library(tsDyn)
library(VAR.etp)
library(MVN)

attach(base_alfa)

#Creación de los objetos en formato serie de tiempo

#Gráfica de las series

ts.plot(Xt,Yt,gpars=list(col=c("green4","blue"),lty=1:2,
xlab="Tiempo",ylab="Precio al cierre en MXN"))
legend(x=c(2008.5,2011.5),y=c(40,34), legend=c("Alfa", "Grupo Financiero Inbursa"),
col=c("red", "blue") ,lty=1:2, cex=0.8)
90
#Primeras diferencias de las series alfa e inbursa
DeltaXt<-diff(Xt)
DeltaYt<-diff(Yt)
#Procedimiento secuencial de la prueba Dickey-Fuller

#aumentada aplicado a la serie alfa
summary(ur.df(Xt,type="trend"))
summary(ur.df(Xt,type="drift"))
summary(ur.df(DeltaXt,type="trend"))
#Procedimiento secuencial de la prueba Dickey-Fuller

#aumentada aplicado a la serie inbursa
summary(ur.df(Yt,type="trend"))
summary(ur.df(Yt,type="drift"))
summary(ur.df(DeltaYt,type="trend"))
#Prueba Engle-Granger para cointegración

summary(coint.test(Yt,Xt,nlag=1))
#Estimación del modelo VECM

base<-cbind(Xt,Yt)
vecm<-VECM(base,lag=1,estim="2OLS")
summary(vecm)
#Reestimación del VECM

ECT<-Xt-0.85283*Yt
VECMvalid1<-lm( DeltaXt ~ ECT[-97])
VECMvalid2<-lm( DeltaYt ~ ECT[-97])
summary(VECMvalid1)
summary(VECMvalid2)
91
#Validación final
VECMfinal1<-lm( DeltaXt ~ ECT[-97] + 0)
VECMfinal2<-lm( DeltaYt ~ ECT[-97] + 0)
summary(VECMfinal1)
summary(VECMfinal2)
#Grafica de los modelos ajustados para Xt

Modelo<-Xt[-97]-0.0881*ECT[-97]
Zt<-ts(Modelo,start=2011,frequency=12)
ts.plot(Xt,Zt,gpars=list(col=c("red","blue"),lty=1:2,xlab="Tiempo",
ylab="Precio al cierre en MXN"))
lines(fitted(est),col="green")
legend(x=c(2011,2013.4),y=c(40,32), legend=c("Serie original",
"Modelo Box-Jenkins","Modelo Engle-Granger"),col=c("red", "green","blue"),
lty=1:2, cex=1)
#Prueba Henze-Zinkler para normalidad multivariada de los residuales

r1<-residuals(VECMfinal1)
r2<-residuals(VECMfinal2)
res<-cbind(r1,r2)
rest<-(res-(mean(res)))/sd(res)
mvn(rest,mvnTest="hz",multivariatePlot="persp")
92
#########################################################################
#Sección 4.4 Modelación según el Procedimiento de Johansen
#Aplicación del procedimiento de Johansen a las series alfa e inbursa
#Librerı́as utilizadas
library(stats)
library(urca)

attach(base_alfa)

#Creación de los objetos en formato serie de tiempo

#Gráfica de las series

ts.plot(Xt,Yt,gpars=list(col=c("green4","blue"),lty=1:2,xlab="Tiempo",
ylab="Precio al cierre en MXN"))
legend(x=c(2008.5,2011.5),y=c(40,34), legend=c("Alfa", "Grupo Financiero Inbursa"),
col=c("red", "blue") ,lty=1:2, cex=0.8)
#Prueba lambda_trace
base<-cbind(Xt,Yt)
lambda_trace<-ca.jo(base,type="trace")
summary(lambda_trace)
93
#Prueba lambda_max
lambda_max<-ca.jo(base,type="eigen")
summary(lambda_max)
94
Bibliografı́a
[1] B OX , G.E.P., J ENKINS , G.M., R EINSEL , G.C. y L JUNG , G.M., (2016). Time Series
Analysis: Forecasting and Control, Fifth edition, Wiley.
[2] D ICKEY, D.A. y F ULLER , W.A., (1979). Distribution of the Estimators for Autoregressive
Time Series with a Unit Root. Journal of the American Statistical Association, 74(366a),
427-431.
[3] D ICKEY, D.A. y F ULLER , W.A., (1981). Likelihood Ratio Statistics for Autoregressive
Time Series with a Unit Root. Econometrica, 49(4), 1057-1072.
[4] D ICKEY, D.A., B ELL , W.R. y M ILLER R.B., (1986). Unit Roots in Time Series Models:
Tests and Implications. The American Statistician, 40(1), 12-26.
[5] D ICKEY, D.A. y PANTULA , S.G., (1987). Determining the Order of Differencing in Auto-
regressive Processes. Journal of Business & Economic Statistics, 5(4), 455–461.
[6] E NDERS , W., (2014). Applied Econometric Time Series, Fourth edition, Wiley.
[7] E NGLE , R.F. y G RANGER , C.W., (1987). Co-Integration and Error Correction: Represen-
tation, Estimation and Testing. Econometrica, 58(1), 251-276.
[8] E NGLE , R.F. y YOO , B.S., (1987). Forecasting and testing in co-integrated systems. Jour-
nal of Econometrics, 35, 143-159.
[9] F ULLER , W.A., (1996). Introduction to Statistical Time Series, Second edition, Wiley.
[10] G ONZALO , J. y L EE , T.H., (1998). Pitfalls in testing for long run relationships. Journal
of Econometrics, 86, 129-154.
95
[11] H ENZE , N. y Z IRKLER , B., (1990). A class of invariant consistent tests for multivariate
normality. Communications in Statistics - Theory and Methods, 19(10), 3595-3617.
[12] J OHANSEN , S., (1988). Statistical Analysis of Cointegration Vectors. Journal of Economic
Dynamics and Control, 12, 231-254.
[13] J OHANSEN , S. (1991).Estimation and Hypothesis Testing of Cointegration Vectors in

Gaussian Vector Autoregressive Models. Econometrica, 59(6), 1551-1580.
[14] L ÜTKEPOHL , H., (2005). New Introduction to Multiple Time Series Analysis, First edition.
Springer.
[15] M AC K INNON , J.G., (1991). Critical values for cointegration tests. En Engle, R.F. y Gran-
ger, G.W., (Ed.). Long-run economic relationships: readings in cointegration, First edition.
Oxford University Press.
[16] M ECKLIN , C.J. y M UNDFROM , D.J., (2005). A Monte Carlo comparison of the Type I
and Type II error rates of tests of multivariate normality. Journal of Statistical Computation
and Simulation, 75(2), 93-107.
[17] M ONTGOMERY, D.C., P ECK , E.A. y V INING , G.G., (2012). Introduction to Linear Re-
gression Analysis, Fifth edition, Wiley.
[18] N ELSON , C.R. y P LOSSER , C.I., (1982). Trends and Random Walks in Macroeconomic
Time Series: Some Evidence and Implications. Journal of Monetary Economics, 10(2),
139-162.
[19] R AO , B.B., (1994). Cointegration for the Applied Economist, First edition. Palgrave Mac-
millan.
[20] S AID , S.E. y D ICKEY, D.A., (1984). Testing for unit roots in autoregressive-moving ave-
rage models of unknown order. Biometrika, 71(3), 599-607.
[21] S IMS , C.A, S TOCK , J.H. y WATSON , M.W., (1990). Inference in linear time series mo-
dels with some unit roots. Econometrica, 58(1), 133-144.
96
View publication stats

Series de Tiempo Cointegradas y Una Aplicación: September 2019

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Series de Tiempo Cointegradas y Una Aplicación: September 2019

Cargado por

Copyright:

Formatos disponibles

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

Series de tiempo cointegradas y una aplicación

Thesis · September 2019

Series de tiempo conintegradas y una aplicación View project

The user has requested enhancement of the downloaded file.

Series de tiempo cointegradas y una aplicación

Orlando de Jesus Uc Kantun

en opción al tı́tulo de:

Asesores: Dr. José Luis Batún Cutz

Mérida, Yucatán, México

Apéndice A. El proceso VAR(p). 84

El objetivo del presente documento es introducir y aplicar el concepto de cointegración en

En el segundo capı́tulo se presentan la prueba de Dickey-Fuller y la Prueba de Dickey-Fuller

En el tercer capı́tulo se define formalmente el concepto de cointegración, la relación que se

El cuarto capı́tulo consiste en un ejemplo de aplicación a un par de series financieras, apli-

1.1. Conceptos básicos

Definición 1.1.3 Sea {Xt }t∈T un proceso estocástico:

1. La función media µ : T → R, se define por:

2. La función autocovarianza γ : T × T → R se define por:

γt1 ,t2 = Cov(Xt1 , Xt2 ) = E[(Xt1 − µX (t1 ))(Xt2 − µX (t2 ))]

3. La función autocorrelación ρ : T × T → R se define por:

E[(Xt1 − µX (t1 ))(Xt2 − µX (t2 ))]

La función de autocorrelación es una versión estandarizada de la función de autocovarianza.

Un concepto muy importante en los procesos estocásticos y en las series de tiempo es el de

para cualquier h ∈ Z y x1 , · · · , xn ∈ R, donde Ft1 ,··· ,tn denota a la distribución conjunta de

Definición 1.1.5 Un proceso estocástico es estrictamente estacionario si es estrictamente esta-

Existe una versión menos fuerte de la estacionariedad llamada estacionariedad débil.

1. La función media µX (t) = E[Xt ] no depende de t.

2. La función correlación ρt1 ,t2 = Corr(Xt1 , Xt2 ) depende de t1 y t2 a través de la diferencia

Por lo tanto, para un proceso débilmente estacionario las funciones de autocovarianza y de

γt1 ,t2 = γk = Cov(Xt1 , Xt2 ) = Cov(Xt1 , Xt1 +k ) = Cov(Xt2 , Xt2 +k )

ρt1 ,t2 = ρk = Corr(Xt1 , Xt2 ) = Corr(Xt1 , Xt1 +k ) = Corr(Xt2 , Xt2 +k )

Un buen ejemplo de un proceso estacionario es el siguiente:

Este proceso es importante pues serán las innovaciones en la definición de un modelo de

Por ejemplo, considérese el proceso de caminata aleatoria tal que:

1.2. El proceso autorregresivo AR(p)

Definición 1.2.1 El proceso autorregresivo de orden p se define como

o bien, a través del operador retardo

donde φ (B) = (1 − φ1 B − · · · − φ p B p ) es el polinomio caracterı́stico del proceso y εt un proceso

Considérese el proceso AR(1)

Y realizando recursiones consecutivas:

Xt = φ 2 (φ Xt−3 + εt−2 ) + φ εt−1 + εt

= φ 3 Xt−3 + φ 2 εt−2 + φ εt−1 + εt

= φ 3 (φ Xt−4 + εt−3 ) + φ 2 εt−2 + φ εt−1 + εt

= φ 4 Xt−4 + φ 3 εt−3 + φ 2 εt−2 + φ εt−1 + εt

Ahora, para definir la estacionariedad en términos del polinomio caracterı́stico, obsérvese

Considerando a B como una variable, y encontrando la raı́z del polinomio caracterı́stico:

Si se considerado el valor absoluto de φ tal que |φ | < 1, entonces:

|1| = |φ B| = |φ ||B| < |B|

Mientras que si |B| > 1, entonces:

|1| = |φ B| = |φ ||B| > |φ |

Es posible generalizar el razonamiento presentado en esta sección para un proceso AR(p),

Considérese un proceso AR(p) estacionario expresado como

Multiplicando por Xt−k con k ≥ 0

Xt−k Xt = φ1 Xt−k Xt−1 + φ2 Xt−k Xt−2 + · · · + φ p Xt−k Xt−p + Xt−k εt

Y calculando la esperanza de ambos lados de la ecuación

E[Xt−k Xt ] = E[φ1 Xt−k Xt−1 + φ2 Xt−k Xt−2 + · · · + φ p Xt−k Xt−p + Xt−k εt ]

= E[Xt−k Xt ] − E[Xt−k ]E[Xt ]

γk = φ1 γk−1 + φ2 γk−2 + φ p γk−p + E[Xt−k εt ], k > 0.

Por otro lado

= Cov(εt−k , εt ) + φ1Cov(εt−k−1 , εt ) + φ2Cov(εt−k−2 , εt ) + . . .

Obsérvese que cuando un proceso es estacionario, se cumple