Cointegración y corrección de errores

Econométrica, Vol.55, No.
2 (marzo, 1987), 251-276
COINTEGRACIÓN Y CORRECCION DE ERRORES: REPRESENTACIONES,

ESTIMACIONES Y PRUEBAS.
Por Robert F. Engle y C. W. J. Granger1
La relación entre los modelos de corrección de errores y la cointegración, sugerida

primero en Granger (1981), es aquí extendida y usada para desarrollar procedimientos de
estimación, pruebas y ejemplos empíricos.
Si cada elemento de un vector de series temporales xt logra primero estacionariedad
después de diferenciarse, pero la combinación lineal α´xt ya es estacionaria, se dice que la
serie temporal xt está cointegrada con un vector de cointegración α. Pueden haber muchos
de tales vectores de cointegración de tal forma que α se vuelve una matriz. Intepretando α
´xt = 0 como el equilibrio de largo plazo, la cointegración implica que las desviaciones del
equilibrio son estacionarias, con varianza finita, a pesar de que las series por sí mismas no
son estacionarias y tienen varianza infinita.
El documento presenta un teorema de representación basado en Granger (1983), que
conecta las representaciones de medias móviles, autorregresiva y de error de corrección
para sistemas cointegrados. Un vector de cointegración de variables diferenciadas es
incompatible con estas representaciones. Se discute la estimación de estos modelos y se
propone un estimador en dos etapas simple pero asintóticamente eficiente. Las pruebas para
cointegración combinan los problemas de las pruebas de raíz unitaria y pruebas con
parámetros no identificados bajo la nula. Siete estadísticos son formulados y analizados.
Los valores críticos de estos estadísticos son calculados basados en simulaciones de Monte
Carlo. Al usar estos valores críticos, se examinan las propiedades del poder de las pruebas y
se recomienda un procedimiento de prueba para aplicación.
En las series de los ejemplos se encuentra que el consumo y el ingreso están
cointegrados, salarios y precios no lo están, tasas de interés de corto y largo plazo sí y el
PNB nominal está cointegrado con M2, pero no con M1, M3 o con el agregado de activos
líquidos.
PALABRAS CLAVE: Cointegración, vector autorregrasivo, raíces unitarias,

corrección de errores, series temporales multivariables, pruebas de Dickey-Fuller.
1.- INTRODUCCIÓN
UNA VARIABLE ECONÓMICA INDIVIDUAL, vista como una serie temporal, puede
vagar en forma extensiva y pese a todo se puede esperar que algunos pares de la serie se
muevan de tal manera que no se desplacen demasiado lejos. Típicamente la teoría
económica propondrá unas fuerzas que tenderían a mantener juntas tales series. Ejemplos
de ello podrían ser las tasas de interés de corto y largo plazo, apropiaciones de capital y
gastos, ingreso familiar y gastos, y precios de la misma mercancía en diferentes mercados o
sustitutos cercanos en el mismo mercado. Una idea similar surge de la consideración de
relaciones de equilibrio, donde el equilibrio es un punto estacionario caracterizado por las
fuerzas que tienden a empujar a la economía de nuevo hacia el equilibrio siempre que se
mueva en otra dirección. Si xt es un vector de variables económicas, entonces se puede
decir que está en equilibrio cuando ocurre la restricción lineal específica
´xt =0
En la mayoría de los periodos de tiempo, xt no estará en equilibrio y la cantidad univariable

zt = ´xt
1
Los autores están en deuda con David Hendry y Sam Yoo por tantas conversaciones útiles y sugerencias así como
también con Gene Savin, David Dickey, Alok Bhargava y Marco Lippi. Dos árbitros que proveyeron críticas constructivas
detalladas, y gracias a Yoshi Baba, Sam Yoo y alvaro Ecribano quienes creativamente llevaron a cabo las simulaciones y
ejemplos. El soporte financiero fue dado por NSF SES-80-08580 y SES-82-08626. una versión previa de este documento se
titulaba “Especificación de Modelos Dinámicos con Restricciones en el Equilibrio: Cointegración y Corrección de Errores”.
puede ser llamada el error de equilibrio. Si el concepto de equilibrio va a tener alguna
relevancia para la especificación de modelos econométricos, parecería que la economía
preferiría un valor pequeño de zt en vez de un valor grande.
En este documento, estas ideas son puestas en una base firme y se muestra que una
clase de modelos, conocidos como de correción de errores, permiten que los componentes
de largo plazo de las variables obedezcan a las restricciones de equilibrio mientras los
componentes de corto plazo tienen una especificación dinámica flexible. Una condición
para que esto sea cierto, llamada cointegración, fue introducida por Granger (1981) y
Granger y Weiss (1983) y es precisamente definida en la próxima sección. La sección 3
discute varias representaciones de sistemas cointegrados, la sección 4 desarrolla
procedimientos de estimación, y la sección 5 desarrolla pruebas. Varias aplicaciones se
presentan en la sección 6 y se ofrecen conclusiones en la sección 7. Un ejemplo
particularmente simple de esta clase de modelos es mostrado en la sección 4, y sería muy
útil examinarlo para motivar el análisis de tales sistemas.
2. INTEGRACIÓN, COINTEGRACIÓN Y CORRECCIÓN DE ERRORES.
Es bien conocido del teorema de Wold que una simple serie temporal estacionaria sin
componentes determinísticos tiene una representación de medias móviles infinita la cual es
generalmente aproximada a un proceso de medias móviles finito. Vea, por ejemplo, Box y
Jenkins (1970) o Granger y Newbold (1977). Sin embargo, comúnmente las series
económicas estarán diferenciadas antes de que se pueda presumir que el supuesto de
estacionariedad se mantiene. Esto motiva la definición familiar de cointegración siguiente:
DEFINICIÓN: Se dice que una serie sin componentes determinísticos que tiene una
representación ARMA invertible y estacionaria después de diferenciarla d veces está
integrada de orden d, denotada xt ~ I(1).
Para facilitar la exposición, sólo se considerarán los valores d = 0 y d = 1 en gran

parte del documento, pero muchos de los resultados pueden ser generalizados a otras casos
incluyendo el modelo en diferencias fraccional. Así, para d = 0, xt será estacionaria y para d
= 1 el cambio es estacionario.
En apariencia, hay diferencias sustanciales entre una serie que es I(0) y otra que es
I(1). Para mayor discusión vea, por ejemplo, Séller (1968) o Granger y Newbold (1977).
(a) Si xt ~ I(0) con media cero entonces (i) la varianza de x t es finita; (ii) una
innovación solamente tiene efecto temporal en el valor de x t; (iii) el espectro de xt, f(ω),
tiene la propiedad 0 < f(0) < ∞; (iv) la longitud esperada de veces entre cruces de x = 0 es
finita; (v) las autocorrelaciones ρk, decrecen constantemente en magnitud para un k lo
suficientemente grande, de tal manera que su suma es finita.
(b) Si Si xt ~ I(1) con x0 = 0, entonces (i) la varianza de x t tiende al infinito a medida
que t tiende al infinito; (ii) una innovación tiene efectos permanentes en el valor de x t,
puesto que xt es la suma de los cambios previos; (iii) el espectro de x t tiene la forma
aproximada f(ω) = A ω-2d para ω pequeños de tal manera que en particular f(o) = ∞; (iv) el
tiempo esperado entre los cruces de x = 0 es infinito; (v) las autocorrelaciones teóricas, ρ k
→ 1 para todo k cuando t → ∞.
La varianza teórica infinita para una serie I(1) viene completamente de la
contribución de las frecuencias bajas, o la parte de largo plazo, de las series. Así, una serie
I(1) es más suave y tiene oscilaciones largas y dominantes, comparada con una serie I(0).
Debido al tamaño realtivo de las varianzas, es siempre cierto que la suma de una I(0) y una
I(1) será I(1). Aún más, si a y b son constantes, b ≠ 0, y si x t ~ I(d), entonces a + bxt es
también I(d).
Si xt y yt son ambas I(d), entonces generalmente es cierto que la combinación lineal
zt = xt - a yt
será también I(d). Sin embargo, es posible que z t ~ I(d-b), b > 0. Cuando ocurre esto, una
restricción muy especial opera en los componentes de largo plazo de las series. Considere
el caso d = b = 1, de tal manera que x t y yt son ambas I(1) con componentes de largo plazo
dominantes, pero zt es I(0) sin frecuencias fuertemente bajas especialmente. La constante a
es por lo tanto tal que el volumen de los componentes de x t y yt se calcelan. Para a = 1, la
vaga idea de que xt y yt no pueden desplazarse muy lejos la una de la otra ha sido traducida
a la afirmación más precisa de que “sus diferencias serán I(0)”. El uso de la constante a
simplemente sugiere que se necesita usar de algunos pasos antes de que la diferencia I(0)
pueda ser alcanzada. Se debería notar que no será generalmente cierto que hay una a que
hace zt ~ I(0).
Un caso análogo, considerando una importante frecuencia diferente, es cuando x t y
yt son un par de series que tienen cada una de ellas un componente estacional, y pese a todo
hay una a de tal manera que la serie derivada zt no tiene estacionalidad. Calramente esto
podría ocurrir, pero debe ser considerado no probable.
Para formalizar estas ideas, se introduce la siguiente definición, adaptada de
Granger (1981) y Granger y Weis (1983):
DEFINICIÓN: Se dice que los componentes del vector x t están cointegrados de

orden d, b, denotado por xt ~ CI(d, b), si (i) todos los componentes de xt son I(d); (ii) existe
un vector α( ≠ 0) de tal manera que zt = α´xt ~ I(d-b), b > 0. El vector α es llamado el vector
de cointegración.
Continuando para concentrarse el el caso d = 1, b = 1, la cointegración significaría

que si los componentes de xt fueran I(1), entonces el error de equilibrio sería I(0), y z t
raramente se deslizará lejos de cero si tiene media cero y si z t a menudo cruza la línea de
cero, Poniéndolo de otro manera, eso significa que el equilibrio ocurrirá ocasionalmente, o
al menos se dará una aproximación muy cercana, mientras que si x t no estuviera
cointegrado, entonces zt puede vagar mucho y los cruces en el cero serían muy raros,
sugiriendo que en este caso el concepto de equilibrio no tiene implicaciones prácticas.
La reducción en el orden de integración implica un tipo de relación especial con
consecuencias probables e interpretables. Sin embargo, si todos los elementos de x t ya son
estacionarios de tal manera que son I(0), entonces el error de equilibrio z t no tiene una
propiedad tistintiva si es I(0). Puede ser que z t ~ I(-1), de tal manera que su espectro es cero
a la frecuencia cero, pero si ninguna de las variables tiene error de medición, esta propiedad
en general no será observada así que este caso tiene realmente poco interés. Cuando se
interpreta el concepto de cointegración debe notarse que en el caso N = 2, d = b = 1,
Granger y Weis (1983) muestran que una condición necesaria y suficiente para
cointegración es que la coherencia entre las dos series es una en la frecuencia cero.
Si xt tiene N componentes, entonces puede que haya más de un vector de
cointegración α. Claramente, es posible que varias relaciones de equilibrio gobiernen el
comportamiento conjunto de las variables. En lo que sigue, se asumirá que hay exactamente
r vectores de cointegración linealmente independientes, con r ≤ N – 1, que están recogidos
en la matriz Nxr α. Al construir el rango de α, este será r que será llamado el “rango de
cointegración de xt.
La relación cercana entre cointegración t modelos de corrección de errores será
desarrollada en lo queda del documento. Los mecanismos de corrección de errores han sido
usados extensamente en economía. Versiones tempranas son Sargan (1964) y Phillips
(1957). La idea es simplemente que una proporción del desequilibrio en un periodo es
corregida en el próximo periodo. Por ejemplo, el cambio en el precio de un periodo puede
depender del grado de exceso de demanda en el periodo previo. Tales disposiciones pueden
ser derivadas del comportamiento optimizador con algunos tipos de costos de ajuste o de
información incompleta. Recientemente, estos modelos han recibido mucho interés al ir
apareciendo los trabajos de Davidson , Hendry, Srba y Yeo (1978) (DHSY), Hendry y von
Ungern Sternberg (1980), Curie (1981), y Salmon (1982) entre otros.
Para un sistema de dos variables uun modelo de corrección de errores típico
relacionaría el cambio de una variable a los errores de equilibrio del pasado, así como
también a los cambios pasados en ambas variables. Para un sistema multivariable podemos
definir una representación de errores de corrección en términos de B, el operador de
rezagos, como sigue.
DEFINICIÓN: Un vector de series temporales xt tiene una representación de
corrección de errores si puede ser expresada como:
A(B)(1-B) xt = -  zt-1 + t
donde ut es una disturbancia estacionaria multivariable, con A(0)=I, A(1) tiene todos sus
elementos finitos, zT=α´xT, γ≠0.
En esta representación, sólo el desequilibrio en el periodo previo es una variable

explicativa. Sin embargo, reordenando los términos, cualquier conjunto de rezagos de z
puede ser escrito en esta forma, por lo tanto permite cualquier tipo de ajuste gradual hacia
el nuevo equilibrio. Una diferencia notable entre esta definición y la mayoría de las
aplicaciones que han ocurrido es que es una definición multivariable que no descansa en la
exogeneidad de un subconjunto de variables. La noción de que una variable puede ser
débilmente exógena en el sentido de Engle, Hendry y Richard (1983) puede ser investigada
en un sistema como el que se discutirá brevemente a continuación. Una segunda diferencia
notable es que α se toma como un vector de parámetros desconocido en vez de un conjunto
de restricciones dadas por la teoría económica.
3. PROPIEDADES DE LAS VARIBLES COINTEGRADAS Y SUS

REPRESENTACIONES.
Suponga que cada componente de xt es I(1) de tal manera que el cambio en cada
componente es un proceso de media cero puramente no determinístico, estacionario y
estocástico. Cualquier componente determinístico conocido puede ser sustraído antes de
que empiece el análisis. Luego, siempre existirá una representación multivariable de Wold:
(3.1) (1-B) xt = C(B) t
que significa que ambos lados tendrán la misma matriz espectral. Aún más, C(B) estará
únicamente definida por las condiciones de que la función det[C(z)], z=eiw,
tenga todos ceros dentro o fuera del círculo unitario, y que C(0) = IN, la matriz identidad
NxN (ver Hannan, 1970, p.66). en esta representación los εt son un vector ruido blanco de
media cero con
E t  s ´  =0 t  s
=G t = s
de tal manera que sólo correlaciones contemporáneas pueden ocurrir.
El polinomio C(B) de medias móviles siempre puede ser expresado como
(3.2) C(B) = C(1) + (1-B)C*(B)
simplemente reordenando los términos. Si C(B) es de orden finito, entonces C*(B) será de
orden finito. Si C*(1) es idénticamente 0, entonces la expresión similar que involucra (1-
B)2 puede ser definida.
La relación entre los modelos de corrección de errores y la cointegración fue
puntualizada primeramente en Granger (1981). Un teorema que muestra precisamente que
las series cointegradas pueden ser representadas por modelos de corrección de errores fue
originalmente mencionada y comprobada en Granger (1983). La versión siguiente se llama
por lo tanto El Teorema de Representación de Granger. El análisis de los casos relacionados
pero más complejos lo cubre Johansen (1985) y Yoo (1985).
EL TEOREMA DE REPRESENTACIÓN DE GRANGER: si el vector Nx1 x t dado en (3.1)

está cointegrado con d=1, b=1 y con un rango de cointegración r, entonces:
(1) C(1) es de rango N-r.
(2) Existe una representación de vector ARMA.
(3.3) A(B) xt = d (B) t

con las propiedades de que A(1) tiene rango r y d(B) es un polinomio escalar de rezagos
con d(1) finito, y A(0) = IN. Cuando d(B)=1, éste es un vector de autoregresión.
(3) existen Nxr matrices α, γ, de rango r tal que
Ć(1) = 0
C(1) =0
A(1) =  ´
(4) existe una representación de corrección de errores con zt= α’xt, un vector rx1 de
variables aleatorias estacionarias:
(3.4) A*(B)(1-B) xt = -  zt-1 + d (B) t
con A*(0) = I N
(5) el vector zt está dado por :
(3.5) zt = K(B) t
(3.6) (1-B) zt-1 + J (B) t
donde K(B) es una matriz rxN de los polinomios de rezagos dados por α’C*(B) con todos
los elementos de K(1) finitos con rango r y determinante (α’γ)>0.
(6) si una representación de un vector autoregresivo finito es posible, tendrá la
forma dada por (3.3) y (3.4) de arriba con d(B)=1 y ambos A(B) y A*(B) como
matrices de polinomios finitos.
Para probar el teorema, se necesita el siguiente lema sobre determinantes y adjuntos de

polinomios de matrices singulares.
LEMA 1: si G(λ) es un polinomio de matriz finita valuada NxN en λє[0,1], con rango
G(0)=N-r para 0≤r≤N, y si G*(0)≠0 en
G() = G(0) + G*()
luego
(i) det (G()) = ´g()IN con g(0) finito,
(ii) Adj (G()) = r -1 H()
donde IN es la matriz identidad NxN, 1≤rango (H(0))≤r, y H(0) es finito.
PRUEBA: el determinante de G puede ser expresado en una serie de poder en λ como


det(G()) =   i i
i=0
cada δi es la suma de un número finito de productos de los elementos de G(λ) y por lo

tanto él mismo tiene un valor finito. Cada uno tiene algunos términos de G(0) y algunos de
λG*(λ). Cualquier producto con mas de N-r términos de G(0) será cero debido a que será el
determinante de una submatriz de orden más grande que el rango de G(0). Los únicos
términos diferentes de cero posibles tendrán r o más términos de λG*(λ) y por tanto estarán
asociados con las potencias de λ de r o más. El primer δi diferente de cero posible es δr.
Definiendo

det(G()) =   i i
i=0
se establece la primera parte de lema puesto que δr debe ser finito.

Para establecer la segunda afirmación, exprese la matriz adjunta de G en una serie de
potencias de λ:

Adj G() =  i Hi
i=0
Puesto que la adjunta es una matriz compuesta de los elementos que son determinantes
de orden N-1, el argumento anterior establece que los primeros r-1 términos deben ser
intenticamente ceros. Así:
Adj G() = r -1  i –r + 1 Hi
r =1
= r –1 H()
Debido a que los elemntos de Hr-1 son productos finito de muchos números finitos, H(0)
debe ser finito.
El producto de la matriz y su adjunta siempre dará el siguiente determinante:
r g()IN = (G(0) + G*()) H()
= G(0)H()r –1 + h()G*()r
Igualando las potencias de λ obtenemos
G(0)H(0) = 0
Así el rango de H(0) debe ser menor o igual que r porque está enteramente en la
columna de espacio nulo de la matriz de rango N-r G(0). Si r=1, el primer témino en la
expresión de la adjunta será simplemente la adjunta de G(0) la cual tiene rango 1 puesto
que G(0) tiene rango N-1. Q.E.D.
PRUEBA DEL TEOREMA DE REPRESENTACIÓN DE GRANGER: Las condiciones

del teorema suponen la existencia de una representación de Wold como en (3.1) para un
vector de variables aleatorias xt que están cointegradas. Suponga que el vector de
cointegración es α de tal manera que
zt = ´xt
es una serie temporal puramente no determinística estacionaria de dimensión r con
representación de medias móviles invertible. Multiplicando α veces la representación de
medias móviles en (3.1) da:
(1-B) zt = (Ć(1) + (1-B) Ć*(B)) t
Para que zt sea I(0), α’C(1) debe ser igual a cero. Cualquier vector con esta propiedad será
un vector de cointegración; por tanto C(1) debe tener rango N-r con un espacio nulo
conteniendo todos los vectores de cointegración. Se sigue también que α’C*(B) debe ser
una representación de medias móviles invertible y en el particular α’C*(1) ≠ 0. De otra
manera la cointegración sería con b = 2 o más.
La afirmación (2) es establecida usando el Lema 1, siendo λ = (1-B), G(λ) = C(B),

H(λ) = A(B), y g(λ) = d(B). Puesto que C(B) tiene rango completo e igual a I N con B=0, su
inversa es A(0) la cual es también IN.
La afirmación (3) se deduce del reconocimiento de que A(1) tiene rango entre 1 y r
y está en el espacio nula de C(1). Puesto que α se extiendo sobre este espacio nulo, A(1)
puede ser escrita como combinaciones lineales de los vectores de cointegración
A(1) = ´
La afirmación (4) se deduce de la manipulación de la estructura autorregresiva.

Reordenando los términos de (3.1) da:
 Ã(B) + A(1) (1-B) xt = -A(1)xt-1 + d(B) t
A*(B)(1-B) xt =- zt-1 + d(B) t
A*(0) = A(0) = IN
La quinta condición se deduce de la sustitución directa en la representación de
Wold. La definición de cointegración implica que estas medias móviles deben ser
estacionarias e invertibles. Rescribiendo la representación de corrección de errores con
A*(B) = I + A**(B) donde A**(0) = 0, y premultiplicando por α’ nos da:
(1-B) zt =- ´zt-1 + ´d(B) + Á**(B)C(B)   t
=- ´zt-1 + J(B)  t
Para que esto sea equivalente con la representación de medias móviles la autorregresión
debe ser invertible. Esto requiere que det(α’γ) > 0. Si el determinante fuera cero entonces
debería haber al menos una raíz unitaria, y si el determinante fuera ngativo, entances para
algunos valores de w entre cero y uno,
det (Ir - (Ir - ´)w) = 0

implicando una raíz dentro del círculo unitario.
La condición seis se deduce de la repetición de los pasos previos, fijando d(B) = 1.
Q.E.D.
Resultados más fuertes pueden ser obtenidos con más restricciones en la

multiplicidas de las raíces en las representaciones de medias móviles. Por ejemplo, Yoo
(1985), usando las formas de Smith Macmillan, encuentra condiciones que establece que
d(1) ≠ 0, que A*(1) es de rango completo y que facilitan la transformación de modelos de
corrección de erroresa modelos cointegrados. Sin embargo, los resultados dados
anteriormente son suficientes para los problemas de estimación y pruebas planteados en
este documento.
Las representaciones autorregresivas t de corrección de errores dadas por (3.3) y
(3.4) están muy relacionadas a los modelos de vectores autorregresivos comúnmente usados
en la econometría, particularmente en el caso cuando d(B) puede razonablemente ser
tomado como 1. sin embargo, cada una de ellos difieren en una cosa importante de las
aplicaciones VAR. En la representación autorregresiva
A(B) xt = t
la cointegración de las variables xt genera una restricción que hace A(1) singular. Para r = 1,
esta matriz tendrá solamente rango 1. El análisis de tales sistemas desde el punto de vista de
la contabilidad de innovación es traicionero como algunas aproximaciones numéricas del
cálculo de la representación de medias móviles son altamente inestables.
La representación de corrección de errores
A*(B)(1-B) xt = -´ xt-1 + t
se ve más como un vector autorregresivo estándar en diferencias de los datos. Aquí la
cointegración está implicada por la presencia de los niveles de las variables de tal manera
que un VAR puro en diferencias estará mal especificado si las variables están cointegradas.
Tal estimación del vector autorregresivo con datos cointegrados estará mal
especificada si los datos están diferenciados, y habrá omitido importantes restricciones si se
usan los datos en niveles. Por supuesto, estas restricciones serán satisfechas asintóticamente
pero se puede ganar en eficiencia y lograr pronósticos de varios pasos imponiéndolas.
Si xt ~ I(1), zt ~ I(0), se debería notar que todos los términos en los modelos de
corrección de errores son I(0). Lo contrario también se mantiene; si x t ~ I(1) son generados
por un modelo de corrección de errores, entonces xt está necesariamente cointegrada. Se
puede notar también que si xt ~ I(0), el proceso generador siempre puede ser escrito en la
forma de corrección de errores y así, en este caso, el concepto de equilibrio no tiene
impacto.
Como se mencionó atrás, ejemplos típicamente empíricos de comportamiento de
corrección de errores son formulados como la respuesta de una variable, la variable
dependiente, a los shocks de otra, la variable independiente. En este documento todas las
variables son tratados como conjuntamente endógenas; sin embargo la estructura del
modelo puede implicar varios órdenes de causalidad de Granger y condiciones de
exogeneidad débil y fuerte como en Engle, Hendry y Richard (1983). Por ejemplo, un
sistema cointegrado bivariable debe tener un orden de causalidad en al menos una
dirección. Debido a que las z’s deben incluir ambas variables y γ no puede ser
idénticamente cero, ellas deben entrar en una a ambas de las ecuaciones. Si el término de
corrección de errores entra en ambas ecuaciones, ninguna variables puede ser débilmente
exógena para los parámetros de la otra ecuación debido a la restricción cruzada de la
ecuación.
La noción de cointegración puede en principio extenderse a series con tendencia o

raíces autorregresivas explosivas. En estos casos el vector de cointegración seguiría siendo
requerido para reducir las series a la estacionariedad. Por lo tanto las tendencias tendrían
que ser proporcionales y cualquier raíz explosiva tendría que ser idéntica para todas las
series. No consideramos estos casos en este documento y reconocemos que pueden
complicar los problemas de estimación y pruebas.
4. ESTIMACIÓN DE SISTEMAS COINTEGRADOS.
Al definir diferentes formas de sistemas cointegrados, se han discutido

implícitamente muchos procedimientos de estimación. La más conveniente es la forma de
corrección de errores (particularmente si se puede asumir que no hay términos de medias
móviles). Quedan las restricciones cruzadas de ecuación restantes que involucran los
parámetros de los vectores de cointegración; y por lo tanto el estimador de máxima
verosimilitud, bajo supuestos gaussianos, requiere un procedimiento iterativo.
En esta sección, propondremos otro estimador que es de dos etapas. En el primer
paso los parámetros del vector de cointegración son estimados y en el segundo son usados
en la forma de corrección de errores. Ambos pasos solamente requieren una simple
ecuación demínimos cuadrados y se mostrará que le resultado es consistente para todos los
parámetros. El procedimiento es mucho más conveniente debido a que las dinámicas no
necesitan ser especificadas hasta que la estructura de corrección de errores haya sido
estimada. Como subproducto obtenemos algunos estadísticos útiles para probar la
cointegración.
De (3.5), la matriz de momentos de la muestra de datos puede ser directamente
expresada. Sea la matriz de momentos dividida por T denotada como:
MT = 1/T2  xt xt ´
t
recordando que zt = α’xt, (3.5) implica que
´ MT =  K (B) t  xt ´ / T2
t
Siguiendo el argumento de Dickey y Fuller (1979) o Stock (1984), se puede mostrar que
para procesos que satisfagan (3.1),
(4.1) lim E(MT) = M
T
y
(4.2) ´ M = 0 o (vec )´(I  M) =0
Aunque la matriz de momentos de los datos de un proceso cointegrado será no singular

para cualquier muestra, en el límite, tendrá rango N-r. Esto concuerda bien con la
observación común de que las series temporales económicas son fuertemente colineales de
tal manera que las matrices de momentos pueden ser cercanamente singulares aún cuando
las muestras son grandes. La cointegración aparece como una hipótesis plausible desde un
punto de vista analítico de los datos.
Las ecuaciones (4.2) no solamente definen los vectores de cointegración a menos
que se impongan normalizaciones arbitrarias. Sea q y Q las matrices que incorporan estas
normalizacioens reparametrizando α en θ, una matriz jx1 de parámeros desconocidos que
están en uun subconjunto compacto de Rj:
(4.3) vec  = q + Q
típicamente q y Q serán todos ceros y unos, y por eso se define un coeficiente en cada
columna de α como la unidad y se define las rotaciones si r > 1. Se dice que los parámetros
θ están “identificados” si hay una única solución para (4.2) y (4.3). Esta solución está dada
por
(4.4) (I  M) Q = - (I  M)q
donde por supuesto de identificación, (I Ο M)Q tiene una inversa izquierda aunque M no la
tiene.
Como la natriz de momentos MT tendrá rango completo para muestras finitas, una
aproximación razonable para la estimación es minimizar la suma de las desviaciones del
equilibrio al cuadrado. En el caso de un simple vector de cointegración, α minimizará el
término α’MTα de cualquier restricción tal como (4.2) y el resultado será simplemente de
mínimos cuadrados ordinarios. Para múltiples vectores de cointegración, defina α como el
minimizador de la traza de (α’MTα). El problema de estimación se vuelve:
Min tr (´MT ) = Min vec ´ (I  MT) vec 
 s.t.(4.3) s.t(4.3)
= Min (q + Q)´(I  MT)(q+ Q)
0
que implica la solución

(4.5) ^ ^ ^
 = - (Q´ (I  MT)Q)-1 (Q´( I  MT)q), vec  = q + Q
Esta aproximación a la estimación debería proveer una muy buena aproximación al

verdadero vector de cointegración debido a que se está buscando vectores con varianza de
residuos mínima y asintóticamente toda combinación lineal de x tendrá varianza infinita
excepto aquella que es de los vectores de cointegración.
Cuando r = 1 este estimador se obtiene simplemente regresando la variable
normalizada que tiene coeficiente uno contra las otras variables. Esta regresión se llamará
la “regresión de cointegración” puesto que intenta establecer la relación de equilibrio de
largo plazo sin preocuparse de las dina´micas. Se mostrará para proveer un estimado de los
elementos del vector de cointegración. Tal regresión ha sido llamada peyorativamente
regresión “espúrea” por Granger y Newbold (1974) primeramente porque los errores
estándar son altamente engañosos. Ellos estuvieron particularmente preocupados acerca del
caso de no cointegración donde no hay relación pero la raíz unitaria en el proceso de los
errores produce uun Durbin Watson bajo, un alto R 2 y aparentemente significancia muy alta
en los coeficientes. Aquí solamente buscamos estimaciones de los coeficientes para usar en
el segundo paso y para pruebas para las relaciones de equilibrio. Se investiga la distribución
de los coeficientes estimados en Stock (1984).
Cuando N = 2, hay dos posibles regresiones dependiendo de la normalización

escogida. Los estimados no son único debido al hecho bien conocido de que la fijación de
mínimos cuadrados en la regresión revertida no dan el recíproco de los coeficientes de la
anterior regresión. Sin embargo, en este caso la normalización importa muy poco. Mientras
la matriz de momentos se aproxima a la singularidad, el R 2 se aproxima a 1 que es el
producto de los coeficientes de las dos posibles ecuaciones. Esto sería exactamente cierto si
hubieran solamente dos puntos de datos que, por supuesto, definen una matriz singular.
Para variables que tienen tendencia conjunta, la correlación se aproxima a una mientras
cada varianza se aproxima al infinito. La línea de regresión pasa cerca de los puntos
extremos casi como si hubieran solamente dos observaciones.
Stock (1984) en el Teorema 3 prueba la siguiente proposición:
PROPOSICIÓN 1: suponga que xt satisface (3.1) con C*(B) absolutamente sumable, que
las distubancias tienen hasta el cuarto momento absoluto finito, y que x t está cointegrada
(1,1) con r vctores de cointegración satisfaciendo (4.3). Entonces, definiendo θ por (4.5),
^ p
(4.6) T 1- ( - )  0 para  > 0
La proposición establece que los parámetros estimados convergen muy rápido a sus
probabilidades límite. También establece que los estimados son consistentes con un sesgo
de muestras finitas de orden 1/T. Stock presenta algunos experimentos de Monte Carlo para
mostrar uqe estos sesgos pueden ser importantes para muestras pequeñas y da expresiones
para calcular la distribución límite de tales estimados.
Los estimadores de dos etapas propuestos para este sistema de cointegración usan el
estimado de α de (4.5) como un parámetro conocido en la estimación de la forma de
corrección de errores del sistema de ecuaciones. Esto simplifica sustancialmente el
procedimiento de estimación al imponer las restricciones cruzadas de las ecuaciones y
permite la especificación de los patrones dinámicos de cada ecuación separadamente. Note
que las dinámicas no tienen que ser especificadas para estimar α. Sorprendentemente, este
estimador de dos etapas tiene excelentes propiedades; como se muestra en el teorema
siguiente, es tan efciente como el estimador de máxima verosimilitud basado en el valor
conocido de α.
TEOREMA 2: El estimador de dos etapas de una simple ecuación de un sistema de

corrección de errores, obtenido de tomar α de (4.5) como el verdadero valor, tendrá la
misma distribución límite que el estimador de máxima verosimilitud usando el verdadero
valor de α. Los errores estándar de mínimos cuadrados serán estimadores consistentes de
los verdaderos errores estándar.
PRUEBA: Rescriba la primera ecuación del sistema de corrección de errores (3.4) como:
^ ^
yt =  zt-1 + WtB + t + ( zt-1 - zt-1)
zt = Xt 
^ ^
zt = Xt 
donde Xt = xt’, W es un vector con los elementos seleccionados de Δx t-1 y y es un elemento

de Δxt de tal manera que todos los regresores son I(0). Luego haciendo que las mismas
variables sin subíndices denote la matriz de datos,
^ ^ ^ ^
T  -  = ( z, W)´(z,W)/T-1 (z,W)´(  + )(z – z ) T
B -B
Esta expresión se simplifica debido que z’(z-z) = 0. De Fuller (1976) o stock (1984),
X’X/T2 y X’W/T son ambos de orden 1. rescribiendo.
^ ^
W´(z- z )/ T = W´X/T T( - ) 1- T
y por lo tanto el primero y segundo factores a la derecha del signo igual son de orden 1 y el
tercero va hacia cero de tal manera que la expresión entera se desvanece asintóticamente.
Debido a que los términos en (z – z)/√T se desvanecen asintóticamente, los errores estándar
de mínimos cuadrados serán consistentes.
Haciendo que S = plim[(z, W)’(z, W)/T],
A
T  -   D(0, 2S-1)
B -B
donde D representa la distribución límite. Bajo supuestos nuevos pero estándares, pude
garantizarse que sea normal.
Para estasblecer que el estimador que usa el verdadero valor de α tiene la misma
distribución límite es suficiente mostrar que la probabilidad límite de [(z, W)’(z, W)/T] es
también S y que z’ε/√T tiene la misma distribución límite que z’ε/√T. Examinando los
términos de afuera de la diagonal de S primero,
^ ^
z´W/T – z´W/T = T( - )´W´X/T(1/T)
Los factores primero y segundo son de orden 1 y el tercero es 1/T así que la expresión
entera se desvanece asintóticamente:
^ ^ ^ ^
(z –z)´(z – z) / T = z´z / T – z´z /T
^ ^
=T( - )´X´X/T T ( - )(1/T)
2
De nuevo, los primeros tres factores son de orden 1 y el último es 1/T de tal manera que
aunque la diferencia entre estas matrices de covarianzas esta positivamente definida, se
desvanecerá asintóticamente. Finalmente,
^ ^
(z –z)´ / T =T( - )´X´ /T 1/T
que de nuevo se desvanece asintóticamente.

Bajo condiciones estándar el estimador que usa el conocimiento de α será
asintóticamente normal y por lo tanto el estimador de dos etapas será también
asintóticamente normal bajo estas condiciones. Esto completa la prueba. Q.E.D.
Un simple ejemplo ilustrará muchos de estos puntos y motivará la aproximación de

las pruebas descritas en la próxima sección. Suponga que hay dos series, x 1t y x2t, que están
conjuntamente generadas como una función de disturbancias de ruido blanco posiblemente
correlacionadas ε1t y ε2t de acuerdo al siguiente modelo:
(4.7) x1t + Bx2t = 1t 1t= 1t-1 + 1t
(4.8) x1t + x2t = 2t 2t= 2t-1 + 2t  < 1
claramente los parámetros α y β no están identificados en el sentido usual de que no hay

variables exógenas y los errores están contemporáneamente correlacionados. La forma
reducida para este sistema hará de x1t y x2t combinaciones lineales de u1t y u2t y por lo tanto
ambas serán I(1). La segunda ecuación describe una combinación lineal particular de las
variables aleatorias que es estacionaria. Por lo tanto x 1t y x2t son CI(1,1) y la pregunta es si
sería posible detectar esto y estimar los parámetros del conjunto de datos.
Sorprendentemente, es fácil hacerlo. Una regresión lineal de mínimos cuadrados de
x1t en x2t produce un excelente estimador de α. Este es la “regresión de cointegración”.
Todas las combinaciones lineales de x1t y x2t excepto la definida en la ecuación (4.8)
tendrán varianza infinita y, por lo tanto, mínimos cuadrados es fácilmente capaz de estimar
α. La correlación entre x2t y u2t que causa el sesgo en las ecuaciones simultáneas es de un
orden menor en T que la varianza de x 2t. De hecho la regresión al revés de x 2t en x1t tiene
exactamente la misma propiedad y así da un estimador consistente de 1/α. Estos
estimadores convergen aún más rápido al valor real que los estimadores econométricos
estándares.
Mientras que hay otros estimadores consistentes de α, varias elecciones
aparentemente obvias no existen. Por ejemplo, la regresión en primeras diferencias de x 1 en
las diferencias x2 no será consistente, y el uso de Cochrane Orcutt u otra corrección de
correlación serial en la regresión de cointegración producirá estimadores inconsistentes.
Una vez que el parámetro α ha sido estimado, los otros pueden ser estimados de muchas
maneras condicionales al estimado de α.
El modelo en (4.7) y (4.8) puede ser expresado en la representación autorregresiva
(después de sustraer los valores rezagados de ambos lados y haciendo que δ = (1-ρ)/(α-β)
como:
(4.9)  x1t = B x1t-1 +  B x2t-1 + 1t
(4.10)  x2t = - x1t-1 -   x2t-1 + 2t
donde los η’s son combinaciones lineales de los ε’s. La representación de corrección de
errores se vuelve:
(4.11)  x1t = B zt-1 + 1t
(4.12)  x2t = - zt-1 + 2t
donde zt = x1t + αx2t. Hay dos parámetros desconocidos peor la forma autorregresiva
aparentemente tiene cuatro coeficientes desconocidos mientras que la forma de corrección
de errores tiene dos. Una vez que α es conocido no hay más restricciones en la forma de
corrección de errores lo cual motiva el estimador en dos etapas. Note que si ρ→1, las series
son paseos aleatorios correlacionados pero ya no están cointegrados.
5.PRUEBAS PARA COINTEGRACIÓN.
Es frecuentemente de interés probar si un conjunto de variables están cointegradas.

Esto puede ser desable debido a las implicaciones económicas tales como si algún sistema
está en equilibrio en el largo plazo, o si puede ser sensible a probar tales hipótesis antes de
estimar un modelo dinámico multivariable.
Desafortunadamente lo establecido no es estándar y no puede ser simplemente visto
como una aplicación de Wald, tasa de probabilidad o pruebas del multiplicador de
Lagrange. Elproblema de las pruebas está muy relacionado a las pruebas de raíz unitaria en
series observadas como inicialmente lo formuló Fuller (1976) y Dickey y Fuller
(1979,1981) y más recientemente por Evans y Savin (1981), Sargan y Bhargava (1983), y
Bhargava (1984), y aplicado por Nelson y Plosser (1983). Está también relacionado al
problema de las pruebas cuando algunos parámetros no están identificados bajo la nula que
discutió Davies (1977) y Watson y Engle (1982).
Para ilustrar los problemas al probar tales hipótesis, considere el simple modelo en
(4.7) y (4.8). Se toma la hipótesis nula de no cointegración o ρ=1. Si α fuera conocido,
entonces una prueba para la hipótesis nula puede ser construida en la línea de Dickey y
fuller tomando zt como la serie que tiene raíz unitaria bajo la nula. La distribución en este
caso ya no es estándar y fue computada durante una simulación de Dickey (1976). Sin
embargo, cuando α no es conocida, debe ser estimada de los datos. Pero si la hipótesis nula
de que ρ = 1 es cierta, α no está identificada. Así, solamente si las series están cointegradas
puede α ser estimada simplemente por la “regresión de cointegración”, pero una prueba
debe estar basada en la distribución del estadístico cuando la nula es cierta. MCO buscan la
α que minimiza la varianza de los residuos y por lo tanto es más probable que sea
estacionaria, así que la distribución de la prueba de Dickey-Fuller rechazará la nula muy a
menudo si α sebe ser estimada.
En este documento un conjunto de siete estadísticos es propuesto para probar la nula
de no cointegración contra la alternativa de cointegración. Se mantiene que el sistema
verdadero es un vector autorregresivo lineal bivariable con errores gaussianos donde cada
una de las series es individualmente I(1). Mientras se compone la hipótesis nula, se
buscarán pruebas similares de tal manera que la probabilidad de rechazo será constante
sobre el conjunto de parámetros incluidos en la nula. Vea, por ejemplo, Cox y Hikley
(1974, p.134-136).
Se pueden distinguir dos casos. En el primero, se conoce que el sistema es de primer
orden y por lo tanto la nula setá definida como
(5.1) yt = 1t ,  (1t) 
xt = 2t (1t) ~ N(0,)
Este es claramente el modelo implicado por (4.11) y (4.12) cuando ρ = 1 lo cual implica
que δ = 0. así la nula compuesta incluye matrices de covarianza definidas Ω todas positivas.
Se mostrará abajo que todos los estadísticos de prueba son similares con respecto a la
matriz Ω, así que sin perder generalidad, tomamos Ω = I.
En el segundo caso, se asume que el sistema es meramente un sistema lineal
estacionario en los cambios. Consecuentemente, la nula es definida sobre un conjunto
completo de coeficientes autorregresivos y de medias móviles estacionarios como en Ω.
Las pruebas “aumentadas” descritas abajo son formadas para ser asintóticamente similares
para este caso tal como lo establecieron Dickey y Fuller para las pruebas univariables.
Los siete estadísticos de prueba propuestos son todos calculables por mínimos
cuadrados. Los valores críticos son estimados para cada uno de estos estadísticos por
simulación usando 10,000 réplicas. Al usar estos valores críticos, las potencias de los
estadísticos de prueba son calculadas por simulación bajo varias alternativas. Una breve
motivación de cada prueba es muy útil.
1. CRDW. Después de correr la regresión de cointegración, el estadístico de durbin
Watson se usa para ver si los residuos parecen ser estacionarios. Si no son estacionarios, el
Durbin Watson se aproximará a cero y así la prueba rechaza la no cointegración (encuentra
cointegración) si el DW es demasiado grande. Esto fue propuesto recientemente por
Bhargava (1984) para el caso donde la serie es observada y la nula y la alternativa son
modelos de primer orden.
2. DF. Este prueba los residuos de la regresión de cointegración al correr una
regresión auxiliar como la describieron Dickey y Fuller y como se bosqueja en la Tabla 1.
También asume que ell modelo de primer orden es el correcto.
3. ADF. La prueba de Dickey-Fuller aumentada permite más dinámicas en la
regresión DF y consecuentemente está sobreparametrizada en el caso de primer orden pero
correctamente especificada en los casos de orden más alto.
4. RVAR. La prueba del vector autorregresivo restringido es similar al estimador de
etapas. Condicional al estimado del vector de cointegración de la regresión de
cointegración, se estima la representación de corrección de errores. La prueba es de si el
término de corrección de errores s significativo. Esta prueba requiere de especificación de
todas las dinámicas del sistema. En este caso se asume un sistema de primer orden.
Haciendo el sistema triangular, las disturbancias no están correlacionadas y bajo
normalidad los estadísticos t son independientes. La prueba está basada en la suma de los
estadísticos t al cuadrado.
5. ARVAR. El RVAR aumentado es el mismo que el RVAR excepto que se postula
un sistema de orden más alto.
6. UVAR. La prueba del VAR no restringido se basa en un vectore autorregresivo en
los niveles que no está restringido para satisfacer las restricciones de cointegración. Bajo la
nula, éstas no están representadas de ninguna manera así que la prueba se simplemente de si
los niveles aparecerán del todo, o de si el modelo puede ser adecuadamente expresado
enteramente en cambios. De nuevo por triangulación de los coeficientes de la matriz, la
prueba F de las dos regresiones puede ser hecha independiente y toda la prueba es la suma
de los dos F’s con 2 grados de libertad. Este asume de nuevo un sistema de primer orden.
7. AUVAR. Esta es una versión de orden más alto o aumentada de la prueba
anterior.
Para establecer la similitud es estas pruebas para el caso de primer orden para matrices Ω
simétricas definidas positivas, es suficiente mostrar que los residuos de la regresión de y en
x para Ω general será un múltiplo escalar de los residuos para Ω = 1. Para mostrar esto, sea
ε1t y ε2t como independientemente normales estándar. Luego
(5.2) yt =  1 i
i = 1, t
xt =  2 i
i = 1, t
(5.3) ut = yt - xt  xt yt /  xt2
Para generar y* y x* de Ω, sea

(5.4) *2 t = c2 t
*1 t = a2 t + b1 t
donde:
c=wxx , a= wyx / c , b2 =wyy-w2yx / wxx
luego sustituyendo (5.4) en (5.2)
x* =cx , y*= ay + bx ,
u*= y* - x* y*t x*t / x*2t
= ay + bx – cx (a yt + b xt)cxt /  c2 x2 t
= au
mostrando así la similitud exacta de las pruebas. Si se usan los mismos números aleatorios,
se obtendrán los mismos estadísticos de prueba no haciendo caso de Ω.
En el caso más complicado pero más realista en que el sistema es de orden infinito
pero que puede ser aproximado a una autorregresión de orden p, los estadísticos serán
similares sólo asintóticamente. Aunque la exacta similitud se logra en el modelo de
regresores fijos gaussiano, esto no es posible en modelos de series temporales donde no se
puede condicionar a los regresores; los resultados de similitud son sólo asintóticos. Las
pruebas 5 y 7 son por lo tanto asintóticamente similares si el modelo de orden p es el
verdadero pero las pruebas 1,2,4 y 6 definitivamente ni siquiera son similarmente
asintóticas puesto que estas pruebas omiten regresores de rezagos. (esto es análogo a los
errores estándar sesgados resultantes de errores serialmente correlacionados). Es con esta
base que preferimos no sugerir las últimas pruebas excepto para el caso de primer orden. La
prueba 3 también será similarmente asintótica bajo el supuesto de que u, el residuo de la
regresión de cointegración, sigue un proceso de orden p. Este resultado es probado en
Dickey y Fuller (1981, pp.1065-1066). Mientras el supuesto de que el sistema es de orden p
permite a los residuos ser de orden infinito, probablemente haya un modelo autorregresivo
finito, posiblemente de orden menor que p, que será una buena aproximación. Uno podrí
por tanto sugerir algún experimento para encontrar el valor apropiado de p en cada caso.
Una estrategia alternativa sería de hacer que p sea una función estocástica de T que crece
lentamente, la cual esta muy relacionada a la prueba propuesta por Phillips (1985) y
Phillips y Durlauf (1985). Sólo experimentos de simulación sustanciales determinarán si es
preferible usar una selección de p basada en los datos para este procedimiento de prueba
aunque la evidencia presentada abajo muestra que la estimación de parámetros ajenos hará
caer la potencia de las pruebas.
En la tabla 1, los siete estadísticos de prueba son formalmente presentados. En la
tabla 2, se consideran los valores críticos y potencias de las pruebas cuando el sistema es de
primer orden. Aquí, se esperaría que las pruebas aumentadas tengan menor potencia debido
a que ellas estiman parámetros que en realidad son cero bajo la nula y la alternativa. Las
otras cuatro pruebas estiman parámetros no ajenos y están correctamente especificadas para
este experimento.
De la tabla 2 uno puede realizar una prueba al 5% de la hipótesis de no
cointegración con la prueba de Durbin Watson con la regresión de cointegración,
simplemente verificando el DW de esta regresión y, si excede a 0.386, rechazar la nula y
encontrar cointegración. Si el verdadero modelo es el Modelo II con ρ = 0.9 más bien que
1, esto será detectado solamente el 20% de las veces; sin embargo si el verdadero ρ = 0.8 la
detección crece al 66%. Claramente, la prueba 1 es la mejor en cada uno de los cálculos de
potencia y debería ser preferida para lo establecido, mientras que la prueba 2 es segunda en
casi todos los casos. Note también que las pruebas aumentadas tienen prácticamente los
mismos valores críticos que las pruebas básicas; sin embargo, como se espera, ellas tienen
una potencia ligeramente menor. Por lo tanto, si se conoce que el sistema es de primer
orden, no deberían introducirse rezagos extra. Queda por establecerse si una prueba anterior
para el orden sería útil.
En la tabla 3 las hipótesis nula y alternativa tienen autorregresiones de cuarto orden.
Por lo tanto, ahora las pruebas básicas no aumentadas están mal especificadas mientras que
las aumentadas están correctamente especificadas (aunque algunos de los rezagos que
intervienen podrían ser fijados a cero si se supiera). Note ahora el salto en los valores
críticos de las pruebas 1,4 y 6 causado por su no similitud. Usando estos nuevos valores
críticos, la prueba 3 tiene más potencia para la alternativa local mientras que ρ = 0.8, la
prueba 1 es la mejor seguida de la 2 y la 3. las pruebas mal especificadas o no aumentadas 4
y 6 se realizan muy mal en esta situación. Aunque tuvieran moderadamente más poder en la
tabla 2, la consideración de su realización se descarta aquí.
Aunque la prueba 1 tiene la mejor realización de todas, no es la elección recomendada para
este experimento porque elvalor crítico es muy sensible a los parámetros de la nula. Para la
mayoría de los datos económicos las diferencias no son ruido blanco y , por lo tanto, uno en
la práctica no podría saber qué valor crítico usar. La prueba 3, la prueba de Dickey-Fuller
aumentada, tiene esencialmente el mismo valor crítico para ambos experimento de muestras
finitas, tiene teóricamente el mismo valor crítico de muestras grandes para ambos casos y
tiene muchas muy buenas propiedades de potencia observadas, y es por lo tanto la
aproximación recomendada.
Debido a su simplicidad, la CRDW deberá ser usada para rápido resultado aproximado.
Afortunadamente, ninguno de los mejores procedimientos requiere la estimación de todo el
sistema,solamente la regresión de cointegración y luego tal vez una regresión de serie
temporal auxiliar.
Este análisis deja muchas preguntas sin responder. Los valores críticos solamente han sido
construidos para un tamaño de muestra y para el caso bivariable, aunque recientemente,
Engle y Yoo (1986) han calculado los valores críticos para más variables y tamaños de
muestra usando la misma aproximación general. Todavía no hay una teoría óptima para
tales pruebas y aproximaciones alternativas pueden resultar ser superiores. La investigación
sobre la teoría de la distribución límite de Phillips (1985) y Phillips y Durlauf (1985) puede
que lleve a mejorar la realización de las pruebas.
Sin embargo, parece que los valores críticos para al ADF dadas en la tabla 2 pueden
ser usados como una guía burda en estudios de aplicación en este punto. La próxima
sección proveerá una variedad de ilustraciones.
EJEMPLOS
Se representarán muchos ejemplos empíricos para mostrar la realización de las

pruebas en la práctica. La relación entre el consumo y el ingreso será estudiado con algún
detalle como fue analizado desde el punto de vista de corrección de errores en DHSY y el
punto de vista de series temporales en Hall y otros (1978). Un análisis breve de salarios y
precios, tasas de interés de corto y largo plazo y la velocidad del dinero concluirá esta
sección.
DHSY han presentado evidencia para el modelo de corrección de errores del
comportamiento del consumidor desde ambos puntos de vista, el empírico y el teórico. Los
consumidores hacen planes que pueden ser frustrados; ellos ajustan los planes del próximo
periodo para resarcirse de la porción de error entre el ingreso y el consumo. may encuentra
que el consumo de los EE.UU. es un paseo aleatorio y que los valores pasados del ingreso
no tienen poder de explicación lo que implica que el ingreso y el consumo no están
cointegrados, al menos si el ingreso no depende del término de corrección de errores.
Ninguno de estos estudios modela al ingreso por sí mismo y es tomado como exógeno en
DHSY.
Usando el consumo real per cápita trimestral de perecederos y el ingreso disponible
real per cápita trimestral de 1947-I hasta 1981-II, se verificó primero que las series sean
I(1). Regresando el cambio en el consumo con su nivel pasado y dos cambios pasados se
obtuvo un estadístico t de 0.77 que tiene inclusive el signo equivocado para ser estacionario
en niveles. Corriendo el mismo modelo con segundas diferencias en primeras diferencias
rezagadas y dos rezagos en segundas diferencias, el estadístico t fue de –5.36 indicando que
la primera diferencia es estacionaria. Para el ingreso, se usaron cuatro rezagos pasados y los
dos estadísticos t fueron de –0.1 y –6.27 respectivamente, estableciendo de nuevo que el
ingreso es I(1).
Se corrió la regresión de cointegración del consumo (C) en el ingreso (Y) y una
constante. El coeficiente de Y fue de 0.23 (con un estadístico t de 123 y un R 2 de 0.99). Sin
embargo el estadístico DW fue de 0.465 indicando que en una u otra tabla de valores
críticos uno rechaza la nula de “no cointegración” o se acepta la cointegración al menos al
nivel del 5%. Regresando el cambio en los residuos en los niveles pasados y con cuatro
cambios rezagados, el estadístico t en el nivel es de 3.1 que es esencialmente el valor crítico
de la prueba ADF al 5%. Debido a que los rezagos no fueron significativos, se corrió la
regresión DF obteniéndose un estadístico t de 4.3 que es significativo al nivel del 1%,
ilustrando que cuando es apropiado, es una prueba más potente. En la regresión al revés de
Y en C, el coeficiente es de 4.3 que es el recíproco de 0.23, el mismo que el coeficiente en
la regresión anterior. El DW es ahora 0.463 y el estadístico t de la prueba ADF es 3.2. De
nuevo el DF de primer orden parece ser el apropiado y da un estadístico t de 4.4. En
cualquier forma de regresión que se corra, los datos rechazan la nula de no cointegración a
cualquier nivel por encima del 5%.
Para establecer que la distribución cnjunta de C y Y es un sistema de corrección de
errores, se estimó un modelo de series. Un vector autorregresivo no restringido del cambio
en el consumo de cuatro rezagos en el consumo y en los cambios del ingreso más los
niveles rezagados del consumo y del ingreso se da en la tabla 4. Los niveles rezagados son
del signo y tamaño apropiados para el término de corrección de errores y son
individualmente significativos o cercanos a eso. De todos los cambios rezagados, solamente
el primer rezago del cambio en el ingreso es significativo. Así el modelo final tiene un
término de corrección de errores estimado de la regresión de cointegración y un rezago del
cambio en el ingreso. El error estándar de este modelo es aún más bajo que el del VAR
sugiriendo la eficiencia de las restricciones en los parámetros. El modelo final pasa una
prueba de diagnóstico de series para correlación serial, variables dependientes rezagadas,
no linearidad, ARCH y variables omitidas así como también tendencia temporal y otros
rezagos.
Uno debe notar que una estrategia de construcción de modelos fácil en este caso sería la de
estimar el modelo más simple de corrección de errores primero t después probar para
rezagos adicionados de C y Y, procediendo en una especificación de investigación
“particular a general”.
El proceso de construcción del modelo para Y produce un modelo similar. Se estimó
el mismo VAR no restringido y depurado a un modelo simple con el término de corrección
de errores, el primero y el cuarto rezago del cambio en C y el cuarto rezago del cambio en
Y. La corrección de errores no es realmente significativa con un estadístico t de –1.1
sugiriendo que el ingreso de hecho puede ser débilmente exógeno aunque las variables
están cointegradas. En este caso el error estándar de la regresión es ligeramente más alto en
elmodelo restringido pero la diferencia no es significativa. Las pruebas de diagnóstico son
generalmente buenas.
Campbell (1985) usa una estructura similar para desarrollar una prueba para la
hipótesis del ingreso permanente que incorpora el comportamiento de “salvaguardas para
un día lluvioso”. En este caso el término de corrección de errores es aproximado a la
salvaguarda que debería ser alta cuando se espera que el ingreso caiga (tal como cuando el
ingreso corriente está por encima del ingreso permanente). Usando una medida ancha para
el consumo y una medida estrecha para el ingreso él encontró que el término de corrección
de errores era significativo en la ecuación del ingreso.
El segundo ejemplo examina los salarios reales y precios mensualesen los EE.UU.
Los datos son los logaritmos del índice de precios al consumidor y los salarios de los
trabajadores en la producción de manufacturas en las tres décadas de los 50’s, 60`s y 70`s.
De nuevo, la prueba es corrida en ambas direcciones para mostrar que hay muy poca
diferencia en los resultados. Para cada una de las décadas hay 120 observaciones de tal
manera que los valores críticos tabulados deberían ser apropiados.
Para el periodo de muestra completo el Durbin Watson de la regresión de
cointegración en cualquier dirección es un notable 0.0054. Uno sospecha que este será no
significativamente diferente de cero aún para muestras más grandes que esta. Mirando al
estadístico de la prueba de Dickey-Fuller aumentada, para p en w encontramos –0.6 y para
w en p encontramos +2. Adicionando doce rezagos en las pruebas ADF se mejora el ajuste
sustancialmente y se elevan los estadísticos de prueba a 0.88 y 1.5 respectivamente. En
ningún caso se aproximan al valor crítico de 3.2. La evidencia acepta la nula de no
cointegración de los precios con los salarios sobre el periodo de treinta años.
Para décadas individuales ninguna de las pruebas ADF son significativas aún al
nivel del 10%. El estadístico de prueba más grande de los seis es para la regresión de los
50`s de p en w que alcanza 2.4, y que sigue por debajo de 2.8 al nivel del 10%. Así
encontramos evidencia de que los salarios y los precios en los EE.UU. no están
cointegrados. Por supuesto, si una tercera variables tal como la productividad estuviera
disponible (y fuera I(1)), las tres deberían estar cointegradas.
El próximo ejemplo es el de pruebas para cointegración entre intereses de corto y
largo plazo. Usando bonos de 20 años con una producción de madurez mensual como la
tasa de largo plazo (Rt) y la tasa de letras del tesoro de un mes como la tasa de corto plazo,
se probo la cointegración con los datos desde febrero de 1952 hasta diciembre de 1982. Con
la tasa de largo plazo como variable dependiente, la regresión de cointegración nos dio:
Rt = 1.93 + 0.785rt + ER t , DW = 0.126 , R2 = 0.866
con un ratio t de 46 en la tasa de corto plazo. El DW no es significativamente diferente de

cero, al menos por las tablas 2 y 3; sin embargo, el valor crítico correcto depende de la
dinámica de los errores ( y por supuesto el tamaño de la muestra es 340 –más grande que el
de los valores tabulados). La prueba ADF con cuatro rezagos nos da:
E Rt = - 0.06 ER t-1
(-3.27)
+ 0.25E Rt-1 – 0.24 E Rt-2 + 0.24 E Rt-3 – 0.09 E Rt-4
(4.55) (-4.15) (-4.15) (-1.48)
Cuando el rezago 12 es adicionado en vez del cuarto, el estadístico de prueba se eleva hasta
3.49. Resultados similares se encontraron con la regresión al revés donde los estadísticos
fueron 3.61 y 3.89 respectivamente. Cada una de estos estadísticos de prueba excede al
valor crítico del 5% de la tabla 3. Así, estas tasas de interés están aparentemente
cointegradas.
Este hallazgo es enteramente consistente con la hipótesis de mercados eficientes. El
exceso de mantenimiento del producto para unperiod de bonos a largo plazo como fue
linealizado por Séller y Campbell (1984) es:
EHY = D Rt-1 –(D-1) Rt - rt
donde D es la duración del bono que está dada por:

D = ((1+c)i – 1) / (c(1+c) i-1
Con c como la tasa del cupón e i el número de periodos de maduración. La hipótesis de los
mercados eficientes implica que la expectativa del EHY es una representación constante del
premio al riesgo si los agentes son adversos al riesgo. Fijando EHY = k + ε y reordenando
los términos obtenemos la forma de corrección de errores:
Rt = (D-1)-1 (Rt-1 - rt ) + k ´+ t
implicando que R y r están cointegradas con un coeficiente unitario y que para
maduraciones largas, los coeficientes del término de corrección de errores es c, la tasa del
cupón. Si el premio al riesgo varía a través del tiempo pero ya es I(0), entonces no necesita
ser incluida en las pruebas de cointegración.
El ejemplo final está basado en la ecuación de la teoría cuantitativa del dinero: MV
= PY. Implicaciones empíricas se derivan del supuesto de que la velocidad es una constante
o al menos es estacionaria. Bajo esta condición, logM, logP y logY deberían estar
cointegrados con los conocidos parámetros de unidad. Similarmente, el dinero nominal y el
PNB nominal deberían estar cointegrados. Una prueba de estas hipótesis fue construida
para cuatro medidas de dinero M1, M2 y M3 y L, total de activos líquidos. En cada caso el
periodo de muestra fue de 1959-I hasta 1981-II. Los estadísticos de prueba ADF fueron:
M1 1.81 1.90
M2 3.23 3.13
M3 2.65 2.55
L 2.15 2.13
donde en la primera columna el logaritmo del agregado monetario fue la variable

dependiente mientras que en la segunda fue el logaritmo del PNB. Para solamente una de
las pruebas de M2 el estadístico de prueba es significativo al nivel del 5%, y ninguno de los
otros agregados son significativos aún al nivel del 10%. (en muchos casos parece que la
prueba DF puede ser usada y por lo tanto tendría más potencia). Así la relación más estable
es entre M2 y el PNB nominal pero para los otros agregados, rechazamos la cointegración y
la estacionariedad de la velocidad.
7. CONCLUSIONES.
Si cada elemento de un vector de series temporales xt es estacionario solo después

de la diferenciación, pero una combinación lineal α’xt no necesita ser diferenciada, se ha
definido que las series temporales xt están cointegradas de orden (1,1) con un vector de
cointegración α. Interpretando α’xt = 0 como el equilibrio de largo plazo, la cointegración
implica que el equilibrio se mantiene excepto para una disturbancia estacionaria y de
varianza finita aún si las series son no estacionarias y tienen varianza infinita.
El documento presenta muchas representaciones para sistemas cointegrados
incluyendo una representación autorregresiva y una representación de corrección de
errores. Un vector autorregresivo en variables diferenciadas es incompatible con estas
representaciones porque omite el término de corrección de errores. El vector autorregresivo
en niveles de series ignora las restricciones cruzadas de las ecuaciones y dará un operador
autorregresivo singular. Se discuten las estimaciones eficientes y consistentes de los
modelos de corrección de errores y se propone un estimador en dos etapas. Para probar la
cointegración, se formulan siete estadísticos que son similares bajo el mantenimiento de
varias hipótesis a cerca del modelo generador. Los valores críticos de estos estadísticos son
calculados en base a simulaciones de Monte Carlo. Usando estos valores críticos se
examina las propiedades de potencia de las pruebas, y se recomienda un procedimiento de
prueba para la aplicación.
En una serie de ejemplos se encuentra que el consumo y el ingreso están
cointegrados, los salarios y los precios no lo están, tasas de interés de corto y largo plazo si
lo están, y el PNB nominal no está cointegrado con M1, M3 o el totral de activos líquidos,
aunque es posible que sí lo esté con M2.
Departamento de Economía. Universidad de California –san Diego, la Jolla, CA 92093,

USA.
Manuscrito recibido en septiembre de 1983; revisión final recibida en junio de 1986

Cointegración y corrección de errores

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Cointegración y corrección de errores

Cargado por

Copyright:

Formatos disponibles

Econométrica, Vol.55, No.

2 (marzo, 1987), 251-276

COINTEGRACIÓN Y CORRECCION DE ERRORES: REPRESENTACIONES,

Por Robert F. Engle y C. W. J. Granger1

La relación entre los modelos de corrección de errores y la cointegración, sugerida

PALABRAS CLAVE: Cointegración, vector autorregrasivo, raíces unitarias,

En la mayoría de los periodos de tiempo, xt no estará en equilibrio y la cantidad univariable

2. INTEGRACIÓN, COINTEGRACIÓN Y CORRECCIÓN DE ERRORES.

Para facilitar la exposición, sólo se considerarán los valores d = 0 y d = 1 en gran

DEFINICIÓN: Se dice que los componentes del vector x t están cointegrados de

Continuando para concentrarse el el caso d = 1, b = 1, la cointegración significaría

En esta representación, sólo el desequilibrio en el periodo previo es una variable

3. PROPIEDADES DE LAS VARIBLES COINTEGRADAS Y SUS

(3.2) C(B) = C(1) + (1-B)C*(B)

EL TEOREMA DE REPRESENTACIÓN DE GRANGER: si el vector Nx1 x t dado en (3.1)

(3.3) A(B) xt = d (B) t

Para probar el teorema, se necesita el siguiente lema sobre determinantes y adjuntos de

PRUEBA: el determinante de G puede ser expresado en una serie de poder en λ como

cada δi es la suma de un número finito de productos de los elementos de G(λ) y por lo

se establece la primera parte de lema puesto que δr debe ser finito.

PRUEBA DEL TEOREMA DE REPRESENTACIÓN DE GRANGER: Las condiciones

La afirmación (2) es establecida usando el Lema 1, siendo λ = (1-B), G(λ) = C(B),

La afirmación (4) se deduce de la manipulación de la estructura autorregresiva.

det (Ir - (Ir - ´)w) = 0

Resultados más fuertes pueden ser obtenidos con más restricciones en la

La noción de cointegración puede en principio extenderse a series con tendencia o

Al definir diferentes formas de sistemas cointegrados, se han discutido

recordando que zt = α’xt, (3.5) implica que

(4.2) ´ M = 0 o (vec )´(I  M) =0

Aunque la matriz de momentos de los datos de un proceso cointegrado será no singular

que implica la solución

Esta aproximación a la estimación debería proveer una muy buena aproximación al

Cuando N = 2, hay dos posibles regresiones dependiendo de la normalización

TEOREMA 2: El estimador de dos etapas de una simple ecuación de un sistema de

donde Xt = xt’, W es un vector con los elementos seleccionados de Δx t-1 y y es un elemento

que de nuevo se desvanece asintóticamente.

Un simple ejemplo ilustrará muchos de estos puntos y motivará la aproximación de

(4.8) x1t + x2t = 2t 2t= 2t-1 + 2t  < 1

claramente los parámetros α y β no están identificados en el sentido usual de que no hay

Es frecuentemente de interés probar si un conjunto de variables están cointegradas.

Para generar y* y x* de Ω, sea

Se representarán muchos ejemplos empíricos para mostrar la realización de las

con un ratio t de 46 en la tasa de corto plazo. El DW no es significativamente diferente de

donde D es la duración del bono que está dada por:

donde en la primera columna el logaritmo del agregado monetario fue la variable

Si cada elemento de un vector de series temporales xt es estacionario solo después

Departamento de Economía. Universidad de California –san Diego, la Jolla, CA 92093,

Manuscrito recibido en septiembre de 1983; revisión final recibida en junio de 1986

También podría gustarte