Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1.- INTRODUCCIÓN
UNA VARIABLE ECONÓMICA INDIVIDUAL, vista como una serie temporal, puede
vagar en forma extensiva y pese a todo se puede esperar que algunos pares de la serie se
muevan de tal manera que no se desplacen demasiado lejos. Típicamente la teoría
económica propondrá unas fuerzas que tenderían a mantener juntas tales series. Ejemplos
de ello podrían ser las tasas de interés de corto y largo plazo, apropiaciones de capital y
gastos, ingreso familiar y gastos, y precios de la misma mercancía en diferentes mercados o
sustitutos cercanos en el mismo mercado. Una idea similar surge de la consideración de
relaciones de equilibrio, donde el equilibrio es un punto estacionario caracterizado por las
fuerzas que tienden a empujar a la economía de nuevo hacia el equilibrio siempre que se
mueva en otra dirección. Si xt es un vector de variables económicas, entonces se puede
decir que está en equilibrio cuando ocurre la restricción lineal específica
´xt =0
1
Los autores están en deuda con David Hendry y Sam Yoo por tantas conversaciones útiles y sugerencias así como
también con Gene Savin, David Dickey, Alok Bhargava y Marco Lippi. Dos árbitros que proveyeron críticas constructivas
detalladas, y gracias a Yoshi Baba, Sam Yoo y alvaro Ecribano quienes creativamente llevaron a cabo las simulaciones y
ejemplos. El soporte financiero fue dado por NSF SES-80-08580 y SES-82-08626. una versión previa de este documento se
titulaba “Especificación de Modelos Dinámicos con Restricciones en el Equilibrio: Cointegración y Corrección de Errores”.
puede ser llamada el error de equilibrio. Si el concepto de equilibrio va a tener alguna
relevancia para la especificación de modelos econométricos, parecería que la economía
preferiría un valor pequeño de zt en vez de un valor grande.
En este documento, estas ideas son puestas en una base firme y se muestra que una
clase de modelos, conocidos como de correción de errores, permiten que los componentes
de largo plazo de las variables obedezcan a las restricciones de equilibrio mientras los
componentes de corto plazo tienen una especificación dinámica flexible. Una condición
para que esto sea cierto, llamada cointegración, fue introducida por Granger (1981) y
Granger y Weiss (1983) y es precisamente definida en la próxima sección. La sección 3
discute varias representaciones de sistemas cointegrados, la sección 4 desarrolla
procedimientos de estimación, y la sección 5 desarrolla pruebas. Varias aplicaciones se
presentan en la sección 6 y se ofrecen conclusiones en la sección 7. Un ejemplo
particularmente simple de esta clase de modelos es mostrado en la sección 4, y sería muy
útil examinarlo para motivar el análisis de tales sistemas.
Es bien conocido del teorema de Wold que una simple serie temporal estacionaria sin
componentes determinísticos tiene una representación de medias móviles infinita la cual es
generalmente aproximada a un proceso de medias móviles finito. Vea, por ejemplo, Box y
Jenkins (1970) o Granger y Newbold (1977). Sin embargo, comúnmente las series
económicas estarán diferenciadas antes de que se pueda presumir que el supuesto de
estacionariedad se mantiene. Esto motiva la definición familiar de cointegración siguiente:
DEFINICIÓN: Se dice que una serie sin componentes determinísticos que tiene una
representación ARMA invertible y estacionaria después de diferenciarla d veces está
integrada de orden d, denotada xt ~ I(1).
Suponga que cada componente de xt es I(1) de tal manera que el cambio en cada
componente es un proceso de media cero puramente no determinístico, estacionario y
estocástico. Cualquier componente determinístico conocido puede ser sustraído antes de
que empiece el análisis. Luego, siempre existirá una representación multivariable de Wold:
(3.1) (1-B) xt = C(B) t
que significa que ambos lados tendrán la misma matriz espectral. Aún más, C(B) estará
únicamente definida por las condiciones de que la función det[C(z)], z=eiw,
tenga todos ceros dentro o fuera del círculo unitario, y que C(0) = IN, la matriz identidad
NxN (ver Hannan, 1970, p.66). en esta representación los εt son un vector ruido blanco de
media cero con
E t s ´ =0 t s
=G t = s
de tal manera que sólo correlaciones contemporáneas pueden ocurrir.
El polinomio C(B) de medias móviles siempre puede ser expresado como
simplemente reordenando los términos. Si C(B) es de orden finito, entonces C*(B) será de
orden finito. Si C*(1) es idénticamente 0, entonces la expresión similar que involucra (1-
B)2 puede ser definida.
La relación entre los modelos de corrección de errores y la cointegración fue
puntualizada primeramente en Granger (1981). Un teorema que muestra precisamente que
las series cointegradas pueden ser representadas por modelos de corrección de errores fue
originalmente mencionada y comprobada en Granger (1983). La versión siguiente se llama
por lo tanto El Teorema de Representación de Granger. El análisis de los casos relacionados
pero más complejos lo cubre Johansen (1985) y Yoo (1985).
(4) existe una representación de corrección de errores con zt= α’xt, un vector rx1 de
variables aleatorias estacionarias:
(3.4) A*(B)(1-B) xt = - zt-1 + d (B) t
con A*(0) = I N
(5) el vector zt está dado por :
(3.5) zt = K(B) t
(3.6) (1-B) zt-1 + J (B) t
donde K(B) es una matriz rxN de los polinomios de rezagos dados por α’C*(B) con todos
los elementos de K(1) finitos con rango r y determinante (α’γ)>0.
(6) si una representación de un vector autoregresivo finito es posible, tendrá la
forma dada por (3.3) y (3.4) de arriba con d(B)=1 y ambos A(B) y A*(B) como
matrices de polinomios finitos.
Puesto que la adjunta es una matriz compuesta de los elementos que son determinantes
de orden N-1, el argumento anterior establece que los primeros r-1 términos deben ser
intenticamente ceros. Así:
Adj G() = r -1 i –r + 1 Hi
r =1
= r –1 H()
Debido a que los elemntos de Hr-1 son productos finito de muchos números finitos, H(0)
debe ser finito.
El producto de la matriz y su adjunta siempre dará el siguiente determinante:
r g()IN = (G(0) + G*()) H()
= G(0)H()r –1 + h()G*()r
Igualando las potencias de λ obtenemos
G(0)H(0) = 0
Así el rango de H(0) debe ser menor o igual que r porque está enteramente en la
columna de espacio nulo de la matriz de rango N-r G(0). Si r=1, el primer témino en la
expresión de la adjunta será simplemente la adjunta de G(0) la cual tiene rango 1 puesto
que G(0) tiene rango N-1. Q.E.D.
´ MT = K (B) t xt ´ / T2
t
Siguiendo el argumento de Dickey y Fuller (1979) o Stock (1984), se puede mostrar que
para procesos que satisfagan (3.1),
(4.1) lim E(MT) = M
T
y
(4.3) vec = q + Q
típicamente q y Q serán todos ceros y unos, y por eso se define un coeficiente en cada
columna de α como la unidad y se define las rotaciones si r > 1. Se dice que los parámetros
θ están “identificados” si hay una única solución para (4.2) y (4.3). Esta solución está dada
por
(4.4) (I M) Q = - (I M)q
donde por supuesto de identificación, (I Ο M)Q tiene una inversa izquierda aunque M no la
tiene.
Como la natriz de momentos MT tendrá rango completo para muestras finitas, una
aproximación razonable para la estimación es minimizar la suma de las desviaciones del
equilibrio al cuadrado. En el caso de un simple vector de cointegración, α minimizará el
término α’MTα de cualquier restricción tal como (4.2) y el resultado será simplemente de
mínimos cuadrados ordinarios. Para múltiples vectores de cointegración, defina α como el
minimizador de la traza de (α’MTα). El problema de estimación se vuelve:
Min tr (´MT ) = Min vec ´ (I MT) vec
s.t.(4.3) s.t(4.3)
= Min (q + Q)´(I MT)(q+ Q)
0
PROPOSICIÓN 1: suponga que xt satisface (3.1) con C*(B) absolutamente sumable, que
las distubancias tienen hasta el cuarto momento absoluto finito, y que x t está cointegrada
(1,1) con r vctores de cointegración satisfaciendo (4.3). Entonces, definiendo θ por (4.5),
^ p
(4.6) T 1- ( - ) 0 para > 0
La proposición establece que los parámetros estimados convergen muy rápido a sus
probabilidades límite. También establece que los estimados son consistentes con un sesgo
de muestras finitas de orden 1/T. Stock presenta algunos experimentos de Monte Carlo para
mostrar uqe estos sesgos pueden ser importantes para muestras pequeñas y da expresiones
para calcular la distribución límite de tales estimados.
Los estimadores de dos etapas propuestos para este sistema de cointegración usan el
estimado de α de (4.5) como un parámetro conocido en la estimación de la forma de
corrección de errores del sistema de ecuaciones. Esto simplifica sustancialmente el
procedimiento de estimación al imponer las restricciones cruzadas de las ecuaciones y
permite la especificación de los patrones dinámicos de cada ecuación separadamente. Note
que las dinámicas no tienen que ser especificadas para estimar α. Sorprendentemente, este
estimador de dos etapas tiene excelentes propiedades; como se muestra en el teorema
siguiente, es tan efciente como el estimador de máxima verosimilitud basado en el valor
conocido de α.
PRUEBA: Rescriba la primera ecuación del sistema de corrección de errores (3.4) como:
^ ^
yt = zt-1 + WtB + t + ( zt-1 - zt-1)
zt = Xt
^ ^
zt = Xt
Esta expresión se simplifica debido que z’(z-z) = 0. De Fuller (1976) o stock (1984),
X’X/T2 y X’W/T son ambos de orden 1. rescribiendo.
^ ^
W´(z- z )/ T = W´X/T T( - ) 1- T
y por lo tanto el primero y segundo factores a la derecha del signo igual son de orden 1 y el
tercero va hacia cero de tal manera que la expresión entera se desvanece asintóticamente.
Debido a que los términos en (z – z)/√T se desvanecen asintóticamente, los errores estándar
de mínimos cuadrados serán consistentes.
Haciendo que S = plim[(z, W)’(z, W)/T],
A
T - D(0, 2S-1)
B -B
donde D representa la distribución límite. Bajo supuestos nuevos pero estándares, pude
garantizarse que sea normal.
Para estasblecer que el estimador que usa el verdadero valor de α tiene la misma
distribución límite es suficiente mostrar que la probabilidad límite de [(z, W)’(z, W)/T] es
también S y que z’ε/√T tiene la misma distribución límite que z’ε/√T. Examinando los
términos de afuera de la diagonal de S primero,
^ ^
z´W/T – z´W/T = T( - )´W´X/T(1/T)
Los factores primero y segundo son de orden 1 y el tercero es 1/T así que la expresión
entera se desvanece asintóticamente:
^ ^ ^ ^
(z –z)´(z – z) / T = z´z / T – z´z /T
^ ^
=T( - )´X´X/T T ( - )(1/T)
2
De nuevo, los primeros tres factores son de orden 1 y el último es 1/T de tal manera que
aunque la diferencia entre estas matrices de covarianzas esta positivamente definida, se
desvanecerá asintóticamente. Finalmente,
^ ^
(z –z)´ / T =T( - )´X´ /T 1/T
donde los η’s son combinaciones lineales de los ε’s. La representación de corrección de
errores se vuelve:
(4.11) x1t = B zt-1 + 1t
(4.12) x2t = - zt-1 + 2t
donde zt = x1t + αx2t. Hay dos parámetros desconocidos peor la forma autorregresiva
aparentemente tiene cuatro coeficientes desconocidos mientras que la forma de corrección
de errores tiene dos. Una vez que α es conocido no hay más restricciones en la forma de
corrección de errores lo cual motiva el estimador en dos etapas. Note que si ρ→1, las series
son paseos aleatorios correlacionados pero ya no están cointegrados.
5.PRUEBAS PARA COINTEGRACIÓN.
Este es claramente el modelo implicado por (4.11) y (4.12) cuando ρ = 1 lo cual implica
que δ = 0. así la nula compuesta incluye matrices de covarianza definidas Ω todas positivas.
Se mostrará abajo que todos los estadísticos de prueba son similares con respecto a la
matriz Ω, así que sin perder generalidad, tomamos Ω = I.
En el segundo caso, se asume que el sistema es meramente un sistema lineal
estacionario en los cambios. Consecuentemente, la nula es definida sobre un conjunto
completo de coeficientes autorregresivos y de medias móviles estacionarios como en Ω.
Las pruebas “aumentadas” descritas abajo son formadas para ser asintóticamente similares
para este caso tal como lo establecieron Dickey y Fuller para las pruebas univariables.
Los siete estadísticos de prueba propuestos son todos calculables por mínimos
cuadrados. Los valores críticos son estimados para cada uno de estos estadísticos por
simulación usando 10,000 réplicas. Al usar estos valores críticos, las potencias de los
estadísticos de prueba son calculadas por simulación bajo varias alternativas. Una breve
motivación de cada prueba es muy útil.
1. CRDW. Después de correr la regresión de cointegración, el estadístico de durbin
Watson se usa para ver si los residuos parecen ser estacionarios. Si no son estacionarios, el
Durbin Watson se aproximará a cero y así la prueba rechaza la no cointegración (encuentra
cointegración) si el DW es demasiado grande. Esto fue propuesto recientemente por
Bhargava (1984) para el caso donde la serie es observada y la nula y la alternativa son
modelos de primer orden.
2. DF. Este prueba los residuos de la regresión de cointegración al correr una
regresión auxiliar como la describieron Dickey y Fuller y como se bosqueja en la Tabla 1.
También asume que ell modelo de primer orden es el correcto.
3. ADF. La prueba de Dickey-Fuller aumentada permite más dinámicas en la
regresión DF y consecuentemente está sobreparametrizada en el caso de primer orden pero
correctamente especificada en los casos de orden más alto.
4. RVAR. La prueba del vector autorregresivo restringido es similar al estimador de
etapas. Condicional al estimado del vector de cointegración de la regresión de
cointegración, se estima la representación de corrección de errores. La prueba es de si el
término de corrección de errores s significativo. Esta prueba requiere de especificación de
todas las dinámicas del sistema. En este caso se asume un sistema de primer orden.
Haciendo el sistema triangular, las disturbancias no están correlacionadas y bajo
normalidad los estadísticos t son independientes. La prueba está basada en la suma de los
estadísticos t al cuadrado.
5. ARVAR. El RVAR aumentado es el mismo que el RVAR excepto que se postula
un sistema de orden más alto.
6. UVAR. La prueba del VAR no restringido se basa en un vectore autorregresivo en
los niveles que no está restringido para satisfacer las restricciones de cointegración. Bajo la
nula, éstas no están representadas de ninguna manera así que la prueba se simplemente de si
los niveles aparecerán del todo, o de si el modelo puede ser adecuadamente expresado
enteramente en cambios. De nuevo por triangulación de los coeficientes de la matriz, la
prueba F de las dos regresiones puede ser hecha independiente y toda la prueba es la suma
de los dos F’s con 2 grados de libertad. Este asume de nuevo un sistema de primer orden.
7. AUVAR. Esta es una versión de orden más alto o aumentada de la prueba
anterior.
Para establecer la similitud es estas pruebas para el caso de primer orden para matrices Ω
simétricas definidas positivas, es suficiente mostrar que los residuos de la regresión de y en
x para Ω general será un múltiplo escalar de los residuos para Ω = 1. Para mostrar esto, sea
ε1t y ε2t como independientemente normales estándar. Luego
(5.2) yt = 1 i
i = 1, t
xt = 2 i
i = 1, t
(5.3) ut = yt - xt xt yt / xt2
mostrando así la similitud exacta de las pruebas. Si se usan los mismos números aleatorios,
se obtendrán los mismos estadísticos de prueba no haciendo caso de Ω.
En el caso más complicado pero más realista en que el sistema es de orden infinito
pero que puede ser aproximado a una autorregresión de orden p, los estadísticos serán
similares sólo asintóticamente. Aunque la exacta similitud se logra en el modelo de
regresores fijos gaussiano, esto no es posible en modelos de series temporales donde no se
puede condicionar a los regresores; los resultados de similitud son sólo asintóticos. Las
pruebas 5 y 7 son por lo tanto asintóticamente similares si el modelo de orden p es el
verdadero pero las pruebas 1,2,4 y 6 definitivamente ni siquiera son similarmente
asintóticas puesto que estas pruebas omiten regresores de rezagos. (esto es análogo a los
errores estándar sesgados resultantes de errores serialmente correlacionados). Es con esta
base que preferimos no sugerir las últimas pruebas excepto para el caso de primer orden. La
prueba 3 también será similarmente asintótica bajo el supuesto de que u, el residuo de la
regresión de cointegración, sigue un proceso de orden p. Este resultado es probado en
Dickey y Fuller (1981, pp.1065-1066). Mientras el supuesto de que el sistema es de orden p
permite a los residuos ser de orden infinito, probablemente haya un modelo autorregresivo
finito, posiblemente de orden menor que p, que será una buena aproximación. Uno podrí
por tanto sugerir algún experimento para encontrar el valor apropiado de p en cada caso.
Una estrategia alternativa sería de hacer que p sea una función estocástica de T que crece
lentamente, la cual esta muy relacionada a la prueba propuesta por Phillips (1985) y
Phillips y Durlauf (1985). Sólo experimentos de simulación sustanciales determinarán si es
preferible usar una selección de p basada en los datos para este procedimiento de prueba
aunque la evidencia presentada abajo muestra que la estimación de parámetros ajenos hará
caer la potencia de las pruebas.
En la tabla 1, los siete estadísticos de prueba son formalmente presentados. En la
tabla 2, se consideran los valores críticos y potencias de las pruebas cuando el sistema es de
primer orden. Aquí, se esperaría que las pruebas aumentadas tengan menor potencia debido
a que ellas estiman parámetros que en realidad son cero bajo la nula y la alternativa. Las
otras cuatro pruebas estiman parámetros no ajenos y están correctamente especificadas para
este experimento.
De la tabla 2 uno puede realizar una prueba al 5% de la hipótesis de no
cointegración con la prueba de Durbin Watson con la regresión de cointegración,
simplemente verificando el DW de esta regresión y, si excede a 0.386, rechazar la nula y
encontrar cointegración. Si el verdadero modelo es el Modelo II con ρ = 0.9 más bien que
1, esto será detectado solamente el 20% de las veces; sin embargo si el verdadero ρ = 0.8 la
detección crece al 66%. Claramente, la prueba 1 es la mejor en cada uno de los cálculos de
potencia y debería ser preferida para lo establecido, mientras que la prueba 2 es segunda en
casi todos los casos. Note también que las pruebas aumentadas tienen prácticamente los
mismos valores críticos que las pruebas básicas; sin embargo, como se espera, ellas tienen
una potencia ligeramente menor. Por lo tanto, si se conoce que el sistema es de primer
orden, no deberían introducirse rezagos extra. Queda por establecerse si una prueba anterior
para el orden sería útil.
En la tabla 3 las hipótesis nula y alternativa tienen autorregresiones de cuarto orden.
Por lo tanto, ahora las pruebas básicas no aumentadas están mal especificadas mientras que
las aumentadas están correctamente especificadas (aunque algunos de los rezagos que
intervienen podrían ser fijados a cero si se supiera). Note ahora el salto en los valores
críticos de las pruebas 1,4 y 6 causado por su no similitud. Usando estos nuevos valores
críticos, la prueba 3 tiene más potencia para la alternativa local mientras que ρ = 0.8, la
prueba 1 es la mejor seguida de la 2 y la 3. las pruebas mal especificadas o no aumentadas 4
y 6 se realizan muy mal en esta situación. Aunque tuvieran moderadamente más poder en la
tabla 2, la consideración de su realización se descarta aquí.
Aunque la prueba 1 tiene la mejor realización de todas, no es la elección recomendada para
este experimento porque elvalor crítico es muy sensible a los parámetros de la nula. Para la
mayoría de los datos económicos las diferencias no son ruido blanco y , por lo tanto, uno en
la práctica no podría saber qué valor crítico usar. La prueba 3, la prueba de Dickey-Fuller
aumentada, tiene esencialmente el mismo valor crítico para ambos experimento de muestras
finitas, tiene teóricamente el mismo valor crítico de muestras grandes para ambos casos y
tiene muchas muy buenas propiedades de potencia observadas, y es por lo tanto la
aproximación recomendada.
Debido a su simplicidad, la CRDW deberá ser usada para rápido resultado aproximado.
Afortunadamente, ninguno de los mejores procedimientos requiere la estimación de todo el
sistema,solamente la regresión de cointegración y luego tal vez una regresión de serie
temporal auxiliar.
Este análisis deja muchas preguntas sin responder. Los valores críticos solamente han sido
construidos para un tamaño de muestra y para el caso bivariable, aunque recientemente,
Engle y Yoo (1986) han calculado los valores críticos para más variables y tamaños de
muestra usando la misma aproximación general. Todavía no hay una teoría óptima para
tales pruebas y aproximaciones alternativas pueden resultar ser superiores. La investigación
sobre la teoría de la distribución límite de Phillips (1985) y Phillips y Durlauf (1985) puede
que lleve a mejorar la realización de las pruebas.
Sin embargo, parece que los valores críticos para al ADF dadas en la tabla 2 pueden
ser usados como una guía burda en estudios de aplicación en este punto. La próxima
sección proveerá una variedad de ilustraciones.
EJEMPLOS
Cuando el rezago 12 es adicionado en vez del cuarto, el estadístico de prueba se eleva hasta
3.49. Resultados similares se encontraron con la regresión al revés donde los estadísticos
fueron 3.61 y 3.89 respectivamente. Cada una de estos estadísticos de prueba excede al
valor crítico del 5% de la tabla 3. Así, estas tasas de interés están aparentemente
cointegradas.
Este hallazgo es enteramente consistente con la hipótesis de mercados eficientes. El
exceso de mantenimiento del producto para unperiod de bonos a largo plazo como fue
linealizado por Séller y Campbell (1984) es:
EHY = D Rt-1 –(D-1) Rt - rt
Con c como la tasa del cupón e i el número de periodos de maduración. La hipótesis de los
mercados eficientes implica que la expectativa del EHY es una representación constante del
premio al riesgo si los agentes son adversos al riesgo. Fijando EHY = k + ε y reordenando
los términos obtenemos la forma de corrección de errores:
Rt = (D-1)-1 (Rt-1 - rt ) + k ´+ t
implicando que R y r están cointegradas con un coeficiente unitario y que para
maduraciones largas, los coeficientes del término de corrección de errores es c, la tasa del
cupón. Si el premio al riesgo varía a través del tiempo pero ya es I(0), entonces no necesita
ser incluida en las pruebas de cointegración.
El ejemplo final está basado en la ecuación de la teoría cuantitativa del dinero: MV
= PY. Implicaciones empíricas se derivan del supuesto de que la velocidad es una constante
o al menos es estacionaria. Bajo esta condición, logM, logP y logY deberían estar
cointegrados con los conocidos parámetros de unidad. Similarmente, el dinero nominal y el
PNB nominal deberían estar cointegrados. Una prueba de estas hipótesis fue construida
para cuatro medidas de dinero M1, M2 y M3 y L, total de activos líquidos. En cada caso el
periodo de muestra fue de 1959-I hasta 1981-II. Los estadísticos de prueba ADF fueron:
M1 1.81 1.90
M2 3.23 3.13
M3 2.65 2.55
L 2.15 2.13
7. CONCLUSIONES.