Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En este tema pasamos del tratamiento de la dinámica temporal de una serie (tratamiento
univariante) a considerar las relaciones dinámicas que se establecen entre varias series
temporales (tratamiento multiecuacional). Esto nos permitirá ver cómo los efectos de
las dececisones o acontecimiento económicos tienen consecuencias que se extienden a
lo largo del tiempo, una cuestión práctica y relevante dentro del análisis econométrico
aplicado. Nos interesa conocer cómo se distribuye el efecto de una causa a lo largo del
tiempo.
Un cambio en nivel precios en una economía producirá sus correspondientes efecto
después de que transcurra cierto tiempo; de modo que el efecto no se materializa
de una sola vez, sino que se “distribuye” o se “transfiere” a lo largo del tiempo. De
manera similar, cuando suben los impuestos sobre las rentas (sobre los ingresos), lo
consumidores (los hogares) tienen menor renta disponible, lo que les lleva a reducir
sus gastos en servicios y bienes, esto lleva a que se aminoren los beneficios de los
oferentes, y estos reduzcan su demanda de insumos, y en consecuencia los beneficios
de los productores de insumos, y así podríamos seguir hasta las últimas consecuencias.
Lo relevante del que el efecto es que se prolonga a lo largo del tiempo, es decir, es
como si el efecto de una causa fuera dinámico. Los efectos simultáneos, a difirencia de
los efectos distribuidos a lo largo del tiempo, son menos evidentes en las decisiones
económicas, ya sean éstas las del consumidor o las del empresario; ya sean éstas de tipo
microeconómico, o de tipo macroeconómico.
Lógicamente al modelizar econométricamente deberíamos tener en consideración los
efectos dinámicos de la variables consideradas, por ejemplo: la toma de decisiones sobre
consumo o inversión individuales que están sujetos en buena medida a hábitos del
consumidor o a la verosimilitud en la percepción de cambios, o bien permanentes o bien
1
1.2. Análisis de Intervención y Funciones de Transferencia. 2
La intervención puede darse de varias formas. Una de ellas es que la función Zt recoga
un impulso, es decir, una intervención puntual, de modo que solo en un momento t = h
la variable dependiente se vea afectada en c0 ,
(
1 t=h
Zt =
0 t 6= h
si bien los efectos pueden perdurar en el tiempo dada la naturaleza autorregresiva del
proceso Yt . En efecto, la variable dependiente tiene una estructura ARMA(p, q) con una
intervención puntual en forma de impulso.
Otro modo de intervención es que la función Zt recoga una intervención que tenga
un efecto permanente sobre la serie (piense el lector en una subida de precios). En tal
caso (
0 t<h
Zt =
1 t≥h
donde los valores posteriores a h están afectados por una cantidad constante c0 , por este
motivo se le denomina variable escalón.
También es posible que la intervención propiamente afecte a la variable dependiente
con cierto retraso, digamos d. En tal caso habría que considerar retardar la variable de
intervención adecuadamente, Zt−d .
El modelo de intervención (1.1) puede extenderse de manera natural para contemplar
no solo variables deterministas, sino cualquier otro tipo de variable exógena. La forma
de implementar esta generalización es mediante un modelo del tipo
Yt = a0 + A(L)Yt−1 + C(L)Zt + B(L)εt (1.2)
donde al polinomio C(L) se le denomina función de transferencia en la medida en
que muestra cómo un movimiento en la variable exógena Zt es transferido a la va-
riable dependiente Yt . Los sucesivos coeficientes del polinomio C(L) se denominan
«función impulso-respuesta». Este polinomio admite una representación admite una
representación ARMA estacionaria e invertible, y por tanto podríamos expresarlo
D(L)Zt = E(L)εzt (1.3)
donde εzt es ruido blanco
Es fundamental que la variable Zt sea exógena de manera que los shocks que afecten a
la variable dependiente Yt no estén relacionados con la trayectoria de {Zt }, o puesto en
otros términos: E(εzt εt ) = 0. De este modo podrían trazarse los coeficientes impulso-
respuesta de εt y εzt sobre Yt a partir de las expresiones siguientes:
(1 − A(L)L)Yt = a0 + C(L)Zt + B(L)εt
C(L)E(L)
(1 − A(L)L)Yt = a0 + εzt + B(L)εt
D(L)
En efecto, a partir de ellas se obtienen los siguientes coeficientes impulso-respuesta:
∂Yt B(L) ∂Yt C(L)E(L)
= ; = .
∂εt (1 − A(L)L) ∂εzt (1 − A(L)L)D(L)
desde el que se aprecia la relación con la expresión alternativa del modelo dada en (1.2).
En su estimación e identificación pueden utilizarse los contrastes tipo t y tipo F para,
desde una especificación de lo general a lo específico, eliminar coeficientes innecesarios.
La condiciones de regularidad para aplicar este tipo de estimación es similar a los
supuestos del modelo modelo de regresión con variables en forma de serie temporal1 .
Este tipo de modelos corren el riesgo de tener mucho parámetros a estimar (aunque en
general no es el caso).
Alternativamente se podría estimar un modelo más parsimonioso si intentamos estimar
directamente (1.2). Estimaríamos la expresión (1.3) y con los residuos del modelo, ε̂zt , y
construiríamos la sucesión filtrada de Yt
D(L)
Yt = {Ytf }
E(L)
que serviría de base junto con los residuos filtrados ε̂zt para por medio de un procedi-
miento basado en el correlograma cruzado entre ε̂zt y Ytf e ir especificando un modelo
parsimonioso. Existen varias propuestas en la literatura que indican pasos a seguir en al
especificación del modelo de transferencia, sin haber ninguno claramente superior. El
lector interesado puede encontrar algunas de ellas en la obra de Enders citada como
referencia de este tema.
Más interesante desde el punto de vista econométrico es la flexibilidad que ofrecen
estos modelos para tratar las relaciones dinámicas entre variables económicas. En efecto,
la relación dinámica entre variables puede realizarse especificando que la variable
dependiente es función tanto de valores contemporáneos como pasados de las variables
explicativas
Yt = β0 + β1 Xt + β2 Xt−1 + ... + βk+1 Xt−k + εt , (1.4)
Si la variable dependiente fuera la inflación y la explicativa fuera los tipos de interés, la
especificación del modelo está planteando que la actual tasa de inflación depende del
tipo de interés actual y también de los tipos de interés mantenidos en periodos anteriores.
Así pues un cambio en los tipos de interés ahora impactará sobre la inflación actual
y sobre la futura. Lógicamente los efectos de un cambio de tipos se van diseminando
progresivamente en la economía. A este tipo de modelos se les conoce como modelo de
retardos distribuidos.
El coeficiente β1 es el efecto contemporáneo de una variación unitaria en Xt sobre
Yt . El coeficiente de Xt−1 , es el efecto sobre Yt de una variación unitaria en Xt−1 o,
equivalentemente, el efecto sobre Yt+1 de una variación de Xt . En general, el coeficiente
Xt−k es el efecto de una variación unitaria en X sobre Y en k periodos hacia adelante.
Por tanto el efecto causal dinámico es el efecto de una variación unitaria en Xt sobre
Yt , Yt+1 , .., Yt+k , y queda recogido en la sucesión de coeficientes β1 , β2 , ..., βk+1 .
La ecuación (1.4) nos permite calcular teóricamente los efectos causales en un caso de
un cambio transitorio en la variable X y en el caso de un cambio permanente. Para verlo,
consideremos que inicialmente Xt = X es una constante y que en el momento t varía
en una unidad, X + 1, pasando de nuevo al estado constante, X, en t + 1 y sucesivos
1
El lector interesado puede revisar las condiciones de regularidad en Matilla-García et al. (2017).
Yt − Yt−1 = β1 .
Yt+1 − Yt−1 = β2 ,
y por tanto el cambio en Y tras k periodos después del cambio producido en t sería
A partir del siguiente periodo, es decir, en el perido k + 1 los efectos habrían desapa-
recido, Yt+k+1 − Yt−1 = 0. A cada uno de estos efectos generados por una variación
unitaria en X sobre Y tras k periodos se les denomina multiplicador dinámico del
periodo k correspondiente. El gráfico de los retardos frente a los distintos coeficientes,
multiplicadores dinámicos, nos daría una visión de cómo se distribuye el efecto causal
esperado sobre Y ante una variación en el periodo t de X.
Alternativamente, si el cambio que se produce en el momento t es de carácter perma-
nente, entonces tendríamos
Yt+1 − Yt = β1 + β2 ;
Por tanto
donde lógicamente los errores son los mismos que los anteriores y, por tanto, no están
tampoco correlacionados serialmente.
El tipo de modelos ARD de la sección anterior son muy útilies en la práctica econo-
métrica, del mismo modo que lo han sido en el campo de la física y la ingeniería. Sin
embargo, la condición de exogeneidad de las variables tipo Zt o Xt del apartado anterior
puede a llegar a ser muy restrictiva cuando se trata de variables de carácter económico
en el que la interrelaciones son bastante frecuentes. En efecto, la secuencia de Yt no
debe afectar al devenir de las variables Zt o Xt . Para que los coeficientes estimado del
modelo ARD o de la función de transferencia C(L) capturen el impacto de Zt o Xt en
Yt de forma insesgada, debe suceder que Zt o Xt esté incorrelacionada con los shocks
que afectan a Yt , es decir, εt , para todo tipo de retardo. En el ejemplo de la inflación
determina el orden del sistema. Así el orden de (1.10) será p, pues p es el retardo más
largo. El VAR más sencillo que cabe imaginar es un VAR(1) con dos variables, cuya
expresión sería:
wt = A0 + A1 wt−1 + ut =
α10 α11 β11 Xt−1 u1t
= + + . (1.11)
α20 α21 β21 Yt−1 u2t
o bien
Xt − α10
[I − A1 L] w̃t = ut , w̃t =
Yt − α20
o también, en caso de que se pueda invertir la matriz correspondiente, se podría escribir
como
w̃t = [I − A1 L]−1 ut
Para que el proceso VAR tenga interés debe ser estacionario. Al igual que sucede con los
procesos AR(1) deben cumplirse unas condiciones para la estacionaridad. En este caso,
y sin entrar en los detalles técnicos, la condición es que las raíces de la ecuación
|I − A1 L| = 0
deben estar fuera del círculo unidad. Obsérvese que en el caso de que A1 fuera diagonal,
entonces tendríamos dos procesos univariantes AR(1) con shocks incorrelacionados, y
los dos procesos serían estacionarios si |α11 | < 1, |β21 | < 1.
El caso de dos variables en el vector w es un caso particular, dado que fácilmente dicho
vector podría contener n variables, por ejemplo, podemos considerar que el vector w
contiene, digamos, tres variables aleatorias como la cantidad de dinero circulante, el tipo
de interés básico y la renta. Del mismo modo, el número de retardos p puede ser mayor
que 1 para capturar correctamente la dinámica entre las tres variables macroeconómicas
indicadas. Implícitamente, considerar que las variables del vector wt siguen un proceso
VAR(p) implica que los p-retardos son suficientes para capaturar la relación dinámica
que hay entre las variables dentro del vector wt . O puesto de una forma algo menos
directa, pero importante: que los errores del modelo VAR no están relacionados con
wt−p−1 , wt−p−2 , ....
En general, el vector wt de la ecuación (1.10) tendría las n variables indicadas en el VAR
de orden p, y las dimensiones de las matrices sería las siguientes
• wt , (n × 1), vector con las variables del VAR
• A0 , (n × 1), vector con los términos constantes
• Ai , (n × n), matriz de coeficientes, i = 1, ..., p
I − A1 L − A2 L2 − ... − Ap Lp = 0
están fuera del círculo unidad.
Respecto del vector de innovaciones consideramos que es ruido blanco multivariante,
es decir,
E(ut ) = 0
(
Σ t 6= τ
E(ut u0τ ) =
0 t=τ
donde Σ es una matriz (n × n) definida positiva.
Un proceso vectorial wt estocástico es estacionario (débil, es decir, estacionario en
covarianza) si su primer y segundo momentos, E(wt ) y E(wt wt0 ), no dependen del
tiempo t. Si tomamos esperanzas a ambos lados de (1.10), se puede calcular la media
del proceso
E(wt ) = µ = A0 + A1 µ + ... + Ap µ + 0,
µ = (In − A1 − ... − Ap )−1 A0
lo que nos permite escribir un proceso VAR(p) como un VAR(1) definido por la siguiente
estructura
A1 A2 · · · Ap−1 Ap
wt − µ In 0 · · · wt−1 − µ vt
wt−1 − µ 0 0
wt−2 − µ 0
0 I 0 0
= + ..
.. ..
n ..
. .
. . . .
. .
.
. .
. . . . .
wt−p+1 − µ wt−p − µ 0
0 0 · · · In 0
ηt = F ηt−1 + vt (1.12)
(np×1) (np×np)(np×1) (np×1)
donde
( Σ 0 ··· 0
0 Q t 6= τ 0 0 ··· 0
E(vt vτ ) = ,Q =
.. .. ..
0 t=τ . . ··· .
0 0 ··· 0
En principio, una de las ventajas de los VAR con respecto a los modelos de ecuaciones
simultáneas es que no requieren técnicas especiales de estimación. En efecto, como
todas las variables explicativas son retardos del vector w y se asume que los errores son
homocedásticos y no autocorrelados, la estimación de cada una de las ecuaciones del
VAR puede llevarse a cabo por MCO.
En efecto, definamos el vector (np + 1)
1
wt−1
xt =
wt−2
..
.
wt−p
y la matriz A0 de dimensiones n × (np + 1)
A0 = [A0 , A1 , A2 , ..., Ap ]
lo cual nos permite expresar un modelo VAR como
wt = A0 xt + ut
Para estimar los coeficientes de esta j−ésima ecuación del VAR, tenemos t = 1, 2, ..., T +p
observaciones temporales de cada variable implicada. El estimador MCO para cada una
de las j = 1, ..., n será entonces, siguiendo el mismo procedimiento que se ha estudiado
en el capítulo en el que presentamos la estimación por mínimos cuadrados,
T
!−1 T
!
X X
âj = xt x0t xt wjt
t=1 t=1
donde x1 es, dado el tamaño muestral, el primer vector con variables retardadas que se
puede formar, entonces podemos escribir matricialmente las ecuaciones para la ecuación
j-ésima del siguiente modo
Cualquiera de estas dos formas de estimar cada ecuación del modelo VAR nos permitirá
formar la matriz de estimadores MCO
â01
0
0 â
 = 2
0
ân
y partir de ella podremos formar el vector de residuos ût = wt − Â0 xt , que nos permite
estimar la matriz de covarianzas de los errores
T
1X
Σ̂ = ût û0t
T t=1
T
!
1 X
xt wjt → E(xt wjt )
T t=1
p
que implica que la especificación que hemos hecho del VAR es la correcta, que en este
contexto quiere decir que los retardos son los adecuados y no hay omisión de relaciones
no lineales.
Por otra parte es necesario completar el esquema estocástico considerando que están
definidos los momentos de orden cuatro de las variables implicadas (al igual que sucedía
en otras ocasiones).
Dadas estas restricciones es factible aplicar una versión del Teorema Central del Límite
que garantiza que si el modelo VAR(p) es estable, entonces
√
T (â − a) → N (0, V)
d
V = Q̄−1 ΩQ̄
siendo
Q̄ = In ⊗ Q, Ω = E[ut u0t ⊗ xt x0t ]
Si además, el contexto de aplicación empírico, permite asumir homocedasticidad con-
dional para los errores
E[ut u0t |wt−1 , wt−2 , ..., wt−p ] = Σ
entonces la varianza asintótica se puede simplificar a
Ω=Σ⊗Q
V = Σ ⊗ Q−1
Hemos comprobado, por tanto, que los estimadores así obtenidos son consistentes y
tienen una distribución asintótica normal, de manera que la inferencia estadística puede
llevarse a cabo con los estadísticos t y F habituales.
Obsérvese que antes de estimar el correspondiente VAR es preciso indicar el número de
retardos p a incluir. ¿Cómo se determina ese parámetro? En principio pueden incluirse
gran cantidad de retardos con objeto de que los residuos tengan las propiedades desea-
bles, pero conviene ser prudentes dado que la pérdida de grados de libertad derivada
de la inclusión de retardos adicionales puede ser muy importante. Por ejemplo, un
VAR(4) con tres variables tendrá 39 coeficientes (cada ecuación tendrá 3·4 =12 coeficien-
tes más el término independiente), pero si se incluye un retardo adicional, el número de
coeficientes se eleva a 48, es decir, un retardo adicional implica la pérdida de 9 grados
de libertad.
La selección de la longitud apropiada de los retardos suele hacerse basándose en criterios
estadísticos. Puede emplearse un test de ratio de verosimilitud de la siguiente manera.
Supongamos que deseamos contrastar la hipótesis nula de que el orden del VAR es p
contra la alternativa de un VAR de orden q, con q > p. Estimamos tanto el VAR(p) como
el VAR(q) y obtenemos para cada uno de ellos una estimación de la matriz de varianzas
y covarianzas de los residuos, Σ̂p y Σ̂q . Entonces el estadístico:
h i
T ln det(Σ̂p ) − ln det(Σ̂q ) (1.13)
se distribuye como una χ2r siendo r el número de restricciones impuestas bajo la hipótesis
nula. Para tener en cuenta el sesgo en muestras pequeñas, Sims propuso utilizar en su
lugar el estadístico:
h i
(T − m) ln det(Σ̂p ) − ln det(Σ̂q ) (1.14)
El test de ratio de verosimilitud solo es aplicable cuando uno de los modelos es una
versión restringida del otro. Además no tiene buenas propiedades en muestras pequeñas.
Por ello suele recurrirse a diversos criterios de información. Por ejemplo, el criterio de
información de Akaike (AIC) para un VAR(p) con k variables se calcula a partir de la
expresión:
2
AIC(p) = ln [det (Σu )] + k(p + 1) , (1.15)
T
donde Σu representa como antes la matriz de varianzas y covarianzas de los errores del
VAR que se estima a partir de ût . Hay otros estadísticos. El criterio de información de
Schwarz (SBC) tiene una expresión parecida a la anterior.
Calculado el AIC (o cualquier otro criterio) para distintos órdenes, elegiremos aquel
que proporcione un valor menor.
Las funciones de respuesta al impulso (FRI o, más conocidas como IRF) son una de las
herramientas que proporciona esta metodología. De la misma manera que un modelo
autorregresivo univariante admite, bajo ciertas condiciones de regularidad, una re-
presentación en forma de medias móviles, también un VAR estable puede expresarse
como un sistema vectorial MA(∞), respresentación VMA. Por ejemplo, un VAR con dos
variables podría expresarse como un VMA de la siguiente manera:
∞
xt X ϕ11 (i) ϕ12 (i) u1t−i
= =
yt i=0
ϕ21 (i) ϕ22 (i) u2t−i
∞
X
(1) (2)
wt = ut + ψ ut−1 + ψ ut−2 + ... = ψ (i) ut−i (1.16)
i=0
Conocidos estos coeficientes, pueden calcularse los efectos a lo largo del tiempo oca-
sionados por un shock en alguna de las perturbaciones o innovaciones del sistema, es
decir, las respuestas al impulso representado por ese shock
∂wt+s
∂u0t
que podemos calcular derivando a partir de la ecuación vectorial
wt+s = ut+s + ψ (1) ut+s−1 + ψ (2) ut+s−2 + ... + ψ (s) ut + ψ (s+1) ut−1 + ...
es decir,
∂wt+s (s)
IRF (s) = 0
= ψ (s) = [ψij ]n×n
∂ut
que es una matriz cuadrada que indica cómo reacciona la i-ésima variable del vector w
(s)
cuando hay shock en la innovación j-ésima. Los coeficientes ψij , en tanto que función
de s, son la funciones de respuesta al impulso, (conocidas en la literatura como IRFs).
El gráfico de estos coeficientes con respecto al horizonte temporal s es una forma visual
práctica de ver cómo responde, en este caso, xt , yt a varios shocks.
Los efectos acumulados a los impulsos unitarios en los schocks (funciones acumuladas
de respuesta al impulso), se pueden obtener haciendo la suma de los coeficientes
correspondientes. Por ejemplo, tras s periodos, el efecto de u2t en el valor de xt+s
(s)
es, según hemos indicado anteriormente, ψ12 ; por lo tanto, tras s periodos el efecto
acumulado en la sucesión {xt } del impulso (shock) en la variable yt , es decir, u2t ,
será s
X (i)
CIRF (s) = ψ12
i=0
que son función de s. De hecho, si s crece infinitamente, obtendremos el multiplicador
(efecto) de largo plazo, que será finito toda vez que el proceso es estable.
Volvamos al ejemplo del VAR(1) de dos variables. Supongamos que de la estimación
del sistema obtenemos:
0,6 0,3
A1 = .
−0,1 0,2
En primer lugar habría que verificar que el VAR es estacionario2 , dado que no tiene
sentido analizar las IRF en otro contexto. En este caso puede comprobarse que los
valores propios de A1 son menores que 1. Supongamos que la matriz de varianzas y
covarianzas de las perturbaciones es:
9 4
Σu = ,
4 16
y que los valores iniciales3 son nulos wt0 = 0 0 si t < 0. Analicemos el efecto sobre
la senda temporal de las variables del sistema de un shock de una vez la desviación
2
El VAR será estacionario si los valores propios de la matriz A1 son menores que la unidad.
3
Dado que lo que nos interesa es la evolución dinámica de las variables ante shocks, no es restrictivo
en absoluto considerar unas condiciones iniciales dadas.
En la práctica, conviene percatarse de que cuando el VAR está estimado sobre observa-
ciones que previamente hemos diferenciado ∆wt , entonces los CIRF de las variables
coinciden con las IRF de las series en niveles (sin diferenciar).
Otro aspecto práctico a considerar cuando se reportan o analizan funciones de respuesta
al impulso es que estas funciones pueden escalarse como mejor nos interese. Suele
ser habitual escalar de tal modo que la innovación (impulso o shock) corresponda a
un cambio unitario en la variable impulso. Por ejemplo, si la variable impulso está
4
Considerar shocks en términos de desviaciones típicas es muy habitual puesto que nos evita los
problemas de las distintas unidades de medida.
medida en euros, la variable respuesta puede ser escalada para que se corresponda con
un cambio en 1 euro. Si la variable impulso es un tipo de interés (que está medido en
puntos porcentuales), entonces la respuesta al impulso puede escalarse de modo que
corresponda a un cambio en 1 punto porcentual (digamos del 2 % al 3 %). En el ejemplo
anterior, hemos escalado la respuesta al impulso para que corresponda con un cambio
de 1 desviación típica en la innovación.
Podemos observar también que, en general, tras el impulso inicial, el sistema VAR(1)
del ejemplo reacciona de la siguiente manera
w 1 = A1 w 0
w2 = A1 w1 = A21 w0
w3 = A1 w2 = A31 w0
:
ws = A1 ws−1 = As1 w0
que nos permite comprobar cómo son las matrices de coeficientes del la forma VMA, es
decir de ψ s , ya que la representación del VAR en forma VMA nos lleva a que ψ (1) = A1 ,
ψ (2) = A21 , ψ (3) = A31 ,...,ψ (s) = As1 .
En términos más generales que el caso del ejemplo anterior de un VAR(1), como vimos
un VAR(p) puede ser caracterizado mediante una expresión como la siguiente:
A(L)wt = I − A1 L − A2 L2 ... − Ap Lp wt = ut
Esta forma recursiva juega un papel importante en la estimación de las funciones IRF.
Naturalmente los valores reportados son valores estimados a partir de la estimación
de los parámetros del VAR, tal y como indica la forma recursiva anterior. Así pues el
estimador IRF satisface
min[s,p]
X
Ψ̂j = Âi Ψ̂s−i , j ≥ 1
i=1
de modo que
IRF
[ (s) = Ψ̂s
Las funciones de respuesta al impulso (IRF) son interesantes y útiles porque nos facilitan
ver cómo impactan las innovaciones o shocks en la senda temporal de las variables
del modelo. Sin embargo hay un problema importante en la interpretación en las
respuestas de estos shocks que consiste en que los elementos en el vector ut , en general,
estarán contemporáneamente correlacionados, es decir, uit y ujt no son independientes
para cualesquiera dos variables del modelo. Puede comprobarse que en la matriz de
varianzas y covarianzas del error del modelo VAR(1) de esta sección las covarianzas
son distintas de cero (la matriz Σu no es diagonal) por lo que no es razonable considerar
que u1t impacta sobre las variables «manteniendo constante» u2t , o viceversa. Por este
motivo no podemos considerar que uit sea un shock fundamental (no anticipado), que
es el tipo de shock interesante.
La solución a este problema consiste en ortogonalizar los shocks de modo que no
estén correlacionados, lo que nos permitirá distinguir los shocks ortogonalizados, que
serán intepretados como shocks fundamentales, de los shocks no ortogonalizados, que
podremos llamar innovaciones o impulsos. Esta ortogonalización consiste en localizar
una matriz, digmos B, que permita factorizar Σu del siguiente modo5
Σu = BB0
εt ≡ B−1 ut (1.17)
por un lado, comprobamos que tendrá esperanza nula y, por otro, su matriz de varianzas
y covarianzas será de la forma
0 0 0
E(εt ε0t ) = E(B−1 ut u0t B−1 ) = (B−1 Σu B−1 ) = B−1 BB0 B−1 = In
5
Suele decirse que B es una matriz raíz de Σu .
ut = Bεt
QQ0 = Σu
Al ser esta matriz triangular inferior se tendrá que la relación entre los shocks funda-
mentales y las innovaciones será ut = Qεt
que presenta una estructura cómodamente recursiva, por lo que los shocks ε2t , ε3t no
afectarán (están excluidos) contemporáneamente a u1t , y también estará excluido que
ε3t afecte contemporáneamente a u2t .
Estos shocks fundamentales generarán unas funciones de respuesta al impulso (IRFs)
diferentes a las que se derivan de las innovaciones no ortogonales. Las IRFs sobre shocks
fundamentales serían
∂wt+s
OIRF (s) =
∂ε0t
donde ∞
X
wt = µ + ut + Ψ1 ut−1 + Ψ2 ut−2 + ... = µ + Ψi Qεt−i
i=0
y por tanto
OIRF (s) = Ψs Q = IRF (s)Q (1.18)
6
Recordemos que la descomposición de Cholesky de una matriz P es otra matriz, digamos C, tal que
P = CC0 siendo C una matriz triangular inferior.
Incluso podríamos establecer las funciones de respuesta al impulso de largo plazo pues
serán el límite de los impulsos acumulados cuando s → ∞:
∞
X
lim COIRF (s) = Ψi Q = Ψ(1)Q = A(1)−1 Q (1.19)
s→∞
i=1
Por tanto, tras estimar el VAR(p) por mínimos cuadrados ordinarios, que nos permiten
obtener los coeficientes de  y de la matriz de covarianzas de los errores Σ̂u , obtenemos
por la descomposición de Cholesky Σ̂ = Q̂Q̂0 . A partir de esta matriz Q̂ se calculan
las funciones IRF ortogonalizadas: Ψ̂i Q̂. La teoría asintótica sigue siendo aplicable,
pero es más habitual obtener mejoras a la misma utilizando nuevamente técnicas de
bootstrapping.
El uso de la descomposición de Cholesky para trabajar con los shock fundamentales
(algunos autores los denominan shocks estructurales) requiere que el usuario decida
el orden en el que va a triangulizar. A no ser que los errores estén incorrelacionados,
diferentes ordenaciones darán lugar a funciones IRF distintas.
Así pues para dar una interpretación estructural al modelo, el usuario debe identificar
el orden con el que va ortogonalizar, y dicha decisión se hará en base a argumentos
económicos propios del tipo de variables incluidas. Se trata, como sugerimos anterior-
mente, de realizar una serie de restricciones de exclusión con sentido económico, lo cual
dependerá del modelo. Una aproximación habitual y razonable es empezar por aquellas
variables que creemos que contemporáneamente están afectadas por el menor número
de shocks. Es decir, la variables más rígidas dentro de un periodo deben ir las primeras.
Por el contrario, deberían colocarse en último lugar, las variables que económicamente
creemos que pueden ser afectadas dentro de un mismo periodo por una mayor número
de shocks. Se trataría de variables más flexibles dentro de un mismo periodo.
A modo de ejemplo, consideremos un VAR con tres variables (n = 3): PIB, inflación
y tipos de interés. La producción (PIB) dentro de un periodo determinado es más
rígida y por tanto, dentro de un periodo (para un t dado) los cambios en el PIB no
responderían a cambios en el tipo de interés o a la inflación de ese periodo, por lo
que sería razonable que la variable PIB fuera la primera. Si ponemos la inflación como
segunda variable del modelo, estaríamos considerando que los cambios en los precios
responden a variaciones (dentro del periodo determinado) en la producción, pero no a
variaciones en los tipos de interés. Lo cual estaría justificado en base a que los cambios
en los tipos de interés afectan decisiones de inversión fuera (más allá) del periodo
en el que se producen. Así pues, la última variable del modelo sería la relativa a los
tipos de interés, esto indicaría que las autoridades gestoras de la políticac monetaria
(bancos centrales) podrían reaccionar dentro del periodo determinado (t) a cambios
contemporáneos en el PIB y en la inflación.
1.6 VAR-Estructural(es)
xt 0 γ12 xt α11 β11 xt−1 ε1t
= + + . (1.20)
yt γ21 0 yt α21 β21 yt−1 ε2t
−1 −1
xt 1 −γ12 α11 β11 xt−1 1 −γ12 ε1t
= + ,
yt −γ21 1 α21 β21 yt−1 −γ21 1 ε2t
(1.21)
xt δ11 δ12 xt−1 u1t
= + (1.22)
yt δ21 δ22 yt−1 u2t
wt = Γ1 wt−1 + ut .
Visto de esta manera, el sistema 1.22 es la forma reducida del VAR estructural 1.20, dado
que tanto x como y están expresadas en función de las variables predeterminadas del
sistema. Nótese además que bajo las condiciones de 1.20, E(u1t u2t ) en 1.22 será en
general distinta de cero.
A diferencia de lo que sucedía en el VAR estándar, las ecuaciones de un VAR estructural
no pueden ser estimadas por MCO, dado que no todos los regresores son exógenos: en
la primera ecuación del sistema 1.20 yt está correlacionado con ε1t y lo mismo sucede
con xt y ε2t en la segunda. Este problema podría solventarse utilizando la representación
equivalente expresada en 1.22, dado que en la forma reducida todos los regresores son
efectivamente exógenos (solo hay variables predeterminadas a la derecha de ambas
ecuaciones). Sin embargo, para que esta forma de proceder resultase operativa, debería
de ser posible obtener (identificar) todos los parámetros de 1.20 a partir de las estimación
de 1.22. ¿Es esto posible? La respuesta es claramente negativa, puesto que el número
de parámetros en 1.22 es inferior al del sistema 1.20, como veremos más adelante.
En definitiva, nos enfrentamos a un típico problema de identificación: a menos que se
impongan restricciones sobre el VAR estructural, no es posible identificar los parámetros
del mismo.
Veamos cuántas restricciones necesitaríamos en el ejemplo que manejamos. Observamos
que una sola restricción sería suficiente para identificar todos los parámetros de la forma
estructural. Por ejemplo, supongamos que por nuestro conocimiento teórico admitimos
que y tiene efectos contemporáneos sobre x, pero que no hay efectos contemporáneos de
x sobre y. En términos prácticos ello significa que imponemos la restricción γ21 = 0. En
nuestro caso, esto es todo lo que necesitamos para obtener la identificación. Además, esta
restricción implica que el VAR estructural 1.20 se convierte en un sistema recursivo:
xt = γ12 yt + α11 xt−1 + β11 yt−1 + α12 xt−2 + β12 yt−2 + ε1t ,
yt = α21 xt−1 + β21 yt−1 + α22 xt−2 + β22 yt−2 + ε2t . (1.23)
Como es sabido, este tipo de sistemas sí pueden ser estimados por MCO. En efecto,
las variables explicativas de la segunda ecuación son retardos de x e y, por lo que no
plantean problemas de endogeneidad. Y en la primera ecuación tampoco hay ahora
relación entre y y ε1t .
Como hemos dicho esto es solo una forma de resolver el problema, existen otras maneras
de imponer restricciones para identificar correctamente el model SVAR. Lo interesante
es que las restricciones impuestas tengan un marcado carácter económico.
En términos más generales, podemos decir que hay un problema de identificación.
Consideremos un modelo VAR(p)
o bien
A(L)wt = ut , A(L) = I − A1 L − A2 L2 − ... − Ap Lp
siendo Ai los coeficientes poblacionales de la regresión de wt sobre wt−1 , wt−2 , ..., wt−p .
Los términos dentro del vector ut en general no serán los shocks estructurales (es decir,
no serán εjt ), si lo fueran sería inmediato calcular las IRF simplemente utilizando la
representación MA del VAR, wt = A(L)−1 ut . Como hemos visto, en general ut estará
afectado por múltiples shocks.
Podemos entender, como ya hemos indicado, que wt = A(L)−1 ut es la forma reducida
de un proceso estructural de la forma
y que
ut = B−1
0 εt
o de forma equivalente7
εt = B0 ut
y, tanto una como otra, establece un sistema de ecuaciones (cuadráticas en este caso).
En particular, debido a que Σu es simétrica no dispondremos (lamentablemente) de
n2 ecuaciones independientes, solo dispondremos de n(n + 1)/2 ecuaciones libres: n
7
Obsérvese que si se diera el caso de que B0 = Q−1 , es decir, si la matriz de parámetros estructurales
fuera igual a la matriz definida a partir de la descomposición Cholesky, entonces las innovaciones
ortogonalizadas coincidirían con los errores estructurales. En general es no tiene porqué suceder, y es
posible que no haya o no sea posible obtener un VAR estructural recursivo.
B0 A(L)wt = B0 ut = εt
que es el VAR estructural, cuya representación MA, recordemos que A(L)−1 = Ψ(L),
nos permitirá obtener las IRF estructurales (SIRF):
wt = Ψ(L)B−1
0 εt
de modo que
∂wt+s
SIRF (s) = = Ψs B−1
0 (1.24)
∂ε0t
donde Ψs es la matriz (n×n) de coeficientes para el retardo s−ésimo de la representación
V M A(∞).
Así pues si el modelo está exactamente identificado, la matriz estimada Σ̂u a partir de
las estimaciones MCO, Â, permite numéricamente obtener los coeficientes de la matriz
−1
Bd
0 , y por tanto la matriz de SIRF.
8
Recuérdese a estos efectos que la matriz Σu está formada por elementos conocibles (estimados a
partir del VAR(p) de la forma reducida).
9 2
n − n(n + 1)/2 = n2 − n /2 = n(n − 1)/2.
Σε = B0 Σu B00
que desarrollando (sin restricciones aún pero sabiendo que las covarianzas estimadas
satisfacen s12 = s21 ) y usando parámetros ahora de la forma bij es
var(εx ) 0 1 b12 s11 s12 1 b21
=
0 var(εy ) b21 1 s12 s22 b12 1
Si desarrollamos el producto indicado en las matrices del lado derecho del signo igual,
resulta
s11 + b12 s21 + s12 b12 + b212 s22 b21 s11 + b21 b12 s21 + s12 + b12 s22
var(εx ) 0
=
0 var(εy ) b21 s11 + b21 b12 s21 + s12 + b12 s22 b221 s11 + b21 s21 + b21 s12 + s22
ejemplo, la restricción de simetría b12 = b21 , nos conduce a la ecuación cuadrática b212 s21 +
b12 (s22 + s11 ) + s12 = 0 que para los valores del ejemplo, devuelve varios conjuntos
de soluciones. También podríamos establecer una combinación de las varianzas como
restricción, y procederíamos similarmente.
El hecho común a estos diversos tipos de restricciones es que son contemporáneas, es
decir, son de corto plazo: están basadas en supuestos económicos sobre las relaciones
causales contemporáneas entre las variables. Sin embargo, también es común y factible
realizar supuestos sobre las relaciones de largo plazo (no contemporáneas) y que dichos
supuestos nos permitan identificar los parámetros correspondientes. Los supuestos
y por tanto restricciones que podemos imponer sobre relaciones de largo plazo entre
las variables irían canalizadas mediante las IRF de largo plazo, que en apartados
anteriores presentamos. Es decir, utilizaremos la expresión (1.19), que es una matriz que
denominaremos C, para imponer restricciones sobre la misma
∞
X
C = lim CSIRF (s) = Ψi B−1 −1 −1
0 = A(1) B0 (1.25)
s→∞
i=1
puesto que B0 es una de las matrices que sirve para ortogonalizar las innovaciones:
−10
B−1
0 B0 = Σu (recuérdese que εt = B0 ut ). Esta relación establece un total de n2 ecuacio-
nes, de las cuales n(n+1)/2 son no redundantes (independientes) por lo que necesitamos
que la matriz C tenga n(n + 1)/2 parámetros libres (incógnitas). Esto implica que habrá
que establecer, dadas las dimensiones de la matriz C, un total n(n − 1)/2 sobre C para
que el sistema esté exáctamente identificado.
Si una vez impuestas las restricciones sobre C, resultara que C es triangular inferior
(algo que sucede con frecuencia en las aplicaciones), entonces C coincidiría exactamente
0
con la descomposición de Cholesky de la matriz A(1)−1 Σu (A(1)−1 ) . Puede apreciarse
0
inmediatamente en (1.26) que C es una matriz raíz de la matriz A(1)−1 Σu (A(1)−1 ) , y si
además (como decimos) C fuera triangular inferior, entonces en este caso se deduce que
0
sería la matriz de Cholesky (C = chol(A(1)−1 Σu (A(1)−1 ) ). A partir de aquí estimaría-
0
cu , y tendríamos Ĉ = chol(Â(1)−1 Σ
mos Â(1) = In − Â1 − ... − Âp y Σ cu Â(1)−1 ).
Si una vez impuestas las restricciones sobre C resulta que no forma una matriz triangular
inferior, entonces el estimador se obtendría resolviendo numéricamente el sistema de
ecuaciones cuadráticas 0
ĈĈ0 = Â(1)−1 Σ
cu Â(1)−1
Por lo que la función impulso respuesta estructural, para este tipo de restricciones,
consistirá en el estimador de (1.24)
−1
SIRF
\ (s) = Ψ̂s B
d
0 = Ψ̂s Â(1)Ĉ
Por último, destacamos una herramienta también muy utilizada, quizás más que las
FRI, es el análsis causal (en términos de predecibilidad establecido originalmente por
Granger).
H0 : β11 = β12 = 0
x1t A11 (L) A12 (L) · · · A1k (L) x1t−1 u1t
x2t A21 (L) A22 (L) · · · A2k (L) x2t−1
u2t
= + , (1.27)
.. .. .. .. .. .. ..
. . . . . . .
xkt Ak1 (L) Ak2 (L) · · · Akk (L) xkt−1 ukt
donde cada Aij (L) es un polinomio en L con coeficientes indicativos de los efectos que
los retardos de la variable j tienen sobre la ecuación de la variable i. Así, en el ejemplo
anterior el polinomio A12 (L) será β11 + β12 L. Entonces diremos que la variable j no
causa, en el sentido de Granger, a la variable i, si no se puede rechazar la hipótesis nula
de que todos los coeficientes del polinomio Aij (L) son estadísticamente iguales a cero.
En un contexto con más de dos variables, también podemos estar interesados contrastar
si una variable causa en el sentido de Granger alguna de las otras variables del modelo.
Si tenemos tres variables, digamos x, y, z, y queremos saber si z causa alguna de las
otras, entonces primero estimaríamos xt , yt usando los valores retardados de las tres
variables. Esta estimación nos generaría una matriz de varianzas covarianzas estimadas
Σnr para este modelo no restringido. Esta matriz nos servirá para compararla con la
matriz Σr del modelo restringido, es decir, del modelo estimado resultante de omitir los
valores retardados de la variable z. Con estas matrices formamos el siguiente estadístico
de contraste
(T − c)(ln |Σr | − ln |Σnr |)
que, bajo la hipótesis nula de no relación causal, sigue una distribución asintótica χ2 (2p)
con grados de libertad igual al número de restricciones del total del sistema. Dado
que de cada una de las dos ecuaciones se omiten p retardos de z, entonces será 2p.
Por otra parte c es el número de parámetros estimados en cada ecuación del sistema
no restringido. En este caso, en cualquiera de las ecuaciones formadas para las dos
variables xt , yt hay p retardos de {xt }, {yt }{zt } y además hay una constante, por tanto,
c = 3p + 1.
EJERCICIOS
el modelo es estacionario.
0,7 0,2
(a) A =
0,2 0,7
0,8 0,4
(b) A =
0,4 0,8
0,8 0,4
(c) A =
−0,4 0,8
Ejercicios prácticos
Bibliografía complementaria