Apuntes MC3

Facultad de Economı́a y Negocios
Universidad de Chile
Apuntes Métodos Cuantitativos III

Profesor Michael Basch
Apuntes tomados de las clases

Fecha de Actualización: 06/Agosto/2019
Daniela Jensen Recupero

djensen@fen.uchile.cl
Universidad de Chile
Facultad de Economı́a & Negocios
1. Introducción
Series de Tiempo: Cuerpo estadı́stico autocontenido. Desarrollado por Box y Jenkins
(Ver bibliografı́a de Box y Jenkins, apuntes Basch, Greene, Wei, Vandaele (Box&Jenkins, Wei y Vandaele están dedi-
cados exclusivamente a Series de Tiempo), Hamilton y Lutkepohl (más avanzado, magister)).
Pre-requisitos:
Serie en cuestión tiene que ser estacionaria: Si no lo es, hay que hacer transformaciones para que lo sea. ¿Por qué
tiene que ser estacionaria? Para analizar representatividad de un perı́odo de tiempo para analizar otro perı́odo.
Identificación: Tratar de ver cuánto vale p, d, q (son números enteros)

Estimación del modelo
Predicciones
Puede que en la identificación hayan 3 modelos candidatos a ser buenos modelos. Tenemos que estimarlos y luego, ver
cuál tiene mejores predicciones fuera de muestra.
Pensemos en un modelo AR(1)

Yt = m + αYt−1 + εt
εt debe cumplir con las siguientes propiedades para que sea ruido blanco:
1. E(εt ) = 0, ∀t (Si no se cumple, tenemos Heterocedasticidad)

2. V ar(εt ) = σε2 , ∀t (Si no se cumple, tenemos Autocorrelación)
3. γs ≡ E(εt εt±s ) = 0, s 6= 0
NOTA: Este es un caso básico de estacionaridad débil.
El proceso autoregresivo más sencillo es AR(1), esto quiere decir que en el proceso, aparece la misma variable Yt pero
rezagada en un periodo Yt−1 .
Observación al margen:
Teorema de Floris Takens: Cualquier modelo deterministico es equivalente a un modelo estocástico (los modelos es-
tocásticos son mucho más fáciles de analizar y trabajar que los determinı́sticos, por eso es muy importante este teorema
y en la actualidad se analizan más los modelos estocásticos).
Página 1 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
2. Estacionaridad (Débil)
Una serie será estacionaria débil si se cumple lo siguiente:
1. Una determinada serie tiene una media constante en el tiempo, es decir,
E(Xt ) = µ, ∀t
2
2. La varianza también debe ser igual a σX constante en el tiempo.
V ar(Xt ) = E[(Xt − µ)2 ] = E(Xt2 ) − µ2 = σX

2
, ∀t
3. Las autocovarianzas deben sólo depender de k y no de t (tiempo).

Definición de autocovarianza de orden k:
γk = E[(Xt − µ)(Xt±k − µ)]
Recordar: En estadı́stica, definı́amos la covarianza entre dos variables como como:
Cov(X, Y ) = E[(X − µX )(Y − µY )]
Ası́, esta covarianza es lo mismo pero ocupando una sola variable pero en tiempos distintos (Xt y Xt±k )
Propiedad: Notar que,
γk = γ−k
Ası́, se tienen que dar estas tres propiedades para que sea estacionaria débil.
Con el concepto de autocovarianza, tenemos el concepto de autocorrelación:

γk γk
ρk = =
γ0 V ar(Xt )
donde γ0 = V ar(Xt ).
Otra definición:
Cov(A, B)
Corr(A, B) = = ρA,B
σA σB
2.1. Estacionaridad Fuerte

Observación importante: Esta definición es sólo para tenerla en consideración de forma teórica, en el curso analizaremos
solo débil)
Una variable Xt es estacionaria fuerte si y sólo si
f (Xt1 , Xt2 , ..., Xtk ) = f (Xt1 +m , Xt2 +m , ..., Xtk +m ), ∀k, ∀m
Interpretación: La función de densidad conjunta f (Xt1 , Xt2 , ..., Xtk ) tiene que ser igual a otra función de densidad
conjunta pero corrida en el tiempo (especı́ficamente m unidades de tiempo).
Corolario: Si la variable Xt es estacionaria fuerte, entonces, es estacionaria débil.
Página 2 de 72
2.2. Nuevo operador L

Traducción: Lag, Operador de rezago.
Propiedades del operador L:

1. Constantes son inalterables con operador L:
L(k) = k
2. Cuando tenemos una función que depende del tiempo, con el operador queda rezagado en un perı́odo:
L(f (t)) = f (t − 1)
Ejemplo: L(Xt ) = Xt−1

3. Tenemos que el operador puede ser cuadrático:
L2 [f (t)] = (L · L)f (t) = L[L(f (t))] = L[f (t − 1)] = f (t − 2)
Ejemplo: Ls (f (t)) = f (t − s), ası́, Ls (Xt ) = Xt−s

4. Operador puede tener inversa. Pero hace todo lo contrario.
L−1 f (t) = f (t − (−1)) = f (t + 1)
Ejemplo: L−s (Xt ) = Xt+s
Ejemplo: Proceso AR(2)

Yt = m + α1 Yt−1 + α2 Yt−2 + εt
¿Cómo puedo reescribir esto utilizando el operador L?
Yt = m + α1 Yt−1 + α2 Yt−2 + εt
Yt = m + α1 LYt + α2 L2 Yt + εt
[1 − α1 L − α2 L2 ]Yt = m + εt
A(L)Yt = m + εt
donde A(L) es un polinomio autorregresivo.
Supongamos que tenemos un polinomio:

B(L) = (1 − β1 L)
Entonces, queremos demostrar que C(L) = A(L)B(L)
A(L)B(L) = (1 − α1 L − α2 L2 )(1 − β1 L)
= 1 − β1 L − α1 L + α1 β1 L2 − α2 L2 + α2 β1 L3
C(L) = 1 − (α1 + β1 )L − (α2 − α1 β1 )L2 + α2 β1 L3
Hasta acá está bien, pero si queremos ser más rigurosos, determinamos que:
C(L)Yt = A(L)B(L)Yt
Y tenemos finalmente que C(L) = A(L)B(L).
Nota: A(L)B(L) = B(L)A(L)
Página 3 de 72
De forma más general:
(1 − αL)(1 + αL + α2 L2 + ... + αp Lp ) = 1 + αL + α2 L2 + ... + αp Lp − αL − α2 L2 − α3 L3 − ... − αp+1 Lp+1

= 1 − αp+1 Lp+1
Supongamos que p −→ ∞ y que |α| < 1. Esto implica que:
lı́m αp+1 Lp+1 = 0

p→∞
Ası́, podemos tener que:

(1 − αL)(1 + αL + α2 L2 + ... + αp Lp ) = 1
Finalmente, denotamos que:
1
1 + αL + α2 L2 + ... + αp Lp = (1 − αL)−1 =
1 − αL
Resumen:
El objetivo de las series de tiempo, es encontrar una función Xt = f (Xt−1 , Xt−2 , ..., µt ) con µt término de error.
Un proceso AR(p) será:
Yt = m + α1 Yt−1 + α2 Yt−2 + ... + αp Yt−p + εt
Pero, si o si para que esto pueda definirse un proceso AR(p), tiene que ocurrir que εt sea ruido blanco.
Contra ejemplo: Supongamos que tenemos la serie µt = εt + βεt−1 . Acá no serı́a un proceso AR(p) puesto que no
serı́a ruido blanco.
2.3. Condición de Estacionaridad

Supongamos que tenemos un proceso AR(1)
Ocuparemos el operador L.
(1 − αL)Yt = m + εt
Vamos a ver cual es la condición de estacionaridad.

1 1
Yt = m+ εt
1 − αL 1 − αL
m
= + (εt + αεt−1 + α2 εt−2 + ...)
1−α
∞
m X
= + αi εt−i
1 − α i=0
1 1
Dejaremos actuar ahora 1 + αL + α2 L2 + ... + αp Lp = (1 − αL)−1 = sobre m lo cual queda .
1 − αL 1 − αL
NOTA: (1 + αL + α2 L2 + ... + αp Lp )m = m + αm + α2 m + ...
1
Recordar: Por Series de Taylor, 1 + λ + λ2 + ... =
1−λ
Página 4 de 72
Teorema: Si Xt , Yt son series de tiempo estacionarios e independientes entre sı́, entonces,
Zt = aXt + bYt
también es estacionario.
(Ojo que la implicancia es sólo para un lado)
Sigamos con el proceso, veamos los momentos:

m
E(Yt ) = µ = . Vemos que la esperanza no depende del tiempo.
1−α
σε2
V ar(Yt ) = V ar(εt + αεt−1 + α2 εt−2 + ...) = σε2 + α2 σε2 + α4 σε2 + ... = σε2 (1 + α2 + α4 + α6 + ...) = = γ0 , ∀t
1 − α2
NOTA: Todas las covarianzas son nulas, puesto que es ruido blanco (E(εt−i εt−j ) = 0, i 6= j).
Vemos que la varianza no depende del tiempo.
La tercera condición es que las autocovarianzas dependen del rezago pero no del tiempo.
Calculemos ahora las autocovarianzas γ1 , γ2 hasta γk .
γ1 = E[(Yt − µ)(Yt−1 − µ)]

= E[(εt + αεt−1 + α2 εt−2 + ...)(εt−1 + αεt−2 + α2 εt−3 + ...)]
= E[α(εt−1 + αεt−2 + ...)2 ]
= α · E[(εt−1 + αεt−2 + ...)2 ]
X
= α · E[(ε2t−1 + α2 ε2t−2 + ...) + 2 εt−i εt−j ]
i,j
= α · [σε2 + σ 2 αε2 + α4 σε2 + ...] + 0

σε2
= α· = α · γ0
1 − α2
Ası́,
γ1
ρ1 = =α
γ0
Pero hay otra forma de hacerlo más sencilla (OJO con esta técnica para calcular autocovarianzas!)
Xt ≡ Yt − µ
E(Xt ) = 0 = E(Yt ) − µ = µ − µ = 0
Xt + µ = m + α(Xt−1 + µ) + εt
Xt = αXt−1 + µ(1 − α) + µ(α − 1) + εt
Xt = αXt−1 + εt / · (Xt−1 )
γ1 = E(Xt Xt−1 )
2
= αE(Xt−1 ) + E(εt Xt−1 )
= ασx2 + 0
= αγ0
E(εt Xt−1 ) es 0 por ortogonalidad, puesto que, Xt−1 = εt−1 + αεt−1 + α2 εt−3 + .... o sea, cada término es
ortogonal.
Pasos: Definir Xt . Notar que E(Xt ) = 0. A través de Xt + µ llegar a la serie Xt . Multiplicar por Xt−1 la serie
y luego aplicar esperanza (E()). Se obtiene γ1 .
Página 5 de 72
Ahora hagamos esto para γ2 .
γ2 = E(Xt Xt−2 )
= αE[Xt−1 Xt−2 ] + E[εt Xt−2 ]
= αγ1 = α2 γ0
donde E[Xt−1 Xt−2 ] es una autocovarianza, donde |t−1−(t−2)| = 1 y E(εt Xt−2 ) = 0 por el mismo razonamiento
anterior.
Finalmente, tendremos que:

γk = α k γ0
En resumen: La forma de resolver antes que salió más engorrosa era calcular estas autocovarianzas con Yt , acá
lo que hicimos fue calcularlas pero ocupando Xt .
m
NOTACIÓN: Yt = + εt + αεt−1 + α2 εt−2 + ... lo llamaremos MA(∞) (media movil). Ası́,
1−α
Corolario:
AR(1) ≡ M A(∞)
Esto era AR(1), que puede ser más sencillo, por lo que para llegar a la condición de estacionaridad, veremos AR(2).
Desarrollaremos el proceso AR(2):
Yt = m + α1 Yt−1 + α2 Yt−2 + εt
2
(1 − α1 L − α2 L )Yt = m + εt

1 1
Yt = m + εt
1 − α1 L − α2 L2 1 − α1 L − α2 L2
m
= + (analizar)
1 − α1 − α2
m
OJO: Vamos a demostrar que pronto que = µ.
1 − α1 − α2
Veamos ahora lo que quedó pendiente, (analizar)
A(L) = 1 − λ1 L − λ2 L2
= (1 − λ1 L)(1 − λ2 L)
= 1 − (λ1 + λ2 )L + λ1 λ2 L2
Definimos:
α1 = λ1 + λ2
α2 = −λ1 λ2
Ahora, tendremos que

λ2 − α1 λ − α2 = 0
1h p i
donde λ1,2 = α1 ± α12 + 4α2
2
Luego, A(L) = 0, por lo que,
1
=λ
L
Página 6 de 72
Ası́,

m 1
Yt = + εt
(1 − λ1 )(1 − λ2 ) (1 − λ1 L)(1 − λ2 L)
m
= + (analizar)
(1 − λ1 )(1 − λ2 )
Tendremos que:
[A(L)]−1 εt = (1 + λ1 L + λ2 L2 + λ33 L3 + ...)(1 + λ2 L + λ22 L2 + λ32 L3 )
con |λ1 | < 1 y |λ2 | < 1
Condiciones de Estacionaridad para AR(2): El proceso será estacionario (débil) si:
|λ1 | < 1, |λ2 | < 1
Estas dos condiciones son equivalentes a las siguientes tres condiciones:

* |α2 | < 1
* α2 + α1 < 1
* α2 − α1 < 1
Ojo: Si queremos para AR(3), simplemente las condiciones serán: |λ1 | < 1, |λ2 | < 1, |λ3 | < 1
Veamos esto en la práctica, a través de las 3 condiciones de estacionaridad débil vistas anteriormente:
1. Esperanza
m
E(Yt ) = µ=
1 − α1 − α2
2. Varianza
Ocuparemos el truco que: Xt = Yt − µ; E(Xt ) = 0. Ası́,
Xt = α1 Xt−1 + α2 Xt−2 + εt
Multiplicamos la ecuación anterior por Xt y luego sacamos E().
E(Xt2 ) = α1 E[Xt−1 Xt ] + α2 E[Xt−2 Xt ] + E[εt Xt ]

γ0 = V ar(Xt ) = α1 γ1 + α2 γ2 + σε2
OJO: E(Xt2 ) = V ar(Xt ) y Xt = εt +α1 εt−1 +α2 εt−1 +..., entonces E(εt Xt ) = E(εt (εt +α1 εt−1 +α2 εt−1 +...)) =
E(ε2t ) = σε2
3. Autocovarianzas
Multiplicamos la ecuación anterior por Xt−1 y luego sacamos E().
2
E(Xt−1 Xt ) = α1 E(Xt−1 ) + α2 E(Xt−1 Xt−2 ) + E(εt Xt−1 )
γ1 = α1 γ0 + α2 γ1
α1 γ0
γ1 =
1 − α2
Finalmente, multiplicamos la ecuación anterior por Xt−2 y luego sacamos E().
γ2 = α1 γ1 + α2 γ0
Página 7 de 72
Ahora, reemplazamos en γ0 :
α12 γ0
2
α 1 γ0
γ0 = + α2 + α2 γ0 + σε2
1 − α2 1 − α2
(1 − α2 )σε2
γ0 = >0
(1 + α2 )(1 − α1 − α2 )(1 + α1 − α2 )
Luego, γ0 = V ar(Yt ) = V ar(Xt ) > 0
Ası́, estas condiciones:

* |α2 | < 1
* α2 + α1 < 1
* α2 − α1 < 1
Salen justamente de:
(1 − α2 )σε2
>0
(1 + α2 )(1 − α1 − α2 )(1 + α1 − α2 )
Si hacemos el proceso anterior sucesivamente, es decir, multiplicamos la ecuación anterior por Xt−j y luego sacamos
E(), tendremos que:
γj = α1 γj−1 + α2 γj−2 , ∀γ 6= 0
Y esto es lo que conoceremos como ecuación de Yule-Walker.
Desarrollemos un poco esta idea. Continuemos con procesos AR(2).
Tenemos el polinomio autorregresivo de orden 2:
A(L) = 1 − α1 L − α2 L2
Ya vimos que,
A(L)Xt = εt ; E(Xt ) = 0
A(L)Yt = m + εt
Xt = Yt − µ
m
µ=
1 − α1 − α2
Y además,
1
(A(L))−1 =
1 − α1 L − α2 L2
1
=
(1 − λ1 L)(1 − λ2 L)

1 1
=
1 − λ1 L 1 − λ2 L
∞
! ∞ 
X X
= (λ1 L)i  (λ2 L)j 
i=0 j=0
∞
X
= ψk Lk
k=0
= 1 + χ1 L + χ2 L2 + ...
Página 8 de 72
Ası́,
λ2 − α1 λ − α2 = 0 =⇒ λ1 , λ2 , |λ1 | < 1, |λ2 | < 1
NOTA: Para encontrar los valores de λ1 y λ2 , podemos ocupar fracciones parciales:

a b
(A(L))−1 = +
1 − λ1 L 1 − λ2 L
a(1 + λ1 L + λ2 L2 + ...) + b(1 + λ2 L + λ2 L2 + ...)
=
(1 − λ1 L)(1 − λ2 L)
(a + b) + (aλ1 + bλ2 )L + (aλ21 + bλ22 )L2 + ...
=
(1 − λ1 L)(1 − λ2 L)
χ0 + χ1 L + χ2 L2 + ...
=
(1 − λ1 L)(1 − λ2 L)
donde χ0 = a + b = 1, χ1 = (aλ1 + bλ2 ), χ2 = (aλ21 + bλ22 ).
De acuerdo a las ecuaciones de Yule-Walker:

i) γ0 = α1 γ1 + α2 γ2 + σε2
α1 γ0 α1
ii) γ1 = α1 γ0 + α2 γ1 =⇒ γ1 = =⇒ ρ1 =
1 − α2 1 − α2
α12 γ0 α12
iii) γ2 = α1 γ1 + α2 γ0 =⇒ γ2 = + α2 γ0 =⇒ ρ2 = + α2
1 − α2 1 − α2
Finalmente, tendremos:
γj = α1 γj−1 + α2 γj−2 , j≥1
NOTA: Esto podemos escribirlo como: A(L)γj = (1 − α1 L − α2 L2 )γj = 0
Luego, también podemos escribir,

ρj = α1 ρj−1 + α2 ρj−2
Y podemos escribir: ρj = A(λ1 )j + B(λ2 )j que será solución de la ecuación anterior.
¿Cómo encontramos los valores de A y B? Ocupamos el hecho de que sabemos ρ1 y ρ2 .
ρ1 = Aλ1 + Bλ2
ρ2 = A(λ1 )2 + B(λ2 )2
Y luego encontramos los valores de A y B. Ası́, cuando j → ∞, ρj → 0
Página 9 de 72
Correlogramas
AR(1)
ρj = λj
Xt = λXt−1 + εt , |λ| < 1
Esto lo podemos graficar (llamado correlograma) para (j, ρj ).
Pero también podemos graficar para AR(2). Para ello, necesitamos coordenadas polares.
z = x + iy = reiθ = r(cos(θ) + i sen(θ))
Ejemplo: Xt = 0,3Xt−1 + 0, 6Xt−2 + εt .
Esto es lo que llamamos decaimiento exponencial.
Otro Ejemplo: Xt = 1,3Xt−1 − 0, 6Xt−2 + εt , donde, α12 + 4α2 = 1,69 − 2,40 < 0
Esto lo llamamos sinusoidal amortiguada.
Ejemplo de una serie NO estacionaria:

Xt = Xt−1 + εt
No es estacionario porque llegamos a que α = 1, ası́ que no cumplimos con la condición necesaria para estacionaridad.
Página 10 de 72
¿Cómo hacer que sea estacionaria?

Xt − Xt−1 = εt
Con esto, la primera diferencia es εt y este es ruido blanco, por lo tanto, será estacionaria la serie.
3. Coeficientes de Autocorrelación Parcial: Pk , φkk (Yule)

Sea,
Yt = α0 + α1 X2 + α2 X3 + εt
Cov(Yt , X2t )
r12 = p p = r21
V ar(Yt ) V ar(X2t )
Cov(X2 , X3 )
r23 = p p = r32
V ar(X2 ) V ar(X3 )
r13 = r31
donde (1)= Yt , (2)= X2t , (3)= X3t
Luego,
yt = b12 x2t + e1·2
P P
yx x y
b12 = P t 22t 6= b21 = P 2t2 t
x2t yt
Con yt = Yt − Ȳ , x2t = X2t − X̄
Además.
x3t = b32 x2t + e3·2
Ası́, la correlación parcial queda como:
P
e1·2 e3·2
r13·2 = pP
2
pP
e1·2 e23·2
donde e1·2 = yt − b12 x2t
Interpretación: r13·2 es la correlación de (1) con (3) pero eliminando el efecto de la variable (2).
Ejemplo: Sea Yt = f (X2 , X3 , X4 , X5 ), entonces,

P
e1·24 e3·24
r13·24 =p 2 p 2
e1·24 e3·24
Propuesto: Demostrar que:
r13 − r12 r32
r13·2 = p 2
p
2
1 − r12 1 − r32
Vamos ahora a series de tiempo:

Sea las variables (1)=Xt , (2)=Xt−1 , (3)=Xt−2
Luego,
r12 = Corr(Xt Xt−1 )
= ρ1
= Corr(Xt−1 Xt−2 )
= r23
Página 11 de 72
Luego,
r12 = r23 = ρ1 = r32 = r21
De la misma forma,
r13 = Corr(Xt Xt−2 )

= ρ2
Luego,
ρ2 − ρ21
r13·2 = p p
1 − ρ21 1 − ρ21
ρ2 − ρ21
=
1 − ρ21
= P2 = φ22
donde P2 : autocorrelación parcial de orden 2.

Explicaremos en más detalle este Pi .
P1 = φ11 = ρ1
Pk : Autocorrelación parcial de orden k cuando k ≥ 2
Pk = Corr[Xt ; Xt±k |Xt+1 , Xt+2 , Xt+3 , ..., Xt+k−1 ]

= Corr[Xt ; Xt±k |Xt−1 , Xt−2 , Xt−3 , ..., Xt−k+1 ]
Pero, hay otra forma de hacerlo mucho más sencillo que es con la notación de Yule: Pi = φii .
Xt = φk1 Xt−1 + φk2 Xt−2 + ... + φkk Xt−k + εt
OJO: φkk = Pk , donde acá es más sencillo calcular φkk .

¿Cómo lo calculamos?
Ocuparemos la ecuación de Yule Walker. Multiplicaremos todo por Xt−j y luego sacamos esperanza. Y finalmente
dividimos por γ0 = V ar(Xt ). Tendremos:
ρj = φk1 ρj−1 + φk2 ρj−2 + ... + φkk ρj−k
Notas de apoyo:
E(Xt Xt−j ) E(Xt Xt−j ) γj
= = = ρj (autocorrelación de orden j).
γ0 V ar(Xt ) γ0
¿Cómo calculamos φkk ? Regla de Cramer.
 
1 ρ1 ρ2 ··· ρk−1    
φk1 ρ1
 ρ1 1 ρ1 ··· ρk−2  

φ
 k2  ρ2 
   
 ρ2
 ρ 1 1 ··· ρk−3 
  ..  =  .. 
 .. .. .. .. ..   .   . 
. . . . . 
φkk ρk
ρk ρk−1 ρk−2 ··· 1
NOTA: ρ0 = 1. Las filas de la matriz se hicieron calculando: Fila 1: j = 1, Fila 2: j = 2, ... , Fila k: j = k
Página 12 de 72
Luego, ocupando la regla de Cramer:

 
1 ρ1 ρ2 ··· ρ1
 ρ1
 1 ρ1 ··· ρ2  
 ρ2
 ρ1 1 ··· ρ3  
 .. .. .. .. .. 
. . . . .
ρk ρk−1 ρk−2 · · · ρk
φkk =  
1 ρ1 ρ2 · · · ρk−1
 ρ1
 1 ρ1 · · · ρk−2  
 ρ2
 ρ1 1 · · · ρk−3  
 .. .. .. .. .. 
. . . . . 
ρk ρk−1 ρk−2 ··· 1
Ejemplo:
Para AR(1): Xt = αXt−1 + εt
P1 = φ11 = ρ1
ρ2 − ρ21
φ22 = P2 =
1 − ρ21

1 ρ1
ρ1 ρ2
=
1 ρ1
ρ1 1
α2 − α2
= =0
1 − α2
OJO: Para AR(1), ρj = αj , ası́, ρ1 = α
Finalmente, se puede demostrar que para un AR(1):
φkk = 0, k≥2
4. Proceso MA(q)
Sea,
Yt = m + εt − β1 εt−2 − ... − βq εt−1

E(Yt ) = m=µ
Xt = Yt − µ = Yt − m
Xt = B(L)εt
B(L) = 1 − β1 L − β2 L2 − ... − β1 Lq
Veamos los requisitos para que este MA sea estacionario.
Página 13 de 72
Veamos el caso más sencillo: MA(1)

Xt = εt − βεt−1
E(Xt ) = 0, ∀t
V ar(Xt ) = σε2 + β 2 σ 2 ε = σε2 (1 + β2 ) = γ0
γ1 = E(Xt Xt−1 )
= E[(εt − βεt−1 )(εt−1 − βεt−2 )]
= −βσε2
γ1 β
ρ1 = =−
γ0 1 + β2
γ2 = E(Xt Xt−2 ) = 0
γ3 = E(Xt Xt−3 ) = 0
γj = E(Xt Xt−j ) = 0, ∀j ≥ 2
Ahora, para MA(2),
ρ1 6= 0
ρ2 6= 0
ρ3 = ρ4 = ρ5 = ... = 0
Finalmente, para MA(q)
ρq+1 = ρq+2 = ... = 0
Volvamos al MA(1). ¿Es estacionario? Sı́, dado que la esperanza, la varianza y la estructura de correlaciones simples
no dependen del tiempo.
¿Ponemos alguna restricción para β? NO. Ası́,
Cualquier proceso MA será estacionario siempre, independiente de los valores de β1 , β2 , ..., βq .
Ojo: No olvidar que siempre estamos en el caso donde ε es ruido blanco.
Ahora, el β será importante a la hora de invertir este proceso.

Recordemos que AR(1): Xt = αXt−1 + εt para escribirlo como un MA(∞) Xt = εt + αεt−1 + α2 εt−2 + ...+ ∼ M A(∞)
era necesaria la restricción |α| < 1.
Ahora, pensemos que tenemos:

Xt = (1 − βL)εt

1
Xt = εt
1 − βL
(1 + βL + β 2 L2 + ...)Xt = εt
Acá, para que esto tenga sentido matemático, necesitamos que |β| < 1 si es que queremos invertir.
Xt + βXt−1 + β 2 Xt−2 + ... = εt
Xt = −βXt−1 − β 2 Xt−2 − ... + εt ∼ AR(∞)
¿Y qué es esto? Es un AR(∞).
Luego,
Para pasar de un MA(1) a un AR(∞) necesitamos que |β| < 1.
OJO que esto es una condición de invertibilidad, no estacionaridad (no tenemos condiciones para estacionaridad en
MA(1)).
Página 14 de 72
Ahora, si pensamos en AR(2):
Xt = (1 − β1 L − β2 L2 )εt
Necesitaremos |λ1 | < 1 y |λ2 | < 1 que son las raı́ces del polinomio caracterı́stico dado por: λ2 − β1 λ − β2 = 0. Ası́
también,
|β2 | < 1, β1 + β2 < 1, β2 − β1 < 1
5. Procesos ARMA(p, q)
Sea,
Ap (L)Xt = Bq (L)εt
Ap (L) = 1 − α1 L − α2 L2 − ... − αp Lp
Bq (L) = 1 − β1 L − β2 L2 − ... − βq Lq
Ejemplo:
ARM A(1, 1) : Xt = α1 Xt−1 + εt − β1 εt−1
Condición de Estacionaridad:
Raı́ces del polinomio Ap (z) = 0 están fuera del cı́rculo unitario, es decir, |z| > 1. Que es equivalente a decir que los
|λi | < 1 (están dentro del cı́rculo unitario).
Si esto se da, podemos escribir la ecuación como:

B(L)
Xt = εt
A(L)
= C(L)εt
Y esto es lo que llamamos descomposición de Wold.
La descomposición de Wold dice que: Cualquier proceso estacionario, se va a poder escribir ası́:
∞
X
Yt = χj εt−j + vt
j=0
P∞
Habrá una parte puramente estocástica ( j=0 χj εt−j ) y eventualmente podrı́a haber una parte no estocástica (deter-
minı́stica) vt .
Ası́, ARMA(p, q):

ρk : Hay ∞.
φkk : Hay ∞.
Ventaja de ARMA: Puede escribir las cosas linealmente y son muy versátiles, se puede escribir cualquier cosa MENOS
los procesos no estacionarios.
Página 15 de 72
6. Procesos No Estacionarios (P.N.E.)

6.1. Categorı́a 1: P.N.E. Determinı́sticos
Ejemplos:
Yt = δ0 + δ1 t + µt
Yt = δ0 + δ1 t + δ2 t2 + µt
¿Cómo se corrige? La serie quedarı́a como: (Se elmina la parte no lineal deterministica):
Yt∗ = Yt − δˆ0 − δˆ1 t
NOTA: A la serie Yt = δ0 + δ1 t + µt se le llama serie no estacionaria pero de tendencia estacionaria (ya que
la varianza y las autocovarianzas no dependen del tiempo).
Por qué son no estacionarias? Media va aumentando (depende del tiempo).
OJO: La esperanza y varianza de Yt = δ0 + δ1 t + µt son:
E(Yt ) = δ0 + δ1 t
V ar(Yt ) = V ar(µt )
6.2. Categorı́a 1: P.N.E. Estocásticos (Raı́ces Unitarias)

Ejemplo:
Yt = α + Yt−1 + εt
Es un AR(1) pero con α = 1 (como la condición de estacionaridad es |α| < 1, no es estacionaria).
Supongamos que
Y1 = α + Y0 + ε1
Y2 = α + Y1 + ε2 = 2α + Y0 + ε1 + ε2
Y3 = α + Y2 + ε3 = 3α + Y0 + ε1 + ε2 + ε3
..
.
Yt = tα + Y0 + ε1 + ε2 + ... + εt
Veamos que pasa con las medias y las varianzas.
E(Yt ) = Y0 + tα
V ar(Yt ) = tσε2
Supongamos que
Yt = δ0 + δ1 t + µt
µt = αut−1 + εt ∼ AR(1), |α| < 1
(1 − αL)µt = εt
µt = εt + αεt−1 + α2 εt−2 + ...
Ası́,
Yt = δ0 + δ1 t + εt + αεt−1 + α2 εt−2 + ...
Apliquemos multiplicador de impacto, es decir,
∂Yt
=1
∂εt
Página 16 de 72
¿Qué pasa con el perı́odo siguiente?

∂Yt+1
=α
∂εt
∂Yt+1
= α2
∂εt
∂Yt+s
= αs
∂εt
Notar que el efecto cada vez es más pequeño. Ası́, decimos que el efecto es temporal o transitorio.
Si por ejemplo α = 1, tendremos que todas las derivadas son igual a 1. Ahi diremos que el shock es permanente.
7. Procesos Integrados I(d)

Sea,
Yt = δ0 + δ1 t + ut (1)
ut = αut−1 + εt ; |α| < 1
Queremos que la serie tenga εt (o sea, ruido blanco). Ocuparemos la Transformación de Cochrane-Orcutt.
αYt−1 = αδ0 + αδ1 (t − 1) + αut−1 (2)
Restamos (1)-(2).
Yt − αYt−1 = δ0 (1 − α) + αδ1 + δ1 (1 − α)t + εt

Yt = [δ0 (1 − α) + αδ1 ] + [δ1 (1 − α)]t + αYt−1 + εt
= µ + βt + αYt−1 + εt
Supongamos que α = 1, tenemos un comportamiento de raı́z unitaria y la serie queda como:
Yt = δ1 + Yt−1 + εt
Ası́, acá tenemos un proceso no estacionario de raı́z unitaria.

Esto se llama como random-walk (paseo-aleatorio).
Ahora, si |α| < 1, tenemos que la serie queda como:
Yt = µ + βt + αYt−1 + εt
O sea, acá tenemos un proceso de tendencia estacionaria.
Supongamos que tenemos α = 1 como hipótesis nula y |α| < 1 como HA . Si no se puede rechazar al nula, estamos
frente a un proceso de raı́z unitaria. Pero, tenemos un truco para poder arreglar esto (sabiendo todo lo que conlleva
este proceso de raı́z unitaria).
Simplemente es:
Yt − Yt−1 = 4Yt = (1 − L)Yt = δ1 + εt
Si este es el caso, decimos que Yt es integrado de orden 1. Es decir,
Yt ∼ I(1)
Y por ende,
4Yt ∼ I(0)
Página 17 de 72
NOTA: Esto se llama proceso de primeras diferencias.
¿Qué es integrado de orden 0?

Esto es sinónimo de estacionaridad en el 99 % de los casos.
Recordemos que ya hemos visto Descomposición de Wold:

∞
X
Yt = µ+ χj εt−j ∼ M A(∞)
j=0
Caso más sencillo es MA(1):

Yt = µ + εt + χεt−1
Se dice que Yt ∼ I(0) ssi
∞
X
χj 6= 0
j=0
Algunos ejemplos:
Yt − Yt−1 = 4Yt = (1 − L)Yt = δ1 + εt = δ1 + χ0 ε1 = δ1 + 1
Además entonces de ser estacionario, es I(0) ya que χ0 = 1 6= 0
Otro ejemplo:
Yt = m + αYt−1 + εt ∼ AR(1), |α| < 1
m
Yt = + εt + αεt−1 + α2 εt−2 + ...
1−α
donde χ0 = 1, χ1 = α, χ2 = α2 , .... Ası́,
∞
X 1
χj = 1 + α + α2 + ... = 6= 0
j=0
1−α
Ası́, Yt es estacionario y también I(0).

Ahora, otro ejemplo:
Yt = εt − βεt−1 ∼ M A(1)
Luego,
∞
X
χj = 1 − β 6= 0
j=0
OJO: Esto es 0 sólo si β 6= 1. Ası́, la conclusión es que es I(0) solo si β 6= 1, PERO, los procesos MA son SIEMPRE
estacionarios para cualquier valor de β.
¿Qué es un proceso integrado de orden d (I(d))?

Un proceso Yt ∼ I(d) ssi,
4d Yt ∼ I(0)
Ejemplo:
42 Yt = (1 − L)(Yt − Yt−1 )
= Yt − Yt−1 − Yt−1 + Yt−2
= Yt − 2Yt−1 + Yt−2
Ası́, Yt ∼ I(2) ssi 42 Yt = Yt − 2Yt−1 + Yt−2 ∼ I(0)
Página 18 de 72
8. Procesos ARIMA
Supongamos que tenemos:
Yt = δ0 + δ1 t + µt
Pero supongamos que µt ∼ ARM A(p, 1). Ası́,
Ap (L)µt = Bq (L)εt
Vamos a exigir que está fuera del cı́culo unitario, es decir, Ap (z) = 0, |zi | > 1.
Pero, para esto, supondremos que:

Ap (L) = (1 − λ1 L)(1 − λ2 L) · ... · (1 − λp L)
donde λi son los inversos de las raı́ces zi .
Pero, supongamos que tenemos sólo una raı́z unitaria, ası́

Ap (L) = (1 − L)(1 − λ2 L) · ... · (1 − λp L)
= (1 − L)Ap−1 (L)
= Ap−1 (L)(1 − L)
Además, consideremos que:
Yt − δ0 − δ1 t = µt
Ap (L)µt = Ap (L)[Yt − δ0 − δ1 t]
= Bq (L)εt
Ahora, escribiremos esto como:
Ap−1 (L)(1 − L)[Yt − δ0 − δ1 t] = Bq (L)εt
Ap−1 (L)[4Yt − δ0 + δ0 − δ1 t + δ1 (t − 1)] = Bq (L)εt
Ap−1 (L)[4Yt − δ1 ] = Bq (L)εt
OJO: 1 − L = 4.
Ahora, esto podemos decir que es un proceso estacionario.
Sea:
Bq (L)
4Yt − δ1 = εt
Ap−1 (L)
= εt + χ1 εt−1 + χ2 εt−2 + ...
tal que:
∞
X
6= 0
j=0
Entonces, 4Yt − δ1 no es sólo estacionario, sino que también es I(0).
Por lo tanto,
Yt∗ ∼ ARM A(p − 1, q)
que es I(0).
Ası́,
Yt ∼ ARIM A(p, 1, q)
Página 19 de 72
9. Tests de Raı́z Unitaria

Sea,
Yt = δ0 + δ1 t + µt
µt = αµt−1 + εt
Ası́,
Yt = µ + β1 + αYt−1 + εt
Restamos Yt−1 a ambos lados:
4Yt = µ + βt + γYt−1 + εt
donde γ = α − 1.
Luego,
H0 : α=1 (γ = 0)
HA : |α| < 1 (γ < 0)
Forma de calcular esto: Ocupar MCO y hacer test t para coeficiente γ.

γ̂
t=
S.E.(γ̂)
Y luego ir a la tabla de t-Student.
PERO, la tabla está mal. Bajo la hipótesis nula, este cuociente no se distribuye como una t-student, ya que bajo α = 1
tenemos que la serie es no estacionaria y con raı́z unitaria (algo desastroso).
O sea, está correcto el cuociente, sin embargo, ya no está correcto ir a la tabla de t-Student.
Fuller hizo algo nuevo. Demostró que el cuociente

γ̂
τ̂ =
S.E.(γ̂)
se distribuye como una Distribución No-Estándares. (o también conocidas como distribuciones de movimiento
Browniano).
¿Qué son? Al igual que las comunes, tiene densidad conjunta continua, sin embargo, no tiene derivada en ningún punto.
9.1. Test de Dickey/Fuller

Tenemos que,
Yt = δ0 + δ1 t + µt
µt = αµt−1 + εt ∼ AR(1), |α| < 1
4Yt = [δ0 (1 − α) + δ1 α] + δ1 (1 − α)t + γYt−1 + εt
Luego,
H0 : α − 1 = γ = 0 −→ 4Yt = δ1 + εt −→ Yt = δ1 + Yt−1 + εt
γ̂
HA : γ<0 (|α| < 1) −→ τ =
S.E.(γ̂)
Página 20 de 72
Haremos las transformaciones de Cochrane-Orcutt para t − 1 y t − 2.
Yt = δ0 + δ1 t + µt (1)
µt = α1 µt−1 + α2 µt−2 + εt
α1 Yt−1 = α1 δ0 + α1 δ1 (t − 1) + α1 µt−1 (2)
α2 Yt−2 = α2 δ0 + α2 δ1 (t − 2) + α2 µt−2 (3)
Ası́, (1)-(2)-(3):
Yt = δ0 (1–α1 − α2 ) + δ1 (1 − α1 − α2 )t + α1 δ1 + 2α2 δ1 + α1 Yt−1 + α2 Yt−2 + εt
Sumemos un 0 conveniente: α2 Yt−1 .
Yt = δ0 (1–α1 − α2 ) + δ1 (1 − α1 − α2 )t + δ1 [α1 + 2α2 ] + Yt−1 [α1 + α2 ] − α2 (Yt−1 − Yt−2 ) + εt
pero Yt−1 − Yt−2 = 4Yt−1 = −Yt−1 . Quedando:
4Yt = δ0 (1–α1 − α2 ) + δ1 (1 − α1 − α2 )t + δ1 [α1 + 2α2 ] + (α1 + α2 − 1)Yt−1 − α2 4 Yt−2 + εt
pero γ = α1 ‘ + α2 − 1.
Finalmente, tendremos algo como:

4Yt = f (cte, t, Yt−1 , 4Yt−1 , εt )
Y esto es lo que encontró Dickey.
Testeamos el test simple de Dickey-Fuller:
H0 : γ = 0, α1 + α2 = 1
HA : γ<0
Ahora, viendo el test de Dickey-Fuller Aumentado: Si µt ∼ AR(p), entonces
4Yt = f (cte, t, Yt−1 , 4Yt−1 , 4Yt−2 , ..., 4Yt−(p−1) , εt )
Ası́ testeamos:
H0 : γ = 0, α1 + α2 + ... + αp = 1
HA : γ<0
En la práctica, corremos lo siguiente:

K
X
4Yt = A + Bt + γYt−1 + δk 4 Yt−k + εt
k=1
9.2. Identificación
Buscaremos conocer los valores de ARIMA(p, d, q). (OJO: d = 0, 1, 2).
NOTA: Si tenemos P, D, Q estamos en presencia de estacionaLidad (que es distinto a estacionaRidad).
Importante:
Notar que ARMA(p, q) es equivalente a AR(∞).
Ahora, Hannah y Rissanan dicen que podemos hacer esto en 2 etapas:
Página 21 de 72
1. Estimamos AR(p∗ ) con p∗ grande (NOTA: Definimos p∗ sólo para diferenciar ese valor del p de ARIMA).
Luego, ¿Con qué criterio lo hacemos? Ocupamos el criterio AIC (criterio de información de Akaika). Este
dice que:
2 2
AIC = ln(σ̂p,q ) + 2(p + q) = ln(σ̂p,q )+T
T corresponde a la penalización ante el hecho de que si p, q son grandes, aumenta AIC. Ası́, con este T nos sirve
2
para ver que si aumenta AIC, esto es porque aumenta ln(σ̂p,q ), pero no porque hay más p, q (misma idea con R2
2
y R -Ajustado).
Con ello, se obtendrán distintos p∗1 (con su respectivo e∗1 , p∗2 (con su respectivo e∗2 , p∗3 (con su respectivo e∗3 ...
(que no sabemos aún cuál es mejor que el otro ya que entregan AIC parecido)
2. Comprobaremos ARM A(p̃, q̃) (ejemplo ARMA(2,1)). Luego,
Yt = α1 + α2 Yt−1 + α3 Yt−2 + ε∗t + −βε∗t−1 + error
Con esto, vieron que funcionaba mejor el criterio Schwarz (Bayesiano), más conocido como BIC.
2 ln(T )(p + q)
BIC = ln(σ̂p,q )+
T
Con esto, ya tenemos algunos modelos tentativos ARMA(p1 , q1 ) y ARMA(p2 , q2 ). PERO, donde sı́ ya vamos a
decidir completamente, es cuando pasemos ahora a la predicción.
Especı́ficamente, haremos predicción fuera de muestra.
9.3. Predicción
Práctica:
mı́n E[(YT +h − ŶT +h )2 ]
Ası́, ŶT +h = E[YT +h |ΦT ]
donde YT +h − ŶT +h es el error de predicción (e.p.).
Ejemplo: AR(1)
Yt = m + αYt−1 + εt ; |α| < 1

YT +1 = (1 − α)µ + αYT + εT +1
ŶT +1 = (1 − α)µ + αYT
(ŶT +1 − µ) = α(Yt − µ)
e.p. = εT +1
V ar(e.p.) = σ2 ε
Luego, vamos a otro perı́odo:
YT +2 = (1 − α)µ + αYT +1 + εT +2
YT +2 = (1 − α)µ + α[(1 − α)µ + αYT + εT +1 ] + εT +2
YT +2 = (1 − α2 )µ + α2 YT + αεT +1 + εT +2
Ası́, si sacamos la esperanza, encontramos la estimación de ŶT +2
ŶT +2 = (1 − α2 )µ + α2 YT
Página 22 de 72
.
Ahora si encontramos la predicción con respecto a la media poblacional será:
ŶT +2 − µ = α2 (YT − µ)
Finalmente, el error de predicción y la varianza serán:
e.p. = αεT +1 + εT +2
V ar(e.p.) = σε2 (1 + α2 )
CASO AR(q):
Si hacemos esto a un horizonte infinito, tendremos que
ŶT +h − µ = αh (YT − µ), |α| < 1
Ası́, cuando h → ∞, entonces, ŶT +h → µ.
Luego, el error de predicción estará dado por:
e.p. = εT +h + αεT +h−1 + α2 εT +h−2 + ... + αh−1 εT +1
Y la varianza será:
V ar(e.p.) = σε2 (1 + α2 + α4 + ... + α2(h−1) )
Ası́, si h → ∞,
σε2
V ar(e.p.) → = σy2
1 − α2
Ahora, veamos esto para un Proceso MA(q).

Partimos viendo un MA(1): Yt = m + εt − βεt−1
ΦT = {Y1 , ..., YT , ε1 , ε2 , ..., εT , ε0 , ε−1,... }

YT +1 = m + εT +1 − βεT
ŶT +1 = m − βεT
e.p. = εT +1 −→ V ar(e.p.) = σε2
YT +2 = m + εT +2 − βεT +1
ŶT +2 = m=µ
ŶT +h = µ, ∀h ≥ 2
CASO MA(q):
El error de predicción estará dado por:

e.p. = εT +2 − βεT +1
Y la varianza será:
V ar(e.p.) = σε2 (1 + β 2 ) = V ar(Yt ), ∀h ≥ 2
Página 23 de 72
10. Modelo de Rezagos Distribuidos ADL(p)

RECORDAR: Multiplicadores de Impacto
∂Yt+1 ∂Yt+2 ∂Yt+s

, , ..., ,
∂Xt ∂Xt ∂Xt
con s → ∞ serı́a el multiplicador de impacto de largo plazo.
Sea el siguiente modelo,
Yt = m + α1 Yt−1 + β0 Xt + β1 Xt−1 + εt , |α1 | < 1
(1 − α1 L)Yt = m + β0 Xt + β1 Xt−1 + εt
m
Yt = + (1 + α1 L + α1 L2 + α13 L3 + ...)[β0 Xt + β1 Xt−1 + εt ]
1 − α1
donde A(L) = 1 − α1 L y [A(L)]−1 = 1 + α1 L + α1 L2 + α13 L3 + ....
Luego,
m
Yt = + β0 Xt + β1 Xt−1 + β0 α1 Xt−1 + β1 α1 Xt−2 + ... + β0 α12 Xt−2 + β1 α12 Xt−3 + ... + [A(L)]−1 εt
1−α
Luego, los multiplicadores de impacto serán:
∂Yt
= β0
∂Xt
∂Yt+1
= β1 + β0 α1
∂Xt
∂Yt+2
= α1 (β1 + β0 α1 )
∂Xt
∂Yt+3
= α12 (β1 + β0 α1 )
∂Xt
∂Yt+s
= α1s−1 (β1 + β0 α1 )
∂Xt
∂Yt+s
¿Qué pasa cuando s → ∞? →0
∂Xt
Pero ahora cuando t → ∞:
Xt = Xt−1 = X̄ = Xt−2 = Xt−3

Yt = Yt−1 = Yt−2 = ... = Ȳ
Yt = m + α1 Yt−1 + β0 Xt + β1 Xt−1 + εt
Ası́, en el largo plazo:
Xt → X̄
Yt → Ȳ
εt → 0
Ası́, (1 − α1 )Ȳ = m + (β0 + β1 )X̄.
Página 24 de 72
Eel equilibrio estático de L.P. será:

m β0 + β 1
Ȳ = + X̄ = a + bX̄
1 − α1 1 − α1
Por lo tanto, el multiplicador de impacto de largo plazo será:
∂ Ȳ β0 + β1
=b=
∂ X̄ 1 − α1
Ası́, tenemos el modelo tı́pico. Haremos un cambio de variable:
Yt = m + α1 Yt−1 + β0 Xt + β1 Xt−1 + εt
Yt = 4Yt + Yt−1
Xt = 4Xt + Xt−1
4Y = +(α1 − 1)Yt−1 + β0 (4Xt + Xt−1 ) + β1 Xt−1 + εt
4Yt = β0 4 Xt − (1 − α1 )Yt−1 + (β0 + β1 )Xt−1 + εt + m

m β0 + β1
= β0 4 Xt − (1 − α1 ) Yt−1 − − Xt−1 + εt Yt
1 − α1 1 − α1
= m

m β0 + β1
Notar que: Yt−1 − − Xt−1 = Yt−1 − a − bXt−1
1 − α1 1 − α1
Ası́, tendremos que
4Yt → 0
Yt = Yt−1
4Xt → 0
εt → 0
Con ello en mente, tenemos que:
Ap (L)Yt = m + Bq (L)Xt + εt
= 1 − α1 L − α2 L2 − ... − αp Lp
Bq (L) = β0 + β1 L + β2 L2 + ... + .βq Lq
Suponiendo que p = q = 1, entonces podemos estimar por MCO,
Yt = m + α1 Yt−1 + β0 Xt + β1 Xt−1 + εt , |α| < 1
O también podemos estimarlo con:

m β0 + β1
4Yt = β0 4 Xt − (1 − α1 ) Yt−1 − − Xt−1 + εt
1 − α1 1 − α1

m β0 + β1
donde Yt−1 − − Xt−1 es la desviación del equilibrio de Largo Plazo.
1 − α1 1 − α1
Por lo tanto, el equilibrio estático de Largo Plazo será:
m β0 + β1
Ȳ = + X̄
1 − α1 1 − α1
En general,
Ap (L)Yt = m + Bq1 (L)X1t + Bq2 (L)X2t + Bq3 (L)X3t + ... + Bqk (L)Xkt + εt
Página 25 de 72
11. Regresiones Espurias

Experimento de Granger y Newbold (1974).
Tomaron Xt ∼ I(i) p.a. (paseo aleatorio) donde Xt = Xt−1 + wt con wt ∼ N (0, 0,001) y Yt ∼ I(i) con Yt = Yt−1 + ut .
Con lo cual,
Yt = α + βXt + εt
donde εt es ruido blanco.
Regresionando esto, llegaron a que el 78 % aprox de las estimaciones dio un p-value altamente significativo.
NOTA: Johanssen demostró que I(0) + I(1) ∼ I(1), y de forma general, I(p) + I(q) ∼ I(q) con q > p.
Pero David Hendry demostró que si tenemos del mismo orden por ejemplo Xt ∼ I(1) y Zt ∼ I(1) entonces podemos
generar una combinación lineal donde βXt + γZt ∼ I(0) y como εt ∼ I(0), finalmente Yt ∼ I(0).
Pero esto finalmente lo terminó demostrando Granger.
11.1. Cointegración
Tomemos un modelo ADL(1,1),
Yt = m + α1 Yt + β0 Xt + β1 Xt−1 + εt
Vamos a suponer que Xt es no estacionaria, es decir, Xt = Xt−1 + ηt con ηt ruido blanco. Por lo tanto, Xt ∼ I(1)
(paseo aleatorio).
OJO: εt ∼ I(0).
Luego, si |α1 | < 1, entonces podemos formar el inverso:
(1 − α1 L)Yt = m + β0 Xt + β1 Xt−1 + εt
m
Yt = + (1 + α1 L + α1 L2 + ...)(β0 Xt + β1 Xt−1 + εt )
1 − α1
Observación:
Si Xt ∼ I(1), entonces (aXt + bXt−1 ) ∼ I(1), como también (aXt + bXt−1 + cXt−2 ) ∼ I(1) y ası́ sucesivamente.
Con la observación, vemos que:

(1 + α1 L + α1 L2 + ...)(β0 Xt + β1 Xt−1 + εt ) ∼ I(1)
m
Y como esta expresión está sumada a (constante), entonces también:
1 − α1
Yt ∼ I(1)
Con esto, también tendremos que:

m (β0 + β1 )
4Yt = β0 4 Xt − (1 − α1 ) Yt−1 − − Xt−1 + εt
1 − α1 1 − α1
Tenemos que Yt ∼ I(0) (lo demostramos), también por construcción β0 4 Xt ∼ I(0) y εt ∼ I(0). Por lo tanto,
esperarı́amos que:

m (β0 + β1 )
Yt−1 − − Xt−1 ∼ I(0)
1 − α1 1 − α1

m (β0 + β1 )
Sea zt−1 = Yt−1 − − Xt−1 , entonces tendremos
1 − α1 1 − α1

m (β0 ‘β1 )
+ Xt
1 − α1 1 − α1

m (β0 + β1 )
zt = m − + α1 Yt−1 + β0 − Xt + β1 Xt−1 + εt
1 − α1 1 − α1
mα1 (β0 α + β1 )
zt = − + α1 Yt−1 − Xt + β1 Xt−1 + εt
1 − α1 1 − α1
Página 26 de 72
Tenemos que Zt = α1 Zt−1 +vt (tenemos que demostrar que vt es ruido blanco), ahora volvemos a escribir (y agregamos
un 0 conveniente):

mα1 α1 (β0 + β1 ) α1 (β0 + β1 ) (β0 α1 + β1 )Xt
Zt = − + α1 Yt−1 − Xt−1 + Xt−1 − + β1 Xt−1 + εt
1 − α1 1 − α1 1 − α1 1 − α1
Zt = α1 Zt−1

mα1 α1 (β0 + β1 )
donde α1 Zt−1 = − + α1 Yt−1 − Xt−1 .
1 − α1 1 − α1
Veamos ahora el término:

α1 (β0 + β1 ) (β0 α1 + β1 )Xt β1 − α1 β1 + α1 β0 + α1 β1 (β0 α1 + β1 )Xt
Xt−1 + β1 Xt−1 − = Xt−1 −
1 − α1 1 − α1 1 − α1 1 − α1

(β0 α1 + β1 ) (β0 α1 + β1 )Xt
= Xt−1 −
1 − α1 1 − α1
(β0 α1 + β1 )Xt
= − (Xt − Xt−1 ) ∼ I(0)
1 − α1
= Aηt ∼ I(0)
(β0 α1 + β1 )Xt
donde finalmente por construcción (Xt − Xt−1 ) ∼ I(0), y si la multiplicamos por la constante − , en-
1 − α1
tonces todo el término ∼ I(0)
Luego, volviendo a lo que tenı́amos:

m (β0 + β1 )
4Yt = β0 4 Xt − (1 − α1 ) Yt−1 − − Xt−1 + εt
1 − α1 1 − α1

m (β0 + β1 )
Demostramos que Yt−1 − − Xt−1 = Zt−1 ∼ I(0).
1 − α1 1 − α1
Con esto decimos que el modelo está balanceado. O sea, si se produce esto, decimos que Xt cointegra con la variable
Yt .
Por ende, Zt = a + bXt + cYt .
Finalmente, ADL(1,1) lo calculamos a través de MCO.
Con toda la demostración, tendremos que:

Zt = α1 Zt−1 + vt
donde esto es lo que conocemos como un proceso AR(1) estacionario con vt ruido blanco.
Tendremos que:
Si |α1 | < 1 entonces, Zt ∼ I(0)
Si |α1 | = 1 entonces, Zt ∼ I(1) y no es estacionario.
¿Cómo testeamos lo anterior?
4Zt = (α1 − 1)Zt−1 + ηt

4Ẑt = γ Ẑt−1 + ηt
¿Cómo estimamos Zt ?
Ẑt = â + b̂Xt + ĉYt
Página 27 de 72
Cálculo de ADL cuando hay cointegración:

Primeras diferencias
Valor absoluto
Yt = a0 + b0 Xt + εt ; ADL(1, 1)
Si yo corro esto por MCO, encontramos estimadores de a0 y b0 que nos llevan al equilibrio de largo plazo:
Ŷt = â0 + b̂0 Xt

m (β0 + β1 )
Ȳ = + X̄
1−α 1−α
Donde,
P
0 (Xt − X̄t )εt
0
b̂ = b + P
(Xt − X̄)2
p lı́m(b̂0 ) = b
P
1/T (Xt − X̄t )εt Corr(Xt εt )
p lı́m P 2
= =0
1/T (Xt − X̄) ∞
Esto es sólo si Xt y εt están correlacionados y hay cointegración.

Ası́, es válido calcular por MCO ya que es consistente. Y por ende, podemos correr la regresión de Dickey-Fuller.
Además, se dice que b̂0 no sólo es consistente, sino que es super consistente, puesto que va a alcanzar el 0 mucho más
rápido que los estimadores consistentes.
12. Modelos Var(p)

Sea la siguiente serie,
Yt =
m + A1 Yt−1 + A2 Yt−2 + ... + Ap Yt−p + BXt + εt
   
Y1t ε1t
Y2t  ε2t 
donde m ∈ Mk×1 , A1 ∈ Mk×k , Yt−1 ∈ Mk×1 (y ası́ para todos los Ai ) y Yt =  .  , εt =  . 
   
 ..   .. 
Ykt K×1 εkt K×1
 
X1t
X2t 
Pero, B no tiene por qué ser cuadrada, podrı́a ser por ejemplo B ∈ Mk×m y Xt ∈ Mm×1 , Xt =  . 
 
 .. 
Xkt m×1
Luego,
E(εt ) = 0; ∀t
E(εt ε0s ) = Ω si t = s y será 0 si t 6= s.
Notar que εt ∈ MK×1 y ε0s ∈ M1×K y por tanto E(εt ε0s ) ∈ MK×K
Modelo más sencillo: p = 1.
Yt = m + AYt−1 + εt , B=0
donde Yt ∈ M2×1 , m ∈ M2×1 , A ∈ M2×2 , Yt−1 ∈ M2×1 , εt ∈ M2×1 .
Página 28 de 72
Supondremos a priori que A es una matriz NO simétrica.
Y1t = m1 + a11 Y1,t−1 + a12 Y2,t−1 + ε1t

Y2t = m2 + a21 Y1,t−1 + a22 Y2,t−1 + ε2t
Y ası́ sucesivamente. Pero nos molesta los términos Y1,t−1 y Y2,t−1 .
Acá introducimos valores y vectores propios que ya conocemos.
Casos Posibles:
1. Valores propios diferentes λ1 6= λ2 .

NOTA: De interés económico, sólo nos importa valores donde |λ1 | < 1 y |λ2 | < 1. O también que ocurra, λ1 = 1,
|λ2 | < 1
2. Valores propios iguales λ1 = λ2 . Y Acá tenemos 3 casos posibles.
|λ1 | = |λ2 | > 1 (Que NO va a tener valor económico)

λ1 = λ2 = 1
|λ1 | = |λ2 | < 1
Pero acá el más interesante es λ1 = λ2 = 1.
CASO 1:
|λ1 | < 1 y |λ2 | < 1, λ1 6= λ2 .

−1 λ1
Sea Av = λv, v 6= 0. Entonces existen 2 vectores L.I tal que C = [c1 , c2 ] y por ende, C = .
λ2
Y ası́ la descomposición espectral serı́a,
λ1 0
C −1 AC = Λ =
0 λ2
Y luego, A = CΛC −1 .
Ahora, sea Zt = C −1 Yt y por lo tanto, Yt = CZt .

Luego, multiplicamos C −1 por (1)
C −1 Yt = C −1 m + C −1 AYt−1 + C −1 εt
Zt = m∗ + ΛZt−1 + γt
donde m∗ = C −1 m, y en el segundo término multiplicamos por I = CC −1 , finalmente γt = C −1 εt con εt ruido blanco.
Finalmente,
Z1t = m∗1 + λ1 Z1,t−1 + γ1t ∼ AR(1); I(0)

Z2t = m∗2 + λ2 Z2,t−1 + γ2t ∼ AR(1); I(0)

Z1t
Ası́, Zt ∼ I(0) con Zt = .
Z2t
Luego,

Z1t
Yt = c1 c2 = Z1t c1 + Z2t c2 ∼ I(0)
Z2t
Página 29 de 72
Ası́, Yt = Yt−1 = Ȳ ; εt = 0. Cuando t → ∞ (equilibrio estático de largo plazo),
Ȳ = m + AȲ
(I − A)Ȳ = m
Definiremos (I − A) = π. Desarrollemos esto:
π = I −A
= CC −1 − CΛC −1
= C[I − Λ]C −1

1 − λ1 0
= C C −1
0 1 − λ2
Con esto, el equilibrio estatico de Largo Plazo estará dado por:
Ȳ = π −1 m
CASO 2:
λ1 6= λ2 , λ1 = 1, |λ2 | < 1.
Veremos que también existen 2 vectores propios linealmente independientes.
Z1t = m∗1 + Z1,t−1 + γ1t

Z2t = m∗2 + λ2 Z2,t−1 + γ2t
Eso si, ahora Z1t ∼ Z2t ∼ I(0). Igual que antes, pero teniendo esta diferencia de λ1 = 1 (constante).
I(1) y
Z1t
Zt ∼ I(1) con Zt = .
Z2t
Luego,

Z1t
Yt = c1 c2 = Z1t c1 + Z2t c2 ∼ I(1)
Z2t
Acá no tiene mucho sentido hablar de equilibrio estático de LP porque tengo cosas que no son estacionarias (siempre
es dinámico).
Luego,
Y1t ∼ I(1)
Y2t ∼ I(1)
Si bien no tiene sentido el equilibrio de largo plazo, SÍ puede existir un equilibrio haciendo cointegración entre Y1t y Y2t .
Luego,
c(2) Yt = Z1t c(2) c1 + Z2t c(2) c2 = Z2t ∼ I(0)
dado que c(2) c1 = 0 y c(2) c2 = 1. ¿Por qué?

1 0
CC −1 = I=
0 1

1 0
C −1 C = I=
0 1
(1) (1)
c(1) c2

c c c1
c1 c2 =
c(2) c(2) c1 c(2) c2
Página 30 de 72
Luego,

Y1t
c21 c22 = c21 Y1t + c22 Y2t
Y2t
= Z2t ∼ I(0)
c(1)

NOTA: C −1 =
c(2)
Luego,
Yt = m + AYt−1 + εt / − Yt−1
4Yt = m + (A − I)Yt−1 + εt
4Yt = m − πYt−1 + εt
π = C(I − Λ)C −1 = I − A

0 0
Pero, el rango de (I − Λ) = con µ2 = 1 − λ2 es 1, mientras que el rango de C es 2. Por lo tanto, el rango de
0 µ2
π es 1 y no será invertible.
Por ello, no existirá equilibrio de largo plazo.
Analicemos esto: (1)

0 0 c
π = c1 c2
0 µ2 c(2)

0
= µ2 c2 c(2)

= c1 c2
µ2 c(2)
donde c2 c(2) ∈ M2×2
Luego, ponemos este término en la ecuación de 4Yt .
4Yt = m − µ2 c2 c(2) Yt−1 + εt

m − µ2 c2 z2,t−1 + εt
=

m1
donde z2,t−1 = c(2) Yt−1 , z2,t−1 ∼ I(0), εt ∼ I(0) y 4Yt ∼ I(0) y m =
m2
Finalmente,
Y1,t−1
c(2) = z2,t−1 ∼ I(0)
Y2,t−1
Y esta es la Interpretación como modelo de corrección de errores.
CASO 3:
λ1 = λ2 = 1

1 0
Ojo que si A es simétrica, puedo hacer la descomposición espectral C 0 AC = . Pero eso no suele suceder. Ası́
0 1
que veremos el caso general donde NO existe dos vectores propios linealmente independientes. Y por ende, no existe
la descomposición espectral vista.
Pero existe la descomposición canónica de Jordan.
Página 31 de 72
Descomposición canónica de Jordan

Definición: Sea A ∈ Mk×k (no simétrica), entonces existe s vectores propios L.I (s ≤ k) asociados a s valores propios
distintos (λ1 , λ2 , ..., λs ). Cada λ1 tiene multiplicidad mi .
Con esto, siempre P −1 AP = J donde J ∈ Mk×k ,

 
J1 0 ... 0
0 J2 ... 0
J = .
 
.. .. .. 
 .. . . .
0 0 ... Js
pero acá J1 ∈ Mm1 ×m1 , J2 ∈ Mm2 ×m2 ,..., Ji ∈ Mmi ×mi

 
λi 1 0 ... 0
 0 λi 1 ... 0
 
Ji =  0 0 λi 1 0


 .. .. .. .. .. 
. . . . .
0 0 0 ... λi
Cada Ji son matrices cuadradas que pueden ser de cualquier dimensión.
Veamos como ocupamos esta descomposición para el caso.

1 1
J =
0 1
Yt = m + AYt−1 + εt /P −1
zt = P −1 Yt
zt = m∗ + Jzt−1 + ηt
z1t = m∗1 + z1,t−1 + z2,t−1 + η1t
4z2t = m∗2 + η2t −→ z2,t ∼ I(1)
4z1,t = m∗1 + z2,t−1 + η1t ∼ I(1)
donde z2,t−1 ∼ I(1) y η1t ∼ I(0) Ası́, z1,t ∼ I(2) y zt ∼ I(2).

Ası́,

z1t
Yt = P Zt = p1 p2
z2t

Y1t
con ∼ I(2).
Y2t
Luego,
P −1 AP = J
AP = PJ
λ 1
A p1 p2 = p1 p2
0 λ

= λp1 p1 + λp2
Y ası́, Ap1 = λp1 (i), Ap2 = p1 + λp2 (ii).
Página 32 de 72
13. Ecuación Caracterı́stica VAR(p)

Ejemplo: VAR(2)
Yt = m + A1 Yt−1 + A2 Yt−2 + εt
Convertiremos este VAR(2) en un VAR(1).

Yt m A1 A2 Yt−1 ε
= + + t
Yt−1 0 I 0 Yt−2 0

Yt m A1 A2 Yt−1 ε
Llamaremos Ỹt = , m̃ = , Ã2k×2k = , Ỹt−1 = , ε̃t = t
Yt−1 0 I 0 Yt−2 0
Ası́,
Ỹt = m̃ + ÃỸt−1 + ε̃t ∼ V AR(1)
Esto se llama forma canónica de un VAR.
Observación: Esto se puede extrapolar a que cualquier VAR(p) se puede transformar a VAR(1) con este truco.
Veamos como podemos encontrar los valores propios para este VAR(2).
Ecuación caracterı́stica para el caso VAR(2)
|λI2k − Ã2k×2k | = 0

λIk 0 A1 A2

0 − = 0
λIk Ik 0

λIk − A1 −A2
= 0
−Ik λIk
Queremos llegar a que |λ2 I − λA1 − A2 | = 0.
Multiplico las primeras k filas por λ y luego divido las últimas k columnas por λ.
2
λ Ik − λA1 −λA2
= 0
−Ik λIk
2
λ I − λA1 −A2
= 0
−I I
Propiedad (asumimos, no demostramos):

A11 A12

A21 = 0
A22
|A22 ||A11 − A12 A−1
22 A21 | = 0
Ocupando esto, tendremos que:

2
λ I − λA1 −A2
= 0

−I I
1 · |λ2 I − λA1 − A2 | = 0
Y esta es la ecuación caracterı́stica.

Con esto, obtendremos 2k valores de λ.
Página 33 de 72
En el caso de un VAR(p), la ecuación caracterı́stica será:
Yt = m + A1 Yt−1 + ... + Ap Yt−p + εt

p p−1 p−2
|λ I − λ A1 − λ A2 − ... − Ap | = 0
Ahora, analizando
4Yt = m + (A1 − I)Yt−1 + A2 Yt−2 + εt + A2 Yt−1 − A2 Yt−1

= m + (A1 + A2 − I)Yt−1 − A2 (Yt−1 − Yt−2 ) + εt
= m − πYt−1 − A2 4 Yt−1 + εt
π = αβ 0
donde β 0 Yt−1 = zt−1 ∼ I(1).
Extrapolando esto:
4Yt = m − πYt−1 + β1 4 Yt−1 + β2 4 Yt−2 + ... + Bp−1 4 Yt−(p−1) + εt
NOTA: En el caso de rango(π)=r < k, entonces tenemos que estimar a través de la forma de escritura de 4Yt y no
de la forma Yt .
13.1. Tests - Orden de un VAR(p)

Tendremos los siguientes tests:
1. Sea M la cota superior del VAR en cuestión. Luego AM es la matriz ”más grande” rezagada. Hipótesis:
H01 : AM = 0 ; 1
HA : AM 6= 0
H02 : AM −1 = 0 ; 1
HA : AM −1 6= 0|AM = 0
...
H0i : AM −i+1 = 0 ; i
HA : AM −i+1 6= 0|AM = ... = AM −i+2 = 0
Y esto es el test de Razón de Verosimilitud:

X X
λM V (i) = T {ln | (M − i)| − ln | (M − i + 1)|} ∼a χ2 (k 2 )
Luego, p̂ = M − i + 1
2m k(k + 1)
donde m = k 2 p + k +
P
2. AIC(m) = ln | (m)| + (cantidad de parámetros libres, que dependen de p)
T 2
m ln(T ) k(k + 1)
donde m = k 2 p + k +
P
3. Test de Schwarz: SC(m) = ln | (m)| +
T 2
2m k(k + 1)
ln[ln T ] donde m = k 2 p + k +
P
4. Hannah-Queen: HQ(m) = ln | (m)| +
T 2
El objetivo de los 4 criterios es encontrar el valor de p.
Página 34 de 72
14. Condición de Estabilidad VAR(p)

Podemos escribirlos de las siguientes dos maneras:
Yt = m + A1 Yt−1 + ... + Ao Yt−p + εt

4Yt = m + B1 4 Yt−1 + B2 4 Yt−2 + ... + Bp−1 4 Yt−p+1 − πYt−1 + εt
Algunas cosas con respecto a estimación, tenemos dos casos:

1. π tiene rango(π)=k, no existen relaciones de cointegración (MCO ecuación por ecuación)
2. π tiene rango(π)=r < k, existen relaciones de cointegración (λ = 1)
NOTA: No vemos en el curso el caso 2., sólo nos enfocamos en caso 1.
Si εt ∼ N [0, Ω], se puede usar MV:

máx L ⇐⇒ máx ln(L) = l

ˆ T Tk
donde Lmax = cte + ln |Ω̂−1 | donde cte = [1 + ln(2π)]
2 2
Forma canónica de un VAR(p)
Vimos que se puede escribir de forma equivalente como un VAR(1). Ası́,
Ỹt = m̃ + ÃỸt−1 + ε̃t ∼ V ar(1)
Ecuación Caracterı́stica
Para VAR(2):
|λ2 Ik − λA1 − A2 | = 0
Para VAR(p):
|λp Ik − λp−1 A1 − λp−2 A2 − ... − Ap | = 0
Luego,
Yt = m + AYt−1 + εt
Yt−2 = m + AYt−3 + εt−2
Yt = m + A(m + AYt−2 + εt−1 ) + εt
Yt = (I + A)m + A2 Yt−2 + Aεt−1 + εt
Yt = (I + A + A2 )m + A3 Yt−3 + A2 εt−2 + Aεt−1 + εt
Y ası́ podemos seguir.
NOTA: Ojo que esta es la forma canónica, por simplicidad, le quitamos la ”olita”.
Si continuamos el proceso,
∞
X
Yt = lı́m (I + A + A2 + ... + An + ...)m + lı́m An Yt−n + Ai εt−i
n→∞ n→∞
i=0
Página 35 de 72
donde lı́mn→∞ (I + A + A2 + ... + An + ...)m = (I − A)−1 m.
Condición de Estabilidad:
Todos los valores propios de A tienen que cumplir |λ| < 1.
Con ello, tendremos dos casos a analizar:
i) Todos los valores propios son distintos.

ii) Hay cierta multiplicidad (valores propios repetidos).
Veamos cada uno.
14.1. Todos los valores propios son distintos

Analicemos caso i):
 
λ1 0 ··· 0 0
0
 λ2 0 ··· 0 
C −1 AC = Λ =  0 0 λ3 0 0


 .. .. .. .. .. 
. . . . .
0 0 ··· 0 λk
Luego, A = CΛC −1 .
Pero ahora,
A2 = (CΛC −1 ) · (CΛC −1 )
= CΛ2 C −1
..
.
An = CΛn C −1
Ası́, los valores propios de A2 son:

 2 
λ1 0 ··· ··· 0
0 λ22 0 ··· 0
λ23
 
0 0 0 0
Λ2 =  
 .. .. .. .. .. 
. . . . .
0 ··· ··· 0 λ2k
Y de la misma forma para An :

 n 
λ1 0 ··· ··· 0
0 λn2 0 ··· 0 
λn3
 
0 0 0 0
Λn =

 
 .. .. .. .. .. 
 . . . . . 
0 0 ··· 0 λnk
Vemos que se requiere que |λi | < 1, ∀i = 1, .., k para que An → 0 cuando n → ∞.
Página 36 de 72
Ası́,
(I − AL)Yt = m + εt
Yt = [A(L)]−1 m + [A(L)]−1 εt
= [A(1)]−1 m + [A(L)]−1 εt
= (I − A)−1 m + [A(L)]−1 εt
Este cambio es porque m es constante.
CONDICIÓN DE ESTABILIDAD:
Se dice que el VAR(p) es estable si los λi que solucionan la ecuación:
|λp Ik − λp−1 A1 − λp−2 A2 − ... − Ap | = 0
son |λi | < 1, o sea, están dentro del cı́rculo unitario.
Corolario: Estabilidad =⇒ Estacionaridad
Continuando con la expresión de Yt :
µ = E[Yt ] = [A(1)]−1 m
Γ(s) = E[(Yt − µ)(Yt−s − µ)0 ]
donde Γ(s) es una matriz de k × k y con esto se puede calcular las autocovarianzas.
Nota: Para el caso univariante, vimos que γs = γ−s . Ahora, para caso multivariante, tendremos que Γs = (Γ−s )0 .
(Pondremos la ”culebrita” de nuevo)

∞
X
Ỹt = [Ã(1)]−1 m̃ + Ãi ε̃t−i
i=0
∞
X
Yt = µ+ χi εt−i
i=0
 
Yt

 Yt−1


Como Yt = 
 Yt−2
. Ası́, botamos todos los valores y sólo consideramos Yt .

  ..
  .
Yt−p+1
14.2. Valores propios repetidos

No puedo escribirlo como el caso anterior, pero podemos escribir:
A = P JP −1
 
J1 0
0 J2 0
con P = [p1 , .p2 , ..., pk ] y J = 
  con s valores propios distintos con multiplicidad m1 , m2 , ..., ms .
... 
0 0 0 Js
Ası́,
An = P J n P −1
Para que An tienda a 0 cuando n → ∞, necesitamos que J n → 0 cuando n → ∞, y esto se cumple (no se demostrará).
Página 37 de 72
Finalmente, tanto para valores propios distintos o algunos con multiplicidad, siempre se requerirá que λ (o J) estén
en el cı́rculo unitario.
Luego, tenemos la descomposición de Wold:

∞
X
χ(L) = χi Li = (I − A1 L − A2 L2 − ... − Ap Lp )−1 = (A(L))−1
i=0
Cuando estimamos, encontramos los valores de Ai pero lo que queremos determinar son las matrices χi .
¿Qué hacemos? Multipliquemos todo por (A(L)):

χ(L)A(L) = I
2 2 p
(χ0 I + χ1 L + χ2 L + ...)[I − A1 L − A2 L − ... − Ap L ] = I
Identifiquemos los términos que acompañan a Li : (Ojo que al lado derecho tenemos sólo un L0 y el resto de los Li son
iguales a 0:
L0 : χ0 = I
L1 : χ1 L − χ0 A1 L = (χ1 − χ0 A1 )L = 0.
Ası́, χ1 = A1 (ya que χ0 = I)
L2 : χ2 L2 − χ1 A1 L2 − χ0 A2 L2 = (χ2 − χ1 A1 − A2 )L2 = 0.
Ası́, χ2 = χ1 A1 + A2 = A21 + A2
Y asi sucesivamente tendremos:
i
X
χi = χi−j Aj
j=1
con Aj = 0; j > p, i = 1, 2, ...

P3
Ejemplo: χ3 = j=1 χ3−j Aj = χ2 A1 + χ1 A2 + χ0 A3 = (A21 + A2 )A1 + A1 A2 + A3 = A31 + A2 A1 + A1 A2 + A3
Y ası́ vamos encontrando todas las matrices χi .
¿Cuánto vale χi en el caso de un VAR(1)?

χ(L) = (I − A1 L)−1
= I + A1 L + A21 L2 + ...
Ası́ I = χ0 , A1 = χ1 , A21 = χ21 = χ2 ,...
OJO: (I − A1 L)(I + A1 L + A1 L2 + ...) = I.
Y para que ésto tenga sentido, los valores propios de A tienen que ser menores a 1 en módulo.
Por lo tanto: χs = As1 para el caso VAR(1).
14.3. Función de Impulso-Respuesta (FIR)


  
εt Yt+s
ε1t  Y1,t+s 
   
ε2t  Y2,t+s 
 ..   .. 
   
Supongamos que tenemos  .
  
 y  .  Supongamos que tenemos un shock en εit y queremos que cómo afecta

 εit   Yi,t+s 
   
 .   . 
 ..   .. 
εkt Yk,t+s
a Yi,t+s .
Página 38 de 72
Tendremos que:
Yt+s = µ + εt+s + χ1 εt+s−1 + χ2 εt+s−2 + χ3 εt+s−3 + ... + χs εt + χs+1 εt−1 + ...

 
ε1t
ε2t 
 
ε3t 
 .. 
 
 . 
donde εt =  
 εit 
 
 . 
 .. 
εkt
∂Yt+s
Ası́, = χs ∈ Mk×k (esto se parece mucho al concepto de multiplicadores de impacto pero ahora en el caso
∂ε0t
multivariante).
∂Yt+s
NOTA: Si derivara con respecto a εt (sin traspuesto), = χ0s ∈ Mk×k
∂εt
15. Error de Predicción

15.1. Predicción
Mi conjunto de información en t será:
Φt = {Y1 , Y2 , ..., Y2 , ε1 , ε2 , ..., εt }
Luego,
Yt+s = µ + εt+s + χ1 εt+s−1 + χ2 εt+s−2 + ... + χs−1 εt+1 + χs εt + χs+1 εt−1 + ...
Ŷt+s = Et (Yt+s ) = E[Yt+s |Φt ]
= µ + χs εt + χs+1 εt−1 + ...
Este es el criterio que minimiza el ECM.
El Error de Predicción será:
e.p. = Yt+s − Ŷt+s

= Yt+s − Et (Yt+s )
= εt+s + χ1 εt+s−1 + χ2 εt+s−2 + ... + χs−1 εt+1
Veamos ahora cual es la covarianza:
E[(Yt+s − Et (Yt+s ))(Yt+s − Et (Yt+s ))0 ] = V ar[Yt+s ; Yt+s ]

= Ω + χ1 Ωχ01 + ... + χs−1 Ωχ0s−1
NOTA: El primer término es Ω ya que:
E(εt ) = 0
E(εt ε0t ) = Ω
E(εt ε0s ) = 0; t 6= s
El segundo término es χ1 Ωχ01 por:
E[χ1 εt+s−1 ε0t+s−1 χ01 ] = χ1 E(εt+s−1 ε0t+s−1 )χ01

= χ1 Ωχ01
Página 39 de 72
Ahora, supongamos que tenemos un VAR(1),
Yt = m + A1 Yt−1 + εt
(I − A1 L)Yt = m + εt
X∞
Yt = µ+ Ai εt−1
i=0
donde µ = (I − A1 L)−1 m = (I − A1 )−1 m y los Ai corresponden a las χi de la Descomposición de Wold.
Por lo tanto,
E[(Yt+s − Et (Yt+s ))(Yt+s − Et (Yt+s ))0 ] = V ar[Yt+s ; Yt+s ]

= Ω + A1 ΩA01 + ... + A1s−1 Ω(A1s−1 )0
Luego, para s → ∞, tendremos que la expresión Ŷt+s de la predicción será igual a µ.

¿Por qué? Porque χs = As1 y vemos que cuando s → ∞, los A se van a infinito (tiene valores propios menores a 1).
PROPUESTO: Ver esta misma expresión analizada pero para el caso de VAR(2): Yt = m + A1 Yt−1 + A2 Yt−2 + εt
15.2. Descomposición de la Varianza del E.P.

Sea
 
w11 0 ··· 0
 0 w22 ··· 0 
Ω =  .
 
.. .. ..
 ..

. . . 
0 ··· 0 wkk
Luego, tendremos que

(s) (s) (s)
χs = [χ1 , χ2 , χ(s)
q , χk ]
k
X
χq Ωχ0q = wii χqii χqii
i=1
Ası́,
χ0 = I = [e1 , e2 ...., ek ]
 
1
0
 
con e1 = 0. Y ası́ sucesivamente con los otros ei .
 
 .. 
.
0
Ahora, sea el siguiente VAR(1)

Yt = m + AYt−1 + εt
Esto es lo que llamamos VAR reducido. Ahora, veremos el VAR estructural (SVAR(p)).
Caso sencillo: k = 2.
y1t = γ10 + β12 Y2t + γ11 Y1,t−1 + γ12 Y2,t−1 + ε1t

y2t = γ20 + β21 Y1t + γ21 Y1,t−1 + γ22 Y2,t−1 + ε2t
Página 40 de 72
σ12

0 ε1t
con E(ε1 ε02 ) = 0, E(εt ε0t ) = D = y εt =
0 σ22 ε2t
Ası́,
BYt = γ0 + Γ1 Yt−1 + εt

1 β12 γ10 γ11 γ12
Con B = , γ0 = , Γ1 =
β21 1 γ20 γ21 γ22
Y este es el caso de un VAR estructural de orden 1. Ası́,
BYt = γ0 + Γ1 Yt−1 + εt ∼ SV AR(1)
En general, para SVAR(p):

BYt = γ0 + Γ1 Yt−1 + ... + Γp Yt−p + εt + CXt
Luego, tendremos que:
(B − Γ1 L)Yt = γ0 + εt
Yt = [B(L)]−1 γ0 + [B(L)]−1 εt
donde [B(L)] = (B − Γ1 L). Ademas, podemos considerar que [B(L)]−1 γ0 = [B(1)]−1 γ0 = a0
Ahora,
(B(L))−1 = (B − Γ1 L)−1
= [B(I − B −1 Γ1 L)]−1
= (I − B −1 Γ1 L)B −1
= (I + B −1 Γ1 L + (B −1 P1 )2 L2 + ...)B −1
PERO, tenemos algo más fácil:
Yt = [B(L)]−1 γ0 + [B(L)]−1 εt
Yt = [B(L)]−1 γ0 + χ(L)εt
Lo que haremos es lo siguiente. Calculemos B −1 .

Tenemos que |B| =
6 0, 1 − β12 β21 6= 0. Ası́,
Yt = B −1 γ0 + B −1 ΓYt−1 + B −1 εt = a0 + A1 Yt−1 + µt
Finalmente,
Yt = a0 + A1 Yt−1 + µt
Y tengo un VAR reducido.
Página 41 de 72
16. Modelos SVAR(p)

16.1. Representación MA de SVAR(p)
Yt = a0 + A1 Yt−1 + µt
(I − A1 L)Yt = a0 + µt
Yt = (I − A1 )−1 a0 + (A(L))−1 µt
P∞
con (A(L))−1 = χ(L), donde acá tenemos la restricción de Wold reducida, con χ(L) = k=0 χk Lk .
Acá podemos escribir, Yt+s = f (χs ), luego,

(s)
∂Yt+s,1 ∂χ1,1
=
∂µit ∂µit
P∞
Con la descomposición de Wold reducida, definimos Θ(L) = θs Ls = χ(L)B −1 = (χs Ls )B −1 = s=0 (χs B −1 )Ls .
P P
Ası́, para un SVAR(1)
Θs = χs B −1 = As1 B −1
Θ0 = χ0 B −1 = B −1
Θ1 = A1 B −1
Θ2 = A21 B −1
Luego, para k = 2,
! ! !
(0) (0) (1) (1) (s) (s)
Y1t µ1 θ11 θ12 ε1t θ11 θ12 ε1,t−1 θ11 θ12 ε1,t−s
= + (0) (0) + (1) (1) + ... + (s) (s)
Y2t µ2 θ21 θ22 ε2t θ21 θ22 ε2,t−1 θ21 θ22 ε2,t−s
!
(0) (0)
θ11 θ12 1 b12 1 1 −b12
con (0) (0) = Θ0 = B −1 6= I2 y B = , B −1 =
θ21 θ22 b21 1 1 − b12 b21 −b21 1
Y acá tenemos la representación MA, que llamaremos SM A(∞). ¿Cuándo se puede hacer esto? Cuando es estable
(estacionario).
Luego,
(s) ∂Y1,t+s
θ11 =
∂ε1,t
(s) ∂Y1,t+s
θ12 =
∂ε2,t
(s) ∂Y2,t+s
θ21 =
∂ε1,t
(s) ∂Y2,t+s
θ22 =
∂ε2,t
Y estos son los multiplicadores de impacto dinámico.
Cuando se grafican estos 4 términos (4 gráficos), obtenemos las funciones de impulso-respuesta.
¿Cuánto valen en el largo plazo? (Coeficiente de Impacto Dinámico de Largo Plazo en el componente i, j)
(s)
lı́m θ =0
s→∞ ij
Página 42 de 72
También tenemos un coeficiente de impacto dinámico acumulativo, que viene dado por:
∞
(s)
X
θ11 = Θ11 (1)
s=0

θ11 (L) θ12 (L) P∞ (s)
donde Θ(L) = , θij (L) = s=0 θij Ls
θ21 (L) θ22 (L)
16.2. Descomposición de Errores de Predicción

Sea
e.p. : Yt+s − Ŷt+s|t = µt+s + χ1 µt+s−1 + ... + χs−1 µt+1
= Σ0 εt+s + Σ1 εt+s−1 + ... + Σs−1 εt+1
NOTA: Es importante pasar de µ a ε ya que éstos últimos tienen la propiedad que no se correlacionan entre sı́.
Luego, calculemos la varianza de este error de predicción:

V ar(e.pt+s,1 ) = V ar[Y1,t+s − Y1,t+s|t ]
(0) (1) (s−1) 2 (0) (1) (s−1) 2
= σ12 [(σ11 )2 + (σ11 )2 + ... + (σ11 ) ] + σ22 [(σ12 )2 + (σ12 )2 + ... + (σ12 ) ]
= σ12 (s)
Ası́,
(0) (1) (s−1) 2 (0) (1) (s−1) 2
σ22 (s) = σ12 [(σ21 )2 + (σ21 )2 + ... + (σ21 ) ] + σ22 [(σ22 )2 + (σ22 )2 + ... + (σ22 ) ]
Luego,
(0) (1) (s−1) 2
σ12 [(σ21 )2 + (σ21 )2 + ... + (σ21 ) ]
ρ11 (s) =
σ12 (s)
Y esto es la proporción de la varianza de los e.p. que están desde perı́odo t + 1 a t + s que se pueden adscribir a shocks
estructurales de tipo I en ese perı́odo de tiempo.
16.3. Estimación
Modelos estructurales tienen DEMASIADOS PARÁMETROS no identificados, por ende, no se pueden estimar (Este
es el problema de los modelos estructurales).
¿Qué hacemos?

1 b12
1. Poner restricciones: B = , b12 = 0, b12 + b21 = 1
b21 1
2. Descomposición de Cholesky
Definición: Matriz A es definida positiva ssi ∀z 6= 0: z 0 Az > 0, z 0 Az ≥ 0
Cholesky:
Si A es A = P P 0 con P matriz triangular inferior (todo lo que está de la diagonal para arriba es 0),
p11 0
P =
p21 p22
Esta matriz P debe cumplir con: p11 ≥ 0 y p22 ≥ 0 (esto para semi-definido positivo, si A es definida positiva,
entonces es mayor que 0 estricto).
NOTA: Otra particularidad, es que esta descomposición (A = P P 0 ) no es única con A semi-definida positiva.
Descomposición de Cholesky
1 0 λ11 0
La descomposición será Ω = P P 0 = T ΛT 0 con T = .Λ= , con ambos λ ≥ 0.
t21 1 0 λ22
Página 43 de 72
Versión reducida del SVAR(2):

El SVAR estructural está dado por: BYt = γ0 + Γ1 Yt−1 + εt .
Luego, el VAR reducido será: YT = a0 + A1 Yt−1 + µt . Con ello,
V ar(ut ) = Ω = T ΛT 0

1 0
T −1 =
−t21 1
T −1 Yt = T −1 a0 + T −1 A1 Yt−1 + T −1 µt
B̃Yt = γ̃0 + Γ̃1 Yt−1 + ε̃t
con T −1 µt = ε̃t . Luego,
V ar(ε̃t ) = V ar(ε̃t )
0
= E[T −1 µt µ0t T −1 ]
0
= T −1 E(µt µ0t )T −1
pero, E(µt µ0t ) = Ω, luego

0
T −1 T ΛT 0 T −1 = Λ
Finalmente,

λ11 0
V ar(ε̃t ) = Λ=
0 λ22

−1 1 0
B̃ = T =
−t21 1
OJO: Como esta descomposición NO es única, decimos que son seudo-estructurales el modelo B̃Yt = γ̃0 + Γ̃1 Yt−1 + ε̃t .
17. Regresiones Aparentemente No Relacionadas (Modelos SUR)

Tenemos el siguiente modelo:
Y1 = X1 β1 + ε1
Y2 = X2 β2 + ε2
..
.
Ym = Xm βm + εm
En general, vamos a suponer que: E(εi ) = 0 y E(εi ε0j ) = σij IT y E(εit εjs ) = σij si t = s y E(εit εjs ) = 0 si t 6= s
    
X1 0 ··· 0 β1 ε1
0
 X2 ··· 0   β2   ε 2 
Y1 Y2 ... Ym =  .   ..  +  .. 
   
.. .. ..
 .. . . .  .   . 
0 ··· 0 Xm βm εm
Ası́, tendremos el modelo:

Y = Xβ + ε
Página 44 de 72
Luego,
E[εε0 ] = V
ε1 ε01 ε1 ε02 ε1 ε0m
    
 ε1  ···
 ε2 ε01 · · · ε2 ε0m 
 
 ε 2  ···
 

E  .  ε01 ε02 ... 0
εm = E .
   
.. .. .. 

  ..  
  .. . . . 
 
εm εm ε01 · · · ··· εm ε0m
 
 
σ11 IT σ12 IT ··· σ1m IT
 σ21 IT σ22 IT ··· σ2m IT 
=  .
 
.. .. ..
 ..

. . . 
σm1 IT σm2 IT ··· σmm IT
 
ε1
 ε2 
NOTA:  .  ∈ MmT ×1 .
 
 .. 
εm
Ahora,
  

 ε11 

 ε12 
 

0

E(ε1 ε2 ) = E  .  21 ε ε ... ε
 
22 2T

  ..  

 
ε1T
 
 
E(ε11 ε21 ) 0 ··· 0
 0 E(ε 12 ε22 ) · ·· 0 
= 
 
.. .. . .. .. 
 . . . 
0 ··· 0 E(ε1T ε2T )
 
σ12 0 ··· 0
 0 σ12 ··· 0 
= 
 
.. .. .. .. 
 . . . . 
0 ··· 0 σ12
y acá E(ε11 ε22 ) = 0, E(ε11 ε2T ) = 0 y ası́ porque son de distinto tiempo.
Recordar que E(εij εjs ) = σij si t = s pero E(εij εjs ) = 0 si t 6= s.
17.1. Producto de Kronecker
 
a11 B a12 B ··· a1m B
 .. .. .. .. 
 . . . . 
A⊗B = 
 . ..

.. 
 .. ..
. . . 
am1 B am2 B ··· amm B
con A ∈ Mm×n y B ∈ Mp×q y A ⊗ B ∈ Mmp×nq .
Página 45 de 72
Con ello, antes tenı́amos que:

 
σ11 IT σ12 IT ··· σ1m IT
 σ21 IT σ22 IT ··· σ2m IT 
V =  .
 
.. .. ..
 ..

. . . 
σm1 IT σm2 IT ··· σmm IT
X
= ⊗IT
X
= σij , i, j = 1, 2, ..., m
ij
Propiedades del Producto de Kronecker

1. (A ⊗ B)0 = A0 ⊗ B 0
2. (A ⊗ B)−1 = A−1 ⊗ B −1
3. (A ⊗ B)(C ⊗ D) = (AC) ⊗ (BD)

NOTA: Esto se cumple si coinciden las dimensiones.
4. A ⊗ (B + C) = (A ⊗ B) + (A ⊗ C)
5. (A + B) ⊗ C = (A ⊗ C) + (B ⊗ C)
Volviendo al SUR:
Y = Xβ + ε
0
E(εε ) = V = Σ ⊗ IT 6= λImT ×mT
β̂M CG = (X 0 V −1 X)−1 X 0 V −1 Y
Se demostró que β̂M CG es insesgado, bajo la condición de que f (ε) = f (−ε) (error sea simétrico).
Con respecto a σ̂ij ,
e01 e1
σˆ11 = s11 =
T − k1
e0 e2
σˆ22 = s22 = 2
T − k2
Por ende, Zellner demostró que el siguiente estimador es consistente:
PT
e0i ej t=1 eit ejt
σ̂ij = sij = =
T T
Ahora, calculemos con MCO:
ei = Yi − Xi β̂i(M CO) ; β̂i(M CO) = (Xi0 Xi )−1 Xi0 Yi
Ahora, calculemos esto pero por Mı́nimos Cuadrados Generalizados (MCG):
ei = Yi − Xi β̂i(M CG)
*Este residuo debiera ser un mejor residuo que el anterior, y podrı́amos tener:
ˆij ẽ0i ẽj ˆ

σ̂ = =⇒ V̂
T
ˆ ˆ ˆ
β̂M CGF = (X 0 V̂ −1 X)−1 X 0 V̂ −1 Y
Página 46 de 72
Y ası́ sigo... ¿Hasta cuándo? Hasta que esto converja.

Esto se llama SUR iterado.
Ojo que ε ∼ N (0, V ).
Ejemplo:
Sea Y = Xβ + ε, tenemos que V = P P 0 . Supongamos que premultiplicamos por P −1 ,
Y ∗ = X ∗ β + ε∗
Esto si podemos estimarlo por MCO.

0 0
β̂M CO = (X ∗ X ∗ )−1 X ∗ Y ∗ = (X 0 V −1 X)−1 X 0 V −1 Y
El cual el último es MCG.

P
El problema acá: No conocemos ( )ij = σij . Con ello, Zellner realizó un modelo para encontrar σ̂ij .
Dice que,
e0 ej
σ̂ij = i
T
donde ei , ej son los residuos obtenidos por MCO.
Esto produce estimadores asintóticamente eficientes.
Modelo:
Y1 = X1 β1 + ε1
Y2 = X2 β2 + ε2
..
.
Ym = Xm βm + εm
2 casos interesantes:
Cuando los errores εi están prácticamente nada correlacionadas, entonces podemos estimar cada ecuación por
separada por MCO.
Cuando los Xi son todos iguales, entonces estimar el β̂M CG será lo mismo que estimar por separado cada ecuación
por MCO (independiente de que los errores estén correlacionados).
OJO:
X−1 X−1
β̂M CG = [X 0 ( ⊗IT )X]−1 X 0 ( ⊗IT )Y
X−1
V ar(β̂M CG ) = [X 0 ( ⊗IT )X]−1
Vamos a demostrar los 2 casos interesantes:

1. CASO 1: σij = 0, i 6= j.
 0   σ 11 I σ 12 IT ··· σ 1m IT
 
X1 0 ··· 0 T X1 0 ··· 0
0 X20 ··· 0  .. 
0 X2 ··· 0
··· . ··· ··· 

X 0 Σ−1 ⊗ IT X

=  .
  
.. .. ..   .. .. .. ..
 .. ..
 
. . . ··· ··· . ···  . . . . 
0
0 0 ··· Xm σ m1 IT σ m2 IT ··· σ mm
IT 0 0 ··· Xm
Página 47 de 72
Ahora, imponemos σij = 0

 0
σ 11 IT
  
X1 0 ··· 0 0 ··· 0 X1 0 ··· 0
0 X20 ··· 0  0 σ 22 IT ··· 0  0 X2 ··· 0 
X 0 Σ−1 ⊗ IT X

=
   
 .. .. .. ..   .. .. .. ..   .. .. .. .. 
 . . . .  . . . .  . . . . 
0
0 ··· 0 Xm 0 ··· 0 σ mm IT 0 ··· 0 Xm
 0   11 
X1 0 ··· 0 σ IT X1 0 ··· 0
0 X20 ··· 0   0 σ 22 IT X2 · · · 0 
=  .
  
.. .. ..   .. .. . .
 .. . . 
. . .   . . . . 
0 mm
0 ··· 0 Xm 0 ··· 0 σ IT Xm
 11 0 
σ X1 X1 0 ··· 0
 0 σ 22 X20 X2 · · · 0 
= 
 
.. .. .. .
.. 
 . . . 
0
0 ··· 0 σ mm Xm Xm
Ahora, calculamos [X 0 ( ⊗IT ) X]−1

P
σ11 (X10 X1 )−1

 
0 ··· 0
−1
 0 σ22 (X20 X2 )−1 ··· 0 
[X 0 (Σ ⊗ IT ) X] =
 
 .. .. .. .. 
 . . . . 
0
0 ··· 0 σmm (Xm Xm )−1
OJO: Podemos invertir cada (Xi0 Xi )−1 ya que cada Xi tiene rango completo (esto ya que se cumplen todos los
postulados vistos en cursos pasados), en otros términos, no hay multicolinealidad perfecta.
NOTA: (σii )−1 = σ ii , por ende, si σij = 0, entonces, σ ij = 0.
Ahora, resolveremos la otra parte que nos falta X 0 Σ−1 ⊗ IT Y

 11 0 
σ X1 Y1
22 0
 σ X2 Y2
 
0 −1

X Σ ⊗ IT Y = 

.. 
 . 
0
σ mm Xm Ym
Ahora, multiplicando los dos términos:
(X10 X1 )−1 X10 Y1

 
 (X20 X2 )−1 X20 Y2 
β̂M CG = 
 
.. 
 . 
0
(Xm Xm )−1 Xm
0
Ym
 
β̂1M CO
 β̂2M CO 
= 
 
.. 
 . 
β̂mM CO
Por lo tanto, se demuestra que es equivalente hacer el β̂M CO a estimar cada ecuación por separado con MCO.
2. CASO 2: Ahora, supongamos que X1 = X2 = ... = Xm = X̄,
 
X̃ 0 · · · 0
 0 X̃ · · · 0 
X=. ..  = IM ⊗ X̃
 
.. ..
 .. . . .
0 ··· 0 X̃
Página 48 de 72
β̂ = [X 0 (Σ−1 ⊗ IT )X]−1 X 0 (Σ−1 ⊗ IT )Y

= [(IM ⊗ X̃)0 (Σ−1 ⊗ IT )(IM ⊗ X̃)]−1 (IM ⊗ X̃)0 (Σ−1 ⊗ IT )Y
= [(IM ⊗ X̃ 0 )(Σ−1 ⊗ IT )(IM ⊗ X̃)]−1 (IM ⊗ X̃ 0 )(Σ−1 ⊗ IT )Y
= [(IM Σ−1 IM ) ⊗ X̃ 0 IT X̃]−1 [(IM Σ−1 ) ⊗ (X̃ 0 IT )]Y
= [Σ−1 ⊗ X̃ 0 X̃]−1 [Σ−1 ⊗ X̃ 0 ]Y
= [Σ ⊗ (X̃ 0 X̃)−1 ][Σ−1 ⊗ X̃ 0 ]Y
= [IM ⊗ (X̃ 0 X̃)−1 X̃ 0 ]Y
 0 −1 0
···
   
(X̃ X̃) X̃ 0 0 Y1 β̂1M CO
0 −1 0
 0 (X̃ X̃) X̃ ··· 0   Y2   β̂2M CO 
  ..  
    
 .. . .. .. .. .. 
= 
 . . .   .
  
 =  . 

. .. .. ..  .   .
.. . .
 
 . . .   .   . 
0 −1 0 YM
0 ··· 0 (X̃ X̃) X̃ β̂mM CO
Queda demostrado. Y esto se parece al VAR. Al final, el VAR es un caso particular del SUR donde se cumple
que X1 = X2 = ... = X̃
18. Ecuaciones Simultáneas

Tenemos el siguiente modelo:
BYt + CXt = εt
Veamos algo de notación:
Vamos a analizar ecuaciones simultáneas con G ecuaciones, donde G también es el número de variables endógenas en
el sistema.
Por otro lado, k será el número de variables predeterminadas (o sea, exógenas + exógenas rezagadas + endógenas
rezagadas).
Finalmente, t = 1, ..., T .
Con esto, B ∈ MG×G , por ende, existe B −1 (es decir, det(B) 6= 0). Luego, C ∈ MG×k , Yt ∈G×1 , Xt ∈ Mk×1 y
εt ∈ MG×1 .
Luego,
 
β11 β12 ... β1G
 β21 β22 ... β2G 
B =  .
 
.. .. .. 
 .. . . . 
βG1 βG2 ... βGG
 
γ11 γ12 ... γ1k
 γ21 γ22 ... γ2k 
C =  .
 
.. .. .. 
 .. . . . 
γG1 γG2 ... γGk
     
Y1t X1t ε1t
 Y2t  X2t   ε2t 
Yt =  .  , Xt =  .  , εt =  . 
     
 ..   ..   .. 
YGt Xkt εGt
Analizando la ecuación, si aplicamos transpuesta:
Yt0 B 0 + Xt0 C 0 = ε0t
Y B 0 + XC 0 = ε
Página 49 de 72
Y10
   0  0
X1 ε1
 Y20   X20   ε02 
 ..   ..   .. 
     
 .   .   . 
donde Y =  0 
  , X =  0
  ,ε=
 ε0t 

Y
 t X
 t  
 .   .   . 
 ..   ..   .. 
0 0
YT T ×G XT T ×k ε0T T ×G
Ejemplo: Oferta-Demanda
Y1t + β12 Y2t + γ11 = ε1t : Demanda
β21 Y1t + Y2t + γ21 = ε2t : Of erta
Dado lo que conocemos de Oferta-Demanda, tenemos que β12 > 0, γ11 < 0.
Veamos cuales son las matrices B y C:

1 β12
B =
β21 1

Y1t
Yt =
Y2t
Xt = 1 ∀t

γ11
C =
γ21
OJO: ¿Por qué no aparecen β11 y β22 ? Al poner que son igual a 1, imponemos la Condición de Normalización.
¿Cómo resolvemos?
BYt + CXt = εt
BYt = −CXt + εt /B −1
B −1 BYt = B −1 (−CXt ) + B −1 εt
Yt = πXt + vt
donde π = −B −1 C ∈ MG×k .
Notar que el sistema Yt = πXt + vt corresponde a un SUR con (X1 = X2 = ... = Xm ).
Luego, las ecuaciones reducidas serı́an:
Y1t = π11 X1t + π12 X2t + ... + π1k Xkt + v1t

..
.
Yit = πi1 X1t + πi2 X2t + ... + πik Xkt + vit
OJO: Recordar que εt ∼ iid(0, ), vt ∼ iid(0, Ω), Ω = B −1 (B −1 )0 .

P P
Y como lo vimos, esto se estima por MCO ecuación por ecuación.

π11
Continuando el ejercicio, tendremos que π ∈ M2×1 , o sea, π = .
π21
¿Cuántas incógnitas tiene el modelo? Tiene 4 (los β y γ). Todos estos son parámetros estructurales. PERO, por MCO
somos capaces de estimar solo dos π11 , π21 .
Luego, tenemos el mismo problema en el cual tenemos infinitas soluciones y por ende, el modelo como está ası́ plan-
teado, no lo podemos estimar. Tenemos un sistema sub identificado, tenemos más incógnitas (son 4) que coeficientes
reducidos (que son 2).
Página 50 de 72
Vamos a imponer una serie de restricciones para que el sistema pueda estar bien identificado y por ende, pueda ser
estimado.
Para ello, ocuparemos como ejemplo el siguiente modelo:
Y1t + β12 Y2t + γ11 X1t + γ12 X2t = ε1t : Demanda

β21 Y1t + Y2t + γ21 X1t + γ23 X3t + γ24 X4t = ε2t : Of erta
Igual que antes, identifiquemos las matrices:

1 β12
B =
β21 1

γ11 γ12 0 0
C =
γ21 0 γ23 γ24
Ahora, tenemos 7 incógnitas estructurales por estimar, dos correspondientes a las variables endógenas (β12 , β21 ) y 5
correspondientes a las variables predeterminadas (γ11 , γ12 , γ21 , γ23 , γ24 ).
Veamos ahora π:

−1 π11 π12 π13 π14
π = B C=
π21 π22 π23 π24 2×4
Y acá tenemos un sistema sobre identificado, puesto que tenemos 8 coeficientes reducidos (los π) para estimar las
7 incógnitas estructurales.
Luego,
det(B) = ∆ = 1 − β12 β21

1 1 −β12
B −1 =
∆ −β21 1
NOTA: Acá también estamos en el caso donde X1 = X2 = ...Xm , puesto que tenemos el sistema reducido Yt = πXt +vt .
Resolviendo el sistema:

1 (−γ11 + β12 γ21 ) −γ12 β12 γ23 β12 γ24
π =
∆ (β21 γ11 − γ21 ) β21 γ12 −γ23 −γ24
Finalmente,
π22
β21 = −
π12
π13 π14
β12 = − =−
π23 π24
Este método se llama Mı́nimos Cuadrados Indirectos.
NOTA: Estos valores son resultados poblacionales.
OJO: Notar que acá en el ejercicio te dan los valores de todos los π, por lo tanto, con ello podremos encontrar fácil-
mente los valores de β y γ.
¿Qué ocurre a nivel muestral?
π̂22
β̂21 = −
π̂12
π̂13 π̂14
β̂12 = − =−
π̂23 π̂24
Página 51 de 72
PERO acá hay un problema, tendremos que β̂12 será igual a esos dos valores, que prácticamente NUNCA serán iguales,
π̂13 π̂14
o sea, − 6= − , y esto ocurrió ya que el modelo está sobre identificado.
π̂23 π̂24
El método de Mı́nimos Cuadrados Indirectos no es bueno cuando hay más parámetros reducidos que parámetros es-
tructurales (modelo sobreidentificado), por lo que ocurre a nivel muestral.
Esto nos enseña que necesitamos restricciones para las matrices B y C para obtener que el modelo esté exactamente
identificado y ası́ poder ocupar sin problemas el método de MCI. Para ello, veremos próximamente distintos tipos de
restricciones.
RESUMEN:
Cuando el modelo está exactamente identificado podemos ocupar MCI y MC2E (y serán iguales de hecho)
Cuando el modelo está sobre identificado, tendremos que ocupar MC2E (ya vimos que con MCI no funciona).
Cuando el modelo está sub identificado, NO podremos ocupar ningún método para estimarlo.
18.1. Condiciones de Identificación

Nuestro sistema estructural es:
BYt + CXt = εt

Yt
B C = εt
Xt
AZt
= εt
 
α1
 α2 
Yt
con A = B C y Zt = y además, tendremos que: A =  .  y además,
 
Xt  .. 
αG

α1 = β11 β12 ... β1G γ11 γ12 ... γ1k
con G + k incógnitas en las j-ésimas ecuaciones.
Primera ecuación:
α1 Zt = εt :
 
0
0
 
1
Impondremos la restricción: β13 = 0, es decir, α1 0 =0
 
 
 .. 
.
0 (G+k)×1
Supongamos que tenemos otra restricción homogénea: β11 = β12 . ¿Cómo la escribimos con la notación?
 
1
−1
 
0
α1  0  = 0
 
 
 .. 
 . 
0
Página 52 de 72
Luego, podemos definir:  

0 1
0 −1
 
1 0 
 
Φ(1) = 0 0 
 
 .. .. 
. . 
 
0 0 
0 0 (G+k)×r
1
Esto lo denominamos Matriz de restricciones a priori.

Con r1 : número de restricciones a priori que existe en la ecuación 1. Ası́,
α1 Φ(1) = 0
Pero, estas restricciones a priori vienen de la teorı́a. Tenemos otras restricciones que vienen de la Matemática:
π = −B −1 C
Bπ + C ≡ 0
Vamos a unir estas restricciones matemáticas a las restricciones a priori.
Y definimos:  
0 1
0
 −1 
1 0
 
Φ(1) = 0 0


 .. .. 
. . 
 
0 0
0 0 (G+k)×r
1
Ası́, tendremos restricciones:
Lineales: Rβ = r
Homogéneas: Ejemplo 5β14 − 3γ13 + γ1,10 = 0
Exclusión: Ejemplo βij = 0, γij = 0
OJO: No abarca restricciones como: 2β12 − 5γ23 = 0 no coincide primer sub-indice (1 6= 2).
Identidades:
a) α1 Φ(1) ≡ 0
b) π ≡ −B −1 C, entonces,
π
Bπ + C ≡ 0 ⇐⇒ B C ≡ 0 ⇐⇒ Aw ≡ 0
IK
Y por ende, α1 w = 0.
Desarrollemos esto,

α1 w Φ(1) = 0

Luego, α1 ∈ M1×(G+K) , w Φ(1) ∈ M(G+K)×(K+R(1) ) . Ası́, tenemos K + R(1) ecuaciones y G + K incógnitas.
Página 53 de 72
Teorema:
Sea M x = 0, sistema con m ecuaciones y n incógnitas con r(M ) ≤ mı́n(m, n), entonces, tendremos que:
r(M ) + n(M ) = 0
con r() el rango y n() la nulidad.

NOTA: Nulidad es la dimensión del espacio nulo. El espacio nulo es n(M ) = {x : M x = 0}.
Luego, vamos a querer que esta nulidad sea igual a 1. ¿Por qué? Porque quiero que mi espacio de soluciones sea una
recta, y por ende, haya una solución única. O sea, fijo un β e impongo una Condición de Normalización.
OJO que r(M ) = n − 1.
Con el teorema anterior en mente, tendremos lo siguiente.
TEOREMA DE RANGO:
r w Φ(1) = (G + K) − 1
Si se cumple esto, la ecuación 1 está identificada
(OJO que esto puede ser perfectamente identificada o sobre-indentificada, pero lo importante es que se puede estimar
de forma unı́voca).
Condición de Orden:
G + K − 1 ≤ K + R(1)
G − 1 ≤ R(1)
Con esto, vemos que siempre será necesario tener restricciones.
Caso particular: Todas las R(1) son sólo restricciones de exclusión. Notación: Sea gi número de restricciones endógenas
incluidas en la ecuación 1 y k1 número de restricciones predeterminadas incluidas en la ecuación 1.
Luego, R(1) = (G − g1 ) + (K − k1 ). Por lo tanto,
(G − g1 ) + (K − k1 ) ≥ G − 1
(K − k1 ) ≥ g1 − 1
Por otro lado, tenemos un teorema que es equivalente al Teorema de Rango que enunciamos. Dice lo siguiente:
Teorema:
r[A · Φ(1) ] = G − 1
EJEMPLO:
β11 Y1t + β12 Y2t + γ11 X1t + γ12 X2t = ε1t

β21 Y1t + β22 Y2t + γ21 X1t + γ22 X2t = ε2t
Pregunta: Ecuación 1 está identificada? NO, faltan restricciones.

Continuación del enunciado del ejemplo: Las restricciones serán:
γ11 = γ22 = 0
Página 54 de 72
Luego,
 
0 0
0 0
Φ(1) = 
1

0
0 1
 
0 0
β11 β12 γ11 γ12 0 0
A · Φ(1) =  
β21 β22 γ21 γ22 1 0
0 1

γ11 γ12 0 0
= =
γ21 γ22 γ21 γ22
¿Rango de la última matriz? Es 1. La cual coincide con G − 1 dado que G = 2. Estamos BIEN.
RECORDAR: Cuando R(1) = G − 1 se dice que la ecuación 1 está exactamente identificada. Y cuando R(1) > G − 1
se dice que la ecuación 1 está sobre-identificada.
Luego, la primera ecuación será:

 
π11 π12 0 0
π21 π22 0 0
β11 β12 γ11 γ12  1
 = 0 0 0 0
0 1 0
0 1 0 1
β11 π11 + β12 π21 + γ11 = 0
β21 π12 + β12 π22 + γ12 = 0
γ11 = 0
γ12 = 0
Ası́, tendremos que:
π11 + β12 π21 = 0

π12 + β12 π22 = 0
π11 π12
Acá, tendremos un sistema sobre-identificado ya que tenemos: β12 = − =− .
π21 π22
Luego,

1 β12 γ21 β12 γ22
π = −B −1 C =
∆ −γ21 −γ22
 
π11 π12 0 0
π21 π22 0 0
Lo cual da igual a 0. Por lo tanto, π no tiene inversa. O sea, todo nace de que 
 1
 no tiene rango 4
0 1 0
0 1 0 1
sino que rango G + k − 1 = 3. Ası́, podremos estimar esto pero no por MCI.
RESUMEN - Identificación:

1. R W Φ(i) = G + K − 1
2. R[A · Φi ] = G − 1
OJO: 1. y 2. son equivalentes.
3. R(1) ≥ G − 1, donde K − ki ≥ gi − 1
Página 55 de 72
Restricciones
1. Identidades:
Ejemplo:
qD = α0 + α1 p + ε1
O
q = β0 + β1 p + β 2 w + ε 2
D
q ≡ qO
Las endógenas son: q D , q O , p, o sea, G = 3. Al poner la tercera ecuación, hacemos que el modelo esté exactamente
identificado.
(No vamos a entrar mucho en detalle en esto, ver en libros).
2. Restricciones entre ecuaciones:

Hay que analizar la identificabilidad de las dos ecuaciones donde aparece la interrelación.
Ejemplo:
Y1 + β12 Y2 + γ11 X1 = ε1
β21 Y1 + Y2 + γ21 X1 = ε2
γ11 + γ21 = 0
¿Está exactamente identificado?

Tenemos 3 incógnitas (β12 , β21 y γ11 ), ya sabemos que γ21 está relacionado con γ11 .
Luego, ¿cuántas ecuaciones reducidas hay?
Y1 = π11 X1 + r1
Y2 = π12 X1 + r2
Ası́, tenemos dos parámetros predeterminados. Luego, no podemos estimar, no está identificado. No está identificada
ni la primera ecuación, ni la segunda.
Veamos que hacer: Le agregaremos una restricción adicional.
β12 ≡ 0
Ahora, veamos si ahora está identificado.

Impongamos las 2 restricciones al modelo:
Y1 + γ11 X1 = ε1
β21 Y1 + Y2 + γ21 X1 = ε2
γ11 + γ21 = 0

f11 f12 1 0 γ11
Ahora, sea F = Multiplicamos F a AZt = εt , con A = [B; C], B = ,C = . Luego,
f
21 f22 β21 1 γ21
1 0 γ11
A=
β21 1 γ21
Ası́,
(f11 + f12 β21 )Y1 + f12 Y2 + (f11 γ11 + f12 γ21 )X1 = ε∗1
(f21 + f22 β21 )Y1 + f22 Y2 + (f21 γ11 + f22 γ21 )X1 = ε∗2
Ecuación (1): @Y2 −→ f12 ≡ 0.

f11 Y1 + f11 γ11 X1 = ε∗1
Página 56 de 72
Y1 + γ11 X1 = ε∗1 /f11 = ε∗∗

1
Ecuación (2):
f21 + f22 β21 f21 γ11 + f22 γ21 ε∗
Y1 + Y2 + X1 = 2 = ε∗∗
2
f22 f22 f22
f22 γ11 f21 γ11 + f22 γ21 f22 (γ11 + γ21 ) + f21 γ11
+ = 0 =⇒ =0
f22 f22 f22
Como γ11 + γ21 = 0,
f21 γ11
= 0 =⇒ f21 ≡ 0
f22
Luego, para que las ecuaciones transformadas sean admisibles, entonces Y2 no puede estar en la primera ecuación,
luego, f12 ≡ 0.
Finalmente,
f11 0
F =
0 f22
Ahora, si no se quiere hacer de esta forma, hay otra forma de hacerlo.
Escribamos el sistema de ecuaciones reducidas: (acá no hay que transformar nada, primero, despejaremos Y1 e Y2 en
función de las variables predeterminadas).
Y1 = −γ11 X1 + r1
Y2 = (β21 γ11 − γ21 )X1 + r2
Asi,
Y1 = π11 X1 + r1
Y2 = π21 X1 + r2
Ası́, π11 = −γ11 , y ası́,

γ11 (β21 + 1)
Y2 = X1 + r2
π21
Conozco todo y por ende, despejo β21 .
Este método se llama método de primeros principios.
18.2. Estimación
Sistema de Ecuaciones Recursivas

1 0
(i) B es triangular inferior, B =
β21 1

P P σ11 0
(ii) es diagonal, =
0 σ22
Ejemplo:
Y1 + γ11 X1 = ε1
β21 Y1 + Y2 + γ21 X1 = ε2
Con σ12 ≡ 0, E(ε1 ε2 ) = 0.
Página 57 de 72
Vemos que cuando tengamos un caso ası́, estimaremos por MCO ecuación por ecuación. La primera, es trivial ver que
se puede, la segunda no tanto.
Ecuación (2): Y2 = −β21 Y1 − γ21 X1 + ε2

Esto puede generar problemas ante una eventual correlación de Y1 con el error ε2 . PERO, Y1 depende de ε1 , y como
E(ε1 ε2 ) = 0, entonces tenemos seguridad de que Y1 no estará correlacionado con ε2 y ası́, podemos asegurar que
podemos estimar por MCO la ecuación (2).
MC2E
Sea
y1t = −β12 y2t − β13 y3t − ... − β1g ygt − γ11 x1t − ... − γ1k xkt + ε1t
con g, k número total de variables endógenas y predeterminadas.
y1 = Y1 β + X1 γ + ε1
   
β12 γ11
... −xk T ×k , β =  ...  , γ =  ... 

con Y1 = −y2 −y3 ... −yg , X1 = −x1
   
T ×(g−1)
β1g (g−1)×1 γ1k k×1

β
Este modelo también se puede escribir como: y = Z1 α + ε1 con α = y Z1 = [Y1 ; X1 ].
γ
Tenemos X = [X1 ; X2 ], luego, la primera etapa será:
Z1 = Xδ + η
con k ≥ g −1+k, el cual es condición necesaria para que la ecuación esté identificada (estimamos esta etapa por MCO).
En la ecuación 1: (Está identificada)
1 · yi = Y1 β + X1 γ + ε = Z1 α + ε
Z1 = [Y1 ; X1 ]; α0 = [β 0 , γ 0 ]
XT ×k = [X1 ; X2 ]
K ≥ g1 − 1 + k1
Z1 = Xδ + ν
δ̂M CO = (X 0 X)−1 X 0 Z1
Donde δ̂M CO ∈ MK×(g1 −1+k1 ) . Luego,

Ẑ1 = X δ̂ = X(X 0 X)−1 X 0 Y
donde PX = (X(X 0 X)−1 X)
Página 58 de 72
Recordar que las 2 etapas son:
Encontrar Ẑ1
MCO: y1 = Ẑ1 α + ν
Finalmente, α̂M CO = (Ẑ10 Ẑ1 )−1 Ẑ10 y1
pero Ẑ1 = PX Z1 , entonces
α̂M CO = [Z10 PX
0
PX Z1 ]−1 Z10 PX
0
y1
0 2 n
pero la matriz de proyección cumple con: PX = PX y PX = PX (por ende, PX = PX ), por lo tanto,
α̂M CO = [Z10 PX Z1 ]−1 Z10 PX y1 = α̂M C2E ≡ α̂M CI
(la última equivalencia se cumple si la ecuación está exactamente identificada).

Luego, V ar(α̂M C2E ) = s2 (Z1 PX Z1 )−1
con s2 estimación consistente de σε1
2
= σ11 ,
(y1 − Z1 α̂M C2E )0 (y1 − Z1 α̂M C2E ))

s2 =
T
MC3E
Requisitos:
Eliminar todas las ecuaciones que no están identificadas.
Eliminar las identidades.
Supongamos que tenemos la ecuación i-ésima que está identificada:
yi = Yi βi + Xi γi + εi = zi αi + εi
con Zi = [Yi ; Xi ], αi0 = [βi0 ; γi0 ]. Multiplico todo por X 0 .
X 0 yi = X 0 Zi αi + X 0 εi
0
E(X εi ) = 0
0
E(X εi ε0i X) = X 0 E(εi ε0i )X = X 0 σii X = σii X 0 X
Ahora, esto lo estimaremos por MCG:
α̂i(M CG) = [Zi0 X(X 0 X)−1 X 0 Zi ]−1 Z10 X(X 0 X)−1 X 0 yi ≡ [Zi0 PX Zi ]−1 Z10 PX yi ≡ α̂M C2E
19. Modelos con Datos de Panel

19.1. Modelos Pooled; Agregado
Nomenclatura:
     1 2 k
  0   
Yi1 Y Xi1 Xi1 ... Xi1 Xi1 X1    
 Yi2   Y2  1
 Xi2 2 k  0  εi1 ε1
Xi2 ... Xi2  Xi2  X2 
 ..   .. 
 ..   ..   .. .. .. ..   ..   .. 
         
 .  .
 .   .   . . . .   .   .     
Yi = 
 Yit  ; Y =  Yi  ; Xi =  X 1
    2 k  =  0 ;X = 
     ; εi =  ..  ; ε = 
 
 ... 

     it Xit ... Xit   Xit   Xi 

 .   
 .   .   . .. .. ..   ..   . 
.
 .  .
 .   .. . . .   .   .. 
   
1 2 k 0 εiT εn
YiT Yn XiT XiT ... XiT XiT Xn
Y estimamos por MCO: Y = Xβ + ε.
Página 59 de 72
Modelos con Efectos Fijos
0
Yit = αi + Xit β + εit
OJO: Efectos aleatorios:
α̃i = α + µ̃it
E(µit ) = 0
E(µ2it ) = σi2
E(µit µis ) = 0; t 6= s
E(µit µjt ) = 0; i 6= j
    
Y1   α1 X1
 Y2  iT 0 0 ... 0  α2   X2 
0 iT 0 ... 0
 ..   ..   .. 
     
 .. .. .. .. 
 
 .  ..  .   . 
 
 Yi  .
=  . . . .    +  β + ε
 .   . 
. .. .. .. ..   ..   .. 
 ..
 
 .  . . . .
 .. 
   
   
0 0 0 ... iT nT ×n
YT αn Xn
 
  iT 0 0 ... 0
1 0 iT 0 ... 0
1  ..

.. .. .. .. 

con iT =  . 
 
.
,yD= . . . . = In ⊗ iT .
.
. . .. .. .. .. 
 .. . . . .
1 T ×1
0 0 0 ... iT
Ası́,
Y = Dα + Xβ + ε
Forma ”carretera”:

α
Y = D X +ε
β
= Wγ + ε : M CO
Pero hay una forma ”más elegante”: Ocuparemos la matriz de proyección M = I − X1 (X10 X1 )−1 X10 para el modelo:
Y = X1 β̂1 + X2 β̂2 + e
Recordar que todas las matrices de proyección cumplen con simetrı́a e idempotente: M 0 = M, M 2 = M .
Con esto, ocuparemos el Teorema de Frisch-Wangh-Lovell:

Multiplicamos todo por M1 , teniendo en cuenta que M1 X1 ≡ 0, M1 e = e.
Obtenemos:
M1 Y = M1 X2 β̂2 + e
Pero esta es la primera parte, ahora voy a multiplicar por X20 a la izquierda:
X20 M1 Y = (X20 M1 X2 )β̂2

β̂2 = (X20 M1 X2 )−1 X2 M1 Y
Esto puede ocurrir ya que (X20 M1 X2 ) ∈ Mk2 ×k2 y por ende existe inversa.
Página 60 de 72
Apliquemos esta ecuación ahora al modelo anterior:
Y = Dα + Xβ + ε
β̂ = (X 0 MD X)−1 X 0 MD Y
OJO: Ver demostración de que (X 0 MD X) tiene inversa, o sea, que es de rango completo. Eso no es trivial.
Analicemos un poco más esto: Sea,
MD = InT − PD = InT − D(D0 D)−1 D0

PD = D(D0 D)−1 D0 = (In ⊗ iT )[(In ⊗ iT ‘)(In ⊗ iT )]−1 (In ⊗ i0t )
= (In ⊗ iT )[(In ⊗ i0T iT ]−1 (In ⊗ i0t )
= (In ⊗ iT )[(In ⊗ T ]−1 (In ⊗ i0t )
1
= (In ⊗ iT ) [In ⊗ 1]−1 (In ⊗ i0t )
T
1
= In ⊗ iT · 1 · i0T
T
1
= In ⊗ J T
T
 
1 1 ... 1
 .. .. .. .. 
. . . .
donde JT = 
. .. ..  Luego,

 .. ..
. . .
1 1 ... 1
1
PD = In ⊗ JT
T
JT
= In ⊗
T
= In ⊗ J¯T
Con esto, volvamos a la matriz MD :
MD = In ⊗ IT − In ⊗ J¯T
= In ⊗ (IT − J¯T )
donde (IT − J¯T ) = EJ .

 
z1
 z2 
Supongamos que tenemos z =  .  , entonces,
 
 .. 
zT J×1

 P 
z1 P zt
 z2  1  zt 
EJ z = (IT − J¯T ) =  .  −  . 
   
 ..  T  .. 
P
zT zt
 
z1 − z̄
 z2 − z̄ 
O sea, ET z =  . .
 
 .. 
zT − z̄
Página 61 de 72
Finalmente,
 
ET 0 ... 0
 0 ET ... 0 
MD = .
 
.. .. ..
 ..

. . . 
0 0 ... ET
Con esto, volvamos a nuestro β̂.
β̂ = (X 0 MD X)−1 X 0 MD Y
  
ET 0 ... 0 Y1
 0 ET ... 0   Y2 
MD Y =  .
  
. .. . . ..   .. 
 . . . .  . 
0 0 ... ET Yn
O sea, lo que estamos haciendo acá es calcular la diferencia contra la media temporal en cada tiempo, es decir,
0
Yit = αi + Xit + εit
0
Ȳi∗ = αi + X¯i∗ β + ε¯i∗
0
(Yit − Y¯i∗ ) = 0
(Xit − X¯i∗ )β + (εit − ε¯i∗ )
O sea, finalmente,
β̂ = [(MD X)0 (MD X)]−1 (MD X)0 (MD Y )
Y por ende, hacemos MCO de MD Y versus MD X.
EJEMPLOS: Modelos con Efectos Fijos (i):

0
Yit = αi + Xit β + εit
0
Yit = γt + Xit β + εit
0
Yit = αi + γt + Xit β + εit
Otro (ii):
0
Ȳi∗ = αi + X̄i∗ β + ε̄i∗
T n n T
1X 1X 1 XX
Z̄i∗ = Zit ; Z̄∗t = Zit ; Z̄∗∗ = Zit
T t=1 n i=1 nT i=1 t=1
Haciendo ahora (i)-(ii):

0 0
(Yit − Ȳi∗ ) = (Xit − X̄i∗ )β + (εit − ε̄i∗ )
Yit∗ ∗
= Xit β + ε∗it
Luego,
Y = Dα̂ + X β̂EF + e
Y − X β̂EF = Dα̂ + e
D0 e = 0
0
D (Y − X β̂EF ) = D0 Dα̂
α̂ = (D0 D)−1 D0 (Y − X β̂EF )
α̂ = (D0 MX D)−1 D0 MX Y
OJO: Y = Dα + Xβ + ε, D = In ⊗ iT .
Página 62 de 72
Sea
0
Yit = αi + Xit β + Zi0 γ + εit
Y = Xβ + Zγ + Dα + ε
Con esto,
H0 : α1 = α2 = ... = αn = α
2 2
RSR − RCR /(n − 1)
HA : F = 2
(1 − RSP )/(nT − n − k)
Modelos con Efectos Aleatorios

Sea,
0
Yit = α̃i + Xit β + εit
α̃i = α + µ̃i
E(µi ) = 0, ∀i
E(µ2i ) = σµ2 ; ∀i
E(µi µj ) = 0, i 6= j
E(εit εjs ) = 0, i 6= jot 6= s
E(εit µj ) = 0
0
E(X ε) = 0
0
E(X µ) = 0
Luego,
wit = εit + µi
wi = εi + µi iT
E(wit ) = 0, E(wi wi0 ) = Ω, E(ww0 ) = V
   
w1 wi1
 w2   wi2 
con w =  .  , wi =  . 
   
 ..   .. 
wn wiT
Con ello, veamos la ecuación de E(wi wi0 ):
E[(εi + µi iT )(ε0i + µi i0T )] = E(εi ε0i + µ2i iT i0T )
= σε2 IT + σµ2 JT
= Ω
Con ello, tendremos que:
β̂M CG ≡ β̂EA = (X 0 V −1 X)−1 X 0 V −1 Y
−1
1 1 1 1
= X0 P D + M D X X 0
P D + M D Y
σ12 σε2 σ12 σε2
" +
! #−1 " +
! #
0 σε2 1 0 σε2 1
= X MD X 2 X MD Y 2
σ12 σε σ12 σε
β̂EA = [θ2 X 0 P X + X 0 M X]−1 [θ2 X 0 P Y + X 0 M Y ] = [wxx + θ2 Bxx ]−1 [wxy + θ2 Bxy ]
con ·wxx = X 0 M X: conocido como within (intra), Bxx = X 0 P X: conocido como between (entre). Ası́, wxy = X 0 M Y ,
Bxy = X 0 P Y .
Página 63 de 72
Ası́, modelo con efecto fijo:
β̂EF = (X 0 MD X)−1 X 0 MD Y
V ar(β̂EF ) = s2 (X 0 MD X)−1
e0EF eEF
s2 =
nT − n − k
Pero ahora veamos modelo con efectos aleatorios,
Y = Xβ + w
wit = εit + µi ; t = 1, ..., T
α̃i = α + µ̃i
0
E(ww ) = V = σi2 PD + σε2 MD = IN ⊗ Ω
Vimos que:
1 1
V −1 = PD + 2 M D
σ12 σε

−1/2 1 1 1 ¯ 1
V = PD + MD = In ⊗ Ω−1/2 = In ⊗ JT + ET
σ1 σε σ1 σε
Luego,
β̂EA = β̂M CG = (X 0 V −1 X)−1 X 0 V −1 Y = f (θ, X, Y )
σε
con θ = .
σ1
Observación i:
Ω−1/2 /Yi = Xi β + wi

1 σ2 ¯
Ω−1/2 = ET + JT
σε σ1
1
ET + θJ¯T

=
σε
1
= [IT − J¯T + θJ¯T ]
σε
1
= [IT − (1 − θ)J¯T ]
σε
1
= [IT − cJ¯T ]
σε
Si c = 1, tendrı́amos la fórmula de efecto fijo.
 −1/2   
Ω 0 ... 0 1 1 ... 1
−1/2
 0 Ω ... 0 
 ¯ 1 1 1
 ... 1
Notar que V −1/2 =  . , JT =  .. .. .. , ET = IT − J¯T .
 
. . .. ..
 .. .. .. .  T . . . .
−1/2 1 1 ... 1
0 0 ... Ω
Recordar que w: within, es equivalente al efecto fijo. O sea,
e0w ew
σ̂ε2 =
nT − n − k
son los residuos del modelo de efecto fijo.
O sea, β̂EF = (X 0 MD X)−1 X 0 MD Y = β̂w .
Página 64 de 72
Pero ahora nos falta ver esto para b: between.

Sea Ȳi∗ , X̄i∗ :
Y = Xβ + ε
PD Y = PD Xβ + PD ε
PD = In ⊗ J¯T
MD = InT − PD
V ar(PD ε) = σε2 PD
β̂B = [X 0 PD (σε2 )−1 PD PD X]−1 X 0 PD (σε2 )−1 PD PD Y
= (X 0 PD X)−1 X 0 PD Y
Ahora, estamos acá:

0
Yit = α̃i + Xit β + εit
Y¯i∗ = α + µi + X̄i∗ β + ε̄i∗
M CO : Ȳi∗ vs.X̄i∗ ε̄i∗ + µbi : erroresdebetween
σε2
V arµbi = + σµ2 = σµb
2
T
2 e0b eb
σ̂µb =
n−k
¿Cuál serı́a el estimador de µ?
e0b eb 1
σ̂µ2 − σ̂ 2
=
n−k T ε
e0b eb e0w ew

1
= −
n − k T nT − n − k
e0b eb e0w ew

1
PROBLEMA: Nadie me asegura que >
n−k T nT − n − k
2
σ
OJO con esta igualdad: ε + σµ2 = σµb
2
.
T
Luego,
σε
θ =
σ1
σ12 ≡ T σµ2 + σε2 =⇒ σ12
Test de Hausman
0
Yit = αi + Xit β + Zi γ + εit + µi
W = [X; Z]
w = ε+µ
Las hipótesis que queremos testear son:
H0 : E[W 0 w] = 0
HA : E[W 0 w] 6= 0
Página 65 de 72
Si se da H0 : significa que hay efectos aleatorios (eficiente), efecto fijo (consistente), pooled (consistente). OJO: Pooled,
Between, Within son todos estimadores eficientes, pero el que gana es el de MCG.
OJO: En HA efecto fijo sigue siendo consistente.
Sea,
q̂ = β̂w − β̂EA
= β̂EF − β̂EA
Bajo H0 : p lı́m q̂ = 0 = β − β
También, tendremos que V ar(β̂w − β̂EA ) = V ar(β̂w ) + V ar(β̂EA ) − 2Cov(β̂w , β̂EA ), pero Cov(β̂w , β̂EA ) = V ar(β̂EA )
(esto no lo va a demostrar). Asi,
V ar(β̂w − β̂EA ) = V ar(β̂w ) − V ar(β̂EA ) = Σ
Además, asintóticamente se cumple que:
(β̂EF − β̂EA )0 (Σ̂)−1 (β̂EF − β̂EA ) ∼a χ2 (k)
OJO: En muestras finitas funciona bien este, pero ahora veremos una solución más completa:
Hausman (Asintóticamente equivalente)

Bajo H0 , sean Ỹit , X̃it : las transformaciones de Yit y Xit por EA. Luego,
Ỹit = Yit − cȲi∗

X̃it = Xit − cX̄i∗
Estas corresponden a efecto aleatorio. Ahora, las de efecto fijo:
Ỹ˜it = Yit − cȲi∗

˜
X̃ = Xit − cX̄i∗
it
Ası́, bajo H0 corremos la siguiente regresión:
0
Ỹit = X̃it ˜ 0 γ + ε̃
β + X̃it it
Acá, H0 : γ = 0 y hago un test F de Wald.
20. Modelos con variables dependientes limitadas y categóricas

Modelos Logit y Probit
Tenemos que la variable Yi toma el valor 0 ó el valor 1.
Yi = Xi0 β + εi
Estimar esto por MCO traerá 3 problemas:
1. Heterocedasticidad (que es solucionable)

2. Predicción fuera de rango (esto no es subsanable)
3. εi sólo toma dos valores (ya no tiene distribución normal, por ende, podrı́amos tener problemas al hacer tests)
Página 66 de 72
Veamos la heterocedasticidad:
Yi = 1: εi = 1 − Xi0 β
Yi = 0: εi = −Xi0 β
E(εi |Xi ) = E(εi ) = 0
= (1 − Xi0 β)P [Yi = 1|Xi ] + (−Xi0 β)P [Yi = 0|Xi ]
= (1 − Xi0 β)P [Yi = 1|Xi ] + (−Xi0 β)[1 − P r[Yi = 1|Xi ]]
= P r[Yi = 1|Xi ] − Xi0 β = 0
Entonces,
P r[Yi = 1|Xi ] = Xi0 β
P r[Yi = 0|Xi ] = 1 − Xi0 β
¿Por qué es heterocedástico? Calculemos la varianza:
V ar(εi |Xi ) = E[ε2i |Xi ] − [E(εi |Xi )]2
pero [E(εi |Xi )]2 = 0, entonces,
V ar(εi |Xi ) = (1 − Xi0 β)2 P r[Yi = 1|Xi ] + (Xi0 β)2 P r[Yi = 0|Xi ]
= (1 − Xi0 β)2 (Xi0 β) + (Xi0 β)2 (1 − Xi0 β)
= (1 − Xi0 β)(Xi0 β)
Y acá vemos que hay heterocedasticidad ya que la varianza depende de las variables explicativas.
Pero ya sabemos que esto no es terrible, tenemos métodos para poder subsanar la heterocedasticidad. El problema de
MCO vive en los problemas 2. y 3.
Acá, entra los métodos Logit y Probit que vienen a solucionar esto.
∂F (x)
Xi0 β =⇒ 0 ≤ F (Xi0 β) ≤ 1, f (x) =
∂x
R Xi0 β 1 R Xi0 β
1. Probit: F (Xi0 β) ≡ Φ(Xi0 β) = −∞
φ(z)dz = √ exp(− 21 z 2 )dz.
2π −∞
Caracterı́sticas:
lı́mz→∞ Φ(z) = 1
lı́mz→−∞ Φ(z) = 0
Notar que Φ(z) ∼ N (0, 1).
exp(Xi0 β)
2. Logit: F (Xi0 β) ≡ Λ(Xi0 β) =
1 + exp(X10 β)
exp(Xi0 β)
λ(Xi0 β) = = Λ(Xi0 β)[1 − Λ(Xi0 β)] = P r[Yi = 1|Xi ][1 − P r[Yi = 1|Xi ]]
[1 + exp(Xi0 β)]2
Además, X ∼ Λ2 , E(X) = 0, V ar(X) = π 2 /3 ≈ 3, 28
Logit Generalizada: Tiene una distribución igual a
1
Λ(x, µ, s) = ;s > 0
1 + e−(x−µ)/s
Página 67 de 72
e−(x−µ)/s
f (x, µ, s) =
s(1 + e−(x−µ)/s )2
π2 2
con E(X) = µ, V ar(X) = s
3
Con µ = 0, s = 1 tenemos Λ normalizada.
Sea
Yi∗ = Xi0 β + εi
con Yi∗ latente y εi ∼ N (0, σ 2 ) y Yi∗ ∼ N (Xi0 β; σ 2 ).
Tendremos como proxy Yi que será 0 ssi Yi∗ > 0 e igual a 1 ssi Yi∗ ≤ 0.
Supongamos que tenemos Yi = 0 con i = 1, 2, ..., m (m datos) y Yi = 1 con i = (m + 1, m + 2, ..., n) (n − m datos).
Calcularemos esto por verosimilitud.
L = L(Yi = y1 , Y2 = y2 , ..., Yi = yi )
Supondremos que los efectos son independientes para cada i. Luego,
P r[Yi = 1|Xi ] = Φ(Xi !‘β)
P r[Yi = 0|Xi ] = 1 − Φ(Xi !‘β)
Luego, dada la independencia, tendremos:
0 0
L = Πm n
i=1 (1 − Φ(Xi β))Πi=m+1 Φ(Xi β)
= Πni=1 Φ(Xi0 β)yi (1 − Xi0 β)1−yi , yi = {0, 1}
Luego,
n
X
L = ln(L) = [yi ln(Φ(Xi0 β))] + (1 − yi ) ln(1 − Φ(Xi0 β))
i=1
Derivamos:
n
∂L X fi fi
= 0= [yi Xi − (1 − yi ) Xi ]
∂β i=1
F i 1 − Fi
∂F (Xi0 β)
con fi = , Fi = F (Xi0 β).
∂β
Desarrollando, tendremos que:
n n
X yi fi Xi (1 − Fi ) − (1 − yi )fi Xi Fi X (yi − Fi )fi Xi
= =0
i=1
Fi (1 − Fi ) i=1
Fi (1 − Fi )
Medidas de Bondad de Ajuste

1. Yi , Ŷi
0 ≤ Ri2 = [Corr(Yi , Ŷi )]2 ≤ 1
2. Effron:
n
X
R22 = 1 − [n (Yi − Ŷi )2 /n1 n2 ]
i=1
P
con n1 = Yi y n2 = n − n1
3. Cragg y Uhler:
2/n 2/n 2/n 2/n
0 ≤ R32 = [LSR − LR ]/{(1 − LR )/LSR } ≤ 1
4. Propiedad de predicciones correctas:

Ŷi ≥ 0,5
Página 68 de 72
Datos Agrupados
Modelo de Probabilidad Lineal
Pi = Xi0 β; i = 1, 2, ..., J
mi
P̂i = ; ni >> 1; ∀i
ni
P̂i ≈ Pi
P̂i = Pi + εi , E(εi ) = 0
mi ∼ B(ni , pi )
V ar(P̂i ) = V ar(εi )
1 ni pi (1 − pi ) pi (1 − pi )
= V ar(mi ) = =
n2i n2i ni
1. MCP (Mı́nimos Cuadrados Ponderados)
r
ni
wi =
pi (1 − pi )
r
ni
ŵi =
p̂i (1 − p̂i )
N
X
mı́n ŵi2 (p̂i − Xi0 β)2
i=1
Ahora, queremos estimar los β, por ello, haremos lo siguiente:

mi ni
r
Iteración: p̂i = . Obtengo β̂(1) y ŵi =
ni p̂i(1) (1 − p̂i(1) )
Modelo Logit
exp(Xi0 β)
Pi =
1 + exp(Xi0 β)
1
1 − Pi =
1 + exp(Xi0 β)

Pi
ln = Xi0 β, ni >> 1
1 − Pi
" #
P̂i Pi
ln = ln + εi
1 − P̂i 1 − Pi
E(εi ) = 0
Series de Taylor (1er orden)
" #
P̂i Pi 1 − Pi
ln ≈ ln + (P̂i − Pi ) [(1 − Pi )−1 + Pi (1 − P1 )−2 ] + Resto
1 − P̂i 1 − Pi Pi

Pi 1 1
≈ ln + (P̂i − Pi ) +
1 − Pi Pi 1 − Pi
Con resto ≈ 0.
Ahora, la varianza será:
" #
P̂i 1 1
V ar ≈ V ar (P̂i − Pi ) =
1 − P̂i Pi (1 − Pi ) ni Pi (1 − Pi )
Página 69 de 72
Ahora, el Logit con datos agrupados seguimos la pauta:

p
wi = ni pi (1 − pi )
p
ŵi = ni p̂i (1 − p̂i )
N
" #!2
X
2 P̂i 0
mı́n ŵi ln − Xi β
i=1 1 − P̂i
Heckman
PRIMERA ETAPA: Sea Ii que puede tomar los valores 0 y 1.
I1 = 1 ssi Yi∗ ≥ 0 y I1 = 0 ssi Yi∗ ≤ 0. Luego, se estima con probit el ratio hatβ/σ que es consistente para β/sigma.
Se consideran sólo N1 observaciones (Yi ≥ 0).

SEGUNDA ETAPA:
E[Yi |Yi ≥ 0] = E[Xi0 β + εi |Yi ≥ 0]

= Xi0 β + E[εi |εi ≥ −Xi0 β]
donde εi ∼ N (0, σ 2 ).
Luego, X ∼ N (µ, σ 2 ).
a−µ φ(α)
E[X|X > a] = µ + σλ(α), α = , λ(α) =
σ 1 − Φ(α)
σφ(Xi0 β/σ)
E[εi |εi ≥ −Xi0 β] =
1 − Φ(−Xi0 β/σ)
σφ(Xi0 β/σ)
=
Φ(Xi0 β/σ)
Luego, para los Yi > 0(N1 )
σφ(Xi0 β/σ)
Yi = Xi0 β + + vi
Φ(Xi0 β/σ)
con E(vi ) = 0. Finalmente,
σφ(Xi0 β/σ) σφ(Xi0 β/σ) σφ(Xi0 β/σ)

Yi = Xi0 β + + v i + −
Φ(Xi0 β/σ) Φ(Xi0 β/σ) Φ(Xi0 β/σ)
σφ(Xi0 β/σ)
= Xi0 β + + wi
Φ(Xi0 β/σ)
= Xi0 β + σwi + wi : M CO
Luego, hacemos MCO de forma consistente para β y σ separadamente.
X 0 β φ(Xi0 β/σ)

0
V ar(vi |Yi > 0) = σ2 1 − i − (λ(Xi βσ))2
σ Φ(Xi0 β/σ)
EXISTE HETEROCEDASTICIDAD. ¿Cómo lo solucionamos?

1. Minimos Cuadrados Generalizados (o mı́nimos cuadrados ponderados)
2. Matriz de White
Página 70 de 72
Regresiones Truncadas
Importante: NO se observan todas las observaciones en comparación con antes en el modelo de Tobin (caso de regresión
censurada).
Acá no podremos ocupar Heckman debido a que no podrı́amos hacer la parte del Probit (etapa 1).
Proceso: Eliminamos observaciones, Yi < Li :
(1/σ)φ[(Yi − Xi0 β)/σ] f (Yi )

f (Yi |Yi < Li ) = =
Φ((Li − Xi0 β)/σ) P [Yi < Li ]
N 2 X N
1 X Yi − Xi0 β Li − Xi0 β

N
L = ln(L) = − ln(2πσ 2 ) − − ln Φ
2 2 i=1 σ i=1
σ
σφi
E(Yi |Xi ) = Xi0 β −
Φi
φ2i (di ) Li − Xi0 β

2 2 di φi (li )
V ar(Yi |Xi ) = σ −σ + 2 ; di =
Φi (di ) Φi (di ) σ
Sesgo de Selección
Ciertas caracterı́sticas están involucradas en la decisión de entrar o no entrar a la muestra (ejemplo: al IN, a la
Universidad, etc).
ln wi = Xi0 β + ε1i
Ti∗ = Zi0 γ + εoi
con Ti∗ variable latente. Luego, Ti = 1 ssi Ti∗ > 0 y Ti = 0 ssi Ti∗ ≤ 0.
El sesgo de selección ocurrirá si Cov(ε1i , ε0i ) 6= 0, y por ende, ε0i > −Zi0 γ. Supondremos que ε1 ∼ N (0, σ12 ) y
ε0 ∼ N (0, σ22 ).
Y = µ1 + ε1 ; Y ∼ N (µ, σ12 )
X = µ2 + ε2 ; X ∼ N (µ, σ22 )
Luego,
µ1 X
(Y, X) ∼ N ;
µ2
depende de σ12 , σ22 , ρ.
P
Donde
σ12
Vamos a multiplicar la segunda ecuación por y luego las resto:
σ22

σ12 σ12 σ12
Y − 2X = µ1 − 2 µ2 + ε1 − 2 ε2
σ2 σ2 σ2
Y = α + βX + µ
σ12 σ12 σ12
con β = 2 , α = µ1 − 2 µ2 y µ = ε1 − 2 ε2 .
σ2 σ2 σ2
Con E[Xµ] = 0, V ar(µ) = σ12 (1 − ρ2 ) y además,
σ12
ε1 = ε2 + µ
σ22
Volviendo al modelo de sesgo de selección, tendremos entonces que:

σ10
ε1i = ε01 + ηi
σ02
Página 71 de 72
Luego, tendremos lo siguiente,

σ10
E[ε1i |ε0i > −Zi0 γ] = E ε0i + ηi |ε1i > −Zi0 γ
σ02
σ10
= E[ε1i |ε0i > −Zi0 γ] + E[ηi ||ε0i > −Zi0 γ]
σ02
σ10 φ(Xi0 γ/σ0 )
=
σ0 Φ(Zi0 γ/σ0 )
Si consideramos sólo Ti = 1, entonces,
ln wi = Xi0 β + σ10 Ŵi (Zi0 (γ̂/σ0 )) + vi
Acá incluı́mos la variable omitida W que representa el sesgo. Si σ10 es estadı́sticamente distinto de 0 (σ̂10 6= 0),
entonces hay sesgo de selección.
21. Modelos de Switching

Sea
0
Y1 = X1i β1 + µ1i ; µ1 ∼ N (0, σ12 )
0
Y2 = X2i β2 + µ2i ; β2 ∼ N (0, σ22 )
Luego, γ 0 Zi ≥ µi −→ F
γ 0 Zi < µi −→ Inf y µi ∼ N (0, σm
2
), σµ2 ≡ 1.
Primera Etapa: Probit. γ̂/σ0 .
φ(Zi0 γ)
E[µ1i |µi ≤ Zi0 γ] = −σ1µ
Φ(Zi0 γ)
σ1µ
µ1i = µi + ηi
σµ2
φ(Zi0 γ)
E[µ2i |µi ≥ Zi0 γ] = σ2µ
1 − Φ(Zi0 γ)
W1i = φ(Zi0 γ)/Φ(Zi0 γ)
φ(Zi0 γ)
W2i =
1 − Φ(Zi0 γ)
Segunda Etapa: Por MCP

0
(F ) : Yi = X1i β1 − σ1µ Ŵ1i + ε1i
0
(Inf ) : Yi = X2i β2 − σ2µ Ŵ2i + ε2i
Finalmente,
(F )V ar(ε1i |Ii = 1) = σ12 − σ1µ

2
W1i (Zi0 γ + W1i )
(Inf )V ar(ε2i |Ii = 0) = σ22 − σ2µ
2
W2i (Zi0 γ + W2i )
Página 72 de 72

Apuntes MC3

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apuntes MC3

Cargado por

Copyright:

Formatos disponibles

Facultad de Economı́a y Negocios

Apuntes Métodos Cuantitativos III

Apuntes tomados de las clases

Daniela Jensen Recupero

Identificación: Tratar de ver cuánto vale p, d, q (son números enteros)

Pensemos en un modelo AR(1)

1. E(εt ) = 0, ∀t (Si no se cumple, tenemos Heterocedasticidad)

NOTA: Este es un caso básico de estacionaridad débil.

V ar(Xt ) = E[(Xt − µ)2 ] = E(Xt2 ) − µ2 = σX

3. Las autocovarianzas deben sólo depender de k y no de t (tiempo).

γk = E[(Xt − µ)(Xt±k − µ)]

Recordar: En estadı́stica, definı́amos la covarianza entre dos variables como como:

Cov(X, Y ) = E[(X − µX )(Y − µY )]

Con el concepto de autocovarianza, tenemos el concepto de autocorrelación:

2.1. Estacionaridad Fuerte

f (Xt1 , Xt2 , ..., Xtk ) = f (Xt1 +m , Xt2 +m , ..., Xtk +m ), ∀k, ∀m

Corolario: Si la variable Xt es estacionaria fuerte, entonces, es estacionaria débil.

2.2. Nuevo operador L

Propiedades del operador L:

Ejemplo: L(Xt ) = Xt−1

L2 [f (t)] = (L · L)f (t) = L[L(f (t))] = L[f (t − 1)] = f (t − 2)

Ejemplo: Ls (f (t)) = f (t − s), ası́, Ls (Xt ) = Xt−s

L−1 f (t) = f (t − (−1)) = f (t + 1)

Ejemplo: L−s (Xt ) = Xt+s

Ejemplo: Proceso AR(2)

donde A(L) es un polinomio autorregresivo.

Supongamos que tenemos un polinomio:

Y tenemos finalmente que C(L) = A(L)B(L).

Nota: A(L)B(L) = B(L)A(L)

De forma más general:

(1 − αL)(1 + αL + α2 L2 + ... + αp Lp ) = 1 + αL + α2 L2 + ... + αp Lp − αL − α2 L2 − α3 L3 − ... − αp+1 Lp+1

Supongamos que p −→ ∞ y que |α| < 1. Esto implica que:

lı́m αp+1 Lp+1 = 0

Ası́, podemos tener que:

2.3. Condición de Estacionaridad

Vamos a ver cual es la condición de estacionaridad.

Teorema: Si Xt , Yt son series de tiempo estacionarios e independientes entre sı́, entonces,

Sigamos con el proceso, veamos los momentos:

γ1 = E[(Yt − µ)(Yt−1 − µ)]

= α · [σε2 + σ 2 αε2 + α4 σε2 + ...] + 0

Ahora hagamos esto para γ2 .

Finalmente, tendremos que:

Desarrollaremos el proceso AR(2):

Ahora, tendremos que

[A(L)]−1 εt = (1 + λ1 L + λ2 L2 + λ33 L3 + ...)(1 + λ2 L + λ22 L2 + λ32 L3 )

con |λ1 | < 1 y |λ2 | < 1

Condiciones de Estacionaridad para AR(2): El proceso será estacionario (débil) si:

|λ1 | < 1, |λ2 | < 1

Estas dos condiciones son equivalentes a las siguientes tres condiciones:

Multiplicamos la ecuación anterior por Xt y luego sacamos E().

E(Xt2 ) = α1 E[Xt−1 Xt ] + α2 E[Xt−2 Xt ] + E[εt Xt ]

Finalmente, multiplicamos la ecuación anterior por Xt−2 y luego sacamos E().

Luego, γ0 = V ar(Yt ) = V ar(Xt ) > 0

Ası́, estas condiciones:

Desarrollemos un poco esta idea. Continuemos con procesos AR(2).

Tenemos el polinomio autorregresivo de orden 2:

NOTA: Para encontrar los valores de λ1 y λ2 , podemos ocupar fracciones parciales:

donde χ0 = a + b = 1, χ1 = (aλ1 + bλ2 ), χ2 = (aλ21 + bλ22 ).

De acuerdo a las ecuaciones de Yule-Walker:

Luego, también podemos escribir,

Y luego encontramos los valores de A y B. Ası́, cuando j → ∞, ρj → 0

Esto lo podemos graficar (llamado correlograma) para (j, ρj ).

z = x + iy = reiθ = r(cos(θ) + i sen(θ))

Ejemplo: Xt = 0,3Xt−1 + 0, 6Xt−2 + εt .