Está en la página 1de 73

Facultad de Economı́a y Negocios

Universidad de Chile

Apuntes Métodos Cuantitativos III


Profesor Michael Basch

Apuntes tomados de las clases


Fecha de Actualización: 06/Agosto/2019

Daniela Jensen Recupero


djensen@fen.uchile.cl
Universidad de Chile
Facultad de Economı́a & Negocios

1. Introducción
Series de Tiempo: Cuerpo estadı́stico autocontenido. Desarrollado por Box y Jenkins
(Ver bibliografı́a de Box y Jenkins, apuntes Basch, Greene, Wei, Vandaele (Box&Jenkins, Wei y Vandaele están dedi-
cados exclusivamente a Series de Tiempo), Hamilton y Lutkepohl (más avanzado, magister)).

Pre-requisitos:
Serie en cuestión tiene que ser estacionaria: Si no lo es, hay que hacer transformaciones para que lo sea. ¿Por qué
tiene que ser estacionaria? Para analizar representatividad de un perı́odo de tiempo para analizar otro perı́odo.

Identificación: Tratar de ver cuánto vale p, d, q (son números enteros)


Estimación del modelo
Predicciones

Puede que en la identificación hayan 3 modelos candidatos a ser buenos modelos. Tenemos que estimarlos y luego, ver
cuál tiene mejores predicciones fuera de muestra.

Pensemos en un modelo AR(1)


Yt = m + αYt−1 + εt
εt debe cumplir con las siguientes propiedades para que sea ruido blanco:

1. E(εt ) = 0, ∀t (Si no se cumple, tenemos Heterocedasticidad)


2. V ar(εt ) = σε2 , ∀t (Si no se cumple, tenemos Autocorrelación)
3. γs ≡ E(εt εt±s ) = 0, s 6= 0

NOTA: Este es un caso básico de estacionaridad débil.

El proceso autoregresivo más sencillo es AR(1), esto quiere decir que en el proceso, aparece la misma variable Yt pero
rezagada en un periodo Yt−1 .

Observación al margen:
Teorema de Floris Takens: Cualquier modelo deterministico es equivalente a un modelo estocástico (los modelos es-
tocásticos son mucho más fáciles de analizar y trabajar que los determinı́sticos, por eso es muy importante este teorema
y en la actualidad se analizan más los modelos estocásticos).

Página 1 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

2. Estacionaridad (Débil)
Una serie será estacionaria débil si se cumple lo siguiente:
1. Una determinada serie tiene una media constante en el tiempo, es decir,

E(Xt ) = µ, ∀t

2
2. La varianza también debe ser igual a σX constante en el tiempo.

V ar(Xt ) = E[(Xt − µ)2 ] = E(Xt2 ) − µ2 = σX


2
, ∀t

3. Las autocovarianzas deben sólo depender de k y no de t (tiempo).


Definición de autocovarianza de orden k:

γk = E[(Xt − µ)(Xt±k − µ)]

Recordar: En estadı́stica, definı́amos la covarianza entre dos variables como como:

Cov(X, Y ) = E[(X − µX )(Y − µY )]

Ası́, esta covarianza es lo mismo pero ocupando una sola variable pero en tiempos distintos (Xt y Xt±k )
Propiedad: Notar que,
γk = γ−k

Ası́, se tienen que dar estas tres propiedades para que sea estacionaria débil.

Con el concepto de autocovarianza, tenemos el concepto de autocorrelación:


γk γk
ρk = =
γ0 V ar(Xt )

donde γ0 = V ar(Xt ).
Otra definición:
Cov(A, B)
Corr(A, B) = = ρA,B
σA σB

2.1. Estacionaridad Fuerte


Observación importante: Esta definición es sólo para tenerla en consideración de forma teórica, en el curso analizaremos
solo débil)
Una variable Xt es estacionaria fuerte si y sólo si

f (Xt1 , Xt2 , ..., Xtk ) = f (Xt1 +m , Xt2 +m , ..., Xtk +m ), ∀k, ∀m

Interpretación: La función de densidad conjunta f (Xt1 , Xt2 , ..., Xtk ) tiene que ser igual a otra función de densidad
conjunta pero corrida en el tiempo (especı́ficamente m unidades de tiempo).

Corolario: Si la variable Xt es estacionaria fuerte, entonces, es estacionaria débil.

Página 2 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

2.2. Nuevo operador L


Traducción: Lag, Operador de rezago.

Propiedades del operador L:


1. Constantes son inalterables con operador L:
L(k) = k

2. Cuando tenemos una función que depende del tiempo, con el operador queda rezagado en un perı́odo:

L(f (t)) = f (t − 1)

Ejemplo: L(Xt ) = Xt−1


3. Tenemos que el operador puede ser cuadrático:

L2 [f (t)] = (L · L)f (t) = L[L(f (t))] = L[f (t − 1)] = f (t − 2)

Ejemplo: Ls (f (t)) = f (t − s), ası́, Ls (Xt ) = Xt−s


4. Operador puede tener inversa. Pero hace todo lo contrario.

L−1 f (t) = f (t − (−1)) = f (t + 1)

Ejemplo: L−s (Xt ) = Xt+s

Ejemplo: Proceso AR(2)


Yt = m + α1 Yt−1 + α2 Yt−2 + εt
¿Cómo puedo reescribir esto utilizando el operador L?

Yt = m + α1 Yt−1 + α2 Yt−2 + εt
Yt = m + α1 LYt + α2 L2 Yt + εt
[1 − α1 L − α2 L2 ]Yt = m + εt
A(L)Yt = m + εt

donde A(L) es un polinomio autorregresivo.

Supongamos que tenemos un polinomio:


B(L) = (1 − β1 L)
Entonces, queremos demostrar que C(L) = A(L)B(L)

A(L)B(L) = (1 − α1 L − α2 L2 )(1 − β1 L)
= 1 − β1 L − α1 L + α1 β1 L2 − α2 L2 + α2 β1 L3
C(L) = 1 − (α1 + β1 )L − (α2 − α1 β1 )L2 + α2 β1 L3

Hasta acá está bien, pero si queremos ser más rigurosos, determinamos que:

C(L)Yt = A(L)B(L)Yt

Y tenemos finalmente que C(L) = A(L)B(L).

Nota: A(L)B(L) = B(L)A(L)

Página 3 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

De forma más general:

(1 − αL)(1 + αL + α2 L2 + ... + αp Lp ) = 1 + αL + α2 L2 + ... + αp Lp − αL − α2 L2 − α3 L3 − ... − αp+1 Lp+1


= 1 − αp+1 Lp+1

Supongamos que p −→ ∞ y que |α| < 1. Esto implica que:

lı́m αp+1 Lp+1 = 0


p→∞

Ası́, podemos tener que:


(1 − αL)(1 + αL + α2 L2 + ... + αp Lp ) = 1
Finalmente, denotamos que:
1
1 + αL + α2 L2 + ... + αp Lp = (1 − αL)−1 =
1 − αL

Resumen:
El objetivo de las series de tiempo, es encontrar una función Xt = f (Xt−1 , Xt−2 , ..., µt ) con µt término de error.
Un proceso AR(p) será:
Yt = m + α1 Yt−1 + α2 Yt−2 + ... + αp Yt−p + εt
Pero, si o si para que esto pueda definirse un proceso AR(p), tiene que ocurrir que εt sea ruido blanco.

Contra ejemplo: Supongamos que tenemos la serie µt = εt + βεt−1 . Acá no serı́a un proceso AR(p) puesto que no
serı́a ruido blanco.

2.3. Condición de Estacionaridad


Supongamos que tenemos un proceso AR(1)

Yt = m + αYt−1 + εt

Ocuparemos el operador L.

(1 − αL)Yt = m + εt

Vamos a ver cual es la condición de estacionaridad.


   
1 1
Yt = m+ εt
1 − αL 1 − αL
m
= + (εt + αεt−1 + α2 εt−2 + ...)
1−α

m X
= + αi εt−i
1 − α i=0

1 1
Dejaremos actuar ahora 1 + αL + α2 L2 + ... + αp Lp = (1 − αL)−1 = sobre m lo cual queda .
1 − αL 1 − αL
NOTA: (1 + αL + α2 L2 + ... + αp Lp )m = m + αm + α2 m + ...
1
Recordar: Por Series de Taylor, 1 + λ + λ2 + ... =
1−λ

Página 4 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Teorema: Si Xt , Yt son series de tiempo estacionarios e independientes entre sı́, entonces,

Zt = aXt + bYt

también es estacionario.
(Ojo que la implicancia es sólo para un lado)

Sigamos con el proceso, veamos los momentos:


m
E(Yt ) = µ = . Vemos que la esperanza no depende del tiempo.
1−α
σε2
V ar(Yt ) = V ar(εt + αεt−1 + α2 εt−2 + ...) = σε2 + α2 σε2 + α4 σε2 + ... = σε2 (1 + α2 + α4 + α6 + ...) = = γ0 , ∀t
1 − α2

NOTA: Todas las covarianzas son nulas, puesto que es ruido blanco (E(εt−i εt−j ) = 0, i 6= j).
Vemos que la varianza no depende del tiempo.
La tercera condición es que las autocovarianzas dependen del rezago pero no del tiempo.
Calculemos ahora las autocovarianzas γ1 , γ2 hasta γk .

γ1 = E[(Yt − µ)(Yt−1 − µ)]


= E[(εt + αεt−1 + α2 εt−2 + ...)(εt−1 + αεt−2 + α2 εt−3 + ...)]
= E[α(εt−1 + αεt−2 + ...)2 ]
= α · E[(εt−1 + αεt−2 + ...)2 ]
X
= α · E[(ε2t−1 + α2 ε2t−2 + ...) + 2 εt−i εt−j ]
i,j

= α · [σε2 + σ 2 αε2 + α4 σε2 + ...] + 0


σε2
= α· = α · γ0
1 − α2
Ası́,
γ1
ρ1 = =α
γ0
Pero hay otra forma de hacerlo más sencilla (OJO con esta técnica para calcular autocovarianzas!)

Yt = m + αYt−1 + εt
Xt ≡ Yt − µ
E(Xt ) = 0 = E(Yt ) − µ = µ − µ = 0

Xt + µ = m + α(Xt−1 + µ) + εt
Xt = αXt−1 + µ(1 − α) + µ(α − 1) + εt
Xt = αXt−1 + εt / · (Xt−1 )

γ1 = E(Xt Xt−1 )
2
= αE(Xt−1 ) + E(εt Xt−1 )
= ασx2 + 0
= αγ0

E(εt Xt−1 ) es 0 por ortogonalidad, puesto que, Xt−1 = εt−1 + αεt−1 + α2 εt−3 + .... o sea, cada término es
ortogonal.
Pasos: Definir Xt . Notar que E(Xt ) = 0. A través de Xt + µ llegar a la serie Xt . Multiplicar por Xt−1 la serie
y luego aplicar esperanza (E()). Se obtiene γ1 .

Página 5 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Ahora hagamos esto para γ2 .

γ2 = E(Xt Xt−2 )
= αE[Xt−1 Xt−2 ] + E[εt Xt−2 ]
= αγ1 = α2 γ0

donde E[Xt−1 Xt−2 ] es una autocovarianza, donde |t−1−(t−2)| = 1 y E(εt Xt−2 ) = 0 por el mismo razonamiento
anterior.

Finalmente, tendremos que:


γk = α k γ0

En resumen: La forma de resolver antes que salió más engorrosa era calcular estas autocovarianzas con Yt , acá
lo que hicimos fue calcularlas pero ocupando Xt .

m
NOTACIÓN: Yt = + εt + αεt−1 + α2 εt−2 + ... lo llamaremos MA(∞) (media movil). Ası́,
1−α
Corolario:
AR(1) ≡ M A(∞)

Esto era AR(1), que puede ser más sencillo, por lo que para llegar a la condición de estacionaridad, veremos AR(2).

Desarrollaremos el proceso AR(2):

Yt = m + α1 Yt−1 + α2 Yt−2 + εt
2
(1 − α1 L − α2 L )Yt = m + εt
   
1 1
Yt = m + εt
1 − α1 L − α2 L2 1 − α1 L − α2 L2
m
= + (analizar)
1 − α1 − α2
m
OJO: Vamos a demostrar que pronto que = µ.
1 − α1 − α2
Veamos ahora lo que quedó pendiente, (analizar)

A(L) = 1 − λ1 L − λ2 L2
= (1 − λ1 L)(1 − λ2 L)
= 1 − (λ1 + λ2 )L + λ1 λ2 L2

Definimos:

α1 = λ1 + λ2
α2 = −λ1 λ2

Ahora, tendremos que


λ2 − α1 λ − α2 = 0
1h p i
donde λ1,2 = α1 ± α12 + 4α2
2
Luego, A(L) = 0, por lo que,
1

L

Página 6 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Ası́,
 
m 1
Yt = + εt
(1 − λ1 )(1 − λ2 ) (1 − λ1 L)(1 − λ2 L)
m
= + (analizar)
(1 − λ1 )(1 − λ2 )

Tendremos que:

[A(L)]−1 εt = (1 + λ1 L + λ2 L2 + λ33 L3 + ...)(1 + λ2 L + λ22 L2 + λ32 L3 )

con |λ1 | < 1 y |λ2 | < 1

Condiciones de Estacionaridad para AR(2): El proceso será estacionario (débil) si:

|λ1 | < 1, |λ2 | < 1

Estas dos condiciones son equivalentes a las siguientes tres condiciones:


* |α2 | < 1

* α2 + α1 < 1
* α2 − α1 < 1
Ojo: Si queremos para AR(3), simplemente las condiciones serán: |λ1 | < 1, |λ2 | < 1, |λ3 | < 1

Veamos esto en la práctica, a través de las 3 condiciones de estacionaridad débil vistas anteriormente:
1. Esperanza
m
E(Yt ) = µ=
1 − α1 − α2

2. Varianza
Ocuparemos el truco que: Xt = Yt − µ; E(Xt ) = 0. Ası́,

Xt = α1 Xt−1 + α2 Xt−2 + εt

Multiplicamos la ecuación anterior por Xt y luego sacamos E().

E(Xt2 ) = α1 E[Xt−1 Xt ] + α2 E[Xt−2 Xt ] + E[εt Xt ]


γ0 = V ar(Xt ) = α1 γ1 + α2 γ2 + σε2

OJO: E(Xt2 ) = V ar(Xt ) y Xt = εt +α1 εt−1 +α2 εt−1 +..., entonces E(εt Xt ) = E(εt (εt +α1 εt−1 +α2 εt−1 +...)) =
E(ε2t ) = σε2

3. Autocovarianzas
Multiplicamos la ecuación anterior por Xt−1 y luego sacamos E().
2
E(Xt−1 Xt ) = α1 E(Xt−1 ) + α2 E(Xt−1 Xt−2 ) + E(εt Xt−1 )
γ1 = α1 γ0 + α2 γ1

α1 γ0
γ1 =
1 − α2

Finalmente, multiplicamos la ecuación anterior por Xt−2 y luego sacamos E().

γ2 = α1 γ1 + α2 γ0

Página 7 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Ahora, reemplazamos en γ0 :

α12 γ0
 2 
α 1 γ0
γ0 = + α2 + α2 γ0 + σε2
1 − α2 1 − α2
(1 − α2 )σε2
γ0 = >0
(1 + α2 )(1 − α1 − α2 )(1 + α1 − α2 )

Luego, γ0 = V ar(Yt ) = V ar(Xt ) > 0

Ası́, estas condiciones:


* |α2 | < 1
* α2 + α1 < 1
* α2 − α1 < 1
Salen justamente de:
(1 − α2 )σε2
>0
(1 + α2 )(1 − α1 − α2 )(1 + α1 − α2 )

Si hacemos el proceso anterior sucesivamente, es decir, multiplicamos la ecuación anterior por Xt−j y luego sacamos
E(), tendremos que:
γj = α1 γj−1 + α2 γj−2 , ∀γ 6= 0
Y esto es lo que conoceremos como ecuación de Yule-Walker.

Desarrollemos un poco esta idea. Continuemos con procesos AR(2).

Tenemos el polinomio autorregresivo de orden 2:

A(L) = 1 − α1 L − α2 L2

Ya vimos que,
A(L)Xt = εt ; E(Xt ) = 0
A(L)Yt = m + εt
Xt = Yt − µ
m
µ=
1 − α1 − α2
Y además,
1
(A(L))−1 =
1 − α1 L − α2 L2
1
=
(1 − λ1 L)(1 − λ2 L)
  
1 1
=
1 − λ1 L 1 − λ2 L

! ∞ 
X X
= (λ1 L)i  (λ2 L)j 
i=0 j=0

X
= ψk Lk
k=0
= 1 + χ1 L + χ2 L2 + ...

Página 8 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Ası́,
λ2 − α1 λ − α2 = 0 =⇒ λ1 , λ2 , |λ1 | < 1, |λ2 | < 1

NOTA: Para encontrar los valores de λ1 y λ2 , podemos ocupar fracciones parciales:


a b
(A(L))−1 = +
1 − λ1 L 1 − λ2 L
a(1 + λ1 L + λ2 L2 + ...) + b(1 + λ2 L + λ2 L2 + ...)
=
(1 − λ1 L)(1 − λ2 L)
(a + b) + (aλ1 + bλ2 )L + (aλ21 + bλ22 )L2 + ...
=
(1 − λ1 L)(1 − λ2 L)
χ0 + χ1 L + χ2 L2 + ...
=
(1 − λ1 L)(1 − λ2 L)

donde χ0 = a + b = 1, χ1 = (aλ1 + bλ2 ), χ2 = (aλ21 + bλ22 ).

De acuerdo a las ecuaciones de Yule-Walker:


i) γ0 = α1 γ1 + α2 γ2 + σε2
α1 γ0 α1
ii) γ1 = α1 γ0 + α2 γ1 =⇒ γ1 = =⇒ ρ1 =
1 − α2 1 − α2
α12 γ0 α12
iii) γ2 = α1 γ1 + α2 γ0 =⇒ γ2 = + α2 γ0 =⇒ ρ2 = + α2
1 − α2 1 − α2

Finalmente, tendremos:
γj = α1 γj−1 + α2 γj−2 , j≥1
NOTA: Esto podemos escribirlo como: A(L)γj = (1 − α1 L − α2 L2 )γj = 0

Luego, también podemos escribir,


ρj = α1 ρj−1 + α2 ρj−2
Y podemos escribir: ρj = A(λ1 )j + B(λ2 )j que será solución de la ecuación anterior.
¿Cómo encontramos los valores de A y B? Ocupamos el hecho de que sabemos ρ1 y ρ2 .

ρ1 = Aλ1 + Bλ2
ρ2 = A(λ1 )2 + B(λ2 )2

Y luego encontramos los valores de A y B. Ası́, cuando j → ∞, ρj → 0

Página 9 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Correlogramas
AR(1)

ρj = λj
Xt = λXt−1 + εt , |λ| < 1

Esto lo podemos graficar (llamado correlograma) para (j, ρj ).

Pero también podemos graficar para AR(2). Para ello, necesitamos coordenadas polares.

z = x + iy = reiθ = r(cos(θ) + i sen(θ))

Ejemplo: Xt = 0,3Xt−1 + 0, 6Xt−2 + εt .

Esto es lo que llamamos decaimiento exponencial.

Otro Ejemplo: Xt = 1,3Xt−1 − 0, 6Xt−2 + εt , donde, α12 + 4α2 = 1,69 − 2,40 < 0

Esto lo llamamos sinusoidal amortiguada.

Ejemplo de una serie NO estacionaria:


Xt = Xt−1 + εt
No es estacionario porque llegamos a que α = 1, ası́ que no cumplimos con la condición necesaria para estacionaridad.

Página 10 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

¿Cómo hacer que sea estacionaria?


Xt − Xt−1 = εt
Con esto, la primera diferencia es εt y este es ruido blanco, por lo tanto, será estacionaria la serie.

3. Coeficientes de Autocorrelación Parcial: Pk , φkk (Yule)


Sea,
Yt = α0 + α1 X2 + α2 X3 + εt

Cov(Yt , X2t )
r12 = p p = r21
V ar(Yt ) V ar(X2t )
Cov(X2 , X3 )
r23 = p p = r32
V ar(X2 ) V ar(X3 )
r13 = r31
donde (1)= Yt , (2)= X2t , (3)= X3t
Luego,
yt = b12 x2t + e1·2
P P
yx x y
b12 = P t 22t 6= b21 = P 2t2 t
x2t yt
Con yt = Yt − Ȳ , x2t = X2t − X̄
Además.
x3t = b32 x2t + e3·2
Ası́, la correlación parcial queda como:
P
e1·2 e3·2
r13·2 = pP
2
pP
e1·2 e23·2
donde e1·2 = yt − b12 x2t

Interpretación: r13·2 es la correlación de (1) con (3) pero eliminando el efecto de la variable (2).

Ejemplo: Sea Yt = f (X2 , X3 , X4 , X5 ), entonces,


P
e1·24 e3·24
r13·24 =p 2 p 2
e1·24 e3·24
Propuesto: Demostrar que:
r13 − r12 r32
r13·2 = p 2
p
2
1 − r12 1 − r32

Vamos ahora a series de tiempo:


Sea las variables (1)=Xt , (2)=Xt−1 , (3)=Xt−2

Luego,
r12 = Corr(Xt Xt−1 )
= ρ1
= Corr(Xt−1 Xt−2 )
= r23

Página 11 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Luego,
r12 = r23 = ρ1 = r32 = r21
De la misma forma,

r13 = Corr(Xt Xt−2 )


= ρ2

Luego,

ρ2 − ρ21
r13·2 = p p
1 − ρ21 1 − ρ21
ρ2 − ρ21
=
1 − ρ21
= P2 = φ22

donde P2 : autocorrelación parcial de orden 2.


Explicaremos en más detalle este Pi .
P1 = φ11 = ρ1
Pk : Autocorrelación parcial de orden k cuando k ≥ 2

Pk = Corr[Xt ; Xt±k |Xt+1 , Xt+2 , Xt+3 , ..., Xt+k−1 ]


= Corr[Xt ; Xt±k |Xt−1 , Xt−2 , Xt−3 , ..., Xt−k+1 ]

Pero, hay otra forma de hacerlo mucho más sencillo que es con la notación de Yule: Pi = φii .

Xt = φk1 Xt−1 + φk2 Xt−2 + ... + φkk Xt−k + εt

OJO: φkk = Pk , donde acá es más sencillo calcular φkk .


¿Cómo lo calculamos?
Ocuparemos la ecuación de Yule Walker. Multiplicaremos todo por Xt−j y luego sacamos esperanza. Y finalmente
dividimos por γ0 = V ar(Xt ). Tendremos:

ρj = φk1 ρj−1 + φk2 ρj−2 + ... + φkk ρj−k

Notas de apoyo:
E(Xt Xt−j ) E(Xt Xt−j ) γj
= = = ρj (autocorrelación de orden j).
γ0 V ar(Xt ) γ0
¿Cómo calculamos φkk ? Regla de Cramer.
 
1 ρ1 ρ2 ··· ρk−1    
φk1 ρ1
 ρ1 1 ρ1 ··· ρk−2  

φ
 k2  ρ2 
   
 ρ2
 ρ 1 1 ··· ρk−3 
  ..  =  .. 
 .. .. .. .. ..   .   . 
. . . . . 
φkk ρk
ρk ρk−1 ρk−2 ··· 1
NOTA: ρ0 = 1. Las filas de la matriz se hicieron calculando: Fila 1: j = 1, Fila 2: j = 2, ... , Fila k: j = k

Página 12 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Luego, ocupando la regla de Cramer:


 
1 ρ1 ρ2 ··· ρ1
 ρ1
 1 ρ1 ··· ρ2  
 ρ2
 ρ1 1 ··· ρ3  
 .. .. .. .. .. 
. . . . .
ρk ρk−1 ρk−2 · · · ρk
φkk =  
1 ρ1 ρ2 · · · ρk−1
 ρ1
 1 ρ1 · · · ρk−2  
 ρ2
 ρ1 1 · · · ρk−3  
 .. .. .. .. .. 
. . . . . 
ρk ρk−1 ρk−2 ··· 1

Ejemplo:
Para AR(1): Xt = αXt−1 + εt

P1 = φ11 = ρ1
ρ2 − ρ21
φ22 = P2 =
1 − ρ21
 
1 ρ1
ρ1 ρ2
=  
1 ρ1
ρ1 1
α2 − α2
= =0
1 − α2

OJO: Para AR(1), ρj = αj , ası́, ρ1 = α

Finalmente, se puede demostrar que para un AR(1):

φkk = 0, k≥2

4. Proceso MA(q)
Sea,

Yt = m + εt − β1 εt−2 − ... − βq εt−1


E(Yt ) = m=µ
Xt = Yt − µ = Yt − m
Xt = B(L)εt
B(L) = 1 − β1 L − β2 L2 − ... − β1 Lq

Veamos los requisitos para que este MA sea estacionario.

Página 13 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Veamos el caso más sencillo: MA(1)


Xt = εt − βεt−1
E(Xt ) = 0, ∀t
V ar(Xt ) = σε2 + β 2 σ 2 ε = σε2 (1 + β2 ) = γ0
γ1 = E(Xt Xt−1 )
= E[(εt − βεt−1 )(εt−1 − βεt−2 )]
= −βσε2
γ1 β
ρ1 = =−
γ0 1 + β2
γ2 = E(Xt Xt−2 ) = 0
γ3 = E(Xt Xt−3 ) = 0
γj = E(Xt Xt−j ) = 0, ∀j ≥ 2
Ahora, para MA(2),
ρ1 6= 0
ρ2 6= 0
ρ3 = ρ4 = ρ5 = ... = 0
Finalmente, para MA(q)
ρq+1 = ρq+2 = ... = 0

Volvamos al MA(1). ¿Es estacionario? Sı́, dado que la esperanza, la varianza y la estructura de correlaciones simples
no dependen del tiempo.
¿Ponemos alguna restricción para β? NO. Ası́,

Cualquier proceso MA será estacionario siempre, independiente de los valores de β1 , β2 , ..., βq .

Ojo: No olvidar que siempre estamos en el caso donde ε es ruido blanco.

Ahora, el β será importante a la hora de invertir este proceso.


Recordemos que AR(1): Xt = αXt−1 + εt para escribirlo como un MA(∞) Xt = εt + αεt−1 + α2 εt−2 + ...+ ∼ M A(∞)
era necesaria la restricción |α| < 1.

Ahora, pensemos que tenemos:


Xt = (1 − βL)εt
 
1
Xt = εt
1 − βL
(1 + βL + β 2 L2 + ...)Xt = εt
Acá, para que esto tenga sentido matemático, necesitamos que |β| < 1 si es que queremos invertir.
Xt + βXt−1 + β 2 Xt−2 + ... = εt
Xt = −βXt−1 − β 2 Xt−2 − ... + εt ∼ AR(∞)
¿Y qué es esto? Es un AR(∞).
Luego,

Para pasar de un MA(1) a un AR(∞) necesitamos que |β| < 1.

OJO que esto es una condición de invertibilidad, no estacionaridad (no tenemos condiciones para estacionaridad en
MA(1)).

Página 14 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Ahora, si pensamos en AR(2):

Xt = (1 − β1 L − β2 L2 )εt

Necesitaremos |λ1 | < 1 y |λ2 | < 1 que son las raı́ces del polinomio caracterı́stico dado por: λ2 − β1 λ − β2 = 0. Ası́
también,
|β2 | < 1, β1 + β2 < 1, β2 − β1 < 1

5. Procesos ARMA(p, q)
Sea,

Ap (L)Xt = Bq (L)εt
Ap (L) = 1 − α1 L − α2 L2 − ... − αp Lp
Bq (L) = 1 − β1 L − β2 L2 − ... − βq Lq

Ejemplo:
ARM A(1, 1) : Xt = α1 Xt−1 + εt − β1 εt−1
Condición de Estacionaridad:
Raı́ces del polinomio Ap (z) = 0 están fuera del cı́rculo unitario, es decir, |z| > 1. Que es equivalente a decir que los
|λi | < 1 (están dentro del cı́rculo unitario).

Si esto se da, podemos escribir la ecuación como:


 
B(L)
Xt = εt
A(L)
= C(L)εt

Y esto es lo que llamamos descomposición de Wold.

La descomposición de Wold dice que: Cualquier proceso estacionario, se va a poder escribir ası́:

X
Yt = χj εt−j + vt
j=0
P∞
Habrá una parte puramente estocástica ( j=0 χj εt−j ) y eventualmente podrı́a haber una parte no estocástica (deter-
minı́stica) vt .

Ası́, ARMA(p, q):


ρk : Hay ∞.
φkk : Hay ∞.

Ventaja de ARMA: Puede escribir las cosas linealmente y son muy versátiles, se puede escribir cualquier cosa MENOS
los procesos no estacionarios.

Página 15 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

6. Procesos No Estacionarios (P.N.E.)


6.1. Categorı́a 1: P.N.E. Determinı́sticos
Ejemplos:

Yt = δ0 + δ1 t + µt
Yt = δ0 + δ1 t + δ2 t2 + µt

¿Cómo se corrige? La serie quedarı́a como: (Se elmina la parte no lineal deterministica):

Yt∗ = Yt − δˆ0 − δˆ1 t

NOTA: A la serie Yt = δ0 + δ1 t + µt se le llama serie no estacionaria pero de tendencia estacionaria (ya que
la varianza y las autocovarianzas no dependen del tiempo).

Por qué son no estacionarias? Media va aumentando (depende del tiempo).

OJO: La esperanza y varianza de Yt = δ0 + δ1 t + µt son:

E(Yt ) = δ0 + δ1 t
V ar(Yt ) = V ar(µt )

6.2. Categorı́a 1: P.N.E. Estocásticos (Raı́ces Unitarias)


Ejemplo:

Yt = α + Yt−1 + εt

Es un AR(1) pero con α = 1 (como la condición de estacionaridad es |α| < 1, no es estacionaria).

Supongamos que

Y1 = α + Y0 + ε1
Y2 = α + Y1 + ε2 = 2α + Y0 + ε1 + ε2
Y3 = α + Y2 + ε3 = 3α + Y0 + ε1 + ε2 + ε3
..
.
Yt = tα + Y0 + ε1 + ε2 + ... + εt

Veamos que pasa con las medias y las varianzas.

E(Yt ) = Y0 + tα
V ar(Yt ) = tσε2

Supongamos que

Yt = δ0 + δ1 t + µt
µt = αut−1 + εt ∼ AR(1), |α| < 1
(1 − αL)µt = εt
µt = εt + αεt−1 + α2 εt−2 + ...

Ası́,
Yt = δ0 + δ1 t + εt + αεt−1 + α2 εt−2 + ...
Apliquemos multiplicador de impacto, es decir,
∂Yt
=1
∂εt

Página 16 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

¿Qué pasa con el perı́odo siguiente?


∂Yt+1

∂εt
∂Yt+1
= α2
∂εt
∂Yt+s
= αs
∂εt
Notar que el efecto cada vez es más pequeño. Ası́, decimos que el efecto es temporal o transitorio.

Si por ejemplo α = 1, tendremos que todas las derivadas son igual a 1. Ahi diremos que el shock es permanente.

7. Procesos Integrados I(d)


Sea,

Yt = δ0 + δ1 t + ut (1)
ut = αut−1 + εt ; |α| < 1

Queremos que la serie tenga εt (o sea, ruido blanco). Ocuparemos la Transformación de Cochrane-Orcutt.

αYt−1 = αδ0 + αδ1 (t − 1) + αut−1 (2)

Restamos (1)-(2).

Yt − αYt−1 = δ0 (1 − α) + αδ1 + δ1 (1 − α)t + εt


Yt = [δ0 (1 − α) + αδ1 ] + [δ1 (1 − α)]t + αYt−1 + εt
= µ + βt + αYt−1 + εt

Supongamos que α = 1, tenemos un comportamiento de raı́z unitaria y la serie queda como:

Yt = δ1 + Yt−1 + εt

Ası́, acá tenemos un proceso no estacionario de raı́z unitaria.


Esto se llama como random-walk (paseo-aleatorio).

Ahora, si |α| < 1, tenemos que la serie queda como:

Yt = µ + βt + αYt−1 + εt

O sea, acá tenemos un proceso de tendencia estacionaria.

Supongamos que tenemos α = 1 como hipótesis nula y |α| < 1 como HA . Si no se puede rechazar al nula, estamos
frente a un proceso de raı́z unitaria. Pero, tenemos un truco para poder arreglar esto (sabiendo todo lo que conlleva
este proceso de raı́z unitaria).

Simplemente es:

Yt − Yt−1 = 4Yt = (1 − L)Yt = δ1 + εt

Si este es el caso, decimos que Yt es integrado de orden 1. Es decir,

Yt ∼ I(1)

Y por ende,
4Yt ∼ I(0)

Página 17 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

NOTA: Esto se llama proceso de primeras diferencias.

¿Qué es integrado de orden 0?


Esto es sinónimo de estacionaridad en el 99 % de los casos.

Recordemos que ya hemos visto Descomposición de Wold:



X
Yt = µ+ χj εt−j ∼ M A(∞)
j=0

Caso más sencillo es MA(1):


Yt = µ + εt + χεt−1
Se dice que Yt ∼ I(0) ssi

X
χj 6= 0
j=0

Algunos ejemplos:
Yt − Yt−1 = 4Yt = (1 − L)Yt = δ1 + εt = δ1 + χ0 ε1 = δ1 + 1
Además entonces de ser estacionario, es I(0) ya que χ0 = 1 6= 0
Otro ejemplo:
Yt = m + αYt−1 + εt ∼ AR(1), |α| < 1
m
Yt = + εt + αεt−1 + α2 εt−2 + ...
1−α
donde χ0 = 1, χ1 = α, χ2 = α2 , .... Ası́,

X 1
χj = 1 + α + α2 + ... = 6= 0
j=0
1−α

Ası́, Yt es estacionario y también I(0).


Ahora, otro ejemplo:
Yt = εt − βεt−1 ∼ M A(1)
Luego,

X
χj = 1 − β 6= 0
j=0

OJO: Esto es 0 sólo si β 6= 1. Ası́, la conclusión es que es I(0) solo si β 6= 1, PERO, los procesos MA son SIEMPRE
estacionarios para cualquier valor de β.

¿Qué es un proceso integrado de orden d (I(d))?


Un proceso Yt ∼ I(d) ssi,
4d Yt ∼ I(0)

Ejemplo:
42 Yt = (1 − L)(Yt − Yt−1 )
= Yt − Yt−1 − Yt−1 + Yt−2
= Yt − 2Yt−1 + Yt−2
Ası́, Yt ∼ I(2) ssi 42 Yt = Yt − 2Yt−1 + Yt−2 ∼ I(0)

Página 18 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

8. Procesos ARIMA
Supongamos que tenemos:
Yt = δ0 + δ1 t + µt
Pero supongamos que µt ∼ ARM A(p, 1). Ası́,
Ap (L)µt = Bq (L)εt
Vamos a exigir que está fuera del cı́culo unitario, es decir, Ap (z) = 0, |zi | > 1.

Pero, para esto, supondremos que:


Ap (L) = (1 − λ1 L)(1 − λ2 L) · ... · (1 − λp L)
donde λi son los inversos de las raı́ces zi .

Pero, supongamos que tenemos sólo una raı́z unitaria, ası́


Ap (L) = (1 − L)(1 − λ2 L) · ... · (1 − λp L)
= (1 − L)Ap−1 (L)
= Ap−1 (L)(1 − L)
Además, consideremos que:
Yt − δ0 − δ1 t = µt
Ap (L)µt = Ap (L)[Yt − δ0 − δ1 t]
= Bq (L)εt
Ahora, escribiremos esto como:
Ap−1 (L)(1 − L)[Yt − δ0 − δ1 t] = Bq (L)εt
Ap−1 (L)[4Yt − δ0 + δ0 − δ1 t + δ1 (t − 1)] = Bq (L)εt
Ap−1 (L)[4Yt − δ1 ] = Bq (L)εt
OJO: 1 − L = 4.
Ahora, esto podemos decir que es un proceso estacionario.

Sea:
Bq (L)
4Yt − δ1 = εt
Ap−1 (L)
= εt + χ1 εt−1 + χ2 εt−2 + ...
tal que:

X
6= 0
j=0

Entonces, 4Yt − δ1 no es sólo estacionario, sino que también es I(0).

Por lo tanto,
Yt∗ ∼ ARM A(p − 1, q)
que es I(0).

Ası́,
Yt ∼ ARIM A(p, 1, q)

Página 19 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

9. Tests de Raı́z Unitaria


Sea,

Yt = δ0 + δ1 t + µt
µt = αµt−1 + εt

Ası́,

Yt = µ + β1 + αYt−1 + εt

Restamos Yt−1 a ambos lados:

4Yt = µ + βt + γYt−1 + εt

donde γ = α − 1.

Luego,

H0 : α=1 (γ = 0)
HA : |α| < 1 (γ < 0)

Forma de calcular esto: Ocupar MCO y hacer test t para coeficiente γ.


γ̂
t=
S.E.(γ̂)

Y luego ir a la tabla de t-Student.

PERO, la tabla está mal. Bajo la hipótesis nula, este cuociente no se distribuye como una t-student, ya que bajo α = 1
tenemos que la serie es no estacionaria y con raı́z unitaria (algo desastroso).
O sea, está correcto el cuociente, sin embargo, ya no está correcto ir a la tabla de t-Student.

Fuller hizo algo nuevo. Demostró que el cuociente


γ̂
τ̂ =
S.E.(γ̂)

se distribuye como una Distribución No-Estándares. (o también conocidas como distribuciones de movimiento
Browniano).
¿Qué son? Al igual que las comunes, tiene densidad conjunta continua, sin embargo, no tiene derivada en ningún punto.

9.1. Test de Dickey/Fuller


Tenemos que,

Yt = δ0 + δ1 t + µt
µt = αµt−1 + εt ∼ AR(1), |α| < 1
4Yt = [δ0 (1 − α) + δ1 α] + δ1 (1 − α)t + γYt−1 + εt

Luego,

H0 : α − 1 = γ = 0 −→ 4Yt = δ1 + εt −→ Yt = δ1 + Yt−1 + εt
γ̂
HA : γ<0 (|α| < 1) −→ τ =
S.E.(γ̂)

Página 20 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Haremos las transformaciones de Cochrane-Orcutt para t − 1 y t − 2.

Yt = δ0 + δ1 t + µt (1)
µt = α1 µt−1 + α2 µt−2 + εt
α1 Yt−1 = α1 δ0 + α1 δ1 (t − 1) + α1 µt−1 (2)
α2 Yt−2 = α2 δ0 + α2 δ1 (t − 2) + α2 µt−2 (3)

Ası́, (1)-(2)-(3):

Yt = δ0 (1–α1 − α2 ) + δ1 (1 − α1 − α2 )t + α1 δ1 + 2α2 δ1 + α1 Yt−1 + α2 Yt−2 + εt

Sumemos un 0 conveniente: α2 Yt−1 .

Yt = δ0 (1–α1 − α2 ) + δ1 (1 − α1 − α2 )t + δ1 [α1 + 2α2 ] + Yt−1 [α1 + α2 ] − α2 (Yt−1 − Yt−2 ) + εt

pero Yt−1 − Yt−2 = 4Yt−1 = −Yt−1 . Quedando:

4Yt = δ0 (1–α1 − α2 ) + δ1 (1 − α1 − α2 )t + δ1 [α1 + 2α2 ] + (α1 + α2 − 1)Yt−1 − α2 4 Yt−2 + εt

pero γ = α1 ‘ + α2 − 1.

Finalmente, tendremos algo como:


4Yt = f (cte, t, Yt−1 , 4Yt−1 , εt )
Y esto es lo que encontró Dickey.

Testeamos el test simple de Dickey-Fuller:

H0 : γ = 0, α1 + α2 = 1
HA : γ<0

Ahora, viendo el test de Dickey-Fuller Aumentado: Si µt ∼ AR(p), entonces

4Yt = f (cte, t, Yt−1 , 4Yt−1 , 4Yt−2 , ..., 4Yt−(p−1) , εt )

Ası́ testeamos:

H0 : γ = 0, α1 + α2 + ... + αp = 1
HA : γ<0

En la práctica, corremos lo siguiente:


K
X
4Yt = A + Bt + γYt−1 + δk 4 Yt−k + εt
k=1

9.2. Identificación
Buscaremos conocer los valores de ARIMA(p, d, q). (OJO: d = 0, 1, 2).
NOTA: Si tenemos P, D, Q estamos en presencia de estacionaLidad (que es distinto a estacionaRidad).

Importante:
Notar que ARMA(p, q) es equivalente a AR(∞).

Ahora, Hannah y Rissanan dicen que podemos hacer esto en 2 etapas:

Página 21 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

1. Estimamos AR(p∗ ) con p∗ grande (NOTA: Definimos p∗ sólo para diferenciar ese valor del p de ARIMA).

Luego, ¿Con qué criterio lo hacemos? Ocupamos el criterio AIC (criterio de información de Akaika). Este
dice que:
2 2
AIC = ln(σ̂p,q ) + 2(p + q) = ln(σ̂p,q )+T
T corresponde a la penalización ante el hecho de que si p, q son grandes, aumenta AIC. Ası́, con este T nos sirve
2
para ver que si aumenta AIC, esto es porque aumenta ln(σ̂p,q ), pero no porque hay más p, q (misma idea con R2
2
y R -Ajustado).

Con ello, se obtendrán distintos p∗1 (con su respectivo e∗1 , p∗2 (con su respectivo e∗2 , p∗3 (con su respectivo e∗3 ...
(que no sabemos aún cuál es mejor que el otro ya que entregan AIC parecido)

2. Comprobaremos ARM A(p̃, q̃) (ejemplo ARMA(2,1)). Luego,

Yt = α1 + α2 Yt−1 + α3 Yt−2 + ε∗t + −βε∗t−1 + error

Con esto, vieron que funcionaba mejor el criterio Schwarz (Bayesiano), más conocido como BIC.

2 ln(T )(p + q)
BIC = ln(σ̂p,q )+
T

Con esto, ya tenemos algunos modelos tentativos ARMA(p1 , q1 ) y ARMA(p2 , q2 ). PERO, donde sı́ ya vamos a
decidir completamente, es cuando pasemos ahora a la predicción.

Especı́ficamente, haremos predicción fuera de muestra.

9.3. Predicción
Práctica:
mı́n E[(YT +h − ŶT +h )2 ]
Ası́, ŶT +h = E[YT +h |ΦT ]
donde YT +h − ŶT +h es el error de predicción (e.p.).

Ejemplo: AR(1)

Yt = m + αYt−1 + εt ; |α| < 1


YT +1 = (1 − α)µ + αYT + εT +1
ŶT +1 = (1 − α)µ + αYT
(ŶT +1 − µ) = α(Yt − µ)
e.p. = εT +1
V ar(e.p.) = σ2 ε

Luego, vamos a otro perı́odo:

YT +2 = (1 − α)µ + αYT +1 + εT +2
YT +2 = (1 − α)µ + α[(1 − α)µ + αYT + εT +1 ] + εT +2
YT +2 = (1 − α2 )µ + α2 YT + αεT +1 + εT +2

Ası́, si sacamos la esperanza, encontramos la estimación de ŶT +2

ŶT +2 = (1 − α2 )µ + α2 YT

Página 22 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

.
Ahora si encontramos la predicción con respecto a la media poblacional será:

ŶT +2 − µ = α2 (YT − µ)

Finalmente, el error de predicción y la varianza serán:

e.p. = αεT +1 + εT +2
V ar(e.p.) = σε2 (1 + α2 )

CASO AR(q):

Si hacemos esto a un horizonte infinito, tendremos que

ŶT +h − µ = αh (YT − µ), |α| < 1

Ası́, cuando h → ∞, entonces, ŶT +h → µ.

Luego, el error de predicción estará dado por:

e.p. = εT +h + αεT +h−1 + α2 εT +h−2 + ... + αh−1 εT +1

Y la varianza será:
V ar(e.p.) = σε2 (1 + α2 + α4 + ... + α2(h−1) )
Ası́, si h → ∞,
σε2
V ar(e.p.) → = σy2
1 − α2

Ahora, veamos esto para un Proceso MA(q).


Partimos viendo un MA(1): Yt = m + εt − βεt−1

ΦT = {Y1 , ..., YT , ε1 , ε2 , ..., εT , ε0 , ε−1,... }


YT +1 = m + εT +1 − βεT
ŶT +1 = m − βεT
e.p. = εT +1 −→ V ar(e.p.) = σε2

YT +2 = m + εT +2 − βεT +1
ŶT +2 = m=µ
ŶT +h = µ, ∀h ≥ 2

CASO MA(q):

El error de predicción estará dado por:


e.p. = εT +2 − βεT +1
Y la varianza será:
V ar(e.p.) = σε2 (1 + β 2 ) = V ar(Yt ), ∀h ≥ 2

Página 23 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

10. Modelo de Rezagos Distribuidos ADL(p)


RECORDAR: Multiplicadores de Impacto

∂Yt+1 ∂Yt+2 ∂Yt+s


, , ..., ,
∂Xt ∂Xt ∂Xt
con s → ∞ serı́a el multiplicador de impacto de largo plazo.

Sea el siguiente modelo,

Yt = m + α1 Yt−1 + β0 Xt + β1 Xt−1 + εt , |α1 | < 1

(1 − α1 L)Yt = m + β0 Xt + β1 Xt−1 + εt
m
Yt = + (1 + α1 L + α1 L2 + α13 L3 + ...)[β0 Xt + β1 Xt−1 + εt ]
1 − α1

donde A(L) = 1 − α1 L y [A(L)]−1 = 1 + α1 L + α1 L2 + α13 L3 + ....

Luego,
m
Yt = + β0 Xt + β1 Xt−1 + β0 α1 Xt−1 + β1 α1 Xt−2 + ... + β0 α12 Xt−2 + β1 α12 Xt−3 + ... + [A(L)]−1 εt
1−α
Luego, los multiplicadores de impacto serán:
∂Yt
= β0
∂Xt
∂Yt+1
= β1 + β0 α1
∂Xt
∂Yt+2
= α1 (β1 + β0 α1 )
∂Xt
∂Yt+3
= α12 (β1 + β0 α1 )
∂Xt
∂Yt+s
= α1s−1 (β1 + β0 α1 )
∂Xt
∂Yt+s
¿Qué pasa cuando s → ∞? →0
∂Xt
Pero ahora cuando t → ∞:

Xt = Xt−1 = X̄ = Xt−2 = Xt−3


Yt = Yt−1 = Yt−2 = ... = Ȳ
Yt = m + α1 Yt−1 + β0 Xt + β1 Xt−1 + εt

Ası́, en el largo plazo:

Xt → X̄
Yt → Ȳ
εt → 0

Ası́, (1 − α1 )Ȳ = m + (β0 + β1 )X̄.

Página 24 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Eel equilibrio estático de L.P. será:


m β0 + β 1
Ȳ = + X̄ = a + bX̄
1 − α1 1 − α1
Por lo tanto, el multiplicador de impacto de largo plazo será:

∂ Ȳ β0 + β1
=b=
∂ X̄ 1 − α1

Ası́, tenemos el modelo tı́pico. Haremos un cambio de variable:

Yt = m + α1 Yt−1 + β0 Xt + β1 Xt−1 + εt
Yt = 4Yt + Yt−1
Xt = 4Xt + Xt−1
4Y = +(α1 − 1)Yt−1 + β0 (4Xt + Xt−1 ) + β1 Xt−1 + εt
4Yt = β0 4 Xt − (1 − α1 )Yt−1 + (β0 + β1 )Xt−1 + εt + m
 
m β0 + β1
= β0 4 Xt − (1 − α1 ) Yt−1 − − Xt−1 + εt Yt
1 − α1 1 − α1
= m
 
m β0 + β1
Notar que: Yt−1 − − Xt−1 = Yt−1 − a − bXt−1
1 − α1 1 − α1
Ası́, tendremos que

4Yt → 0
Yt = Yt−1
4Xt → 0
εt → 0

Con ello en mente, tenemos que:

Ap (L)Yt = m + Bq (L)Xt + εt
= 1 − α1 L − α2 L2 − ... − αp Lp
Bq (L) = β0 + β1 L + β2 L2 + ... + .βq Lq

Suponiendo que p = q = 1, entonces podemos estimar por MCO,

Yt = m + α1 Yt−1 + β0 Xt + β1 Xt−1 + εt , |α| < 1

O también podemos estimarlo con:


 
m β0 + β1
4Yt = β0 4 Xt − (1 − α1 ) Yt−1 − − Xt−1 + εt
1 − α1 1 − α1
 
m β0 + β1
donde Yt−1 − − Xt−1 es la desviación del equilibrio de Largo Plazo.
1 − α1 1 − α1
Por lo tanto, el equilibrio estático de Largo Plazo será:
m β0 + β1
Ȳ = + X̄
1 − α1 1 − α1
En general,

Ap (L)Yt = m + Bq1 (L)X1t + Bq2 (L)X2t + Bq3 (L)X3t + ... + Bqk (L)Xkt + εt

Página 25 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

11. Regresiones Espurias


Experimento de Granger y Newbold (1974).
Tomaron Xt ∼ I(i) p.a. (paseo aleatorio) donde Xt = Xt−1 + wt con wt ∼ N (0, 0,001) y Yt ∼ I(i) con Yt = Yt−1 + ut .
Con lo cual,
Yt = α + βXt + εt
donde εt es ruido blanco.
Regresionando esto, llegaron a que el 78 % aprox de las estimaciones dio un p-value altamente significativo.

NOTA: Johanssen demostró que I(0) + I(1) ∼ I(1), y de forma general, I(p) + I(q) ∼ I(q) con q > p.
Pero David Hendry demostró que si tenemos del mismo orden por ejemplo Xt ∼ I(1) y Zt ∼ I(1) entonces podemos
generar una combinación lineal donde βXt + γZt ∼ I(0) y como εt ∼ I(0), finalmente Yt ∼ I(0).
Pero esto finalmente lo terminó demostrando Granger.

11.1. Cointegración
Tomemos un modelo ADL(1,1),
Yt = m + α1 Yt + β0 Xt + β1 Xt−1 + εt
Vamos a suponer que Xt es no estacionaria, es decir, Xt = Xt−1 + ηt con ηt ruido blanco. Por lo tanto, Xt ∼ I(1)
(paseo aleatorio).
OJO: εt ∼ I(0).
Luego, si |α1 | < 1, entonces podemos formar el inverso:
(1 − α1 L)Yt = m + β0 Xt + β1 Xt−1 + εt
m
Yt = + (1 + α1 L + α1 L2 + ...)(β0 Xt + β1 Xt−1 + εt )
1 − α1
Observación:
Si Xt ∼ I(1), entonces (aXt + bXt−1 ) ∼ I(1), como también (aXt + bXt−1 + cXt−2 ) ∼ I(1) y ası́ sucesivamente.

Con la observación, vemos que:


(1 + α1 L + α1 L2 + ...)(β0 Xt + β1 Xt−1 + εt ) ∼ I(1)
m
Y como esta expresión está sumada a (constante), entonces también:
1 − α1
Yt ∼ I(1)
Con esto, también tendremos que:
 
m (β0 + β1 )
4Yt = β0 4 Xt − (1 − α1 ) Yt−1 − − Xt−1 + εt
1 − α1 1 − α1
Tenemos que Yt ∼ I(0) (lo demostramos), también por construcción β0 4 Xt ∼ I(0) y εt ∼ I(0). Por lo tanto,
esperarı́amos que:
 
m (β0 + β1 )
Yt−1 − − Xt−1 ∼ I(0)
1 − α1 1 − α1
 
m (β0 + β1 )
Sea zt−1 = Yt−1 − − Xt−1 , entonces tendremos
1 − α1 1 − α1
 
m (β0 ‘β1 )
+ Xt
1 − α1 1 − α1
 
m (β0 + β1 )
zt = m − + α1 Yt−1 + β0 − Xt + β1 Xt−1 + εt
1 − α1 1 − α1
mα1 (β0 α + β1 )
zt = − + α1 Yt−1 − Xt + β1 Xt−1 + εt
1 − α1 1 − α1

Página 26 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Tenemos que Zt = α1 Zt−1 +vt (tenemos que demostrar que vt es ruido blanco), ahora volvemos a escribir (y agregamos
un 0 conveniente):
   
mα1 α1 (β0 + β1 ) α1 (β0 + β1 ) (β0 α1 + β1 )Xt
Zt = − + α1 Yt−1 − Xt−1 + Xt−1 − + β1 Xt−1 + εt
1 − α1 1 − α1 1 − α1 1 − α1
Zt = α1 Zt−1
 
mα1 α1 (β0 + β1 )
donde α1 Zt−1 = − + α1 Yt−1 − Xt−1 .
1 − α1 1 − α1
Veamos ahora el término:
 
α1 (β0 + β1 ) (β0 α1 + β1 )Xt β1 − α1 β1 + α1 β0 + α1 β1 (β0 α1 + β1 )Xt
Xt−1 + β1 Xt−1 − = Xt−1 −
1 − α1 1 − α1 1 − α1 1 − α1
 
(β0 α1 + β1 ) (β0 α1 + β1 )Xt
= Xt−1 −
1 − α1 1 − α1
(β0 α1 + β1 )Xt
= − (Xt − Xt−1 ) ∼ I(0)
1 − α1
= Aηt ∼ I(0)

(β0 α1 + β1 )Xt
donde finalmente por construcción (Xt − Xt−1 ) ∼ I(0), y si la multiplicamos por la constante − , en-
1 − α1
tonces todo el término ∼ I(0)

Luego, volviendo a lo que tenı́amos:


 
m (β0 + β1 )
4Yt = β0 4 Xt − (1 − α1 ) Yt−1 − − Xt−1 + εt
1 − α1 1 − α1
 
m (β0 + β1 )
Demostramos que Yt−1 − − Xt−1 = Zt−1 ∼ I(0).
1 − α1 1 − α1
Con esto decimos que el modelo está balanceado. O sea, si se produce esto, decimos que Xt cointegra con la variable
Yt .
Por ende, Zt = a + bXt + cYt .

Finalmente, ADL(1,1) lo calculamos a través de MCO.

Con toda la demostración, tendremos que:


Zt = α1 Zt−1 + vt
donde esto es lo que conocemos como un proceso AR(1) estacionario con vt ruido blanco.

Tendremos que:
Si |α1 | < 1 entonces, Zt ∼ I(0)
Si |α1 | = 1 entonces, Zt ∼ I(1) y no es estacionario.
¿Cómo testeamos lo anterior?

4Zt = (α1 − 1)Zt−1 + ηt


4Ẑt = γ Ẑt−1 + ηt

¿Cómo estimamos Zt ?

Ẑt = â + b̂Xt + ĉYt

Página 27 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Cálculo de ADL cuando hay cointegración:


Primeras diferencias
Valor absoluto

Yt = a0 + b0 Xt + εt ; ADL(1, 1)

Si yo corro esto por MCO, encontramos estimadores de a0 y b0 que nos llevan al equilibrio de largo plazo:

Ŷt = â0 + b̂0 Xt


m (β0 + β1 )
Ȳ = + X̄
1−α 1−α
Donde,
P
0 (Xt − X̄t )εt
0
b̂ = b + P
(Xt − X̄)2
p lı́m(b̂0 ) = b
 P 
1/T (Xt − X̄t )εt Corr(Xt εt )
p lı́m P 2
= =0
1/T (Xt − X̄) ∞

Esto es sólo si Xt y εt están correlacionados y hay cointegración.


Ası́, es válido calcular por MCO ya que es consistente. Y por ende, podemos correr la regresión de Dickey-Fuller.
Además, se dice que b̂0 no sólo es consistente, sino que es super consistente, puesto que va a alcanzar el 0 mucho más
rápido que los estimadores consistentes.

12. Modelos Var(p)


Sea la siguiente serie,

Yt =
m + A1 Yt−1 + A2 Yt−2 + ... + Ap Yt−p + BXt + εt
   
Y1t ε1t
Y2t  ε2t 
donde m ∈ Mk×1 , A1 ∈ Mk×k , Yt−1 ∈ Mk×1 (y ası́ para todos los Ai ) y Yt =  .  , εt =  . 
   
 ..   .. 
Ykt K×1 εkt K×1
 
X1t
X2t 
Pero, B no tiene por qué ser cuadrada, podrı́a ser por ejemplo B ∈ Mk×m y Xt ∈ Mm×1 , Xt =  . 
 
 .. 
Xkt m×1
Luego,
E(εt ) = 0; ∀t
E(εt ε0s ) = Ω si t = s y será 0 si t 6= s.
Notar que εt ∈ MK×1 y ε0s ∈ M1×K y por tanto E(εt ε0s ) ∈ MK×K

Modelo más sencillo: p = 1.

Yt = m + AYt−1 + εt , B=0

donde Yt ∈ M2×1 , m ∈ M2×1 , A ∈ M2×2 , Yt−1 ∈ M2×1 , εt ∈ M2×1 .

Página 28 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Supondremos a priori que A es una matriz NO simétrica.

Y1t = m1 + a11 Y1,t−1 + a12 Y2,t−1 + ε1t


Y2t = m2 + a21 Y1,t−1 + a22 Y2,t−1 + ε2t

Y ası́ sucesivamente. Pero nos molesta los términos Y1,t−1 y Y2,t−1 .

Acá introducimos valores y vectores propios que ya conocemos.

Casos Posibles:

1. Valores propios diferentes λ1 6= λ2 .


NOTA: De interés económico, sólo nos importa valores donde |λ1 | < 1 y |λ2 | < 1. O también que ocurra, λ1 = 1,
|λ2 | < 1
2. Valores propios iguales λ1 = λ2 . Y Acá tenemos 3 casos posibles.

|λ1 | = |λ2 | > 1 (Que NO va a tener valor económico)


λ1 = λ2 = 1
|λ1 | = |λ2 | < 1
Pero acá el más interesante es λ1 = λ2 = 1.

CASO 1:
|λ1 | < 1 y |λ2 | < 1, λ1 6= λ2 .
 
−1 λ1
Sea Av = λv, v 6= 0. Entonces existen 2 vectores L.I tal que C = [c1 , c2 ] y por ende, C = .
λ2
Y ası́ la descomposición espectral serı́a,  
λ1 0
C −1 AC = Λ =
0 λ2
Y luego, A = CΛC −1 .

Ahora, sea Zt = C −1 Yt y por lo tanto, Yt = CZt .


Luego, multiplicamos C −1 por (1)

C −1 Yt = C −1 m + C −1 AYt−1 + C −1 εt
Zt = m∗ + ΛZt−1 + γt

donde m∗ = C −1 m, y en el segundo término multiplicamos por I = CC −1 , finalmente γt = C −1 εt con εt ruido blanco.

Finalmente,

Z1t = m∗1 + λ1 Z1,t−1 + γ1t ∼ AR(1); I(0)


Z2t = m∗2 + λ2 Z2,t−1 + γ2t ∼ AR(1); I(0)
 
Z1t
Ası́, Zt ∼ I(0) con Zt = .
Z2t
Luego,
 
 Z1t 
Yt = c1 c2 = Z1t c1 + Z2t c2 ∼ I(0)
Z2t

Página 29 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Ası́, Yt = Yt−1 = Ȳ ; εt = 0. Cuando t → ∞ (equilibrio estático de largo plazo),

Ȳ = m + AȲ
(I − A)Ȳ = m

Definiremos (I − A) = π. Desarrollemos esto:

π = I −A
= CC −1 − CΛC −1
= C[I − Λ]C −1
 
1 − λ1 0
= C C −1
0 1 − λ2

Con esto, el equilibrio estatico de Largo Plazo estará dado por:

Ȳ = π −1 m

CASO 2:
λ1 6= λ2 , λ1 = 1, |λ2 | < 1.

Veremos que también existen 2 vectores propios linealmente independientes.

Z1t = m∗1 + Z1,t−1 + γ1t


Z2t = m∗2 + λ2 Z2,t−1 + γ2t

Eso si, ahora Z1t ∼   Z2t ∼ I(0). Igual que antes, pero teniendo esta diferencia de λ1 = 1 (constante).
I(1) y
Z1t
Zt ∼ I(1) con Zt = .
Z2t
Luego,
 
 Z1t 
Yt = c1 c2 = Z1t c1 + Z2t c2 ∼ I(1)
Z2t

Acá no tiene mucho sentido hablar de equilibrio estático de LP porque tengo cosas que no son estacionarias (siempre
es dinámico).
Luego,

Y1t ∼ I(1)
Y2t ∼ I(1)

Si bien no tiene sentido el equilibrio de largo plazo, SÍ puede existir un equilibrio haciendo cointegración entre Y1t y Y2t .

Luego,

c(2) Yt = Z1t c(2) c1 + Z2t c(2) c2 = Z2t ∼ I(0)

dado que c(2) c1 = 0 y c(2) c2 = 1. ¿Por qué?


 
1 0
CC −1 = I=
0 1
 
1 0
C −1 C = I=
0 1
 (1)   (1)
c(1) c2

c  c c1
c1 c2 =
c(2) c(2) c1 c(2) c2

Página 30 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Luego,
 
 Y1t
c21 c22 = c21 Y1t + c22 Y2t
Y2t
= Z2t ∼ I(0)

c(1)
 
NOTA: C −1 =
c(2)
Luego,

Yt = m + AYt−1 + εt / − Yt−1
4Yt = m + (A − I)Yt−1 + εt
4Yt = m − πYt−1 + εt
π = C(I − Λ)C −1 = I − A
 
0 0
Pero, el rango de (I − Λ) = con µ2 = 1 − λ2 es 1, mientras que el rango de C es 2. Por lo tanto, el rango de
0 µ2
π es 1 y no será invertible.
Por ello, no existirá equilibrio de largo plazo.

Analicemos esto:    (1) 


 0 0 c
π = c1 c2
0 µ2 c(2)
 
0
= µ2 c2 c(2)

= c1 c2
µ2 c(2)
donde c2 c(2) ∈ M2×2
Luego, ponemos este término en la ecuación de 4Yt .

4Yt = m − µ2 c2 c(2) Yt−1 + εt


m − µ2 c2 z2,t−1 + εt
=
 
m1
donde z2,t−1 = c(2) Yt−1 , z2,t−1 ∼ I(0), εt ∼ I(0) y 4Yt ∼ I(0) y m =
m2
Finalmente,  
Y1,t−1
c(2) = z2,t−1 ∼ I(0)
Y2,t−1
Y esta es la Interpretación como modelo de corrección de errores.

CASO 3:
λ1 = λ2 = 1
 
1 0
Ojo que si A es simétrica, puedo hacer la descomposición espectral C 0 AC = . Pero eso no suele suceder. Ası́
0 1
que veremos el caso general donde NO existe dos vectores propios linealmente independientes. Y por ende, no existe
la descomposición espectral vista.
Pero existe la descomposición canónica de Jordan.

Página 31 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Descomposición canónica de Jordan


Definición: Sea A ∈ Mk×k (no simétrica), entonces existe s vectores propios L.I (s ≤ k) asociados a s valores propios
distintos (λ1 , λ2 , ..., λs ). Cada λ1 tiene multiplicidad mi .

Con esto, siempre P −1 AP = J donde J ∈ Mk×k ,


 
J1 0 ... 0
0 J2 ... 0
J = .
 
.. .. .. 
 .. . . .
0 0 ... Js

pero acá J1 ∈ Mm1 ×m1 , J2 ∈ Mm2 ×m2 ,..., Ji ∈ Mmi ×mi


 
λi 1 0 ... 0
 0 λi 1 ... 0
 
Ji =  0 0 λi 1 0


 .. .. .. .. .. 
. . . . .
0 0 0 ... λi
Cada Ji son matrices cuadradas que pueden ser de cualquier dimensión.

Veamos como ocupamos esta descomposición para el caso.


 
1 1
J =
0 1
Yt = m + AYt−1 + εt /P −1
zt = P −1 Yt
zt = m∗ + Jzt−1 + ηt
z1t = m∗1 + z1,t−1 + z2,t−1 + η1t
4z2t = m∗2 + η2t −→ z2,t ∼ I(1)
4z1,t = m∗1 + z2,t−1 + η1t ∼ I(1)

donde z2,t−1 ∼ I(1) y η1t ∼ I(0) Ası́, z1,t ∼ I(2) y zt ∼ I(2).


Ası́,
 
 z1t
Yt = P Zt = p1 p2
z2t
 
Y1t
con ∼ I(2).
Y2t
Luego,

P −1 AP = J
AP = PJ  
  λ 1
A p1 p2 = p1 p2
0 λ

= λp1 p1 + λp2

Y ası́, Ap1 = λp1 (i), Ap2 = p1 + λp2 (ii).

Página 32 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

13. Ecuación Caracterı́stica VAR(p)


Ejemplo: VAR(2)

Yt = m + A1 Yt−1 + A2 Yt−2 + εt

Convertiremos este VAR(2) en un VAR(1).

        
Yt m A1 A2 Yt−1 ε
= + + t
Yt−1 0 I 0 Yt−2 0
         
Yt m A1 A2 Yt−1 ε
Llamaremos Ỹt = , m̃ = , Ã2k×2k = , Ỹt−1 = , ε̃t = t
Yt−1 0 I 0 Yt−2 0
Ası́,

Ỹt = m̃ + ÃỸt−1 + ε̃t ∼ V AR(1)

Esto se llama forma canónica de un VAR.

Observación: Esto se puede extrapolar a que cualquier VAR(p) se puede transformar a VAR(1) con este truco.

Veamos como podemos encontrar los valores propios para este VAR(2).
Ecuación caracterı́stica para el caso VAR(2)

|λI2k − Ã2k×2k | = 0
   
λIk 0 A1 A2

0 − = 0
λIk Ik 0
 
λIk − A1 −A2
= 0
−Ik λIk

Queremos llegar a que |λ2 I − λA1 − A2 | = 0.

Multiplico las primeras k filas por λ y luego divido las últimas k columnas por λ.
 2 
λ Ik − λA1 −λA2
= 0
−Ik λIk
 2 
λ I − λA1 −A2
= 0
−I I

Propiedad (asumimos, no demostramos):


 
A11 A12

A21 = 0
A22
|A22 ||A11 − A12 A−1
22 A21 | = 0

Ocupando esto, tendremos que:


 2 
λ I − λA1 −A2
= 0

−I I
1 · |λ2 I − λA1 − A2 | = 0

Y esta es la ecuación caracterı́stica.


Con esto, obtendremos 2k valores de λ.

Página 33 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

En el caso de un VAR(p), la ecuación caracterı́stica será:

Yt = m + A1 Yt−1 + ... + Ap Yt−p + εt


p p−1 p−2
|λ I − λ A1 − λ A2 − ... − Ap | = 0

Ahora, analizando

4Yt = m + (A1 − I)Yt−1 + A2 Yt−2 + εt + A2 Yt−1 − A2 Yt−1


= m + (A1 + A2 − I)Yt−1 − A2 (Yt−1 − Yt−2 ) + εt
= m − πYt−1 − A2 4 Yt−1 + εt
π = αβ 0

donde β 0 Yt−1 = zt−1 ∼ I(1).

Extrapolando esto:

4Yt = m − πYt−1 + β1 4 Yt−1 + β2 4 Yt−2 + ... + Bp−1 4 Yt−(p−1) + εt

NOTA: En el caso de rango(π)=r < k, entonces tenemos que estimar a través de la forma de escritura de 4Yt y no
de la forma Yt .

13.1. Tests - Orden de un VAR(p)


Tendremos los siguientes tests:
1. Sea M la cota superior del VAR en cuestión. Luego AM es la matriz ”más grande” rezagada. Hipótesis:

H01 : AM = 0 ; 1
HA : AM 6= 0
H02 : AM −1 = 0 ; 1
HA : AM −1 6= 0|AM = 0
...
H0i : AM −i+1 = 0 ; i
HA : AM −i+1 6= 0|AM = ... = AM −i+2 = 0

Y esto es el test de Razón de Verosimilitud:


X X
λM V (i) = T {ln | (M − i)| − ln | (M − i + 1)|} ∼a χ2 (k 2 )

Luego, p̂ = M − i + 1

2m k(k + 1)
donde m = k 2 p + k +
P
2. AIC(m) = ln | (m)| + (cantidad de parámetros libres, que dependen de p)
T 2

m ln(T ) k(k + 1)
donde m = k 2 p + k +
P
3. Test de Schwarz: SC(m) = ln | (m)| +
T 2

2m k(k + 1)
ln[ln T ] donde m = k 2 p + k +
P
4. Hannah-Queen: HQ(m) = ln | (m)| +
T 2

El objetivo de los 4 criterios es encontrar el valor de p.

Página 34 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

14. Condición de Estabilidad VAR(p)


Podemos escribirlos de las siguientes dos maneras:

Yt = m + A1 Yt−1 + ... + Ao Yt−p + εt


4Yt = m + B1 4 Yt−1 + B2 4 Yt−2 + ... + Bp−1 4 Yt−p+1 − πYt−1 + εt

Algunas cosas con respecto a estimación, tenemos dos casos:


1. π tiene rango(π)=k, no existen relaciones de cointegración (MCO ecuación por ecuación)

2. π tiene rango(π)=r < k, existen relaciones de cointegración (λ = 1)

NOTA: No vemos en el curso el caso 2., sólo nos enfocamos en caso 1.

Si εt ∼ N [0, Ω], se puede usar MV:


máx L ⇐⇒ máx ln(L) = l
 
ˆ T Tk
donde Lmax = cte + ln |Ω̂−1 | donde cte = [1 + ln(2π)]
2 2
Forma canónica de un VAR(p)
Vimos que se puede escribir de forma equivalente como un VAR(1). Ası́,

Ỹt = m̃ + ÃỸt−1 + ε̃t ∼ V ar(1)

Ecuación Caracterı́stica
Para VAR(2):

|λ2 Ik − λA1 − A2 | = 0

Para VAR(p):

|λp Ik − λp−1 A1 − λp−2 A2 − ... − Ap | = 0

Luego,

Yt = m + AYt−1 + εt
Yt−2 = m + AYt−3 + εt−2
Yt = m + A(m + AYt−2 + εt−1 ) + εt
Yt = (I + A)m + A2 Yt−2 + Aεt−1 + εt
Yt = (I + A + A2 )m + A3 Yt−3 + A2 εt−2 + Aεt−1 + εt

Y ası́ podemos seguir.

NOTA: Ojo que esta es la forma canónica, por simplicidad, le quitamos la ”olita”.

Si continuamos el proceso,

X
Yt = lı́m (I + A + A2 + ... + An + ...)m + lı́m An Yt−n + Ai εt−i
n→∞ n→∞
i=0

Página 35 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

donde lı́mn→∞ (I + A + A2 + ... + An + ...)m = (I − A)−1 m.

Condición de Estabilidad:
Todos los valores propios de A tienen que cumplir |λ| < 1.

Con ello, tendremos dos casos a analizar:

i) Todos los valores propios son distintos.


ii) Hay cierta multiplicidad (valores propios repetidos).
Veamos cada uno.

14.1. Todos los valores propios son distintos


Analicemos caso i):
 
λ1 0 ··· 0 0
0
 λ2 0 ··· 0 
C −1 AC = Λ =  0 0 λ3 0 0


 .. .. .. .. .. 
. . . . .
0 0 ··· 0 λk

Luego, A = CΛC −1 .

Pero ahora,

A2 = (CΛC −1 ) · (CΛC −1 )
= CΛ2 C −1
..
.
An = CΛn C −1

Ası́, los valores propios de A2 son:


 2 
λ1 0 ··· ··· 0
0 λ22 0 ··· 0
λ23
 
0 0 0 0
Λ2 =  
 .. .. .. .. .. 
. . . . .
0 ··· ··· 0 λ2k

Y de la misma forma para An :


 n 
λ1 0 ··· ··· 0
0 λn2 0 ··· 0 
λn3
 
0 0 0 0
Λn =

 
 .. .. .. .. .. 
 . . . . . 
0 0 ··· 0 λnk

Vemos que se requiere que |λi | < 1, ∀i = 1, .., k para que An → 0 cuando n → ∞.

Página 36 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Ası́,

(I − AL)Yt = m + εt
Yt = [A(L)]−1 m + [A(L)]−1 εt
= [A(1)]−1 m + [A(L)]−1 εt
= (I − A)−1 m + [A(L)]−1 εt

Este cambio es porque m es constante.

CONDICIÓN DE ESTABILIDAD:
Se dice que el VAR(p) es estable si los λi que solucionan la ecuación:

|λp Ik − λp−1 A1 − λp−2 A2 − ... − Ap | = 0

son |λi | < 1, o sea, están dentro del cı́rculo unitario.

Corolario: Estabilidad =⇒ Estacionaridad

Continuando con la expresión de Yt :

µ = E[Yt ] = [A(1)]−1 m
Γ(s) = E[(Yt − µ)(Yt−s − µ)0 ]

donde Γ(s) es una matriz de k × k y con esto se puede calcular las autocovarianzas.

Nota: Para el caso univariante, vimos que γs = γ−s . Ahora, para caso multivariante, tendremos que Γs = (Γ−s )0 .

(Pondremos la ”culebrita” de nuevo)



X
Ỹt = [Ã(1)]−1 m̃ + Ãi ε̃t−i
i=0

X
Yt = µ+ χi εt−i
i=0
 
Yt

 Yt−1


Como Yt = 
 Yt−2
. Ası́, botamos todos los valores y sólo consideramos Yt .

  ..
  .
Yt−p+1

14.2. Valores propios repetidos


No puedo escribirlo como el caso anterior, pero podemos escribir:

A = P JP −1
 
J1 0
0 J2 0
con P = [p1 , .p2 , ..., pk ] y J = 
  con s valores propios distintos con multiplicidad m1 , m2 , ..., ms .
... 
0 0 0 Js
Ası́,
An = P J n P −1
Para que An tienda a 0 cuando n → ∞, necesitamos que J n → 0 cuando n → ∞, y esto se cumple (no se demostrará).

Página 37 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Finalmente, tanto para valores propios distintos o algunos con multiplicidad, siempre se requerirá que λ (o J) estén
en el cı́rculo unitario.

Luego, tenemos la descomposición de Wold:



X
χ(L) = χi Li = (I − A1 L − A2 L2 − ... − Ap Lp )−1 = (A(L))−1
i=0

Cuando estimamos, encontramos los valores de Ai pero lo que queremos determinar son las matrices χi .

¿Qué hacemos? Multipliquemos todo por (A(L)):


χ(L)A(L) = I
2 2 p
(χ0 I + χ1 L + χ2 L + ...)[I − A1 L − A2 L − ... − Ap L ] = I
Identifiquemos los términos que acompañan a Li : (Ojo que al lado derecho tenemos sólo un L0 y el resto de los Li son
iguales a 0:
L0 : χ0 = I
L1 : χ1 L − χ0 A1 L = (χ1 − χ0 A1 )L = 0.
Ası́, χ1 = A1 (ya que χ0 = I)
L2 : χ2 L2 − χ1 A1 L2 − χ0 A2 L2 = (χ2 − χ1 A1 − A2 )L2 = 0.
Ası́, χ2 = χ1 A1 + A2 = A21 + A2
Y asi sucesivamente tendremos:
i
X
χi = χi−j Aj
j=1

con Aj = 0; j > p, i = 1, 2, ...


P3
Ejemplo: χ3 = j=1 χ3−j Aj = χ2 A1 + χ1 A2 + χ0 A3 = (A21 + A2 )A1 + A1 A2 + A3 = A31 + A2 A1 + A1 A2 + A3

Y ası́ vamos encontrando todas las matrices χi .

¿Cuánto vale χi en el caso de un VAR(1)?


χ(L) = (I − A1 L)−1
= I + A1 L + A21 L2 + ...
Ası́ I = χ0 , A1 = χ1 , A21 = χ21 = χ2 ,...
OJO: (I − A1 L)(I + A1 L + A1 L2 + ...) = I.
Y para que ésto tenga sentido, los valores propios de A tienen que ser menores a 1 en módulo.

Por lo tanto: χs = As1 para el caso VAR(1).

14.3. Función de Impulso-Respuesta (FIR)



  
εt Yt+s
ε1t  Y1,t+s 
   
ε2t  Y2,t+s 
 ..   .. 
   
Supongamos que tenemos  .
  
 y  .  Supongamos que tenemos un shock en εit y queremos que cómo afecta

 εit   Yi,t+s 
   
 .   . 
 ..   .. 
εkt Yk,t+s
a Yi,t+s .

Página 38 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Tendremos que:

Yt+s = µ + εt+s + χ1 εt+s−1 + χ2 εt+s−2 + χ3 εt+s−3 + ... + χs εt + χs+1 εt−1 + ...


 
ε1t
ε2t 
 
ε3t 
 .. 
 
 . 
donde εt =  
 εit 
 
 . 
 .. 
εkt

∂Yt+s
Ası́, = χs ∈ Mk×k (esto se parece mucho al concepto de multiplicadores de impacto pero ahora en el caso
∂ε0t
multivariante).
∂Yt+s
NOTA: Si derivara con respecto a εt (sin traspuesto), = χ0s ∈ Mk×k
∂εt

15. Error de Predicción


15.1. Predicción
Mi conjunto de información en t será:
Φt = {Y1 , Y2 , ..., Y2 , ε1 , ε2 , ..., εt }
Luego,

Yt+s = µ + εt+s + χ1 εt+s−1 + χ2 εt+s−2 + ... + χs−1 εt+1 + χs εt + χs+1 εt−1 + ...
Ŷt+s = Et (Yt+s ) = E[Yt+s |Φt ]
= µ + χs εt + χs+1 εt−1 + ...

Este es el criterio que minimiza el ECM.

El Error de Predicción será:

e.p. = Yt+s − Ŷt+s


= Yt+s − Et (Yt+s )
= εt+s + χ1 εt+s−1 + χ2 εt+s−2 + ... + χs−1 εt+1

Veamos ahora cual es la covarianza:

E[(Yt+s − Et (Yt+s ))(Yt+s − Et (Yt+s ))0 ] = V ar[Yt+s ; Yt+s ]


= Ω + χ1 Ωχ01 + ... + χs−1 Ωχ0s−1

NOTA: El primer término es Ω ya que:

E(εt ) = 0
E(εt ε0t ) = Ω
E(εt ε0s ) = 0; t 6= s

El segundo término es χ1 Ωχ01 por:

E[χ1 εt+s−1 ε0t+s−1 χ01 ] = χ1 E(εt+s−1 ε0t+s−1 )χ01


= χ1 Ωχ01

Página 39 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Ahora, supongamos que tenemos un VAR(1),

Yt = m + A1 Yt−1 + εt
(I − A1 L)Yt = m + εt
X∞
Yt = µ+ Ai εt−1
i=0

donde µ = (I − A1 L)−1 m = (I − A1 )−1 m y los Ai corresponden a las χi de la Descomposición de Wold.

Por lo tanto,

E[(Yt+s − Et (Yt+s ))(Yt+s − Et (Yt+s ))0 ] = V ar[Yt+s ; Yt+s ]


= Ω + A1 ΩA01 + ... + A1s−1 Ω(A1s−1 )0

Luego, para s → ∞, tendremos que la expresión Ŷt+s de la predicción será igual a µ.


¿Por qué? Porque χs = As1 y vemos que cuando s → ∞, los A se van a infinito (tiene valores propios menores a 1).

PROPUESTO: Ver esta misma expresión analizada pero para el caso de VAR(2): Yt = m + A1 Yt−1 + A2 Yt−2 + εt

15.2. Descomposición de la Varianza del E.P.


Sea
 
w11 0 ··· 0
 0 w22 ··· 0 
Ω =  .
 
.. .. ..
 ..

. . . 
0 ··· 0 wkk

Luego, tendremos que


(s) (s) (s)
χs = [χ1 , χ2 , χ(s)
q , χk ]
k
X
χq Ωχ0q = wii χqii χqii
i=1

Ası́,

χ0 = I = [e1 , e2 ...., ek ]
 
1
0
 
con e1 = 0. Y ası́ sucesivamente con los otros ei .
 
 .. 
.
0

Ahora, sea el siguiente VAR(1)


Yt = m + AYt−1 + εt
Esto es lo que llamamos VAR reducido. Ahora, veremos el VAR estructural (SVAR(p)).

Caso sencillo: k = 2.

y1t = γ10 + β12 Y2t + γ11 Y1,t−1 + γ12 Y2,t−1 + ε1t


y2t = γ20 + β21 Y1t + γ21 Y1,t−1 + γ22 Y2,t−1 + ε2t

Página 40 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

σ12
   
0 ε1t
con E(ε1 ε02 ) = 0, E(εt ε0t ) = D = y εt =
0 σ22 ε2t
Ası́,

BYt = γ0 + Γ1 Yt−1 + εt
     
1 β12 γ10 γ11 γ12
Con B = , γ0 = , Γ1 =
β21 1 γ20 γ21 γ22
Y este es el caso de un VAR estructural de orden 1. Ası́,

BYt = γ0 + Γ1 Yt−1 + εt ∼ SV AR(1)

En general, para SVAR(p):


BYt = γ0 + Γ1 Yt−1 + ... + Γp Yt−p + εt + CXt

Luego, tendremos que:

(B − Γ1 L)Yt = γ0 + εt
Yt = [B(L)]−1 γ0 + [B(L)]−1 εt

donde [B(L)] = (B − Γ1 L). Ademas, podemos considerar que [B(L)]−1 γ0 = [B(1)]−1 γ0 = a0

Ahora,

(B(L))−1 = (B − Γ1 L)−1
= [B(I − B −1 Γ1 L)]−1
= (I − B −1 Γ1 L)B −1
= (I + B −1 Γ1 L + (B −1 P1 )2 L2 + ...)B −1

PERO, tenemos algo más fácil:

Yt = [B(L)]−1 γ0 + [B(L)]−1 εt
Yt = [B(L)]−1 γ0 + χ(L)εt

Lo que haremos es lo siguiente. Calculemos B −1 .


Tenemos que |B| =
6 0, 1 − β12 β21 6= 0. Ası́,

Yt = B −1 γ0 + B −1 ΓYt−1 + B −1 εt = a0 + A1 Yt−1 + µt

Finalmente,
Yt = a0 + A1 Yt−1 + µt
Y tengo un VAR reducido.

Página 41 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

16. Modelos SVAR(p)


16.1. Representación MA de SVAR(p)

Yt = a0 + A1 Yt−1 + µt
(I − A1 L)Yt = a0 + µt
Yt = (I − A1 )−1 a0 + (A(L))−1 µt
P∞
con (A(L))−1 = χ(L), donde acá tenemos la restricción de Wold reducida, con χ(L) = k=0 χk Lk .

Acá podemos escribir, Yt+s = f (χs ), luego,


(s)
∂Yt+s,1 ∂χ1,1
=
∂µit ∂µit
P∞
Con la descomposición de Wold reducida, definimos Θ(L) = θs Ls = χ(L)B −1 = (χs Ls )B −1 = s=0 (χs B −1 )Ls .
P P
Ası́, para un SVAR(1)

Θs = χs B −1 = As1 B −1
Θ0 = χ0 B −1 = B −1
Θ1 = A1 B −1
Θ2 = A21 B −1

Luego, para k = 2,
! ! !
    (0) (0)  (1) (1)  (s) (s) 
Y1t µ1 θ11 θ12 ε1t θ11 θ12 ε1,t−1 θ11 θ12 ε1,t−s
= + (0) (0) + (1) (1) + ... + (s) (s)
Y2t µ2 θ21 θ22 ε2t θ21 θ22 ε2,t−1 θ21 θ22 ε2,t−s
!
(0) (0)    
θ11 θ12 1 b12 1 1 −b12
con (0) (0) = Θ0 = B −1 6= I2 y B = , B −1 =
θ21 θ22 b21 1 1 − b12 b21 −b21 1

Y acá tenemos la representación MA, que llamaremos SM A(∞). ¿Cuándo se puede hacer esto? Cuando es estable
(estacionario).

Luego,
(s) ∂Y1,t+s
θ11 =
∂ε1,t
(s) ∂Y1,t+s
θ12 =
∂ε2,t
(s) ∂Y2,t+s
θ21 =
∂ε1,t
(s) ∂Y2,t+s
θ22 =
∂ε2,t
Y estos son los multiplicadores de impacto dinámico.

Cuando se grafican estos 4 términos (4 gráficos), obtenemos las funciones de impulso-respuesta.

¿Cuánto valen en el largo plazo? (Coeficiente de Impacto Dinámico de Largo Plazo en el componente i, j)
(s)
lı́m θ =0
s→∞ ij

Página 42 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

También tenemos un coeficiente de impacto dinámico acumulativo, que viene dado por:

(s)
X
θ11 = Θ11 (1)
s=0
 
θ11 (L) θ12 (L) P∞ (s)
donde Θ(L) = , θij (L) = s=0 θij Ls
θ21 (L) θ22 (L)

16.2. Descomposición de Errores de Predicción


Sea
e.p. : Yt+s − Ŷt+s|t = µt+s + χ1 µt+s−1 + ... + χs−1 µt+1
= Σ0 εt+s + Σ1 εt+s−1 + ... + Σs−1 εt+1
NOTA: Es importante pasar de µ a ε ya que éstos últimos tienen la propiedad que no se correlacionan entre sı́.

Luego, calculemos la varianza de este error de predicción:


V ar(e.pt+s,1 ) = V ar[Y1,t+s − Y1,t+s|t ]
(0) (1) (s−1) 2 (0) (1) (s−1) 2
= σ12 [(σ11 )2 + (σ11 )2 + ... + (σ11 ) ] + σ22 [(σ12 )2 + (σ12 )2 + ... + (σ12 ) ]
= σ12 (s)
Ası́,
(0) (1) (s−1) 2 (0) (1) (s−1) 2
σ22 (s) = σ12 [(σ21 )2 + (σ21 )2 + ... + (σ21 ) ] + σ22 [(σ22 )2 + (σ22 )2 + ... + (σ22 ) ]
Luego,
(0) (1) (s−1) 2
σ12 [(σ21 )2 + (σ21 )2 + ... + (σ21 ) ]
ρ11 (s) =
σ12 (s)
Y esto es la proporción de la varianza de los e.p. que están desde perı́odo t + 1 a t + s que se pueden adscribir a shocks
estructurales de tipo I en ese perı́odo de tiempo.

16.3. Estimación
Modelos estructurales tienen DEMASIADOS PARÁMETROS no identificados, por ende, no se pueden estimar (Este
es el problema de los modelos estructurales).

¿Qué hacemos?
 
1 b12
1. Poner restricciones: B = , b12 = 0, b12 + b21 = 1
b21 1
2. Descomposición de Cholesky

Definición: Matriz A es definida positiva ssi ∀z 6= 0: z 0 Az > 0, z 0 Az ≥ 0

Cholesky:
 Si A es A = P P 0 con P matriz triangular inferior (todo lo que está de la diagonal para arriba es 0),
p11 0
P =
p21 p22
Esta matriz P debe cumplir con: p11 ≥ 0 y p22 ≥ 0 (esto para semi-definido positivo, si A es definida positiva,
entonces es mayor que 0 estricto).
NOTA: Otra particularidad, es que esta descomposición (A = P P 0 ) no es única con A semi-definida positiva.

Descomposición de Cholesky    
1 0 λ11 0
La descomposición será Ω = P P 0 = T ΛT 0 con T = .Λ= , con ambos λ ≥ 0.
t21 1 0 λ22

Página 43 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Versión reducida del SVAR(2):


El SVAR estructural está dado por: BYt = γ0 + Γ1 Yt−1 + εt .
Luego, el VAR reducido será: YT = a0 + A1 Yt−1 + µt . Con ello,

V ar(ut ) = Ω = T ΛT 0
 
1 0
T −1 =
−t21 1
T −1 Yt = T −1 a0 + T −1 A1 Yt−1 + T −1 µt
B̃Yt = γ̃0 + Γ̃1 Yt−1 + ε̃t

con T −1 µt = ε̃t . Luego,

V ar(ε̃t ) = V ar(ε̃t )
0
= E[T −1 µt µ0t T −1 ]
0
= T −1 E(µt µ0t )T −1

pero, E(µt µ0t ) = Ω, luego


0
T −1 T ΛT 0 T −1 = Λ

Finalmente,
 
λ11 0
V ar(ε̃t ) = Λ=
0 λ22
 
−1 1 0
B̃ = T =
−t21 1

OJO: Como esta descomposición NO es única, decimos que son seudo-estructurales el modelo B̃Yt = γ̃0 + Γ̃1 Yt−1 + ε̃t .

17. Regresiones Aparentemente No Relacionadas (Modelos SUR)


Tenemos el siguiente modelo:

Y1 = X1 β1 + ε1
Y2 = X2 β2 + ε2
..
.
Ym = Xm βm + εm

En general, vamos a suponer que: E(εi ) = 0 y E(εi ε0j ) = σij IT y E(εit εjs ) = σij si t = s y E(εit εjs ) = 0 si t 6= s
    
X1 0 ··· 0 β1 ε1
 0
 X2 ··· 0   β2   ε 2 
Y1 Y2 ... Ym =  .   ..  +  .. 
   
.. .. ..
 .. . . .  .   . 
0 ··· 0 Xm βm εm

Ası́, tendremos el modelo:


Y = Xβ + ε

Página 44 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Luego,

E[εε0 ] = V
ε1 ε01 ε1 ε02 ε1 ε0m
    
 ε1  ···
 ε2 ε01 · · · ε2 ε0m 
 
 ε 2  ···
 

E  .  ε01 ε02 ... 0
εm = E .
   
.. .. .. 

  ..  
  .. . . . 
 
εm εm ε01 · · · ··· εm ε0m
 
 
σ11 IT σ12 IT ··· σ1m IT
 σ21 IT σ22 IT ··· σ2m IT 
=  .
 
.. .. ..
 ..

. . . 
σm1 IT σm2 IT ··· σmm IT
 
ε1
 ε2 
NOTA:  .  ∈ MmT ×1 .
 
 .. 
εm
Ahora,
  

 ε11 

 ε12 
 

0

E(ε1 ε2 ) = E  .  21 ε ε ... ε
 
22 2T

  ..  

 
ε1T
 
 
E(ε11 ε21 ) 0 ··· 0
 0 E(ε 12 ε22 ) · ·· 0 
= 
 
.. .. . .. .. 
 . . . 
0 ··· 0 E(ε1T ε2T )
 
σ12 0 ··· 0
 0 σ12 ··· 0 
= 
 
.. .. .. .. 
 . . . . 
0 ··· 0 σ12

y acá E(ε11 ε22 ) = 0, E(ε11 ε2T ) = 0 y ası́ porque son de distinto tiempo.

Recordar que E(εij εjs ) = σij si t = s pero E(εij εjs ) = 0 si t 6= s.

17.1. Producto de Kronecker

 
a11 B a12 B ··· a1m B
 .. .. .. .. 
 . . . . 
A⊗B = 
 . ..

.. 
 .. ..
. . . 
am1 B am2 B ··· amm B

con A ∈ Mm×n y B ∈ Mp×q y A ⊗ B ∈ Mmp×nq .

Página 45 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Con ello, antes tenı́amos que:


 
σ11 IT σ12 IT ··· σ1m IT
 σ21 IT σ22 IT ··· σ2m IT 
V =  .
 
.. .. ..
 ..

. . . 
σm1 IT σm2 IT ··· σmm IT
X
= ⊗IT
X
= σij , i, j = 1, 2, ..., m
ij

Propiedades del Producto de Kronecker


1. (A ⊗ B)0 = A0 ⊗ B 0
2. (A ⊗ B)−1 = A−1 ⊗ B −1

3. (A ⊗ B)(C ⊗ D) = (AC) ⊗ (BD)


NOTA: Esto se cumple si coinciden las dimensiones.
4. A ⊗ (B + C) = (A ⊗ B) + (A ⊗ C)
5. (A + B) ⊗ C = (A ⊗ C) + (B ⊗ C)

Volviendo al SUR:

Y = Xβ + ε
0
E(εε ) = V = Σ ⊗ IT 6= λImT ×mT
β̂M CG = (X 0 V −1 X)−1 X 0 V −1 Y

Se demostró que β̂M CG es insesgado, bajo la condición de que f (ε) = f (−ε) (error sea simétrico).

Con respecto a σ̂ij ,

e01 e1
σˆ11 = s11 =
T − k1
e0 e2
σˆ22 = s22 = 2
T − k2
Por ende, Zellner demostró que el siguiente estimador es consistente:
PT
e0i ej t=1 eit ejt
σ̂ij = sij = =
T T
Ahora, calculemos con MCO:

ei = Yi − Xi β̂i(M CO) ; β̂i(M CO) = (Xi0 Xi )−1 Xi0 Yi

Ahora, calculemos esto pero por Mı́nimos Cuadrados Generalizados (MCG):

ei = Yi − Xi β̂i(M CG)

*Este residuo debiera ser un mejor residuo que el anterior, y podrı́amos tener:

ˆij ẽ0i ẽj ˆ


σ̂ = =⇒ V̂
T
ˆ ˆ ˆ
β̂M CGF = (X 0 V̂ −1 X)−1 X 0 V̂ −1 Y

Página 46 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Y ası́ sigo... ¿Hasta cuándo? Hasta que esto converja.


Esto se llama SUR iterado.
Ojo que ε ∼ N (0, V ).

Ejemplo:
Sea Y = Xβ + ε, tenemos que V = P P 0 . Supongamos que premultiplicamos por P −1 ,

Y ∗ = X ∗ β + ε∗

Esto si podemos estimarlo por MCO.


0 0
β̂M CO = (X ∗ X ∗ )−1 X ∗ Y ∗ = (X 0 V −1 X)−1 X 0 V −1 Y

El cual el último es MCG.


P
El problema acá: No conocemos ( )ij = σij . Con ello, Zellner realizó un modelo para encontrar σ̂ij .
Dice que,
e0 ej
σ̂ij = i
T
donde ei , ej son los residuos obtenidos por MCO.
Esto produce estimadores asintóticamente eficientes.

Modelo:

Y1 = X1 β1 + ε1
Y2 = X2 β2 + ε2
..
.
Ym = Xm βm + εm

2 casos interesantes:
Cuando los errores εi están prácticamente nada correlacionadas, entonces podemos estimar cada ecuación por
separada por MCO.
Cuando los Xi son todos iguales, entonces estimar el β̂M CG será lo mismo que estimar por separado cada ecuación
por MCO (independiente de que los errores estén correlacionados).

OJO:
X−1 X−1
β̂M CG = [X 0 ( ⊗IT )X]−1 X 0 ( ⊗IT )Y
X−1
V ar(β̂M CG ) = [X 0 ( ⊗IT )X]−1

Vamos a demostrar los 2 casos interesantes:


1. CASO 1: σij = 0, i 6= j.
 0   σ 11 I σ 12 IT ··· σ 1m IT
 
X1 0 ··· 0 T X1 0 ··· 0
0 X20 ··· 0  .. 
0 X2 ··· 0
··· . ··· ··· 

X 0 Σ−1 ⊗ IT X
 
=  .
  
.. .. ..   .. .. .. ..
 .. ..
 
. . . ··· ··· . ···  . . . . 
0
0 0 ··· Xm σ m1 IT σ m2 IT ··· σ mm
IT 0 0 ··· Xm

Página 47 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Ahora, imponemos σij = 0


 0
σ 11 IT
  
X1 0 ··· 0 0 ··· 0 X1 0 ··· 0
0 X20 ··· 0  0 σ 22 IT ··· 0  0 X2 ··· 0 
X 0 Σ−1 ⊗ IT X

=
   
 .. .. .. ..   .. .. .. ..   .. .. .. .. 
 . . . .  . . . .  . . . . 
0
0 ··· 0 Xm 0 ··· 0 σ mm IT 0 ··· 0 Xm
 0   11 
X1 0 ··· 0 σ IT X1 0 ··· 0
0 X20 ··· 0   0 σ 22 IT X2 · · · 0 
=  .
  
.. .. ..   .. .. . .
 .. . . 
. . .   . . . . 
0 mm
0 ··· 0 Xm 0 ··· 0 σ IT Xm
 11 0 
σ X1 X1 0 ··· 0
 0 σ 22 X20 X2 · · · 0 
= 
 
.. .. .. .
.. 
 . . . 
0
0 ··· 0 σ mm Xm Xm

Ahora, calculamos [X 0 ( ⊗IT ) X]−1


P

σ11 (X10 X1 )−1


 
0 ··· 0
−1
 0 σ22 (X20 X2 )−1 ··· 0 
[X 0 (Σ ⊗ IT ) X] =
 
 .. .. .. .. 
 . . . . 
0
0 ··· 0 σmm (Xm Xm )−1

OJO: Podemos invertir cada (Xi0 Xi )−1 ya que cada Xi tiene rango completo (esto ya que se cumplen todos los
postulados vistos en cursos pasados), en otros términos, no hay multicolinealidad perfecta.
NOTA: (σii )−1 = σ ii , por ende, si σij = 0, entonces, σ ij = 0.

Ahora, resolveremos la otra parte que nos falta X 0 Σ−1 ⊗ IT Y




 11 0 
σ X1 Y1
22 0
 σ X2 Y2
 
0 −1

X Σ ⊗ IT Y = 

.. 
 . 
0
σ mm Xm Ym

Ahora, multiplicando los dos términos:

(X10 X1 )−1 X10 Y1


 
 (X20 X2 )−1 X20 Y2 
β̂M CG = 
 
.. 
 . 
0
(Xm Xm )−1 Xm
0
Ym
 
β̂1M CO
 β̂2M CO 
= 
 
.. 
 . 
β̂mM CO

Por lo tanto, se demuestra que es equivalente hacer el β̂M CO a estimar cada ecuación por separado con MCO.
2. CASO 2: Ahora, supongamos que X1 = X2 = ... = Xm = X̄,
 
X̃ 0 · · · 0
 0 X̃ · · · 0 
X=. ..  = IM ⊗ X̃
 
.. ..
 .. . . .
0 ··· 0 X̃

Página 48 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

β̂ = [X 0 (Σ−1 ⊗ IT )X]−1 X 0 (Σ−1 ⊗ IT )Y


= [(IM ⊗ X̃)0 (Σ−1 ⊗ IT )(IM ⊗ X̃)]−1 (IM ⊗ X̃)0 (Σ−1 ⊗ IT )Y
= [(IM ⊗ X̃ 0 )(Σ−1 ⊗ IT )(IM ⊗ X̃)]−1 (IM ⊗ X̃ 0 )(Σ−1 ⊗ IT )Y
= [(IM Σ−1 IM ) ⊗ X̃ 0 IT X̃]−1 [(IM Σ−1 ) ⊗ (X̃ 0 IT )]Y
= [Σ−1 ⊗ X̃ 0 X̃]−1 [Σ−1 ⊗ X̃ 0 ]Y
= [Σ ⊗ (X̃ 0 X̃)−1 ][Σ−1 ⊗ X̃ 0 ]Y
= [IM ⊗ (X̃ 0 X̃)−1 X̃ 0 ]Y
 0 −1 0
···
   
(X̃ X̃) X̃ 0 0 Y1 β̂1M CO
0 −1 0
 0 (X̃ X̃) X̃ ··· 0   Y2   β̂2M CO 
  ..  
    
 .. . .. .. .. .. 
= 
 . . .   .
  
 =  . 

. .. .. ..  .   .
.. . .
 
 . . .   .   . 
0 −1 0 YM
0 ··· 0 (X̃ X̃) X̃ β̂mM CO
Queda demostrado. Y esto se parece al VAR. Al final, el VAR es un caso particular del SUR donde se cumple
que X1 = X2 = ... = X̃

18. Ecuaciones Simultáneas


Tenemos el siguiente modelo:
BYt + CXt = εt
Veamos algo de notación:
Vamos a analizar ecuaciones simultáneas con G ecuaciones, donde G también es el número de variables endógenas en
el sistema.
Por otro lado, k será el número de variables predeterminadas (o sea, exógenas + exógenas rezagadas + endógenas
rezagadas).
Finalmente, t = 1, ..., T .

Con esto, B ∈ MG×G , por ende, existe B −1 (es decir, det(B) 6= 0). Luego, C ∈ MG×k , Yt ∈G×1 , Xt ∈ Mk×1 y
εt ∈ MG×1 .

Luego,
 
β11 β12 ... β1G
 β21 β22 ... β2G 
B =  .
 
.. .. .. 
 .. . . . 
βG1 βG2 ... βGG
 
γ11 γ12 ... γ1k
 γ21 γ22 ... γ2k 
C =  .
 
.. .. .. 
 .. . . . 
γG1 γG2 ... γGk
     
Y1t X1t ε1t
 Y2t  X2t   ε2t 
Yt =  .  , Xt =  .  , εt =  . 
     
 ..   ..   .. 
YGt Xkt εGt
Analizando la ecuación, si aplicamos transpuesta:
Yt0 B 0 + Xt0 C 0 = ε0t
Y B 0 + XC 0 = ε

Página 49 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Y10
   0  0
X1 ε1
 Y20   X20   ε02 
 ..   ..   .. 
     
 .   .   . 
donde Y =  0 
  , X =  0
  ,ε=
 ε0t 

Y
 t X
 t  
 .   .   . 
 ..   ..   .. 
0 0
YT T ×G XT T ×k ε0T T ×G

Ejemplo: Oferta-Demanda
Y1t + β12 Y2t + γ11 = ε1t : Demanda
β21 Y1t + Y2t + γ21 = ε2t : Of erta
Dado lo que conocemos de Oferta-Demanda, tenemos que β12 > 0, γ11 < 0.

Veamos cuales son las matrices B y C:


 
1 β12
B =
β21 1
 
Y1t
Yt =
Y2t
Xt = 1 ∀t
 
γ11
C =
γ21

OJO: ¿Por qué no aparecen β11 y β22 ? Al poner que son igual a 1, imponemos la Condición de Normalización.

¿Cómo resolvemos?

BYt + CXt = εt
BYt = −CXt + εt /B −1
B −1 BYt = B −1 (−CXt ) + B −1 εt
Yt = πXt + vt

donde π = −B −1 C ∈ MG×k .
Notar que el sistema Yt = πXt + vt corresponde a un SUR con (X1 = X2 = ... = Xm ).

Luego, las ecuaciones reducidas serı́an:

Y1t = π11 X1t + π12 X2t + ... + π1k Xkt + v1t


..
.
Yit = πi1 X1t + πi2 X2t + ... + πik Xkt + vit

OJO: Recordar que εt ∼ iid(0, ), vt ∼ iid(0, Ω), Ω = B −1 (B −1 )0 .


P P

Y como lo vimos, esto se estima por MCO ecuación por ecuación.


 
π11
Continuando el ejercicio, tendremos que π ∈ M2×1 , o sea, π = .
π21
¿Cuántas incógnitas tiene el modelo? Tiene 4 (los β y γ). Todos estos son parámetros estructurales. PERO, por MCO
somos capaces de estimar solo dos π11 , π21 .
Luego, tenemos el mismo problema en el cual tenemos infinitas soluciones y por ende, el modelo como está ası́ plan-
teado, no lo podemos estimar. Tenemos un sistema sub identificado, tenemos más incógnitas (son 4) que coeficientes
reducidos (que son 2).

Página 50 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Vamos a imponer una serie de restricciones para que el sistema pueda estar bien identificado y por ende, pueda ser
estimado.
Para ello, ocuparemos como ejemplo el siguiente modelo:

Y1t + β12 Y2t + γ11 X1t + γ12 X2t = ε1t : Demanda


β21 Y1t + Y2t + γ21 X1t + γ23 X3t + γ24 X4t = ε2t : Of erta

Igual que antes, identifiquemos las matrices:


 
1 β12
B =
β21 1
 
γ11 γ12 0 0
C =
γ21 0 γ23 γ24

Ahora, tenemos 7 incógnitas estructurales por estimar, dos correspondientes a las variables endógenas (β12 , β21 ) y 5
correspondientes a las variables predeterminadas (γ11 , γ12 , γ21 , γ23 , γ24 ).

Veamos ahora π:
 
−1 π11 π12 π13 π14
π = B C=
π21 π22 π23 π24 2×4

Y acá tenemos un sistema sobre identificado, puesto que tenemos 8 coeficientes reducidos (los π) para estimar las
7 incógnitas estructurales.

Luego,

det(B) = ∆ = 1 − β12 β21


 
1 1 −β12
B −1 =
∆ −β21 1

NOTA: Acá también estamos en el caso donde X1 = X2 = ...Xm , puesto que tenemos el sistema reducido Yt = πXt +vt .

Resolviendo el sistema:
 
1 (−γ11 + β12 γ21 ) −γ12 β12 γ23 β12 γ24
π =
∆ (β21 γ11 − γ21 ) β21 γ12 −γ23 −γ24

Finalmente,
π22
β21 = −
π12
π13 π14
β12 = − =−
π23 π24
Este método se llama Mı́nimos Cuadrados Indirectos.
NOTA: Estos valores son resultados poblacionales.

OJO: Notar que acá en el ejercicio te dan los valores de todos los π, por lo tanto, con ello podremos encontrar fácil-
mente los valores de β y γ.

¿Qué ocurre a nivel muestral?

π̂22
β̂21 = −
π̂12
π̂13 π̂14
β̂12 = − =−
π̂23 π̂24

Página 51 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

PERO acá hay un problema, tendremos que β̂12 será igual a esos dos valores, que prácticamente NUNCA serán iguales,
π̂13 π̂14
o sea, − 6= − , y esto ocurrió ya que el modelo está sobre identificado.
π̂23 π̂24
El método de Mı́nimos Cuadrados Indirectos no es bueno cuando hay más parámetros reducidos que parámetros es-
tructurales (modelo sobreidentificado), por lo que ocurre a nivel muestral.

Esto nos enseña que necesitamos restricciones para las matrices B y C para obtener que el modelo esté exactamente
identificado y ası́ poder ocupar sin problemas el método de MCI. Para ello, veremos próximamente distintos tipos de
restricciones.

RESUMEN:

Cuando el modelo está exactamente identificado podemos ocupar MCI y MC2E (y serán iguales de hecho)
Cuando el modelo está sobre identificado, tendremos que ocupar MC2E (ya vimos que con MCI no funciona).
Cuando el modelo está sub identificado, NO podremos ocupar ningún método para estimarlo.

18.1. Condiciones de Identificación


Nuestro sistema estructural es:
BYt + CXt = εt
 
 Yt
B C = εt
Xt
AZt
= εt
 
α1
   α2 
 Yt
con A = B C y Zt = y además, tendremos que: A =  .  y además,
 
Xt  .. 
αG

α1 = β11 β12 ... β1G γ11 γ12 ... γ1k
con G + k incógnitas en las j-ésimas ecuaciones.

Primera ecuación:
α1 Zt = εt :
 
0
0
 
1
Impondremos la restricción: β13 = 0, es decir, α1 0 =0
 
 
 .. 
.
0 (G+k)×1
Supongamos que tenemos otra restricción homogénea: β11 = β12 . ¿Cómo la escribimos con la notación?
 
1
−1
 
0
α1  0  = 0
 
 
 .. 
 . 
0

Página 52 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Luego, podemos definir:  


0 1
0 −1
 
1 0 
 
Φ(1) = 0 0 
 
 .. .. 
. . 
 
0 0 
0 0 (G+k)×r
1

Esto lo denominamos Matriz de restricciones a priori.


Con r1 : número de restricciones a priori que existe en la ecuación 1. Ası́,

α1 Φ(1) = 0

Pero, estas restricciones a priori vienen de la teorı́a. Tenemos otras restricciones que vienen de la Matemática:

π = −B −1 C
Bπ + C ≡ 0

Vamos a unir estas restricciones matemáticas a las restricciones a priori.

Y definimos:  
0 1
0
 −1 
1 0
 
Φ(1) = 0 0


 .. .. 
. . 
 
0 0
0 0 (G+k)×r
1

Ası́, tendremos restricciones:

Lineales: Rβ = r
Homogéneas: Ejemplo 5β14 − 3γ13 + γ1,10 = 0
Exclusión: Ejemplo βij = 0, γij = 0
OJO: No abarca restricciones como: 2β12 − 5γ23 = 0 no coincide primer sub-indice (1 6= 2).

Identidades:
a) α1 Φ(1) ≡ 0
b) π ≡ −B −1 C, entonces,  
 π
Bπ + C ≡ 0 ⇐⇒ B C ≡ 0 ⇐⇒ Aw ≡ 0
IK
Y por ende, α1 w = 0.
Desarrollemos esto,

α1 w Φ(1) = 0

Luego, α1 ∈ M1×(G+K) , w Φ(1) ∈ M(G+K)×(K+R(1) ) . Ası́, tenemos K + R(1) ecuaciones y G + K incógnitas.

Página 53 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Teorema:
Sea M x = 0, sistema con m ecuaciones y n incógnitas con r(M ) ≤ mı́n(m, n), entonces, tendremos que:

r(M ) + n(M ) = 0

con r() el rango y n() la nulidad.


NOTA: Nulidad es la dimensión del espacio nulo. El espacio nulo es n(M ) = {x : M x = 0}.
Luego, vamos a querer que esta nulidad sea igual a 1. ¿Por qué? Porque quiero que mi espacio de soluciones sea una
recta, y por ende, haya una solución única. O sea, fijo un β e impongo una Condición de Normalización.
OJO que r(M ) = n − 1.

Con el teorema anterior en mente, tendremos lo siguiente.

TEOREMA DE RANGO: 
r w Φ(1) = (G + K) − 1
Si se cumple esto, la ecuación 1 está identificada
(OJO que esto puede ser perfectamente identificada o sobre-indentificada, pero lo importante es que se puede estimar
de forma unı́voca).

Condición de Orden:
G + K − 1 ≤ K + R(1)
G − 1 ≤ R(1)
Con esto, vemos que siempre será necesario tener restricciones.

Caso particular: Todas las R(1) son sólo restricciones de exclusión. Notación: Sea gi número de restricciones endógenas
incluidas en la ecuación 1 y k1 número de restricciones predeterminadas incluidas en la ecuación 1.
Luego, R(1) = (G − g1 ) + (K − k1 ). Por lo tanto,

(G − g1 ) + (K − k1 ) ≥ G − 1

(K − k1 ) ≥ g1 − 1

Por otro lado, tenemos un teorema que es equivalente al Teorema de Rango que enunciamos. Dice lo siguiente:
Teorema:
r[A · Φ(1) ] = G − 1

EJEMPLO:

β11 Y1t + β12 Y2t + γ11 X1t + γ12 X2t = ε1t


β21 Y1t + β22 Y2t + γ21 X1t + γ22 X2t = ε2t

Pregunta: Ecuación 1 está identificada? NO, faltan restricciones.


Continuación del enunciado del ejemplo: Las restricciones serán:

γ11 = γ22 = 0

Página 54 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Luego,
 
0 0
0 0
Φ(1) = 
1

0
0 1
 
  0 0
β11 β12 γ11 γ12 0 0
A · Φ(1) =  
β21 β22 γ21 γ22 1 0
0 1
   
γ11 γ12 0 0
= =
γ21 γ22 γ21 γ22

¿Rango de la última matriz? Es 1. La cual coincide con G − 1 dado que G = 2. Estamos BIEN.

RECORDAR: Cuando R(1) = G − 1 se dice que la ecuación 1 está exactamente identificada. Y cuando R(1) > G − 1
se dice que la ecuación 1 está sobre-identificada.

Luego, la primera ecuación será:


 
π11 π12 0 0
 π21 π22 0 0 
β11 β12 γ11 γ12  1
 = 0 0 0 0
0 1 0
0 1 0 1
β11 π11 + β12 π21 + γ11 = 0
β21 π12 + β12 π22 + γ12 = 0
γ11 = 0
γ12 = 0

Ası́, tendremos que:

π11 + β12 π21 = 0


π12 + β12 π22 = 0
π11 π12
Acá, tendremos un sistema sobre-identificado ya que tenemos: β12 = − =− .
π21 π22
Luego,
 
1 β12 γ21 β12 γ22
π = −B −1 C =
∆ −γ21 −γ22
 
π11 π12 0 0
π21 π22 0 0
Lo cual da igual a 0. Por lo tanto, π no tiene inversa. O sea, todo nace de que 
 1
 no tiene rango 4
0 1 0
0 1 0 1
sino que rango G + k − 1 = 3. Ası́, podremos estimar esto pero no por MCI.

RESUMEN - Identificación:

1. R W Φ(i) = G + K − 1

2. R[A · Φi ] = G − 1
OJO: 1. y 2. son equivalentes.
3. R(1) ≥ G − 1, donde K − ki ≥ gi − 1

Página 55 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Restricciones
1. Identidades:

Ejemplo:

qD = α0 + α1 p + ε1
O
q = β0 + β1 p + β 2 w + ε 2
D
q ≡ qO

Las endógenas son: q D , q O , p, o sea, G = 3. Al poner la tercera ecuación, hacemos que el modelo esté exactamente
identificado.

(No vamos a entrar mucho en detalle en esto, ver en libros).

2. Restricciones entre ecuaciones:


Hay que analizar la identificabilidad de las dos ecuaciones donde aparece la interrelación.

Ejemplo:

Y1 + β12 Y2 + γ11 X1 = ε1
β21 Y1 + Y2 + γ21 X1 = ε2
γ11 + γ21 = 0

¿Está exactamente identificado?


Tenemos 3 incógnitas (β12 , β21 y γ11 ), ya sabemos que γ21 está relacionado con γ11 .
Luego, ¿cuántas ecuaciones reducidas hay?

Y1 = π11 X1 + r1
Y2 = π12 X1 + r2

Ası́, tenemos dos parámetros predeterminados. Luego, no podemos estimar, no está identificado. No está identificada
ni la primera ecuación, ni la segunda.

Veamos que hacer: Le agregaremos una restricción adicional.

β12 ≡ 0

Ahora, veamos si ahora está identificado.


Impongamos las 2 restricciones al modelo:

Y1 + γ11 X1 = ε1
β21 Y1 + Y2 + γ21 X1 = ε2
γ11 + γ21 = 0
     
f11 f12 1 0 γ11
Ahora, sea F = Multiplicamos F a AZt = εt , con A = [B; C], B = ,C = . Luego,
 f
 21 f22 β21 1 γ21
1 0 γ11
A=
β21 1 γ21
Ası́,

(f11 + f12 β21 )Y1 + f12 Y2 + (f11 γ11 + f12 γ21 )X1 = ε∗1
(f21 + f22 β21 )Y1 + f22 Y2 + (f21 γ11 + f22 γ21 )X1 = ε∗2

Ecuación (1): @Y2 −→ f12 ≡ 0.


f11 Y1 + f11 γ11 X1 = ε∗1

Página 56 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Y1 + γ11 X1 = ε∗1 /f11 = ε∗∗


1

Ecuación (2):
f21 + f22 β21 f21 γ11 + f22 γ21 ε∗
Y1 + Y2 + X1 = 2 = ε∗∗
2
f22 f22 f22
f22 γ11 f21 γ11 + f22 γ21 f22 (γ11 + γ21 ) + f21 γ11
+ = 0 =⇒ =0
f22 f22 f22
Como γ11 + γ21 = 0,
f21 γ11
= 0 =⇒ f21 ≡ 0
f22
Luego, para que las ecuaciones transformadas sean admisibles, entonces Y2 no puede estar en la primera ecuación,
luego, f12 ≡ 0.

Finalmente,  
f11 0
F =
0 f22

Ahora, si no se quiere hacer de esta forma, hay otra forma de hacerlo.

Escribamos el sistema de ecuaciones reducidas: (acá no hay que transformar nada, primero, despejaremos Y1 e Y2 en
función de las variables predeterminadas).

Y1 = −γ11 X1 + r1
Y2 = (β21 γ11 − γ21 )X1 + r2

Asi,

Y1 = π11 X1 + r1
Y2 = π21 X1 + r2

Ası́, π11 = −γ11 , y ası́,


γ11 (β21 + 1)
Y2 = X1 + r2
π21
Conozco todo y por ende, despejo β21 .
Este método se llama método de primeros principios.

18.2. Estimación
Sistema de Ecuaciones Recursivas
 
1 0
(i) B es triangular inferior, B =
β21 1
 
P P σ11 0
(ii) es diagonal, =
0 σ22

Ejemplo:

Y1 + γ11 X1 = ε1
β21 Y1 + Y2 + γ21 X1 = ε2

Con σ12 ≡ 0, E(ε1 ε2 ) = 0.

Página 57 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Vemos que cuando tengamos un caso ası́, estimaremos por MCO ecuación por ecuación. La primera, es trivial ver que
se puede, la segunda no tanto.

Ecuación (2): Y2 = −β21 Y1 − γ21 X1 + ε2


Esto puede generar problemas ante una eventual correlación de Y1 con el error ε2 . PERO, Y1 depende de ε1 , y como
E(ε1 ε2 ) = 0, entonces tenemos seguridad de que Y1 no estará correlacionado con ε2 y ası́, podemos asegurar que
podemos estimar por MCO la ecuación (2).

MC2E
Sea

y1t = −β12 y2t − β13 y3t − ... − β1g ygt − γ11 x1t − ... − γ1k xkt + ε1t

con g, k número total de variables endógenas y predeterminadas.

y1 = Y1 β + X1 γ + ε1
   
β12 γ11
... −xk T ×k , β =  ...  , γ =  ... 
 
con Y1 = −y2 −y3 ... −yg , X1 = −x1
   
T ×(g−1)
β1g (g−1)×1 γ1k k×1
 
β
Este modelo también se puede escribir como: y = Z1 α + ε1 con α = y Z1 = [Y1 ; X1 ].
γ
Tenemos X = [X1 ; X2 ], luego, la primera etapa será:

Z1 = Xδ + η

con k ≥ g −1+k, el cual es condición necesaria para que la ecuación esté identificada (estimamos esta etapa por MCO).

En la ecuación 1: (Está identificada)

1 · yi = Y1 β + X1 γ + ε = Z1 α + ε
Z1 = [Y1 ; X1 ]; α0 = [β 0 , γ 0 ]
XT ×k = [X1 ; X2 ]
K ≥ g1 − 1 + k1
Z1 = Xδ + ν
δ̂M CO = (X 0 X)−1 X 0 Z1

Donde δ̂M CO ∈ MK×(g1 −1+k1 ) . Luego,


Ẑ1 = X δ̂ = X(X 0 X)−1 X 0 Y
donde PX = (X(X 0 X)−1 X)

Página 58 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Recordar que las 2 etapas son:

Encontrar Ẑ1
MCO: y1 = Ẑ1 α + ν
Finalmente, α̂M CO = (Ẑ10 Ẑ1 )−1 Ẑ10 y1
pero Ẑ1 = PX Z1 , entonces

α̂M CO = [Z10 PX
0
PX Z1 ]−1 Z10 PX
0
y1
0 2 n
pero la matriz de proyección cumple con: PX = PX y PX = PX (por ende, PX = PX ), por lo tanto,

α̂M CO = [Z10 PX Z1 ]−1 Z10 PX y1 = α̂M C2E ≡ α̂M CI

(la última equivalencia se cumple si la ecuación está exactamente identificada).


Luego, V ar(α̂M C2E ) = s2 (Z1 PX Z1 )−1
con s2 estimación consistente de σε1
2
= σ11 ,

(y1 − Z1 α̂M C2E )0 (y1 − Z1 α̂M C2E ))


s2 =
T

MC3E
Requisitos:
Eliminar todas las ecuaciones que no están identificadas.
Eliminar las identidades.
Supongamos que tenemos la ecuación i-ésima que está identificada:
yi = Yi βi + Xi γi + εi = zi αi + εi
con Zi = [Yi ; Xi ], αi0 = [βi0 ; γi0 ]. Multiplico todo por X 0 .
X 0 yi = X 0 Zi αi + X 0 εi
0
E(X εi ) = 0
0
E(X εi ε0i X) = X 0 E(εi ε0i )X = X 0 σii X = σii X 0 X
Ahora, esto lo estimaremos por MCG:
α̂i(M CG) = [Zi0 X(X 0 X)−1 X 0 Zi ]−1 Z10 X(X 0 X)−1 X 0 yi ≡ [Zi0 PX Zi ]−1 Z10 PX yi ≡ α̂M C2E

19. Modelos con Datos de Panel


19.1. Modelos Pooled; Agregado
Nomenclatura:
     1 2 k
  0   
Yi1 Y Xi1 Xi1 ... Xi1 Xi1 X1    
 Yi2   Y2  1
 Xi2 2 k  0  εi1 ε1
Xi2 ... Xi2  Xi2  X2 
 ..   .. 
 ..   ..   .. .. .. ..   ..   .. 
         
 .  .
 .   .   . . . .   .   .     
Yi = 
 Yit  ; Y =  Yi  ; Xi =  X 1
    2 k  =  0 ;X = 
     ; εi =  ..  ; ε = 
 
 ... 

     it Xit ... Xit   Xit   Xi 

 .   
 .   .   . .. .. ..   ..   . 
.
 .  .
 .   .. . . .   .   .. 
   
1 2 k 0 εiT εn
YiT Yn XiT XiT ... XiT XiT Xn
Y estimamos por MCO: Y = Xβ + ε.

Página 59 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Modelos con Efectos Fijos

0
Yit = αi + Xit β + εit

OJO: Efectos aleatorios:

α̃i = α + µ̃it
E(µit ) = 0
E(µ2it ) = σi2
E(µit µis ) = 0; t 6= s
E(µit µjt ) = 0; i 6= j

    
Y1   α1 X1
 Y2  iT 0 0 ... 0  α2   X2 
0 iT 0 ... 0
 ..   ..   .. 
     
 .. .. .. .. 
 
 .  ..  .   . 
 
 Yi  .
=  . . . .    +  β + ε
 .   . 
. .. .. .. ..   ..   .. 
 ..
 
 .  . . . .
 .. 
   
   
0 0 0 ... iT nT ×n
YT αn Xn
 
  iT 0 0 ... 0
1 0 iT 0 ... 0
1  ..

.. .. .. .. 

con iT =  . 
 
.
,yD= . . . . = In ⊗ iT .
.
. . .. .. .. .. 
 .. . . . .
1 T ×1
0 0 0 ... iT
Ası́,
Y = Dα + Xβ + ε
Forma ”carretera”:
 
 α
Y = D X +ε
β
= Wγ + ε : M CO

Pero hay una forma ”más elegante”: Ocuparemos la matriz de proyección M = I − X1 (X10 X1 )−1 X10 para el modelo:

Y = X1 β̂1 + X2 β̂2 + e

Recordar que todas las matrices de proyección cumplen con simetrı́a e idempotente: M 0 = M, M 2 = M .

Con esto, ocuparemos el Teorema de Frisch-Wangh-Lovell:


Multiplicamos todo por M1 , teniendo en cuenta que M1 X1 ≡ 0, M1 e = e.
Obtenemos:

M1 Y = M1 X2 β̂2 + e

Pero esta es la primera parte, ahora voy a multiplicar por X20 a la izquierda:

X20 M1 Y = (X20 M1 X2 )β̂2


β̂2 = (X20 M1 X2 )−1 X2 M1 Y

Esto puede ocurrir ya que (X20 M1 X2 ) ∈ Mk2 ×k2 y por ende existe inversa.

Página 60 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Apliquemos esta ecuación ahora al modelo anterior:

Y = Dα + Xβ + ε

β̂ = (X 0 MD X)−1 X 0 MD Y
OJO: Ver demostración de que (X 0 MD X) tiene inversa, o sea, que es de rango completo. Eso no es trivial.

Analicemos un poco más esto: Sea,

MD = InT − PD = InT − D(D0 D)−1 D0


PD = D(D0 D)−1 D0 = (In ⊗ iT )[(In ⊗ iT ‘)(In ⊗ iT )]−1 (In ⊗ i0t )
= (In ⊗ iT )[(In ⊗ i0T iT ]−1 (In ⊗ i0t )
= (In ⊗ iT )[(In ⊗ T ]−1 (In ⊗ i0t )
1
= (In ⊗ iT ) [In ⊗ 1]−1 (In ⊗ i0t )
T
1
= In ⊗ iT · 1 · i0T
T
1
= In ⊗ J T
T
 
1 1 ... 1
 .. .. .. .. 
. . . .
donde JT = 
. .. ..  Luego,

 .. ..
. . .
1 1 ... 1

1
PD = In ⊗ JT
T
JT
= In ⊗
T
= In ⊗ J¯T

Con esto, volvamos a la matriz MD :

MD = In ⊗ IT − In ⊗ J¯T
= In ⊗ (IT − J¯T )

donde (IT − J¯T ) = EJ .


 
z1
 z2 
Supongamos que tenemos z =  .  , entonces,
 
 .. 
zT J×1

 P 
z1 P zt
 z2  1  zt 
EJ z = (IT − J¯T ) =  .  −  . 
   
 ..  T  .. 
P
zT zt
 
z1 − z̄
 z2 − z̄ 
O sea, ET z =  . .
 
 .. 
zT − z̄

Página 61 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Finalmente,
 
ET 0 ... 0
 0 ET ... 0 
MD = .
 
.. .. ..
 ..

. . . 
0 0 ... ET

Con esto, volvamos a nuestro β̂.

β̂ = (X 0 MD X)−1 X 0 MD Y
  
ET 0 ... 0 Y1
 0 ET ... 0   Y2 
MD Y =  .
  
. .. . . ..   .. 
 . . . .  . 
0 0 ... ET Yn

O sea, lo que estamos haciendo acá es calcular la diferencia contra la media temporal en cada tiempo, es decir,
0
Yit = αi + Xit + εit
0
Ȳi∗ = αi + X¯i∗ β + ε¯i∗
0
(Yit − Y¯i∗ ) = 0
(Xit − X¯i∗ )β + (εit − ε¯i∗ )

O sea, finalmente,

β̂ = [(MD X)0 (MD X)]−1 (MD X)0 (MD Y )

Y por ende, hacemos MCO de MD Y versus MD X.

EJEMPLOS: Modelos con Efectos Fijos (i):


0
Yit = αi + Xit β + εit
0
Yit = γt + Xit β + εit
0
Yit = αi + γt + Xit β + εit

Otro (ii):
0
Ȳi∗ = αi + X̄i∗ β + ε̄i∗
T n n T
1X 1X 1 XX
Z̄i∗ = Zit ; Z̄∗t = Zit ; Z̄∗∗ = Zit
T t=1 n i=1 nT i=1 t=1

Haciendo ahora (i)-(ii):


0 0
(Yit − Ȳi∗ ) = (Xit − X̄i∗ )β + (εit − ε̄i∗ )
Yit∗ ∗
= Xit β + ε∗it

Luego,

Y = Dα̂ + X β̂EF + e
Y − X β̂EF = Dα̂ + e
D0 e = 0
0
D (Y − X β̂EF ) = D0 Dα̂
α̂ = (D0 D)−1 D0 (Y − X β̂EF )
α̂ = (D0 MX D)−1 D0 MX Y

OJO: Y = Dα + Xβ + ε, D = In ⊗ iT .

Página 62 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Sea
0
Yit = αi + Xit β + Zi0 γ + εit
Y = Xβ + Zγ + Dα + ε
Con esto,
H0 : α1 = α2 = ... = αn = α
2 2
RSR − RCR /(n − 1)
HA : F = 2
(1 − RSP )/(nT − n − k)

Modelos con Efectos Aleatorios


Sea,
0
Yit = α̃i + Xit β + εit
α̃i = α + µ̃i
E(µi ) = 0, ∀i
E(µ2i ) = σµ2 ; ∀i
E(µi µj ) = 0, i 6= j
E(εit εjs ) = 0, i 6= jot 6= s
E(εit µj ) = 0
0
E(X ε) = 0
0
E(X µ) = 0
Luego,
wit = εit + µi
wi = εi + µi iT
E(wit ) = 0, E(wi wi0 ) = Ω, E(ww0 ) = V
   
w1 wi1
 w2   wi2 
con w =  .  , wi =  . 
   
 ..   .. 
wn wiT
Con ello, veamos la ecuación de E(wi wi0 ):
E[(εi + µi iT )(ε0i + µi i0T )] = E(εi ε0i + µ2i iT i0T )
= σε2 IT + σµ2 JT
= Ω
Con ello, tendremos que:
β̂M CG ≡ β̂EA = (X 0 V −1 X)−1 X 0 V −1 Y
   −1    
1 1 1 1
= X0 P D + M D X X 0
P D + M D Y
σ12 σε2 σ12 σε2
" +
! #−1 " +
! #
0 σε2 1 0 σε2 1
= X MD X 2 X MD Y 2
σ12 σε σ12 σε
β̂EA = [θ2 X 0 P X + X 0 M X]−1 [θ2 X 0 P Y + X 0 M Y ] = [wxx + θ2 Bxx ]−1 [wxy + θ2 Bxy ]
con ·wxx = X 0 M X: conocido como within (intra), Bxx = X 0 P X: conocido como between (entre). Ası́, wxy = X 0 M Y ,
Bxy = X 0 P Y .

Página 63 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Ası́, modelo con efecto fijo:

β̂EF = (X 0 MD X)−1 X 0 MD Y
V ar(β̂EF ) = s2 (X 0 MD X)−1
e0EF eEF
s2 =
nT − n − k

Pero ahora veamos modelo con efectos aleatorios,

Y = Xβ + w
wit = εit + µi ; t = 1, ..., T
α̃i = α + µ̃i
0
E(ww ) = V = σi2 PD + σε2 MD = IN ⊗ Ω

Vimos que:
1 1
V −1 = PD + 2 M D
σ12 σε
 
−1/2 1 1 1 ¯ 1
V = PD + MD = In ⊗ Ω−1/2 = In ⊗ JT + ET
σ1 σε σ1 σε
Luego,
β̂EA = β̂M CG = (X 0 V −1 X)−1 X 0 V −1 Y = f (θ, X, Y )
σε
con θ = .
σ1
Observación i:

Ω−1/2 /Yi = Xi β + wi
 
1 σ2 ¯
Ω−1/2 = ET + JT
σε σ1
1
ET + θJ¯T
 
=
σε
1
= [IT − J¯T + θJ¯T ]
σε
1
= [IT − (1 − θ)J¯T ]
σε
1
= [IT − cJ¯T ]
σε
Si c = 1, tendrı́amos la fórmula de efecto fijo.
 −1/2   
Ω 0 ... 0 1 1 ... 1
−1/2
 0 Ω ... 0 
 ¯ 1 1 1
 ... 1
Notar que V −1/2 =  . , JT =  .. .. .. , ET = IT − J¯T .
 
. . .. ..
 .. .. .. .  T . . . .
−1/2 1 1 ... 1
0 0 ... Ω
Recordar que w: within, es equivalente al efecto fijo. O sea,

e0w ew
σ̂ε2 =
nT − n − k
son los residuos del modelo de efecto fijo.
O sea, β̂EF = (X 0 MD X)−1 X 0 MD Y = β̂w .

Página 64 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Pero ahora nos falta ver esto para b: between.


Sea Ȳi∗ , X̄i∗ :

Y = Xβ + ε
PD Y = PD Xβ + PD ε
PD = In ⊗ J¯T
MD = InT − PD
V ar(PD ε) = σε2 PD
β̂B = [X 0 PD (σε2 )−1 PD PD X]−1 X 0 PD (σε2 )−1 PD PD Y
= (X 0 PD X)−1 X 0 PD Y

Ahora, estamos acá:


0
Yit = α̃i + Xit β + εit
Y¯i∗ = α + µi + X̄i∗ β + ε̄i∗
M CO : Ȳi∗ vs.X̄i∗ ε̄i∗ + µbi : erroresdebetween
σε2
V arµbi = + σµ2 = σµb
2
T
2 e0b eb
σ̂µb =
n−k
¿Cuál serı́a el estimador de µ?

e0b eb 1
σ̂µ2 − σ̂ 2
=
n−k T ε
e0b eb e0w ew
 
1
= −
n − k T nT − n − k

e0b eb e0w ew
 
1
PROBLEMA: Nadie me asegura que >
n−k T nT − n − k
2
σ
OJO con esta igualdad: ε + σµ2 = σµb
2
.
T
Luego,
σε
θ =
σ1
σ12 ≡ T σµ2 + σε2 =⇒ σ12

Test de Hausman

0
Yit = αi + Xit β + Zi γ + εit + µi
W = [X; Z]
w = ε+µ

Las hipótesis que queremos testear son:

H0 : E[W 0 w] = 0
HA : E[W 0 w] 6= 0

Página 65 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Si se da H0 : significa que hay efectos aleatorios (eficiente), efecto fijo (consistente), pooled (consistente). OJO: Pooled,
Between, Within son todos estimadores eficientes, pero el que gana es el de MCG.
OJO: En HA efecto fijo sigue siendo consistente.

Sea,

q̂ = β̂w − β̂EA
= β̂EF − β̂EA

Bajo H0 : p lı́m q̂ = 0 = β − β

También, tendremos que V ar(β̂w − β̂EA ) = V ar(β̂w ) + V ar(β̂EA ) − 2Cov(β̂w , β̂EA ), pero Cov(β̂w , β̂EA ) = V ar(β̂EA )
(esto no lo va a demostrar). Asi,

V ar(β̂w − β̂EA ) = V ar(β̂w ) − V ar(β̂EA ) = Σ

Además, asintóticamente se cumple que:

(β̂EF − β̂EA )0 (Σ̂)−1 (β̂EF − β̂EA ) ∼a χ2 (k)

OJO: En muestras finitas funciona bien este, pero ahora veremos una solución más completa:

Hausman (Asintóticamente equivalente)


Bajo H0 , sean Ỹit , X̃it : las transformaciones de Yit y Xit por EA. Luego,

Ỹit = Yit − cȲi∗


X̃it = Xit − cX̄i∗

Estas corresponden a efecto aleatorio. Ahora, las de efecto fijo:

Ỹ˜it = Yit − cȲi∗


˜
X̃ = Xit − cX̄i∗
it

Ası́, bajo H0 corremos la siguiente regresión:

0
Ỹit = X̃it ˜ 0 γ + ε̃
β + X̃it it

Acá, H0 : γ = 0 y hago un test F de Wald.

20. Modelos con variables dependientes limitadas y categóricas


Modelos Logit y Probit
Tenemos que la variable Yi toma el valor 0 ó el valor 1.

Yi = Xi0 β + εi

Estimar esto por MCO traerá 3 problemas:

1. Heterocedasticidad (que es solucionable)


2. Predicción fuera de rango (esto no es subsanable)
3. εi sólo toma dos valores (ya no tiene distribución normal, por ende, podrı́amos tener problemas al hacer tests)

Página 66 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Veamos la heterocedasticidad:

Yi = 1: εi = 1 − Xi0 β
Yi = 0: εi = −Xi0 β
E(εi |Xi ) = E(εi ) = 0
= (1 − Xi0 β)P [Yi = 1|Xi ] + (−Xi0 β)P [Yi = 0|Xi ]
= (1 − Xi0 β)P [Yi = 1|Xi ] + (−Xi0 β)[1 − P r[Yi = 1|Xi ]]
= P r[Yi = 1|Xi ] − Xi0 β = 0

Entonces,
P r[Yi = 1|Xi ] = Xi0 β
P r[Yi = 0|Xi ] = 1 − Xi0 β
¿Por qué es heterocedástico? Calculemos la varianza:

V ar(εi |Xi ) = E[ε2i |Xi ] − [E(εi |Xi )]2

pero [E(εi |Xi )]2 = 0, entonces,

V ar(εi |Xi ) = (1 − Xi0 β)2 P r[Yi = 1|Xi ] + (Xi0 β)2 P r[Yi = 0|Xi ]
= (1 − Xi0 β)2 (Xi0 β) + (Xi0 β)2 (1 − Xi0 β)
= (1 − Xi0 β)(Xi0 β)

Y acá vemos que hay heterocedasticidad ya que la varianza depende de las variables explicativas.

Pero ya sabemos que esto no es terrible, tenemos métodos para poder subsanar la heterocedasticidad. El problema de
MCO vive en los problemas 2. y 3.

Acá, entra los métodos Logit y Probit que vienen a solucionar esto.

∂F (x)
Xi0 β =⇒ 0 ≤ F (Xi0 β) ≤ 1, f (x) =
∂x
R Xi0 β 1 R Xi0 β
1. Probit: F (Xi0 β) ≡ Φ(Xi0 β) = −∞
φ(z)dz = √ exp(− 21 z 2 )dz.
2π −∞

Caracterı́sticas:
lı́mz→∞ Φ(z) = 1
lı́mz→−∞ Φ(z) = 0
Notar que Φ(z) ∼ N (0, 1).

exp(Xi0 β)
2. Logit: F (Xi0 β) ≡ Λ(Xi0 β) =
1 + exp(X10 β)

exp(Xi0 β)
λ(Xi0 β) = = Λ(Xi0 β)[1 − Λ(Xi0 β)] = P r[Yi = 1|Xi ][1 − P r[Yi = 1|Xi ]]
[1 + exp(Xi0 β)]2

Además, X ∼ Λ2 , E(X) = 0, V ar(X) = π 2 /3 ≈ 3, 28

Logit Generalizada: Tiene una distribución igual a

1
Λ(x, µ, s) = ;s > 0
1 + e−(x−µ)/s

Página 67 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

e−(x−µ)/s
f (x, µ, s) =
s(1 + e−(x−µ)/s )2
π2 2
con E(X) = µ, V ar(X) = s
3
Con µ = 0, s = 1 tenemos Λ normalizada.

Sea
Yi∗ = Xi0 β + εi
con Yi∗ latente y εi ∼ N (0, σ 2 ) y Yi∗ ∼ N (Xi0 β; σ 2 ).
Tendremos como proxy Yi que será 0 ssi Yi∗ > 0 e igual a 1 ssi Yi∗ ≤ 0.
Supongamos que tenemos Yi = 0 con i = 1, 2, ..., m (m datos) y Yi = 1 con i = (m + 1, m + 2, ..., n) (n − m datos).
Calcularemos esto por verosimilitud.
L = L(Yi = y1 , Y2 = y2 , ..., Yi = yi )
Supondremos que los efectos son independientes para cada i. Luego,
P r[Yi = 1|Xi ] = Φ(Xi !‘β)
P r[Yi = 0|Xi ] = 1 − Φ(Xi !‘β)
Luego, dada la independencia, tendremos:
0 0
L = Πm n
i=1 (1 − Φ(Xi β))Πi=m+1 Φ(Xi β)
= Πni=1 Φ(Xi0 β)yi (1 − Xi0 β)1−yi , yi = {0, 1}
Luego,
n
X
L = ln(L) = [yi ln(Φ(Xi0 β))] + (1 − yi ) ln(1 − Φ(Xi0 β))
i=1

Derivamos:
n
∂L X fi fi
= 0= [yi Xi − (1 − yi ) Xi ]
∂β i=1
F i 1 − Fi

∂F (Xi0 β)
con fi = , Fi = F (Xi0 β).
∂β
Desarrollando, tendremos que:
n n
X yi fi Xi (1 − Fi ) − (1 − yi )fi Xi Fi X (yi − Fi )fi Xi
= =0
i=1
Fi (1 − Fi ) i=1
Fi (1 − Fi )

Medidas de Bondad de Ajuste


1. Yi , Ŷi
0 ≤ Ri2 = [Corr(Yi , Ŷi )]2 ≤ 1

2. Effron:
n
X
R22 = 1 − [n (Yi − Ŷi )2 /n1 n2 ]
i=1
P
con n1 = Yi y n2 = n − n1
3. Cragg y Uhler:
2/n 2/n 2/n 2/n
0 ≤ R32 = [LSR − LR ]/{(1 − LR )/LSR } ≤ 1

4. Propiedad de predicciones correctas:


Ŷi ≥ 0,5

Página 68 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Datos Agrupados
Modelo de Probabilidad Lineal

Pi = Xi0 β; i = 1, 2, ..., J
mi
P̂i = ; ni >> 1; ∀i
ni
P̂i ≈ Pi
P̂i = Pi + εi , E(εi ) = 0
mi ∼ B(ni , pi )
V ar(P̂i ) = V ar(εi )
1 ni pi (1 − pi ) pi (1 − pi )
= V ar(mi ) = =
n2i n2i ni
1. MCP (Mı́nimos Cuadrados Ponderados)
r
ni
wi =
pi (1 − pi )
r
ni
ŵi =
p̂i (1 − p̂i )
N
X
mı́n ŵi2 (p̂i − Xi0 β)2
i=1

Ahora, queremos estimar los β, por ello, haremos lo siguiente:


mi ni
r
Iteración: p̂i = . Obtengo β̂(1) y ŵi =
ni p̂i(1) (1 − p̂i(1) )

Modelo Logit

exp(Xi0 β)
Pi =
1 + exp(Xi0 β)
1
1 − Pi =
1 + exp(Xi0 β)
 
Pi
ln = Xi0 β, ni >> 1
1 − Pi
" #  
P̂i Pi
ln = ln + εi
1 − P̂i 1 − Pi
E(εi ) = 0
Series de Taylor (1er orden)
" #    
P̂i Pi 1 − Pi
ln ≈ ln + (P̂i − Pi ) [(1 − Pi )−1 + Pi (1 − P1 )−2 ] + Resto
1 − P̂i 1 − Pi Pi
   
Pi 1 1
≈ ln + (P̂i − Pi ) +
1 − Pi Pi 1 − Pi
Con resto ≈ 0.
Ahora, la varianza será:
" #  
P̂i 1 1
V ar ≈ V ar (P̂i − Pi ) =
1 − P̂i Pi (1 − Pi ) ni Pi (1 − Pi )

Página 69 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Ahora, el Logit con datos agrupados seguimos la pauta:


p
wi = ni pi (1 − pi )
p
ŵi = ni p̂i (1 − p̂i )
N
" #!2
X
2 P̂i 0
mı́n ŵi ln − Xi β
i=1 1 − P̂i

Heckman
PRIMERA ETAPA: Sea Ii que puede tomar los valores 0 y 1.
I1 = 1 ssi Yi∗ ≥ 0 y I1 = 0 ssi Yi∗ ≤ 0. Luego, se estima con probit el ratio hatβ/σ que es consistente para β/sigma.

Se consideran sólo N1 observaciones (Yi ≥ 0).


SEGUNDA ETAPA:

E[Yi |Yi ≥ 0] = E[Xi0 β + εi |Yi ≥ 0]


= Xi0 β + E[εi |εi ≥ −Xi0 β]

donde εi ∼ N (0, σ 2 ).
Luego, X ∼ N (µ, σ 2 ).

a−µ φ(α)
E[X|X > a] = µ + σλ(α), α = , λ(α) =
σ 1 − Φ(α)
σφ(Xi0 β/σ)
E[εi |εi ≥ −Xi0 β] =
1 − Φ(−Xi0 β/σ)
σφ(Xi0 β/σ)
=
Φ(Xi0 β/σ)

Luego, para los Yi > 0(N1 )

σφ(Xi0 β/σ)
Yi = Xi0 β + + vi
Φ(Xi0 β/σ)

con E(vi ) = 0. Finalmente,

σφ(Xi0 β/σ) σφ(Xi0 β/σ) σφ(Xi0 β/σ)


 
Yi = Xi0 β + + v i + −
Φ(Xi0 β/σ) Φ(Xi0 β/σ) Φ(Xi0 β/σ)
σφ(Xi0 β/σ)
= Xi0 β + + wi
Φ(Xi0 β/σ)
= Xi0 β + σwi + wi : M CO

Luego, hacemos MCO de forma consistente para β y σ separadamente.

X 0 β φ(Xi0 β/σ)
 
0
V ar(vi |Yi > 0) = σ2 1 − i − (λ(Xi βσ))2
σ Φ(Xi0 β/σ)

EXISTE HETEROCEDASTICIDAD. ¿Cómo lo solucionamos?


1. Minimos Cuadrados Generalizados (o mı́nimos cuadrados ponderados)
2. Matriz de White

Página 70 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Regresiones Truncadas
Importante: NO se observan todas las observaciones en comparación con antes en el modelo de Tobin (caso de regresión
censurada).
Acá no podremos ocupar Heckman debido a que no podrı́amos hacer la parte del Probit (etapa 1).

Proceso: Eliminamos observaciones, Yi < Li :

(1/σ)φ[(Yi − Xi0 β)/σ] f (Yi )


f (Yi |Yi < Li ) = =
Φ((Li − Xi0 β)/σ) P [Yi < Li ]
N  2 X N
1 X Yi − Xi0 β Li − Xi0 β
 
N
L = ln(L) = − ln(2πσ 2 ) − − ln Φ
2 2 i=1 σ i=1
σ
σφi
E(Yi |Xi ) = Xi0 β −
Φi
φ2i (di ) Li − Xi0 β
 
2 2 di φi (li )
V ar(Yi |Xi ) = σ −σ + 2 ; di =
Φi (di ) Φi (di ) σ

Sesgo de Selección
Ciertas caracterı́sticas están involucradas en la decisión de entrar o no entrar a la muestra (ejemplo: al IN, a la
Universidad, etc).

ln wi = Xi0 β + ε1i
Ti∗ = Zi0 γ + εoi

con Ti∗ variable latente. Luego, Ti = 1 ssi Ti∗ > 0 y Ti = 0 ssi Ti∗ ≤ 0.
El sesgo de selección ocurrirá si Cov(ε1i , ε0i ) 6= 0, y por ende, ε0i > −Zi0 γ. Supondremos que ε1 ∼ N (0, σ12 ) y
ε0 ∼ N (0, σ22 ).

Y = µ1 + ε1 ; Y ∼ N (µ, σ12 )
X = µ2 + ε2 ; X ∼ N (µ, σ22 )

Luego,   
µ1 X
(Y, X) ∼ N ;
µ2
depende de σ12 , σ22 , ρ.
P
Donde
σ12
Vamos a multiplicar la segunda ecuación por y luego las resto:
σ22
     
σ12 σ12 σ12
Y − 2X = µ1 − 2 µ2 + ε1 − 2 ε2
σ2 σ2 σ2
Y = α + βX + µ
σ12 σ12 σ12
con β = 2 , α = µ1 − 2 µ2 y µ = ε1 − 2 ε2 .
σ2 σ2 σ2
Con E[Xµ] = 0, V ar(µ) = σ12 (1 − ρ2 ) y además,
σ12
ε1 = ε2 + µ
σ22

Volviendo al modelo de sesgo de selección, tendremos entonces que:


σ10
ε1i = ε01 + ηi
σ02

Página 71 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios

Luego, tendremos lo siguiente,


 
σ10
E[ε1i |ε0i > −Zi0 γ] = E ε0i + ηi |ε1i > −Zi0 γ
σ02
σ10
= E[ε1i |ε0i > −Zi0 γ] + E[ηi ||ε0i > −Zi0 γ]
σ02
σ10 φ(Xi0 γ/σ0 )
=
σ0 Φ(Zi0 γ/σ0 )

Si consideramos sólo Ti = 1, entonces,

ln wi = Xi0 β + σ10 Ŵi (Zi0 (γ̂/σ0 )) + vi

Acá incluı́mos la variable omitida W que representa el sesgo. Si σ10 es estadı́sticamente distinto de 0 (σ̂10 6= 0),
entonces hay sesgo de selección.

21. Modelos de Switching


Sea
0
Y1 = X1i β1 + µ1i ; µ1 ∼ N (0, σ12 )
0
Y2 = X2i β2 + µ2i ; β2 ∼ N (0, σ22 )

Luego, γ 0 Zi ≥ µi −→ F
γ 0 Zi < µi −→ Inf y µi ∼ N (0, σm
2
), σµ2 ≡ 1.

Primera Etapa: Probit. γ̂/σ0 .

φ(Zi0 γ)
E[µ1i |µi ≤ Zi0 γ] = −σ1µ
Φ(Zi0 γ)
σ1µ
µ1i = µi + ηi
σµ2
φ(Zi0 γ)
E[µ2i |µi ≥ Zi0 γ] = σ2µ
1 − Φ(Zi0 γ)
W1i = φ(Zi0 γ)/Φ(Zi0 γ)
φ(Zi0 γ)
W2i =
1 − Φ(Zi0 γ)

Segunda Etapa: Por MCP


0
(F ) : Yi = X1i β1 − σ1µ Ŵ1i + ε1i
0
(Inf ) : Yi = X2i β2 − σ2µ Ŵ2i + ε2i

Finalmente,

(F )V ar(ε1i |Ii = 1) = σ12 − σ1µ


2
W1i (Zi0 γ + W1i )
(Inf )V ar(ε2i |Ii = 0) = σ22 − σ2µ
2
W2i (Zi0 γ + W2i )

Página 72 de 72

También podría gustarte