Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Universidad de Chile
1. Introducción
Series de Tiempo: Cuerpo estadı́stico autocontenido. Desarrollado por Box y Jenkins
(Ver bibliografı́a de Box y Jenkins, apuntes Basch, Greene, Wei, Vandaele (Box&Jenkins, Wei y Vandaele están dedi-
cados exclusivamente a Series de Tiempo), Hamilton y Lutkepohl (más avanzado, magister)).
Pre-requisitos:
Serie en cuestión tiene que ser estacionaria: Si no lo es, hay que hacer transformaciones para que lo sea. ¿Por qué
tiene que ser estacionaria? Para analizar representatividad de un perı́odo de tiempo para analizar otro perı́odo.
Puede que en la identificación hayan 3 modelos candidatos a ser buenos modelos. Tenemos que estimarlos y luego, ver
cuál tiene mejores predicciones fuera de muestra.
El proceso autoregresivo más sencillo es AR(1), esto quiere decir que en el proceso, aparece la misma variable Yt pero
rezagada en un periodo Yt−1 .
Observación al margen:
Teorema de Floris Takens: Cualquier modelo deterministico es equivalente a un modelo estocástico (los modelos es-
tocásticos son mucho más fáciles de analizar y trabajar que los determinı́sticos, por eso es muy importante este teorema
y en la actualidad se analizan más los modelos estocásticos).
Página 1 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
2. Estacionaridad (Débil)
Una serie será estacionaria débil si se cumple lo siguiente:
1. Una determinada serie tiene una media constante en el tiempo, es decir,
E(Xt ) = µ, ∀t
2
2. La varianza también debe ser igual a σX constante en el tiempo.
Ası́, esta covarianza es lo mismo pero ocupando una sola variable pero en tiempos distintos (Xt y Xt±k )
Propiedad: Notar que,
γk = γ−k
Ası́, se tienen que dar estas tres propiedades para que sea estacionaria débil.
donde γ0 = V ar(Xt ).
Otra definición:
Cov(A, B)
Corr(A, B) = = ρA,B
σA σB
Interpretación: La función de densidad conjunta f (Xt1 , Xt2 , ..., Xtk ) tiene que ser igual a otra función de densidad
conjunta pero corrida en el tiempo (especı́ficamente m unidades de tiempo).
Página 2 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
2. Cuando tenemos una función que depende del tiempo, con el operador queda rezagado en un perı́odo:
L(f (t)) = f (t − 1)
Yt = m + α1 Yt−1 + α2 Yt−2 + εt
Yt = m + α1 LYt + α2 L2 Yt + εt
[1 − α1 L − α2 L2 ]Yt = m + εt
A(L)Yt = m + εt
A(L)B(L) = (1 − α1 L − α2 L2 )(1 − β1 L)
= 1 − β1 L − α1 L + α1 β1 L2 − α2 L2 + α2 β1 L3
C(L) = 1 − (α1 + β1 )L − (α2 − α1 β1 )L2 + α2 β1 L3
Hasta acá está bien, pero si queremos ser más rigurosos, determinamos que:
C(L)Yt = A(L)B(L)Yt
Página 3 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Resumen:
El objetivo de las series de tiempo, es encontrar una función Xt = f (Xt−1 , Xt−2 , ..., µt ) con µt término de error.
Un proceso AR(p) será:
Yt = m + α1 Yt−1 + α2 Yt−2 + ... + αp Yt−p + εt
Pero, si o si para que esto pueda definirse un proceso AR(p), tiene que ocurrir que εt sea ruido blanco.
Contra ejemplo: Supongamos que tenemos la serie µt = εt + βεt−1 . Acá no serı́a un proceso AR(p) puesto que no
serı́a ruido blanco.
Yt = m + αYt−1 + εt
Ocuparemos el operador L.
(1 − αL)Yt = m + εt
1 1
Dejaremos actuar ahora 1 + αL + α2 L2 + ... + αp Lp = (1 − αL)−1 = sobre m lo cual queda .
1 − αL 1 − αL
NOTA: (1 + αL + α2 L2 + ... + αp Lp )m = m + αm + α2 m + ...
1
Recordar: Por Series de Taylor, 1 + λ + λ2 + ... =
1−λ
Página 4 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Zt = aXt + bYt
también es estacionario.
(Ojo que la implicancia es sólo para un lado)
NOTA: Todas las covarianzas son nulas, puesto que es ruido blanco (E(εt−i εt−j ) = 0, i 6= j).
Vemos que la varianza no depende del tiempo.
La tercera condición es que las autocovarianzas dependen del rezago pero no del tiempo.
Calculemos ahora las autocovarianzas γ1 , γ2 hasta γk .
Yt = m + αYt−1 + εt
Xt ≡ Yt − µ
E(Xt ) = 0 = E(Yt ) − µ = µ − µ = 0
Xt + µ = m + α(Xt−1 + µ) + εt
Xt = αXt−1 + µ(1 − α) + µ(α − 1) + εt
Xt = αXt−1 + εt / · (Xt−1 )
γ1 = E(Xt Xt−1 )
2
= αE(Xt−1 ) + E(εt Xt−1 )
= ασx2 + 0
= αγ0
E(εt Xt−1 ) es 0 por ortogonalidad, puesto que, Xt−1 = εt−1 + αεt−1 + α2 εt−3 + .... o sea, cada término es
ortogonal.
Pasos: Definir Xt . Notar que E(Xt ) = 0. A través de Xt + µ llegar a la serie Xt . Multiplicar por Xt−1 la serie
y luego aplicar esperanza (E()). Se obtiene γ1 .
Página 5 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
γ2 = E(Xt Xt−2 )
= αE[Xt−1 Xt−2 ] + E[εt Xt−2 ]
= αγ1 = α2 γ0
donde E[Xt−1 Xt−2 ] es una autocovarianza, donde |t−1−(t−2)| = 1 y E(εt Xt−2 ) = 0 por el mismo razonamiento
anterior.
En resumen: La forma de resolver antes que salió más engorrosa era calcular estas autocovarianzas con Yt , acá
lo que hicimos fue calcularlas pero ocupando Xt .
m
NOTACIÓN: Yt = + εt + αεt−1 + α2 εt−2 + ... lo llamaremos MA(∞) (media movil). Ası́,
1−α
Corolario:
AR(1) ≡ M A(∞)
Esto era AR(1), que puede ser más sencillo, por lo que para llegar a la condición de estacionaridad, veremos AR(2).
Yt = m + α1 Yt−1 + α2 Yt−2 + εt
2
(1 − α1 L − α2 L )Yt = m + εt
1 1
Yt = m + εt
1 − α1 L − α2 L2 1 − α1 L − α2 L2
m
= + (analizar)
1 − α1 − α2
m
OJO: Vamos a demostrar que pronto que = µ.
1 − α1 − α2
Veamos ahora lo que quedó pendiente, (analizar)
A(L) = 1 − λ1 L − λ2 L2
= (1 − λ1 L)(1 − λ2 L)
= 1 − (λ1 + λ2 )L + λ1 λ2 L2
Definimos:
α1 = λ1 + λ2
α2 = −λ1 λ2
Página 6 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Ası́,
m 1
Yt = + εt
(1 − λ1 )(1 − λ2 ) (1 − λ1 L)(1 − λ2 L)
m
= + (analizar)
(1 − λ1 )(1 − λ2 )
Tendremos que:
* α2 + α1 < 1
* α2 − α1 < 1
Ojo: Si queremos para AR(3), simplemente las condiciones serán: |λ1 | < 1, |λ2 | < 1, |λ3 | < 1
Veamos esto en la práctica, a través de las 3 condiciones de estacionaridad débil vistas anteriormente:
1. Esperanza
m
E(Yt ) = µ=
1 − α1 − α2
2. Varianza
Ocuparemos el truco que: Xt = Yt − µ; E(Xt ) = 0. Ası́,
Xt = α1 Xt−1 + α2 Xt−2 + εt
OJO: E(Xt2 ) = V ar(Xt ) y Xt = εt +α1 εt−1 +α2 εt−1 +..., entonces E(εt Xt ) = E(εt (εt +α1 εt−1 +α2 εt−1 +...)) =
E(ε2t ) = σε2
3. Autocovarianzas
Multiplicamos la ecuación anterior por Xt−1 y luego sacamos E().
2
E(Xt−1 Xt ) = α1 E(Xt−1 ) + α2 E(Xt−1 Xt−2 ) + E(εt Xt−1 )
γ1 = α1 γ0 + α2 γ1
α1 γ0
γ1 =
1 − α2
γ2 = α1 γ1 + α2 γ0
Página 7 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Ahora, reemplazamos en γ0 :
α12 γ0
2
α 1 γ0
γ0 = + α2 + α2 γ0 + σε2
1 − α2 1 − α2
(1 − α2 )σε2
γ0 = >0
(1 + α2 )(1 − α1 − α2 )(1 + α1 − α2 )
Si hacemos el proceso anterior sucesivamente, es decir, multiplicamos la ecuación anterior por Xt−j y luego sacamos
E(), tendremos que:
γj = α1 γj−1 + α2 γj−2 , ∀γ 6= 0
Y esto es lo que conoceremos como ecuación de Yule-Walker.
A(L) = 1 − α1 L − α2 L2
Ya vimos que,
A(L)Xt = εt ; E(Xt ) = 0
A(L)Yt = m + εt
Xt = Yt − µ
m
µ=
1 − α1 − α2
Y además,
1
(A(L))−1 =
1 − α1 L − α2 L2
1
=
(1 − λ1 L)(1 − λ2 L)
1 1
=
1 − λ1 L 1 − λ2 L
∞
! ∞
X X
= (λ1 L)i (λ2 L)j
i=0 j=0
∞
X
= ψk Lk
k=0
= 1 + χ1 L + χ2 L2 + ...
Página 8 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Ası́,
λ2 − α1 λ − α2 = 0 =⇒ λ1 , λ2 , |λ1 | < 1, |λ2 | < 1
Finalmente, tendremos:
γj = α1 γj−1 + α2 γj−2 , j≥1
NOTA: Esto podemos escribirlo como: A(L)γj = (1 − α1 L − α2 L2 )γj = 0
ρ1 = Aλ1 + Bλ2
ρ2 = A(λ1 )2 + B(λ2 )2
Página 9 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Correlogramas
AR(1)
ρj = λj
Xt = λXt−1 + εt , |λ| < 1
Pero también podemos graficar para AR(2). Para ello, necesitamos coordenadas polares.
Otro Ejemplo: Xt = 1,3Xt−1 − 0, 6Xt−2 + εt , donde, α12 + 4α2 = 1,69 − 2,40 < 0
Página 10 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Cov(Yt , X2t )
r12 = p p = r21
V ar(Yt ) V ar(X2t )
Cov(X2 , X3 )
r23 = p p = r32
V ar(X2 ) V ar(X3 )
r13 = r31
donde (1)= Yt , (2)= X2t , (3)= X3t
Luego,
yt = b12 x2t + e1·2
P P
yx x y
b12 = P t 22t 6= b21 = P 2t2 t
x2t yt
Con yt = Yt − Ȳ , x2t = X2t − X̄
Además.
x3t = b32 x2t + e3·2
Ası́, la correlación parcial queda como:
P
e1·2 e3·2
r13·2 = pP
2
pP
e1·2 e23·2
donde e1·2 = yt − b12 x2t
Interpretación: r13·2 es la correlación de (1) con (3) pero eliminando el efecto de la variable (2).
Luego,
r12 = Corr(Xt Xt−1 )
= ρ1
= Corr(Xt−1 Xt−2 )
= r23
Página 11 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Luego,
r12 = r23 = ρ1 = r32 = r21
De la misma forma,
Luego,
ρ2 − ρ21
r13·2 = p p
1 − ρ21 1 − ρ21
ρ2 − ρ21
=
1 − ρ21
= P2 = φ22
Pero, hay otra forma de hacerlo mucho más sencillo que es con la notación de Yule: Pi = φii .
Notas de apoyo:
E(Xt Xt−j ) E(Xt Xt−j ) γj
= = = ρj (autocorrelación de orden j).
γ0 V ar(Xt ) γ0
¿Cómo calculamos φkk ? Regla de Cramer.
1 ρ1 ρ2 ··· ρk−1
φk1 ρ1
ρ1 1 ρ1 ··· ρk−2
φ
k2 ρ2
ρ2
ρ 1 1 ··· ρk−3
.. = ..
.. .. .. .. .. . .
. . . . .
φkk ρk
ρk ρk−1 ρk−2 ··· 1
NOTA: ρ0 = 1. Las filas de la matriz se hicieron calculando: Fila 1: j = 1, Fila 2: j = 2, ... , Fila k: j = k
Página 12 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Ejemplo:
Para AR(1): Xt = αXt−1 + εt
P1 = φ11 = ρ1
ρ2 − ρ21
φ22 = P2 =
1 − ρ21
1 ρ1
ρ1 ρ2
=
1 ρ1
ρ1 1
α2 − α2
= =0
1 − α2
φkk = 0, k≥2
4. Proceso MA(q)
Sea,
Página 13 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Volvamos al MA(1). ¿Es estacionario? Sı́, dado que la esperanza, la varianza y la estructura de correlaciones simples
no dependen del tiempo.
¿Ponemos alguna restricción para β? NO. Ası́,
OJO que esto es una condición de invertibilidad, no estacionaridad (no tenemos condiciones para estacionaridad en
MA(1)).
Página 14 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Xt = (1 − β1 L − β2 L2 )εt
Necesitaremos |λ1 | < 1 y |λ2 | < 1 que son las raı́ces del polinomio caracterı́stico dado por: λ2 − β1 λ − β2 = 0. Ası́
también,
|β2 | < 1, β1 + β2 < 1, β2 − β1 < 1
5. Procesos ARMA(p, q)
Sea,
Ap (L)Xt = Bq (L)εt
Ap (L) = 1 − α1 L − α2 L2 − ... − αp Lp
Bq (L) = 1 − β1 L − β2 L2 − ... − βq Lq
Ejemplo:
ARM A(1, 1) : Xt = α1 Xt−1 + εt − β1 εt−1
Condición de Estacionaridad:
Raı́ces del polinomio Ap (z) = 0 están fuera del cı́rculo unitario, es decir, |z| > 1. Que es equivalente a decir que los
|λi | < 1 (están dentro del cı́rculo unitario).
La descomposición de Wold dice que: Cualquier proceso estacionario, se va a poder escribir ası́:
∞
X
Yt = χj εt−j + vt
j=0
P∞
Habrá una parte puramente estocástica ( j=0 χj εt−j ) y eventualmente podrı́a haber una parte no estocástica (deter-
minı́stica) vt .
Ventaja de ARMA: Puede escribir las cosas linealmente y son muy versátiles, se puede escribir cualquier cosa MENOS
los procesos no estacionarios.
Página 15 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Yt = δ0 + δ1 t + µt
Yt = δ0 + δ1 t + δ2 t2 + µt
¿Cómo se corrige? La serie quedarı́a como: (Se elmina la parte no lineal deterministica):
NOTA: A la serie Yt = δ0 + δ1 t + µt se le llama serie no estacionaria pero de tendencia estacionaria (ya que
la varianza y las autocovarianzas no dependen del tiempo).
E(Yt ) = δ0 + δ1 t
V ar(Yt ) = V ar(µt )
Yt = α + Yt−1 + εt
Supongamos que
Y1 = α + Y0 + ε1
Y2 = α + Y1 + ε2 = 2α + Y0 + ε1 + ε2
Y3 = α + Y2 + ε3 = 3α + Y0 + ε1 + ε2 + ε3
..
.
Yt = tα + Y0 + ε1 + ε2 + ... + εt
E(Yt ) = Y0 + tα
V ar(Yt ) = tσε2
Supongamos que
Yt = δ0 + δ1 t + µt
µt = αut−1 + εt ∼ AR(1), |α| < 1
(1 − αL)µt = εt
µt = εt + αεt−1 + α2 εt−2 + ...
Ası́,
Yt = δ0 + δ1 t + εt + αεt−1 + α2 εt−2 + ...
Apliquemos multiplicador de impacto, es decir,
∂Yt
=1
∂εt
Página 16 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Si por ejemplo α = 1, tendremos que todas las derivadas son igual a 1. Ahi diremos que el shock es permanente.
Yt = δ0 + δ1 t + ut (1)
ut = αut−1 + εt ; |α| < 1
Queremos que la serie tenga εt (o sea, ruido blanco). Ocuparemos la Transformación de Cochrane-Orcutt.
Restamos (1)-(2).
Yt = δ1 + Yt−1 + εt
Yt = µ + βt + αYt−1 + εt
Supongamos que tenemos α = 1 como hipótesis nula y |α| < 1 como HA . Si no se puede rechazar al nula, estamos
frente a un proceso de raı́z unitaria. Pero, tenemos un truco para poder arreglar esto (sabiendo todo lo que conlleva
este proceso de raı́z unitaria).
Simplemente es:
Yt ∼ I(1)
Y por ende,
4Yt ∼ I(0)
Página 17 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Algunos ejemplos:
Yt − Yt−1 = 4Yt = (1 − L)Yt = δ1 + εt = δ1 + χ0 ε1 = δ1 + 1
Además entonces de ser estacionario, es I(0) ya que χ0 = 1 6= 0
Otro ejemplo:
Yt = m + αYt−1 + εt ∼ AR(1), |α| < 1
m
Yt = + εt + αεt−1 + α2 εt−2 + ...
1−α
donde χ0 = 1, χ1 = α, χ2 = α2 , .... Ası́,
∞
X 1
χj = 1 + α + α2 + ... = 6= 0
j=0
1−α
OJO: Esto es 0 sólo si β 6= 1. Ası́, la conclusión es que es I(0) solo si β 6= 1, PERO, los procesos MA son SIEMPRE
estacionarios para cualquier valor de β.
Ejemplo:
42 Yt = (1 − L)(Yt − Yt−1 )
= Yt − Yt−1 − Yt−1 + Yt−2
= Yt − 2Yt−1 + Yt−2
Ası́, Yt ∼ I(2) ssi 42 Yt = Yt − 2Yt−1 + Yt−2 ∼ I(0)
Página 18 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
8. Procesos ARIMA
Supongamos que tenemos:
Yt = δ0 + δ1 t + µt
Pero supongamos que µt ∼ ARM A(p, 1). Ası́,
Ap (L)µt = Bq (L)εt
Vamos a exigir que está fuera del cı́culo unitario, es decir, Ap (z) = 0, |zi | > 1.
Sea:
Bq (L)
4Yt − δ1 = εt
Ap−1 (L)
= εt + χ1 εt−1 + χ2 εt−2 + ...
tal que:
∞
X
6= 0
j=0
Por lo tanto,
Yt∗ ∼ ARM A(p − 1, q)
que es I(0).
Ası́,
Yt ∼ ARIM A(p, 1, q)
Página 19 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Yt = δ0 + δ1 t + µt
µt = αµt−1 + εt
Ası́,
Yt = µ + β1 + αYt−1 + εt
4Yt = µ + βt + γYt−1 + εt
donde γ = α − 1.
Luego,
H0 : α=1 (γ = 0)
HA : |α| < 1 (γ < 0)
PERO, la tabla está mal. Bajo la hipótesis nula, este cuociente no se distribuye como una t-student, ya que bajo α = 1
tenemos que la serie es no estacionaria y con raı́z unitaria (algo desastroso).
O sea, está correcto el cuociente, sin embargo, ya no está correcto ir a la tabla de t-Student.
se distribuye como una Distribución No-Estándares. (o también conocidas como distribuciones de movimiento
Browniano).
¿Qué son? Al igual que las comunes, tiene densidad conjunta continua, sin embargo, no tiene derivada en ningún punto.
Yt = δ0 + δ1 t + µt
µt = αµt−1 + εt ∼ AR(1), |α| < 1
4Yt = [δ0 (1 − α) + δ1 α] + δ1 (1 − α)t + γYt−1 + εt
Luego,
H0 : α − 1 = γ = 0 −→ 4Yt = δ1 + εt −→ Yt = δ1 + Yt−1 + εt
γ̂
HA : γ<0 (|α| < 1) −→ τ =
S.E.(γ̂)
Página 20 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Yt = δ0 + δ1 t + µt (1)
µt = α1 µt−1 + α2 µt−2 + εt
α1 Yt−1 = α1 δ0 + α1 δ1 (t − 1) + α1 µt−1 (2)
α2 Yt−2 = α2 δ0 + α2 δ1 (t − 2) + α2 µt−2 (3)
Ası́, (1)-(2)-(3):
pero γ = α1 ‘ + α2 − 1.
H0 : γ = 0, α1 + α2 = 1
HA : γ<0
Ası́ testeamos:
H0 : γ = 0, α1 + α2 + ... + αp = 1
HA : γ<0
9.2. Identificación
Buscaremos conocer los valores de ARIMA(p, d, q). (OJO: d = 0, 1, 2).
NOTA: Si tenemos P, D, Q estamos en presencia de estacionaLidad (que es distinto a estacionaRidad).
Importante:
Notar que ARMA(p, q) es equivalente a AR(∞).
Página 21 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
1. Estimamos AR(p∗ ) con p∗ grande (NOTA: Definimos p∗ sólo para diferenciar ese valor del p de ARIMA).
Luego, ¿Con qué criterio lo hacemos? Ocupamos el criterio AIC (criterio de información de Akaika). Este
dice que:
2 2
AIC = ln(σ̂p,q ) + 2(p + q) = ln(σ̂p,q )+T
T corresponde a la penalización ante el hecho de que si p, q son grandes, aumenta AIC. Ası́, con este T nos sirve
2
para ver que si aumenta AIC, esto es porque aumenta ln(σ̂p,q ), pero no porque hay más p, q (misma idea con R2
2
y R -Ajustado).
Con ello, se obtendrán distintos p∗1 (con su respectivo e∗1 , p∗2 (con su respectivo e∗2 , p∗3 (con su respectivo e∗3 ...
(que no sabemos aún cuál es mejor que el otro ya que entregan AIC parecido)
Con esto, vieron que funcionaba mejor el criterio Schwarz (Bayesiano), más conocido como BIC.
2 ln(T )(p + q)
BIC = ln(σ̂p,q )+
T
Con esto, ya tenemos algunos modelos tentativos ARMA(p1 , q1 ) y ARMA(p2 , q2 ). PERO, donde sı́ ya vamos a
decidir completamente, es cuando pasemos ahora a la predicción.
9.3. Predicción
Práctica:
mı́n E[(YT +h − ŶT +h )2 ]
Ası́, ŶT +h = E[YT +h |ΦT ]
donde YT +h − ŶT +h es el error de predicción (e.p.).
Ejemplo: AR(1)
YT +2 = (1 − α)µ + αYT +1 + εT +2
YT +2 = (1 − α)µ + α[(1 − α)µ + αYT + εT +1 ] + εT +2
YT +2 = (1 − α2 )µ + α2 YT + αεT +1 + εT +2
ŶT +2 = (1 − α2 )µ + α2 YT
Página 22 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
.
Ahora si encontramos la predicción con respecto a la media poblacional será:
ŶT +2 − µ = α2 (YT − µ)
e.p. = αεT +1 + εT +2
V ar(e.p.) = σε2 (1 + α2 )
CASO AR(q):
Y la varianza será:
V ar(e.p.) = σε2 (1 + α2 + α4 + ... + α2(h−1) )
Ası́, si h → ∞,
σε2
V ar(e.p.) → = σy2
1 − α2
YT +2 = m + εT +2 − βεT +1
ŶT +2 = m=µ
ŶT +h = µ, ∀h ≥ 2
CASO MA(q):
Página 23 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
(1 − α1 L)Yt = m + β0 Xt + β1 Xt−1 + εt
m
Yt = + (1 + α1 L + α1 L2 + α13 L3 + ...)[β0 Xt + β1 Xt−1 + εt ]
1 − α1
Luego,
m
Yt = + β0 Xt + β1 Xt−1 + β0 α1 Xt−1 + β1 α1 Xt−2 + ... + β0 α12 Xt−2 + β1 α12 Xt−3 + ... + [A(L)]−1 εt
1−α
Luego, los multiplicadores de impacto serán:
∂Yt
= β0
∂Xt
∂Yt+1
= β1 + β0 α1
∂Xt
∂Yt+2
= α1 (β1 + β0 α1 )
∂Xt
∂Yt+3
= α12 (β1 + β0 α1 )
∂Xt
∂Yt+s
= α1s−1 (β1 + β0 α1 )
∂Xt
∂Yt+s
¿Qué pasa cuando s → ∞? →0
∂Xt
Pero ahora cuando t → ∞:
Xt → X̄
Yt → Ȳ
εt → 0
Página 24 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
∂ Ȳ β0 + β1
=b=
∂ X̄ 1 − α1
Yt = m + α1 Yt−1 + β0 Xt + β1 Xt−1 + εt
Yt = 4Yt + Yt−1
Xt = 4Xt + Xt−1
4Y = +(α1 − 1)Yt−1 + β0 (4Xt + Xt−1 ) + β1 Xt−1 + εt
4Yt = β0 4 Xt − (1 − α1 )Yt−1 + (β0 + β1 )Xt−1 + εt + m
m β0 + β1
= β0 4 Xt − (1 − α1 ) Yt−1 − − Xt−1 + εt Yt
1 − α1 1 − α1
= m
m β0 + β1
Notar que: Yt−1 − − Xt−1 = Yt−1 − a − bXt−1
1 − α1 1 − α1
Ası́, tendremos que
4Yt → 0
Yt = Yt−1
4Xt → 0
εt → 0
Ap (L)Yt = m + Bq (L)Xt + εt
= 1 − α1 L − α2 L2 − ... − αp Lp
Bq (L) = β0 + β1 L + β2 L2 + ... + .βq Lq
Ap (L)Yt = m + Bq1 (L)X1t + Bq2 (L)X2t + Bq3 (L)X3t + ... + Bqk (L)Xkt + εt
Página 25 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
NOTA: Johanssen demostró que I(0) + I(1) ∼ I(1), y de forma general, I(p) + I(q) ∼ I(q) con q > p.
Pero David Hendry demostró que si tenemos del mismo orden por ejemplo Xt ∼ I(1) y Zt ∼ I(1) entonces podemos
generar una combinación lineal donde βXt + γZt ∼ I(0) y como εt ∼ I(0), finalmente Yt ∼ I(0).
Pero esto finalmente lo terminó demostrando Granger.
11.1. Cointegración
Tomemos un modelo ADL(1,1),
Yt = m + α1 Yt + β0 Xt + β1 Xt−1 + εt
Vamos a suponer que Xt es no estacionaria, es decir, Xt = Xt−1 + ηt con ηt ruido blanco. Por lo tanto, Xt ∼ I(1)
(paseo aleatorio).
OJO: εt ∼ I(0).
Luego, si |α1 | < 1, entonces podemos formar el inverso:
(1 − α1 L)Yt = m + β0 Xt + β1 Xt−1 + εt
m
Yt = + (1 + α1 L + α1 L2 + ...)(β0 Xt + β1 Xt−1 + εt )
1 − α1
Observación:
Si Xt ∼ I(1), entonces (aXt + bXt−1 ) ∼ I(1), como también (aXt + bXt−1 + cXt−2 ) ∼ I(1) y ası́ sucesivamente.
Página 26 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Tenemos que Zt = α1 Zt−1 +vt (tenemos que demostrar que vt es ruido blanco), ahora volvemos a escribir (y agregamos
un 0 conveniente):
mα1 α1 (β0 + β1 ) α1 (β0 + β1 ) (β0 α1 + β1 )Xt
Zt = − + α1 Yt−1 − Xt−1 + Xt−1 − + β1 Xt−1 + εt
1 − α1 1 − α1 1 − α1 1 − α1
Zt = α1 Zt−1
mα1 α1 (β0 + β1 )
donde α1 Zt−1 = − + α1 Yt−1 − Xt−1 .
1 − α1 1 − α1
Veamos ahora el término:
α1 (β0 + β1 ) (β0 α1 + β1 )Xt β1 − α1 β1 + α1 β0 + α1 β1 (β0 α1 + β1 )Xt
Xt−1 + β1 Xt−1 − = Xt−1 −
1 − α1 1 − α1 1 − α1 1 − α1
(β0 α1 + β1 ) (β0 α1 + β1 )Xt
= Xt−1 −
1 − α1 1 − α1
(β0 α1 + β1 )Xt
= − (Xt − Xt−1 ) ∼ I(0)
1 − α1
= Aηt ∼ I(0)
(β0 α1 + β1 )Xt
donde finalmente por construcción (Xt − Xt−1 ) ∼ I(0), y si la multiplicamos por la constante − , en-
1 − α1
tonces todo el término ∼ I(0)
Tendremos que:
Si |α1 | < 1 entonces, Zt ∼ I(0)
Si |α1 | = 1 entonces, Zt ∼ I(1) y no es estacionario.
¿Cómo testeamos lo anterior?
¿Cómo estimamos Zt ?
Página 27 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Yt = a0 + b0 Xt + εt ; ADL(1, 1)
Si yo corro esto por MCO, encontramos estimadores de a0 y b0 que nos llevan al equilibrio de largo plazo:
Yt =
m + A1 Yt−1 + A2 Yt−2 + ... + Ap Yt−p + BXt + εt
Y1t ε1t
Y2t ε2t
donde m ∈ Mk×1 , A1 ∈ Mk×k , Yt−1 ∈ Mk×1 (y ası́ para todos los Ai ) y Yt = . , εt = .
.. ..
Ykt K×1 εkt K×1
X1t
X2t
Pero, B no tiene por qué ser cuadrada, podrı́a ser por ejemplo B ∈ Mk×m y Xt ∈ Mm×1 , Xt = .
..
Xkt m×1
Luego,
E(εt ) = 0; ∀t
E(εt ε0s ) = Ω si t = s y será 0 si t 6= s.
Notar que εt ∈ MK×1 y ε0s ∈ M1×K y por tanto E(εt ε0s ) ∈ MK×K
Yt = m + AYt−1 + εt , B=0
Página 28 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Casos Posibles:
CASO 1:
|λ1 | < 1 y |λ2 | < 1, λ1 6= λ2 .
−1 λ1
Sea Av = λv, v 6= 0. Entonces existen 2 vectores L.I tal que C = [c1 , c2 ] y por ende, C = .
λ2
Y ası́ la descomposición espectral serı́a,
λ1 0
C −1 AC = Λ =
0 λ2
Y luego, A = CΛC −1 .
C −1 Yt = C −1 m + C −1 AYt−1 + C −1 εt
Zt = m∗ + ΛZt−1 + γt
Finalmente,
Página 29 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Ȳ = m + AȲ
(I − A)Ȳ = m
π = I −A
= CC −1 − CΛC −1
= C[I − Λ]C −1
1 − λ1 0
= C C −1
0 1 − λ2
Ȳ = π −1 m
CASO 2:
λ1 6= λ2 , λ1 = 1, |λ2 | < 1.
Eso si, ahora Z1t ∼ Z2t ∼ I(0). Igual que antes, pero teniendo esta diferencia de λ1 = 1 (constante).
I(1) y
Z1t
Zt ∼ I(1) con Zt = .
Z2t
Luego,
Z1t
Yt = c1 c2 = Z1t c1 + Z2t c2 ∼ I(1)
Z2t
Acá no tiene mucho sentido hablar de equilibrio estático de LP porque tengo cosas que no son estacionarias (siempre
es dinámico).
Luego,
Y1t ∼ I(1)
Y2t ∼ I(1)
Si bien no tiene sentido el equilibrio de largo plazo, SÍ puede existir un equilibrio haciendo cointegración entre Y1t y Y2t .
Luego,
Página 30 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Luego,
Y1t
c21 c22 = c21 Y1t + c22 Y2t
Y2t
= Z2t ∼ I(0)
c(1)
NOTA: C −1 =
c(2)
Luego,
Yt = m + AYt−1 + εt / − Yt−1
4Yt = m + (A − I)Yt−1 + εt
4Yt = m − πYt−1 + εt
π = C(I − Λ)C −1 = I − A
0 0
Pero, el rango de (I − Λ) = con µ2 = 1 − λ2 es 1, mientras que el rango de C es 2. Por lo tanto, el rango de
0 µ2
π es 1 y no será invertible.
Por ello, no existirá equilibrio de largo plazo.
CASO 3:
λ1 = λ2 = 1
1 0
Ojo que si A es simétrica, puedo hacer la descomposición espectral C 0 AC = . Pero eso no suele suceder. Ası́
0 1
que veremos el caso general donde NO existe dos vectores propios linealmente independientes. Y por ende, no existe
la descomposición espectral vista.
Pero existe la descomposición canónica de Jordan.
Página 31 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
P −1 AP = J
AP = PJ
λ 1
A p1 p2 = p1 p2
0 λ
= λp1 p1 + λp2
Página 32 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Yt = m + A1 Yt−1 + A2 Yt−2 + εt
Yt m A1 A2 Yt−1 ε
= + + t
Yt−1 0 I 0 Yt−2 0
Yt m A1 A2 Yt−1 ε
Llamaremos Ỹt = , m̃ = , Ã2k×2k = , Ỹt−1 = , ε̃t = t
Yt−1 0 I 0 Yt−2 0
Ası́,
Observación: Esto se puede extrapolar a que cualquier VAR(p) se puede transformar a VAR(1) con este truco.
Veamos como podemos encontrar los valores propios para este VAR(2).
Ecuación caracterı́stica para el caso VAR(2)
|λI2k − Ã2k×2k | = 0
λIk 0 A1 A2
0 − = 0
λIk Ik 0
λIk − A1 −A2
= 0
−Ik λIk
Multiplico las primeras k filas por λ y luego divido las últimas k columnas por λ.
2
λ Ik − λA1 −λA2
= 0
−Ik λIk
2
λ I − λA1 −A2
= 0
−I I
Página 33 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Ahora, analizando
Extrapolando esto:
NOTA: En el caso de rango(π)=r < k, entonces tenemos que estimar a través de la forma de escritura de 4Yt y no
de la forma Yt .
H01 : AM = 0 ; 1
HA : AM 6= 0
H02 : AM −1 = 0 ; 1
HA : AM −1 6= 0|AM = 0
...
H0i : AM −i+1 = 0 ; i
HA : AM −i+1 6= 0|AM = ... = AM −i+2 = 0
Luego, p̂ = M − i + 1
2m k(k + 1)
donde m = k 2 p + k +
P
2. AIC(m) = ln | (m)| + (cantidad de parámetros libres, que dependen de p)
T 2
m ln(T ) k(k + 1)
donde m = k 2 p + k +
P
3. Test de Schwarz: SC(m) = ln | (m)| +
T 2
2m k(k + 1)
ln[ln T ] donde m = k 2 p + k +
P
4. Hannah-Queen: HQ(m) = ln | (m)| +
T 2
Página 34 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Ecuación Caracterı́stica
Para VAR(2):
|λ2 Ik − λA1 − A2 | = 0
Para VAR(p):
Luego,
Yt = m + AYt−1 + εt
Yt−2 = m + AYt−3 + εt−2
Yt = m + A(m + AYt−2 + εt−1 ) + εt
Yt = (I + A)m + A2 Yt−2 + Aεt−1 + εt
Yt = (I + A + A2 )m + A3 Yt−3 + A2 εt−2 + Aεt−1 + εt
NOTA: Ojo que esta es la forma canónica, por simplicidad, le quitamos la ”olita”.
Si continuamos el proceso,
∞
X
Yt = lı́m (I + A + A2 + ... + An + ...)m + lı́m An Yt−n + Ai εt−i
n→∞ n→∞
i=0
Página 35 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Condición de Estabilidad:
Todos los valores propios de A tienen que cumplir |λ| < 1.
Luego, A = CΛC −1 .
Pero ahora,
A2 = (CΛC −1 ) · (CΛC −1 )
= CΛ2 C −1
..
.
An = CΛn C −1
Vemos que se requiere que |λi | < 1, ∀i = 1, .., k para que An → 0 cuando n → ∞.
Página 36 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Ası́,
(I − AL)Yt = m + εt
Yt = [A(L)]−1 m + [A(L)]−1 εt
= [A(1)]−1 m + [A(L)]−1 εt
= (I − A)−1 m + [A(L)]−1 εt
CONDICIÓN DE ESTABILIDAD:
Se dice que el VAR(p) es estable si los λi que solucionan la ecuación:
µ = E[Yt ] = [A(1)]−1 m
Γ(s) = E[(Yt − µ)(Yt−s − µ)0 ]
donde Γ(s) es una matriz de k × k y con esto se puede calcular las autocovarianzas.
Nota: Para el caso univariante, vimos que γs = γ−s . Ahora, para caso multivariante, tendremos que Γs = (Γ−s )0 .
A = P JP −1
J1 0
0 J2 0
con P = [p1 , .p2 , ..., pk ] y J =
con s valores propios distintos con multiplicidad m1 , m2 , ..., ms .
...
0 0 0 Js
Ası́,
An = P J n P −1
Para que An tienda a 0 cuando n → ∞, necesitamos que J n → 0 cuando n → ∞, y esto se cumple (no se demostrará).
Página 37 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Finalmente, tanto para valores propios distintos o algunos con multiplicidad, siempre se requerirá que λ (o J) estén
en el cı́rculo unitario.
Cuando estimamos, encontramos los valores de Ai pero lo que queremos determinar son las matrices χi .
Página 38 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Tendremos que:
∂Yt+s
Ası́, = χs ∈ Mk×k (esto se parece mucho al concepto de multiplicadores de impacto pero ahora en el caso
∂ε0t
multivariante).
∂Yt+s
NOTA: Si derivara con respecto a εt (sin traspuesto), = χ0s ∈ Mk×k
∂εt
Yt+s = µ + εt+s + χ1 εt+s−1 + χ2 εt+s−2 + ... + χs−1 εt+1 + χs εt + χs+1 εt−1 + ...
Ŷt+s = Et (Yt+s ) = E[Yt+s |Φt ]
= µ + χs εt + χs+1 εt−1 + ...
E(εt ) = 0
E(εt ε0t ) = Ω
E(εt ε0s ) = 0; t 6= s
Página 39 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Yt = m + A1 Yt−1 + εt
(I − A1 L)Yt = m + εt
X∞
Yt = µ+ Ai εt−1
i=0
Por lo tanto,
PROPUESTO: Ver esta misma expresión analizada pero para el caso de VAR(2): Yt = m + A1 Yt−1 + A2 Yt−2 + εt
Ası́,
χ0 = I = [e1 , e2 ...., ek ]
1
0
con e1 = 0. Y ası́ sucesivamente con los otros ei .
..
.
0
Caso sencillo: k = 2.
Página 40 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
σ12
0 ε1t
con E(ε1 ε02 ) = 0, E(εt ε0t ) = D = y εt =
0 σ22 ε2t
Ası́,
BYt = γ0 + Γ1 Yt−1 + εt
1 β12 γ10 γ11 γ12
Con B = , γ0 = , Γ1 =
β21 1 γ20 γ21 γ22
Y este es el caso de un VAR estructural de orden 1. Ası́,
(B − Γ1 L)Yt = γ0 + εt
Yt = [B(L)]−1 γ0 + [B(L)]−1 εt
Ahora,
(B(L))−1 = (B − Γ1 L)−1
= [B(I − B −1 Γ1 L)]−1
= (I − B −1 Γ1 L)B −1
= (I + B −1 Γ1 L + (B −1 P1 )2 L2 + ...)B −1
Yt = [B(L)]−1 γ0 + [B(L)]−1 εt
Yt = [B(L)]−1 γ0 + χ(L)εt
Yt = B −1 γ0 + B −1 ΓYt−1 + B −1 εt = a0 + A1 Yt−1 + µt
Finalmente,
Yt = a0 + A1 Yt−1 + µt
Y tengo un VAR reducido.
Página 41 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Yt = a0 + A1 Yt−1 + µt
(I − A1 L)Yt = a0 + µt
Yt = (I − A1 )−1 a0 + (A(L))−1 µt
P∞
con (A(L))−1 = χ(L), donde acá tenemos la restricción de Wold reducida, con χ(L) = k=0 χk Lk .
Θs = χs B −1 = As1 B −1
Θ0 = χ0 B −1 = B −1
Θ1 = A1 B −1
Θ2 = A21 B −1
Luego, para k = 2,
! ! !
(0) (0) (1) (1) (s) (s)
Y1t µ1 θ11 θ12 ε1t θ11 θ12 ε1,t−1 θ11 θ12 ε1,t−s
= + (0) (0) + (1) (1) + ... + (s) (s)
Y2t µ2 θ21 θ22 ε2t θ21 θ22 ε2,t−1 θ21 θ22 ε2,t−s
!
(0) (0)
θ11 θ12 1 b12 1 1 −b12
con (0) (0) = Θ0 = B −1 6= I2 y B = , B −1 =
θ21 θ22 b21 1 1 − b12 b21 −b21 1
Y acá tenemos la representación MA, que llamaremos SM A(∞). ¿Cuándo se puede hacer esto? Cuando es estable
(estacionario).
Luego,
(s) ∂Y1,t+s
θ11 =
∂ε1,t
(s) ∂Y1,t+s
θ12 =
∂ε2,t
(s) ∂Y2,t+s
θ21 =
∂ε1,t
(s) ∂Y2,t+s
θ22 =
∂ε2,t
Y estos son los multiplicadores de impacto dinámico.
¿Cuánto valen en el largo plazo? (Coeficiente de Impacto Dinámico de Largo Plazo en el componente i, j)
(s)
lı́m θ =0
s→∞ ij
Página 42 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
También tenemos un coeficiente de impacto dinámico acumulativo, que viene dado por:
∞
(s)
X
θ11 = Θ11 (1)
s=0
θ11 (L) θ12 (L) P∞ (s)
donde Θ(L) = , θij (L) = s=0 θij Ls
θ21 (L) θ22 (L)
16.3. Estimación
Modelos estructurales tienen DEMASIADOS PARÁMETROS no identificados, por ende, no se pueden estimar (Este
es el problema de los modelos estructurales).
¿Qué hacemos?
1 b12
1. Poner restricciones: B = , b12 = 0, b12 + b21 = 1
b21 1
2. Descomposición de Cholesky
Cholesky:
Si A es A = P P 0 con P matriz triangular inferior (todo lo que está de la diagonal para arriba es 0),
p11 0
P =
p21 p22
Esta matriz P debe cumplir con: p11 ≥ 0 y p22 ≥ 0 (esto para semi-definido positivo, si A es definida positiva,
entonces es mayor que 0 estricto).
NOTA: Otra particularidad, es que esta descomposición (A = P P 0 ) no es única con A semi-definida positiva.
Descomposición de Cholesky
1 0 λ11 0
La descomposición será Ω = P P 0 = T ΛT 0 con T = .Λ= , con ambos λ ≥ 0.
t21 1 0 λ22
Página 43 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
V ar(ut ) = Ω = T ΛT 0
1 0
T −1 =
−t21 1
T −1 Yt = T −1 a0 + T −1 A1 Yt−1 + T −1 µt
B̃Yt = γ̃0 + Γ̃1 Yt−1 + ε̃t
V ar(ε̃t ) = V ar(ε̃t )
0
= E[T −1 µt µ0t T −1 ]
0
= T −1 E(µt µ0t )T −1
Finalmente,
λ11 0
V ar(ε̃t ) = Λ=
0 λ22
−1 1 0
B̃ = T =
−t21 1
OJO: Como esta descomposición NO es única, decimos que son seudo-estructurales el modelo B̃Yt = γ̃0 + Γ̃1 Yt−1 + ε̃t .
Y1 = X1 β1 + ε1
Y2 = X2 β2 + ε2
..
.
Ym = Xm βm + εm
En general, vamos a suponer que: E(εi ) = 0 y E(εi ε0j ) = σij IT y E(εit εjs ) = σij si t = s y E(εit εjs ) = 0 si t 6= s
X1 0 ··· 0 β1 ε1
0
X2 ··· 0 β2 ε 2
Y1 Y2 ... Ym = . .. + ..
.. .. ..
.. . . . . .
0 ··· 0 Xm βm εm
Página 44 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Luego,
E[εε0 ] = V
ε1 ε01 ε1 ε02 ε1 ε0m
ε1 ···
ε2 ε01 · · · ε2 ε0m
ε 2 ···
E . ε01 ε02 ... 0
εm = E .
.. .. ..
..
.. . . .
εm εm ε01 · · · ··· εm ε0m
σ11 IT σ12 IT ··· σ1m IT
σ21 IT σ22 IT ··· σ2m IT
= .
.. .. ..
..
. . .
σm1 IT σm2 IT ··· σmm IT
ε1
ε2
NOTA: . ∈ MmT ×1 .
..
εm
Ahora,
ε11
ε12
0
E(ε1 ε2 ) = E . 21 ε ε ... ε
22 2T
..
ε1T
E(ε11 ε21 ) 0 ··· 0
0 E(ε 12 ε22 ) · ·· 0
=
.. .. . .. ..
. . .
0 ··· 0 E(ε1T ε2T )
σ12 0 ··· 0
0 σ12 ··· 0
=
.. .. .. ..
. . . .
0 ··· 0 σ12
y acá E(ε11 ε22 ) = 0, E(ε11 ε2T ) = 0 y ası́ porque son de distinto tiempo.
a11 B a12 B ··· a1m B
.. .. .. ..
. . . .
A⊗B =
. ..
..
.. ..
. . .
am1 B am2 B ··· amm B
Página 45 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Volviendo al SUR:
Y = Xβ + ε
0
E(εε ) = V = Σ ⊗ IT 6= λImT ×mT
β̂M CG = (X 0 V −1 X)−1 X 0 V −1 Y
Se demostró que β̂M CG es insesgado, bajo la condición de que f (ε) = f (−ε) (error sea simétrico).
e01 e1
σˆ11 = s11 =
T − k1
e0 e2
σˆ22 = s22 = 2
T − k2
Por ende, Zellner demostró que el siguiente estimador es consistente:
PT
e0i ej t=1 eit ejt
σ̂ij = sij = =
T T
Ahora, calculemos con MCO:
ei = Yi − Xi β̂i(M CG)
*Este residuo debiera ser un mejor residuo que el anterior, y podrı́amos tener:
Página 46 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Ejemplo:
Sea Y = Xβ + ε, tenemos que V = P P 0 . Supongamos que premultiplicamos por P −1 ,
Y ∗ = X ∗ β + ε∗
Modelo:
Y1 = X1 β1 + ε1
Y2 = X2 β2 + ε2
..
.
Ym = Xm βm + εm
2 casos interesantes:
Cuando los errores εi están prácticamente nada correlacionadas, entonces podemos estimar cada ecuación por
separada por MCO.
Cuando los Xi son todos iguales, entonces estimar el β̂M CG será lo mismo que estimar por separado cada ecuación
por MCO (independiente de que los errores estén correlacionados).
OJO:
X−1 X−1
β̂M CG = [X 0 ( ⊗IT )X]−1 X 0 ( ⊗IT )Y
X−1
V ar(β̂M CG ) = [X 0 ( ⊗IT )X]−1
Página 47 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
OJO: Podemos invertir cada (Xi0 Xi )−1 ya que cada Xi tiene rango completo (esto ya que se cumplen todos los
postulados vistos en cursos pasados), en otros términos, no hay multicolinealidad perfecta.
NOTA: (σii )−1 = σ ii , por ende, si σij = 0, entonces, σ ij = 0.
11 0
σ X1 Y1
22 0
σ X2 Y2
0 −1
X Σ ⊗ IT Y =
..
.
0
σ mm Xm Ym
Por lo tanto, se demuestra que es equivalente hacer el β̂M CO a estimar cada ecuación por separado con MCO.
2. CASO 2: Ahora, supongamos que X1 = X2 = ... = Xm = X̄,
X̃ 0 · · · 0
0 X̃ · · · 0
X=. .. = IM ⊗ X̃
.. ..
.. . . .
0 ··· 0 X̃
Página 48 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Con esto, B ∈ MG×G , por ende, existe B −1 (es decir, det(B) 6= 0). Luego, C ∈ MG×k , Yt ∈G×1 , Xt ∈ Mk×1 y
εt ∈ MG×1 .
Luego,
β11 β12 ... β1G
β21 β22 ... β2G
B = .
.. .. ..
.. . . .
βG1 βG2 ... βGG
γ11 γ12 ... γ1k
γ21 γ22 ... γ2k
C = .
.. .. ..
.. . . .
γG1 γG2 ... γGk
Y1t X1t ε1t
Y2t X2t ε2t
Yt = . , Xt = . , εt = .
.. .. ..
YGt Xkt εGt
Analizando la ecuación, si aplicamos transpuesta:
Yt0 B 0 + Xt0 C 0 = ε0t
Y B 0 + XC 0 = ε
Página 49 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Y10
0 0
X1 ε1
Y20 X20 ε02
.. .. ..
. . .
donde Y = 0
, X = 0
,ε=
ε0t
Y
t X
t
. . .
.. .. ..
0 0
YT T ×G XT T ×k ε0T T ×G
Ejemplo: Oferta-Demanda
Y1t + β12 Y2t + γ11 = ε1t : Demanda
β21 Y1t + Y2t + γ21 = ε2t : Of erta
Dado lo que conocemos de Oferta-Demanda, tenemos que β12 > 0, γ11 < 0.
OJO: ¿Por qué no aparecen β11 y β22 ? Al poner que son igual a 1, imponemos la Condición de Normalización.
¿Cómo resolvemos?
BYt + CXt = εt
BYt = −CXt + εt /B −1
B −1 BYt = B −1 (−CXt ) + B −1 εt
Yt = πXt + vt
donde π = −B −1 C ∈ MG×k .
Notar que el sistema Yt = πXt + vt corresponde a un SUR con (X1 = X2 = ... = Xm ).
Página 50 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Vamos a imponer una serie de restricciones para que el sistema pueda estar bien identificado y por ende, pueda ser
estimado.
Para ello, ocuparemos como ejemplo el siguiente modelo:
Ahora, tenemos 7 incógnitas estructurales por estimar, dos correspondientes a las variables endógenas (β12 , β21 ) y 5
correspondientes a las variables predeterminadas (γ11 , γ12 , γ21 , γ23 , γ24 ).
Veamos ahora π:
−1 π11 π12 π13 π14
π = B C=
π21 π22 π23 π24 2×4
Y acá tenemos un sistema sobre identificado, puesto que tenemos 8 coeficientes reducidos (los π) para estimar las
7 incógnitas estructurales.
Luego,
NOTA: Acá también estamos en el caso donde X1 = X2 = ...Xm , puesto que tenemos el sistema reducido Yt = πXt +vt .
Resolviendo el sistema:
1 (−γ11 + β12 γ21 ) −γ12 β12 γ23 β12 γ24
π =
∆ (β21 γ11 − γ21 ) β21 γ12 −γ23 −γ24
Finalmente,
π22
β21 = −
π12
π13 π14
β12 = − =−
π23 π24
Este método se llama Mı́nimos Cuadrados Indirectos.
NOTA: Estos valores son resultados poblacionales.
OJO: Notar que acá en el ejercicio te dan los valores de todos los π, por lo tanto, con ello podremos encontrar fácil-
mente los valores de β y γ.
π̂22
β̂21 = −
π̂12
π̂13 π̂14
β̂12 = − =−
π̂23 π̂24
Página 51 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
PERO acá hay un problema, tendremos que β̂12 será igual a esos dos valores, que prácticamente NUNCA serán iguales,
π̂13 π̂14
o sea, − 6= − , y esto ocurrió ya que el modelo está sobre identificado.
π̂23 π̂24
El método de Mı́nimos Cuadrados Indirectos no es bueno cuando hay más parámetros reducidos que parámetros es-
tructurales (modelo sobreidentificado), por lo que ocurre a nivel muestral.
Esto nos enseña que necesitamos restricciones para las matrices B y C para obtener que el modelo esté exactamente
identificado y ası́ poder ocupar sin problemas el método de MCI. Para ello, veremos próximamente distintos tipos de
restricciones.
RESUMEN:
Cuando el modelo está exactamente identificado podemos ocupar MCI y MC2E (y serán iguales de hecho)
Cuando el modelo está sobre identificado, tendremos que ocupar MC2E (ya vimos que con MCI no funciona).
Cuando el modelo está sub identificado, NO podremos ocupar ningún método para estimarlo.
Primera ecuación:
α1 Zt = εt :
0
0
1
Impondremos la restricción: β13 = 0, es decir, α1 0 =0
..
.
0 (G+k)×1
Supongamos que tenemos otra restricción homogénea: β11 = β12 . ¿Cómo la escribimos con la notación?
1
−1
0
α1 0 = 0
..
.
0
Página 52 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
α1 Φ(1) = 0
Pero, estas restricciones a priori vienen de la teorı́a. Tenemos otras restricciones que vienen de la Matemática:
π = −B −1 C
Bπ + C ≡ 0
Y definimos:
0 1
0
−1
1 0
Φ(1) = 0 0
.. ..
. .
0 0
0 0 (G+k)×r
1
Lineales: Rβ = r
Homogéneas: Ejemplo 5β14 − 3γ13 + γ1,10 = 0
Exclusión: Ejemplo βij = 0, γij = 0
OJO: No abarca restricciones como: 2β12 − 5γ23 = 0 no coincide primer sub-indice (1 6= 2).
Identidades:
a) α1 Φ(1) ≡ 0
b) π ≡ −B −1 C, entonces,
π
Bπ + C ≡ 0 ⇐⇒ B C ≡ 0 ⇐⇒ Aw ≡ 0
IK
Y por ende, α1 w = 0.
Desarrollemos esto,
α1 w Φ(1) = 0
Luego, α1 ∈ M1×(G+K) , w Φ(1) ∈ M(G+K)×(K+R(1) ) . Ası́, tenemos K + R(1) ecuaciones y G + K incógnitas.
Página 53 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Teorema:
Sea M x = 0, sistema con m ecuaciones y n incógnitas con r(M ) ≤ mı́n(m, n), entonces, tendremos que:
r(M ) + n(M ) = 0
TEOREMA DE RANGO:
r w Φ(1) = (G + K) − 1
Si se cumple esto, la ecuación 1 está identificada
(OJO que esto puede ser perfectamente identificada o sobre-indentificada, pero lo importante es que se puede estimar
de forma unı́voca).
Condición de Orden:
G + K − 1 ≤ K + R(1)
G − 1 ≤ R(1)
Con esto, vemos que siempre será necesario tener restricciones.
Caso particular: Todas las R(1) son sólo restricciones de exclusión. Notación: Sea gi número de restricciones endógenas
incluidas en la ecuación 1 y k1 número de restricciones predeterminadas incluidas en la ecuación 1.
Luego, R(1) = (G − g1 ) + (K − k1 ). Por lo tanto,
(G − g1 ) + (K − k1 ) ≥ G − 1
(K − k1 ) ≥ g1 − 1
Por otro lado, tenemos un teorema que es equivalente al Teorema de Rango que enunciamos. Dice lo siguiente:
Teorema:
r[A · Φ(1) ] = G − 1
EJEMPLO:
γ11 = γ22 = 0
Página 54 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Luego,
0 0
0 0
Φ(1) =
1
0
0 1
0 0
β11 β12 γ11 γ12 0 0
A · Φ(1) =
β21 β22 γ21 γ22 1 0
0 1
γ11 γ12 0 0
= =
γ21 γ22 γ21 γ22
¿Rango de la última matriz? Es 1. La cual coincide con G − 1 dado que G = 2. Estamos BIEN.
RECORDAR: Cuando R(1) = G − 1 se dice que la ecuación 1 está exactamente identificada. Y cuando R(1) > G − 1
se dice que la ecuación 1 está sobre-identificada.
RESUMEN - Identificación:
1. R W Φ(i) = G + K − 1
2. R[A · Φi ] = G − 1
OJO: 1. y 2. son equivalentes.
3. R(1) ≥ G − 1, donde K − ki ≥ gi − 1
Página 55 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Restricciones
1. Identidades:
Ejemplo:
qD = α0 + α1 p + ε1
O
q = β0 + β1 p + β 2 w + ε 2
D
q ≡ qO
Las endógenas son: q D , q O , p, o sea, G = 3. Al poner la tercera ecuación, hacemos que el modelo esté exactamente
identificado.
Ejemplo:
Y1 + β12 Y2 + γ11 X1 = ε1
β21 Y1 + Y2 + γ21 X1 = ε2
γ11 + γ21 = 0
Y1 = π11 X1 + r1
Y2 = π12 X1 + r2
Ası́, tenemos dos parámetros predeterminados. Luego, no podemos estimar, no está identificado. No está identificada
ni la primera ecuación, ni la segunda.
β12 ≡ 0
Y1 + γ11 X1 = ε1
β21 Y1 + Y2 + γ21 X1 = ε2
γ11 + γ21 = 0
f11 f12 1 0 γ11
Ahora, sea F = Multiplicamos F a AZt = εt , con A = [B; C], B = ,C = . Luego,
f
21 f22 β21 1 γ21
1 0 γ11
A=
β21 1 γ21
Ası́,
(f11 + f12 β21 )Y1 + f12 Y2 + (f11 γ11 + f12 γ21 )X1 = ε∗1
(f21 + f22 β21 )Y1 + f22 Y2 + (f21 γ11 + f22 γ21 )X1 = ε∗2
Página 56 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Ecuación (2):
f21 + f22 β21 f21 γ11 + f22 γ21 ε∗
Y1 + Y2 + X1 = 2 = ε∗∗
2
f22 f22 f22
f22 γ11 f21 γ11 + f22 γ21 f22 (γ11 + γ21 ) + f21 γ11
+ = 0 =⇒ =0
f22 f22 f22
Como γ11 + γ21 = 0,
f21 γ11
= 0 =⇒ f21 ≡ 0
f22
Luego, para que las ecuaciones transformadas sean admisibles, entonces Y2 no puede estar en la primera ecuación,
luego, f12 ≡ 0.
Finalmente,
f11 0
F =
0 f22
Escribamos el sistema de ecuaciones reducidas: (acá no hay que transformar nada, primero, despejaremos Y1 e Y2 en
función de las variables predeterminadas).
Y1 = −γ11 X1 + r1
Y2 = (β21 γ11 − γ21 )X1 + r2
Asi,
Y1 = π11 X1 + r1
Y2 = π21 X1 + r2
18.2. Estimación
Sistema de Ecuaciones Recursivas
1 0
(i) B es triangular inferior, B =
β21 1
P P σ11 0
(ii) es diagonal, =
0 σ22
Ejemplo:
Y1 + γ11 X1 = ε1
β21 Y1 + Y2 + γ21 X1 = ε2
Página 57 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Vemos que cuando tengamos un caso ası́, estimaremos por MCO ecuación por ecuación. La primera, es trivial ver que
se puede, la segunda no tanto.
MC2E
Sea
y1t = −β12 y2t − β13 y3t − ... − β1g ygt − γ11 x1t − ... − γ1k xkt + ε1t
y1 = Y1 β + X1 γ + ε1
β12 γ11
... −xk T ×k , β = ... , γ = ...
con Y1 = −y2 −y3 ... −yg , X1 = −x1
T ×(g−1)
β1g (g−1)×1 γ1k k×1
β
Este modelo también se puede escribir como: y = Z1 α + ε1 con α = y Z1 = [Y1 ; X1 ].
γ
Tenemos X = [X1 ; X2 ], luego, la primera etapa será:
Z1 = Xδ + η
con k ≥ g −1+k, el cual es condición necesaria para que la ecuación esté identificada (estimamos esta etapa por MCO).
1 · yi = Y1 β + X1 γ + ε = Z1 α + ε
Z1 = [Y1 ; X1 ]; α0 = [β 0 , γ 0 ]
XT ×k = [X1 ; X2 ]
K ≥ g1 − 1 + k1
Z1 = Xδ + ν
δ̂M CO = (X 0 X)−1 X 0 Z1
Página 58 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Encontrar Ẑ1
MCO: y1 = Ẑ1 α + ν
Finalmente, α̂M CO = (Ẑ10 Ẑ1 )−1 Ẑ10 y1
pero Ẑ1 = PX Z1 , entonces
α̂M CO = [Z10 PX
0
PX Z1 ]−1 Z10 PX
0
y1
0 2 n
pero la matriz de proyección cumple con: PX = PX y PX = PX (por ende, PX = PX ), por lo tanto,
MC3E
Requisitos:
Eliminar todas las ecuaciones que no están identificadas.
Eliminar las identidades.
Supongamos que tenemos la ecuación i-ésima que está identificada:
yi = Yi βi + Xi γi + εi = zi αi + εi
con Zi = [Yi ; Xi ], αi0 = [βi0 ; γi0 ]. Multiplico todo por X 0 .
X 0 yi = X 0 Zi αi + X 0 εi
0
E(X εi ) = 0
0
E(X εi ε0i X) = X 0 E(εi ε0i )X = X 0 σii X = σii X 0 X
Ahora, esto lo estimaremos por MCG:
α̂i(M CG) = [Zi0 X(X 0 X)−1 X 0 Zi ]−1 Z10 X(X 0 X)−1 X 0 yi ≡ [Zi0 PX Zi ]−1 Z10 PX yi ≡ α̂M C2E
Página 59 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
0
Yit = αi + Xit β + εit
α̃i = α + µ̃it
E(µit ) = 0
E(µ2it ) = σi2
E(µit µis ) = 0; t 6= s
E(µit µjt ) = 0; i 6= j
Y1 α1 X1
Y2 iT 0 0 ... 0 α2 X2
0 iT 0 ... 0
.. .. ..
.. .. .. ..
. .. . .
Yi .
= . . . . + β + ε
. .
. .. .. .. .. .. ..
..
. . . . .
..
0 0 0 ... iT nT ×n
YT αn Xn
iT 0 0 ... 0
1 0 iT 0 ... 0
1 ..
.. .. .. ..
con iT = .
.
,yD= . . . . = In ⊗ iT .
.
. . .. .. .. ..
.. . . . .
1 T ×1
0 0 0 ... iT
Ası́,
Y = Dα + Xβ + ε
Forma ”carretera”:
α
Y = D X +ε
β
= Wγ + ε : M CO
Pero hay una forma ”más elegante”: Ocuparemos la matriz de proyección M = I − X1 (X10 X1 )−1 X10 para el modelo:
Y = X1 β̂1 + X2 β̂2 + e
Recordar que todas las matrices de proyección cumplen con simetrı́a e idempotente: M 0 = M, M 2 = M .
M1 Y = M1 X2 β̂2 + e
Pero esta es la primera parte, ahora voy a multiplicar por X20 a la izquierda:
Esto puede ocurrir ya que (X20 M1 X2 ) ∈ Mk2 ×k2 y por ende existe inversa.
Página 60 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Y = Dα + Xβ + ε
β̂ = (X 0 MD X)−1 X 0 MD Y
OJO: Ver demostración de que (X 0 MD X) tiene inversa, o sea, que es de rango completo. Eso no es trivial.
1
PD = In ⊗ JT
T
JT
= In ⊗
T
= In ⊗ J¯T
MD = In ⊗ IT − In ⊗ J¯T
= In ⊗ (IT − J¯T )
Página 61 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Finalmente,
ET 0 ... 0
0 ET ... 0
MD = .
.. .. ..
..
. . .
0 0 ... ET
β̂ = (X 0 MD X)−1 X 0 MD Y
ET 0 ... 0 Y1
0 ET ... 0 Y2
MD Y = .
. .. . . .. ..
. . . . .
0 0 ... ET Yn
O sea, lo que estamos haciendo acá es calcular la diferencia contra la media temporal en cada tiempo, es decir,
0
Yit = αi + Xit + εit
0
Ȳi∗ = αi + X¯i∗ β + ε¯i∗
0
(Yit − Y¯i∗ ) = 0
(Xit − X¯i∗ )β + (εit − ε¯i∗ )
O sea, finalmente,
Otro (ii):
0
Ȳi∗ = αi + X̄i∗ β + ε̄i∗
T n n T
1X 1X 1 XX
Z̄i∗ = Zit ; Z̄∗t = Zit ; Z̄∗∗ = Zit
T t=1 n i=1 nT i=1 t=1
Luego,
Y = Dα̂ + X β̂EF + e
Y − X β̂EF = Dα̂ + e
D0 e = 0
0
D (Y − X β̂EF ) = D0 Dα̂
α̂ = (D0 D)−1 D0 (Y − X β̂EF )
α̂ = (D0 MX D)−1 D0 MX Y
OJO: Y = Dα + Xβ + ε, D = In ⊗ iT .
Página 62 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Sea
0
Yit = αi + Xit β + Zi0 γ + εit
Y = Xβ + Zγ + Dα + ε
Con esto,
H0 : α1 = α2 = ... = αn = α
2 2
RSR − RCR /(n − 1)
HA : F = 2
(1 − RSP )/(nT − n − k)
Página 63 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
β̂EF = (X 0 MD X)−1 X 0 MD Y
V ar(β̂EF ) = s2 (X 0 MD X)−1
e0EF eEF
s2 =
nT − n − k
Y = Xβ + w
wit = εit + µi ; t = 1, ..., T
α̃i = α + µ̃i
0
E(ww ) = V = σi2 PD + σε2 MD = IN ⊗ Ω
Vimos que:
1 1
V −1 = PD + 2 M D
σ12 σε
−1/2 1 1 1 ¯ 1
V = PD + MD = In ⊗ Ω−1/2 = In ⊗ JT + ET
σ1 σε σ1 σε
Luego,
β̂EA = β̂M CG = (X 0 V −1 X)−1 X 0 V −1 Y = f (θ, X, Y )
σε
con θ = .
σ1
Observación i:
Ω−1/2 /Yi = Xi β + wi
1 σ2 ¯
Ω−1/2 = ET + JT
σε σ1
1
ET + θJ¯T
=
σε
1
= [IT − J¯T + θJ¯T ]
σε
1
= [IT − (1 − θ)J¯T ]
σε
1
= [IT − cJ¯T ]
σε
Si c = 1, tendrı́amos la fórmula de efecto fijo.
−1/2
Ω 0 ... 0 1 1 ... 1
−1/2
0 Ω ... 0
¯ 1 1 1
... 1
Notar que V −1/2 = . , JT = .. .. .. , ET = IT − J¯T .
. . .. ..
.. .. .. . T . . . .
−1/2 1 1 ... 1
0 0 ... Ω
Recordar que w: within, es equivalente al efecto fijo. O sea,
e0w ew
σ̂ε2 =
nT − n − k
son los residuos del modelo de efecto fijo.
O sea, β̂EF = (X 0 MD X)−1 X 0 MD Y = β̂w .
Página 64 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Y = Xβ + ε
PD Y = PD Xβ + PD ε
PD = In ⊗ J¯T
MD = InT − PD
V ar(PD ε) = σε2 PD
β̂B = [X 0 PD (σε2 )−1 PD PD X]−1 X 0 PD (σε2 )−1 PD PD Y
= (X 0 PD X)−1 X 0 PD Y
e0b eb 1
σ̂µ2 − σ̂ 2
=
n−k T ε
e0b eb e0w ew
1
= −
n − k T nT − n − k
e0b eb e0w ew
1
PROBLEMA: Nadie me asegura que >
n−k T nT − n − k
2
σ
OJO con esta igualdad: ε + σµ2 = σµb
2
.
T
Luego,
σε
θ =
σ1
σ12 ≡ T σµ2 + σε2 =⇒ σ12
Test de Hausman
0
Yit = αi + Xit β + Zi γ + εit + µi
W = [X; Z]
w = ε+µ
H0 : E[W 0 w] = 0
HA : E[W 0 w] 6= 0
Página 65 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Si se da H0 : significa que hay efectos aleatorios (eficiente), efecto fijo (consistente), pooled (consistente). OJO: Pooled,
Between, Within son todos estimadores eficientes, pero el que gana es el de MCG.
OJO: En HA efecto fijo sigue siendo consistente.
Sea,
q̂ = β̂w − β̂EA
= β̂EF − β̂EA
Bajo H0 : p lı́m q̂ = 0 = β − β
También, tendremos que V ar(β̂w − β̂EA ) = V ar(β̂w ) + V ar(β̂EA ) − 2Cov(β̂w , β̂EA ), pero Cov(β̂w , β̂EA ) = V ar(β̂EA )
(esto no lo va a demostrar). Asi,
OJO: En muestras finitas funciona bien este, pero ahora veremos una solución más completa:
0
Ỹit = X̃it ˜ 0 γ + ε̃
β + X̃it it
Yi = Xi0 β + εi
Página 66 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Veamos la heterocedasticidad:
Yi = 1: εi = 1 − Xi0 β
Yi = 0: εi = −Xi0 β
E(εi |Xi ) = E(εi ) = 0
= (1 − Xi0 β)P [Yi = 1|Xi ] + (−Xi0 β)P [Yi = 0|Xi ]
= (1 − Xi0 β)P [Yi = 1|Xi ] + (−Xi0 β)[1 − P r[Yi = 1|Xi ]]
= P r[Yi = 1|Xi ] − Xi0 β = 0
Entonces,
P r[Yi = 1|Xi ] = Xi0 β
P r[Yi = 0|Xi ] = 1 − Xi0 β
¿Por qué es heterocedástico? Calculemos la varianza:
V ar(εi |Xi ) = (1 − Xi0 β)2 P r[Yi = 1|Xi ] + (Xi0 β)2 P r[Yi = 0|Xi ]
= (1 − Xi0 β)2 (Xi0 β) + (Xi0 β)2 (1 − Xi0 β)
= (1 − Xi0 β)(Xi0 β)
Y acá vemos que hay heterocedasticidad ya que la varianza depende de las variables explicativas.
Pero ya sabemos que esto no es terrible, tenemos métodos para poder subsanar la heterocedasticidad. El problema de
MCO vive en los problemas 2. y 3.
Acá, entra los métodos Logit y Probit que vienen a solucionar esto.
∂F (x)
Xi0 β =⇒ 0 ≤ F (Xi0 β) ≤ 1, f (x) =
∂x
R Xi0 β 1 R Xi0 β
1. Probit: F (Xi0 β) ≡ Φ(Xi0 β) = −∞
φ(z)dz = √ exp(− 21 z 2 )dz.
2π −∞
Caracterı́sticas:
lı́mz→∞ Φ(z) = 1
lı́mz→−∞ Φ(z) = 0
Notar que Φ(z) ∼ N (0, 1).
exp(Xi0 β)
2. Logit: F (Xi0 β) ≡ Λ(Xi0 β) =
1 + exp(X10 β)
exp(Xi0 β)
λ(Xi0 β) = = Λ(Xi0 β)[1 − Λ(Xi0 β)] = P r[Yi = 1|Xi ][1 − P r[Yi = 1|Xi ]]
[1 + exp(Xi0 β)]2
1
Λ(x, µ, s) = ;s > 0
1 + e−(x−µ)/s
Página 67 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
e−(x−µ)/s
f (x, µ, s) =
s(1 + e−(x−µ)/s )2
π2 2
con E(X) = µ, V ar(X) = s
3
Con µ = 0, s = 1 tenemos Λ normalizada.
Sea
Yi∗ = Xi0 β + εi
con Yi∗ latente y εi ∼ N (0, σ 2 ) y Yi∗ ∼ N (Xi0 β; σ 2 ).
Tendremos como proxy Yi que será 0 ssi Yi∗ > 0 e igual a 1 ssi Yi∗ ≤ 0.
Supongamos que tenemos Yi = 0 con i = 1, 2, ..., m (m datos) y Yi = 1 con i = (m + 1, m + 2, ..., n) (n − m datos).
Calcularemos esto por verosimilitud.
L = L(Yi = y1 , Y2 = y2 , ..., Yi = yi )
Supondremos que los efectos son independientes para cada i. Luego,
P r[Yi = 1|Xi ] = Φ(Xi !‘β)
P r[Yi = 0|Xi ] = 1 − Φ(Xi !‘β)
Luego, dada la independencia, tendremos:
0 0
L = Πm n
i=1 (1 − Φ(Xi β))Πi=m+1 Φ(Xi β)
= Πni=1 Φ(Xi0 β)yi (1 − Xi0 β)1−yi , yi = {0, 1}
Luego,
n
X
L = ln(L) = [yi ln(Φ(Xi0 β))] + (1 − yi ) ln(1 − Φ(Xi0 β))
i=1
Derivamos:
n
∂L X fi fi
= 0= [yi Xi − (1 − yi ) Xi ]
∂β i=1
F i 1 − Fi
∂F (Xi0 β)
con fi = , Fi = F (Xi0 β).
∂β
Desarrollando, tendremos que:
n n
X yi fi Xi (1 − Fi ) − (1 − yi )fi Xi Fi X (yi − Fi )fi Xi
= =0
i=1
Fi (1 − Fi ) i=1
Fi (1 − Fi )
2. Effron:
n
X
R22 = 1 − [n (Yi − Ŷi )2 /n1 n2 ]
i=1
P
con n1 = Yi y n2 = n − n1
3. Cragg y Uhler:
2/n 2/n 2/n 2/n
0 ≤ R32 = [LSR − LR ]/{(1 − LR )/LSR } ≤ 1
Página 68 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Datos Agrupados
Modelo de Probabilidad Lineal
Pi = Xi0 β; i = 1, 2, ..., J
mi
P̂i = ; ni >> 1; ∀i
ni
P̂i ≈ Pi
P̂i = Pi + εi , E(εi ) = 0
mi ∼ B(ni , pi )
V ar(P̂i ) = V ar(εi )
1 ni pi (1 − pi ) pi (1 − pi )
= V ar(mi ) = =
n2i n2i ni
1. MCP (Mı́nimos Cuadrados Ponderados)
r
ni
wi =
pi (1 − pi )
r
ni
ŵi =
p̂i (1 − p̂i )
N
X
mı́n ŵi2 (p̂i − Xi0 β)2
i=1
Modelo Logit
exp(Xi0 β)
Pi =
1 + exp(Xi0 β)
1
1 − Pi =
1 + exp(Xi0 β)
Pi
ln = Xi0 β, ni >> 1
1 − Pi
" #
P̂i Pi
ln = ln + εi
1 − P̂i 1 − Pi
E(εi ) = 0
Series de Taylor (1er orden)
" #
P̂i Pi 1 − Pi
ln ≈ ln + (P̂i − Pi ) [(1 − Pi )−1 + Pi (1 − P1 )−2 ] + Resto
1 − P̂i 1 − Pi Pi
Pi 1 1
≈ ln + (P̂i − Pi ) +
1 − Pi Pi 1 − Pi
Con resto ≈ 0.
Ahora, la varianza será:
" #
P̂i 1 1
V ar ≈ V ar (P̂i − Pi ) =
1 − P̂i Pi (1 − Pi ) ni Pi (1 − Pi )
Página 69 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Heckman
PRIMERA ETAPA: Sea Ii que puede tomar los valores 0 y 1.
I1 = 1 ssi Yi∗ ≥ 0 y I1 = 0 ssi Yi∗ ≤ 0. Luego, se estima con probit el ratio hatβ/σ que es consistente para β/sigma.
donde εi ∼ N (0, σ 2 ).
Luego, X ∼ N (µ, σ 2 ).
a−µ φ(α)
E[X|X > a] = µ + σλ(α), α = , λ(α) =
σ 1 − Φ(α)
σφ(Xi0 β/σ)
E[εi |εi ≥ −Xi0 β] =
1 − Φ(−Xi0 β/σ)
σφ(Xi0 β/σ)
=
Φ(Xi0 β/σ)
σφ(Xi0 β/σ)
Yi = Xi0 β + + vi
Φ(Xi0 β/σ)
X 0 β φ(Xi0 β/σ)
0
V ar(vi |Yi > 0) = σ2 1 − i − (λ(Xi βσ))2
σ Φ(Xi0 β/σ)
Página 70 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Regresiones Truncadas
Importante: NO se observan todas las observaciones en comparación con antes en el modelo de Tobin (caso de regresión
censurada).
Acá no podremos ocupar Heckman debido a que no podrı́amos hacer la parte del Probit (etapa 1).
Sesgo de Selección
Ciertas caracterı́sticas están involucradas en la decisión de entrar o no entrar a la muestra (ejemplo: al IN, a la
Universidad, etc).
ln wi = Xi0 β + ε1i
Ti∗ = Zi0 γ + εoi
con Ti∗ variable latente. Luego, Ti = 1 ssi Ti∗ > 0 y Ti = 0 ssi Ti∗ ≤ 0.
El sesgo de selección ocurrirá si Cov(ε1i , ε0i ) 6= 0, y por ende, ε0i > −Zi0 γ. Supondremos que ε1 ∼ N (0, σ12 ) y
ε0 ∼ N (0, σ22 ).
Y = µ1 + ε1 ; Y ∼ N (µ, σ12 )
X = µ2 + ε2 ; X ∼ N (µ, σ22 )
Luego,
µ1 X
(Y, X) ∼ N ;
µ2
depende de σ12 , σ22 , ρ.
P
Donde
σ12
Vamos a multiplicar la segunda ecuación por y luego las resto:
σ22
σ12 σ12 σ12
Y − 2X = µ1 − 2 µ2 + ε1 − 2 ε2
σ2 σ2 σ2
Y = α + βX + µ
σ12 σ12 σ12
con β = 2 , α = µ1 − 2 µ2 y µ = ε1 − 2 ε2 .
σ2 σ2 σ2
Con E[Xµ] = 0, V ar(µ) = σ12 (1 − ρ2 ) y además,
σ12
ε1 = ε2 + µ
σ22
Página 71 de 72
Métodos Cuantitativos III Universidad de Chile
Daniela Jensen R. Facultad de Economı́a & Negocios
Acá incluı́mos la variable omitida W que representa el sesgo. Si σ10 es estadı́sticamente distinto de 0 (σ̂10 6= 0),
entonces hay sesgo de selección.
Luego, γ 0 Zi ≥ µi −→ F
γ 0 Zi < µi −→ Inf y µi ∼ N (0, σm
2
), σµ2 ≡ 1.
φ(Zi0 γ)
E[µ1i |µi ≤ Zi0 γ] = −σ1µ
Φ(Zi0 γ)
σ1µ
µ1i = µi + ηi
σµ2
φ(Zi0 γ)
E[µ2i |µi ≥ Zi0 γ] = σ2µ
1 − Φ(Zi0 γ)
W1i = φ(Zi0 γ)/Φ(Zi0 γ)
φ(Zi0 γ)
W2i =
1 − Φ(Zi0 γ)
Finalmente,
Página 72 de 72