Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tomás Pacheco
Semestre de Otoño 2020
Magistrales 1 y 2 - 06/03/2020
Medidas de asociación lineal. Covarianza muestral:
n
X
cov(X, Y ) = (Yi − Y )(Xi − X)
i=1
∗ Es igual a 1 solo cuando existe una relación lineal exacta y directa entre X e Y .
Formalmente: ρX,Y = 1 ⇒ Yi = α + βX; para algun α, β > 0 y ∀i = 1, ...n
∗ Es igual a −1 solo cuando existe una relación lineal exacta e indirecta entre las
variables X e Y . Formalmente: ρX,Y = −1 ⇒ Yi = α + βX; para algun α, β <
0 y ∀i = 1, ...n
CORRELACION 6⇒ CAUSALIDAD
Modelo lineal
Nuestro objetivo es modela relación lineal no exacta entre X e Y . Nuestro modelo va a
ser:
Yi = α + βXi + µi i = 1, ..., n
1
∗ α, β parámetros desconocidos
∗ µi representa a todas las variables inobservables. Es aleatorio.
∗ Suponemos E(µi ) = 0, es decir, en promedio, esperamos que no haya relación entre
X e Y . Este supuesto se hace sobre cada observación.
E(Yi ) = α + βXi
Con esto último decimos que en promedio la relación es exacta.
dE(Yi )
=β ∀i
dXi
β tiene información cualitativa y cuantitativa. β es el efecto marginal.
A veces α no se interpreta. Hay dos condiciones: tiene que tener sentido económico y tiene
que haber observaciones en la región.
Magistrales 3 y 4 - 13/03/2020
Tenemos el modelo:
Yi = α + βXi + µi
Nuestro objetivo es estimar α y β. α̂ y β̂ son parámetro estimados. Quiero estimar Ŷi =
α̂ + β̂Xi asumo que E(µi ) = 0.
X
mı́n e2i
α̂,β̂ | {z }
SRC: suma de residuos al cuadrado
X
mı́n (Yi − Ŷi )2
α̂,β̂
X
mı́n [Yi − (α̂ + β̂Xi )]2
α̂,β̂
2
CPO de α̂ :
∂SRC X
=2 [Yi − (α̂ + β̂Xi )](−1) = 0 (1)
∂ α̂ X
=−2 [Yi − (α̂ + β̂Xi )] = 0 (2)
CPO de β̂ :
∂SRC Xh i
=2 Yi − ((α̂ + β̂Xi )(−Xi ) = 0 (3)
∂ β̂
X
=−2 Xi (Yi − (α̂ + β̂Xi )) (4)
P P
Yi (α̂ + β̂Xi )
De (2), si dividimos por n, obtenemos que: = ⇔ Y = α̂ + β̂X (5).
n n
De (4) obtenemos que
X X X
Xi Yi = α̂
Xi + β̂ Xi2
X X X
Xi Yi = (Y − β̂X) Xi + β̂ Xi2
X X X X
Xi Yi − Y Xi = β̂( Xi2 − X Xi )
| {z } | {z }
=nX =nX
P P
Xi Yi − Y Xi
β̂ = P 2 2
Xi − X n
P
Xi Yi − Y Xn
β̂ = P 2
Xi2 − X n
3
Propiedades algebraicas de α̂ y β̂
P
(I) ei = 0
Intuición: recta por el medio de la nube de puntos.
(III) Ŷ (X) = Y
Intuición: la recta de regresión pasa por las medias muestrales. En otras palabras, pasa
por la nube de puntos.
4
Demostración: de CPO de β̂
α̂ = Y − β̂X ⇒ Y = α̂ + β̂X (1)
Ŷ (X) = α̂ + β̂Xi
Ŷ (X) = α̂ + β̂X
| {z }
dado (1)
Ŷ (X) = Y
(IV) Y = Ŷ
Intuición: la media de las observaciones Yi coincide con la media de las predicciones.
Demostración:
ei = Yi − Ŷi
Yi = ei + Ŷi
X X X
Yi = ei + Ŷi
X X X
Yi = e i + Ŷi
P
P
Yi Ŷi
=
n n
Y = Ŷ
SY
(V) β̂ = ρX,Y ·
SX
Intución entre ρ y β̂
Demostración:
P
(Yi −Y )(Xi −X) P
n−1 xi y i
ρX,Y = qP qP = pP pP
(Xi −X) 2
· (Yi −Y )2 x2i yi2
n−1 n−1
pP √
yi2
P P
xi y i xi y i n−1
β̂ = P 2 = pP 2 pP 2 · pP 2 · √
xi xi x yi n−1
pP i √
yi2
P
xi y i n−1
β̂ = pP 2 pP 2 · √ · pP 2
xi yi n−1 xi
| {z } | {z } | {z }
ρX,Y SY 1/SX
5
P
(VI) β̂ = w i Yi
Intuición: β̂ es una función lineal de Yi .
P
xi
Demostración: llamaremos wi = P 2 .
xi
P
xi y i X
β̂ = P 2 = yi wi
xi
X
β̂ = (Yi − Y )wi
X X
β̂ = Yi wi − Y wi (1)
| {z }
=0?
P P
X xi X −X 0
(1) wi = P 2 = Pi 2 =P 2
x xi xi
X i
⇒ β̂ = Yi wi
P
Notemos que Xi − X = 0 debido a que, por definición, la suma de los desvı́os tiene que
ser cero.
R2 - Bondad de Ajuste
Demostración:
6
X X
(1) 2ei ŷi = Ŷi − Ŷ ei
X h i
= α̂ + β̂Xi ) − (
( α̂ + β̂X) ei
Xh i
= β̂ Xi − X ei
X
= β̂Xi ei − β̂Xei
X X X
= β̂ Xi ei −β̂X ei =⇒ 2 ŷi ei = 0
| {z } | {z }
=0 prop. (II) =0 prop. (I)
X X X
=⇒ yi2 = ŷi2 + e2i =⇒ STC = SEC + SRC
Magistral 5 y 6 - 20/03/2020
Las propiedades alegebraicas anteriores salen de los mı́nimos cuadrados. Ahora vamos a
ver propiedades bajo supuestos clásicos.
∗ Linealidad: es un supuesto que dice que la relación entre X e Y es lineal
Yi = α + βXi + µi i = 1, ..., n
Nos importa la linealidad de α y β, no de X, Y . En econometrı́a moderna, la linea-
lidad es como el piso.
∗ X no aleatoria: las Xi son determinı́sticas. Esto es como si yo hubiese elegido las
X
∗ Esperanza nula ó exogeneidad:
E(µi ) = 0 i = 1, ...n
En promedio esperamos que la relación entre las X y las Y sean lineales y exactas.
Con esto,
E(Yi ) = α + βXi i = 1, ..., n
∗ Homocedasticidad:
var(µi ) = var(µj ) ∀i 6= j
2
var(µi ) = cte ≡ σ i = 1, ..., n
La varianza del shock. Si la varianza no es constante decimos que hay heteroceda-
siticidad. La varianza del shock es la misma para todas las variables.
Notar que si E(µi ) = 0 (exogeneidad) y var(µi ) = σ 2 (homocedasticidad) se cumple
que E(µ2i ) = σ 2 . Demostración:
7
∗ No correlación serial
cov(µi , µj ) = 0 i 6= j
Es una forma débil de independencia entre los términos aleatorios. No hay relación
entre los shocks.
cov(µi , µj ) = E[µi , µj ] = 0
| {z }
=0 (2)
Hago supuestos sobre la µ cuando me importa β porque en este último, el único elemento
aleatorio es µ entonces le pongo propiedades (supuestos) y le limito el comportamiento.
Si saco los supuestos se me caen cosas.
Modelo lineal clásico: notemos que los parámetros desconocidos son α, β y σ.
8
Ahora miramos E(yi ):
E(yi ) = E(Yi − Y )
P
(α + βXi + µi )
yi = (α + βXi + µi ) −
n
P P
nα Xi µi
yi = (α + βXi + µi ) − +β +
n n n
α + βXi − µi ) − (
yi = ( α + βX + µ)
yi = βXi + µi − βX − µ
yi = β(Xi − X ) + µi − (µ)
| {z }
xi
yi = βxi + µi − x
E(yi ) = E(βxi + µi − x)
E(yi ) = E(βxi ) + E(µi ) −E(µ)
| {z }
=0 exog.
σ2
(2) Varianza del estimador: var(β̂) = P 2
xi
1
Prezi sobre Insesgadez de Walter Sosa: https://prezi.com/24oqejal40zh/insesgadez/
9
Acá estamos utilizando todos los supuestos de antes porque utilizamos la insesgadez del
estimador. Ahora:
P
xi yi
∗ Reemplazamos β̂ = P 2
xi
∗ Usamos yi = Yi − Y
∗ Usamos Yi = α + βXi + µi
Llegamos a
" P 2 # X
xµ 1 2
var(β̂) = E P i2i = P 2 2E xi µ i
xi ( xi )
| {z }
(1)
X 2 X XX
(1) xi µ i = (xi µi )2 + 2 (xi µi xj µj )
i i j
X 2 X XX
E xi µ i = x2i E(µ2i ) +2 xi xj E(µi µj )
| {z } i j
| {z }
(2) =σ 2 (3) =0∀i6=j
(2)
(3)
Retomamos:
X 2 X
E (xi µj ) = x2i σ 2
1 X 2
var(β̂ = P 2 2 E xi µ i
( xi )
1 X 2 2
var(β̂) = P xi σ
2
( x2i )
σ2
var(β̂) = P 2
xi
Varianza: cuan lejos/ cuan cerca estamos del parámetro. Los supuestos que usamos:
Si no se cumplen estos supuestos no puedo asegurar que la varianza tiene esa forma.
σ2 σ2
var(β̂) = P 2 =
xi n var(x
ˆ i)
| {z }
(Xi − X)2
P
n
La varianza del estimador está inversamente relacionada con el tamaño de la muestra.
Quiero que var(X) sea grande para que var(β̂) sea mas chica. Quiero tener valores de X
10
más variados.
La var(β̂) depende de σ 2 y esta es la var(µ). Digo que cuanto mayor dispersión, mayor
sea el shock más varianza. El problema es que no conozco ni µ ni su σ 2 . Si tengo shocks
grandes, tengo mucha varianza. Para asegurarme de que me acerco a la isesgadez, resigno
varianza.
Tutorial 20/03/2020
1) Simetrı́a :
Demostración:
cov(X, Y ) = cov(Y, X)
Pn Pn
i=1 (Xi − X)(Yi − Y ) Yi − (Y )(Xi − X)
= i=1
n−1 n−1
0=0
cov(X, Y )
Sea ρX,Y = . Demostración:
SX SY
ρX,Y = ρY,X
cov(X, Y ) cov(Y, X)
=
SX SY SY SX
Por demostración anterior
cov(X, Y ) cov(X, Y )
=
SX SY SX SY
0=0
Propiedades: cov(X, Y ) 6= cov(αX, αX) pero ρX,Y = ραX,αY . Demostración:
11
Paso 3: usamos la definición muestral de ρX,Y :
cov(αX, αY )
ραX,αY =
SX SY
α2 · cov(X, Y )
por (2) = sP sP
2
(αXi − αX) (αYi − αY )2
n−1 n−1
2
α · cov(X, Y )
por (1) = sP sP
2
(αXi − αX) (αYi − αY )2
n−1 n−1
2
α · cov(X, Y )
= sP sP
2
(Xi − X) (Yi − Y )2
α2 ·
n−1 n−1
cov(X, Y )
= sP sP
2
(Xi − X) (Yi − Y )2
n−1 n−1
cov(X, Y )
ραX,αY = = ρX,Y
SX SY
El coeficiente de correlación es menor o igual a uno en valor absoluto, esto es −1 ≤ r ≤ 1.
n Pn 2 n Pn n
X
2 i=1 xi y i X 2 i=1 xi yi X
yi + Pn 2 x i − 2 Pn 2 xi y i ≥ 0
i=1 i=1 xi i=1 i=1 xi i=1
n 2 2
( ni=1 xi yi ) ( ni=1 xi yi )
X P P
2
yi + P n 3
−2 Pn 3
≥0
i=1 i=1 xi i=1 xi
n 2
( ni=1 xi yi )
X P
2
yi − Pn 3 ≥ 0
i=1 i=1 xi
Xn n
X n
X
2 2
( yi xi ≥ ( xi yi )2
i=1 i=1 i=1
" Pn #2
i=1 yi xi
pPn
2
pPn ≤1
y
i=1 i i=1 x2i
r2 ≤ 1
12
Función lineal exacta: cuando ρX,Y = 1 cuando Y es una función lineal exacta de X con
pendiente positiva.
Yi = α + βXi
donde β > 0. Reemplazo la ecuación de arriba en la media muestral.
1X
Y = Yi
n
1X
= (α + βXi )
n
Y = α + βX
Sabemos que yi = Yi − Y :
yi = Yi − Y = α + βXi − α − βX
= β(Xi − X)
yi = βxi
Magistrales 7 y 8 - 20/03/2020
Teorema de Gauss-Markov
Si valen los supuestos clásicos, β̂ tiene la menor varianza en la clase de todos los estima-
dores lineales e insesgados de β.
Inferencia
Me estoy preguntando si β = 0. A partir de los valores de β̂ digo que está cerca de β me
animo a rechazar/ no rechazar. Tenemos que ver los criterios.
H0 : β = 0 vs. HA : β 6= 0
Si H0 : β = 0 es cierta, entonces, aunque β̂ pueda tomar cualquier valor, esperamos que
tome valores cercanos a cero. Si tengo un error muy alejando de 0 me preocupo. Quiero
saber que son numeros alejandos de cero.
13
Asumiendo que β = 0 y a partir de β̂ bajo esos supuestos clásicos, sabemos que si
H0 : β = 0 entonces E(β̂) = 0. Hacemos un nuevo supuesto:
µi ∼ N (0, σ 2 )
No habı́amos asumido que el término aleatorio tenı́a distribución normal. Como Yi es una
función lineal de la µ y β es función lineal de Y , entonces, si µ tiene distribución normal,
β tiene distribución normal y YI también.
σ2
β̂ ∼ N β,
n · var(X)
Esto es gracias a que conozco la distribución de µ. Cuando H0 : β = 0 , se cumple:
σ2
β̂ ∼ N 0, P 2
xi
También:
β̂
Z≡p P ∼ N (0, 1)
σ 2 / x2i
Cuando β̂ es “chico”, Z también es “chico”. Yo quiero que β̂ grande si var es chica.
P (−Zc ≤ Z < Zc ) = 1 − c
siendo c el nivel de significatividad. La región de aceptación va a ser la siguiente:
P (−Zc ≤ Z < Zc ) = 1 − c
Reemplazo Z por su definición y arma el intervalo de confianza:
s s !
σ2 σ2
P −Zc · P 2 ≤ β̂ ≤ Zc · P 2 = 1 − c
xi xi
Tenemos el problema de que σ 2 no se observa, no es muestral. Plantemos el estimador
insesgado de la varianza de µi :
n
X
e2i
i=1
S2 =
n−2
Demostración de la insesgadez:
COM P LET AR
Bajo todos los supuestos clásicos, si H0 : β = 0 es cierta,
β̂
t≡ p P ∼ tn−2
S 2 / x2i
14
p
Lo que S 2 / x2i representa es el standard error.
P
Vamos al caso general:
H0 : β = β0 vs. HA : β 6= β0
Bajo todos los supuestos y cuando es cierta H0 = B0 se cumple
σ2
β̂ ∼ N β0 , P 2
xi
β̂ − β0
Z≡p P ∼ N (0, 1)
σ 2 / x2i
También, como no conocemos la varianza:
β̂ − β0
t≡ p P ∼ tn−2
S 2 / x2i
Reemplazamos B0 por cualquier valor que nos interese. El p-valor nos va a decir con
cuanta probabilidad rechazo la hipótesis.
Tutorial
Corolario: demostraremos que cov(X, e) = 0. Demostración:
1 X
cov(X, e) = (Xi − X)(ei − e)
n−1
1 X
= · (Xi ei − Xi e − Xei + Xe)
n−1
1 hX X i
= Xi e i − X ei
n−1
cov(X, e) = 0
Insesgadez de α̂:
α̂ = Y − β̂X
E(α̂) = E(Y − β̂X)
= E(Y ) − E(β̂X)
P
Yi
=E − E(β̂X)
n
1X
= E α + βX + µi − E(β̂X)
n
= E(α) + E(βX) − E(β̂X)
= α + βX − XE(β̂)
E(α̂) = α
15
Varianza de α̂:
var(α̂) = var(Y − β̂X)
= var(Y ) + var(β̂X) − 2 cov(Y , β̂X)
| {z }
=0
2
= var(Y ) + X var(β̂)
2
2 σ
= var(α + βX + µ) + X P 2
xi
2
2 σ
= var(µ) + X P 2
xi
1 X X 2 σ 2
= 2 var µi + P 2
n xi
2 2
1 X X σ
= 2 var(µ)i + P 2
n xi
2 2
σ 2 σ
var(α̂) = +X P 2
n xi
var(µ) = var(α + βX + µ) porque los dos primeros valores son valores fijos.
Magistrales 9 y 10 - 27/03/2020
Poner más variables sirve para poder hacer un análisis céteris páribus. Agregamos variables
explicativas:
Ahora ninguno de los regresores puede expresarse como una combinación lineal de otros
regresores. Entonces no pueden existir constantes aj tales que:
X
Xk = aj X k
con E(µi ) = 0 y regresores no aleatorios:
∂E(Yi )
= βk ∀i
∂Xki
16
El efecto marginal se hace sobre la esperanza porque ves el efecto en promedio. Si derivara
con µi , el efecto marginal serı́a distinto para cada observación, es por eso que analizo en
promedio.
Como ahora tengo la derivada parcial, me permite hacer el análisis céteris páribus. βk mi-
de el efecto E(Yi ) de cambiar marginalmente la k-ésima variable explicativa, manteniendo
constantes todas las demás. El significado de marginalmente está atado a las unidades de
medida de la variable explicativa.
Ahora vamos a ver qué pasa con el efecto sobre E(Yi ) cuando Xs aumenta en ∆XS :
∆E(Yi ) = β1 +β2 X2i +...+βS (XSi +∆XSi )+...+βk Xki −[β1 +β2 X2i +...+βS XSi +...+βk Xki ]
∆E(Yi ) = βS ∆XSi
Ahora tenemos que incorporar a nuestros modelos variables explicativas que son cualitati-
vas. Vamos a ver fenómenos binarios. Hay que tener en cuenta que son solo dos valores.
Creamos una variable artificial que toma un valor cuando la caracterı́stica está presente y
otro valor distinto cuando no lo está. Llamamos variable dummy a esa variable artificial.
Resulta útil que el nombre de la variable dummy sugiera cuál es la caracterı́stica asociada
al valor 1. La caracterı́stica asociada al valor 0 se lo conoce como categorı́a base. Esto
es clave para la interpretación. Ejemplo:
Wi = β1 + β2 aedui + δ hombrei + µi
Si E(µi ) = 0, entonces:
Entonces, δ es la diferencia entre el salado esperado de un hombre y una mujer que tienen
el mismo nivel de educación. La recta de regresión de los hombres es paralela a la de las
mujeres (misma pendiente) pero tiene una ordenada al origen mayor.
Regla: si hay dos categorı́as incluimos sola una dummy. Si incluimos las dos variables
dummy caemos en lo que se llama la trampa de la variable binaria. Si pongo tantas
variables como categorı́as estoy violando el supuesto de multicolinealidad.
17
Generalizamos: si hay S categorı́as, incluimos S − 1 variables dummies. Ejemplo: si tene-
mos tres regiones, la categorı́a base se da cuando region 1 y 2 son cero.
Con S variables, la estimación e inferencia con variables explicativas binarias es todo igual
que antes. Lo único que cambia es la manera de interpretar los coeficientes.
Con MCO solo necesitmos linealidad en los parámetros. Vamos a ver tres casos:
2. Modelo semi-logarı́tmico
3. Modelo cuadrático en X
Yi = AXiβ exp(µi )
donde A, B son desconocidos. Aplicamos transformación logarı́tmica:
Modelo semi-logarı́tmico
Yi = exp(α + βXi + µi )
α, β desconocidos. Aplicamos transformación:
ln(Yi ) = α + βXi + µi
Si µi constante cuando Xi cambia:
18
Modelo cuadrático
Nos preguntas de qué modo podemos establecer una relación con una curva entre X y Y
(en vez de una recta). El modelo cuadrático en X:
Yi = β1 + β2 Xi + B3 Xi2 + µi
Puedo incorporar variables cuadráticas porque tiene una alta correlación pero no es per-
fectamente lineal. El efecto marginal de X viene dado por:
∂E(Yi )
= β2 + 2β3 Xi
∂Xi
β2 ya no resume el efecto marginal. El signo de β3 indica si el efecto marginal crece o
decrece a medida que X aumenta. Ahora pago un costo mayor al estimar con la curva:
estoy mejor porque ajusto mejor pero ahora la interpretación depende de cada Xi .
Hombre: ln(ŵH ) = β̂1 + β̂2 · aedu + β̂3 · edad + β̂4 · edad2 + β̂5
19
Tutorial
Tenemos el clásico:
SCE
R2 =
SCT
El problema es que crece con la cantidad de variables K. Aparece el ajustado:
SRC
R =1− n−K
2
SCT
n−1
2
Hay dos efectos contrapuestos: cuando sube K, cae SRC y sube el R y el K hace que
2
este mismo caiga. Este R penaliza la adición de variables que no aumenten el poder
explicativo del modelo.
2
El R aumenta con la variable K si el estadistico tK es mayor a 1 en valor absoluto.
Test de significatividad global: vamos a ver con el modelom linear simple. Hipótesis:
H0 : β = 0 vs. HA : β 6==
El estadı́stico:
SCE
F = ∼ F1,n−2
SRC/(n − 2)
Divido numerador y denominador por ST C:
SCE/ST C R2
F = /(SCT (n − 1)) =
SCR (1 − R2 )/(n − 2)
En este caso, F = t2 .
ingresoi = α + βeducacioni + µi
Queremos saber si hay discriminación hacia algún sexo. SI NOS EQUIVOCAMOS QUE-
DA ASI:
ingresoi = α + βeducacioni + δ1 mujer + δhombre + µi
Está mal porque mujeri + hombrei = 1 y hay multicolinealidad perfecta. Va a hacer que
no se pueda usar MCO. Soluciones:
20
1. Eliminar el intercepto
2. Dejar el intercepto e incorporar una única variable dummy
Que una variable sea endógena quiere decir que esta relacionado con el término de error.
Magistrales 11 y 12
Podemos escribir el modelo con k variables de forma matricial. El modelo se escribe como:
Y = Xβ + µ
Definiciones y resultados de algebra matricial:
1. Rango de matriz: número máximo de filas/columnas linealmente independientes.
ρ(X) = rango de matriz de X.
2. Máximo numero de columnas li = máximo número de filas li.
3. Una matriz cuadrada A ∈ Rk×k es no singular si y solo si |A| 6= 0, entonces existe
una unica matriz no singular A−1 a la que llamamos inversa de A, tal que A · A−1 =
A−1 · A = Ik .
4. Sea una matriz A ∈ Rk×k . Entonces: ρ(A) = K ⇒ |A| 6= 0. ρ(A) < k ⇒ |A| = 0. Si
ρ(A) = k significa que todas las filas y columnas son linealmente independientes.
5. Sea una matriz X ∈ Rn×k , no cuadrada, con ρ(X) = k (rango columna completo).
Se cumple que ρ(X) = ρ(X t X) = k.
En nuestro modelo, X t · X, para cualquier n y k es:
P P P
n X2i XP3i · · · P Xki
2
P P P
X2i
P X 2i XP 2 X3i
2i · · · P X2i Xki
t X3i P X2i P X3i X3i ··· X3i Xki
X ·X =
.. .. .. ... ..
. .P .P .
P P P P 2
Xki X2i Xki X3i Xki ··· Xki
El supuesto de no multicolinealidad perfecta, que garantiza que las filas y columnas son
linealmente independientes.
Vimos que ρ(X) = ρ(X t X). Entonces ρ(X) = k ⇒ ρ(X t X) = k ⇒ ∃(X t X)−1 . Que el
rango sea igual a k, me lo garantiza no multicolinealidad perfecta.
∂ (bt a)
∂ (bt a) ∂ b1
a1
= t = =a
∂b ∂ (b a)
a2
∂ b2
es el vector de derivadas!
∂ (bt Ab)
= 2Ab
∂b
b1 A11 A12
Demostración: suponemos k = 2, b = y A = . Notar que bt Ab =
b2 A12 A22
b21 A11 + b22 A22 + 2b1 b2 A12 es una función cuadrática en b (y es un escalar).
∂ (bt Ab)
∂ (bt Ab) ∂ b1
2b1 A11 + 2b2 A12
= = = 2Ab
∂b ∂ (bt Ab) 2b2 A22 + 2b1 A12
∂ b2
Vamos a ver MCO en matrices. La formulación matricial del modelo lineal: Y = Xβ + µ.
Definiciones:
Ŷ ≡ X β̂
e ≡ Y − Ŷ = Y − X β̂
SRC ≡ et · e
22
Si recordamos que e ≡ Y − X β̂ es facil ver que SRC es una función de β̂.
Problema de MCO:
∂ SRC(β̂
=0
∂ β̂
et e = (Y − Ŷ )t (Y − Ŷ ) = (Y − X β̂)t · (Y − X β̂)
= Y T − Y t X β̂ − β̂ t X t Y + β̂ t X t X β̂
= Y t Y − 2β̂ t X t Y + β̂ t X t X β̂
| {z } | {z }
(1) (2)
Notar que (2) es de la forma bt a y que (2) es de a forma bt Ab. La función a minimizar es
la siguiente:
et e = Y t Y − 2β̂ t X t Y + β̂ t X t X β̂
Las FOC, que las obtenemos con el resultado 1 y 2. Chequear cuaderno:
∂et e
= 0 − 2X t Y + 2X t X β̂ = 0 ⇔ X t X β̂ = X t Y
∂ β̂
Llegamos a la FOC igualada a cero:
X t X β̂ = X t Y
β̂ = (X t X)−1 X t Y
β̂ = AY
donde A es una matriz (k×n) con elementos no estocásticos (no aleatorios). Demostración:
Propiedad 2: X t e = 0.
23
Puede obtenerse a partir de la FOC X t X β̂ = X t Y
Implica dos resultados:
Pn
1. =0
Pi=1
n
2. i=1 Xki ei ==, con k = 2, ..., K.
Y = Xβ + µ
Supuestos clásicos:
1) E(µ) = 0
µ1 E(µ1 )
µ2 E(µ2 )
µ = .. ⇒ E(µ) = ..
. .
µn E(µn )
Este supuesto que establece que el vector de esperanzas es igual a cero. Esto implica que,
en promedio, para cada observación espero que sea cero.
24
Ejemplo: 2
µ1 µ 1 µ 2 µ 1 µ 1 µ 3
E µ2 · µ1 µ2 µ3 = E µ2 µ1 µ22 µ2 µ3
µ3 µ1 µ3 µ2 µ3 µ23
E(µ21 ) E(µ2 µ1 ) E(µ1 µ3 ) var(µ1 ) E(µ2 µ1 ) E(µ1 µ3 )
var(µ) = E(µ2 µ1 ) E(µ22 ) E(µ2 µ3 ) = E(µ2 µ1 ) var(µ2 ) E(µ2 µ3 )
E(µ1 µ3 ) E(µ2 µ3 ) E(µ23 ) E(µ1 µ3 ) E(µ2 µ3 ) var(µ3 )
Usamos el supuesto de exogeneidad porque var(µi ) = E[(µi − E(µi ))] . Si la esperanza es
cero, var(µi ) = E[µ2i ]. Si asumo que las varianzas son iguales, las covarianzas son cero.
2
σ 0 0
var(µ) = σ 2 I3 = 0 σ 2 0
0 0 σ2
Si se viola no correlación serial, no habrı́a cerso en los elementos por fuera de la diagonal
principal. Si se viola homocedasiticidad, los sigmas serı́an distintos. Suponer var(µ) = σ 2 Ik
es suponer homocedasticidad y no correlación serial.
3)X es una matriz (n × k) no estocástica con ρ(X) = k, (rango columna completo). Este
es un supuesto.
β̂ = (X t X)−1 X t Y
= (X t X)−1 X t (Xβ + µ)
= (X t X)−1 X t Xβ + (X t X)−1 X t µ
= β + (X t X)−1 X t µ
E(β̂) = β + (X t X)−1 X t E(µ)
| {z }
=0
E(β̂) = β
No aleatoriedad de X
Exogeneidad
2) var(β̂) = σ 2 (X t X)−1
h i
t
var(β̂) = E (β̂ − E(β̂))(β̂ − E(β̂)
h i
= E (β̂ − β)(β̂ − β)t
25
Aca usamos la isesgadez de beta. Vamos a ver en profundidad β̂ − β).
β̂ = (X t X)−1 X t Y
= (X t X)−1 X t (Xβ + µ)
= (X t X)−1 X t Xβ + (X t X)−1 X t µ
= β + (X t X)−1 Xµ
β̂ − β = β + (X t X)−1 Xµ − β
β̂ − β = (X t X)−1 Xµ
Entonces,
Supuestos usados:
var(βˆ1 )
cov(β̂1 , β̂2 ) · · · cov(β̂1 , β̂K )
cov(β̂ , β̂ )
1 2 var(βˆ2 ) · · · cov(β̂2 , β̂K )
var(β̂ =
.. .. ... ..
. . .
cov(β̂1 , β̂K ) cov(β̂2 , β̂K ) · · · var(βˆK )
Notar:
1. Cada elemento de la diagonal es var(β̂k ) = σ 2 Akk , k = 1, ..., K, donde Akk es el
elemento de la fila k y columna k de la matriz (X t X)−1 .
2. Cada elemento fuera de la diagonal es cov(β̂j , β̂k ) = σ 2 Ajk , j 6= k, donde Ajk es el
elemento j y columna k de la matriz (X t X)−1
La varianza depende de un σ 2 que es un valor desconocido. En su lugar usamos el estimador
insesgado:
n
1 X 2 et e
S2 = ei =
n − K i=1 n−K
Luego, el estimador de la matriz de varianzas y covarianzas es:
V̂ (β̂) = S 2 (X t X)−1
26
Teorema de Gauss-Markov
Bajo todos los supuestos clásicos, el estimador de MCO es el mas eficiente de todos los
estimadores lineales e insesgados (MELI).
∗ Modelo lineal
Inferencia
El supuesto adicional: normalidad
µ ∼ N (0, σ 2 In )
β̂ ∼ N (β, σ 2 (X t X)−1 )
Ahora queremos hacer un test de hipótesis que sea general, para todo:
H0 : ct β − r = 0
27
Calculamos la esperanza y varianza2
E(ct β̂ − r) = ct β − r
var(ct β̂ − r) = var(ct β̂) = ct var(β̂)c
ct β̂ − r
Z=q ∼ N (0, 1)
var(c
ˆ t β̂ − r)
Luego,
ct β̂ − r
t= q ∼ Tn−K
var(c
ˆ t β̂ − r)
El estadı́stico:
SCE/(k − 1)
F = ∼ Fk−1,n−k
SRC/(n − k)
Significatividad de un grupo de variables: en el modelo con K variables, consideremos las
siguienes hipótesis:
H0 : β2 = 0 ∧ β3 = 0 vs. HA : β2 6= 0 ∨ β3 6= 0
Pensemos que estamos constestando dos modelos distintos:
El modelo irrestricto: contiene a las K variables explicativas
28
Demostraciones de TPs
Demostraremos que no es necesario que E(µi ) = 0 para que el estimador de MC de β sea
insesgado. Partimos aplicándole la esperanza a β. Utilizaremos el argumento de que las
xi son estocásticas:
Pn
i=1 xi yi
E(β̂) = E Pn 2
i=1 xi
n
!
1 X
= Pn 2 E xi yi
i=1 xi i=1
n
1 X
= Pn xi E(yi )
i=1 x2i i=1
yi = Yi − Y
Pn
i=1 (α
+ βXi + µi )
yi = (α + βXi + µi ) −
n
P n Pn
nα i=1 Xi i=1 µi
yi = (α + βXi + µi ) − +β +
n n n
α + βXi − µi ) − (
yi = ( α + βX + µ)
yi = βXi + µi − βX − µ
yi = β(Xi − X ) + µi − µ
| {z }
xi
yi = βxi + µi − µ
E(yi ) = E(βxi + µi − µ)
E(yi ) = E(βxi ) + E(µi ) − E(µ)
n
!
1 X
E(yi ) = βxi + E(µi ) − E µi
n i=1
n
1X
E(yi ) = βxi + E(µi ) − E(µi )
n i=1
1
E(yi ) = βxi + E(µi ) − nE(µi )
n
E(yi ) = βxi + E(µi ) − E(µi )
E(yi ) = βxi
29
Retomamos:
n
1 X
E(β̂) = Pn xi E(yi )
i=1 x2i i=1
n
1 X
E(β̂) = Pn xi βxi
i=1 x2i i=1
Pn
i=1 x2i
E(β̂) = n 2 β
P
x
i=1 i
E(β̂) = β
Pn
Si Ii
Concluimos que nuestro estimador MC para el modelo dado es δ̂ = Pi=1
n 2
i=1 Ii
Queremos demostrar, en el contexto del modelo lineal con k variables, que si el número de
observaciones es igual al número de variables explicativas, entonces la suma de residuos
al cuadrado es igual a cero. Para realizar esta demostración vamos a comenzar por la
definición de la suma de los residuos al cuadrado:
SRC ≡ et · e
30
afectar la identidad:
SRC ≡ et · Ik · e
−1
SRC ≡ et · X t · Xt · e
Por un propiedad estadı́stica que se deriva de las condiciones de primer orden de Mı́nimos
Cuadrados Ordinarios sabemos que X t · e = 0. Entonces:
−1
SRC ≡ et · X t ·X t
| {z· e}
=0
SRC = 0
Wooldridge
A cross-sectional data set consists of a sample of individuals, households, firms, cities,
or a variety of other units, taken at a given point of the time. An important feature of
cross-sectional data is that we can often assume that they have been obtained by random
sampling from the underlying population.
y x
Dependent variable Independent variable
Explained variable Explanatory variable
Response variable Control variable
Predicted Variable Predictor variable
Regressand Regressor
It’s a crucial assumption that the average value of µ does not depend on the value of x.
We can write this:
E(µ|x) = E(µ) = 0
This is called the zero conditional mean assumption. It says, for any given value of x,
the average of the unobservables is the same and therefore must equal the average value
of µ in the entire population
The meaning of “linear”: la ecuación del modelo lineal simple es que es linear en paráme-
tros. There are no restriction on how y and x relate to the original explained and expla-
natory variables of interest.
Siempre asumimos que (Xi − X)2 > 0. Si esto no pasa, no podemos calcular los esti-
P
madores mı́nimos cuadráticos.
31
Notas de Walter
A diferencia de la covarianza, la correlación no depende de las unidades de medida de las
variabes. Un cambio en las unidades de medida de una variable se obtiene al multiplicar
cada observación por una constante.
Cuando la mayor parte de los puntos en un gráfico de dispersión están por encima o por
debajo de ambas medias muestrales, la correlación es positiva. Una correlación cercana a
cero debe interpretarse como evidencia de ausencia de una relación lineal entre variables,
pero de ninguna manera indica ausencia de relación.
32
Tutora: Florencia Hnilo Otoño 2020
2
(∑𝑛𝑖 𝑥𝑖 𝑦𝑖 )2
𝑟𝑋𝑌 =
∑𝑥𝑖2 ∑𝑦𝑖2
Notar que esta demostración es válida únicamente para el caso de un modelo lineal con dos
variables: una dependiente (Y) y otra independiente (X).
̅𝑖 )2 = 𝛽̂ 2 (𝑋𝑖 − 𝑋̅𝑖 )2
̂𝑖 − 𝑌
(𝑌
Fijate que el 𝛽̂ queda fuera de la sumatoria porque es una constante. Además, nota que esta
expresión puedo escribirla como:
𝑛 𝑛
2
∑ 𝑦̂𝑖 = 𝛽̂ 2 ∑ 𝑥𝑖2
𝑖 𝑖
Recordá que 𝑌 ̅
̅𝑖 = 𝑌
̂𝑖 . Vamos entonces a la definición del coeficiente de determinación:
2
∑𝑛𝑖 𝑦̂𝑖 2 𝛽̂ 2 ∑𝑛𝑖 𝑥𝑖2
𝑅 = 𝑛 2=
∑𝑖 𝑦𝑖 ∑𝑛𝑖 𝑦𝑖2
2
∑𝑛
𝑖 𝑦𝑖 𝑥𝑖 (∑𝑛
𝑖 𝑦𝑖 𝑥𝑖 )
Sabiendo que 𝛽̂ = ∑𝑛 2 , entonces es fácil ver que 𝛽̂ 2 = 2 2
. Reemplazo:
𝑖 𝑥𝑖 (∑𝑛
𝑖 𝑥𝑖 )
Tutora: Florencia Hnilo Otoño 2020
Fijate que ∑𝑛𝑖 𝑥𝑖2 aparece en el numerador y dos veces en el denominador. Entonces:
(∑𝑛𝑖 𝑦𝑖 𝑥𝑖 )2 1
𝑅2 = 𝑛 2 . 𝑛 2 = 𝑟𝑋𝑌
∑𝑖 𝑥𝑖 ∑𝑖 𝑦𝑖
¡Fin de la demostración!
Vamos ahora a ver que 𝑺𝟐 = 𝝈 ̂𝟐 es insesgado, o sea que 𝐸(𝜎̂2 ) = 𝜎 2 . Esta no es la única
forma de demostrar la insesgadez del estimador de la varianza del error, hay una más fácil con
matrices, pero por ahora vamos con esta.
𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝑢𝑖 (1)
̅𝑖 = 0:
Restando (5) a (4) y teniendo en cuenta que 𝑢̂
𝑢̂𝑖 = 𝑦𝑖 − 𝛽̂ 𝑥𝑖 (6)
“Pero pará Flor, ¿cómo llegaste de (9) a (10)? ¡No tiene sentido!”
Ahí vamos:
2 𝜎2
𝐸 [(𝛽̂ − 𝛽) ] = 𝑉(𝛽̂ ) =
∑𝑛𝑖 𝑥𝑖2
Por otro lado (este paso y el que sigue son difíciles, hacelos mirando las demostraciones,
supuestos y propiedades de la Tutorial 3):
𝑛 𝑛 𝑛 2
∑𝑛𝑖 𝑢𝑖
𝐸 [∑(𝑢𝑖 − 𝑢̅)2 ] = 𝐸 [∑ 𝑢𝑖2 − 𝑛 𝑢̅2 ] = 𝐸 [∑ 𝑢𝑖2 − 𝑛 ( ) ]
𝑛
𝑖 𝑖 𝑖
𝑛 𝑛
1 𝑛
= 𝐸 [∑ 𝑢𝑖2 − (∑ 𝑢𝑖2 + ∑ 𝑢𝑖 𝑢𝑗 )] = 𝑛𝜎 2 − 𝜎 2 = (𝑛 − 1)𝜎 2
𝑛 𝑛
𝑖 𝑖 𝑖≠𝑗
1. Linealidad
3. Homocedasticidad var(µ|X) = σ 2
Un buen estimaodr tiene el menor sesgo y menos varianza posible. Existe un trade-off
entre sesgo y varianza. Aparece el Error Cuadrático Medio, que se define como:
Demostración:
El ECM se puede usar para comparar diferentes estimadores sesgados. Sean β̂ y β̃ dos
posibles estimadores de β, si
ECM (β̂) ≤ ECM (β̃)
36
decimos que β̂ es preferible a β̃. No podemos encontrar un estimador ECM óptimo.
var(β̂) ≤ var(β̃)
Para ello, se puede pensar en las condiciones suficientes para que ocurra: que el sesgo y
la varianza tiendan a cero a medida que n −→ ∞
Fuentes de Sesgo
El estimador de MCO puede estar sesgado, incluso para muestras grandes. Las fuentes
son las que detallaremos.
y = β0 + β1 X̃ + [β1 (X − X̃)] + µ
37
La regresión que se estimará:
y = β0 + β1 X̃ + v
donde v = [β1 (X − X̃] + µ. Se puede ver que existe correlación con las variables.
X̃ = X + ω
Por el hecho de que ω es aleatorio, podemos suponer que corr(ω, X) = 0 y que corr(ω, µ) =
0. Se puede probar que, incluso bajo el supuesto de que ω sea aleatorio
2
p σX
β̂1 →
− 2
β1
σX + σω2
Como el ratio de varianzas es menor a 1, β̂1 estará sesgado hacia el 0, es decir, estamos
subestimando el efecto, incluso para muestras grandes. Si no existe error de medición:
p
σω2 = 0 =⇒ β̂1 →
− β1
Causalidad simultánea
Además de haber un efecto causal de X en y existe un efecto causal de y en X. Esta
reversión de la causalidad hace que X esté correlacionada con el término de error. Un
shock puede hacer que X se vea afectada por el cambio en µ.
Variables Instrumentales
Tenemos el caso más sencillo
y i = β0 + β1 Xi + µi aunque cov(X, µ)
Z −→ X −→ Y
↑ %
µ
Tiene que cumplir dos condiciones:
∗ Exogeneidad: cov(Z, µ) = 0
∗ Relevante: cov(Z, X) 6= 0
38
Z no puede explicar Y pero si tiene que tener relación con X. Hay una diferencia entre
ambos supuestos:
Indentificación de β1
Si se cumple que cov(Z, µ) = 0 y cov(Z, X) 6= 0 permiten identificar el parámetro β1 .
Aquı́ la identificación de un parámetro implica que podemos escribir β1 en términos de
los momentos poblacionales que se pueden estimar con los datos de la muestra.
Si tenemos
y = β0 + β1 X + µ
Calculamos covarianza:
cov(Z, Y ) = cov(Z, βo + β1 X + µ)
cov(Z, Y ) = cov(Z, β0 ) +β1 cov(Z, X) + cov(Z, µ)
| {z } | {z } | {z }
=0 6=0 relevancia =0
cov(Z, Y ) = β1 cov(Z, X)
cov(Z,
c Y)
β̂1 =
cov(Z,
c X)
β̂0V I = Y − β̂1V I X
Si X = Z, β̂1V I = β̂1OLS . Si se cumplen los supuestos de relevancia y exogeneidad
plim(β̂1V I ) = β1
Magistrales - 15/05/2020
Para hacer inferencia podemos suponer que como el estimador de VI es parecido al MCO,
esperamos que se distribuya aproximadamente de forma normal para muestras grandes.
Para hacer inferencia, necesitamos el error estándar.
39
El enfoque tradicional es asumir homocedasticidad, es decir,
E(µ2 |z) = σ 2 = var(µ)
Si al supuesto anterior le adicionamos los supuestos de exogeneidad y relevancia del ins-
trumento, la varianza asintótica de
σ2
var(β̂1V I ) = 2 2
nσX ρX,Z
El grado de dependencia entre X y Z condiciona la varianza:
s
σ̂ 2
SE(β̂1V I ) = 2
SCT · RX,Z
donde SCT es la suma de cuadrados totales. Notemos que en el denominador lo distinto
2 2
con MCO es la aparición de RX,Z . Como RX,Z < 1 =⇒ var(β̂1V I ) > var(β̂1M CO )
40
Hay tres ecuaciones y tres incógnitas. Notar que si z2 = y2 =⇒ V I = M CO. Tam-
bién necesitamos que cov(z2 , y2 ) (relevancia), pero como z1 está presente en la ecuación
estructural, este supuesto debe expresarse en términos de correlación parcial.
Forma reducida y2 = π0 + π1 z1 + π2 z2 + v2
Se llama correlación parcial porque también está z1 , es decir, se controla por otra variable.
La condición de identificación es que
π2 6= 0
y1 = β0 + β1 y2 + β2 z1 + µ1
y2 = π0 + π1 z1 + π2 z2 + π3 z3 + v2
Condición de identificación:
π2 6= 0 o π3 6= 0
Ahora ŷ2 es exógena y podemos usarla como VI de y2 porque es una combinación lineal
de dos exógenas.
Cuando usamos ŷ2 como VI de y2 , los estimadores de VI de β̂0 , β̂1 , β̂2 son idénticos a la
estimación por MCO a partir de la regresión (segunda etapa):
y1 = β0 + β1 ŷ2 + β2 z1 + µ1
Multicolinealidad y MC2E
Si tenı́a multicolinealidad en MCO se me inflaba la varianza. En MC2E el problema puede
ser incluso más serio:
σ2
STˆ C 2 (1 − R22 )
en donde
41
∗ σ 2 = var(µ1 )
La varianza del estimador de MC2E puede ser mayor al de MCO por dos razones. La
primera es que ŷ2 tiene menor varianza que y2 . La segunda es que la correlación entre ŷ2
y las variables exógenas es más alta que entre y2 y esas variables. Si hay multicolinealidad
aumenta el R2 de la primera regresión.
y1 = β0 + β1 y2 + β2 z1 + β3 z2 + µ1
Procedimiento
1) Estimar la primera etapa:
y2 = π0 + π1 z1 + π2 z2 + π3 z3 + π4 z4 + v2
2) Obtener v̂2
y1 = β0 + β1 y2 + β2 z1 + β3 z2 + δ1 v̂2 + error
5) Si rechazo H0 es porque tengo que usar MC2E porque son distintos. La hipótesis nula
es si MCO y MC2E son iguales, si es lo mismo. En Stata corro las dos regresiones, las
guardo con est store name y después hausman iv ols, force.
y1 = β0 + β1 y2 + β2 z1 + β3 z2 + µ1
42
Procedimiento
1) Estimar la ecuación estructural mediante MC2E y obtener µ̂1
2) Estimar la regresión µ̂1 en función de todas las variables exógenas (z1 , z2 , z3 , z4 ) y ob-
tener el R2 (R12 ).
Amenazas a la validez interna: La validez interna tiene dos componentes. En primer lu-
gar, el estimador del efecto causal debe ser insesgado y consistente. En segundo lugar, los
constrastes de hipótesis deben tener el nivel de significación deseado, y los intervalos de
confianza deben tener el nivel de confianza deseado.
Hay cinco fuentes de sesgo que surgen debido a que el regresor está correlacionado con el
término de error de la regresión poblaciónal, violando un supuesto cásico.
Sesgo de la variable omitida: ocurre cuando se omite una variable que determina Y
y además está correlacionada con uno o con más de los regresores incluidos en esa misma
regresión. Si se dispone de datos de variable omitida, entonces se incluye en el modelo.
Si se dispone de datos sobre una o más variables de control, y esas variables de control
son adecuadas en el sentido de que conducen a la independencia de la media condicional,e
ntonces la inclusión de esas variables de control elimina el posible sesgo en el coeficiente
43
de la variable de interés.
Si se agrega una variable cuando no corresponda, esto hará reducir la precisión de los
estimadores de los otros coeficientes. En la práctica, existen cuatro pasos para decidir si
se incluye una variable o un conjunto de variables en la regresión:
2. Preguntarse: cuáles son las fuentes más probables de un sesgo importante de variable
omitida en esta regresión?. Se requiere teorı́a económica.
Sesgo de errores de medida y por errores en las variables: ocurre cuando una
variable independiente se mide de forma imprecisa. Este sesgo depende de la naturaleza
del error de medida y persiste incluso si el tamaño de la muestra es grande. La mejor
manera de resolverlo es obtener una medida precisa de X. Otra solución es usar VI y otra
es estimar los errores con modelos matemáticos.
44
Existen dos razones para la inconsistencia de los errores estándar. La primera de ellas es la
heterocedasticidad. Si el error de la regresión es heterocedástico, estos errores estándar no
constituyen una base fiable para los contrastes de hipótesis y los intervalos de confianza.
Si las variables no son independientes entre distintas observaciones, lo cual puede ocurrir
en datos de panel y series temporales, entonces se necesita un nuevo ajuste en la fórmula
de los errores estándar a fin de obtener errores estándar válidos.
Hay dos condiciones para que el instrumento sea válido. La primera se llama condición
de relevancia, que implica que la correlación entre el instrumento y la variable explicativa
es distinta de cero y la correlación del instrumento con el término de error es cero. A esto
se lo llama condición de exogeneidad del instrumento.
Cuando tenemos varios regresores endógenos, X1i , ..., Xki cada regresor endógeno requiere
su propia regresión en la primera etapa. Esta primera etapa es similar a con un instru-
mento: se regresa la variable dependiente contra todas las variables explicativas exógenas
W y todos los instrumentos Z. En la segunda etapa se estima por MCO, excepto que los
regresores endógenos (X) se sustituyen por sus valores respectivos (X̂).
Bajo los supuestos de la regresión VI, el estimador MC2E es consistente y tiene una
distribución que, en muestras grandes, es aproximadamente normal. La regresión por VI
tiene cuatro supuestos claves:
2. (X1i , ..., Xki , W1i , ..., Wri , Z1i , ..., Zmi , Yi ) son extracciones iid de su distribución con-
junta
45
3. Los valores elevados son poco probables, las X, W, Z e Y tienen momentos de cuarto
orden finitos y distintos de cero
Verificación de validez de los instrumentos. Cuando más relevante sean los instrumentos
más información está disponible para su uso en la regresión VI. Un instrumento más rele-
vante da lugar a un estimador más preciso, as´;i como un tamaño muestral más grande da
lugar a un estimador más preciso. Los instrumentos que explican una pequeña proporción
de la variación de X se denominan instrumentos débiles.
Si los instrumentos son débiles entonces la distribución normal proporciona una aproxi-
mación pobre para la distribución muestral del estimador MC2E. Por lo tanto, no existe
justificación teórica para los métodos habituales de llevar a cabo la inferencia estadı́sti-
ca, incluso en muestras grandes. De hecho, si los instrumentos son débiles, el estimador
MC2E puede estar erróneamente sesgado en la dirección del estimador MCO. Cuando el
instrumento es irrelevante, la distribución para muestras grandes del estimador MC2E no
es la de una variable aleatoria normal, sino mas bien la distribución de un cociente de dos
variables aleatorias normales.
µ̂M
i
C2E
= δ0 + δ1 Z1i + ... + δm Zmi + δm+1 W1i + ... + δm+r Wri + ei
46
Tutorial Práctica de Variables Instrumentales
El comando estat firststage hace un test de significatividad global de los instrumen-
tos. Cuando hay un solo instrumento es igual al test de significatividad individual.
Test de Hausman: con este test lo que hago es testear el supuesto de exogeneidad:
Magistrales - 22/05/2020
Ahora lo que nos interesa es la evolución temporal de las series económicas. Las series de
tiempo tienen dimensión t. La notación es yt y hay distintas frecuencias: anual, semestral,
trimestral, mensual, semanal, diaria, intradiaria. Cuando hay muchos datos en un inter-
valo de tiempo chico se dice una serie de alta frecuencia.
Se usa para computar diferencias. Respeta las unidades de medida. Separa en suma
∗ Logaritmos (logarithms): ln(yt ); ∆ ln(yt ). El logaritmo reduce la varianza. Se le pue-
de aplicar la tasa de crecimiento.
∗ Tasas de crecimiento (growth rates): 100 × ∆ ln(yt )
Veamos el caso particular de lo que es la doble diferencia:
47
Propiedades de las series temporales
Propiedad 1: presentan comportamientos dinámicos. Al estar ordenadas temporalmen-
te, los valores pasados influyen en los valores presentes y futuros. Esto usualmente resulta
en la violación del supuesto de ausencia de correlación en MCO: cov(µi , µj ) 6= 0 ∀i 6= j.
Propiedad 2: usualmente tienen momentos que dependen del tiempo (ej.: media, varian-
za, asimetrı́a, kurtosis, etc.). Esto implia que las series no sean estacionarias. Granger y
Newbold (1974) demostraron que si regresionan dos variables independientes no estacio-
narias, la probabilidad de encontrar una relación espuria es muy alta.
Propiedad 4: los eventos en las series temporales pueden causar quiebres estructurales
en la serie de datos. Se pueden estimar estos cambios mediante dummies, modelos de
regime switching/Markov, etc.
Propiedad 5: muchas series temporales están en una relación de equilibrio de largo pla-
zo (cointegración). Se pueden estimar estas relacionas mediante modelos de corrección de
erroes (MCE).
Propiedad 7: los efectos de las variables explicativas sobre la variable dependiente pueden
variar en el tiempo. Podemos estimar estos efectos dinámicos con modelos que consideran
parámetros variantes en el tiempo.
Autocorrelación
Recordamos los supuestos clásicos:
TS.3. (exogeneidad estricta) E(µt |X) = 0 donde X denota todas las xt e implica:
48
son MELI, es decir, los mejores (menor varianza) estimadores lineales insesgados (E(β̂) −
β = 0).
Si se viola el supuesto TS.5. vamos a perder la eficiencia del estimador. En las series de
tiempo solemos encontrar autocorrelación. No podemos observar los µ0 s pero podemos
analizar los residuos (µ̂). Para analizar esto vamos plantear un test.
yt = x0t β̂ + µ̂t
Ahora lo que hago es meter los resagos del residuo. La hipótesis nula es que no hay
autocorrelación. Entonces se evalúa:
Si el modelo no incluye rezagos de yt , los coeficientes de MCO serán insesgados, pero in-
eficientes. Los errores estándar están mal estimados afectando la eficiencia y la ineficiencia.
Modelos dinámicos
Bajos los supuestos de MCO, la matriz de varianzas y covarianzas de los errores era:
E(µµ0 |X) = σ 2 IT
en donde
var(µ1 ) cov(µ1 , µ2 ) cov(µ1 , µ3 )
. . . cov(µ1 , µT )
cov(µ1 , µ2 ) var(µ2 ) cov(µ2 , µ3 )
. . . cov(µ2 , µT )
ΩAC = E(µµ0 ) cov(µ1 , µ3 ) cov(µ2 , µ3 ) var(µ3 ). . . cov(µ3 , µT )
.. .. .. ... ..
. . . .
cov(µ1 , µt−1 ) cov(µ, µt−2 cov(µ, µt−3 ) . . . var(µT )
49
Si tomamos a γj es la autocovarianza de unos errores separadas j observaciones (constante
para cada j), tenemos que:
σ2 γ1 γ2 γ3 . . . γT −1
γ1
σ2 γ1 γ2 . . . γT −2
γ2 2
γ1 σ γ1 . . . γT −3
ΩAC = γ
2
3 γ 2 γ 1 σ . . . γ
T −4
.. .. .. .. ...
. . . . ...
γT −1 γT −2 γT −3 γT −4 . . . σ 2
La autocovarianza cov(µ1 , µ3 ) hay dos periodos que lo separan, por eso se llama γ2 . A
medida que me alejo de la diagonal principal, aumenta el orden de la autocorrelación. Las
autocovarianzas no dependen del tiempo sino del grado de separación entre dos errores.
γj = cov(µj , µt−j )
Si hay autocorrelación no tengo más ceros, tengo valores distintos de cero. Si saco factor
común sigma, lo que obtengo es lo siguiente:
1 ρ1 ρ2 ρ3 . . . ρT −1
ρ1 1 ρ1 ρ2 . . . ρT −2
ρ2 ρ 1 1 ρ 1 . . . ρT −3
ΩAC = σ 2 × ρ
3 ρ2 ρ1 1 . . . ρT −4
.. .. .. .. . .
. . . . . ...
ρT −1 ρT −2 ρT −3 ρT −4 . . . 1
donde ρj = γj /σ 2 . Como la matriz completa es dificil de estimar algunos propusieron
inicialmente usar un modelo que simplifique ΩAC notablemente, con modelos autorregre-
sivos. Una primera aproximación para modelar la autocorrelación podrı́a ser trabajar con
modelos autorregresivos donde se pretende predecir el futuro de una variable a partir de
sus valores pasados.
yt = β0 + β1 yt−1 + µt
Tutorial
No usamos modelos lineales para probabilidad porque MCO tiene el problema de llegar
a estimar predicciones inconsistentes. Otro problema es que µ es heterocedástico y por
último, el modelo lineal implica derivadas parciales constantes.
Para estimar modelos de probabilidad, están los que se llaman logit y probit. El modelo
no-lineal que se propone es:
p = F (X 0 β)
en donde F (·) tiene las siguientes propiedades:
50
∗ lı́m F (z) = 0 ∗ lı́m F (z) = 1 dF (z)
z→−∞ z→+∞ ∗ f (z) = >0
dz
Probit:
Zz
1 s2
F (z) = √ e 2 ds
2π
−∞
Logit:
ez
F (z) =
1 + ez
El efecto marginal es
∂p
= βk f (x0i β)
∂xk
Solo puedo interpretar el signo porque la derivada depende siempre del individuo. No sirve
interpretar R2 .
Nota 1: Tutoriales - Consultas
Exogeneidad: el instrumento solo le pega a Y a trav́es de X. En µ no hay ninguna
variable que está relacionada con el instrumento. Es óptimo un instrumento
aleatorio.
El instrumento debil es aquel que tiene poca relación con la variable que está ins-
trumentando. Para ver si es debil, hay que hacer el test F y ver si el estadı́stico
es mayor a 10 (regla del pulgar). Que sea debil quiero decir que la correlación es
bajita.
Magistrales - 29/05/2020
Si queremos hacer una predicción para T + 1
eT +1 = YT +1 − ŶT +1|T
51
Si incorporamos una regresión en forma contemporánea es más difı́cil que se cumpla
exogeneidad.
Predicción 6= Pronóstico
Pronóstico: proceso que llevo a cabo para inferir lo que va a suceder con una variable.
Para que un pronóstico sea exitoso deben darse dos requisitos: que existan regularidades,
que sean informativas respecto al futuro y que el método propuesto capture dichas irre-
gularidades. Nos concentramos en los pronósticos de los modelos univariantes.
|1 − − − − − − − − − − − − − − − |T − − − − − |T ∗
En T = observaciones dentro de la muestra (ventana de estimación). H = observaciones
fuera de la muestra (ventana de pronóstico). T ∗ = T + H = observaciones del total de la
muestra. Respecto a la ventana de estimación se puede adoptar alguno de los siguientes
modelos:
Fijo: el origen del pronóstico está fijo. Se realizan pronósticos para T +1, T +2, ..., T +
h
Recursivo: el origen del pronóstico se actualiza sucesivamente. Se realizan pronóstico
a partir de T , luego a partir de T + 1. Se va ampliando la ventana de estimación.
Rolling: el origen del pronóstico se actualiza, pero manteniendo una ventana fija.
En cada paso se adiciona un nuevo dato y se elimina el dato más antiguo.
Los pronósticos pueden ser dinámicos o estáticos. Los últimos se hacen basados en la
última información efectiva disponible. Los dinámicos, por su parte, utilizan el último
pronóstico disponible para el siguiente pronóstico. Si h = 1 ambos pronosticos son iguales.
Las medidas más usuales para medir la precisión de los pronósticos (ex-post) son el RM-
SE (Root Mean Squared Error) y el MAPE (Mean absolute Percentage Error). Queremos
un pronóstico que (eventualmente) sea insesgado y minimice la varianza del error.
La medida más común es el error cuadrático medio, al cual usualmente se le aplica la raı́z
para preservar las unidades de medida.
v
u T +h
u1 X
RM SE = t e2
h t=T +1 t
También son populares las medidas basadas en el error absoluto. El error medio absoluto
porcentual está dado por:
T +h
1 X
M AP E = |pt |
h t=T +1
52
Modelos ARMA
Una serie de tiempo es una colección de observaciones indizada por la fecha de cada ob-
servación (t). Usualmente, la muestra comienza en t = 1 y termina en t = T .
E(yt ) = µt
var(yt ) = γ0t
E(yt ) = µt (T parámetros)
E(yt ) = µ (1 parámetro)
var(yt ) = γ0 (1 parámetro)
E(εt ) = 0, ∀t
53
Metodologı́a Box-Jenkins (1970)
Este es un enfoque puramente estadı́stico. El objetivo es inferir un proceso estocástico
subyacente de una serie. Es un análisis univariado, es decir, solo uso una sola serie tem-
poral. Aquı́, se deja que los propios de la serie temporal nos indiquen las caracterı́stica de
la estructura probabilı́stica subyacente. Se quiere encontrar el modelo (ARMA) de mejor
ajuste a una serie temporal para que los pronósticos sean lo más acertados.
54
Stock y Watson - Series de Tiempo intr.
Conceptos clave:
La variación porcentual de una serie temporal Yt entre los perı́odoss t−1 y t es apro-
ximadamente 100∆ ln(Yt ), siendo la aproximación más precisa cuando la variación
porcentual es pequeña.
En los datos de series temporales, el valor de Y en un perı́odo por lo general está correla-
cionado con su valor en el perı́odo siguiente. La correlación de una serie con sus propios
valores rezagados se denomina autocorrelación o correlación serial. La primera auto-
correlación (o coeficiente de autocorrelación es la correlación entre Yt e Yt−j , es decir,
la correlación entre los valores de Y en dos perı́odos adyacentes.
Modelos autorregresivos
El modelo autorregresivo de primer orden se abrevia mediante AR(1), donde el 1 indica
que es de primer orden. El modelo AR(1) poblaciónal de la serie Yt es:
Yt = β0 + β1 Yt−1 + µt
55
La raı́z del error cuadrático medio de predicción (RECMP) es una meddia de la
magnitud del error de predicción, es decir, de la magnitud de un error estándar cometido
con un modelo de predicción.
r h i
RECM P = E (YT +1 − ŶY +1|T )2
Tiene dos fuentes de error: el error que surge debido a que los valores futuros de µt son
desconocidos y el error cometido en la estimación de los coeficientes β0 y β1 . Si la primera
fuente de error es mucho mayor que la segunda, tal y como puedepocurrir si el tamaño de
la muestra es grande, entonces la RECMP es aproximadamente var(µt ).
El supuesto de que la esperanza condicional de µt es igual a cero dado todos los valores
pasados de Yt , es decir E(µt |Yt−1 , Yt−2 , ...) = 0, tiene dos implicaciones importantes.
El supuesto de que los errores en el modelo ARD tienen una media condicional igual a cero
dados todos los valores pasados de Y y X, es decir que E(µt |Yt−1 , Yt−2 , ..., Xt−1 , Xt−2 , ...) =
0, implica que ningún rezago adicional ni de X ni de Y pertenece al modelo ARD. En
otras palabra,s las longitudes de los rezagos p y q son las verdadores longitudes de los
rezagos, y los coeficientes de los rezagos adicionales son iguales a cero.
56
Estacionariedad
Una serie temporal Yt es estacionaria si su distribución de probabilidad no varı́a en el tiem-
po, es decir, si la distribución conjunta de (Ys+1 , Ys+2 , ..., Ys+T ) no depende de s sea cual
sea el valor de T ; de lo contrario, se dice que Yt no es estacionaria. Dos series se dice que son
conjuntamente estacionarias si la distribución conjunta de Ys+1 , Xs+1 , Ys+2 , Xs+2 , ..., Ys+T , Xs+T )
no depende de s, independientemente del valor de T . La estacionariedad require que el
futuro sea como el pasado, al menos en sentido probabilı́stico.
donde
1. E(µt |Yt−1 , Yt−2 , ..., X1t−1 , X1t−2 , ..., Xkt−1 , Xkt−2 , ...) = 0
2. (a) Las variables aleatorias (Yt , X1t , ..., Xkt ) presentan una distribución estacionaria,
y (b) (Yt , X1t , ..., Xkt ) y (Yt−j , X1t−j , ..., Xkt−j ) pasan a ser independientes cuando j
se hace grande
3. Los valores extremos elevados son poco probables: X1t , ..., Xkt , Yt presentan momen-
tos de cuarto orden finitos y distintos de cero
a) Los datos se tienen que haber obtenido a partir de una distribución estacionaria
de manera que la distribución de los datos hoy es la misma que su distribución
en el pasado. Este supuesto es una versión para series temporales de la parte
“idénticamente distribuı́das”del supuesto i.i.d.
b) Esto requiere que las variables aleatorias sean independientemente distribuı́das
cuando son muchos los perı́odos de tiempo que las separan. Este supuesto
se denomina dependencia debil, y asegura que en muestras grandes exista
aleatoriedad sufuciente en los datos como para que se cumpla la ley de los
grandes números y el teorema central del lı́mite.
3. Este supuesto establece que los valores extremos elevados son poco probables, pre-
cidado en forma matemática supone que todas las variables presentan momentos de
cuarto orden finitos y distintos de cero.
57
Contraste de causalidad de Granger (contraste de contenido predictivo). El
estadı́stico para el contraste de causalidad de Granger es el estadı́stico F para el contraste
de la hipótesis de que los coeficientes de todos los valores de una de las variables es distinto
de cero. Esta hipótesis nula implica que estos regresores no tienen contenido predicitivo
para Yt más allá del contenido en los otros regresores, y el contraste de esta hipótesis nula
se denomina contraste de causalidad de Granger.
Magistrales - 05/06/2020
Los correlogramas muestran la dependencia temporal de una serie. Los modelos ARMA
(AR de autoregresivo, MA de medias moviles) son modelos univariados, es decir, explican
con la historia de la propia variable. Tenemos que el AR(1) es el proceso autorregresivo
de orden 1:
yt = c + φyt−1 + εt , εt ∼ RB(0, σ 2 )
Para este modelo:
El AR(1) va a ser más errático cuando φ → 0 y más tendencial cuando φ → 1. Si |φ| < 1:
c
E(yt ) ≡ µ = γj = φj γ0
1−φ
σ2
var(yt ) ≡ γ0 = ρj = φj .
1 − φ2
Los AR(1) se los conoce como procesos de memoria infinita con decaimiento exponencial.
Cuando mide la correlación no estás mirando la dependencia directa. En correlograma:
las bandas de nulidad: si las barritas están adentro del coso gris es porque no es estadı́sti-
camente significativa.
Para que un AR(p) sea estacionario, tienen que darse ciertas condiciones:
58
Para un AR(2): −1 < φ < 1, φ1 + φ2 < 1, φ2 − φ1 < 1
Para un AR(3): restricciones son mas complicadas.
Un AR(1) estacionario puede pensarse como un proceso derivado de un RB a través de
una recursión:
c
yt = + εt + φεt−1 + φ2 εt−2 + ... si |φ| < 1
1−φ
Los shocks van convergiendo, entonces AR(1) es estacionario si |φ| < 1. Esta expresión es
lo mismo que decir que es un MA(∞) con ψ = φj . Demostración:
yt = c + φyt−1 + εt ⇐⇒ (1 − φL)yt = c + εt
Si |φ| < 1, aplicando (1 − φL)−1 a ambos lados, tengo que:
c εt
yt = +
1 − φL 1 − φL
donde 1
1−φL
= 1 + φL + φ2 L2 + φ3 L3 + .... y tamnbien (1 − φL)(1 − φL)−1 yt = yt . Entonces
la suma ponderada de derminos puramente aleatorios. Esto es un ruido blanco más una
función determinı́sica (kt ).
59
E(yt ) = µ γ1 = θσ 2
γ0 = var(yt ) = σ 2 (1 + θ2 ) γj = 0, ∀j > 1
Todos los MA(q) son estacionarios y la dependencia con el pasado se anula luego de
q-ésimo perı́odo.
Procesos ARMA(p, q)
La función de autocorrelación parcial (PAC, φjj ) mide la correlación entre yt y yt−j luego
de controlar por los rezagos intermedios (aquellos rezagos menores a j). Esto mide la
correlación directa y cada uno de sus rezagos. Autocorrelación parcial de orden 1 es φ1
(yt e yt−1 ). ρ̂2 es la dependencia indirecta. φ22 es la correlación directa. En un AR(1) las
correlaciónes parciales dan 0 a partir de 2.
εt satisface los supuestos bajo los cuales MCO produce estimaciones consistentes y asintóti-
camente normales. Entonces consiste en regresar yt en función de sus rezagos. Estimación
MA(q): se usa el método de máxima verosimilitud o mı́nimos cuadrados no lineales.
Para la etapa de validación vamos a evaluar si los residuos son ruido blanco, porque
ahora los rezagos tienen toda la dinámica explicativa. Evaluando si los rezagos son ruido
blanco:
60
Test de Box-Pierce(Q)
m
X
Q=T ρ̂2t
t=1
Bajo H0 : los residuos son ruido blanco, es decir, todas las correlaciónes deberı́an ser cero.
El test Q se basa en suma de las primeras m autocorrelaciones. La elección de m implica
un trade-off. Bajo H0 , Q ∼ χ2m .
Metodologı́a de Box-Jenkins
1. Garantizar que el proceso es estacionario
2. Mediante correlogramas proponer un ARMA(p, q)
3. Estimarlo
4. Si el modelo es correcto, los residuos deberı́an ser ruido blanco
5. Se puede proceder a realizar pronósticos
Si tenemos varios modelos alternativos con residuos RB usamos alguno de los criterios
de información (penalizan por falta de ajuste y la cantidad de parámetros). Ejemplo:
ln(L(k)) K
Arkaike (AIC): AIC = −2 +2
T T
ln(L(k)) ln(T )
Schwartz (SIC): SIC = −2 +k
T T
Hay que elegir el modelo que minimice alguno de estos criterios.
61
will take on a value less than or equal to r. It is useful to consider the elements of an ob-
served time series {y0 , y1 , y2 , ..., yt } as being realizations (outcomes) of a stochastic process.
White-noise process: a sequence {εt } is a white-noise process if each value in the sequence
has a mean of zero, a constant variance, and is uncorrelated with all other realizations.
Formally, if the notation of E(x) denotes the theoretical mean value of z, the sequence
{εt } is a white-noise process if for each period t:
For each period t, xt is constructed by taking values εt , εt−1 , ..., εt−q and multiplying each
by the associated value of βi . A sequence formed in this manner is called moving average
of order q and is denoted by MA(q).
ARMA Models
It’s possible to combine a moving average process with a linear difference ewuation to
obtain an autorregresive moving average (ARMA) modelo:
p q
X X
y t = a0 + ai yt−i + βi εt−i
i=1 i=0
The autorregresive part of the model is the difference equation given by the homogeneous
partion and the moving average part is the {xt } sequence. If the homogeneous part of
the difference equation contains p lags and the model for xt contains q lags, the model is
called and ARMA(p, q). In ARMA modelo, it is perfectly premissible to allow p and/or q
to be infinite.
Stationarity
Unfortunately, applied econometricians do not usually have the luxury of being able to
obtain an ensemble (i.e., multiple time-series data of the same proces over the same
time period). Typically, we observe only one set of realizations for any particular series.
Fortunately, if {yt } is stationary series, the mean, variance, and autocorrelations can
usually be well aproximated by sufficiently long time averages based on the single set
of realizations.
62
A stochastic process having a finite mean and variance is covariance stationary if for
alla t and t − s,
E(yt ) = E(yt−s ) = µ
E[(yt − µ)2 ] = E[(yt−s − µ)2 ] = var(yt ) = var(yt−s ) = σy2
E[(yt − µ)(yt−s − µ)] = cov(yt , yt−s ) = cov(yt−j , yt−j−s ) = γs
For an AR(p) process, there is no direct correlation between yt and yt−s for s > p. Hence,
for s < p, al values of φss will be zero, and the PACF of a pure AR(p) process should cut
to zero for all lags greater than p
63
In practice, the theoretical mean, variance and autocorrelations of a series are unknown to
the researcher. We can let y, σ̂ 2 , rs be estimates of the mean, variance and autocorrelation,
where
X T T
X
y = (1/T ) yt σ̂ 2 = (1/T ) (yt − y)2
t=1 t=1
Within any large group of autocorrelations, some will exceed two standard deviations as a
result of pure chance even though the true values in the data-generating process are zero.
The Q-statistic can be used to test wether a group of autocorrelations is significantly
different from zero. Box and Pierce (1970) used a sample autcorrelations to form the
statistic s
X
Q=T rk2
k=1
A problem with the Box-Pierce statistic is that it works poorly even in moderately lar-
ge samples. Ljung and Box (1978) reported superior small sample performance for the
modified Q-statistic calculates as
s
X rk2
Q = T (T + 1)
k=1
(T − k)
64
If the sample value of Q calculated exceeds the critical value of χ2 with s degrees of
freedom, then at least one value of rk is statistically different from zero at the specified
significance level. These tests serve as a check to see if the residuals from an estimated
model behave as a white-noise process.
Since ln(T ) will be greater than 2, the SBC will always select a more parsimonious model
than will the AIC; the marginal cost of adding regressors is greater with the SBC than
with the AIC. In the ARMA models, nonlinear search algorithms required to estimate the
model are not likely to converge to a solution.
Of the two criteria, the SBC has a superior large sample properties. AIC works better
than SBC in small samples.
Parsimony
A fundamental idea in the Box-Jenkins approach is the principle of parsimony. Parsimony
(meaning sparseness or stinginess) should come as second nature to economists. Incorpo-
rating additional coefficients will necessarily increase fit at a cost of reducing degrees of
freedom. Box and Jenkins argue that parsimonious models produce between forecasts than
overparametrized models. A parsimonious model fits the data well without incorporating
any needless coefficients. Certainly, forecasters do not want to project poorly estimated
coefficients. Certainly, forecasters do not want to project poorly estimated coefficients into
the future. The aim is to approximate the true-data generating process but not to pin
down the exact process.
Be aware of the common factor problem (page 77). To ensure that the model is parsi-
monious, the various ai and βi should all have t-statistics of 2.0 or greater. Moreover, the
coefficients should not be strongly correlated with each other. Highly collinear coefficients
are unstable; usually, one or more can be eliminated from the model without reducing
forecast performance.
65
Sationarity and Invertibility
The distribution theory underlying the use of the sample ACF and PACF as approxi-
mations to those of the true-data generating process assumes that the {yt } sequence is
stationary. The Box-Jenkins approach also necessitates that the model be invertible.
Formally, {yt } is invertible if it can be represented by a finite-order or convergent au-
toregressive process. Invertibility is important because the use of the ACF and PACF
implicitly asume that the sequence {yt } can be represented by an autoregressive model.
Example.
Goodness of fit
The third-stage of the Box-Jenkins methodology involves diagnostic checking. The
standard practice is to plot the residuals to look for outliers and evidence of period in
which the model does not fit the data well. One common practice is to create the stan-
dardized residuals by dividing each residual, εt , by its estimated standard deviation, σ. If
the residuals are normally distributed, the plot of the εt /σ series should be such that no
more than 5 % lie outside the band from -2 to +2 . If the standardize residuals seem to
be much larger in some periods than in others, it may be evidence of structural change.
Any evidence of serial correlation implies a systematic movement in the {yt } sequence
that is not accounted for by the ARMA coefficients included in the model.
Properties of Forecasts
This is called the forecast function, expresses all of the j-step-ahead forectas as a fun-
ction of the information set in period t. The quality of forecasts decliens as we forectat
further out into the future. For any stationary ARMA model, the conditional forecast of
yt + j converges to the unconditional mean as j → ∞.
We can define the j-step-ahead forecast error, called et (j), as the difference between the
realized value of yt+j and the forecasted value:
The conditional expectation of this error is Et et (j) = 0. Since the expected value of the
forecast error is zero, the forecasts are unbiased. The variance of the forecast error is:
2(j−1)
var[et (j)] = σ 2 [1 + a21 + a41 + a61 + ... + a1 ]
66
Forecast Evaluation
Do not be fooled into thinking that the model with best fit is the one that will fore-
cast best. According to different studies, forecasts using overly parsimonious models with
little parameter uncertainty can provide better forecasts than models consistent witht
the actual data-generating process. Moreover, it is very difficult to construct confidence
intervals for this type of forecast error. Not only is it necessary to include the effects of the
stochastic variation in the future values of {yT +i }, but also it is necessary to incorporate
the fact that the coefficients are estimated with error.
Instead of focusing on the bias, many researchers would select the model with the smallest
mean square prediction error (MSPE).
Given the first two assumptions above are value, under the null hypothesis of equal forecast
accuracy, xi and zi should be uncorrelated. Consider:
If the models forecast equally well, it follows that E(e21i ) = E(e22i ). Model 1 has a larger
MSPE if ρxz is positive, and model 2 has a larger MSPE if ρxz is negative. Let rxz denote
the sample correlation coefficient between {xi } and {zi }. Granger and Newbold show than
if assumptions 1 and 2 hold p
2 )/(H − 1)
rxz / (1 − rxz
has a t-distribution with H − 1 degrees of freedom. Thus, if rxz is statistically different
from zero, model 1 has a larger MSPE if rxz is positive, and model 2 has a larger MSPE
if rxz is negative.
Magistrales 12/06/2020
Tendencia determinı́stica
Consideremos
yt = α + βt + εt , εt ∼ RB(0, σ 2 )
La media, E(yt ) = α + βE(t) y varianza, var(yt ) = σ 2 . Si definimos una nueva variable
y ∗ = y − (α + βt), los residuos son la serie sin tendencia. La tendencia determinı́stica son
funciones del tiempo (polinomios de orden 1 o superior). Este tipo de tendencia implica
que no hay incertidumbre sobre la evolución futura de la tendencia. Conocido el pasado,
entonces el futuro es previsible. La tendencia estocástica es más realista.
67
Problema de la regresión espúria
Tenemos :
yt = α0 + α1 y + υt , υt ∼ RB(0, σ 2 )
xt = λ0 + λ1 t + εt , εt ∼ RB(0, σ 2 )
donde α1 , λ1 6= 0 y que υt y εt están incorrelacionadas entre si. Entonces no existe una
relación entre xt e yt . Sin embargo, una estimación por MCO:
y t = β 0 + β 1 xt + µ t
y t = β 0 + β 1 xt + β 2 t + µ t
68
Tendencia estocástica
Las series pueden presentar distintas series o medias locales que cambian con el tiempo.
La tendencia puede ser estocástica, es decir, no estarı́amos ni en un proceso estacionario
ni tendencial. La tendencia se captarı́a mejor con un esquema estocástico.
Vimos que en un random walk que es un AR(1) con φ = 1 no hay que estimar nada.
Vimos que un AR(1) es un proceso estacionario, en el cual los shocks son temporarios,
la función de autocorrelación decrece exponencialmente. Ahora, un ruido blanco tiene
la caracterı́stica que los shocks son permanentes y la función de autocorrelación decrece
linealmente. 3
RW (puro): yt = yt−1 + εt
yt = φyt−1 + εt , εt ∼ RB(0, σ 2 )
H0 : φ − 1 = 0
φ̂ − 1
T =
SE(φ̂)
El problema es que bajo H0 ya no podemos usar la teorı́a asintótica estándar para estudiar
el comportamiento estadı́stico
3
Si en un correlograma uno observa que cae de a poquito significa que no es estocastico. En AR(1)
con φ > 1 tarda mucho en caer el correlograma de la FA. La parcial hay uno solo significativo.
69
Test de Dickey-Fuller
Sea
yt = φyt−1 + εt , εt ∼ RB(0, σ 2 )
H0 : φ = 1 vs. HA : φ < 1
Se puede reparametrizar de la siguiente manera (a esto se lo llama ecuación de Dickey-
Fuller)
∆yt = (φ − 1)yt−1 + εt = ψyt−1 + εt
Lo que equivale a evaluar
H0 : ψ = 0 vs. HA : ψ < 0
El estadı́stico:
ψ̂
T =
SE(ψ̂)
Si el valor cae a la izquierda del valor crı́tico (rechazo) entonces la variable es estacionaria.
Existen tres versiones del test:
Test de raı́z unitaria (sin componentes determinı́sticos)
∆yt = ψyt−1 + εt
∆yt = α + ψyt−1 + εt
∆yt = α + βt + ψyt−1 + εt
Van cambiando los valores criticos. Si veo tendencia, uso caso 3, sino el 2.
Asumir que todas las variables pueden ser representadas como un AR(1) es una sim-
plificación muy grande. Si εt no son IID, entonces se usa lo que se llama el Augmentes
Dickey-Fuller test (ADF). Ahora supongamos un AR(2).
yt = φ1 yt−1 + φ2 yt−2 + εt
Ahora lo que se testea es si φ1 +φ2 −1 es igual a cero o no (se pueden incluir más rezagos).
En términos generales:
X t
∆yt = ψyt−1 + δ∆yt−j + εt
j=1
70
H0 : ψ = 0 vs. HA : ψ < 0
Para ver cual es el orden apropiado hay que ver que εt no tenga autocorrelación. En Sta-
ta, se corre el comando varsoc. Después cuando se corre el test se incluye dentro de las
opciones lags(#).
Decimos que yt es I(1) (integrada de primer orden) si ∆yt es I(0). es decir estacionaria
a través de la diferenciación. En general, yt es integrada de orden d, I(d) si ∆d yt es I(0)
4
. Es importante notar que no toda variable no estacionaria se identifica como
integrada, hay otras fuentes de no estacionariedad: breaks, heterocedasiticdad, etc.
El test de Dickey-Fuller tiene sus limitaciones. La primera es que es muy sensible a la in-
troducción de constantes y tendencias y la elección del número de lags. Después hay una
suerte de trade-off entre consistencia y potencia en la especificación de los componentes
determinı́sticos similar al problema estándar de variables omitidas. Tercero, incrementar
espúriamente el número de rezagos baja la potencia. Muy importante es que importa la
extención del perı́odo, no de la frecuencia. Las alternativas son dividir la muestra en fun-
ción de los breaks y aplicar el test de unit root por segmento o hacer un Test de Perron
o Zivot-Andrews.
Recomendaciones práticas:
Tutorial 13
Proceso estacionario:
E(xt ) = µ
var(xt ) = σ 2
4
Recomendación: cada vez que se aplique un test de unit root sobre una variable, hacerlo sobre el nivel
y sus diferencias hasta llegar a I(0)
71
Cuando un proceso autorregresivo no cumple con las condiciones de estacionariedad.
In a deterministic trend, as there are no stochastic components in the trend, implies that
there is a deterministic ling-run of the real economy. The Real Business Cycle school
argues that technological advancements have permanent effects on the trend of the ma-
croeconomy.
yt = y0 + a0 t + A(L)εt
This model is called a trend stationary (TS) model. Now suppose that the expected
change in yt is a0 units. Let,
∆yt = a0 + εt
Sometimes, ∆yt exceeds a0 and sometimes it falls short of a0 . Since Et−1 (εt ) = 0, implies
that yt is expected to change by a0 units from one period to the next.
72
The Random Walk Model
The Random Walk model has a special place in the economics and finance literature.
In this kind of model, the current price should be equal to last period’s price plus a
white-noise term, so that
yt = yt−1 + εt ( or ∆yt = εt )
The variance is time dependant. Given the value of y0 , the variance can be constructed
as
var(yt−s ) = var(εt−s + εt−s−1 + ...ε1 ) = (t − s)σ 2
Since the variance is not constant, the random walk process is nonstationary. Moreover,
as t → ∞, the variance of yt also approaches infinity. Como la media es constante, la
coviarianza es
E[(yt − y0 )(yt−s − y0 )] = (t − s)σ 2
El coeficiente de correlación: 0,5
(t − s)
ρs =
t
As s increases, the values of ρs declines. Hence, when using sample data, the autocorre-
lation function for a random walk process will show a slight tendency to decay.
If we take expectations, the mean of yt is y0 +a0 t and the mean of E(yt+s ) = y0 +a0 (t+s).
However, you should not conclude that it is always easy to discern the difference between
a random walk model and a model with drift.
To obtain the s-step-ahead forecast for a random walk plus drift, update the equation by
s periods to obtain
t+s
X s
X
yt+s = y0 + a0 (t + s) + εi = yt + a0 s + εt+i
i=1 i=1
73
The expectation is Et (yt+s ) = yt + a0 s. The forecast function, in contrast to the pure
random walk model, is not flat. The fact that the average change in yt is always a constant
a0 is reflected in the forecast function.
where {ηt } is a white-noise process with variance ση2 ; and εt and ηt−s are independently
distribuited for all t and s. In other words, E(εt ηt−s ) = 0.
The {yt } sequence has a pure noise component in that the {ηt } has only a temporary
effect on the {yt } sequence. The current realization of ηt affects only yt but not the
subsequent values yt+s .
The variance of {yt } is not constant: var(yt ) = tσ 2 +ση2 and var(yt−s ) = (t−s)σ 2 +ση2 .
As in the other models with a stochastic trend, the variance of yt approaches infinity
as t increases. The presence of the noise component means that the correlation
coefficient between yt and yt−s is smaller than that for the pure random walk model.
The covariance:
cov(yt , yt−s ) = (t − s)σ 2
The correlation coefficient ρs is
(t − s)σ 2
ρs = q
2
(tσ 2 + ση) [(t − s)σ 2 + ση2 ]
The effect of noise component {ηt } is to increase the variance of {yt } without affecting
its long-run behaviour. After all, the random walk plus noise series is nothing more than
the random walk model with a purely temporary component added.
This models are the building blocks of more complex time-series models. for example
t
X
yt = y0 + a0 t + εi + η t
i=1
This is called the trend plus noise model; yt is the sum of a deterministic trend, a
stochastic model, and a pure white-noise term. Moreover, the noise sequence does not
74
need to be a white-noise process.
Let A(L) be a polynomial in the lag operator Ll it is possible to augment a random walk
plus drift process with the stationary process A(L)ηt so the general trend plus irregular
model is
t
X
y t = y 0 + ao t + εi + A(L)ηt
i=1
The general point is that the dth difference of a process with d unit roots is stationary.
Such a sequence is integrated of order d and is denoted by I(d). An ARIMA(p, d, q) model
has d unit roots; the dth difference of such a model is statioanry ARMA(p, q) process.
Detrending
DS = difference stationary series. TS=trend stationary
Recall the invertibility of a stationary process requires that the MA component does not
have a unit root. Simply substracting the estimated values of the {yt } sequence from the
actual values yields an estimate of the starionary sequence {et }. The detrend process can
then be modeled using traditional methods (such as ARMA estimation). Check and
complete. 5
Dickey-Fuller Tests
The last section outlined a simple procedure to determine whether a1 = 1 in the model
yt = a1 yt−1 + εt . Begin by substracting yt−1 from each side of the equation in order to
write de equivalent form: ∆yt = γyt−1 + εt where γ = a1 − 1. Testing the hypothesis that
5
Business Cycle: the belief that trend is unchanging over time leads to the common practice of de-
trending macroeconomic data using a linear (or polynominal) deterministic regression equation.
75
Figura 1: Dickey-Fuller Distribution
∆yt = γyt−1 ε
∆yt = a0 + γyt−1 + εt
∆yt = a0 + γyt−1 + a2 t + εt
The differences between the three regressions concerns the presence of the deterministic
elements a0 and a2 t. The first is a random walk, the second adds an intercept or a drift
term and the third includes both a drift and a linear time trend. The parameter of interest
is γ; if γ = 0, the sequence {yt } contains a unit root. The test involves estimating one (or
more) of the equations above using OLS in order to obtain the estimated value of γ and
the associated standard error. The tree equations listed above can be estimated by OLS;
be aware that the critical values of the t-statistics do depend on whether an intercept
and/or time trend is included in the regression equation.
Tests including lagged changes are called augmented Dickey-Fuller test and the same τ, τµ
and ττ statistics are all used to test the hypotheses γ = 0.
The φ1 , φ2 , φ3 statistics are contructed in exactly the same way as ordinary F-tests:
[SSC(restricted)-SSR(unrestricted)]/r
φi =
SSR(unrestricted)/(T − k)
where SSR(restricted) and SSR(unrestricted) are the sums of the squared residuals from
the restricted and unrestricted models, r the number of restrictions, T number of usable
observations, and k number of parameters estimated in the unrestricted model. Hence,
T − k = degrees of freedom in the unrestricted model.
Thus, if the calculated value of φi is smaller than that reported by Dickey-Fuller, you can
accept the restricted model.
76
Extentions of the Dickey-Fuller Test
Not all time-series variables can be well represented by the first-order autoregressive pro-
cess. Consider the pth order autoregressive process. To best understand the methodology
of the augmented Dickey-Fuller (ADF) test, add and substract ap yt−p+1 to obtain
Next, add and substract (ap−1 + ap )yt−p+2 . Continuing this fashion, we obtain
p
X
∆yt = a0 + γyt−1 + βi ∆t−i+1 + εt
i=2
Pp Pp
where γ = − (1 − i=1 ai ) and βi = j=1 aj .
The coefficient of interest is γ; if γ = 0 the equation is entirely in first differences and, so,
has a unit root. Note that the Dickey-Fuller tests assume that the error are independent
and have a constant variance. This raises six important problems related to the fact that
we do not know the true data-generating process.
1. We cannot properly estimate γ and its standard error unless all of the autorregresive
terms are included in the estimating equation. Since the true order of the autorre-
gresive process is unknown, the problem is to select the appropriate lag length.
2. The GDP may contain both autorregresive and moving average components. We
need to know how to conduct the test if the order of the moving average term is
unknown
3. The Dickey-Fuller test considers only a single unit root. However, a pth order auto-
rregressions has p characteristic roots; if there are d ≤ p unit roots, the series needs
to be differenced d times to achieve stationary
4. There may be roots that requires first differences and others that necessitate seasonal
differencing. We need to develop a method that can distinguish between these two
types of unit root processes
6. It might not be known whether an intercept and/or time trend belongs in the last
equation presented.
77
autocorrelation among the residuals.
Rule 1: Consider a regression equation containing a mixture of I(1) and I(0) variables
such that the residuals are white noise. If the model is such that coefficients or interest
can be written as a coefficient on zero-mean stationary variables, then asymptotically, the
OLS estimator converges to a normal distribution. As such, a t-test is appropriate. This
applies directly to unit root tests.
Structural Change
In performing unit root tests, special care must be taken if it is suspected that structural
change has occurred. When there are structural breaks, the various Dickey-Fuller test
statistics are biased toward the non-rejection of a unit root. The bias in a1 means that
the Dickey-Fuller test is biased towards accepting the null hypothesis of a unit root even
though the series is stationary within each of the subperiods.
H1 : yt = a0 + yt−1 + µ1 Dp + εt
A 1 : y t = a0 + a2 t + µ 2 D L + ε t
3. The mean square error of the forecast of the TS model converges to the unconditional
variance of et as the forecast horizon grows large. For the DS representation, the
MSE of the forecast error grows linearly with the forecast horizon.
78
4. For the TS model, the effect of a shock at time t on yt+s tends to zero as s grows
large while the same shock has a permanent effect on yt+s for the case of the DS
representation. This is the idea of ‘persistance of innovationsı́n the unit-root model.
For an econometric point of view the question is whether nonstationarity arises from the
presence of a deterministic time trend or a unit-root in the autorregresive polynomial.
From a macroeconomic point of view, the main point is to be able to determine whet-
her a shock in macro variable will have a permanent or transitory effect in its future values.
To consider the possibility of a deterministic change in the log GDP process we considered
a family of statistics proposed by Banerjee et.al:
1. Recursive tests: they are obtained using a recursive estimation of the DF t statistic
evaluating u=1. These statistics are computed recursively with subsamples. k0 is
the starting value of the recursive estimation and T is the size of the full sample.
From the sequence of DF statistics we will evaluate the maximum and minimum
DF test.
2. Rolling tests: these statistics are computed using a subsample of fixed size Ts , rolling
through the sample. Again, the statistics of interest are the maximum and minimum
Dickey-Fuller t coefficients.
3. Sequential tests: here we estimate the following equation using the full simple but
allowing for a possible single shift or break at every point in the sample
Shiller and Perron (1985) that we should expect an implicit loss in power of tests of a
unit-root against a stationary alternative when using a smaller sampled more frequently
as in the case with our quarterly information.
Magistrales 19/06/2020
Los test de tendencias estocásticas tienden a confundir los quiebres. Existen test para
fechas fijas de quiebre y fechas no conocidas. El quiebre puede aparecer como un cambio
discreto en los coeficientes poblacionales de la regresión o una evolución gradual de los
coeficientes a lo largo del tiempo. Dependiente del tamaño y ubicación del quiebre, la
regresión puede diferir mucho de la verdadera función de regresión.
Para una fecha conocida, tenemos el siguiente modelo autorregresivo. Podemos evaluar la
existencia de un break en el momento τ . Sea D una variable dicotómica que toma valor
0 antes del break y 1 después del break.
yt = β0 + β1 yt−1 + β2 xt γ0 Dt + γ1 (Dt · yt−1 ) + γ2 (Dt · xt ) + µt
Chow dice: armate una step dummy e incorporala al modelo. La H0 del test de Chow es
que los parametros son estables, es decir, H0 = γ0 , γ1 , γ2 , ... = 0 (estabilidad de parḿetros.
Si γ2 6= 0, entonces se ve un cambio en el efecto del tiempo.
Si no existe un break, los términos en los cuales está la variable binaria no deberı́an ser
significativos. La H0 es la ausencia del break:
γ0 = γ1 = γ2 = 0
79
Bajo HA : exise un break. Se puede hacer un test F. Si hay múltiples rezagos y regresores
puede extenderse el test incorporando más interacciones entre la variable binaria y el resto
de los rezagos y regresores.
Para una fecha desconocida. Puede ser que la fecha de quiebre sea desconocida a priori.
Supongamos que creemos que el quiebre se produce entre la fecha τ0 y τ1 . El test de Chow
recursivo es hacer el test de Chow de forma que podemos evaluar todas las posibles fechas
entre estos dos puntos y usar el estadı́stico más grande. Esta modificación del test de
Chow se conoce como el Quandant likelihood ration (QLR) statistic.
Cointegración
Una relación espuria, para la estadı́stica, es una relación matemática en la cual dos acon-
tecimientos que no tienen conexión lógica (idealmente causal), se puede implicar que la
tienen debido a un 3er factor no considerado. A este factor se lo conoce como “factor de
confusión .o “variable escondida”. La relación espuria da la impresión de la existencia de
un vı́nculo apreciable entre dos variables que es inválido cuando se lo evalúa objetivamente.
Para detectar si la regresión entre series I(1) es espúria hay que hacer un correlograma y
un test de raiz unitaria sobre los residuos. Corremos:
y t = β 0 + β 1 xt + µ t
Tanto yt como xt son I(1). Si cuando analizo los residuos veo que son I(1) entonces me
quedo omitida la tendencia estocástica de y en µ. La regresión no es espuria si los errores
son I(0).
Para convertir una regresión espuria en valida, en los años ’70, la solución era diferenciar
ambos lados de la regresión:
∆yt = β0 + β1 ∆xt + µt
80
Tanto la variable dependiente, como al independiente y los errores son I(0). Otra forma de
lidiar con el problema de la regresión espúria entre variables I(1) es trabar con el modelo
en primeras diferencias. Si querı́amos estimar
y t = β 0 + β 1 xt + µ t
Ahora, con el modelo en diferencias serı́a:
∆yt = β0 + β1 ∆xt + µt , µt = ∆εt
Esto se puede a extender un modelo más general. Esta transformación resuelve el pro-
blema desde el punto de vista estadı́stico, pero desde el punto de vista economico no
podriamos modelar la eventual relacion entre niveles. La información contenida en una
regresión en tasas de crecimiento no es la misma que en una regresión en niveles.
Si los errores son I(0) entonces se puede estimar una regresión en niveles porque las
variables están cointegradas.
Cointegración
Vamos a decir que dos o mas variables I(1) están cointegradas si existe una combinación
de ellas que resulta estacionaria. Si bien la diferenciación es una solución al problema de
la regresión espúria, ya no tendremos un modelo en niveles sino en diferencias. Una alter-
nativa es evaluar si las variables en cuestión (ambas con el mismo nivel de integracion)
están cointegradas.
Una relación de cointegración puede tomarse como una relación de equilibrio de largo pla-
zo (estacionaria). Si bien las variables pueden desviarse de su relación en el corto plazo.
Es decir, pensamos a la relación de cointegración como una tendencia estocástica común
entre las variables.
Engle y Granger (1987) (egranger en Stata) proponen que la relación de largo plazo
puede ser obtenidas si :
y t = β 0 + β 1 xt + µ t
en donde la variable dependiente e independiente son I(1) y los errores son I(0). La
metodologı́a consiste en:
1. Estimar la regresión anterior
2. Obtener el residuos de µ̂t
3. Evaluar si el residuo es I(0) a través de un test de raı́z unitaria
4. En el caso de ser I(0), yt y xt están cointegradas.
5. Se puede ver que si se puede estimar la relación de largo plazo sin caer en el problema
de la regresión espuria
En Stata, en el test de Dickey-Fuller poner un lag menos que en el varsoc. La
salida de egranger te muestra. 1) El test. 2) El first step te muestra la tendencia (si la
pones). En el ejemplo de los precios era la elasticidad. 3) La segunda salida te muestra el
modelo de corrección de errores.
81
Modelo de corrección de errores
Una vez que se encontro la cointegración entre dos o mas variables, se puede estimar
un modelo de corrección de errores (MCE). Este modelo permite explicar las tasas de
crecimiento de yt (∆yt ) en función de
El crecimiento en xt (∆xt ) y,
Estos modelos también son conocidos como modelos modelos de corrección al equi-
librio (MCEq)
Supongamos que los estimamos una relación de cointegración (el largo plazo) entre dos
variables. Ambas son integradas de grado 1.
Obtenemos el residuo µ̂t que será I(0) y lo rezagamos un perı́odo. Estomamos por MCO
el siguiente MCE
p k k
X X X
∆yt = γ0 + αµ̂t−1 + φj ∆yt−j + λ ∆xt−j + δ wt−j + εt
j=1 j=1 j=0
Si tomamos de ejemplo el precio futuro y spot de la soja. Tenemos que la variable depen-
diente es la diferencia del logaritmo del spot. La variable explicada:
Constante
Rezagos de la diferencia de x
w puede ser otra variable que no estaba en la relación de integración. w tiene que
ser estacionaria
3. µ̂t−1 : son los desvı́os de largo plazo o también se los llama correcciones al equilibrio.
82
5. λj kj=1 ∆xt−j : efectos de corto plazo de x. λj miden los efectos de corto que pueda
P
tener x en y
Todos los terminos del MCE son estacionarios ya sea por diferenciación o cointegración.
Esto garantiza que no hay causalidad simultánea. Para que la estimación por MCO sea
válida, se tienen que cumplir los supuestos clásicos. El MCE implica una modelación con-
junta de la dinámica (corto plazo) y largo plazo.
Si tenemos
∆yt = γ0 + αµ̂t + φ∆yt−1 + λ∆xt−1 + εt
Sabemos que µ̂t es la desviación del largo plazo. Puede ser esrita como como
Si la metemos en el modelo
Stata va a estimar
Ojo! El coeficiente de xt−1 es −αβ̂1 . Si divido por −α, obtengo el efecto de largo plazo.
Supongamos que el coeficiente es 0.80. “Cuando el futuro se incrementa en 1 % entonces
el spot aumenta en un 83 % en el largo plazo”. Es diferente el β1 cuando estimás porque
estás controlando por otras variables.
Tutorial 12
La metodologı́a de Box-Jenkins es un enfoque estadı́stico cuyo objetivo es inferir el proces
estocástico subyacente de una serie.
83
Predictibilidad: si tu serie es RB, entonces por definición es aleatoria. No podes
modelarla y hace predicciones.
Diagnostico del modelo: los errores de un modelo de predicción deberı́an ser rudio
blanco, o sea, completamente aleatorios.
Para que una serie sea estacionaria debe ser constante en media, varianza y covarianzas.
Para que sea estacionaria en covarianzas tiene que variar lo mismo en todos los periodos.
Para ver si los modelos son validos, vemos si los residuos son RB, despues criterios de
información.
Letting β and xt , denote the vectors (β1 , β2 , ..., βn ) and (x1t , x2t , ..., xnt )0 , the system is in
long-run equilibrium when βxt = 0. The deviation from long-run equilibrium is called the
equilibrium error, so that
et = βxt
The econometric use of the term equilibrium makes reference to any long-run relationship
among nonstationary variables.
The components of the vector xt = (x1t , x2t , ..., xnt )0 are said to be cointegrated of order
d, b denoted by xt ∼ CI(d, b) if
2. There exists a vector β = (β1 , β2 , ..., βn ) such that the linear combination βx1 =
β1 x1t + β2 x2t + ... + βn xnt is integrated of order (d − b) where b > 0 Note that the
vector β is called the cointegrating vector
84
2. For Engel and Granger’s original definition, coeintegration refers to variables that
are integrated of the same order. This does not imply that all integrated variables are
cointegrated; usually, a set of I(d) is not cointegrated. If two variables are integrated
of different orders, they cannot be cointegrated.
3. There may be more than one independent cointegrating cectors for a set of I(1)
variables. The number of cointegrating vector is called the cointegrating rank of
xt .
4. Most of the cointegration literature focuses on the case in which each variable con-
tains a single unit root. The reason if that traditional regression or time-series applies
when variables are I(0) and few economic variables are integrated of an order higher
than unity. When it is unambiguous, many authors use the term cointegration to
refer to the case in which variables are CI(1, 1).
xt = µt + et
where xt = (x1t , x2t , ..., xnt )0 , µt = the vector of stochastic trends (µ1t , µ2t , ..., µnt )0 and et
an n · 1 vector of stationary components.
If one trend can be expressed as a linear combination of the other trends in the system,
it means that there exists a vector β such that
Since βµt = 0, it follows that βxt = βet . Hence, the linear combination βxt is stationary.
85
the interpretation of speed of adjustment parameters. The larger αS is, the greater res-
ponde of rSt to the previous period’s deviation from long-run equilibrum. At the opposite
extreme, very small values of αS imply that the short-term interest rate is unresponsive to
last period’s equilibrium error. For de sequence {∆rSt to be unaffected by the long-term
interest rate sequence, αS and all te a12 (i) coefficients must be equal to zero. If both αS
and αL are equal to zero, the long-run equilibrium relationship does not appear and the
model is not one of error correction or cointegration.
Formally, the (n · 1) vector or I(1) variables xt = (x1t , x2t , ..., xnt )0 has an error-correction
representation if it can be expressed in the form:
Sin each expression on the right-hand side is stationary, πxt−1 must also be stationary.
Since π contains only constants, each row of π is a cointegrating vector of xt .
1. Pretest the variables for their order of integration. Cointegration necessitates that
two variables be integrated of the same order. The first step in the analysis is to
pretest each variable to determine its order of integration. The augmented Dickey-
Fuller tests can be used to infer the numbers of unit roots (if any) in each variables. If
both variables are stationary, it is not necessary to proceed since standard time-series
methods apply to stationary variables. If the variables are integrated of different
orders, its is possible to conclude that they are not cointegrated.
2. Estimate the long-run equilibrium relationship. If the results of Step 1 indicate that
both {yt } and {zt } are I(1), the next step is to estimate the long run relationship
in the form
yy = β0 + β1 z1 + et
If the variables are cointegrates, an OLS regression yields a super-consistent estima-
tor of the cointegrating parameters β0 and β1 . It is proved that the OLS estimates
86
of the parameters converge faster than they do in OLS models using stationary va-
riables.
In order to determine if the variables are cointegrated, denote the residual sequence
from this equation by {êt }. Thus, the {êt } series contains the estimated values of
the deviations from the long-run relationship. If these deviations are found to be
stationary, the {yt } and {zt } sequences are cointegrated of order (1,1). It would be
convenient if we could perform a Dickey-Fuller test on these residuals to determine
their order of integration. Consider the autorregression of residuals:
∆êt = a1 êt−1 + εt
There is no need to include an intercept due to the fact that the sequence is a
residual; the parameter of interest is a1 . If we cannot reject the null hypothesis
a1 = 0, we can conclude that the residuals contain a unit root. Hence, we conclude
that the {yt } and {zt } sequences are not cointegrated. If it not possible to reject
the null hypothesis a1 = 0, we cannot rejec the hypothesis that the variables are not
cointegrated. Given that {yt } and {zt } were both found to be I(1) and that the
residuals are stationary, we can conclude that the series are cointegrated of order
(1,1). Hay que tener cuidado porque uno no conoce a ciencia cierta la secuencia de
los errores, solo conoce el estimado.
3. Step 1: Estimate the error-correction model. If the variables are cointegrated, the
residuals from the equilibrium regression can be used to estimate the error-corrction
model. If {yt } and {zt } are CI(1, 1), the variables have the error-correction form
X X
∆yt = α1 + αy [yt−1 − β1 zt−1 ] + a11 (i)∆yt−1 + a12 (i)∆zy−i + εyt
i=1 i=1
X X
∆zt = α2 + αz [yt−1 − β1 zt−1 ] + a21 (i)∆yt−1 + a22 (i)∆zy−i + εzt
i=1 i=1
where β1 = the parameter of the cointegrating vector given by the first OLS estima-
tion, εyt , εzt = white-noise disturbances and α1 , α2 , αy , αz α11 (i), α12 (i), α21 (i), α22 (i)
are all parameters.
Engle and Granger. They proposed that the magnitude of the residual êt−1 is the
deviation from long-run equilibrium in period (t − 1). Hence, it is possible to use the
save residuals {êt−1 } obtained in step 2 as an estimate of the expression yt−1 −β1 zt−1 .
Thus, using the saved residuals from the estimation of the long-run equilibrium
relationaship, estimate the error-correcting model as
X X
∆yt = α1 + αy êt−1 + a11 (i)∆yt−1 + a12 (i)∆zy−i + εyt
i=1 i=1
X X
∆zt = α2 + αz êt−1 + a21 (i)∆yt−1 + a22 (i)∆zy−i + εzt
i=1 i=1
Other than the error-correction term êt−1 and the models constitute a VAR in first
differences.
87
4. Step 4: Assess Model Adequacy. There are several procedures that can help deter-
mine whether the error-correction estimated model is appropriate.
a) You should be careful to asses the adequacy of the model by performing diag-
nostic checks to determine whether the residuals of the error-correction equa-
tion approximate white noise. If the residuals are serially correlated, lag lengths
may be too short. Reestimate he model using lag lengths that yield serially un-
correlated errors.
b) The speed of adjustment coefficients αy and αz are of particular interest in that
they have important implications for the dynamics of the system.
It’s very tempting to use t-statistics to perform significance tests on the cointegrating
vector. However, you must avoid this temptation since, in general, the coefficients do not
have an asymptotic t-distribution.
The difference between a linear stochastic trend and a deterministic trend is that the
increments of a stochastic trend are random, whereas those of a deterministic trend are
constant over time.
88
Nota 2: Consulta Final Flor
El RW
yt = yt−1 + εt
Un proceso cuyo coeficiente es 1 entonces tiene raiz unitaria. Al depender exac-
tamente del pasado, no es que desaparece el efecto del pasado, entonces no es
estacionario. Para que sea estacionario necesito que las cosa.
H0: no es estacionario, no tiene raiz unitaria. Nosotros queremos que sea de raiz
unitaria.
Estacionalidad: significa que vos tenes patrones por estaciones. Ejemplo: consumo
de helado cuando es verano. Esto es estacionalidad. Se desestacionaliza: esto se
hace poniendo dummies por estacion. Estas te chupan la estacionalidad.
Los MA son siempre estacionarios porque los efectos del pasado siempre desapare-
cen cuando te vas muy atras. Los MA se los imagina como consumos que dependen
de cosas aleatorias que son impredecibles.
Estacionariedad estricta te dice que toda la densidad tiene que ser estricta.
89
Nota 3: Consulta Final Maggie
Variable categorica con 6 categorias. En ese caso vas a estar diciendo: por cada
nivel educativo adicional, el indice de mas coporal va a caer en .332 unidades.
La diferencia entre una serie de ruido blanco y estacionaria es que las covarianzas
con el pasado son distintas de cero cuando es estacionaria y son igual a ruido blanco.
Dos motivos por el cual la varianza del MC2E es mayor que la de OLS. En el
denominador de la varianza de MC2E:
El ST C2 de ŷ2 es la suma cuadrado totales de la estimacion de la primera etapa. La
varianza del estimador de del x de la primera etapa va a ser menor que la varianza
real, entonces como este valor es mayor la varianza aumenta. El R22 es lo que mide el
nivel de correlacion entre el x1 estimado y las variables estimado. Esta correlacion
es mas alta que porque es una combinacion lineal de los intrumentos, entonces el
R2 va a ser mas alto que un solo instrumento y la otra variable exogena.
90