Está en la página 1de 90

Econometrı́a

Tomás Pacheco
Semestre de Otoño 2020

Magistrales 1 y 2 - 06/03/2020
Medidas de asociación lineal. Covarianza muestral:
n
X
cov(X, Y ) = (Yi − Y )(Xi − X)
i=1

También tenemos el coeficiente de correlación:


s
Pn
cov(X, Y ) − Y )2
i=1 (Yi
ρX,Y = donde σY =
σX σY n−1
El coeficiente de correlación tiene la ventaja de que no tiene en cuenta la magnitud. El
Coeficiente de Correlación:

∗ −1 < ρX,Y < 1

∗ Es igual a 1 solo cuando existe una relación lineal exacta y directa entre X e Y .
Formalmente: ρX,Y = 1 ⇒ Yi = α + βX; para algun α, β > 0 y ∀i = 1, ...n

∗ Es igual a −1 solo cuando existe una relación lineal exacta e indirecta entre las
variables X e Y . Formalmente: ρX,Y = −1 ⇒ Yi = α + βX; para algun α, β <
0 y ∀i = 1, ...n

∗ El coeficiente de correlación solo mide relaciones lineales. Que ρ = 0 no implica


que no haya relación

CORRELACION 6⇒ CAUSALIDAD

Modelo lineal
Nuestro objetivo es modela relación lineal no exacta entre X e Y . Nuestro modelo va a
ser:
Yi = α + βXi + µi i = 1, ..., n

∗ Yi es la variable dependiente. Observable

∗ Xi es la variable independiente. Observable

1
∗ α, β parámetros desconocidos
∗ µi representa a todas las variables inobservables. Es aleatorio.
∗ Suponemos E(µi ) = 0, es decir, en promedio, esperamos que no haya relación entre
X e Y . Este supuesto se hace sobre cada observación.

La función de regresión es Yi = α + βXi . La regresión representa la parte sistemática de


la relación. El término aleatorio µi representa la parte no sistemática (aleatoriedad).

El error/residuo es la distancia del punto a la recta. La distancia es como una estima-


ción de µ, estimación del shock. β representa la relación entre X e Y .

Heterogeneidad no observable ⇒ µi . Es distinto y observo algo que no está en el modelo.

Si E(µi ) = 0 =⇒ E(Yi ) = E(α + βXi + µi ) ⇔ E(Yi ) = E(α) + E(βXi ) + E(µi ) ⇔ E(Yi ) =


α + βXi . E(Xi ) = Xi porque es una variable no aleatoria. Concluimos:

E(Yi ) = α + βXi
Con esto último decimos que en promedio la relación es exacta.

Lo aleatorio como representación de lo no exacto. Si es posible mover X marginalmente:

dE(Yi )
=β ∀i
dXi
β tiene información cualitativa y cuantitativa. β es el efecto marginal.

A veces α no se interpreta. Hay dos condiciones: tiene que tener sentido económico y tiene
que haber observaciones en la región.

Magistrales 3 y 4 - 13/03/2020
Tenemos el modelo:

Yi = α + βXi + µi
Nuestro objetivo es estimar α y β. α̂ y β̂ son parámetro estimados. Quiero estimar Ŷi =
α̂ + β̂Xi asumo que E(µi ) = 0.

Estimación de los parámetros

X
mı́n e2i
α̂,β̂ | {z }
SRC: suma de residuos al cuadrado
X
mı́n (Yi − Ŷi )2
α̂,β̂
X
mı́n [Yi − (α̂ + β̂Xi )]2
α̂,β̂

2
CPO de α̂ :

∂SRC X
=2 [Yi − (α̂ + β̂Xi )](−1) = 0 (1)
∂ α̂ X
=−2 [Yi − (α̂ + β̂Xi )] = 0 (2)

CPO de β̂ :
∂SRC Xh i
=2 Yi − ((α̂ + β̂Xi )(−Xi ) = 0 (3)
∂ β̂
X
=−2 Xi (Yi − (α̂ + β̂Xi )) (4)
P P
Yi (α̂ + β̂Xi )
De (2), si dividimos por n, obtenemos que: = ⇔ Y = α̂ + β̂X (5).
n n
De (4) obtenemos que
X X X
Xi Yi = α̂
Xi + β̂ Xi2
X X X
Xi Yi = (Y − β̂X) Xi + β̂ Xi2
X X X X
Xi Yi − Y Xi = β̂( Xi2 − X Xi )
| {z } | {z }
=nX =nX
P P
Xi Yi − Y Xi
β̂ = P 2 2
Xi − X n
P
Xi Yi − Y Xn
β̂ = P 2
Xi2 − X n

De cada muestra voy a obtener un β̂ y α̂ diferente. Vamos a utilizar un cambio de notación:


xi = Xi − X e yi = Yi − Y . Con este cambio, tenemos que:
n
X
xi y i
i=1
β̂ = n
X
x2i
i=1
P P
Mostramos que xi yi = Xi Yi − nXY
X X
xi yi = (Xi − X)(Yi − Y )
X 
= Xi Yi − Xi Y − XYi + XY
X X X
= Xi Yi − Y Xi − X Yi + nXY
X
= Xi Yi − XY n − XY
n +XY
 n
X
= Xi Yi − XY n 
2
x2i = Xi2 − nX . COMPLETAR
P P
Mostramos que

3
Propiedades algebraicas de α̂ y β̂
P
(I) ei = 0
Intuición: recta por el medio de la nube de puntos.

Demostración: utilizamos la CPO de α̂:


∂SRC X
= −2 (Yi − Ŷi ) = 0
∂α | {z }
ei
X
= −2 ei = 0
X
= ei = 0 
P P 2
Observación: ei = 0 6= ei = 0

Qué pasa si tengo un modelo que no incluye α, es decir, Yi = βXi + µi ? Si no tengo α, no


vale esta propiedad porque no se puede demostrar. Si no incluyo α estoy obligado a que
la recta pase por el origen. Si el verdadero α = 0 entonces mi modelo me va a estimar el
α̂ = 0. Es por eso que es importante incluirlo.
P
(II) ei Xi = 0
Intuición: la covarianza entee los errores ei y xi es =0
X
cov(Xi , ei ) = (Xi − X)(ei − e)
P
|{z}
ei
n
=0 por (I)
P
(Xi − X)ei
=
n−1
P X
Xi ei − Xei
P
| {z }
X ei =0 por (I)
=
P n−1
Xi ei
cov(Xi , ei ) =
n−1
Demostración: vamos a utilizar la CPO de β̂
∂SRC X 
= −2 Xi − (Yi − Ŷi ) = 0
∂ β̂
X
−2 Xi ei = 0
X
Xi ei = 0 
No hay relación ente las X y los errores.

(III) Ŷ (X) = Y
Intuición: la recta de regresión pasa por las medias muestrales. En otras palabras, pasa
por la nube de puntos.

4
Demostración: de CPO de β̂
α̂ = Y − β̂X ⇒ Y = α̂ + β̂X (1)
Ŷ (X) = α̂ + β̂Xi
Ŷ (X) = α̂ + β̂X
| {z }
dado (1)

Ŷ (X) = Y 

(IV) Y = Ŷ
Intuición: la media de las observaciones Yi coincide con la media de las predicciones.

Demostración:
ei = Yi − Ŷi
Yi = ei + Ŷi
X X X
Yi = ei + Ŷi
X X X
Yi =  e i + Ŷi
P 
P
Yi Ŷi
=
n n
Y = Ŷ 

SY
(V) β̂ = ρX,Y ·
SX
Intución entre ρ y β̂

Demostración:
P
(Yi −Y )(Xi −X) P
n−1 xi y i
ρX,Y = qP qP = pP pP
(Xi −X) 2
· (Yi −Y )2 x2i yi2
n−1 n−1
pP √
yi2
P P
xi y i xi y i n−1
β̂ = P 2 = pP 2 pP 2 · pP 2 · √
xi xi x yi n−1
pP i √
yi2
P
xi y i n−1
β̂ = pP 2 pP 2 · √ · pP 2 
xi yi n−1 xi
| {z } | {z } | {z }
ρX,Y SY 1/SX

De esta demostración, obtenemos diversas conclusiones:


∗ ρ y β̂ tienen el mismo signo
∗ β̂ no está acotado entre (−1, 1)
∗ β̂ depende de las unidades de medida
∗ β̂ muestra el efecto marginal de la variable independiente sobre la variable depen-
diente

5
P
(VI) β̂ = w i Yi
Intuición: β̂ es una función lineal de Yi .
P
xi
Demostración: llamaremos wi = P 2 .
xi
P
xi y i X
β̂ = P 2 = yi wi
xi
X
β̂ = (Yi − Y )wi
X X
β̂ = Yi wi − Y wi (1)
| {z }
=0?
P P
X xi X −X 0
(1) wi = P 2 = Pi 2 =P 2
x xi xi
X i
⇒ β̂ = Yi wi 
P
Notemos que Xi − X = 0 debido a que, por definición, la suma de los desvı́os tiene que
ser cero.

R2 - Bondad de Ajuste

SEC Suma Explicada de Cuadrados


R2 = =
STC Suma Total de Cuadrados
La Suma Total de Cuadrados es una medida de variabilidad. R2 es la proporción explicada
de la variabilidad total.

Demostración:

STC = SEC + SRC


X X X
(Yi − Y )2 = (Ŷi − Y )2 + (Yi − Ŷi )2
X X X
yi2 = ŷi2 + e2i

Sabemos que ei = Yi − Ŷi ⇔ Yi = ei + Ŷi ⇔ Yi − Y = ei + Ŷi − Y . Sabemos que Y = Ŷ


| {z } | {z }
yi ŷi
por la propiedad (IV). Entonces:

yi2 = (ei + ŷi )2


X X
yi2 = (ei + ŷi )2
X X
yi2 = e2i + 2ei ŷi + ŷi2

X X X X
yi2 = e2i + 2ei ŷi + ŷi2
| {z }
=0?(1)

6
X X 
(1) 2ei ŷi = Ŷi − Ŷ ei
X h  i
= α̂ + β̂Xi ) − (
( α̂ + β̂X) ei
Xh  i
= β̂ Xi − X ei
X 
= β̂Xi ei − β̂Xei
X X X
= β̂ Xi ei −β̂X ei =⇒ 2 ŷi ei = 0
| {z } | {z }
=0 prop. (II) =0 prop. (I)
X X X
=⇒ yi2 = ŷi2 + e2i =⇒ STC = SEC + SRC 

Magistral 5 y 6 - 20/03/2020
Las propiedades alegebraicas anteriores salen de los mı́nimos cuadrados. Ahora vamos a
ver propiedades bajo supuestos clásicos.
∗ Linealidad: es un supuesto que dice que la relación entre X e Y es lineal
Yi = α + βXi + µi i = 1, ..., n
Nos importa la linealidad de α y β, no de X, Y . En econometrı́a moderna, la linea-
lidad es como el piso.
∗ X no aleatoria: las Xi son determinı́sticas. Esto es como si yo hubiese elegido las
X
∗ Esperanza nula ó exogeneidad:
E(µi ) = 0 i = 1, ...n
En promedio esperamos que la relación entre las X y las Y sean lineales y exactas.
Con esto,
E(Yi ) = α + βXi i = 1, ..., n
∗ Homocedasticidad:
var(µi ) = var(µj ) ∀i 6= j
2
var(µi ) = cte ≡ σ i = 1, ..., n
La varianza del shock. Si la varianza no es constante decimos que hay heteroceda-
siticidad. La varianza del shock es la misma para todas las variables.
Notar que si E(µi ) = 0 (exogeneidad) y var(µi ) = σ 2 (homocedasticidad) se cumple
que E(µ2i ) = σ 2 . Demostración:

 

var(µi ) = E (µi − E(µi ) )2 


| {z }
homocedasticidad
var(µi ) = E(µ2i )
var(µi ) = E(µ2i ) = σ 2 
Como corolario de los supuestos de exogeneidad y homocedasticidad E(µ2i ) = σ 2

7
∗ No correlación serial
cov(µi , µj ) = 0 i 6= j
Es una forma débil de independencia entre los términos aleatorios. No hay relación
entre los shocks.

Si (1) E(µi ) = 0 y (2) cov(µi , µj ) = 0 ⇒ E(µi · µj ) = 0. Dem:

cov(µi , µj ) = E[(µi − E(µi ))(µj − E(µi ))]


| {z } | {z }
=0 (1) =0 (1)

cov(µi , µj ) = E[µi , µj ] = 0 
| {z }
=0 (2)

La covarianza en el shock en las distintas observaciones es cero.

cov(µi , µj ) para i = j es σ 2 . Demo:

cov(µi , µj ) = cov(µi , µi ) = var(µi ) =σ


| {z }
homocedasticidad

∗ La multicolinealidad perfecta: las Xi , i = 1, ..., n no pueden ser todas iguales.


Que se viole este supuesto implica que las Xi no están explicando a la Y . No se
podrı́a establecer relación. En término del modelo lineal, si se viola este supuesto
implica que β puede tomar cualquier valor. Si se viola, no se puede obtener β̂ ni β̂.
Este se llama supuesto de identificación. Este supuesto me asegura que β̂ existe.

Hago supuestos sobre la µ cuando me importa β porque en este último, el único elemento
aleatorio es µ entonces le pongo propiedades (supuestos) y le limito el comportamiento.
Si saco los supuestos se me caen cosas.
Modelo lineal clásico: notemos que los parámetros desconocidos son α, β y σ.

Propiedades Estadı́sticas de los estimadores


(1) Insesgadez: E(β̂) = β
β̂ es un estimador insesgado del parámetro β. Para la demostración, tenemos que tener
en cuenta que dado que X no es aleatoria, puedo sacarlo de la esperanza.
P 
xi y i 1 X  1 X
E(β̂) = E P 2 = P 2 E xi y i = P 2 xi E(yi )
xi xi xi

8
Ahora miramos E(yi ):
E(yi ) = E(Yi − Y )
P
(α + βXi + µi )
yi = (α + βXi + µi ) −
n
P P
nα Xi µi
yi = (α + βXi + µi ) − +β +
n n n
α + βXi − µi ) − (
yi = ( α + βX + µ)
yi = βXi + µi − βX − µ
yi = β(Xi − X ) + µi − (µ)
| {z }
xi

yi = βxi + µi − x
E(yi ) = E(βxi + µi − x)
E(yi ) = E(βxi ) + E(µi ) −E(µ)
| {z }
=0 exog.

E(yi ) = E(βxi ) − E(µ)


=0
zX}| {
µi
E(yi ) = E(βxi ) − E[ ]
n
E(yi ) = βxi
Retomamos:
1 X
E(β̂) = P 2 xi E(yi )
xi
1 X
E(β̂) = P 2 xi βxi
xi
1 X 2
E(β̂) = P 2  xβ
xi  i
E(β̂) = β 
En esta demostración usamos el supuesto de linealidad, de exogeneidad, que X es no alea-
torio y usamos multicolinealidad perfecta porque dimos por sentado que β existe. Si no
se cumple el supuesto de que E(µi ) = 0 no podemos afirmar que el estimador es insesgado.

Intuición: si yo pudiera sacar infinitas muestras de la población, el promedio de los infinitos


valores de β̂ es el promedio del verdadero β. En todas las muestras el β̂ es distinto porque
tiene un componente aleatorio. 1

σ2
(2) Varianza del estimador: var(β̂) = P 2
xi
 

var(β̂) = E (β̂ − E(β̂) )2 


| {z }
=β insesgado

1
Prezi sobre Insesgadez de Walter Sosa: https://prezi.com/24oqejal40zh/insesgadez/

9
Acá estamos utilizando todos los supuestos de antes porque utilizamos la insesgadez del
estimador. Ahora:
P
xi yi
∗ Reemplazamos β̂ = P 2
xi

∗ Usamos yi = Yi − Y

∗ Usamos Yi = α + βXi + µi
Llegamos a
" P 2 # X
xµ 1 2 
var(β̂) = E P i2i = P 2 2E xi µ i
xi ( xi )
| {z }
(1)

X 2 X XX
(1) xi µ i = (xi µi )2 + 2 (xi µi xj µj )
i i j
X 2  X XX
E xi µ i = x2i E(µ2i ) +2 xi xj E(µi µj )
| {z } i j
| {z }
(2) =σ 2 (3) =0∀i6=j

(2)

(3)

Retomamos:
X 2 X
E (xi µj ) = x2i σ 2
1 X 2
var(β̂ = P 2 2 E xi µ i
( xi )
1 X 2 2
var(β̂) = P  xi σ
2
( x2i )
σ2
var(β̂) = P 2
xi
Varianza: cuan lejos/ cuan cerca estamos del parámetro. Los supuestos que usamos:

∗ Exogeneidad ∗ Homocedasticidad ∗ No correlación serial

Si no se cumplen estos supuestos no puedo asegurar que la varianza tiene esa forma.

σ2 σ2
var(β̂) = P 2 =
xi n var(x
ˆ i)
| {z }
(Xi − X)2
P

n
La varianza del estimador está inversamente relacionada con el tamaño de la muestra.
Quiero que var(X) sea grande para que var(β̂) sea mas chica. Quiero tener valores de X

10
más variados.

La var(β̂) depende de σ 2 y esta es la var(µ). Digo que cuanto mayor dispersión, mayor
sea el shock más varianza. El problema es que no conozco ni µ ni su σ 2 . Si tengo shocks
grandes, tengo mucha varianza. Para asegurarme de que me acerco a la isesgadez, resigno
varianza.

Tutorial 20/03/2020
1) Simetrı́a :

Demostración:
cov(X, Y ) = cov(Y, X)
Pn Pn
i=1 (Xi − X)(Yi − Y ) Yi − (Y )(Xi − X)
= i=1
n−1 n−1
0=0 
cov(X, Y )
Sea ρX,Y = . Demostración:
SX SY
ρX,Y = ρY,X
cov(X, Y ) cov(Y, X)
=
SX SY SY SX
Por demostración anterior
cov(X, Y ) cov(X, Y )
=
SX SY SX SY
0=0 
Propiedades: cov(X, Y ) 6= cov(αX, αX) pero ρX,Y = ραX,αY . Demostración:

Paso 1: αX = αX. Demostración:


αXi
αX =
n
P
Xi

n
αX = αX 
Paso 2: usamos la definición de covarianza muestral con (αX, αY ):
P
(αXi − αX)(αYi − αY )
cov(αX, αY ) =
n−1
P
(αXi − αX)(αYi − αY
(por 1) =
n−1
P
(Xi − X)(Yi − Y )
= α2
n−1
2
cov(αX, αY ) = α cov(X, Y )

11
Paso 3: usamos la definición muestral de ρX,Y :

cov(αX, αY )
ραX,αY =
SX SY
α2 · cov(X, Y )
por (2) = sP sP
2
(αXi − αX) (αYi − αY )2
n−1 n−1
2
α · cov(X, Y )
por (1) = sP sP
2
(αXi − αX) (αYi − αY )2
n−1 n−1
2
α · cov(X, Y )
= sP sP
2
(Xi − X) (Yi − Y )2
α2 ·
n−1 n−1
cov(X, Y )
= sP sP
2
(Xi − X) (Yi − Y )2
n−1 n−1
cov(X, Y )
ραX,αY = = ρX,Y 
SX SY
El coeficiente de correlación es menor o igual a uno en valor absoluto, esto es −1 ≤ r ≤ 1.

Demostración: notar que para cualquier constante se cumple que:


n
X
(yi − cxi )2 ≥ 0
i=1
n
X
(yi2 + c2 x2i − 2cxi yi ) ≥ 0
i=1

En particular, consideremos c = ni=1 xi yi / ni=1 x2i . Reemplazando:


P P

n  Pn 2 n  Pn  n
X
2 i=1 xi y i X 2 i=1 xi yi X
yi + Pn 2 x i − 2 Pn 2 xi y i ≥ 0
i=1 i=1 xi i=1 i=1 xi i=1
n 2 2
( ni=1 xi yi ) ( ni=1 xi yi )
X P P
2
yi + P n 3
−2 Pn 3
≥0
i=1 i=1 xi i=1 xi
n 2
( ni=1 xi yi )
X P
2
yi − Pn 3 ≥ 0
i=1 i=1 xi
Xn n
X n
X
2 2
( yi xi ≥ ( xi yi )2
i=1 i=1 i=1
" Pn #2
i=1 yi xi
pPn
2
pPn ≤1
y
i=1 i i=1 x2i
r2 ≤ 1 

12
Función lineal exacta: cuando ρX,Y = 1 cuando Y es una función lineal exacta de X con
pendiente positiva.
Yi = α + βXi
donde β > 0. Reemplazo la ecuación de arriba en la media muestral.
1X
Y = Yi
n
1X
= (α + βXi )
n
Y = α + βX

Sabemos que yi = Yi − Y :

yi = Yi − Y = α + βXi − α − βX
= β(Xi − X)
yi = βxi

Voy a la definición de coeficiente de correlación muestral:


P P
xi y i xi βxi
ρX,Y = pP 2 P 2 = pP 2 P =
xi yi xi β 2 x2i
β x2i β x2i
P P
= p P 2 = P 2 =1 
β xi β xi

La demostración es análoga cuando β < 0. En este caso, ρX,Y = −1 e Y es una función


lineal exacta de X con pendiente negativa.

Magistrales 7 y 8 - 20/03/2020
Teorema de Gauss-Markov
Si valen los supuestos clásicos, β̂ tiene la menor varianza en la clase de todos los estima-
dores lineales e insesgados de β.

Inferencia
Me estoy preguntando si β = 0. A partir de los valores de β̂ digo que está cerca de β me
animo a rechazar/ no rechazar. Tenemos que ver los criterios.

Yo tengo un valor de β̂ y sabien la varianza y la esperanza puedo hacer un test de hipótesis.


También queremos intervalos de confianza. Queremos distinguir:

H0 : β = 0 vs. HA : β 6= 0
Si H0 : β = 0 es cierta, entonces, aunque β̂ pueda tomar cualquier valor, esperamos que
tome valores cercanos a cero. Si tengo un error muy alejando de 0 me preocupo. Quiero
saber que son numeros alejandos de cero.

13
Asumiendo que β = 0 y a partir de β̂ bajo esos supuestos clásicos, sabemos que si
H0 : β = 0 entonces E(β̂) = 0. Hacemos un nuevo supuesto:

µi ∼ N (0, σ 2 )
No habı́amos asumido que el término aleatorio tenı́a distribución normal. Como Yi es una
función lineal de la µ y β es función lineal de Y , entonces, si µ tiene distribución normal,
β tiene distribución normal y YI también.

σ2
 
β̂ ∼ N β,
n · var(X)
Esto es gracias a que conozco la distribución de µ. Cuando H0 : β = 0 , se cumple:

σ2
 
β̂ ∼ N 0, P 2
xi
También:

β̂
Z≡p P ∼ N (0, 1)
σ 2 / x2i
Cuando β̂ es “chico”, Z también es “chico”. Yo quiero que β̂ grande si var es chica.

Regla: aceptamos H0 si β̂ es cercano al valor correspondiente a esa hipótesis. Para definir


cercano: sea 0 < c < 1 y Zc un número tal que:

P (−Zc ≤ Z < Zc ) = 1 − c
siendo c el nivel de significatividad. La región de aceptación va a ser la siguiente:

P (−Zc ≤ Z < Zc ) = 1 − c
Reemplazo Z por su definición y arma el intervalo de confianza:
s s !
σ2 σ2
P −Zc · P 2 ≤ β̂ ≤ Zc · P 2 = 1 − c
xi xi
Tenemos el problema de que σ 2 no se observa, no es muestral. Plantemos el estimador
insesgado de la varianza de µi :
n
X
e2i
i=1
S2 =
n−2
Demostración de la insesgadez:

COM P LET AR
Bajo todos los supuestos clásicos, si H0 : β = 0 es cierta,

β̂
t≡ p P ∼ tn−2
S 2 / x2i

14
p
Lo que S 2 / x2i representa es el standard error.
P
Vamos al caso general:

H0 : β = β0 vs. HA : β 6= β0
Bajo todos los supuestos y cuando es cierta H0 = B0 se cumple

σ2
 
β̂ ∼ N β0 , P 2
xi

β̂ − β0
Z≡p P ∼ N (0, 1)
σ 2 / x2i
También, como no conocemos la varianza:

β̂ − β0
t≡ p P ∼ tn−2
S 2 / x2i
Reemplazamos B0 por cualquier valor que nos interese. El p-valor nos va a decir con
cuanta probabilidad rechazo la hipótesis.

Tutorial
Corolario: demostraremos que cov(X, e) = 0. Demostración:
1 X
cov(X, e) = (Xi − X)(ei − e)
n−1
1 X
= · (Xi ei − Xi e − Xei + Xe)
n−1
1 hX X i
= Xi e i − X ei
n−1
cov(X, e) = 0 

Demostraciones de propiedades estadı́sticas:

Insesgadez de α̂:

α̂ = Y − β̂X
E(α̂) = E(Y − β̂X)
= E(Y ) − E(β̂X)
P 
Yi
=E − E(β̂X)
n
 
1X
= E α + βX + µi − E(β̂X)
n
= E(α) + E(βX) − E(β̂X)
= α + βX − XE(β̂)
E(α̂) = α

15
Varianza de α̂:
var(α̂) = var(Y − β̂X)
= var(Y ) + var(β̂X) − 2 cov(Y , β̂X)
| {z }
=0
2
= var(Y ) + X var(β̂)
2
2 σ
= var(α + βX + µ) + X P 2
xi
2
2 σ
= var(µ) + X P 2
xi
1 X  X 2 σ 2
= 2 var µi + P 2
n xi
2 2
1 X X σ
= 2 var(µ)i + P 2
n xi
2 2
σ 2 σ
var(α̂) = +X P 2 
n xi
var(µ) = var(α + βX + µ) porque los dos primeros valores son valores fijos.

Magistrales 9 y 10 - 27/03/2020
Poner más variables sirve para poder hacer un análisis céteris páribus. Agregamos variables
explicativas:

Yi = β1 + β2 X2i + β3 X3i + ... + βk Xki + µi i = 1, ..n


Ahora los regresores son X2 , ..., Xk . Por comidad de notación, la primera “variable“ es
X1i = 1 ∀ i que corresponde al intercepto del modelo.

Cambia el supuesto de no multicolinealidad; ahora no hay dependencia lineal entre las


variables explicativas (ya no alcanza que los regresores varı́en entre observaciones). En
lineal con dos variables, si no se cumple multicolinealidad perfecta, entonces el modelo no
sirve para explicar β; podrı́a tomar infinitos valores. En este modelo basta con decir que
no varı́an las Xi para decir que no tienen dependencia lineal.

Ahora ninguno de los regresores puede expresarse como una combinación lineal de otros
regresores. Entonces no pueden existir constantes aj tales que:
X
Xk = aj X k
con E(µi ) = 0 y regresores no aleatorios:

E(Yi ) = β1 + β2 X2i + β3 X3i + ... + βk Xki


El efecto marginal Xk viene dado por

∂E(Yi )
= βk ∀i
∂Xki

16
El efecto marginal se hace sobre la esperanza porque ves el efecto en promedio. Si derivara
con µi , el efecto marginal serı́a distinto para cada observación, es por eso que analizo en
promedio.

Como ahora tengo la derivada parcial, me permite hacer el análisis céteris páribus. βk mi-
de el efecto E(Yi ) de cambiar marginalmente la k-ésima variable explicativa, manteniendo
constantes todas las demás. El significado de marginalmente está atado a las unidades de
medida de la variable explicativa.

Ahora vamos a ver qué pasa con el efecto sobre E(Yi ) cuando Xs aumenta en ∆XS :

∆E(Yi ) = β1 +β2 X2i +...+βS (XSi +∆XSi )+...+βk Xki −[β1 +β2 X2i +...+βS XSi +...+βk Xki ]

∆E(Yi ) = βS ∆XSi
Ahora tenemos que incorporar a nuestros modelos variables explicativas que son cualitati-
vas. Vamos a ver fenómenos binarios. Hay que tener en cuenta que son solo dos valores.

Creamos una variable artificial que toma un valor cuando la caracterı́stica está presente y
otro valor distinto cuando no lo está. Llamamos variable dummy a esa variable artificial.

Resulta útil que el nombre de la variable dummy sugiera cuál es la caracterı́stica asociada
al valor 1. La caracterı́stica asociada al valor 0 se lo conoce como categorı́a base. Esto
es clave para la interpretación. Ejemplo:

Wi = β1 + β2 aedui + δ hombrei + µi
Si E(µi ) = 0, entonces:

E(Wi ) = β1 + β2 aedui + δ hombrei


En este caso, hombrei es una variable dummy. En este caso hay dos regiones:

∗ Para hombres E(Wi |hombre = 1) = β1 + β2 aedui + δ

∗ Para mujeres E(Wi |hombre = 0) = β1 + β2 aedui .

Restando miembro a miembro:

E(Wi |hombre = 1) − E(Wi |hombre = 0) = β1 + β2 aedui + δ − (β1 + β2 aedui + δ · 0) = δ

Entonces, δ es la diferencia entre el salado esperado de un hombre y una mujer que tienen
el mismo nivel de educación. La recta de regresión de los hombres es paralela a la de las
mujeres (misma pendiente) pero tiene una ordenada al origen mayor.

Regla: si hay dos categorı́as incluimos sola una dummy. Si incluimos las dos variables
dummy caemos en lo que se llama la trampa de la variable binaria. Si pongo tantas
variables como categorı́as estoy violando el supuesto de multicolinealidad.

17
Generalizamos: si hay S categorı́as, incluimos S − 1 variables dummies. Ejemplo: si tene-
mos tres regiones, la categorı́a base se da cuando region 1 y 2 son cero.

Con S variables, la estimación e inferencia con variables explicativas binarias es todo igual
que antes. Lo único que cambia es la manera de interpretar los coeficientes.

Con MCO solo necesitmos linealidad en los parámetros. Vamos a ver tres casos:

1. Modelo logarı́tmico (log-log)

2. Modelo semi-logarı́tmico

3. Modelo cuadrático en X

Modelo logarı́tmico (log-log)

Yi = AXiβ exp(µi )
donde A, B son desconocidos. Aplicamos transformación logarı́tmica:

ln(Yi ) = ln(A) + β ln(Xi ) + µi

Si µi se mantiene constante cuando Xi cambia,

d ln(Yi ) ∆Yi /Yi


β= =
d ln(Xi ) ∆Xi /Xi
β es una elasticidad: porcentaje que cambia Y ante un aumento de 1 % de X. En este
tipo de modelos las unidades de medida no importan ya que los cambios son porcentajes.

Modelo semi-logarı́tmico

Yi = exp(α + βXi + µi )
α, β desconocidos. Aplicamos transformación:

ln(Yi ) = α + βXi + µi
Si µi constante cuando Xi cambia:

d ln(Yi ) ∼ ∆Yi /Yi


β= =
dXi ∆Xi
β es una semielasticidad: β × 100 es el porcentaje en el que cambia Y cuando X aumenta
en una unidad.

18
Modelo cuadrático
Nos preguntas de qué modo podemos establecer una relación con una curva entre X y Y
(en vez de una recta). El modelo cuadrático en X:

Yi = β1 + β2 Xi + B3 Xi2 + µi
Puedo incorporar variables cuadráticas porque tiene una alta correlación pero no es per-
fectamente lineal. El efecto marginal de X viene dado por:

∂E(Yi )
= β2 + 2β3 Xi
∂Xi
β2 ya no resume el efecto marginal. El signo de β3 indica si el efecto marginal crece o
decrece a medida que X aumenta. Ahora pago un costo mayor al estimar con la curva:
estoy mejor porque ajusto mejor pero ahora la interpretación depende de cada Xi .

Hay dos tipos de variables dummies:

Aditivas: son las que evaluan las ordenadas al origen

Multiplicativas: son las que varian si las pendientes difieren

Ejemplo: tenemos el siguiente modelo:

ln(wi ) = β1 + β2 · aedui + β3 · edadi + β4 · edad2i + β5 · hombrei + µi


Interpretamos el coeficiente de la variable binaria hombre.

Hombre: ln(ŵH ) = β̂1 + β̂2 · aedu + β̂3 · edad + β̂4 · edad2 + β̂5

Mujer: ln(ŵM ) = β̂1 + β̂2 · aedu + β̂3 · edad + β̂4 · edad2

Resto miembro a miembro:

ln(ŵH ) − ln(ŵM ) = β̂5


 
ŵH
ln = β̂5
ŵM
ŵH
= eβ̂5
ŵM
ŵH )
− 1 = eβ̂5 − 1
ŵM
ŵH − ŵM
= eβ̂5 − 1
ŵM

Si β̂5 pequeño, exp(β̂5 ) − 1 ∼


= β̂5 . Pequeño es que sea menor a 0,20.

19
Tutorial
Tenemos el clásico:
SCE
R2 =
SCT
El problema es que crece con la cantidad de variables K. Aparece el ajustado:
SRC
R =1− n−K
2
SCT
n−1
2
Hay dos efectos contrapuestos: cuando sube K, cae SRC y sube el R y el K hace que
2
este mismo caiga. Este R penaliza la adición de variables que no aumenten el poder
explicativo del modelo.
2
El R aumenta con la variable K si el estadistico tK es mayor a 1 en valor absoluto.

Test de significatividad global: vamos a ver con el modelom linear simple. Hipótesis:

H0 : β = 0 vs. HA : β 6==

El estadı́stico:
SCE
F = ∼ F1,n−2
SRC/(n − 2)
Divido numerador y denominador por ST C:
SCE/ST C R2
F = /(SCT (n − 1)) =
SCR (1 − R2 )/(n − 2)
En este caso, F = t2 .

En el caso más complejo, en el que tenemos k variables, el estadı́stico es:


SEC/(k − 1)
F = ∼ Fk−1,n−k
SRC/(n − k)
Dividimos por SCT
SCE/[SCT (k − 1)] R2 /(k − 1)
F = =
SRC/[SCT (n − k)] (1 − R2 )/(n − k)

Trampa de la variable binaria

ingresoi = α + βeducacioni + µi
Queremos saber si hay discriminación hacia algún sexo. SI NOS EQUIVOCAMOS QUE-
DA ASI:
ingresoi = α + βeducacioni + δ1 mujer + δhombre + µi
Está mal porque mujeri + hombrei = 1 y hay multicolinealidad perfecta. Va a hacer que
no se pueda usar MCO. Soluciones:

20
1. Eliminar el intercepto
2. Dejar el intercepto e incorporar una única variable dummy
Que una variable sea endógena quiere decir que esta relacionado con el término de error.

Magistrales 11 y 12
Podemos escribir el modelo con k variables de forma matricial. El modelo se escribe como:

Y = Xβ + µ
Definiciones y resultados de algebra matricial:
1. Rango de matriz: número máximo de filas/columnas linealmente independientes.
ρ(X) = rango de matriz de X.
2. Máximo numero de columnas li = máximo número de filas li.
3. Una matriz cuadrada A ∈ Rk×k es no singular si y solo si |A| 6= 0, entonces existe
una unica matriz no singular A−1 a la que llamamos inversa de A, tal que A · A−1 =
A−1 · A = Ik .
4. Sea una matriz A ∈ Rk×k . Entonces: ρ(A) = K ⇒ |A| 6= 0. ρ(A) < k ⇒ |A| = 0. Si
ρ(A) = k significa que todas las filas y columnas son linealmente independientes.
5. Sea una matriz X ∈ Rn×k , no cuadrada, con ρ(X) = k (rango columna completo).
Se cumple que ρ(X) = ρ(X t X) = k.
En nuestro modelo, X t · X, para cualquier n y k es:
 P P P 
n X2i XP3i · · · P Xki
2
P P P
 X2i
P X 2i XP 2 X3i
2i · · · P X2i Xki 

t  X3i P X2i P X3i X3i ··· X3i Xki 
X ·X = 
 .. .. .. ... .. 
 . .P .P . 
P P P P 2
Xki X2i Xki X3i Xki ··· Xki
El supuesto de no multicolinealidad perfecta, que garantiza que las filas y columnas son
linealmente independientes.

Vimos que ρ(X) = ρ(X t X). Entonces ρ(X) = k ⇒ ρ(X t X) = k ⇒ ∃(X t X)−1 . Que el
rango sea igual a k, me lo garantiza no multicolinealidad perfecta.

Resultado 1: Sean a, b dos vectores (k × 1), entonces:


∂ (bt a)
=a
∂b
   
a1 b
Demostración: supongamos k = 2, a = y b = 1 . Notar que bt · a = b1 a1 + b2 a2 e
a2 b2
un escalar, entonces
∂ (bt a)
a es un escalar derivado por vector
∂b
21
Derivar por un vector (k × 1) es derivar por cada uno de los k eementos del vector. Luego,
las k derivadas sea amplian en un vector de derivadas. Derivamos:

∂ (bt a)
 
∂ (bt a)  ∂ b1 
 
a1
= t = =a
∂b ∂ (b a) 
a2
∂ b2
es el vector de derivadas! 

Resultado 2: Sea una A una matriz simétrica (k × k) y b un vector (k × 1), entonces:

∂ (bt Ab)
= 2Ab
∂b
   
b1 A11 A12
Demostración: suponemos k = 2, b = y A = . Notar que bt Ab =
b2 A12 A22
b21 A11 + b22 A22 + 2b1 b2 A12 es una función cuadrática en b (y es un escalar).

∂ (bt Ab)
 
∂ (bt Ab)  ∂ b1 
 
2b1 A11 + 2b2 A12
= = = 2Ab 
∂b ∂ (bt Ab)  2b2 A22 + 2b1 A12
∂ b2
Vamos a ver MCO en matrices. La formulación matricial del modelo lineal: Y = Xβ + µ.

Sea β̂ el vector que apila los estimadores del vector de parámetros:


 
β̂1
 β̂ 
β̂ =  2 
..
.β̂k

Definiciones:

1) Vector de estimaciones de Y (n × 1):

Ŷ ≡ X β̂

2) Vector de residuos o errores de estimación (n × 1)

e ≡ Y − Ŷ = Y − X β̂

La función de pérdida de MCO:


 
e1
n
  e2 
X 
e2i = e1 e2 · · ·

SRC ≡ en ·  .. 
i=1
.
en

La suma de residuos cuadráticos se puede escribir

SRC ≡ et · e

22
Si recordamos que e ≡ Y − X β̂ es facil ver que SRC es una función de β̂.

SRC(β̂) ≡ (Y − X β̂)t · (Y − X β̂)

Problema de MCO:

mı́n SRC(β̂) = et · e = (Y − X β̂)t · (Y − X β̂)


β

La FOC es igualar el vector de derivadas al vector cero:

∂ SRC(β̂
=0
∂ β̂

et e = (Y − Ŷ )t (Y − Ŷ ) = (Y − X β̂)t · (Y − X β̂)
= Y T − Y t X β̂ − β̂ t X t Y + β̂ t X t X β̂
= Y t Y − 2β̂ t X t Y + β̂ t X t X β̂
| {z } | {z }
(1) (2)

Notar que (2) es de la forma bt a y que (2) es de a forma bt Ab. La función a minimizar es
la siguiente:

et e = Y t Y − 2β̂ t X t Y + β̂ t X t X β̂
Las FOC, que las obtenemos con el resultado 1 y 2. Chequear cuaderno:

∂et e
= 0 − 2X t Y + 2X t X β̂ = 0 ⇔ X t X β̂ = X t Y
∂ β̂
Llegamos a la FOC igualada a cero:

X t X β̂ = X t Y

Si existe (X t X)−1 (para que exista, se debe cumplir no multicolinealidad perfecta),

β̂ = (X t X)−1 X t Y

β̂ es el vector de estimadores de MCO.

Propiedad 1: los estimadores de MCO son lineales, es decir tienen la forma

β̂ = AY

donde A es una matriz (k×n) con elementos no estocásticos (no aleatorios). Demostración:

Los estimadores MCO son β̂ = (X t X)−1 X t Y

Si llamamos A a la matriz (X t X)−1 X t de dimensión (k × n), β̂ queda escrito de


forma lineal. .

Propiedad 2: X t e = 0.

23
Puede obtenerse a partir de la FOC X t X β̂ = X t Y
Implica dos resultados:
Pn
1. =0
Pi=1
n
2. i=1 Xki ei ==, con k = 2, ..., K.

Propiedad 3: similar a la propiedad anterior


Ŷ t e = 0
Propiedad 4: el punto (X, Y ) pertenece al hiperplano por MCO:
Y = X β̂
Bondad de ajuste usando notación matricial:
Xn Xn n
X
2 2
(Yi − Y ) = (Ŷi − Y ) + e2i
i=1 i=1 i=1
t 2 t 2 t
Y Y − nY = Ŷ Ŷ − nY + e e
ST C = SEC + SRC
La bondad del ajuste se escribe como
2
2 Ŷ t Ŷ − nY et e
R = 2 =1− 2
Y t Y − nY Y t Y − nY

Supuestos clasicos en notación matricial


Modelo:

Y = Xβ + µ
Supuestos clásicos:

1) E(µ) = 0
  
µ1 E(µ1 )
 µ2   E(µ2 ) 
µ =  ..  ⇒ E(µ) =  .. 
   
.  . 
µn E(µn )
Este supuesto que establece que el vector de esperanzas es igual a cero. Esto implica que,
en promedio, para cada observación espero que sea cero.

2) var(µ) = σ 2 In (homocedasticidad). Todos tenemos el mismo tamaño de shock. La


varianza de todas las mu es igual.
var(µ) = E (µ − E(µ)) · (µ − E(µ))t
 
 

= E (µ − E(µ)) · (µ − E(µ))t 


| {z } | {z }
=0 =0
t
 
=E µ·µ

24
Ejemplo:     2 
µ1  µ 1 µ 2 µ 1 µ 1 µ 3
E µ2  · µ1 µ2 µ3  = E µ2 µ1 µ22 µ2 µ3 
µ3 µ1 µ3 µ2 µ3 µ23
   
E(µ21 ) E(µ2 µ1 ) E(µ1 µ3 ) var(µ1 ) E(µ2 µ1 ) E(µ1 µ3 )
var(µ) = E(µ2 µ1 ) E(µ22 ) E(µ2 µ3 ) = E(µ2 µ1 ) var(µ2 ) E(µ2 µ3 )
E(µ1 µ3 ) E(µ2 µ3 ) E(µ23 ) E(µ1 µ3 ) E(µ2 µ3 ) var(µ3 )
Usamos el supuesto de exogeneidad porque var(µi ) = E[(µi − E(µi ))] . Si la esperanza es
cero, var(µi ) = E[µ2i ]. Si asumo que las varianzas son iguales, las covarianzas son cero.
 2 
σ 0 0
var(µ) = σ 2 I3 =  0 σ 2 0 
0 0 σ2

Si se viola no correlación serial, no habrı́a cerso en los elementos por fuera de la diagonal
principal. Si se viola homocedasiticidad, los sigmas serı́an distintos. Suponer var(µ) = σ 2 Ik
es suponer homocedasticidad y no correlación serial.

3)X es una matriz (n × k) no estocástica con ρ(X) = k, (rango columna completo). Este
es un supuesto.

Propiedades estadisticas de estimadores MCO


1) Insesgadez de β:

β̂ = (X t X)−1 X t Y
= (X t X)−1 X t (Xβ + µ)
= (X t X)−1 X t Xβ + (X t X)−1 X t µ
= β + (X t X)−1 X t µ
E(β̂) = β + (X t X)−1 X t E(µ)
| {z }
=0

E(β̂) = β 

Acá use tres supuestos:

No multicolinealidad perfecta: para que β̂ exista

No aleatoriedad de X

Exogeneidad

2) var(β̂) = σ 2 (X t X)−1

h i
t
var(β̂) = E (β̂ − E(β̂))(β̂ − E(β̂)
h i
= E (β̂ − β)(β̂ − β)t

25
Aca usamos la isesgadez de beta. Vamos a ver en profundidad β̂ − β).

β̂ = (X t X)−1 X t Y
= (X t X)−1 X t (Xβ + µ)
= (X t X)−1 X t Xβ + (X t X)−1 X t µ
= β + (X t X)−1 Xµ
β̂ − β = β + (X t X)−1 Xµ − β
β̂ − β = (X t X)−1 Xµ

Entonces tenemos que:


h i
E (β̂ − β)(β̂ − β)t = E (X t X)−1 X t µµt X(X t X)−1
 

Entonces,

var(β̂) = E (X t X)−1 X t µ((X t X)−1 X t µ)t


 

= (X t X)−1 X t E(µµt )X(X t X)−1


= (X t X)−1 X t σ 2 Ik X(X t X)−1
= σ 2 (X t X)−1 X t X(X t X)−1
var(β̂) = σ 2 (X t X)−1 

Supuestos usados:

1. No multicolinealidad 2. Exogeneidad 3. No correlación serial

Homocedasticidad y no correlación serial la uso cuando digo que E(µµt ) = σ 2 Ik .

La matriz de varianza de beta estimado es la siguiente:

var(βˆ1 )
 
cov(β̂1 , β̂2 ) · · · cov(β̂1 , β̂K )
 cov(β̂ , β̂ )
1 2 var(βˆ2 ) · · · cov(β̂2 , β̂K )
var(β̂ = 
 
.. .. ... .. 
 . . . 
cov(β̂1 , β̂K ) cov(β̂2 , β̂K ) · · · var(βˆK )
Notar:
1. Cada elemento de la diagonal es var(β̂k ) = σ 2 Akk , k = 1, ..., K, donde Akk es el
elemento de la fila k y columna k de la matriz (X t X)−1 .
2. Cada elemento fuera de la diagonal es cov(β̂j , β̂k ) = σ 2 Ajk , j 6= k, donde Ajk es el
elemento j y columna k de la matriz (X t X)−1
La varianza depende de un σ 2 que es un valor desconocido. En su lugar usamos el estimador
insesgado:
n
1 X 2 et e
S2 = ei =
n − K i=1 n−K
Luego, el estimador de la matriz de varianzas y covarianzas es:

V̂ (β̂) = S 2 (X t X)−1

26
Teorema de Gauss-Markov
Bajo todos los supuestos clásicos, el estimador de MCO es el mas eficiente de todos los
estimadores lineales e insesgados (MELI).

Además: sea c un vector de K constantes arbitraria, c0 β̂ es el mejor estimador lineal e


insesgado de c0 β. Es decir, la combinación lineal de los estimadores es MELI para estimar
la combinación lineal de los parámetros.

Al aplicar el TGM para comparar un estimador con β̂ recuerden los requisitos:

∗ Modelo lineal

∗ Se deben cumplir los supuestos clasicos (condiciones necesarias y suficientes)

∗ El estimador a comparar debe ser lineal e insesgado para β.

Inferencia
El supuesto adicional: normalidad

µ ∼ N (0, σ 2 In )

El resultado es que β̂ tiene distribución normal multivariada.

β̂ ∼ N (β, σ 2 (X t X)−1 )

Esto es porque como es lineal XXXXXXXXXX.

Ahora queremos hacer un test de hipótesis que sea general, para todo:

H0 : ct β − r = 0

c es algún vector de K constantes y r es algún escalar. Es decir,


k
X
H0 : cj βj − r = 0
j−1

Dependiendo de c y r podemos considerar distintos casos:

1. Significatividad individual: H0 : βj = 0 3. Igualdad de coeficientes H0 : βj = βn

4. Otros: sumas y diferencias de coeficien-


2. Valores particulares H0 : βj = r tes.

ct es un vector fila que contiene 0 y 1. r un escala.

Dado que β̂ ∼ N (β, var(β̂), entonces,

ct β̂ − r ∼ N (E(ct β̂ − r), var(ct β̂ − r))

27
Calculamos la esperanza y varianza2

E(ct β̂ − r) = ct β − r
var(ct β̂ − r) = var(ct β̂) = ct var(β̂)c

Luego llegamos a que


ct β̂ − r ∼ N (ct β̂ − r, σ 2 ct (X t X)−1 c)
Bajo H0 : ct β̂ − r el estadı́stico:

ct β̂ − r
Z=q ∼ N (0, 1)
var(c
ˆ t β̂ − r)

En la practica usamos el S 2 en lugar del sigma, entonces

V (ct β̂ − r) = ct var(β̂)c = S 2 ct (X t X)−1 c

Luego,
ct β̂ − r
t= q ∼ Tn−K
var(c
ˆ t β̂ − r)

Test de significatividad global


Nos preguntamos si todas las variables en conjunto son significativas:

H0 : β2 = 0 ∧ β3 = 0 ∧ ... ∧ βk = 0 vs. β2 6= 0 ∨ β3 6= 0 ∨ ... ∨ βk 6= 0

El estadı́stico:
SCE/(k − 1)
F = ∼ Fk−1,n−k
SRC/(n − k)
Significatividad de un grupo de variables: en el modelo con K variables, consideremos las
siguienes hipótesis:

H0 : β2 = 0 ∧ β3 = 0 vs. HA : β2 6= 0 ∨ β3 6= 0
Pensemos que estamos constestando dos modelos distintos:
El modelo irrestricto: contiene a las K variables explicativas

Modelo restricto: considera como verdadera H0 .


Si la H0 contiene q restricciones de significatividad, llamemos:
SRCI a la SRC del modelo con K variables

SRCR a la SRC del modelo que excluye las q variables consideradas en la H0 .


El estadı́stico de prueba es:
(SRCR − SRCI )/q
F = ∼ Fq,n−K
SRCI /(n − K)
2
sacar al cuadrado en matrices es premultiplicar la traspuesta y posmultiplicar el vector

28
Demostraciones de TPs
Demostraremos que no es necesario que E(µi ) = 0 para que el estimador de MC de β sea
insesgado. Partimos aplicándole la esperanza a β. Utilizaremos el argumento de que las
xi son estocásticas:
 Pn 
i=1 xi yi
E(β̂) = E Pn 2
i=1 xi
n
!
1 X
= Pn 2 E xi yi
i=1 xi i=1
n
1 X
= Pn xi E(yi )
i=1 x2i i=1

A continuación, miraremos más en profundidad a yi y luego le aplicaremos la esperanza.


Asumimos que E(µi ) = k con k ∈ R.

yi = Yi − Y
Pn
i=1 (α
+ βXi + µi )
yi = (α + βXi + µi ) −
n
 P n Pn 
nα i=1 Xi i=1 µi
yi = (α + βXi + µi ) − +β +
n n n
α + βXi − µi ) − (
yi = ( α + βX + µ)
yi = βXi + µi − βX − µ

yi = β(Xi − X ) + µi − µ
| {z }
xi

yi = βxi + µi − µ
E(yi ) = E(βxi + µi − µ)
E(yi ) = E(βxi ) + E(µi ) − E(µ)
n
!
1 X
E(yi ) = βxi + E(µi ) − E µi
n i=1
n
1X
E(yi ) = βxi + E(µi ) − E(µi )
n i=1
1
E(yi ) = βxi + E(µi ) − nE(µi )
n
E(yi ) = βxi + E(µi ) − E(µi )
E(yi ) = βxi

29
Retomamos:
n
1 X
E(β̂) = Pn xi E(yi )
i=1 x2i i=1
n
1 X
E(β̂) = Pn xi βxi
i=1 x2i i=1
Pn 
i=1 x2i

E(β̂) = n 2 β
P 
 x
 i=1 i
E(β̂) = β 

Estimación MCO sin intercepto:


n 
X 2
mı́n SRC = mı́n Si − δ̂Ii
δ̂ δ̂
i=1

Condición de Primer Orden de δ̂:


n
∂SRC X
= −2 (Si − δ̂Ii )Ii = 0
∂ δ̂ i=1
n
X n
X
= Si Ii − δ̂ Ii Ii = 0
i=1 i=1
n
X n
X
Si Ii = δ̂ Ii2
i=1 i=1
Pn
Si Ii
δ̂ = Pi=1
n 2
i=1 Ii

Pn
Si Ii
Concluimos que nuestro estimador MC para el modelo dado es δ̂ = Pi=1
n 2
i=1 Ii

Queremos demostrar, en el contexto del modelo lineal con k variables, que si el número de
observaciones es igual al número de variables explicativas, entonces la suma de residuos
al cuadrado es igual a cero. Para realizar esta demostración vamos a comenzar por la
definición de la suma de los residuos al cuadrado:

SRC ≡ et · e

siendo e la matriz de los residuos. Sabemos que si la cantidad de variables es igual a la


cantidad de observaciones (n = k), entonces X es una matriz cuadrada y le podemos
calcular el determinante. Si asumimos que este es distinto de cero (det(X) 6= 0) (porque
asumimos que se cumple no multicolinealidad perfecta) entonces podemos afirmar que
esa matriz es inversible. Sabemos que existe un teorema que dice que el determinante de
una matriz X ∈ Rn×n es igual al de su traspuesta. Por lo tanto, ambas son inversible si
asumimos el determinante no nulo. Si sabemos que la matriz X es inversible, sabemos que
existe una matriz X −1 tal que X · X −1 = X −1 · X = I. Lo que haremos es multiplicar la
−1
suma de cuadrados por X t · X t que es igual a la matriz identidad y por ende no va a

30
afectar la identidad:

SRC ≡ et · Ik · e
−1
SRC ≡ et · X t · Xt · e

Por un propiedad estadı́stica que se deriva de las condiciones de primer orden de Mı́nimos
Cuadrados Ordinarios sabemos que X t · e = 0. Entonces:
−1
SRC ≡ et · X t ·X t
| {z· e}
=0
SRC = 0 

Wooldridge
A cross-sectional data set consists of a sample of individuals, households, firms, cities,
or a variety of other units, taken at a given point of the time. An important feature of
cross-sectional data is that we can often assume that they have been obtained by random
sampling from the underlying population.
y x
Dependent variable Independent variable
Explained variable Explanatory variable
Response variable Control variable
Predicted Variable Predictor variable
Regressand Regressor

It’s a crucial assumption that the average value of µ does not depend on the value of x.
We can write this:
E(µ|x) = E(µ) = 0
This is called the zero conditional mean assumption. It says, for any given value of x,
the average of the unobservables is the same and therefore must equal the average value
of µ in the entire population

Summary of Functional Forms Involving Logarithms


Model Dependent variable Independent variable Interpretation of β1
level-level y x ∆y = β1 ∆x
level-log y log(x) ∆y = (β1 /100) %∆x
log-level log(y) x %∆y = (100β1 )∆x
log-log log(y) log(x) %∆y = β1 %∆x

The meaning of “linear”: la ecuación del modelo lineal simple es que es linear en paráme-
tros. There are no restriction on how y and x relate to the original explained and expla-
natory variables of interest.

Siempre asumimos que (Xi − X)2 > 0. Si esto no pasa, no podemos calcular los esti-
P
madores mı́nimos cuadráticos.

31
Notas de Walter
A diferencia de la covarianza, la correlación no depende de las unidades de medida de las
variabes. Un cambio en las unidades de medida de una variable se obtiene al multiplicar
cada observación por una constante.

Cuando la mayor parte de los puntos en un gráfico de dispersión están por encima o por
debajo de ambas medias muestrales, la correlación es positiva. Una correlación cercana a
cero debe interpretarse como evidencia de ausencia de una relación lineal entre variables,
pero de ninguna manera indica ausencia de relación.

Para un modelo dado, la estimación por MCO maximiza el R2 . Si asumimos que µi


tiene distribución normal podemos asumir que Yi tambien lo esta. Esto es porque una
transformacion lineal de una variable aleatoria normal tambien es normal.

32
Tutora: Florencia Hnilo Otoño 2020

Vamos a probar que 𝒓𝟐𝑿𝒀 = 𝑹𝟐 . Primero recordemos las definiciones:


∑𝑛𝑖 𝑥𝑖 𝑦𝑖
𝑟𝑋𝑌 =
√∑𝑥𝑖2 √∑𝑦𝑖2

Donde 𝑥𝑖 = 𝑋𝑖 − 𝑋̅ y 𝑦𝑖 = 𝑌𝑖 − 𝑌̅. Si lo elevo al cuadrado, obtengo:

2
(∑𝑛𝑖 𝑥𝑖 𝑦𝑖 )2
𝑟𝑋𝑌 =
∑𝑥𝑖2 ∑𝑦𝑖2

Vamos ahora al coeficiente de determinación, 𝑅 2:

𝑆𝐶𝐸 ∑𝑛𝑖 𝑦̂𝑖 2


𝑅2 = =
𝑆𝐶𝑇 ∑𝑛𝑖 𝑦𝑖2

Notar que esta demostración es válida únicamente para el caso de un modelo lineal con dos
variables: una dependiente (Y) y otra independiente (X).

Empecemos: por definición, sabemos que:


̂𝑖 = 𝛼̂ + 𝛽̂ 𝑋𝑖
𝑌
También es cierto que:
̅𝑖 = 𝛼̂ + 𝛽̂ 𝑋̅𝑖
𝑌
Resto esta segunda expresión a la primera:
̅𝑖 = 𝛽̂ (𝑋𝑖 − 𝑋̅𝑖 )
̂𝑖 − 𝑌
𝑌
Elevo al cuadrado a ambos lados de la ecuación:

̅𝑖 )2 = [𝛽̂ (𝑋𝑖 − 𝑋̅𝑖 )]2


̂𝑖 − 𝑌
(𝑌

̅𝑖 )2 = 𝛽̂ 2 (𝑋𝑖 − 𝑋̅𝑖 )2
̂𝑖 − 𝑌
(𝑌

Aplicando sumatoria a ambos lados:


𝑛 𝑛
2
̅𝑖 ) = 𝛽̂ 2 ∑(𝑋𝑖 − 𝑋̅𝑖 )2
̂𝑖 − 𝑌
∑(𝑌
𝑖 𝑖

Fijate que el 𝛽̂ queda fuera de la sumatoria porque es una constante. Además, nota que esta
expresión puedo escribirla como:
𝑛 𝑛
2
∑ 𝑦̂𝑖 = 𝛽̂ 2 ∑ 𝑥𝑖2
𝑖 𝑖

Recordá que 𝑌 ̅
̅𝑖 = 𝑌
̂𝑖 . Vamos entonces a la definición del coeficiente de determinación:

2
∑𝑛𝑖 𝑦̂𝑖 2 𝛽̂ 2 ∑𝑛𝑖 𝑥𝑖2
𝑅 = 𝑛 2=
∑𝑖 𝑦𝑖 ∑𝑛𝑖 𝑦𝑖2
2
∑𝑛
𝑖 𝑦𝑖 𝑥𝑖 (∑𝑛
𝑖 𝑦𝑖 𝑥𝑖 )
Sabiendo que 𝛽̂ = ∑𝑛 2 , entonces es fácil ver que 𝛽̂ 2 = 2 2
. Reemplazo:
𝑖 𝑥𝑖 (∑𝑛
𝑖 𝑥𝑖 )
Tutora: Florencia Hnilo Otoño 2020

(∑𝑛𝑖 𝑦𝑖 𝑥𝑖 )2 ∑𝑛𝑖 𝑥𝑖2


𝑅2 = 2 . 𝑛 2
(∑𝑛 𝑥 2 ) ∑𝑖 𝑦𝑖
𝑖 𝑖

Fijate que ∑𝑛𝑖 𝑥𝑖2 aparece en el numerador y dos veces en el denominador. Entonces:

(∑𝑛𝑖 𝑦𝑖 𝑥𝑖 )2 1
𝑅2 = 𝑛 2 . 𝑛 2 = 𝑟𝑋𝑌
∑𝑖 𝑥𝑖 ∑𝑖 𝑦𝑖

¡Fin de la demostración!

Vamos ahora a ver que 𝑺𝟐 = 𝝈 ̂𝟐 es insesgado, o sea que 𝐸(𝜎̂2 ) = 𝜎 2 . Esta no es la única
forma de demostrar la insesgadez del estimador de la varianza del error, hay una más fácil con
matrices, pero por ahora vamos con esta.

𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝑢𝑖 (1)

Si aplico sumatoria a ambos lados y divido por n obtengo:


𝑌̅ = 𝛼 + 𝛽𝑋̅ + 𝑢̅ (2)

Resto (2) a (1) y obtengo:


𝑦𝑖 = 𝛽𝑥𝑖 + 𝑢𝑖 − 𝑢̅ (3)

Por otro lado, 𝑢̂𝑖 es por definición:


𝑢̂𝑖 = 𝑌𝑖 − 𝛼̂ − 𝛽̂ 𝑋𝑖 (4)

Si aplico sumatoria a ambos lados de (4) y divido por n obtengo:


𝑢̅
̂𝑖 = 𝑌̅ − 𝛼̂ − 𝛽̂ 𝑋̅ (5)

̅𝑖 = 0:
Restando (5) a (4) y teniendo en cuenta que 𝑢̂
𝑢̂𝑖 = 𝑦𝑖 − 𝛽̂ 𝑥𝑖 (6)

Sustituyendo (3) en (6):


𝑢̂𝑖 = (𝛽𝑥𝑖 + 𝑢𝑖 − 𝑢̅) − 𝛽̂ 𝑥𝑖
𝑢̂𝑖 = −(𝛽̂ − 𝛽)𝑥𝑖 + (𝑢𝑖 − 𝑢̅) (7)

Elevando al cuadrado ambos lados de (7) y aplicando sumatoria:


𝑛 𝑛 𝑛 𝑛
2
(8)
∑ 𝑢̂𝑖 2 = (𝛽̂ − 𝛽) ∑ 𝑥𝑖2 + ∑(𝑢𝑖 − 𝑢̅)2 − 2(𝛽̂ − 𝛽) ∑ 𝑥𝑖2 (𝑢𝑖 − 𝑢̅)
𝑖 𝑖 𝑖 𝑖

Tomando esperanza a ambos lados a (8):


𝑛 𝑛 𝑛
2
(9)
2
𝐸 [∑ 𝑢̂𝑖 ] = 𝐸 [(𝛽̂ − 𝛽) ] ∑ 𝑥𝑖2 + 𝐸 [∑(𝑢𝑖 − 𝑢̅)2 ]
𝑖 𝑖 𝑖
𝑛

− 2𝐸 [(𝛽̂ − 𝛽) ∑ 𝑥𝑖2 (𝑢𝑖 − 𝑢̅)]


𝑖
𝑛 𝑛
𝜎2 (10)
𝐸 [∑ 𝑢̂𝑖 2 ] = 𝑛 2 ∑ 𝑥𝑖2 + (𝑛 − 1)𝜎 2 − 2𝜎 2 = (𝑛 − 2)𝜎 2
∑𝑖 𝑥𝑖
𝑖 𝑖
Tutora: Florencia Hnilo Otoño 2020

Por lo tanto, notar que si paso dividiendo (n-2) obtengo:


𝐸[∑𝑛𝑖 𝑢̂𝑖 2 ]
= 𝜎2
𝑛−2
∑𝑛𝑖 𝑢̂𝑖 2
𝐸[ ] = 𝐸[𝑆 2 ] = 𝜎 2
𝑛−2

“Pero pará Flor, ¿cómo llegaste de (9) a (10)? ¡No tiene sentido!”

Ahí vamos:

2 𝜎2
𝐸 [(𝛽̂ − 𝛽) ] = 𝑉(𝛽̂ ) =
∑𝑛𝑖 𝑥𝑖2

Por otro lado (este paso y el que sigue son difíciles, hacelos mirando las demostraciones,
supuestos y propiedades de la Tutorial 3):
𝑛 𝑛 𝑛 2
∑𝑛𝑖 𝑢𝑖
𝐸 [∑(𝑢𝑖 − 𝑢̅)2 ] = 𝐸 [∑ 𝑢𝑖2 − 𝑛 𝑢̅2 ] = 𝐸 [∑ 𝑢𝑖2 − 𝑛 ( ) ]
𝑛
𝑖 𝑖 𝑖
𝑛 𝑛
1 𝑛
= 𝐸 [∑ 𝑢𝑖2 − (∑ 𝑢𝑖2 + ∑ 𝑢𝑖 𝑢𝑗 )] = 𝑛𝜎 2 − 𝜎 2 = (𝑛 − 1)𝜎 2
𝑛 𝑛
𝑖 𝑖 𝑖≠𝑗

Por último, el último término coloreado:


𝑛 𝑛 𝑛 𝑛 2
1 1
𝐸 [(𝛽̂ − 𝛽) ∑ 𝑥𝑖 (𝑢𝑖 − 𝑢̅)] = 𝐸 [ 𝑛 2 ∑ 𝑥𝑖 𝑢𝑖 ∑ 𝑥𝑖 𝑢𝑖 ]
2
= 𝑛 2 [∑ 𝑥𝑖 𝐸(𝑢𝑖 )]
∑𝑖 𝑥𝑖 ∑𝑖 𝑥𝑖
𝑖 𝑖 𝑖 𝑖
𝑛
1
= 𝑛 2 [∑ 𝑥𝑖2 𝐸(𝑢𝑖 )2 + ∑ ∑ 𝑥𝑖 𝑥𝑖 𝐸(𝑢𝑖 𝑢𝑗 )] = 𝜎 2
∑𝑖 𝑥𝑖
𝑖 𝑖≠𝑗
Segunda Parte
Magistrales
El análisis estadı́stico es internamente válido si la inferencia estadı́stica sobre los efectos
causales es válida para la población que está siendo estudiada. A contracara, el análisis
estadı́stico externamente válido se da cuando su inferencia y las conclusiones puede ge-
neralizarse, a partir de la población y contexto estudiado, a otras poblaciones y contextos.

La validez interna tiene dos componentes:

∗ El estimador del “efecto causal”debe ser insesgado y consistente

∗ La inferencia estadı́stica deberı́a tener el nivel deseado de significatividad.

Si no se cumplen los supuestos de MCO, está en juego la validez interna.

Asumir que X es no aleatoria es que el investigador la puede elegir. Ahora no hacemos


más ese supuesto. Es por eso que reescribimos los supuestos clásicos:

1. Linealidad

2. Exogeneidad estricta E(µ|X) = 0

3. Homocedasticidad var(µ|X) = σ 2

4. No correlación serial: cov(µi , µj |X) = 0 ∀i 6= j

Definimos el sesgo como:


sesgo(β̂M CO ) = E(β̂M CO ) − β
La varianza del estimador se define como:
h i2
2
varβ (β̂M CO ) = E β̂M CO − E(β̂M CO )

Un buen estimaodr tiene el menor sesgo y menos varianza posible. Existe un trade-off
entre sesgo y varianza. Aparece el Error Cuadrático Medio, que se define como:

ECM (β̂M CO ) = var(β̂M CO ) + sesgo2 (β̂M CO )

Demostración:

ECM (β̂M CO ) = E[β̂M CO − β]2


= E[((β̂M CO ) − E(β̂M CO )) + (E(β̂M CO ) − β)]2
= E[β̂M CO − E(β̂M CO )]2 + [E(β̂M CO ) − β]2
= var(β̂M CO ) + B 2 (β̂M CO ) 

El ECM se puede usar para comparar diferentes estimadores sesgados. Sean β̂ y β̃ dos
posibles estimadores de β, si
ECM (β̂) ≤ ECM (β̃)

36
decimos que β̂ es preferible a β̃. No podemos encontrar un estimador ECM óptimo.

En caso de tener diferentes estimadores insesgado, si

var(β̂) ≤ var(β̃)

decimos que β̂ es un estimador más eficiente que otro estimador insesgado.


p
El estimador es consistente si cuando n −→ ∞ el β̂M CO → − β. Es decir, se hace muy
probable que el estimador se acerque al parámetro. Formalmente:
h i
P |β̂M CO − β| < ε = 1 ∀ε > 0 o plim(β̂M CO ) = β

Para ello, se puede pensar en las condiciones suficientes para que ocurra: que el sesgo y
la varianza tiendan a cero a medida que n −→ ∞

Fuentes de Sesgo
El estimador de MCO puede estar sesgado, incluso para muestras grandes. Las fuentes
son las que detallaremos.

Sesgo por variable omitida


Si una variable independiente está correlacionada con algún regresor. Si omitimos una
variable que determina a la variable dependiente y correlaciona con la independiente,
entonces
p σµ
β̂M CO →
− β1 + ρX,µ
σX
Si ρ > 0 entonces tengo sesgo positivo, voy a estar sobreestimando el verdadero efecto y
si ρ < 0 voy a estar subestimando. Una fuente de sesgo es omitir una variable porque no
puede observarla.

corr(X1 , X2 ) > 0 corr(X1 , X2 ) < 0


β2 > 0 + -
β2 < 0 - +

Sesgo por error de especificación en la forma funcional


Equivocarse en la forma funcional va al término de error y eso hace que se correlacione
con el regresor.

Errores de medición en los regresores


Supongamos que quiere medir el ingreso de las personas. Supongamos que tengo un único
regresor X que es el ingreso real. Se mide en forma imprecisa X̃ (ingreso declarado). Mi
regresión de interés es:
y = β0 + β1 X + µ
Ahora con el ingreso declarado

y = β0 + β1 X̃ + [β1 (X − X̃)] + µ

37
La regresión que se estimará:
y = β0 + β1 X̃ + v
donde v = [β1 (X − X̃] + µ. Se puede ver que existe correlación con las variables.

Llamamos a los siguiente como error de medición clásico:

X̃ = X + ω

Por el hecho de que ω es aleatorio, podemos suponer que corr(ω, X) = 0 y que corr(ω, µ) =
0. Se puede probar que, incluso bajo el supuesto de que ω sea aleatorio
2
p σX
β̂1 →
− 2
β1
σX + σω2

Como el ratio de varianzas es menor a 1, β̂1 estará sesgado hacia el 0, es decir, estamos
subestimando el efecto, incluso para muestras grandes. Si no existe error de medición:
p
σω2 = 0 =⇒ β̂1 →
− β1

Missing Data y sesgo de selección muestral


Missing data es la situación en la cual para ciertos individuos no tengo información. Este
es un sesgo que viene desde la toma de la muestra. También el sesgo de selección consiste
en los datos que se pierden debido a un proceso de selección que está relacionado con y
además de con X.

Causalidad simultánea
Además de haber un efecto causal de X en y existe un efecto causal de y en X. Esta
reversión de la causalidad hace que X esté correlacionada con el término de error. Un
shock puede hacer que X se vea afectada por el cambio en µ.

Variables Instrumentales
Tenemos el caso más sencillo

y i = β0 + β1 Xi + µi aunque cov(X, µ)

Queremos obtener estimadores consistentes de β0 y β1 cuando X y µ están correlacionadas.


Necesitamos información adicional que vendrá de una variable instrumental (z).

Z −→ X −→ Y
↑ %
µ
Tiene que cumplir dos condiciones:

∗ Exogeneidad: cov(Z, µ) = 0

∗ Relevante: cov(Z, X) 6= 0

38
Z no puede explicar Y pero si tiene que tener relación con X. Hay una diferencia entre
ambos supuestos:

∗ cov(Z, µ) no es observable. Entonces no se puede constrastar empı́ricamrnte. Debe-


mos defender este supuesto recurriendo al sentido común.

∗ cov(Z, X) 6= 0 si se puede constrastar empı́ricamente con una regresión.

Indentificación de β1
Si se cumple que cov(Z, µ) = 0 y cov(Z, X) 6= 0 permiten identificar el parámetro β1 .
Aquı́ la identificación de un parámetro implica que podemos escribir β1 en términos de
los momentos poblacionales que se pueden estimar con los datos de la muestra.

cov(Z, Y ) = β1 cov(Z, X) + cov(Z, µ)

Si tenemos
y = β0 + β1 X + µ
Calculamos covarianza:

cov(Z, Y ) = cov(Z, βo + β1 X + µ)
cov(Z, Y ) = cov(Z, β0 ) +β1 cov(Z, X) + cov(Z, µ)
| {z } | {z } | {z }
=0 6=0 relevancia =0

cov(Z, Y ) = β1 cov(Z, X)
cov(Z,
c Y)
β̂1 =
cov(Z,
c X)

Si X = Z → β̂1 = β̂1M CO . MCO es un caso particular de variable instrumental en la que


yo digo que X no está correlacionada con µ.

Trabajando con análogos muestrales:


Pn
VI (Zi − Z)(Yi − Y )
β̂1 = Pni=1
i=1 (Zi − Z)(Xi − X)

β̂0V I = Y − β̂1V I X
Si X = Z, β̂1V I = β̂1OLS . Si se cumplen los supuestos de relevancia y exogeneidad

plim(β̂1V I ) = β1

Alguna falla en dichos supuestos vuelve inconsistente el estimador.

Magistrales - 15/05/2020
Para hacer inferencia podemos suponer que como el estimador de VI es parecido al MCO,
esperamos que se distribuya aproximadamente de forma normal para muestras grandes.
Para hacer inferencia, necesitamos el error estándar.

39
El enfoque tradicional es asumir homocedasticidad, es decir,
E(µ2 |z) = σ 2 = var(µ)
Si al supuesto anterior le adicionamos los supuestos de exogeneidad y relevancia del ins-
trumento, la varianza asintótica de
σ2
var(β̂1V I ) = 2 2
nσX ρX,Z
El grado de dependencia entre X y Z condiciona la varianza:
s
σ̂ 2
SE(β̂1V I ) = 2
SCT · RX,Z
donde SCT es la suma de cuadrados totales. Notemos que en el denominador lo distinto
2 2
con MCO es la aparición de RX,Z . Como RX,Z < 1 =⇒ var(β̂1V I ) > var(β̂1M CO )

Vimos que β̂1V I es consistente si se cumple que cov(z, µ) = 0 y cov(X, Z) 6= 0. Si la corre-


lación entre Z y X es débil, entonces aumenta el error estándar del estimador de variables
instrumentales. Tener un instrumento débil tiene una consecuencia más seria aún: β̂1V I
puede tener un gran sesgo asintótico incluso si Z y µ están levemente correlacionadas:
corr(Z, µ) σµ
plimβ̂1V I = β1 +
corr(Z, X) σX
Ahora lo que vamos a hacer es extender el análisis al caso múltiples. Tenemos la siguiente
regresión:
Ecuación estructural y1 = β0 + β1 y2 + β2 z1 + µ1
en donde:
∗ y1 : es la variable dependiente (endógena =⇒ cov(y1 , µ) 6= 0)
∗ y2 : variable explicativa (endógena) =⇒ cov(y2 , µ) 6= 0
∗ z1 : variable explicativa (exógena) =⇒ cov(z1 , µ) = 0
∗ µ1 : error aleatorio
Necesitamos otra variable exógena: z2 que no forme parte de la ecuación estructural.
Tiene que cumplir con:
∗ cov(z2 , y2 ) 6= 0 (condición de relevancia)
∗ cov(z2 , µ1 ) = 0 (condición de exogeneidad)
Si E(µ1 ) = 0, E(z1 µ1 ) = 0, E(z2 µ1 ) = 0 podemos obtener los estimadores β̂0 , β̂1 , β̂2 según
el enfoque del método de momentos:
n
X
(yi1 − β̂0 − β̂1 yi2 − β̂2 zi1 ) = 0
i=1
n
X
zi1 (yi1 − β̂0 − β̂1 yi2 − β̂2 zi1 ) = 0
i=1
n
X
zi2 (yi1 − β̂0 − β̂1 yi2 − β̂2 zi1 ) = 0
i=1

40
Hay tres ecuaciones y tres incógnitas. Notar que si z2 = y2 =⇒ V I = M CO. Tam-
bién necesitamos que cov(z2 , y2 ) (relevancia), pero como z1 está presente en la ecuación
estructural, este supuesto debe expresarse en términos de correlación parcial.

Forma reducida y2 = π0 + π1 z1 + π2 z2 + v2
Se llama correlación parcial porque también está z1 , es decir, se controla por otra variable.
La condición de identificación es que

π2 6= 0

Podemos tener la situación en la que tenemos un único regresor endógeno (y2 ):

y1 = β0 + β1 y2 + β2 z1 + µ1

Si disponemos de dos instrumentos válidos, z2 y z3 , entonces la mejor variable instrumen-


tal para y2 es una combinación lineal de las zj .

La ecuación de la forma reducida para y2 :

y2 = π0 + π1 z1 + π2 z2 + π3 z3 + v2

donde E(v2 ) = 0, cov(z1 , v2 ) = 0, cov(z2 , v2 ) = 0, cov(z3 , v2 ) = 0

Mı́nimos Cuadrados en Dos Etapas (MC2E)


Podemos estimar la ecuación en la forma reducida por MCO (primera etapa):

ŷ2 = π̂0 + π̂1 z1 + π̂2 z2 + π̂3 z3

Condición de identificación:
π2 6= 0 o π3 6= 0
Ahora ŷ2 es exógena y podemos usarla como VI de y2 porque es una combinación lineal
de dos exógenas.

Cuando usamos ŷ2 como VI de y2 , los estimadores de VI de β̂0 , β̂1 , β̂2 son idénticos a la
estimación por MCO a partir de la regresión (segunda etapa):

y1 = β0 + β1 ŷ2 + β2 z1 + µ1

En STATA se usa el comando ivregress 2sls . No se recomienda hacer a mano porque


lo que sucede es que se arrastran los errores estándar. Cuando en STATA corremos la
opción robust estamos corrigiendo por heterocedasticidad.

Multicolinealidad y MC2E
Si tenı́a multicolinealidad en MCO se me inflaba la varianza. En MC2E el problema puede
ser incluso más serio:
σ2
STˆ C 2 (1 − R22 )
en donde

41
∗ σ 2 = var(µ1 )

∗ STˆ C 2 es la varianza total de ŷ2

∗ R22 es el R2 de la regresión de la ecuación reducida.

La varianza del estimador de MC2E puede ser mayor al de MCO por dos razones. La
primera es que ŷ2 tiene menor varianza que y2 . La segunda es que la correlación entre ŷ2
y las variables exógenas es más alta que entre y2 y esas variables. Si hay multicolinealidad
aumenta el R2 de la primera regresión.

Prueba de Endogeneidad - Test de Haussman


Si las variables explicativas son exógenas, MC2E es menos eficiente que MCO. Haussman
lo que hace es contrastar un modelo contra el otro. Sea

y1 = β0 + β1 y2 + β2 z1 + β3 z2 + µ1

Asumamos que tenemos dos variables instrumentales: z3 y z4 . Si y2 fuera exógena, habrı́a


que estimar por MCO. Haussman (1978) propuso contrastar MCO y MC2E. Si ambas
difieren significativamente, entonces y2 debe ser endógena.

Procedimiento
1) Estimar la primera etapa:

y2 = π0 + π1 z1 + π2 z2 + π3 z3 + π4 z4 + v2

2) Obtener v̂2

3) Estimar por MCO:

y1 = β0 + β1 y2 + β2 z1 + β3 z2 + δ1 v̂2 + error

4) Evaluar H0 : δ1 = 0 mediante un test t.

5) Si rechazo H0 es porque tengo que usar MC2E porque son distintos. La hipótesis nula
es si MCO y MC2E son iguales, si es lo mismo. En Stata corro las dos regresiones, las
guardo con est store name y después hausman iv ols, force.

Test de restricciones de sobreidentificación - Test de Sargan


Si tenemos más instrumentos que los necesarios, se puede probar si alguno de ellos está
correlacionado con el error estructural. Volvamos al ejemplo que tenemos

y1 = β0 + β1 y2 + β2 z1 + β3 z2 + µ1

Tenemos un único regresor endógeno (y2 ) y dos variables instrumentales, z3 y z4

42
Procedimiento
1) Estimar la ecuación estructural mediante MC2E y obtener µ̂1

2) Estimar la regresión µ̂1 en función de todas las variables exógenas (z1 , z2 , z3 , z4 ) y ob-
tener el R2 (R12 ).

3) Evaluar la H0 de que todas las VI no correlacionan con µ. La alternativa es que alguno


es distinto de cero. Yo no quiero rechazar.

4) Usar el estadı́stico nR12 ∼ χ2q donde q es el número de variables instrumentales externas


al modelo menos el número total de regresores endógenos.

Si tenemos múltiples regresores endógenos, cada regresor endógeno requerirá su propia


primera etapa (en función de todas las otras variables instrumentales y resto de regresores
exógenas de la ecuación estructural. En la segunda etapa se estima la ecuación estructural
a partir de las predicciones de las primeras etapas. Comandos de STATA: ivreg 2sls
(con opción first), overid es para el test y ivreg2 (estima e incluye varios tests).

Validez interna y externa


La población estudiada es aquella de la que se extrajo la muestra. La población para la
cual los resultados se generalizan, o población de interés, es la población de entidades
individuales para la que se van a aplicar las inferencias causales del estudio. Se dice que
un análisis estadı́stico tiene validez interna si las inferencias estadı́sticas acerca de los
efectos causales son válidas para la población que está siendo estudiada. Se dice que el
análisis tienen validez externa si sus inferencias y conclusiones pueden ser generalizadas
a partir de la población y el escenario estudiados para otras poblaciones y entornos.

Amenazas a la validez interna: La validez interna tiene dos componentes. En primer lu-
gar, el estimador del efecto causal debe ser insesgado y consistente. En segundo lugar, los
constrastes de hipótesis deben tener el nivel de significación deseado, y los intervalos de
confianza deben tener el nivel de confianza deseado.

Amenazas a la validez externa. La primera es la diferencias entre poblaciones. Otra es


las diferencias en el escenario: incluso aunque la población estudiada y la población de
interés sean la misma, tal vez no sea posible generalizar los resultados del estudio si los
escenarios son distintos.

Hay cinco fuentes de sesgo que surgen debido a que el regresor está correlacionado con el
término de error de la regresión poblaciónal, violando un supuesto cásico.

Sesgo de la variable omitida: ocurre cuando se omite una variable que determina Y
y además está correlacionada con uno o con más de los regresores incluidos en esa misma
regresión. Si se dispone de datos de variable omitida, entonces se incluye en el modelo.
Si se dispone de datos sobre una o más variables de control, y esas variables de control
son adecuadas en el sentido de que conducen a la independencia de la media condicional,e
ntonces la inclusión de esas variables de control elimina el posible sesgo en el coeficiente

43
de la variable de interés.

Si se agrega una variable cuando no corresponda, esto hará reducir la precisión de los
estimadores de los otros coeficientes. En la práctica, existen cuatro pasos para decidir si
se incluye una variable o un conjunto de variables en la regresión:

1. Identificar el coeficiente o coeficientes de interés clave en la regresión.

2. Preguntarse: cuáles son las fuentes más probables de un sesgo importante de variable
omitida en esta regresión?. Se requiere teorı́a económica.

3. Aumentar la especificación base con las variables de control adicionales cuestiona-


bles indentificadas en el segundo paso. Si los coeficientes de las variables control son
estadı́sticamente significativos o si los coeficientes de interés estimados cambian sen-
siblmente cuando se incluyen las variables adicionales, entonces deben permanecer
en la especificación y debe modificarse la especificación base. Si no, estas variables
pueden ser excluidas de la regresión.

4. Presentar un resumen preciso de los resultados en forma de tabla.

Cuando no se dispone de variables de control adecuadas hay tres soluciones. La primera


es utilizar los datos en los que se observa la misma unidad observacional en diferentes mo-
mentos del tiempo. Esto se denomina datos de panel. La segunda opción es usar variables
instrumentales. La tercera es utilizar un diseño de estudio en el que el efecto de interés se
estudie mediante un experimento aleatorizado controlado.

Error de especificación en la forma funcional de la regresión: si la verdadera


función es no lineal y la estimada es lineal, por ejemplo, entonces este error produce que
el estimador MCO sea sesgado. Se puede solucionar haciendo un gráfico.

Sesgo de errores de medida y por errores en las variables: ocurre cuando una
variable independiente se mide de forma imprecisa. Este sesgo depende de la naturaleza
del error de medida y persiste incluso si el tamaño de la muestra es grande. La mejor
manera de resolverlo es obtener una medida precisa de X. Otra solución es usar VI y otra
es estimar los errores con modelos matemáticos.

Datos perdidos y selección muestral: cuando se pierden datos aleatoriamente solo


se reduce el tamaño de la muestra, pero no se introduce sesgo. En contraste, si los datos
se perdieron debido a un proceso de selección que está relacionado con el valor de la va-
riable dependientes (Y ) además de depender de los regresores (X) entonces este proceso
de selección puede introducir correlación entre el término de error y los regresores. Este
sesgo se denomina sesgo de selección muestral.

Sesgo por casualidad simultánea: aparece en una regresión de Y sobre X cuando,


además del vı́nculo causal de interés que va desde X hacia Y , existe un vı́nculo causal
desde Y hacia X. Esta causalida provoca que X esté correlacionado con el término de
error en la regresión poblacional de interés. Una solucion es usar variables instrumentales,
otra es hacer un experimento aleatorizado.

44
Existen dos razones para la inconsistencia de los errores estándar. La primera de ellas es la
heterocedasticidad. Si el error de la regresión es heterocedástico, estos errores estándar no
constituyen una base fiable para los contrastes de hipótesis y los intervalos de confianza.
Si las variables no son independientes entre distintas observaciones, lo cual puede ocurrir
en datos de panel y series temporales, entonces se necesita un nuevo ajuste en la fórmula
de los errores estándar a fin de obtener errores estándar válidos.

Capı́tulo 12 S&W - Variables Instrumentales


Las variables correlacionadas con el término de error se denominan variables endógenas,
mientras que las variables que no están correlacionadas con el término de error se llaman
variables exógenas.

Hay dos condiciones para que el instrumento sea válido. La primera se llama condición
de relevancia, que implica que la correlación entre el instrumento y la variable explicativa
es distinta de cero y la correlación del instrumento con el término de error es cero. A esto
se lo llama condición de exogeneidad del instrumento.

El modelo general de regresión VI tiene cuatro tipos de variables: la variable dependiente,


los regresores endógenos problemáticos X, regresores adicionales (variables exógenas in-
cluidas), que serán W y variables instrumentales, Z. Para que la regresión VI sea posible,
debe haber al menos tantas variables instrumentales como regresores X. Se dice que los
coeficientes de regresión están exactamente identificados si el número de isntrumentos
(m) es igual al número de regresores endógenos, k, es decir, m = k. Los coeficientes están
sobreidentificados si el número de instrumentos supera al número de regresores endógenos,
m > k y están subidentificados si m < k. Para estimar por VI, deben estar exactamente
identificados o bien sobreidentificados.

En general, si W es una variable de control efectiva en la regresión VI, entonces la inclu-


sión de W hace que el instrumento no esté correlacionado con µ, por lo que el estimador
MC2E del coeficiente de X es consistente. Si W está correlacionado con µ el coeficiente
MC2E de W está sujeto a un sesgo de variable omitida y no tiene una interpretación
causal. Matemáticamente, lo que buscamos es que E(µi |Wi ) = 0, ∀i.

Cuando tenemos varios regresores endógenos, X1i , ..., Xki cada regresor endógeno requiere
su propia regresión en la primera etapa. Esta primera etapa es similar a con un instru-
mento: se regresa la variable dependiente contra todas las variables explicativas exógenas
W y todos los instrumentos Z. En la segunda etapa se estima por MCO, excepto que los
regresores endógenos (X) se sustituyen por sus valores respectivos (X̂).

Bajo los supuestos de la regresión VI, el estimador MC2E es consistente y tiene una
distribución que, en muestras grandes, es aproximadamente normal. La regresión por VI
tiene cuatro supuestos claves:

1. E(µi |W1i , ..., Wri ) = 0

2. (X1i , ..., Xki , W1i , ..., Wri , Z1i , ..., Zmi , Yi ) son extracciones iid de su distribución con-
junta

45
3. Los valores elevados son poco probables, las X, W, Z e Y tienen momentos de cuarto
orden finitos y distintos de cero

4. Se cumplen las condiciones de relevancia y exogeneidad. Es decir, tienen colas pe-


sadas pero no se van a infinito

Cuando más relevante es el instrumento, entonces más precisa es la estimación. Cuando


la muestra es más grande, también más precisa es la estimación.

Verificación de validez de los instrumentos. Cuando más relevante sean los instrumentos
más información está disponible para su uso en la regresión VI. Un instrumento más rele-
vante da lugar a un estimador más preciso, as´;i como un tamaño muestral más grande da
lugar a un estimador más preciso. Los instrumentos que explican una pequeña proporción
de la variación de X se denominan instrumentos débiles.

Si los instrumentos son débiles entonces la distribución normal proporciona una aproxi-
mación pobre para la distribución muestral del estimador MC2E. Por lo tanto, no existe
justificación teórica para los métodos habituales de llevar a cabo la inferencia estadı́sti-
ca, incluso en muestras grandes. De hecho, si los instrumentos son débiles, el estimador
MC2E puede estar erróneamente sesgado en la dirección del estimador MCO. Cuando el
instrumento es irrelevante, la distribución para muestras grandes del estimador MC2E no
es la de una variable aleatoria normal, sino mas bien la distribución de un cociente de dos
variables aleatorias normales.

Para comprobar la debilidad de los instrumentos cuando existe un único regre-


sor endógeno es calcular el estadı́stico F para el constraste de la hipótesis de que todos
los coeficientes de los instrumentos son iguales a cero en la regresión de la primera etapa
de MC2E. Si el estadı́stico F > 10 entonces no hay que preocuparse. Para solucionar esto,
la primera opción es encontrar instrumentos adicionales, fuertes. La segunda es usar estos
instrumentos pero utilizando distintos métodos al de MC2E.

Si los coeficientes están sobreidentificados, es posible constrastar la sobreidentificación de


las restricciones, es decir, contrastar la hipótesis de que los instrumentos extras son exóge-
nos bajo el cumplimiento de que existen suficientes instrumentos válidos para identificar
los coeficientes de interés.

El contraste de sobreidentificación de restricciones (el estadı́stico J: sea µ̂M i


C2E

el residuo de la estimación MC2E . Se utiliza MCO para la estimación de los coeficientes


de regresión:

µ̂M
i
C2E
= δ0 + δ1 Z1i + ... + δm Zmi + δm+1 W1i + ... + δm+r Wri + ei

donde ei es el término de la regresión. Sea F el estadı́stico válido con homocedasticidad


para el contraste de hipótesis de que δ1 = ... = δm . El estadı́stico para el constraste de
sobreidentificación de restricciones es J = mF . Bajo la hipótesis nula de que todos los
instrumentos son exógenos, si ei es homocedástico, en muestras grandes J se distribuye
χ2m−k donde m − k es el grado de sobreidentificación, es decir, el número de instrumentos
menos el número de regresores endógenos.

46
Tutorial Práctica de Variables Instrumentales
El comando estat firststage hace un test de significatividad global de los instrumen-
tos. Cuando hay un solo instrumento es igual al test de significatividad individual.

Test de Hausman: con este test lo que hago es testear el supuesto de exogeneidad:

H0 : supuesto es válido vs. HA : supuesto no es válido

Bajo H0 el estimador de VI como el de MCO son consistentes, pero el de MCO es eficien-


te por Gauss-Markov. Bajo HA , solo IV es consistente. Para este test tengo que hacer la
regresion por OLS y VI, guardarlas y correr hausman iv ols, force.

Test de sobreidentificiación: si el modelo está sobreidentificado (el nro. de instrumentos es


mayor al número de variables endógenas), podemos testear si algunos de los instrumentos
son inválidos. Para esto usamos dos test: Test de Sargan y Test J o Test de Bassman.
Con el test de Sargan no quiero rechazar la hipótesis nula. Si la rechazo, no puedo decir
cual de los instrumentos es endógeno.

Magistrales - 22/05/2020
Ahora lo que nos interesa es la evolución temporal de las series económicas. Las series de
tiempo tienen dimensión t. La notación es yt y hay distintas frecuencias: anual, semestral,
trimestral, mensual, semanal, diaria, intradiaria. Cuando hay muchos datos en un inter-
valo de tiempo chico se dice una serie de alta frecuencia.

Tenemos distintos operadores:


∗ Rezagos (lags, L): yt−1 , yt−2 , ..., yt−j
,→ yt−1 = L · yt
,→ yt−j = Lj · yt
Acá lo que quiero hacer es expresar en términos pasados.
∗ Adelantos (leads): yt+1 , yt+2 , ..., yt+j
∗ Primeras diferencias (first differences)

∆yt = yt − yt−1 = (1 − L)yt

Se usa para computar diferencias. Respeta las unidades de medida. Separa en suma
∗ Logaritmos (logarithms): ln(yt ); ∆ ln(yt ). El logaritmo reduce la varianza. Se le pue-
de aplicar la tasa de crecimiento.
∗ Tasas de crecimiento (growth rates): 100 × ∆ ln(yt )
Veamos el caso particular de lo que es la doble diferencia:

∆2 yt = ∆(∆yt ) = ∆(yt − yt−1 ) = ∆yt − ∆yt−1 = yt − yt−1 − (yt−1 − yt−1 ) =


= yt − 2yt−1 + yt−2 = yt − 2Lyt + L2 yt = yt (1 − 2L + L2 ) = yt (L − 1)2

47
Propiedades de las series temporales
Propiedad 1: presentan comportamientos dinámicos. Al estar ordenadas temporalmen-
te, los valores pasados influyen en los valores presentes y futuros. Esto usualmente resulta
en la violación del supuesto de ausencia de correlación en MCO: cov(µi , µj ) 6= 0 ∀i 6= j.

Propiedad 2: usualmente tienen momentos que dependen del tiempo (ej.: media, varian-
za, asimetrı́a, kurtosis, etc.). Esto implia que las series no sean estacionarias. Granger y
Newbold (1974) demostraron que si regresionan dos variables independientes no estacio-
narias, la probabilidad de encontrar una relación espuria es muy alta.

Propiedad 3: la naturaleza secuencial de las series temporales permite realizar pronósti-


cos de futuros estables.

Propiedad 4: los eventos en las series temporales pueden causar quiebres estructurales
en la serie de datos. Se pueden estimar estos cambios mediante dummies, modelos de
regime switching/Markov, etc.

Propiedad 5: muchas series temporales están en una relación de equilibrio de largo pla-
zo (cointegración). Se pueden estimar estas relacionas mediante modelos de corrección de
erroes (MCE).

Propiedad 6: muchas series están endógenamente relacionada. Se puede modelar esti-


mando sistemas de ecuaciones, como los vectores autorregresivos (VAR).

Propiedad 7: los efectos de las variables explicativas sobre la variable dependiente pueden
variar en el tiempo. Podemos estimar estos efectos dinámicos con modelos que consideran
parámetros variantes en el tiempo.

Autocorrelación
Recordamos los supuestos clásicos:

TS.1. (linealidad en parámetros)

yt = βo + β1 x1t + ... + βk xkt + µt

TS.2. (no multicolinealidad perfecta) En la muestra, ninguno de los regresores es cons-


tante (igual al intercepto) y no hay una relación lineal exacta entre los regresores.

TS.3. (exogeneidad estricta) E(µt |X) = 0 donde X denota todas las xt e implica:

cov(x1t , µ) = 0, ..., cov(xkt , µt ) = 0 ∀t, j

TS.4. (errores homocedásticos) var(µt |X) = σ 2

TS.5. (ausencia de correlación) cov(µt , µs |X) = 0 ∀t 6= s.


Estos supuestos nos ofrecian eficiencia en la estimación. Teorema:
Supongamos que TS.1. a TS.5. se mantienen, entonces los estimadores MCO de β0 , β1 , ..., βk

48
son MELI, es decir, los mejores (menor varianza) estimadores lineales insesgados (E(β̂) −
β = 0).

Si se viola el supuesto TS.5. vamos a perder la eficiencia del estimador. En las series de
tiempo solemos encontrar autocorrelación. No podemos observar los µ0 s pero podemos
analizar los residuos (µ̂). Para analizar esto vamos plantear un test.

Test LM de Breusch-Godfreg (1978)


Una vez estimamos nuestro modelo por MCO:

yt = x0t β̂ + µ̂t

Se estima la siguiente regresión auxiliar:

µ̂t = x0t α̂ + φ1 µ̂t−1 + φ2 µ̂t−2 + ... + φp µ̂t−p + v̂t

Ahora lo que hago es meter los resagos del residuo. La hipótesis nula es que no hay
autocorrelación. Entonces se evalúa:

H0 : φ1 = φ2 = ... = φp = 0 vs. HA : algún φj 6= 0 ∀j = 1, ..., p

Mediante el estadı́stico, LM = T · R2 ∼ χ2 (p). Con H0 quiero decir que el pasado no


condiciona el presente. Las recomendaciones son siempre poner una unidad de tiempo
más. Si son años, son dos años; si son meses, son 13 meses.

Si el modelo no incluye rezagos de yt , los coeficientes de MCO serán insesgados, pero in-
eficientes. Los errores estándar están mal estimados afectando la eficiencia y la ineficiencia.

Si la forma de autocorrelación es conocida, usar MCG. Ojo, que si el supuesto es inválido,


el remedio puede ser peor que la enfermedad (Hendry y Mizon, 1978). La autocorrelación
es una oportunidad. En Stata, estat bgodfrey, si es muestra chica añadimos la opción
small. Si encuentro autocorrelación, tengo que meter la dinámica.

Modelos dinámicos
Bajos los supuestos de MCO, la matriz de varianzas y covarianzas de los errores era:

E(µµ0 |X) = σ 2 IT

Ahora, bajo autocorrelación:

E(µµ0 |X) = ΩAC 6= σ 2 IT

en donde
 
var(µ1 ) cov(µ1 , µ2 ) cov(µ1 , µ3 )
. . . cov(µ1 , µT )

 cov(µ1 , µ2 ) var(µ2 ) cov(µ2 , µ3 )
. . . cov(µ2 , µT )
ΩAC = E(µµ0 )  cov(µ1 , µ3 ) cov(µ2 , µ3 ) var(µ3 ). . . cov(µ3 , µT )


 .. .. .. ... .. 
 . . . . 
cov(µ1 , µt−1 ) cov(µ, µt−2 cov(µ, µt−3 ) . . . var(µT )

49
Si tomamos a γj es la autocovarianza de unos errores separadas j observaciones (constante
para cada j), tenemos que:
 
σ2 γ1 γ2 γ3 . . . γT −1
 γ1
 σ2 γ1 γ2 . . . γT −2  
 γ2 2
γ1 σ γ1 . . . γT −3 
ΩAC =  γ
 
2
 3 γ 2 γ 1 σ . . . γ 
T −4 
 .. .. .. .. ... 
 . . . . ... 
γT −1 γT −2 γT −3 γT −4 . . . σ 2
La autocovarianza cov(µ1 , µ3 ) hay dos periodos que lo separan, por eso se llama γ2 . A
medida que me alejo de la diagonal principal, aumenta el orden de la autocorrelación. Las
autocovarianzas no dependen del tiempo sino del grado de separación entre dos errores.

γj = cov(µj , µt−j )

Si hay autocorrelación no tengo más ceros, tengo valores distintos de cero. Si saco factor
común sigma, lo que obtengo es lo siguiente:
 
1 ρ1 ρ2 ρ3 . . . ρT −1
 ρ1 1 ρ1 ρ2 . . . ρT −2 
 
 ρ2 ρ 1 1 ρ 1 . . . ρT −3

ΩAC = σ 2 ×  ρ
 
 3 ρ2 ρ1 1 . . . ρT −4 

 .. .. .. .. . . 
 . . . . . ... 
ρT −1 ρT −2 ρT −3 ρT −4 . . . 1
donde ρj = γj /σ 2 . Como la matriz completa es dificil de estimar algunos propusieron
inicialmente usar un modelo que simplifique ΩAC notablemente, con modelos autorregre-
sivos. Una primera aproximación para modelar la autocorrelación podrı́a ser trabajar con
modelos autorregresivos donde se pretende predecir el futuro de una variable a partir de
sus valores pasados.

Modelos autorregresivos de primer orden, AR(1):

yt = β0 + β1 yt−1 + µt

Tutorial
No usamos modelos lineales para probabilidad porque MCO tiene el problema de llegar
a estimar predicciones inconsistentes. Otro problema es que µ es heterocedástico y por
último, el modelo lineal implica derivadas parciales constantes.

Para estimar modelos de probabilidad, están los que se llaman logit y probit. El modelo
no-lineal que se propone es:
p = F (X 0 β)
en donde F (·) tiene las siguientes propiedades:

50
∗ lı́m F (z) = 0 ∗ lı́m F (z) = 1 dF (z)
z→−∞ z→+∞ ∗ f (z) = >0
dz
Probit:
Zz
1 s2
F (z) = √ e 2 ds

−∞

Logit:
ez
F (z) =
1 + ez
El efecto marginal es
∂p
= βk f (x0i β)
∂xk
Solo puedo interpretar el signo porque la derivada depende siempre del individuo. No sirve
interpretar R2 .
Nota 1: Tutoriales - Consultas
Exogeneidad: el instrumento solo le pega a Y a trav́es de X. En µ no hay ninguna
variable que está relacionada con el instrumento. Es óptimo un instrumento
aleatorio.

El instrumento debil es aquel que tiene poca relación con la variable que está ins-
trumentando. Para ver si es debil, hay que hacer el test F y ver si el estadı́stico
es mayor a 10 (regla del pulgar). Que sea debil quiero decir que la correlación es
bajita.

Magistrales - 29/05/2020
Si queremos hacer una predicción para T + 1

ŶT +1|T = β̂0 + β̂1 Yt

Por lo que el error de predicción será:

eT +1 = YT +1 − ŶT +1|T

La predicción no es el valor de predicción de MCO y el e no es el de MCO.

Modelos autoregresivos de resagos distribuı́dos (ADL)

yt = β0 + β1 yt−1 + ... + βp yt−p + δ1 Xt−1 + ... + δq xt−q + µt


Lo que se hace acá es meter resagos de otra variable. Notación ADL(p, q). Para estimar
por OLS tiene que darse

E(µt |yt−1 , yt−2 , ..., Xt−1 , Xt−2 , ...) = 0

51
Si incorporamos una regresión en forma contemporánea es más difı́cil que se cumpla
exogeneidad.
Predicción 6= Pronóstico
Pronóstico: proceso que llevo a cabo para inferir lo que va a suceder con una variable.
Para que un pronóstico sea exitoso deben darse dos requisitos: que existan regularidades,
que sean informativas respecto al futuro y que el método propuesto capture dichas irre-
gularidades. Nos concentramos en los pronósticos de los modelos univariantes.

Antes de comenzar un ejercicio de pronóstico el investigador debe definir.


1. El objetivo del pronóstico (ej: variable en nivel o diferencias)
2. Horizonte de pronóstico (h)
3. El conjunto de información disponible
El mejor modelo que ajuste tus datos no es necesariamente el mejor modelo. Vamos a ver
in-sample vs. pseudo out-of-sample:

|1 − − − − − − − − − − − − − − − |T − − − − − |T ∗
En T = observaciones dentro de la muestra (ventana de estimación). H = observaciones
fuera de la muestra (ventana de pronóstico). T ∗ = T + H = observaciones del total de la
muestra. Respecto a la ventana de estimación se puede adoptar alguno de los siguientes
modelos:
Fijo: el origen del pronóstico está fijo. Se realizan pronósticos para T +1, T +2, ..., T +
h
Recursivo: el origen del pronóstico se actualiza sucesivamente. Se realizan pronóstico
a partir de T , luego a partir de T + 1. Se va ampliando la ventana de estimación.
Rolling: el origen del pronóstico se actualiza, pero manteniendo una ventana fija.
En cada paso se adiciona un nuevo dato y se elimina el dato más antiguo.
Los pronósticos pueden ser dinámicos o estáticos. Los últimos se hacen basados en la
última información efectiva disponible. Los dinámicos, por su parte, utilizan el último
pronóstico disponible para el siguiente pronóstico. Si h = 1 ambos pronosticos son iguales.

Las medidas más usuales para medir la precisión de los pronósticos (ex-post) son el RM-
SE (Root Mean Squared Error) y el MAPE (Mean absolute Percentage Error). Queremos
un pronóstico que (eventualmente) sea insesgado y minimice la varianza del error.

La medida más común es el error cuadrático medio, al cual usualmente se le aplica la raı́z
para preservar las unidades de medida.
v
u T +h
u1 X
RM SE = t e2
h t=T +1 t

También son populares las medidas basadas en el error absoluto. El error medio absoluto
porcentual está dado por:
T +h
1 X
M AP E = |pt |
h t=T +1

52
Modelos ARMA
Una serie de tiempo es una colección de observaciones indizada por la fecha de cada ob-
servación (t). Usualmente, la muestra comienza en t = 1 y termina en t = T .

Sabemos que la serie de tiempo es la realización de un proceso estocástico. La función de


densidad conjunta: DY1 ,Y2 ,...,Yt (y1 , y2 , ...., yt ). Si nos concentramos solamente en m1 y m2
de esa función tenemos que:

E(yt ) = µt

var(yt ) = γ0t

cov(yt , yt−j = γjt (j-ésima covarianza)

No tendrı́amos grados de libertad sufiecientes para estimarlos.

E(yt ) = µt (T parámetros)

var(yt ) = γ0t (T parámetros)


 2 
T −T
cov(yt , yt−j ) = γjt parámetros
2
Vamos a suponer que las medias, covarianzas y varianzas son estables en el tiempo. Voy
a decir que una serie es estacionariamente débil (o en covarianzas)

E(yt ) = µ (1 parámetro)

var(yt ) = γ0 (1 parámetro)

cov(yt , yt−j ) = γj (T − 1 parámetros)

La estacionareidad en sentido estricto supone que la distribución no se modifica en el


tiempo.

Ruido blanco (white noise)


εt es un proceso de ruido blanco si:

E(εt ) = 0, ∀t

var(εt ) = E(ε2t ) = σ 2 < ∞, ∀t

cov(εt , εt−j ) = 0, ∀t, ∀j 6= 0

Es débilmente estacionario por definición (lo será en sentido estricto si asumimos su


distribución). Lo que nos dice que el shock es puramente aleatorio. Un ruido blanco es
impredecible con respecto a su pasado, es decir, el presente no se ve condicionado por
perı́odos anteriores:
E(εt |εt−j ) = E(εt ) = 0

53
Metodologı́a Box-Jenkins (1970)
Este es un enfoque puramente estadı́stico. El objetivo es inferir un proceso estocástico
subyacente de una serie. Es un análisis univariado, es decir, solo uso una sola serie tem-
poral. Aquı́, se deja que los propios de la serie temporal nos indiquen las caracterı́stica de
la estructura probabilı́stica subyacente. Se quiere encontrar el modelo (ARMA) de mejor
ajuste a una serie temporal para que los pronósticos sean lo más acertados.

Muchas veces, cuando la tendencia o la media no es constante a lo largo del tiempo, la


diferenciación (∆d , d ≥ 1), permite volver a la estacionariedad de la serie. En general,
d no es mayor a dos. Es decir, se diferencia una o dos veces.

Cuando la dispersión de una serie temporal no es constante, la transformación logarı́tmica


suele ser razonablemente estable
ẏt = ln(yt )
Es un caso particular de la Transformación de Box-Cox:
ytm − 1
ẏt = , con |m| ≤ 2
m
Cuando tomamos lı́mm→0 tenemos el logaritmo. El operador diferencia estacional del
perı́odo s y orden d (∆ds ) se puede aplicar a series que presentan tendencia junto a esta-
cionalidad
∆s ≡ yt − yt−s
Para series estacionales mensuales: s = 12, trimestrales s = 4. Tenemos una diferencia
importante entre:
∆2 yt = ∆(∆yt ) 6= ∆2 yt = yt − yt−2
Otra cosa que se puede hacer es tomar diferencia logarı́tmica;

∆ ln(yt ) = ln(yt ) − ln(yt−1 )

Diferencia estacional logarı́tmica:

∆4 ln(yt ) = ln(yt ) − ln(yt−4 )

54
Stock y Watson - Series de Tiempo intr.
Conceptos clave:

El j-ésimo rezago de Yt es Yt−j .

La primera diferencia de una serie, ∆Yt , es su variación entre los perı́odos t − 1 y t,


es decir, ∆Yt = Yt − Yt−1 .

La primera diferencia del logaritmo es Yt es ∆ ln(Yt ) = ln(Yt ) − ln(Yt−1 )

La variación porcentual de una serie temporal Yt entre los perı́odoss t−1 y t es apro-
ximadamente 100∆ ln(Yt ), siendo la aproximación más precisa cuando la variación
porcentual es pequeña.

En los datos de series temporales, el valor de Y en un perı́odo por lo general está correla-
cionado con su valor en el perı́odo siguiente. La correlación de una serie con sus propios
valores rezagados se denomina autocorrelación o correlación serial. La primera auto-
correlación (o coeficiente de autocorrelación es la correlación entre Yt e Yt−j , es decir,
la correlación entre los valores de Y en dos perı́odos adyacentes.

Las autocovarianzas y autocorrelaciones j-ésimas poblacionales pueden ser estimadas me-


diante las autocovarianzas y autocorrelaciones j-ésimas muestrales, cov(Yˆt , Yt−j ) y ρ̂j :
T
\ 1 X
cov(Yt , Yt−j ) = (Yt − Y j+1,T )(Yt−j − Y 1,Tj )
T t=j+1
\
cov(Y t , Yt−j
ρbj =
\t )
var(Y

donde Y j+1,T expresa la media muestral de Yt calculada para las observaciones t = j +


\t ) es la varianza muestral de Y 2 .
1, ..., T y donde var(Y

Modelos autorregresivos
El modelo autorregresivo de primer orden se abrevia mediante AR(1), donde el 1 indica
que es de primer orden. El modelo AR(1) poblaciónal de la serie Yt es:

Yt = β0 + β1 Yt−1 + µt

El error de predicción es el error cometido en la predicción, es decir la diferencia entre


el valor de YT +1 que realmente sucede y su valor de predicción basado en YẎ .

Error de predicción = YT +1 − ŶT +1|Ẏ

Las predicciones y los errores de predicción se refieren a observaciones “fuera de la mues-


tra”, mientras que los valores de predicción y los residuos se refieran a observaciones “en
la muestra”.

55
La raı́z del error cuadrático medio de predicción (RECMP) es una meddia de la
magnitud del error de predicción, es decir, de la magnitud de un error estándar cometido
con un modelo de predicción.
r h i
RECM P = E (YT +1 − ŶY +1|T )2

Tiene dos fuentes de error: el error que surge debido a que los valores futuros de µt son
desconocidos y el error cometido en la estimación de los coeficientes β0 y β1 . Si la primera
fuente de error es mucho mayor que la segunda, tal y como puedepocurrir si el tamaño de
la muestra es grande, entonces la RECMP es aproximadamente var(µt ).

El modelo autorregresivo de orden p


Este modelo AR(p) representa Yt como función de sus primeros p valores rezagados, es
decir, en el modelo AR(p), los regresores son Yt−1 , Yt−2 , ..., Yt−p más un término indepen-
diente. El numero de rezagos incluidos en el modelo se denomina orden, o longitud de los
rezagos, de la autorregresión.

El supuesto de que la esperanza condicional de µt es igual a cero dado todos los valores
pasados de Yt , es decir E(µt |Yt−1 , Yt−2 , ...) = 0, tiene dos implicaciones importantes.

La primera de ellas es que la mejor predicción para YT +1 basada en su historia completa


solamente depende de los p valores pasados más recientes. si Yt sigue un proceso AR(p),
entonces la mejor predicción basada en su historia es:

YT +1|T = β0 + β1 YT + β2 YT −1 + ... + βp YT −p+1

La segunda implicación es que los errores µt están serialmente incorrelacionados, un re-


sultado que se deriva de la última ecuación.

Regresión de series temporales con predictores adicionales y mo-


delo autorregresivo de retardos distribuı́dos
El modelo autorregresido de rezagos distribuidos es un modelo que incluye los rezagos de
la variable dependiente como de las variables explicativas, como en una autorregresión.
En general, un modelo autorregresivo de rezagos distribuı́dos con p rezagos de la variable
dependiente Yt y q rezagos de un predictor adicional Xt se denomina ARD(p, q). El
modelo:

Yt = β0 + β1 Yt−1 + β2 Y t − 2 + ... + βp Yt−p + δ1 Xt−1 + δ2 Xt−2 + ... + δq Xt−q + µt

El supuesto de que los errores en el modelo ARD tienen una media condicional igual a cero
dados todos los valores pasados de Y y X, es decir que E(µt |Yt−1 , Yt−2 , ..., Xt−1 , Xt−2 , ...) =
0, implica que ningún rezago adicional ni de X ni de Y pertenece al modelo ARD. En
otras palabra,s las longitudes de los rezagos p y q son las verdadores longitudes de los
rezagos, y los coeficientes de los rezagos adicionales son iguales a cero.

56
Estacionariedad
Una serie temporal Yt es estacionaria si su distribución de probabilidad no varı́a en el tiem-
po, es decir, si la distribución conjunta de (Ys+1 , Ys+2 , ..., Ys+T ) no depende de s sea cual
sea el valor de T ; de lo contrario, se dice que Yt no es estacionaria. Dos series se dice que son
conjuntamente estacionarias si la distribución conjunta de Ys+1 , Xs+1 , Ys+2 , Xs+2 , ..., Ys+T , Xs+T )
no depende de s, independientemente del valor de T . La estacionariedad require que el
futuro sea como el pasado, al menos en sentido probabilı́stico.

Regresión de series temporales con varios predictores. En el modelo con general


de regresión de series temporales permite k predictores adicionales, en el que se incluyen
q1 rezagos del primer predictor, q2 rezagos del segundo predictor, y ası́ sucesivamente:

Yt =β0 + β1 Yt−1 + β2 Yt−2 + ... + βp Yt−p


+ δ11 X1t−1 + δ12 X1t−2 + ... + δ1q1 X1t−q1
+ ... + δk1 Xkt−1 + δk2 Xkt−2 + ... + δkqk Xkt−qk + µt

donde
1. E(µt |Yt−1 , Yt−2 , ..., X1t−1 , X1t−2 , ..., Xkt−1 , Xkt−2 , ...) = 0

2. (a) Las variables aleatorias (Yt , X1t , ..., Xkt ) presentan una distribución estacionaria,
y (b) (Yt , X1t , ..., Xkt ) y (Yt−j , X1t−j , ..., Xkt−j ) pasan a ser independientes cuando j
se hace grande

3. Los valores extremos elevados son poco probables: X1t , ..., Xkt , Yt presentan momen-
tos de cuarto orden finitos y distintos de cero

4. No existe multicolinealidad perfecta


Los supuestos del modelo de regresión de series temporales:
1. El primer supuesto es que µt tiene media condicional igual a cero, dadas todas las
variables explicativas y los retardos adicionales.

2. El segundo supuesto se puede ver en dos

a) Los datos se tienen que haber obtenido a partir de una distribución estacionaria
de manera que la distribución de los datos hoy es la misma que su distribución
en el pasado. Este supuesto es una versión para series temporales de la parte
“idénticamente distribuı́das”del supuesto i.i.d.
b) Esto requiere que las variables aleatorias sean independientemente distribuı́das
cuando son muchos los perı́odos de tiempo que las separan. Este supuesto
se denomina dependencia debil, y asegura que en muestras grandes exista
aleatoriedad sufuciente en los datos como para que se cumpla la ley de los
grandes números y el teorema central del lı́mite.

3. Este supuesto establece que los valores extremos elevados son poco probables, pre-
cidado en forma matemática supone que todas las variables presentan momentos de
cuarto orden finitos y distintos de cero.

4. El último supone que los regresores no presenten multicolinealidad perfecta.

57
Contraste de causalidad de Granger (contraste de contenido predictivo). El
estadı́stico para el contraste de causalidad de Granger es el estadı́stico F para el contraste
de la hipótesis de que los coeficientes de todos los valores de una de las variables es distinto
de cero. Esta hipótesis nula implica que estos regresores no tienen contenido predicitivo
para Yt más allá del contenido en los otros regresores, y el contraste de esta hipótesis nula
se denomina contraste de causalidad de Granger.

Magistrales - 05/06/2020
Los correlogramas muestran la dependencia temporal de una serie. Los modelos ARMA
(AR de autoregresivo, MA de medias moviles) son modelos univariados, es decir, explican
con la historia de la propia variable. Tenemos que el AR(1) es el proceso autorregresivo
de orden 1:
yt = c + φyt−1 + εt , εt ∼ RB(0, σ 2 )
Para este modelo:

Cuando φ = 0, yt es ruido blanco

Cuando φ = 1 y c = 0, yt es un random walk

Cuando φ = 1 y c 6= 0, yt es un random walk with drift

Cuando φ < 0, yt oscila entorno a la media

Cuando |φ| < 1, yt es estacionaria. Si φ < 1 hay autocorrelación negativa. A Medida


que va aumentando φ va aparenciendo la tendencia.

El AR(1) va a ser más errático cuando φ → 0 y más tendencial cuando φ → 1. Si |φ| < 1:
c
E(yt ) ≡ µ = γj = φj γ0
1−φ
σ2
var(yt ) ≡ γ0 = ρj = φj .
1 − φ2

Las autocorrelaciones de un AR(1) estacionario debe decrecer exponencialmente en valor


absoluto. Recordemos que ρj = γj /γ0 , donde γ0 = cov(yt , yt ) = var(yt ).

En AR(1) donde |φ| < 1, ρj = φj .

ρ1 = cov(yt , yt−1 ) = φ ρ2 = cov(yt , yt−2 ) = φ2 ρ3 = cov(yt , yt−3 ) = φ3

Los AR(1) se los conoce como procesos de memoria infinita con decaimiento exponencial.
Cuando mide la correlación no estás mirando la dependencia directa. En correlograma:
las bandas de nulidad: si las barritas están adentro del coso gris es porque no es estadı́sti-
camente significativa.

Para que un AR(p) sea estacionario, tienen que darse ciertas condiciones:

Para un AR(1): −1 < φ < 1

58
Para un AR(2): −1 < φ < 1, φ1 + φ2 < 1, φ2 − φ1 < 1
Para un AR(3): restricciones son mas complicadas.
Un AR(1) estacionario puede pensarse como un proceso derivado de un RB a través de
una recursión:
c
yt = + εt + φεt−1 + φ2 εt−2 + ... si |φ| < 1
1−φ
Los shocks van convergiendo, entonces AR(1) es estacionario si |φ| < 1. Esta expresión es
lo mismo que decir que es un MA(∞) con ψ = φj . Demostración:
yt = c + φyt−1 + εt ⇐⇒ (1 − φL)yt = c + εt
Si |φ| < 1, aplicando (1 − φL)−1 a ambos lados, tengo que:
c εt
yt = +
1 − φL 1 − φL
donde 1
1−φL
= 1 + φL + φ2 L2 + φ3 L3 + .... y tamnbien (1 − φL)(1 − φL)−1 yt = yt . Entonces

yt = c(1 + φL + φ2 L2 + φ3 L3 + ...) + εt (1 + φL + φ2 L2 + φ3 L3 + ...)


= c + φc + φ2 c + .... + εt + φεt−1 + φ3 εt−2 + ... =

c X
= + φj εt−j
1 − φ j=1

Lo último es la representación de un MA(∞) .

Teorema de Descomposición de Wold


Si {yt } es estacionaria debil, siempre admite representación por

X
yt = ψj εt−j + kt
j=0

la suma ponderada de derminos puramente aleatorios. Esto es un ruido blanco más una
función determinı́sica (kt ).

Todo proceso estacionario es esencialmente es un MA(∞) estacionario. Esto implicarı́a


estimar infinitos parámetros. La idea es buscar una representación más parcimoniosa de
un MA(∞). Un MA(q) con q alto es una aproximación. En palabras, este teorema te dice
que toda serie temporal se puede separar en una parte determinı́stica y otra estocástica.

Procesos de Media Móvil (MA)


Proceso de media móvil de orden 1:
yt = µ + εt + θεt−1 , µ, θ < ∞, εt ∼ RB(0, σ 2 )
Propiedades:
θ
ρ1 = , ρ2 = 0, ..., ρj = 0 ∀j > 1
1 + θ2
Los procesos MA tienen memoria finita. El punto en el cual se hace cero la función de
autocorrelación entonces esto indica el orden del MA. Propiedades.

59
E(yt ) = µ γ1 = θσ 2

γ0 = var(yt ) = σ 2 (1 + θ2 ) γj = 0, ∀j > 1

=⇒ MA(1) es siempre estacionario. Esto es porque depende de ruidos blancos y son


todos independientes del pasado, por definición. Proceso MA(q):

yt = µ + εt + θ1 εt−1 + θ2 εt−2 + ... + θq εt−q , εt ∼ RB(0, σ 2 )

Todos los MA(q) son estacionarios y la dependencia con el pasado se anula luego de
q-ésimo perı́odo.

Procesos ARMA(p, q)

yt = c + φ1 yt−1 + φ2 yt−2 + ... + φp yt−p + θ1 εt−1 + θ2 εt−2 + ... + θq εt−q


La etapa de identificación se da mirando los correlogramas. A partir de estos, que son
una representación gráfica de la función de autocorrelación del proceso en cuestión:
γj
ρj =
γ0

La versión muestral (estimada) se denomina correlograma muestral:

1/T Tt=1 (yt − y)(yt−j − y)


P
γ̂j
ρ̂j = =
γ̂0 1/T Tt=1 (yt − y)2
P

La función de autocorrelación parcial (PAC, φjj ) mide la correlación entre yt y yt−j luego
de controlar por los rezagos intermedios (aquellos rezagos menores a j). Esto mide la
correlación directa y cada uno de sus rezagos. Autocorrelación parcial de orden 1 es φ1
(yt e yt−1 ). ρ̂2 es la dependencia indirecta. φ22 es la correlación directa. En un AR(1) las
correlaciónes parciales dan 0 a partir de 2.

AC (simple) PAC (parcial)


MA(q) Se anula para rezagos superiores a q Decrece rápido sin llegar a anularse
AR(p) Decrece rápido sin llegar a anularse Se anula para rezaos superiores a p
ARMA(p, q) Decrecimiento rápido sin llegar a anularse Decrecimineto rápido sin llegar a anularse
Etapa de estimación. Tenemos un AR(p):

yt = c + φ1 yt−1 + φ2 yt−1 + ... + φp yt−p + εt εt ∼ RB(0, σ 2 )

εt satisface los supuestos bajo los cuales MCO produce estimaciones consistentes y asintóti-
camente normales. Entonces consiste en regresar yt en función de sus rezagos. Estimación
MA(q): se usa el método de máxima verosimilitud o mı́nimos cuadrados no lineales.

Para la etapa de validación vamos a evaluar si los residuos son ruido blanco, porque
ahora los rezagos tienen toda la dinámica explicativa. Evaluando si los rezagos son ruido
blanco:

60
Test de Box-Pierce(Q)

m
X
Q=T ρ̂2t
t=1
Bajo H0 : los residuos son ruido blanco, es decir, todas las correlaciónes deberı́an ser cero.
El test Q se basa en suma de las primeras m autocorrelaciones. La elección de m implica
un trade-off. Bajo H0 , Q ∼ χ2m .

Sin embargo, el test de Box-Pierce no tiene buenas propiedades en muestras pequeñas.


Una variante, en casos de muestras pequeñas, está en el test de Ljung-Box (1978):
m
X ρ̂2τ
Q∗ = T (T + 2) ∼ χ2m
τ =1
(T − τ )

Para T → ∞, el test es igual al de Box-Pierce.

Metodologı́a de Box-Jenkins
1. Garantizar que el proceso es estacionario
2. Mediante correlogramas proponer un ARMA(p, q)
3. Estimarlo
4. Si el modelo es correcto, los residuos deberı́an ser ruido blanco
5. Se puede proceder a realizar pronósticos

Lo recomendable es seguir la metodologı́a General-a-particular: comenzar con un ARMA(p, q)


lo suficientemente grande e ir reduciendolo buscando el modelo más parcimonioso (con
residuos ruido blanco).

Si tenemos varios modelos alternativos con residuos RB usamos alguno de los criterios
de información (penalizan por falta de ajuste y la cantidad de parámetros). Ejemplo:
ln(L(k)) K
Arkaike (AIC): AIC = −2 +2
T T
ln(L(k)) ln(T )
Schwartz (SIC): SIC = −2 +k
T T
Hay que elegir el modelo que minimice alguno de estos criterios.

Enders cap 2 - Stationary Time Series Models


Stochastic Difference Equation Models
We consider equidistant intervals for time series. Discrete time series implies that t,
but not necessarily yt , is discrete. A discrete variable y is said to be a random va-
riable(stochastic) id, for any real number r, there exist a probability P (y ≤ r) that y

61
will take on a value less than or equal to r. It is useful to consider the elements of an ob-
served time series {y0 , y1 , y2 , ..., yt } as being realizations (outcomes) of a stochastic process.

White-noise process: a sequence {εt } is a white-noise process if each value in the sequence
has a mean of zero, a constant variance, and is uncorrelated with all other realizations.
Formally, if the notation of E(x) denotes the theoretical mean value of z, the sequence
{εt } is a white-noise process if for each period t:

E(ε) = E(εt−1 ) = ... = 0


E(ε2 ) = E(ε2t−1 ) = ... = σ 2
E(εt εt−s ) = E(εt−j εt−j−s ) = 0 ∀j, s or cov(εt , εt−s = 0)

Lets who a an interesting time series


q
X
xt = βi εt−1
i=0

For each period t, xt is constructed by taking values εt , εt−1 , ..., εt−q and multiplying each
by the associated value of βi . A sequence formed in this manner is called moving average
of order q and is denoted by MA(q).

ARMA Models
It’s possible to combine a moving average process with a linear difference ewuation to
obtain an autorregresive moving average (ARMA) modelo:
p q
X X
y t = a0 + ai yt−i + βi εt−i
i=1 i=0

The autorregresive part of the model is the difference equation given by the homogeneous
partion and the moving average part is the {xt } sequence. If the homogeneous part of
the difference equation contains p lags and the model for xt contains q lags, the model is
called and ARMA(p, q). In ARMA modelo, it is perfectly premissible to allow p and/or q
to be infinite.

If yt is a linear stochastic difference quation, the stability condition is a necessary condition


for the time series {yt } to be stationary.

Stationarity
Unfortunately, applied econometricians do not usually have the luxury of being able to
obtain an ensemble (i.e., multiple time-series data of the same proces over the same
time period). Typically, we observe only one set of realizations for any particular series.
Fortunately, if {yt } is stationary series, the mean, variance, and autocorrelations can
usually be well aproximated by sufficiently long time averages based on the single set
of realizations.

62
A stochastic process having a finite mean and variance is covariance stationary if for
alla t and t − s,

E(yt ) = E(yt−s ) = µ
E[(yt − µ)2 ] = E[(yt−s − µ)2 ] = var(yt ) = var(yt−s ) = σy2
E[(yt − µ)(yt−s − µ)] = cov(yt , yt−s ) = cov(yt−j , yt−j−s ) = γs

where µ, σy2 , γs are cosntants. In the literature, a covariance-stationary process is also


referred to as weakly stationary, a second-order stationary, or wide-sense stationary
process. (Note that a strongly stationary process need not have a finite mean and/or
variance).

For a covariance-stationary series, we can define the autocorrelation between yt and


yt−s as
γs
ρs ≡
γ0
where γ0 (variance) and γs are defined. Since γs and γ0 are time independent, the auto-
correlation coefficients ρs are also time independent. The autocorrelation between yt and
yt−1 must be identical to that between yt−s and yt−s−1 .

Stationary Restrictions for an AR(1) Process


For this model, the homogeneous solution must be zero. Either the sequence must have
started infinitely far in the past of the process must always be in equilibrium (so that the
arbitrary constant is zero). Second, the characteristic root a1 must be less than unity in
absolute value.

The Partial Autocorrelation Function


It is important to note that all such indirect correlations are present in the ACF of any
autorregresive process. In contrast, the partial autocorrelation beteen yt and yt−s eli-
minates the effecs of the invervening values yt−1 through yt−s . In the AR(1) process, the
partial autocorrelation between yt and yt−2 is equal to zero.

For an AR(p) process, there is no direct correlation between yt and yt−s for s > p. Hence,
for s < p, al values of φss will be zero, and the PACF of a pure AR(p) process should cut
to zero for all lags greater than p

63
In practice, the theoretical mean, variance and autocorrelations of a series are unknown to
the researcher. We can let y, σ̂ 2 , rs be estimates of the mean, variance and autocorrelation,
where
X T T
X
y = (1/T ) yt σ̂ 2 = (1/T ) (yt − y)2
t=1 t=1

and for each value of s = 1, 2, ...,


PT
t=s+1 (yt − y)(yy−s − y)
rs = PT 2
t=1 (yt − y)

If we use a 95 % confidence interval, i.e., two standard deviations.

Within any large group of autocorrelations, some will exceed two standard deviations as a
result of pure chance even though the true values in the data-generating process are zero.
The Q-statistic can be used to test wether a group of autocorrelations is significantly
different from zero. Box and Pierce (1970) used a sample autcorrelations to form the
statistic s
X
Q=T rk2
k=1

Under the null hypothesis that all values of rk = 0, Q is asymptotically χ2 distribuited


with s degrees of freedom. The inuition behind the use of the statistic is that high sam-
ple autocorrelations lead to large values of Q. Certainly, a white-noise process (in which
autocorrelations should be zero) would have a Q value of zero.

A problem with the Box-Pierce statistic is that it works poorly even in moderately lar-
ge samples. Ljung and Box (1978) reported superior small sample performance for the
modified Q-statistic calculates as
s
X rk2
Q = T (T + 1)
k=1
(T − k)

64
If the sample value of Q calculated exceeds the critical value of χ2 with s degrees of
freedom, then at least one value of rk is statistically different from zero at the specified
significance level. These tests serve as a check to see if the residuals from an estimated
model behave as a white-noise process.

Model Selection Criteria


There exist various model selection criteria that trade-off a reduction in the sum of squares
of the residuals for a more parsimonious model. The two most commonly used model
selection creteria the Akaike Information Criterion (AIC) and the Schwartz Bayesian
Criterion (SBC, BIC). Formulas:

AIC = T ln(sum of squared residuals ) + 2n


BIC = T ln(sum of squared residuals ) + n ln(T )

where n = number of parameters estimates (p + q+ possible constant term) and T =


number of usable observations.

Since ln(T ) will be greater than 2, the SBC will always select a more parsimonious model
than will the AIC; the marginal cost of adding regressors is greater with the SBC than
with the AIC. In the ARMA models, nonlinear search algorithms required to estimate the
model are not likely to converge to a solution.

Of the two criteria, the SBC has a superior large sample properties. AIC works better
than SBC in small samples.

Box-Jenkins Model Selection


Box and Jenkins popularized a three-stage method aimed at selecting an appropriate
model for the purpose of estimating and forecasting a univariate time series. Stages:
identification stage, estimation stage, estimation stage, and diagnostic stage.

Parsimony
A fundamental idea in the Box-Jenkins approach is the principle of parsimony. Parsimony
(meaning sparseness or stinginess) should come as second nature to economists. Incorpo-
rating additional coefficients will necessarily increase fit at a cost of reducing degrees of
freedom. Box and Jenkins argue that parsimonious models produce between forecasts than
overparametrized models. A parsimonious model fits the data well without incorporating
any needless coefficients. Certainly, forecasters do not want to project poorly estimated
coefficients. Certainly, forecasters do not want to project poorly estimated coefficients into
the future. The aim is to approximate the true-data generating process but not to pin
down the exact process.

Be aware of the common factor problem (page 77). To ensure that the model is parsi-
monious, the various ai and βi should all have t-statistics of 2.0 or greater. Moreover, the
coefficients should not be strongly correlated with each other. Highly collinear coefficients
are unstable; usually, one or more can be eliminated from the model without reducing
forecast performance.

65
Sationarity and Invertibility
The distribution theory underlying the use of the sample ACF and PACF as approxi-
mations to those of the true-data generating process assumes that the {yt } sequence is
stationary. The Box-Jenkins approach also necessitates that the model be invertible.
Formally, {yt } is invertible if it can be represented by a finite-order or convergent au-
toregressive process. Invertibility is important because the use of the ACF and PACF
implicitly asume that the sequence {yt } can be represented by an autoregressive model.
Example.

Goodness of fit
The third-stage of the Box-Jenkins methodology involves diagnostic checking. The
standard practice is to plot the residuals to look for outliers and evidence of period in
which the model does not fit the data well. One common practice is to create the stan-
dardized residuals by dividing each residual, εt , by its estimated standard deviation, σ. If
the residuals are normally distributed, the plot of the εt /σ series should be such that no
more than 5 % lie outside the band from -2 to +2 . If the standardize residuals seem to
be much larger in some periods than in others, it may be evidence of structural change.

Any evidence of serial correlation implies a systematic movement in the {yt } sequence
that is not accounted for by the ARMA coefficients included in the model.

Properties of Forecasts

Et (yt+j ) = a0 (1 + a1 + a21 + ... + aj−1 j


1 ) + a1 y t

This is called the forecast function, expresses all of the j-step-ahead forectas as a fun-
ction of the information set in period t. The quality of forecasts decliens as we forectat
further out into the future. For any stationary ARMA model, the conditional forecast of
yt + j converges to the unconditional mean as j → ∞.

We can define the j-step-ahead forecast error, called et (j), as the difference between the
realized value of yt+j and the forecasted value:

et (j) ≡ yt+j − Et yt+j

For an AR(1), the j-step-ahead forecast error is given by:

et (j) = εt+j + a1 εt+j−1 + a21 εt+j−2 + a21 εt+j−3 0 + ... + aj−1


1 εt+1

The conditional expectation of this error is Et et (j) = 0. Since the expected value of the
forecast error is zero, the forecasts are unbiased. The variance of the forecast error is:
2(j−1)
var[et (j)] = σ 2 [1 + a21 + a41 + a61 + ... + a1 ]

The variance of the forecast error is an increasing function of j.

66
Forecast Evaluation
Do not be fooled into thinking that the model with best fit is the one that will fore-
cast best. According to different studies, forecasts using overly parsimonious models with
little parameter uncertainty can provide better forecasts than models consistent witht
the actual data-generating process. Moreover, it is very difficult to construct confidence
intervals for this type of forecast error. Not only is it necessary to include the effects of the
stochastic variation in the future values of {yT +i }, but also it is necessary to incorporate
the fact that the coefficients are estimated with error.

Instead of focusing on the bias, many researchers would select the model with the smallest
mean square prediction error (MSPE).

The Granger-Newbold Test


Granger and Newbold (1976) show how to overcome the problem of contemporaneously
correlated forecast errors. If you have H one-step-ahead forecast errors from each model,
use the two sequences of forecast error to form:

xi = e1i + e2i and zi = e1i − e2i i = 1, ..., H

Given the first two assumptions above are value, under the null hypothesis of equal forecast
accuracy, xi and zi should be uncorrelated. Consider:

ρxz = E(xi zi ) = E(e21i − e22i )

If the models forecast equally well, it follows that E(e21i ) = E(e22i ). Model 1 has a larger
MSPE if ρxz is positive, and model 2 has a larger MSPE if ρxz is negative. Let rxz denote
the sample correlation coefficient between {xi } and {zi }. Granger and Newbold show than
if assumptions 1 and 2 hold p
2 )/(H − 1)
rxz / (1 − rxz
has a t-distribution with H − 1 degrees of freedom. Thus, if rxz is statistically different
from zero, model 1 has a larger MSPE if rxz is positive, and model 2 has a larger MSPE
if rxz is negative.

Magistrales 12/06/2020
Tendencia determinı́stica
Consideremos
yt = α + βt + εt , εt ∼ RB(0, σ 2 )
La media, E(yt ) = α + βE(t) y varianza, var(yt ) = σ 2 . Si definimos una nueva variable
y ∗ = y − (α + βt), los residuos son la serie sin tendencia. La tendencia determinı́stica son
funciones del tiempo (polinomios de orden 1 o superior). Este tipo de tendencia implica
que no hay incertidumbre sobre la evolución futura de la tendencia. Conocido el pasado,
entonces el futuro es previsible. La tendencia estocástica es más realista.

67
Problema de la regresión espúria
Tenemos :
yt = α0 + α1 y + υt , υt ∼ RB(0, σ 2 )
xt = λ0 + λ1 t + εt , εt ∼ RB(0, σ 2 )
donde α1 , λ1 6= 0 y que υt y εt están incorrelacionadas entre si. Entonces no existe una
relación entre xt e yt . Sin embargo, una estimación por MCO:

y t = β 0 + β 1 xt + µ t

nos da relación estadı́sticamente significativa e importante. Si nuestras variables muestran


un comportamiento tendencial sistemático a lo largo del tiempo, los resultados son po-
tencialmente espúrios. No se puede arender nada de esta relación.

Cuando xt e yt no están relacionados, nuestra regresión por MCO se convierte, en la


población, en
yt = α0 + β0 t + υt
donde ahora está claro que β1 = 0, β0 = α0 , µt = α1 t + υt en la regresión original, por lo
que t puede pensarse como variable omitida. Como t está correlacionada con xt entonces
estamos en presencia de un sesgo por variables omitidas.

La solución es incluir el regresor omitido, t

y t = β 0 + β 1 xt + β 2 t + µ t

Alternativamente, nos podemos si las partes aleatorias de yt y xt están correlacionadas.


El problema es que los terminos de error son inobservables. Para resolver esto, podemos
obtener proxies de los errores. Esto lo podemos hacer si:

1. Regresamos yt en función de una constante y de t y calculamos los residuos:

ÿt = yt − α̂0 − α̂1 t

2. Regresamos xt en función de una constante y del tiempo, calculamos los residuos

ẍt = xt − λ̂0 − λ̂1 t

Las variables ẍt e ÿt se denominan variables destendenciadas. Se puede re estimar el


modelo a partir de las series destendenciadas

ÿt = β0 + β1 ẍt + µ̈t

El β1 indica si hay relación a entre x, y a través de los residuos. El estadı́stico t tiene


las propiedades usuales. El R2 (R̈2 ) mida la porción de la variación de yt en torno a la
tendencia que es explicada por la variación en xt en torno a su tendencia.

68
Tendencia estocástica
Las series pueden presentar distintas series o medias locales que cambian con el tiempo.
La tendencia puede ser estocástica, es decir, no estarı́amos ni en un proceso estacionario
ni tendencial. La tendencia se captarı́a mejor con un esquema estocástico.

Vimos que en un random walk que es un AR(1) con φ = 1 no hay que estimar nada.
Vimos que un AR(1) es un proceso estacionario, en el cual los shocks son temporarios,
la función de autocorrelación decrece exponencialmente. Ahora, un ruido blanco tiene
la caracterı́stica que los shocks son permanentes y la función de autocorrelación decrece
linealmente. 3

Tipos de Random Walk:

RW (puro): yt = yt−1 + εt

RW (con constante / drift) : yt = α + yt−1 + εt

RW (con tendencia): yt = α + βt + yt−1 + εt

Hay diversas formas de remover la tendencia. La primera de ellas es la diferenciación,


la segunda la destendenciación. En un RW puro y con tendencia me queda estacionario
porque queda RB, mientras que en RW con tendencia no alcanza con diferenciación, hay
que destendenciar.

Pruebas de Raı́z Unitaria


Consideremos el siguiente proceso estocástico:

yt = φyt−1 + εt , εt ∼ RB(0, σ 2 )

Es un proceso estacionario si |φ| < 1, es un RW si |φ| = 1. Mi pregunta como investigador


es qué valor toma φ. Un test de raı́z unitaria equivale a evaluar:

H0 : φ − 1 = 0

Naturalmente, el estadı́stico que utilizarı́amos para evaluar la hipotesis nula es

φ̂ − 1
T =
SE(φ̂)

El problema es que bajo H0 ya no podemos usar la teorı́a asintótica estándar para estudiar
el comportamiento estadı́stico
3
Si en un correlograma uno observa que cae de a poquito significa que no es estocastico. En AR(1)
con φ > 1 tarda mucho en caer el correlograma de la FA. La parcial hay uno solo significativo.

69
Test de Dickey-Fuller
Sea
yt = φyt−1 + εt , εt ∼ RB(0, σ 2 )
H0 : φ = 1 vs. HA : φ < 1
Se puede reparametrizar de la siguiente manera (a esto se lo llama ecuación de Dickey-
Fuller)
∆yt = (φ − 1)yt−1 + εt = ψyt−1 + εt
Lo que equivale a evaluar

H0 : ψ = 0 vs. HA : ψ < 0

El estadı́stico:
ψ̂
T =
SE(ψ̂)
Si el valor cae a la izquierda del valor crı́tico (rechazo) entonces la variable es estacionaria.
Existen tres versiones del test:
Test de raı́z unitaria (sin componentes determinı́sticos)

∆yt = ψyt−1 + εt

Test de raı́z unitaria con constante

∆yt = α + ψyt−1 + εt

Test de raı́z unitaria con constante y tendencia determinı́stica:

∆yt = α + βt + ψyt−1 + εt

Van cambiando los valores criticos. Si veo tendencia, uso caso 3, sino el 2.

Asumir que todas las variables pueden ser representadas como un AR(1) es una sim-
plificación muy grande. Si εt no son IID, entonces se usa lo que se llama el Augmentes
Dickey-Fuller test (ADF). Ahora supongamos un AR(2).

yt = φ1 yt−1 + φ2 yt−2 + εt

Si sumamos y restamos φ2 yt−2

yt = (φ1 + φ2 )yt−1 − φ2 ∆yt−1 + εt

Si restamos yt−1 tenemos la ecuación de Dickey-Fuller aumentada

∆yt = (φ1 + φ2 − 1)yt−1 + δ∆yt−1 + εt

Ahora lo que se testea es si φ1 +φ2 −1 es igual a cero o no (se pueden incluir más rezagos).
En términos generales:
X t
∆yt = ψyt−1 + δ∆yt−j + εt
j=1

70
H0 : ψ = 0 vs. HA : ψ < 0
Para ver cual es el orden apropiado hay que ver que εt no tenga autocorrelación. En Sta-
ta, se corre el comando varsoc. Después cuando se corre el test se incluye dentro de las
opciones lags(#).

Decimos que yt es I(1) (integrada de primer orden) si ∆yt es I(0). es decir estacionaria
a través de la diferenciación. En general, yt es integrada de orden d, I(d) si ∆d yt es I(0)
4
. Es importante notar que no toda variable no estacionaria se identifica como
integrada, hay otras fuentes de no estacionariedad: breaks, heterocedasiticdad, etc.

El test de Dickey-Fuller tiene sus limitaciones. La primera es que es muy sensible a la in-
troducción de constantes y tendencias y la elección del número de lags. Después hay una
suerte de trade-off entre consistencia y potencia en la especificación de los componentes
determinı́sticos similar al problema estándar de variables omitidas. Tercero, incrementar
espúriamente el número de rezagos baja la potencia. Muy importante es que importa la
extención del perı́odo, no de la frecuencia. Las alternativas son dividir la muestra en fun-
ción de los breaks y aplicar el test de unit root por segmento o hacer un Test de Perron
o Zivot-Andrews.

Recomendaciones práticas:

1. Empezar con un gráfico (perfil de la variable) y terminar con un gráfico (residuos)

2. Mirar los correlogramas de la serie en nivel y en diferencias

3. Si existe estacionariedad, trabajar con ∆4 o ∆12

4. Evaluar si conviene trabajar con las variables en logaritmos

Tutorial 13
Proceso estacionario:

E(xt ) = µ

var(xt ) = σ 2

cov(xt , xt+n ) = f (n) 6= f (t)

La no estacionariedad en media implica tendencias deterministicas o estocasticas que des-


vian a la serie de su comportameinto cı́clico o sistemático.

Aparecen dos situaciones. Primero cuando la media se comporta como un polinomio de


orden d en el tiempo:
Xd
yt = α + βj tj + εt
j=0

4
Recomendación: cada vez que se aplique un test de unit root sobre una variable, hacerlo sobre el nivel
y sus diferencias hasta llegar a I(0)

71
Cuando un proceso autorregresivo no cumple con las condiciones de estacionariedad.

Tendencia determinı́stica implica que no existe incertidumbre sobre la evolución futura


de la tendencia (conocido pasado, el futuro es previsible). Esta tendencia es una función
del tiempo. Es poco realista. Más realista es la tendencia estocástica.

El problema de la regresión espúria está presente si las variables muestran un compor-


tamiento tendencial sistemático a lo largo del tiempo, los resultados de la regresión son
potencialment espúrios. No podemos aprender nada sobre la relación entre variables a
partir de un modelo simple de regresión en nivel. La solución primera es incluir el regresor
omitido, t:
yt = β0 + β1 xt + β2 t + εt
Otra alternativa es evaluar si las partes aleatorias de las variables están realcionadas.

Tendencia estocástica. Se quiere probar que el proceso es estacionario. En el test de


Dickey-Fuller: bajo la nula de que β = 1, el estadı́stico no se distribuye t-student, sino
DF:
H0 : δ = 0 vs. HA : δ < 0
ADL: modelo de rezagos distribuidos. El criterio de parcimonia: queremos un modelo con
criterios ARK y BIC bajos. Estos contemplan ajustes por pérdidas de grado de libertad.
Cuanto más complejo es el modelo, más te va a penalizar

En series de tiempo, una muestra chica son menos de 50 obs.

Enders cap. 4 - Models with Trend


Deterministic and Stochastic Trends
It is helpful to represent the general solution to a linear stochastic difference equation as
consisting of these three distinct parts:

yt = trend + stationary component + noise

In a deterministic trend, as there are no stochastic components in the trend, implies that
there is a deterministic ling-run of the real economy. The Real Business Cycle school
argues that technological advancements have permanent effects on the trend of the ma-
croeconomy.

Suppose we have this model:

yt = y0 + a0 t + A(L)εt

This model is called a trend stationary (TS) model. Now suppose that the expected
change in yt is a0 units. Let,
∆yt = a0 + εt
Sometimes, ∆yt exceeds a0 and sometimes it falls short of a0 . Since Et−1 (εt ) = 0, implies
that yt is expected to change by a0 units from one period to the next.

72
The Random Walk Model
The Random Walk model has a special place in the economics and finance literature.
In this kind of model, the current price should be equal to last period’s price plus a
white-noise term, so that

yt = yt−1 + εt ( or ∆yt = εt )

The mean of this model,


s
!
X
Et (yt+s ) = yt + Et εt+i = yt
i=1

The variance is time dependant. Given the value of y0 , the variance can be constructed
as
var(yt−s ) = var(εt−s + εt−s−1 + ...ε1 ) = (t − s)σ 2
Since the variance is not constant, the random walk process is nonstationary. Moreover,
as t → ∞, the variance of yt also approaches infinity. Como la media es constante, la
coviarianza es
E[(yt − y0 )(yt−s − y0 )] = (t − s)σ 2
El coeficiente de correlación:  0,5
(t − s)
ρs =
t
As s increases, the values of ρs declines. Hence, when using sample data, the autocorre-
lation function for a random walk process will show a slight tendency to decay.

The Random Walk Plus Drift Model


The random walk plus drift model augments the random walk model by adding a constant
term a0 , so that
yt = yt−1 + a0 + εt
Given an initial condition, the general solution for yt is given by
t
X
y t = y 0 + a0 t + εi
i=1

Hence, the behaviour of yt is governed by


P two nonstationary components: a linear deter-
ministic trend and the stochastic trend εt . As such, a random walk plus drift is a pure
model of a trend; there is no separate stationary component.

If we take expectations, the mean of yt is y0 +a0 t and the mean of E(yt+s ) = y0 +a0 (t+s).
However, you should not conclude that it is always easy to discern the difference between
a random walk model and a model with drift.

To obtain the s-step-ahead forecast for a random walk plus drift, update the equation by
s periods to obtain
t+s
X s
X
yt+s = y0 + a0 (t + s) + εi = yt + a0 s + εt+i
i=1 i=1

73
The expectation is Et (yt+s ) = yt + a0 s. The forecast function, in contrast to the pure
random walk model, is not flat. The fact that the average change in yt is always a constant
a0 is reflected in the forecast function.

Generalization of the Stochastic Trend Model


It is not difficult to generalize the random walk model to allow yt to be the sum of
a stochastic trend and a white-noise component. Formally, this third model - called as
random walk plus noise - is represented by:
t
X
yt = y0 + εi + η t
i=1

where {ηt } is a white-noise process with variance ση2 ; and εt and ηt−s are independently
distribuited for all t and s. In other words, E(εt ηt−s ) = 0.

The key properties of the random walk model plus noise:


Given the value of y0 , the mean of the {yt } sequence is constant: E(yt ) = y0 and
updating by s periods yuelds E(yt+s ) = y0 . Notice that successive εt shocks have
permanent effects on the {yt } sequence in that there is no P
decay factor on the past
values of εt . hence, yt has the stochastic trend component εi .

The {yt } sequence has a pure noise component in that the {ηt } has only a temporary
effect on the {yt } sequence. The current realization of ηt affects only yt but not the
subsequent values yt+s .

The variance of {yt } is not constant: var(yt ) = tσ 2 +ση2 and var(yt−s ) = (t−s)σ 2 +ση2 .
As in the other models with a stochastic trend, the variance of yt approaches infinity
as t increases. The presence of the noise component means that the correlation
coefficient between yt and yt−s is smaller than that for the pure random walk model.
The covariance:
cov(yt , yt−s ) = (t − s)σ 2
The correlation coefficient ρs is
(t − s)σ 2
ρs = q
2
(tσ 2 + ση) [(t − s)σ 2 + ση2 ]

The effect of noise component {ηt } is to increase the variance of {yt } without affecting
its long-run behaviour. After all, the random walk plus noise series is nothing more than
the random walk model with a purely temporary component added.

This models are the building blocks of more complex time-series models. for example
t
X
yt = y0 + a0 t + εi + η t
i=1

This is called the trend plus noise model; yt is the sum of a deterministic trend, a
stochastic model, and a pure white-noise term. Moreover, the noise sequence does not

74
need to be a white-noise process.

Let A(L) be a polynomial in the lag operator Ll it is possible to augment a random walk
plus drift process with the stationary process A(L)ηt so the general trend plus irregular
model is
t
X
y t = y 0 + ao t + εi + A(L)ηt
i=1

This has a deterministic trend, a stochastic trend, and a stationary component.

Removing the Trend


The usual methods for eliminating the trend are differencing and detrending. For
historical reasons, regressing a variable on a constant and time and saving the residuals
is called detrending. We still use this term even though the method only removes only a
deterministic, not a stochastic, trend. A series containing a unit root can be made statio-
nary by differencing. In fact, we know that the dth difference of ARIMA(p, d, q) model is
stationary.

The general point is that the dth difference of a process with d unit roots is stationary.
Such a sequence is integrated of order d and is denoted by I(d). An ARIMA(p, d, q) model
has d unit roots; the dth difference of such a model is statioanry ARMA(p, q) process.

Detrending
DS = difference stationary series. TS=trend stationary
Recall the invertibility of a stationary process requires that the MA component does not
have a unit root. Simply substracting the estimated values of the {yt } sequence from the
actual values yields an estimate of the starionary sequence {et }. The detrend process can
then be modeled using traditional methods (such as ARMA estimation). Check and
complete. 5

The Monte Carlo Method


The justification of using the Dickey-Fuller critical values to test the hypothsis a1 = 1
is that by the Law or Large Numbers, as the simple size T grows sufficiently large, the
mean converges to the true mean, µ. Hence, the sample mean is an unbiased estimate of
the population mean.

Dickey-Fuller Tests
The last section outlined a simple procedure to determine whether a1 = 1 in the model
yt = a1 yt−1 + εt . Begin by substracting yt−1 from each side of the equation in order to
write de equivalent form: ∆yt = γyt−1 + εt where γ = a1 − 1. Testing the hypothesis that
5
Business Cycle: the belief that trend is unchanging over time leads to the common practice of de-
trending macroeconomic data using a linear (or polynominal) deterministic regression equation.

75
Figura 1: Dickey-Fuller Distribution

a1 = 1 is equivalent to testing the hypothesis γ = 0. D&F actually consider three different


regression equations that can be used to test for the presence of a unit root:

∆yt = γyt−1 ε
∆yt = a0 + γyt−1 + εt
∆yt = a0 + γyt−1 + a2 t + εt

The differences between the three regressions concerns the presence of the deterministic
elements a0 and a2 t. The first is a random walk, the second adds an intercept or a drift
term and the third includes both a drift and a linear time trend. The parameter of interest
is γ; if γ = 0, the sequence {yt } contains a unit root. The test involves estimating one (or
more) of the equations above using OLS in order to obtain the estimated value of γ and
the associated standard error. The tree equations listed above can be estimated by OLS;
be aware that the critical values of the t-statistics do depend on whether an intercept
and/or time trend is included in the regression equation.

Tests including lagged changes are called augmented Dickey-Fuller test and the same τ, τµ
and ττ statistics are all used to test the hypotheses γ = 0.

The φ1 , φ2 , φ3 statistics are contructed in exactly the same way as ordinary F-tests:

[SSC(restricted)-SSR(unrestricted)]/r
φi =
SSR(unrestricted)/(T − k)

where SSR(restricted) and SSR(unrestricted) are the sums of the squared residuals from
the restricted and unrestricted models, r the number of restrictions, T number of usable
observations, and k number of parameters estimated in the unrestricted model. Hence,
T − k = degrees of freedom in the unrestricted model.

Thus, if the calculated value of φi is smaller than that reported by Dickey-Fuller, you can
accept the restricted model.

76
Extentions of the Dickey-Fuller Test
Not all time-series variables can be well represented by the first-order autoregressive pro-
cess. Consider the pth order autoregressive process. To best understand the methodology
of the augmented Dickey-Fuller (ADF) test, add and substract ap yt−p+1 to obtain

yt = a0 + a1 yt−1 + a2 yt−2 + a3 yt−3 + ... + ap−2 yt−p+2 + ap−1 yt−p+1 + ap ∆yt−p+1 + εt

Next, add and substract (ap−1 + ap )yt−p+2 . Continuing this fashion, we obtain
p
X
∆yt = a0 + γyt−1 + βi ∆t−i+1 + εt
i=2
Pp Pp
where γ = − (1 − i=1 ai ) and βi = j=1 aj .

The coefficient of interest is γ; if γ = 0 the equation is entirely in first differences and, so,
has a unit root. Note that the Dickey-Fuller tests assume that the error are independent
and have a constant variance. This raises six important problems related to the fact that
we do not know the true data-generating process.

1. We cannot properly estimate γ and its standard error unless all of the autorregresive
terms are included in the estimating equation. Since the true order of the autorre-
gresive process is unknown, the problem is to select the appropriate lag length.

2. The GDP may contain both autorregresive and moving average components. We
need to know how to conduct the test if the order of the moving average term is
unknown

3. The Dickey-Fuller test considers only a single unit root. However, a pth order auto-
rregressions has p characteristic roots; if there are d ≤ p unit roots, the series needs
to be differenced d times to achieve stationary

4. There may be roots that requires first differences and others that necessitate seasonal
differencing. We need to develop a method that can distinguish between these two
types of unit root processes

5. There might be structural breaks in the data.

6. It might not be known whether an intercept and/or time trend belongs in the last
equation presented.

Selection of the Lag Length


One approach to select the right amount of lags in order not to loose degrees of freedom
or have a model that does not capture the actual error process is the genera-to-specific
methodology. The idea is to start with a relatively long lag length and para down the
model by the usual t-test and/or F-tests. When doing this, plotting the residuals is a
most important diagnostic tool. There should not appear to by any strong evidence of
structural change or serial correlation. Moreover, the correlogram of the residuals should
appear to be white noise. The Ljung-Box Q-statistic should not reveal any significant

77
autocorrelation among the residuals.

Rule 1: Consider a regression equation containing a mixture of I(1) and I(0) variables
such that the residuals are white noise. If the model is such that coefficients or interest
can be written as a coefficient on zero-mean stationary variables, then asymptotically, the
OLS estimator converges to a normal distribution. As such, a t-test is appropriate. This
applies directly to unit root tests.

Structural Change
In performing unit root tests, special care must be taken if it is suspected that structural
change has occurred. When there are structural breaks, the various Dickey-Fuller test
statistics are biased toward the non-rejection of a unit root. The bias in a1 means that
the Dickey-Fuller test is biased towards accepting the null hypothesis of a unit root even
though the series is stationary within each of the subperiods.

Perron’s Test for Structural Change


Perron goes on to develop a formal procedure to test for unit roots in the presence of a
structural change at time period t = τ + 1. Consider the null hypothesis of a one-time
jump in the level of a unit root proces against the alternative of a one-time change in the
intercept of a trend stationary process. Formally,

H1 : yt = a0 + yt−1 + µ1 Dp + εt
A 1 : y t = a0 + a2 t + µ 2 D L + ε t

where DP represents a pulse dummy variable such that DP = 1 if t = τ + 1 and zero


otherwise. The proceduce is in pages 232. Complete if necessary.

Testing for Unit-Roots and Trend-Breaks in argentine


real GDP - Walter Sosa Escudero
If we have two models, one is difference stationary (DS) and the other is trend stationary
(TS), if we compare them:
1. TS model stationarity is achieved by subtracting the trend while in the DS model
the correct procedure is to take the difference of the series.

2. If et is assumed to be a zero-mean stationary ARMA process, the linear forecast s


periods ahead made at moment t of the TS model converges (in mean square) to
the time trend a + bt. The forecast for the DS process can be shown to be equal to
yt + bs. The main difference is the following: under both specification the forecast
converges to a line with slope b, but in the TS case the intercept is always a while
in the DS the intercept (yt ) changes with the value y and takes at the moment at
which we forecast is made

3. The mean square error of the forecast of the TS model converges to the unconditional
variance of et as the forecast horizon grows large. For the DS representation, the
MSE of the forecast error grows linearly with the forecast horizon.

78
4. For the TS model, the effect of a shock at time t on yt+s tends to zero as s grows
large while the same shock has a permanent effect on yt+s for the case of the DS
representation. This is the idea of ‘persistance of innovationsı́n the unit-root model.
For an econometric point of view the question is whether nonstationarity arises from the
presence of a deterministic time trend or a unit-root in the autorregresive polynomial.
From a macroeconomic point of view, the main point is to be able to determine whet-
her a shock in macro variable will have a permanent or transitory effect in its future values.

To consider the possibility of a deterministic change in the log GDP process we considered
a family of statistics proposed by Banerjee et.al:
1. Recursive tests: they are obtained using a recursive estimation of the DF t statistic
evaluating u=1. These statistics are computed recursively with subsamples. k0 is
the starting value of the recursive estimation and T is the size of the full sample.
From the sequence of DF statistics we will evaluate the maximum and minimum
DF test.
2. Rolling tests: these statistics are computed using a subsample of fixed size Ts , rolling
through the sample. Again, the statistics of interest are the maximum and minimum
Dickey-Fuller t coefficients.
3. Sequential tests: here we estimate the following equation using the full simple but
allowing for a possible single shift or break at every point in the sample
Shiller and Perron (1985) that we should expect an implicit loss in power of tests of a
unit-root against a stationary alternative when using a smaller sampled more frequently
as in the case with our quarterly information.

Magistrales 19/06/2020
Los test de tendencias estocásticas tienden a confundir los quiebres. Existen test para
fechas fijas de quiebre y fechas no conocidas. El quiebre puede aparecer como un cambio
discreto en los coeficientes poblacionales de la regresión o una evolución gradual de los
coeficientes a lo largo del tiempo. Dependiente del tamaño y ubicación del quiebre, la
regresión puede diferir mucho de la verdadera función de regresión.

Para una fecha conocida, tenemos el siguiente modelo autorregresivo. Podemos evaluar la
existencia de un break en el momento τ . Sea D una variable dicotómica que toma valor
0 antes del break y 1 después del break.
yt = β0 + β1 yt−1 + β2 xt γ0 Dt + γ1 (Dt · yt−1 ) + γ2 (Dt · xt ) + µt
Chow dice: armate una step dummy e incorporala al modelo. La H0 del test de Chow es
que los parametros son estables, es decir, H0 = γ0 , γ1 , γ2 , ... = 0 (estabilidad de parḿetros.
Si γ2 6= 0, entonces se ve un cambio en el efecto del tiempo.

Si no existe un break, los términos en los cuales está la variable binaria no deberı́an ser
significativos. La H0 es la ausencia del break:
γ0 = γ1 = γ2 = 0

79
Bajo HA : exise un break. Se puede hacer un test F. Si hay múltiples rezagos y regresores
puede extenderse el test incorporando más interacciones entre la variable binaria y el resto
de los rezagos y regresores.

Para una fecha desconocida. Puede ser que la fecha de quiebre sea desconocida a priori.
Supongamos que creemos que el quiebre se produce entre la fecha τ0 y τ1 . El test de Chow
recursivo es hacer el test de Chow de forma que podemos evaluar todas las posibles fechas
entre estos dos puntos y usar el estadı́stico más grande. Esta modificación del test de
Chow se conoce como el Quandant likelihood ration (QLR) statistic.

Cointegración
Una relación espuria, para la estadı́stica, es una relación matemática en la cual dos acon-
tecimientos que no tienen conexión lógica (idealmente causal), se puede implicar que la
tienen debido a un 3er factor no considerado. A este factor se lo conoce como “factor de
confusión .o “variable escondida”. La relación espuria da la impresión de la existencia de
un vı́nculo apreciable entre dos variables que es inválido cuando se lo evalúa objetivamente.

Técnicamente lo que sucede es los siguiente. Si tenemos dos variables yt e xt


yt = α + yt−1 + εt
xt = λ + xt−1 + υt
Ambos terminos de error son RB y donde εt + υt están incorrelacionadas entre si. Ambas
variables, al ser RW, presentan tendencias estocásticas. Si hacemos una regresión de y en
función de x esperamos que el beta tienda a cero y el R2 también tienda a cero. Ambas
variables son I(1). Sin embargo, los resultados por MCO muestran que
d
|tβ1 | →
− ∞, plim R2 = 1, ∆w → 0
Estos resultados sugieren que. Si nuestras variables muestran un comportamiento ten-
dencial (de tipo estocastico) a lo largo del tiempo, los residuos de la regresion son po-
tencialmente espurios. No podemos aprender nada sobre la relación entre las variables en
nivel que son I(1). La regresión está produciendo valores de t que indican una relación
significativa cuando no la hay. Este problema no desaparece ni aumentando T. En una
regresión espúria los residuos están autocorrelacionadas y los estadı́sticos t mal calculados
ya que se está usando un estimador inconsistente de la varianza residual.

Para detectar si la regresión entre series I(1) es espúria hay que hacer un correlograma y
un test de raiz unitaria sobre los residuos. Corremos:
y t = β 0 + β 1 xt + µ t
Tanto yt como xt son I(1). Si cuando analizo los residuos veo que son I(1) entonces me
quedo omitida la tendencia estocástica de y en µ. La regresión no es espuria si los errores
son I(0).

Para convertir una regresión espuria en valida, en los años ’70, la solución era diferenciar
ambos lados de la regresión:
∆yt = β0 + β1 ∆xt + µt

80
Tanto la variable dependiente, como al independiente y los errores son I(0). Otra forma de
lidiar con el problema de la regresión espúria entre variables I(1) es trabar con el modelo
en primeras diferencias. Si querı́amos estimar
y t = β 0 + β 1 xt + µ t
Ahora, con el modelo en diferencias serı́a:
∆yt = β0 + β1 ∆xt + µt , µt = ∆εt
Esto se puede a extender un modelo más general. Esta transformación resuelve el pro-
blema desde el punto de vista estadı́stico, pero desde el punto de vista economico no
podriamos modelar la eventual relacion entre niveles. La información contenida en una
regresión en tasas de crecimiento no es la misma que en una regresión en niveles.

Si los errores son I(0) entonces se puede estimar una regresión en niveles porque las
variables están cointegradas.

Cointegración
Vamos a decir que dos o mas variables I(1) están cointegradas si existe una combinación
de ellas que resulta estacionaria. Si bien la diferenciación es una solución al problema de
la regresión espúria, ya no tendremos un modelo en niveles sino en diferencias. Una alter-
nativa es evaluar si las variables en cuestión (ambas con el mismo nivel de integracion)
están cointegradas.

Una relación de cointegración puede tomarse como una relación de equilibrio de largo pla-
zo (estacionaria). Si bien las variables pueden desviarse de su relación en el corto plazo.
Es decir, pensamos a la relación de cointegración como una tendencia estocástica común
entre las variables.

Engle y Granger (1987) (egranger en Stata) proponen que la relación de largo plazo
puede ser obtenidas si :
y t = β 0 + β 1 xt + µ t
en donde la variable dependiente e independiente son I(1) y los errores son I(0). La
metodologı́a consiste en:
1. Estimar la regresión anterior
2. Obtener el residuos de µ̂t
3. Evaluar si el residuo es I(0) a través de un test de raı́z unitaria
4. En el caso de ser I(0), yt y xt están cointegradas.
5. Se puede ver que si se puede estimar la relación de largo plazo sin caer en el problema
de la regresión espuria
En Stata, en el test de Dickey-Fuller poner un lag menos que en el varsoc. La
salida de egranger te muestra. 1) El test. 2) El first step te muestra la tendencia (si la
pones). En el ejemplo de los precios era la elasticidad. 3) La segunda salida te muestra el
modelo de corrección de errores.

81
Modelo de corrección de errores
Una vez que se encontro la cointegración entre dos o mas variables, se puede estimar
un modelo de corrección de errores (MCE). Este modelo permite explicar las tasas de
crecimiento de yt (∆yt ) en función de

El crecimiento en xt (∆xt ) y,

El desequilibrio pasado entre los niveles de xt e yt

Estos modelos también son conocidos como modelos modelos de corrección al equi-
librio (MCEq)

Supongamos que los estimamos una relación de cointegración (el largo plazo) entre dos
variables. Ambas son integradas de grado 1.

ŷ1 = β̂0 + β̂1 xt

Obtenemos el residuo µ̂t que será I(0) y lo rezagamos un perı́odo. Estomamos por MCO
el siguiente MCE
p k k
X X X
∆yt = γ0 + αµ̂t−1 + φj ∆yt−j + λ ∆xt−j + δ wt−j + εt
j=1 j=1 j=0

El término de corrección de errores es µ̂t−1 (TCE).

Si tomamos de ejemplo el precio futuro y spot de la soja. Tenemos que la variable depen-
diente es la diferencia del logaritmo del spot. La variable explicada:

Constante

Residuos de la variable en niveles de la relación de cointegración

Rezagos de la variable dependiente

Rezagos de la diferencia de x

w puede ser otra variable que no estaba en la relación de integración. w tiene que
ser estacionaria

El error es white noise

En este modelo todo es estacionario. Las variables indican lo siguiente:

1. γ0 : media de corto plazo

2. α es el coeficiente de ajuste (−1 ≤ α ≤ 0). Trata de medir la velocidad a la cual


tardan las variables en llegar al equilibrio. Si es −1 entonces en un perı́odo ajusta
100 %. Si es 0.50, entonces ajusta en dos perı́odos

3. µ̂t−1 : son los desvı́os de largo plazo o también se los llama correcciones al equilibrio.

4. φ pj=1 ∆yt−j : parte autorregresiva


P

82
5. λj kj=1 ∆xt−j : efectos de corto plazo de x. λj miden los efectos de corto que pueda
P
tener x en y

6. δj kj=0 wt−j : efectos de otras variables de corto plazo


P

7. εt : error, que es ruido blanco.

Todos los terminos del MCE son estacionarios ya sea por diferenciación o cointegración.
Esto garantiza que no hay causalidad simultánea. Para que la estimación por MCO sea
válida, se tienen que cumplir los supuestos clásicos. El MCE implica una modelación con-
junta de la dinámica (corto plazo) y largo plazo.

Si tenemos
∆yt = γ0 + αµ̂t + φ∆yt−1 + λ∆xt−1 + εt
Sabemos que µ̂t es la desviación del largo plazo. Puede ser esrita como como

µ̂t−1 = yt−1 − β̂0 − β̂1 xt−1

Si la metemos en el modelo

∆yt = γ0 + α[yt−1 − β̂0 − β̂1 xt−1 ] + φ∆yt−1 + λ∆xt−1 + εt

Stata va a estimar

∆yt = (γ0 + βˆ0 ) + αyt−1 − αβ̂1 xt−1 + φ∆yt−1 + λ∆xt−1 + εt

Ojo! El coeficiente de xt−1 es −αβ̂1 . Si divido por −α, obtengo el efecto de largo plazo.
Supongamos que el coeficiente es 0.80. “Cuando el futuro se incrementa en 1 % entonces
el spot aumenta en un 83 % en el largo plazo”. Es diferente el β1 cuando estimás porque
estás controlando por otras variables.

Tutorial 12
La metodologı́a de Box-Jenkins es un enfoque estadı́stico cuyo objetivo es inferir el proces
estocástico subyacente de una serie.

El Paso 1 es Estacionarizar. Esto se puede hacer diferenciando (cuando la tendencia o


la media no es constante), realizando una transformación logarı́tmica (cuando la dispre-
sión de una serie temporal no es constante), utilizando el operador diferencia estacional
cuando hay estacionalidad + tendencia. Queremos un proceso estocástico yt es estaciona-
rio sin la distribución de probabilidades se mantiene estable a través del tiempo.

El Paso 2 es Identificar el tipo de proceso. Esto se hace con el correlograma total:


podemos ver si se trata de un AR o el orden del MA. Correlograma parcial: si se trata de
un MA o del orden del AR.

El Paso 3 es Estimar. El Paso 4 es Verificar la presencia de ruido blanco. Queremos


que los residuos sean ruido blanco. Si quiero probar esto, tengo que hacer un test. que sea
RB es que es un proceo aleatorio. Es relevante porque

83
Predictibilidad: si tu serie es RB, entonces por definición es aleatoria. No podes
modelarla y hace predicciones.

Diagnostico del modelo: los errores de un modelo de predicción deberı́an ser rudio
blanco, o sea, completamente aleatorios.

Siempre la idea es quedarse con el modelo parcimonioso.

Para que una serie sea estacionaria debe ser constante en media, varianza y covarianzas.
Para que sea estacionaria en covarianzas tiene que variar lo mismo en todos los periodos.
Para ver si los modelos son validos, vemos si los residuos son RB, despues criterios de
información.

Cap. 6 Enders- Cointegration and Error-Correction


Models
If we have a model in which variables are characterized as nonstationary I(1) variables,
the error term must be stationary. Equilibrium theories invoving nonstationary variables
require the existence of a combination of the variables that is starionary.
The analysis made by Engle and Granger begins by considering a set of economic variables
in ling run equilibrium when:

β1 x1t + β2 x2t + +βn xnt = 0

Letting β and xt , denote the vectors (β1 , β2 , ..., βn ) and (x1t , x2t , ..., xnt )0 , the system is in
long-run equilibrium when βxt = 0. The deviation from long-run equilibrium is called the
equilibrium error, so that
et = βxt
The econometric use of the term equilibrium makes reference to any long-run relationship
among nonstationary variables.

The components of the vector xt = (x1t , x2t , ..., xnt )0 are said to be cointegrated of order
d, b denoted by xt ∼ CI(d, b) if

1. All components of xt are integrated of order d

2. There exists a vector β = (β1 , β2 , ..., βn ) such that the linear combination βx1 =
β1 x1t + β2 x2t + ... + βn xnt is integrated of order (d − b) where b > 0 Note that the
vector β is called the cointegrating vector

There are four important points to note about the definition:

1. Cointegration typically refers to a linear combination of nonstationary variables.


Theoretically, it is quite possible that nonlinear long-run relationships exist among
a set of integrated variables. Also note that the cointegration vector is not uni-
que. If (β1 , β2 , ..., βn ) is a cointegrating vector, then for any nonzero value of λ,
(λβ1 , λβ2 , ..., λβn ) is also a cointegrating vector. Typically, one of the variables is
used to normalize the cointegrating vector by fixing its coefficient at unity. To nor-
malize the coeintegrating vector with repect to x1t , simply select λ = 1/β1 .

84
2. For Engel and Granger’s original definition, coeintegration refers to variables that
are integrated of the same order. This does not imply that all integrated variables are
cointegrated; usually, a set of I(d) is not cointegrated. If two variables are integrated
of different orders, they cannot be cointegrated.

3. There may be more than one independent cointegrating cectors for a set of I(1)
variables. The number of cointegrating vector is called the cointegrating rank of
xt .

4. Most of the cointegration literature focuses on the case in which each variable con-
tains a single unit root. The reason if that traditional regression or time-series applies
when variables are I(0) and few economic variables are integrated of an order higher
than unity. When it is unambiguous, many authors use the term cointegration to
refer to the case in which variables are CI(1, 1).

Cointegration and Common Trends


Cointegration will ocurr whenever the trend in one variable can be expressed as a linear
combination of the trends in the other variable(s). In such circumstances it is always
possible to find a vector β such that the linear combination β1 yt + β2 zt + β3 wt does not
contend a trend. The result easily generalizes to the case of n variables. Consider the
vector representation

xt = µt + et
where xt = (x1t , x2t , ..., xnt )0 , µt = the vector of stochastic trends (µ1t , µ2t , ..., µnt )0 and et
an n · 1 vector of stationary components.

If one trend can be expressed as a linear combination of the other trends in the system,
it means that there exists a vector β such that

β1 µ1t + β2 µ2t + ... + βn µnt = 0

Multiplicamos la representacion vectorial por β

βxt = βµt + βet

Since βµt = 0, it follows that βxt = βet . Hence, the linear combination βxt is stationary.

Cointegration and Error Correction


In an error-correction model, the short-term dynamics of the variables in the system
are influenced by the deviation from equilibrium. Lets suppose we have the short-run and
long-run interest rates. If we introduce the lagges changes of each rate into both equations:
X X
∆rSt = a10 + αS (rLt−1 − βrSt−1 + a11 (i)∆rSt−i + a12 (i)∆rLt−i + εSt
X X
∆rLt = a20 + αL (rLt−1 − βrSt−1 + a11 (i)∆rSt−i + a12 (i)∆rLt−i + εLt
εSt , εLt and all terms involving ∆rSt−1 and ∆rLt−i are stationary. Thus. the linear combi-
nation of interest rates rLt−1 − βrSt−1 must also be stationary. Notice that αS and αL have

85
the interpretation of speed of adjustment parameters. The larger αS is, the greater res-
ponde of rSt to the previous period’s deviation from long-run equilibrum. At the opposite
extreme, very small values of αS imply that the short-term interest rate is unresponsive to
last period’s equilibrium error. For de sequence {∆rSt to be unaffected by the long-term
interest rate sequence, αS and all te a12 (i) coefficients must be equal to zero. If both αS
and αL are equal to zero, the long-run equilibrium relationship does not appear and the
model is not one of error correction or cointegration.

Formally, the (n · 1) vector or I(1) variables xt = (x1t , x2t , ..., xnt )0 has an error-correction
representation if it can be expressed in the form:

∆xt = π0 + πxt−1 + π1 ∆xt−1 + π2 ∆xt−2 + ... + πp ∆xt−p + εt

Where: π0 = and (n · 1) vector of intercepts terms with elements πi0 πi = (n · n) coefficient


matrices wi elements pijk (i), π a matrix with elements πjk such that one or more of the
πjk 6= 0, εt = an (n · 1) vector with elements εit . Note that the disturbance terms are such
that εit may be correlated with εjt .

Let all variables in xt be I(1). Now, if there is an error-correction representation of these


variables, there is necessarily a linear combination of the I(1) variables that is stationary.
Solving for the equation above:
X
πxt−1 = ∆xt − π0 − πi ∆xt−i − εt

Sin each expression on the right-hand side is stationary, πxt−1 must also be stationary.
Since π contains only constants, each row of π is a cointegrating vector of xt .

Testing for cointegration: the Engel-Granger Methodology


Suppose two variables, say yt and zt are believed to be I(1) and we want to determine
whether there exists an equilibrium relationship between the two. Engle and Granger
propose a four-step procedure to determine if two I(1) variables are cointegrated of order
CI(1, 1).

1. Pretest the variables for their order of integration. Cointegration necessitates that
two variables be integrated of the same order. The first step in the analysis is to
pretest each variable to determine its order of integration. The augmented Dickey-
Fuller tests can be used to infer the numbers of unit roots (if any) in each variables. If
both variables are stationary, it is not necessary to proceed since standard time-series
methods apply to stationary variables. If the variables are integrated of different
orders, its is possible to conclude that they are not cointegrated.

2. Estimate the long-run equilibrium relationship. If the results of Step 1 indicate that
both {yt } and {zt } are I(1), the next step is to estimate the long run relationship
in the form
yy = β0 + β1 z1 + et
If the variables are cointegrates, an OLS regression yields a super-consistent estima-
tor of the cointegrating parameters β0 and β1 . It is proved that the OLS estimates

86
of the parameters converge faster than they do in OLS models using stationary va-
riables.

In order to determine if the variables are cointegrated, denote the residual sequence
from this equation by {êt }. Thus, the {êt } series contains the estimated values of
the deviations from the long-run relationship. If these deviations are found to be
stationary, the {yt } and {zt } sequences are cointegrated of order (1,1). It would be
convenient if we could perform a Dickey-Fuller test on these residuals to determine
their order of integration. Consider the autorregression of residuals:

∆êt = a1 êt−1 + εt

There is no need to include an intercept due to the fact that the sequence is a
residual; the parameter of interest is a1 . If we cannot reject the null hypothesis
a1 = 0, we can conclude that the residuals contain a unit root. Hence, we conclude
that the {yt } and {zt } sequences are not cointegrated. If it not possible to reject
the null hypothesis a1 = 0, we cannot rejec the hypothesis that the variables are not
cointegrated. Given that {yt } and {zt } were both found to be I(1) and that the
residuals are stationary, we can conclude that the series are cointegrated of order
(1,1). Hay que tener cuidado porque uno no conoce a ciencia cierta la secuencia de
los errores, solo conoce el estimado.

3. Step 1: Estimate the error-correction model. If the variables are cointegrated, the
residuals from the equilibrium regression can be used to estimate the error-corrction
model. If {yt } and {zt } are CI(1, 1), the variables have the error-correction form
X X
∆yt = α1 + αy [yt−1 − β1 zt−1 ] + a11 (i)∆yt−1 + a12 (i)∆zy−i + εyt
i=1 i=1
X X
∆zt = α2 + αz [yt−1 − β1 zt−1 ] + a21 (i)∆yt−1 + a22 (i)∆zy−i + εzt
i=1 i=1

where β1 = the parameter of the cointegrating vector given by the first OLS estima-
tion, εyt , εzt = white-noise disturbances and α1 , α2 , αy , αz α11 (i), α12 (i), α21 (i), α22 (i)
are all parameters.

Engle and Granger. They proposed that the magnitude of the residual êt−1 is the
deviation from long-run equilibrium in period (t − 1). Hence, it is possible to use the
save residuals {êt−1 } obtained in step 2 as an estimate of the expression yt−1 −β1 zt−1 .
Thus, using the saved residuals from the estimation of the long-run equilibrium
relationaship, estimate the error-correcting model as
X X
∆yt = α1 + αy êt−1 + a11 (i)∆yt−1 + a12 (i)∆zy−i + εyt
i=1 i=1
X X
∆zt = α2 + αz êt−1 + a21 (i)∆yt−1 + a22 (i)∆zy−i + εzt
i=1 i=1

Other than the error-correction term êt−1 and the models constitute a VAR in first
differences.

87
4. Step 4: Assess Model Adequacy. There are several procedures that can help deter-
mine whether the error-correction estimated model is appropriate.

a) You should be careful to asses the adequacy of the model by performing diag-
nostic checks to determine whether the residuals of the error-correction equa-
tion approximate white noise. If the residuals are serially correlated, lag lengths
may be too short. Reestimate he model using lag lengths that yield serially un-
correlated errors.
b) The speed of adjustment coefficients αy and αz are of particular interest in that
they have important implications for the dynamics of the system.

It’s very tempting to use t-statistics to perform significance tests on the cointegrating
vector. However, you must avoid this temptation since, in general, the coefficients do not
have an asymptotic t-distribution.

Explaining Cointegration Analysis - Hendry & Juse-


lius
The unit-root process can be interpreted as allowing a different “trend” at every point of
time, so are said to have stochastic trend. A non-stationary process is, by definition, one
which violates the stationarity requirement, so its means and variances are non-constant
over time.

The difference between a linear stochastic trend and a deterministic trend is that the
increments of a stochastic trend are random, whereas those of a deterministic trend are
constant over time.

Variables Integradas - Hildegart Ahumada


Sims, Stock y Watson concluyeron que en las formulaciones generales que incluyan va-
riables integradas junto a otras que no lo sean y componentes determinı́sticos, aquellos
estimadores de parámetros que puedan ser escritos como coeficientes de regresores no-
integrados con media cero, tienen distribuciones estándader. Pero lo más importante es
que esto es válido solo con la existencia (potencial) de la transformación a estacionariedad
(con media cero) aunque esta no sea efectivamente llevada a cabo. Un supuesto critico en
SSW es que el modelo esté correctamente especificado.

Un resultado conocido en la literatura (Banerjee) es que a partir de la relación de largo


plazo entre variables integradas estimada a partir de modelos uniecuacionales dinámicos
es superior a la obtenida en la regresión estática debido a los sesgos en muestras finitas
(a pesar de su superconsistencia)

88
Nota 2: Consulta Final Flor
El RW
yt = yt−1 + εt
Un proceso cuyo coeficiente es 1 entonces tiene raiz unitaria. Al depender exac-
tamente del pasado, no es que desaparece el efecto del pasado, entonces no es
estacionario. Para que sea estacionario necesito que las cosa.

H0: no es estacionario, no tiene raiz unitaria. Nosotros queremos que sea de raiz
unitaria.

Estacionalidad: significa que vos tenes patrones por estaciones. Ejemplo: consumo
de helado cuando es verano. Esto es estacionalidad. Se desestacionaliza: esto se
hace poniendo dummies por estacion. Estas te chupan la estacionalidad.

Estacionariedad: media, covarianza, varianza es igual a cero. Si no es asi, cambian


los parametros.

La coviarianza se mantenga constante entre periodos que estan separados por


cierta cantidad de tiempo.

Los MA son siempre estacionarios porque los efectos del pasado siempre desapare-
cen cuando te vas muy atras. Los MA se los imagina como consumos que dependen
de cosas aleatorias que son impredecibles.

Estacionariedad estricta te dice que toda la densidad tiene que ser estricta.

Exogeneidad es que la esperanza de los residuos respecto de las x es igual a cero.


Estricta es que la esperanza con respecto a lo que paso hoy y siempre. Debil es
cuando controlo solo en y en su periodo.

Esto escribió Flor para calcular la esperanza del AR(1):

89
Nota 3: Consulta Final Maggie
Variable categorica con 6 categorias. En ese caso vas a estar diciendo: por cada
nivel educativo adicional, el indice de mas coporal va a caer en .332 unidades.

El sesgo de seleccion de muestra pasa solo cuando la variable es una variable


explicativa. Si es la variable dependiente ahi se genera un problema de eficiencia.
Si es independiente ahi aparece el sesgo.

Es un determinante de la variable dependiente que correlaciona con la variable


explicativa. ESTO ES ENDOGENEIDAD.

varsoc te mide el nivel de autocorrelacion parcial. El test de Dickey-Fuller es para


los AR y no para los MA porque estos ultimos son estacionarios.

Si los instrumentos son debiles te van a inflar la varianza.

Un instrumento fuerte es que el estadistico t del test significatividad individual es


mayor a 3,5. Asi es fuerte y es relevante.

Es el estadistico F aplicado solo al instrumento. Despues de correr la regresion por


MC2E corres estat firststage. Cuando tenes una regresion con un solo regresor,
el estadistico F = t2 .

La diferencia entre una serie de ruido blanco y estacionaria es que las covarianzas
con el pasado son distintas de cero cuando es estacionaria y son igual a ruido blanco.

La variable dependiente esta en diferencias. Esta la idea de si tu serie es estaciona-


ria. Ecuacion de Dickey-Fuller.

Dos motivos por el cual la varianza del MC2E es mayor que la de OLS. En el
denominador de la varianza de MC2E:
El ST C2 de ŷ2 es la suma cuadrado totales de la estimacion de la primera etapa. La
varianza del estimador de del x de la primera etapa va a ser menor que la varianza
real, entonces como este valor es mayor la varianza aumenta. El R22 es lo que mide el
nivel de correlacion entre el x1 estimado y las variables estimado. Esta correlacion
es mas alta que porque es una combinacion lineal de los intrumentos, entonces el
R2 va a ser mas alto que un solo instrumento y la otra variable exogena.

90

También podría gustarte