Econometria

Econometrı́a
Tomás Pacheco
Semestre de Otoño 2020
Magistrales 1 y 2 - 06/03/2020
Medidas de asociación lineal. Covarianza muestral:
n
X
cov(X, Y ) = (Yi − Y )(Xi − X)
i=1
También tenemos el coeficiente de correlación:

s
Pn
cov(X, Y ) − Y )2
i=1 (Yi
ρX,Y = donde σY =
σX σY n−1
El coeficiente de correlación tiene la ventaja de que no tiene en cuenta la magnitud. El
Coeficiente de Correlación:
∗ −1 < ρX,Y < 1
∗ Es igual a 1 solo cuando existe una relación lineal exacta y directa entre X e Y .
Formalmente: ρX,Y = 1 ⇒ Yi = α + βX; para algun α, β > 0 y ∀i = 1, ...n
∗ Es igual a −1 solo cuando existe una relación lineal exacta e indirecta entre las
variables X e Y . Formalmente: ρX,Y = −1 ⇒ Yi = α + βX; para algun α, β <
0 y ∀i = 1, ...n
∗ El coeficiente de correlación solo mide relaciones lineales. Que ρ = 0 no implica

que no haya relación
CORRELACION 6⇒ CAUSALIDAD
Modelo lineal
Nuestro objetivo es modela relación lineal no exacta entre X e Y . Nuestro modelo va a
ser:
Yi = α + βXi + µi i = 1, ..., n
∗ Yi es la variable dependiente. Observable
∗ Xi es la variable independiente. Observable
1
∗ α, β parámetros desconocidos
∗ µi representa a todas las variables inobservables. Es aleatorio.
∗ Suponemos E(µi ) = 0, es decir, en promedio, esperamos que no haya relación entre
X e Y . Este supuesto se hace sobre cada observación.
La función de regresión es Yi = α + βXi . La regresión representa la parte sistemática de

la relación. El término aleatorio µi representa la parte no sistemática (aleatoriedad).
El error/residuo es la distancia del punto a la recta. La distancia es como una estima-

ción de µ, estimación del shock. β representa la relación entre X e Y .
Heterogeneidad no observable ⇒ µi . Es distinto y observo algo que no está en el modelo.
Si E(µi ) = 0 =⇒ E(Yi ) = E(α + βXi + µi ) ⇔ E(Yi ) = E(α) + E(βXi ) + E(µi ) ⇔ E(Yi ) =

α + βXi . E(Xi ) = Xi porque es una variable no aleatoria. Concluimos:
E(Yi ) = α + βXi
Con esto último decimos que en promedio la relación es exacta.
Lo aleatorio como representación de lo no exacto. Si es posible mover X marginalmente:
dE(Yi )
=β ∀i
dXi
β tiene información cualitativa y cuantitativa. β es el efecto marginal.
A veces α no se interpreta. Hay dos condiciones: tiene que tener sentido económico y tiene
que haber observaciones en la región.
Tenemos el modelo:
Yi = α + βXi + µi
Nuestro objetivo es estimar α y β. α̂ y β̂ son parámetro estimados. Quiero estimar Ŷi =
α̂ + β̂Xi asumo que E(µi ) = 0.
Estimación de los parámetros
X
mı́n e2i
α̂,β̂ | {z }
SRC: suma de residuos al cuadrado
X
mı́n (Yi − Ŷi )2
α̂,β̂
X
mı́n [Yi − (α̂ + β̂Xi )]2
α̂,β̂
2
CPO de α̂ :
∂SRC X
=2 [Yi − (α̂ + β̂Xi )](−1) = 0 (1)
∂ α̂ X
=−2 [Yi − (α̂ + β̂Xi )] = 0 (2)
CPO de β̂ :
∂SRC Xh i
=2 Yi − ((α̂ + β̂Xi )(−Xi ) = 0 (3)
∂ β̂
X
=−2 Xi (Yi − (α̂ + β̂Xi )) (4)
P P
Yi (α̂ + β̂Xi )
De (2), si dividimos por n, obtenemos que: = ⇔ Y = α̂ + β̂X (5).
n n
De (4) obtenemos que
X X X
Xi Yi = α̂
Xi + β̂ Xi2
X X X
Xi Yi = (Y − β̂X) Xi + β̂ Xi2
X X X X
Xi Yi − Y Xi = β̂( Xi2 − X Xi )
| {z } | {z }
=nX =nX
P P
Xi Yi − Y Xi
β̂ = P 2 2
Xi − X n
P
Xi Yi − Y Xn
β̂ = P 2
Xi2 − X n
De cada muestra voy a obtener un β̂ y α̂ diferente. Vamos a utilizar un cambio de notación:

xi = Xi − X e yi = Yi − Y . Con este cambio, tenemos que:
n
X
xi y i
i=1
β̂ = n
X
x2i
i=1
P P
Mostramos que xi yi = Xi Yi − nXY
X X
xi yi = (Xi − X)(Yi − Y )
X
= Xi Yi − Xi Y − XYi + XY
X X X
= Xi Yi − Y Xi − X Yi + nXY
X
= Xi Yi − XY n − XY
n +XY
n
X
= Xi Yi − XY n
2
x2i = Xi2 − nX . COMPLETAR
P P
Mostramos que
3
Propiedades algebraicas de α̂ y β̂
P
(I) ei = 0
Intuición: recta por el medio de la nube de puntos.
Demostración: utilizamos la CPO de α̂:

∂SRC X
= −2 (Yi − Ŷi ) = 0
∂α | {z }
ei
X
= −2 ei = 0
X
= ei = 0
P P 2
Observación: ei = 0 6= ei = 0
Qué pasa si tengo un modelo que no incluye α, es decir, Yi = βXi + µi ? Si no tengo α, no

vale esta propiedad porque no se puede demostrar. Si no incluyo α estoy obligado a que
la recta pase por el origen. Si el verdadero α = 0 entonces mi modelo me va a estimar el
α̂ = 0. Es por eso que es importante incluirlo.
P
(II) ei Xi = 0
Intuición: la covarianza entee los errores ei y xi es =0
X
cov(Xi , ei ) = (Xi − X)(ei − e)
P
|{z}
ei
n
=0 por (I)
P
(Xi − X)ei
=
n−1
P X
Xi ei − Xei
P
| {z }
X ei =0 por (I)
=
P n−1
Xi ei
cov(Xi , ei ) =
n−1
Demostración: vamos a utilizar la CPO de β̂
∂SRC X
= −2 Xi − (Yi − Ŷi ) = 0
∂ β̂
X
−2 Xi ei = 0
X
Xi ei = 0
No hay relación ente las X y los errores.
(III) Ŷ (X) = Y
Intuición: la recta de regresión pasa por las medias muestrales. En otras palabras, pasa
por la nube de puntos.
4
Demostración: de CPO de β̂
α̂ = Y − β̂X ⇒ Y = α̂ + β̂X (1)
Ŷ (X) = α̂ + β̂Xi
Ŷ (X) = α̂ + β̂X
| {z }
dado (1)
Ŷ (X) = Y
(IV) Y = Ŷ
Intuición: la media de las observaciones Yi coincide con la media de las predicciones.
Demostración:
ei = Yi − Ŷi
Yi = ei + Ŷi
X X X
Yi = ei + Ŷi
X X X
Yi = e i + Ŷi
P
P
Yi Ŷi
=
n n
Y = Ŷ
SY
(V) β̂ = ρX,Y ·
SX
Intución entre ρ y β̂
Demostración:
P
(Yi −Y )(Xi −X) P
n−1 xi y i
ρX,Y = qP qP = pP pP
(Xi −X) 2
· (Yi −Y )2 x2i yi2
n−1 n−1
pP √
yi2
P P
xi y i xi y i n−1
β̂ = P 2 = pP 2 pP 2 · pP 2 · √
xi xi x yi n−1
pP i √
yi2
P
xi y i n−1
β̂ = pP 2 pP 2 · √ · pP 2
xi yi n−1 xi
| {z } | {z } | {z }
ρX,Y SY 1/SX
De esta demostración, obtenemos diversas conclusiones:

∗ ρ y β̂ tienen el mismo signo
∗ β̂ no está acotado entre (−1, 1)
∗ β̂ depende de las unidades de medida
∗ β̂ muestra el efecto marginal de la variable independiente sobre la variable depen-
diente
5
P
(VI) β̂ = w i Yi
Intuición: β̂ es una función lineal de Yi .
P
xi
Demostración: llamaremos wi = P 2 .
xi
P
xi y i X
β̂ = P 2 = yi wi
xi
X
β̂ = (Yi − Y )wi
X X
β̂ = Yi wi − Y wi (1)
| {z }
=0?
P P
X xi X −X 0
(1) wi = P 2 = Pi 2 =P 2
x xi xi
X i
⇒ β̂ = Yi wi
P
Notemos que Xi − X = 0 debido a que, por definición, la suma de los desvı́os tiene que
ser cero.
R2 - Bondad de Ajuste
SEC Suma Explicada de Cuadrados

R2 = =
STC Suma Total de Cuadrados
La Suma Total de Cuadrados es una medida de variabilidad. R2 es la proporción explicada
de la variabilidad total.
Demostración:
STC = SEC + SRC

X X X
(Yi − Y )2 = (Ŷi − Y )2 + (Yi − Ŷi )2
X X X
yi2 = ŷi2 + e2i
Sabemos que ei = Yi − Ŷi ⇔ Yi = ei + Ŷi ⇔ Yi − Y = ei + Ŷi − Y . Sabemos que Y = Ŷ

| {z } | {z }
yi ŷi
por la propiedad (IV). Entonces:
yi2 = (ei + ŷi )2

X X
yi2 = (ei + ŷi )2
X X
yi2 = e2i + 2ei ŷi + ŷi2

X X X X
yi2 = e2i + 2ei ŷi + ŷi2
| {z }
=0?(1)
6
X X
(1) 2ei ŷi = Ŷi − Ŷ ei
X h i
= α̂ + β̂Xi ) − (
( α̂ + β̂X) ei
Xh i
= β̂ Xi − X ei
X
= β̂Xi ei − β̂Xei
X X X
= β̂ Xi ei −β̂X ei =⇒ 2 ŷi ei = 0
| {z } | {z }
=0 prop. (II) =0 prop. (I)
X X X
=⇒ yi2 = ŷi2 + e2i =⇒ STC = SEC + SRC
Magistral 5 y 6 - 20/03/2020
Las propiedades alegebraicas anteriores salen de los mı́nimos cuadrados. Ahora vamos a
ver propiedades bajo supuestos clásicos.
∗ Linealidad: es un supuesto que dice que la relación entre X e Y es lineal
Yi = α + βXi + µi i = 1, ..., n
Nos importa la linealidad de α y β, no de X, Y . En econometrı́a moderna, la linea-
lidad es como el piso.
∗ X no aleatoria: las Xi son determinı́sticas. Esto es como si yo hubiese elegido las
X
∗ Esperanza nula ó exogeneidad:
E(µi ) = 0 i = 1, ...n
En promedio esperamos que la relación entre las X y las Y sean lineales y exactas.
Con esto,
E(Yi ) = α + βXi i = 1, ..., n
∗ Homocedasticidad:
var(µi ) = var(µj ) ∀i 6= j
2
var(µi ) = cte ≡ σ i = 1, ..., n
La varianza del shock. Si la varianza no es constante decimos que hay heteroceda-
siticidad. La varianza del shock es la misma para todas las variables.
Notar que si E(µi ) = 0 (exogeneidad) y var(µi ) = σ 2 (homocedasticidad) se cumple
que E(µ2i ) = σ 2 . Demostración:
 
var(µi ) = E (µi − E(µi ) )2 

| {z }
homocedasticidad
var(µi ) = E(µ2i )
var(µi ) = E(µ2i ) = σ 2
Como corolario de los supuestos de exogeneidad y homocedasticidad E(µ2i ) = σ 2
7
∗ No correlación serial
cov(µi , µj ) = 0 i 6= j
Es una forma débil de independencia entre los términos aleatorios. No hay relación
entre los shocks.
Si (1) E(µi ) = 0 y (2) cov(µi , µj ) = 0 ⇒ E(µi · µj ) = 0. Dem:
cov(µi , µj ) = E[(µi − E(µi ))(µj − E(µi ))]

| {z } | {z }
=0 (1) =0 (1)
cov(µi , µj ) = E[µi , µj ] = 0
| {z }
=0 (2)
La covarianza en el shock en las distintas observaciones es cero.
cov(µi , µj ) para i = j es σ 2 . Demo:
cov(µi , µj ) = cov(µi , µi ) = var(µi ) =σ

| {z }
homocedasticidad
∗ La multicolinealidad perfecta: las Xi , i = 1, ..., n no pueden ser todas iguales.

Que se viole este supuesto implica que las Xi no están explicando a la Y . No se
podrı́a establecer relación. En término del modelo lineal, si se viola este supuesto
implica que β puede tomar cualquier valor. Si se viola, no se puede obtener β̂ ni β̂.
Este se llama supuesto de identificación. Este supuesto me asegura que β̂ existe.
Hago supuestos sobre la µ cuando me importa β porque en este último, el único elemento
aleatorio es µ entonces le pongo propiedades (supuestos) y le limito el comportamiento.
Si saco los supuestos se me caen cosas.
Modelo lineal clásico: notemos que los parámetros desconocidos son α, β y σ.
Propiedades Estadı́sticas de los estimadores

(1) Insesgadez: E(β̂) = β
β̂ es un estimador insesgado del parámetro β. Para la demostración, tenemos que tener
en cuenta que dado que X no es aleatoria, puedo sacarlo de la esperanza.
P
xi y i 1 X 1 X
E(β̂) = E P 2 = P 2 E xi y i = P 2 xi E(yi )
xi xi xi
8
Ahora miramos E(yi ):
E(yi ) = E(Yi − Y )
P
(α + βXi + µi )
yi = (α + βXi + µi ) −
n
P P
nα Xi µi
yi = (α + βXi + µi ) − +β +
n n n
α + βXi − µi ) − (
yi = ( α + βX + µ)
yi = βXi + µi − βX − µ
yi = β(Xi − X ) + µi − (µ)
| {z }
xi
yi = βxi + µi − x
E(yi ) = E(βxi + µi − x)
E(yi ) = E(βxi ) + E(µi ) −E(µ)
| {z }
=0 exog.
E(yi ) = E(βxi ) − E(µ)

=0
zX}| {
µi
E(yi ) = E(βxi ) − E[ ]
n
E(yi ) = βxi
Retomamos:
1 X
E(β̂) = P 2 xi E(yi )
xi
1 X
E(β̂) = P 2 xi βxi
xi
1 X 2
E(β̂) = P 2 xβ
xi i
E(β̂) = β
En esta demostración usamos el supuesto de linealidad, de exogeneidad, que X es no alea-
torio y usamos multicolinealidad perfecta porque dimos por sentado que β existe. Si no
se cumple el supuesto de que E(µi ) = 0 no podemos afirmar que el estimador es insesgado.
Intuición: si yo pudiera sacar infinitas muestras de la población, el promedio de los infinitos

valores de β̂ es el promedio del verdadero β. En todas las muestras el β̂ es distinto porque
tiene un componente aleatorio. 1
σ2
(2) Varianza del estimador: var(β̂) = P 2
xi
 
var(β̂) = E (β̂ − E(β̂) )2 

| {z }
=β insesgado
1
Prezi sobre Insesgadez de Walter Sosa: https://prezi.com/24oqejal40zh/insesgadez/
9
Acá estamos utilizando todos los supuestos de antes porque utilizamos la insesgadez del
estimador. Ahora:
P
xi yi
∗ Reemplazamos β̂ = P 2
xi
∗ Usamos yi = Yi − Y
∗ Usamos Yi = α + βXi + µi
Llegamos a
" P 2 # X
xµ 1 2
var(β̂) = E P i2i = P 2 2E xi µ i
xi ( xi )
| {z }
(1)
X 2 X XX
(1) xi µ i = (xi µi )2 + 2 (xi µi xj µj )
i i j
X 2 X XX
E xi µ i = x2i E(µ2i ) +2 xi xj E(µi µj )
| {z } i j
| {z }
(2) =σ 2 (3) =0∀i6=j
(2)
(3)
Retomamos:
X 2 X
E (xi µj ) = x2i σ 2
1 X 2
var(β̂ = P 2 2 E xi µ i
( xi )
1 X 2 2
var(β̂) = P xi σ
2
( x2i )
σ2
var(β̂) = P 2
xi
Varianza: cuan lejos/ cuan cerca estamos del parámetro. Los supuestos que usamos:
∗ Exogeneidad ∗ Homocedasticidad ∗ No correlación serial
Si no se cumplen estos supuestos no puedo asegurar que la varianza tiene esa forma.
σ2 σ2
var(β̂) = P 2 =
xi n var(x
ˆ i)
| {z }
(Xi − X)2
P
n
La varianza del estimador está inversamente relacionada con el tamaño de la muestra.
Quiero que var(X) sea grande para que var(β̂) sea mas chica. Quiero tener valores de X
10
más variados.
La var(β̂) depende de σ 2 y esta es la var(µ). Digo que cuanto mayor dispersión, mayor
sea el shock más varianza. El problema es que no conozco ni µ ni su σ 2 . Si tengo shocks
grandes, tengo mucha varianza. Para asegurarme de que me acerco a la isesgadez, resigno
varianza.
Tutorial 20/03/2020
1) Simetrı́a :
Demostración:
cov(X, Y ) = cov(Y, X)
Pn Pn
i=1 (Xi − X)(Yi − Y ) Yi − (Y )(Xi − X)
= i=1
n−1 n−1
0=0
cov(X, Y )
Sea ρX,Y = . Demostración:
SX SY
ρX,Y = ρY,X
cov(X, Y ) cov(Y, X)
=
SX SY SY SX
Por demostración anterior
cov(X, Y ) cov(X, Y )
=
SX SY SX SY
0=0
Propiedades: cov(X, Y ) 6= cov(αX, αX) pero ρX,Y = ραX,αY . Demostración:
Paso 1: αX = αX. Demostración:

αXi
αX =
n
P
Xi
=α
n
αX = αX
Paso 2: usamos la definición de covarianza muestral con (αX, αY ):
P
(αXi − αX)(αYi − αY )
cov(αX, αY ) =
n−1
P
(αXi − αX)(αYi − αY
(por 1) =
n−1
P
(Xi − X)(Yi − Y )
= α2
n−1
2
cov(αX, αY ) = α cov(X, Y )
11
Paso 3: usamos la definición muestral de ρX,Y :
cov(αX, αY )
ραX,αY =
SX SY
α2 · cov(X, Y )
por (2) = sP sP
2
(αXi − αX) (αYi − αY )2
n−1 n−1
2
α · cov(X, Y )
por (1) = sP sP
2
(αXi − αX) (αYi − αY )2
n−1 n−1
2
α · cov(X, Y )
= sP sP
2
(Xi − X) (Yi − Y )2
α2 ·
n−1 n−1
cov(X, Y )
= sP sP
2
(Xi − X) (Yi − Y )2
n−1 n−1
cov(X, Y )
ραX,αY = = ρX,Y
SX SY
El coeficiente de correlación es menor o igual a uno en valor absoluto, esto es −1 ≤ r ≤ 1.
Demostración: notar que para cualquier constante se cumple que:

n
X
(yi − cxi )2 ≥ 0
i=1
n
X
(yi2 + c2 x2i − 2cxi yi ) ≥ 0
i=1
En particular, consideremos c = ni=1 xi yi / ni=1 x2i . Reemplazando:

P P
n Pn 2 n Pn n
X
2 i=1 xi y i X 2 i=1 xi yi X
yi + Pn 2 x i − 2 Pn 2 xi y i ≥ 0
i=1 i=1 xi i=1 i=1 xi i=1
n 2 2
( ni=1 xi yi ) ( ni=1 xi yi )
X P P
2
yi + P n 3
−2 Pn 3
≥0
i=1 i=1 xi i=1 xi
n 2
( ni=1 xi yi )
X P
2
yi − Pn 3 ≥ 0
i=1 i=1 xi
Xn n
X n
X
2 2
( yi xi ≥ ( xi yi )2
i=1 i=1 i=1
" Pn #2
i=1 yi xi
pPn
2
pPn ≤1
y
i=1 i i=1 x2i
r2 ≤ 1
12
Función lineal exacta: cuando ρX,Y = 1 cuando Y es una función lineal exacta de X con
pendiente positiva.
Yi = α + βXi
donde β > 0. Reemplazo la ecuación de arriba en la media muestral.
1X
Y = Yi
n
1X
= (α + βXi )
n
Y = α + βX
Sabemos que yi = Yi − Y :
yi = Yi − Y = α + βXi − α − βX
= β(Xi − X)
yi = βxi
Voy a la definición de coeficiente de correlación muestral:

P P
xi y i xi βxi
ρX,Y = pP 2 P 2 = pP 2 P =
xi yi xi β 2 x2i
β x2i β x2i
P P
= p P 2 = P 2 =1
β xi β xi
La demostración es análoga cuando β < 0. En este caso, ρX,Y = −1 e Y es una función

lineal exacta de X con pendiente negativa.
Teorema de Gauss-Markov
Si valen los supuestos clásicos, β̂ tiene la menor varianza en la clase de todos los estima-
dores lineales e insesgados de β.
Inferencia
Me estoy preguntando si β = 0. A partir de los valores de β̂ digo que está cerca de β me
animo a rechazar/ no rechazar. Tenemos que ver los criterios.
Yo tengo un valor de β̂ y sabien la varianza y la esperanza puedo hacer un test de hipótesis.

También queremos intervalos de confianza. Queremos distinguir:
H0 : β = 0 vs. HA : β 6= 0
Si H0 : β = 0 es cierta, entonces, aunque β̂ pueda tomar cualquier valor, esperamos que
tome valores cercanos a cero. Si tengo un error muy alejando de 0 me preocupo. Quiero
saber que son numeros alejandos de cero.
13
Asumiendo que β = 0 y a partir de β̂ bajo esos supuestos clásicos, sabemos que si
H0 : β = 0 entonces E(β̂) = 0. Hacemos un nuevo supuesto:
µi ∼ N (0, σ 2 )
No habı́amos asumido que el término aleatorio tenı́a distribución normal. Como Yi es una
función lineal de la µ y β es función lineal de Y , entonces, si µ tiene distribución normal,
β tiene distribución normal y YI también.
σ2

β̂ ∼ N β,
n · var(X)
Esto es gracias a que conozco la distribución de µ. Cuando H0 : β = 0 , se cumple:
σ2

β̂ ∼ N 0, P 2
xi
También:
β̂
Z≡p P ∼ N (0, 1)
σ 2 / x2i
Cuando β̂ es “chico”, Z también es “chico”. Yo quiero que β̂ grande si var es chica.
Regla: aceptamos H0 si β̂ es cercano al valor correspondiente a esa hipótesis. Para definir

cercano: sea 0 < c < 1 y Zc un número tal que:
P (−Zc ≤ Z < Zc ) = 1 − c
siendo c el nivel de significatividad. La región de aceptación va a ser la siguiente:
P (−Zc ≤ Z < Zc ) = 1 − c
Reemplazo Z por su definición y arma el intervalo de confianza:
s s !
σ2 σ2
P −Zc · P 2 ≤ β̂ ≤ Zc · P 2 = 1 − c
xi xi
Tenemos el problema de que σ 2 no se observa, no es muestral. Plantemos el estimador
insesgado de la varianza de µi :
n
X
e2i
i=1
S2 =
n−2
Demostración de la insesgadez:
COM P LET AR
Bajo todos los supuestos clásicos, si H0 : β = 0 es cierta,
β̂
t≡ p P ∼ tn−2
S 2 / x2i
14
p
Lo que S 2 / x2i representa es el standard error.
P
Vamos al caso general:
H0 : β = β0 vs. HA : β 6= β0
Bajo todos los supuestos y cuando es cierta H0 = B0 se cumple
σ2

β̂ ∼ N β0 , P 2
xi
β̂ − β0
Z≡p P ∼ N (0, 1)
σ 2 / x2i
También, como no conocemos la varianza:
β̂ − β0
t≡ p P ∼ tn−2
S 2 / x2i
Reemplazamos B0 por cualquier valor que nos interese. El p-valor nos va a decir con
cuanta probabilidad rechazo la hipótesis.
Tutorial
Corolario: demostraremos que cov(X, e) = 0. Demostración:
1 X
cov(X, e) = (Xi − X)(ei − e)
n−1
1 X
= · (Xi ei − Xi e − Xei + Xe)
n−1
1 hX X i
= Xi e i − X ei
n−1
cov(X, e) = 0
Demostraciones de propiedades estadı́sticas:
Insesgadez de α̂:
α̂ = Y − β̂X
E(α̂) = E(Y − β̂X)
= E(Y ) − E(β̂X)
P
Yi
=E − E(β̂X)
n

1X
= E α + βX + µi − E(β̂X)
n
= E(α) + E(βX) − E(β̂X)
= α + βX − XE(β̂)
E(α̂) = α
15
Varianza de α̂:
var(α̂) = var(Y − β̂X)
= var(Y ) + var(β̂X) − 2 cov(Y , β̂X)
| {z }
=0
2
= var(Y ) + X var(β̂)
2
2 σ
= var(α + βX + µ) + X P 2
xi
2
2 σ
= var(µ) + X P 2
xi
1 X X 2 σ 2
= 2 var µi + P 2
n xi
2 2
1 X X σ
= 2 var(µ)i + P 2
n xi
2 2
σ 2 σ
var(α̂) = +X P 2
n xi
var(µ) = var(α + βX + µ) porque los dos primeros valores son valores fijos.
Magistrales 9 y 10 - 27/03/2020
Poner más variables sirve para poder hacer un análisis céteris páribus. Agregamos variables
explicativas:
Yi = β1 + β2 X2i + β3 X3i + ... + βk Xki + µi i = 1, ..n

Ahora los regresores son X2 , ..., Xk . Por comidad de notación, la primera “variable“ es
X1i = 1 ∀ i que corresponde al intercepto del modelo.
Cambia el supuesto de no multicolinealidad; ahora no hay dependencia lineal entre las

variables explicativas (ya no alcanza que los regresores varı́en entre observaciones). En
lineal con dos variables, si no se cumple multicolinealidad perfecta, entonces el modelo no
sirve para explicar β; podrı́a tomar infinitos valores. En este modelo basta con decir que
no varı́an las Xi para decir que no tienen dependencia lineal.
Ahora ninguno de los regresores puede expresarse como una combinación lineal de otros
regresores. Entonces no pueden existir constantes aj tales que:
X
Xk = aj X k
con E(µi ) = 0 y regresores no aleatorios:
E(Yi ) = β1 + β2 X2i + β3 X3i + ... + βk Xki

El efecto marginal Xk viene dado por
∂E(Yi )
= βk ∀i
∂Xki
16
El efecto marginal se hace sobre la esperanza porque ves el efecto en promedio. Si derivara
con µi , el efecto marginal serı́a distinto para cada observación, es por eso que analizo en
promedio.
Como ahora tengo la derivada parcial, me permite hacer el análisis céteris páribus. βk mi-
de el efecto E(Yi ) de cambiar marginalmente la k-ésima variable explicativa, manteniendo
constantes todas las demás. El significado de marginalmente está atado a las unidades de
medida de la variable explicativa.
Ahora vamos a ver qué pasa con el efecto sobre E(Yi ) cuando Xs aumenta en ∆XS :
∆E(Yi ) = β1 +β2 X2i +...+βS (XSi +∆XSi )+...+βk Xki −[β1 +β2 X2i +...+βS XSi +...+βk Xki ]
∆E(Yi ) = βS ∆XSi
Ahora tenemos que incorporar a nuestros modelos variables explicativas que son cualitati-
vas. Vamos a ver fenómenos binarios. Hay que tener en cuenta que son solo dos valores.
Creamos una variable artificial que toma un valor cuando la caracterı́stica está presente y
otro valor distinto cuando no lo está. Llamamos variable dummy a esa variable artificial.
Resulta útil que el nombre de la variable dummy sugiera cuál es la caracterı́stica asociada
al valor 1. La caracterı́stica asociada al valor 0 se lo conoce como categorı́a base. Esto
es clave para la interpretación. Ejemplo:
Wi = β1 + β2 aedui + δ hombrei + µi
Si E(µi ) = 0, entonces:
E(Wi ) = β1 + β2 aedui + δ hombrei

En este caso, hombrei es una variable dummy. En este caso hay dos regiones:
∗ Para hombres E(Wi |hombre = 1) = β1 + β2 aedui + δ
∗ Para mujeres E(Wi |hombre = 0) = β1 + β2 aedui .
Restando miembro a miembro:
E(Wi |hombre = 1) − E(Wi |hombre = 0) = β1 + β2 aedui + δ − (β1 + β2 aedui + δ · 0) = δ
Entonces, δ es la diferencia entre el salado esperado de un hombre y una mujer que tienen
el mismo nivel de educación. La recta de regresión de los hombres es paralela a la de las
mujeres (misma pendiente) pero tiene una ordenada al origen mayor.
Regla: si hay dos categorı́as incluimos sola una dummy. Si incluimos las dos variables
dummy caemos en lo que se llama la trampa de la variable binaria. Si pongo tantas
variables como categorı́as estoy violando el supuesto de multicolinealidad.
17
Generalizamos: si hay S categorı́as, incluimos S − 1 variables dummies. Ejemplo: si tene-
mos tres regiones, la categorı́a base se da cuando region 1 y 2 son cero.
Con S variables, la estimación e inferencia con variables explicativas binarias es todo igual
que antes. Lo único que cambia es la manera de interpretar los coeficientes.
Con MCO solo necesitmos linealidad en los parámetros. Vamos a ver tres casos:
1. Modelo logarı́tmico (log-log)
2. Modelo semi-logarı́tmico
3. Modelo cuadrático en X
Modelo logarı́tmico (log-log)
Yi = AXiβ exp(µi )
donde A, B son desconocidos. Aplicamos transformación logarı́tmica:
ln(Yi ) = ln(A) + β ln(Xi ) + µi
Si µi se mantiene constante cuando Xi cambia,
d ln(Yi ) ∆Yi /Yi

β= =
d ln(Xi ) ∆Xi /Xi
β es una elasticidad: porcentaje que cambia Y ante un aumento de 1 % de X. En este
tipo de modelos las unidades de medida no importan ya que los cambios son porcentajes.
Modelo semi-logarı́tmico
Yi = exp(α + βXi + µi )
α, β desconocidos. Aplicamos transformación:
ln(Yi ) = α + βXi + µi
Si µi constante cuando Xi cambia:
d ln(Yi ) ∼ ∆Yi /Yi

β= =
dXi ∆Xi
β es una semielasticidad: β × 100 es el porcentaje en el que cambia Y cuando X aumenta
en una unidad.
18
Modelo cuadrático
Nos preguntas de qué modo podemos establecer una relación con una curva entre X y Y
(en vez de una recta). El modelo cuadrático en X:
Yi = β1 + β2 Xi + B3 Xi2 + µi
Puedo incorporar variables cuadráticas porque tiene una alta correlación pero no es per-
fectamente lineal. El efecto marginal de X viene dado por:
∂E(Yi )
= β2 + 2β3 Xi
∂Xi
β2 ya no resume el efecto marginal. El signo de β3 indica si el efecto marginal crece o
decrece a medida que X aumenta. Ahora pago un costo mayor al estimar con la curva:
estoy mejor porque ajusto mejor pero ahora la interpretación depende de cada Xi .
Hay dos tipos de variables dummies:
Aditivas: son las que evaluan las ordenadas al origen
Multiplicativas: son las que varian si las pendientes difieren
Ejemplo: tenemos el siguiente modelo:
ln(wi ) = β1 + β2 · aedui + β3 · edadi + β4 · edad2i + β5 · hombrei + µi

Interpretamos el coeficiente de la variable binaria hombre.
Hombre: ln(ŵH ) = β̂1 + β̂2 · aedu + β̂3 · edad + β̂4 · edad2 + β̂5
Mujer: ln(ŵM ) = β̂1 + β̂2 · aedu + β̂3 · edad + β̂4 · edad2
Resto miembro a miembro:
ln(ŵH ) − ln(ŵM ) = β̂5

ŵH
ln = β̂5
ŵM
ŵH
= eβ̂5
ŵM
ŵH )
− 1 = eβ̂5 − 1
ŵM
ŵH − ŵM
= eβ̂5 − 1
ŵM
Si β̂5 pequeño, exp(β̂5 ) − 1 ∼

= β̂5 . Pequeño es que sea menor a 0,20.
19
Tutorial
Tenemos el clásico:
SCE
R2 =
SCT
El problema es que crece con la cantidad de variables K. Aparece el ajustado:
SRC
R =1− n−K
2
SCT
n−1
2
Hay dos efectos contrapuestos: cuando sube K, cae SRC y sube el R y el K hace que
2
este mismo caiga. Este R penaliza la adición de variables que no aumenten el poder
explicativo del modelo.
2
El R aumenta con la variable K si el estadistico tK es mayor a 1 en valor absoluto.
Test de significatividad global: vamos a ver con el modelom linear simple. Hipótesis:
H0 : β = 0 vs. HA : β 6==
El estadı́stico:
SCE
F = ∼ F1,n−2
SRC/(n − 2)
Divido numerador y denominador por ST C:
SCE/ST C R2
F = /(SCT (n − 1)) =
SCR (1 − R2 )/(n − 2)
En este caso, F = t2 .
En el caso más complejo, en el que tenemos k variables, el estadı́stico es:

SEC/(k − 1)
F = ∼ Fk−1,n−k
SRC/(n − k)
Dividimos por SCT
SCE/[SCT (k − 1)] R2 /(k − 1)
F = =
SRC/[SCT (n − k)] (1 − R2 )/(n − k)
Trampa de la variable binaria
ingresoi = α + βeducacioni + µi
Queremos saber si hay discriminación hacia algún sexo. SI NOS EQUIVOCAMOS QUE-
DA ASI:
ingresoi = α + βeducacioni + δ1 mujer + δhombre + µi
Está mal porque mujeri + hombrei = 1 y hay multicolinealidad perfecta. Va a hacer que
no se pueda usar MCO. Soluciones:
20
1. Eliminar el intercepto
2. Dejar el intercepto e incorporar una única variable dummy
Que una variable sea endógena quiere decir que esta relacionado con el término de error.
Magistrales 11 y 12
Podemos escribir el modelo con k variables de forma matricial. El modelo se escribe como:
Y = Xβ + µ
Definiciones y resultados de algebra matricial:
1. Rango de matriz: número máximo de filas/columnas linealmente independientes.
ρ(X) = rango de matriz de X.
2. Máximo numero de columnas li = máximo número de filas li.
3. Una matriz cuadrada A ∈ Rk×k es no singular si y solo si |A| 6= 0, entonces existe
una unica matriz no singular A−1 a la que llamamos inversa de A, tal que A · A−1 =
A−1 · A = Ik .
4. Sea una matriz A ∈ Rk×k . Entonces: ρ(A) = K ⇒ |A| 6= 0. ρ(A) < k ⇒ |A| = 0. Si
ρ(A) = k significa que todas las filas y columnas son linealmente independientes.
5. Sea una matriz X ∈ Rn×k , no cuadrada, con ρ(X) = k (rango columna completo).
Se cumple que ρ(X) = ρ(X t X) = k.
En nuestro modelo, X t · X, para cualquier n y k es:
 P P P 
n X2i XP3i · · · P Xki
2
P P P
 X2i
P X 2i XP 2 X3i
2i · · · P X2i Xki 

t  X3i P X2i P X3i X3i ··· X3i Xki 
X ·X = 
 .. .. .. ... .. 
 . .P .P . 
P P P P 2
Xki X2i Xki X3i Xki ··· Xki
El supuesto de no multicolinealidad perfecta, que garantiza que las filas y columnas son
linealmente independientes.
Vimos que ρ(X) = ρ(X t X). Entonces ρ(X) = k ⇒ ρ(X t X) = k ⇒ ∃(X t X)−1 . Que el
rango sea igual a k, me lo garantiza no multicolinealidad perfecta.
Resultado 1: Sean a, b dos vectores (k × 1), entonces:

∂ (bt a)
=a
∂b

a1 b
Demostración: supongamos k = 2, a = y b = 1 . Notar que bt · a = b1 a1 + b2 a2 e
a2 b2
un escalar, entonces
∂ (bt a)
a es un escalar derivado por vector
∂b
21
Derivar por un vector (k × 1) es derivar por cada uno de los k eementos del vector. Luego,
las k derivadas sea amplian en un vector de derivadas. Derivamos:
∂ (bt a)
 
∂ (bt a)  ∂ b1 

a1
= t = =a
∂b ∂ (b a) 
a2
∂ b2
es el vector de derivadas!
Resultado 2: Sea una A una matriz simétrica (k × k) y b un vector (k × 1), entonces:
∂ (bt Ab)
= 2Ab
∂b

b1 A11 A12
Demostración: suponemos k = 2, b = y A = . Notar que bt Ab =
b2 A12 A22
b21 A11 + b22 A22 + 2b1 b2 A12 es una función cuadrática en b (y es un escalar).
∂ (bt Ab)
 
∂ (bt Ab)  ∂ b1 

2b1 A11 + 2b2 A12
= = = 2Ab
∂b ∂ (bt Ab)  2b2 A22 + 2b1 A12
∂ b2
Vamos a ver MCO en matrices. La formulación matricial del modelo lineal: Y = Xβ + µ.
Sea β̂ el vector que apila los estimadores del vector de parámetros:

 
β̂1
 β̂ 
β̂ =  2 
..
.β̂k
Definiciones:
1) Vector de estimaciones de Y (n × 1):
Ŷ ≡ X β̂
2) Vector de residuos o errores de estimación (n × 1)
e ≡ Y − Ŷ = Y − X β̂
La función de pérdida de MCO:

 
e1
n
 e2 
X 
e2i = e1 e2 · · ·

SRC ≡ en ·  .. 
i=1
.
en
La suma de residuos cuadráticos se puede escribir
SRC ≡ et · e
22
Si recordamos que e ≡ Y − X β̂ es facil ver que SRC es una función de β̂.
SRC(β̂) ≡ (Y − X β̂)t · (Y − X β̂)
Problema de MCO:
mı́n SRC(β̂) = et · e = (Y − X β̂)t · (Y − X β̂)

β
La FOC es igualar el vector de derivadas al vector cero:
∂ SRC(β̂
=0
∂ β̂
et e = (Y − Ŷ )t (Y − Ŷ ) = (Y − X β̂)t · (Y − X β̂)
= Y T − Y t X β̂ − β̂ t X t Y + β̂ t X t X β̂
= Y t Y − 2β̂ t X t Y + β̂ t X t X β̂
| {z } | {z }
(1) (2)
Notar que (2) es de la forma bt a y que (2) es de a forma bt Ab. La función a minimizar es
la siguiente:
et e = Y t Y − 2β̂ t X t Y + β̂ t X t X β̂
Las FOC, que las obtenemos con el resultado 1 y 2. Chequear cuaderno:
∂et e
= 0 − 2X t Y + 2X t X β̂ = 0 ⇔ X t X β̂ = X t Y
∂ β̂
Llegamos a la FOC igualada a cero:
X t X β̂ = X t Y
Si existe (X t X)−1 (para que exista, se debe cumplir no multicolinealidad perfecta),
β̂ = (X t X)−1 X t Y
β̂ es el vector de estimadores de MCO.
Propiedad 1: los estimadores de MCO son lineales, es decir tienen la forma
β̂ = AY
donde A es una matriz (k×n) con elementos no estocásticos (no aleatorios). Demostración:
Los estimadores MCO son β̂ = (X t X)−1 X t Y
Si llamamos A a la matriz (X t X)−1 X t de dimensión (k × n), β̂ queda escrito de

forma lineal. .
Propiedad 2: X t e = 0.
23
Puede obtenerse a partir de la FOC X t X β̂ = X t Y
Implica dos resultados:
Pn
1. =0
Pi=1
n
2. i=1 Xki ei ==, con k = 2, ..., K.
Propiedad 3: similar a la propiedad anterior

Ŷ t e = 0
Propiedad 4: el punto (X, Y ) pertenece al hiperplano por MCO:
Y = X β̂
Bondad de ajuste usando notación matricial:
Xn Xn n
X
2 2
(Yi − Y ) = (Ŷi − Y ) + e2i
i=1 i=1 i=1
t 2 t 2 t
Y Y − nY = Ŷ Ŷ − nY + e e
ST C = SEC + SRC
La bondad del ajuste se escribe como
2
2 Ŷ t Ŷ − nY et e
R = 2 =1− 2
Y t Y − nY Y t Y − nY
Supuestos clasicos en notación matricial

Modelo:
Y = Xβ + µ
Supuestos clásicos:
1) E(µ) = 0
  
µ1 E(µ1 )
 µ2   E(µ2 ) 
µ =  ..  ⇒ E(µ) =  .. 
   
.  . 
µn E(µn )
Este supuesto que establece que el vector de esperanzas es igual a cero. Esto implica que,
en promedio, para cada observación espero que sea cero.
2) var(µ) = σ 2 In (homocedasticidad). Todos tenemos el mismo tamaño de shock. La

varianza de todas las mu es igual.
var(µ) = E (µ − E(µ)) · (µ − E(µ))t

 
= E (µ − E(µ)) · (µ − E(µ))t 

| {z } | {z }
=0 =0
t

=E µ·µ
24
Ejemplo:     2 
µ1 µ 1 µ 2 µ 1 µ 1 µ 3
E µ2  · µ1 µ2 µ3  = E µ2 µ1 µ22 µ2 µ3 
µ3 µ1 µ3 µ2 µ3 µ23
   
E(µ21 ) E(µ2 µ1 ) E(µ1 µ3 ) var(µ1 ) E(µ2 µ1 ) E(µ1 µ3 )
var(µ) = E(µ2 µ1 ) E(µ22 ) E(µ2 µ3 ) = E(µ2 µ1 ) var(µ2 ) E(µ2 µ3 )
E(µ1 µ3 ) E(µ2 µ3 ) E(µ23 ) E(µ1 µ3 ) E(µ2 µ3 ) var(µ3 )
Usamos el supuesto de exogeneidad porque var(µi ) = E[(µi − E(µi ))] . Si la esperanza es
cero, var(µi ) = E[µ2i ]. Si asumo que las varianzas son iguales, las covarianzas son cero.
 2 
σ 0 0
var(µ) = σ 2 I3 =  0 σ 2 0 
0 0 σ2
Si se viola no correlación serial, no habrı́a cerso en los elementos por fuera de la diagonal
principal. Si se viola homocedasiticidad, los sigmas serı́an distintos. Suponer var(µ) = σ 2 Ik
es suponer homocedasticidad y no correlación serial.
3)X es una matriz (n × k) no estocástica con ρ(X) = k, (rango columna completo). Este
es un supuesto.
Propiedades estadisticas de estimadores MCO

1) Insesgadez de β:
β̂ = (X t X)−1 X t Y
= (X t X)−1 X t (Xβ + µ)
= (X t X)−1 X t Xβ + (X t X)−1 X t µ
= β + (X t X)−1 X t µ
E(β̂) = β + (X t X)−1 X t E(µ)
| {z }
=0
E(β̂) = β
Acá use tres supuestos:
No multicolinealidad perfecta: para que β̂ exista
No aleatoriedad de X
Exogeneidad
2) var(β̂) = σ 2 (X t X)−1
h i
t
var(β̂) = E (β̂ − E(β̂))(β̂ − E(β̂)
h i
= E (β̂ − β)(β̂ − β)t
25
Aca usamos la isesgadez de beta. Vamos a ver en profundidad β̂ − β).
β̂ = (X t X)−1 X t Y
= (X t X)−1 X t (Xβ + µ)
= (X t X)−1 X t Xβ + (X t X)−1 X t µ
= β + (X t X)−1 Xµ
β̂ − β = β + (X t X)−1 Xµ − β
β̂ − β = (X t X)−1 Xµ
Entonces tenemos que:

h i
E (β̂ − β)(β̂ − β)t = E (X t X)−1 X t µµt X(X t X)−1

Entonces,
var(β̂) = E (X t X)−1 X t µ((X t X)−1 X t µ)t

= (X t X)−1 X t E(µµt )X(X t X)−1

= (X t X)−1 X t σ 2 Ik X(X t X)−1
= σ 2 (X t X)−1 X t X(X t X)−1
var(β̂) = σ 2 (X t X)−1
Supuestos usados:
1. No multicolinealidad 2. Exogeneidad 3. No correlación serial
Homocedasticidad y no correlación serial la uso cuando digo que E(µµt ) = σ 2 Ik .
La matriz de varianza de beta estimado es la siguiente:
var(βˆ1 )
 
cov(β̂1 , β̂2 ) · · · cov(β̂1 , β̂K )
 cov(β̂ , β̂ )
1 2 var(βˆ2 ) · · · cov(β̂2 , β̂K )
var(β̂ = 
 
.. .. ... .. 
 . . . 
cov(β̂1 , β̂K ) cov(β̂2 , β̂K ) · · · var(βˆK )
Notar:
1. Cada elemento de la diagonal es var(β̂k ) = σ 2 Akk , k = 1, ..., K, donde Akk es el
elemento de la fila k y columna k de la matriz (X t X)−1 .
2. Cada elemento fuera de la diagonal es cov(β̂j , β̂k ) = σ 2 Ajk , j 6= k, donde Ajk es el
elemento j y columna k de la matriz (X t X)−1
La varianza depende de un σ 2 que es un valor desconocido. En su lugar usamos el estimador
insesgado:
n
1 X 2 et e
S2 = ei =
n − K i=1 n−K
Luego, el estimador de la matriz de varianzas y covarianzas es:
V̂ (β̂) = S 2 (X t X)−1
26
Teorema de Gauss-Markov
Bajo todos los supuestos clásicos, el estimador de MCO es el mas eficiente de todos los
estimadores lineales e insesgados (MELI).
Además: sea c un vector de K constantes arbitraria, c0 β̂ es el mejor estimador lineal e

insesgado de c0 β. Es decir, la combinación lineal de los estimadores es MELI para estimar
la combinación lineal de los parámetros.
Al aplicar el TGM para comparar un estimador con β̂ recuerden los requisitos:
∗ Modelo lineal
∗ Se deben cumplir los supuestos clasicos (condiciones necesarias y suficientes)
∗ El estimador a comparar debe ser lineal e insesgado para β.
Inferencia
El supuesto adicional: normalidad
µ ∼ N (0, σ 2 In )
El resultado es que β̂ tiene distribución normal multivariada.
β̂ ∼ N (β, σ 2 (X t X)−1 )
Esto es porque como es lineal XXXXXXXXXX.
Ahora queremos hacer un test de hipótesis que sea general, para todo:
H0 : ct β − r = 0
c es algún vector de K constantes y r es algún escalar. Es decir,

k
X
H0 : cj βj − r = 0
j−1
Dependiendo de c y r podemos considerar distintos casos:
1. Significatividad individual: H0 : βj = 0 3. Igualdad de coeficientes H0 : βj = βn
4. Otros: sumas y diferencias de coeficien-

2. Valores particulares H0 : βj = r tes.
ct es un vector fila que contiene 0 y 1. r un escala.
Dado que β̂ ∼ N (β, var(β̂), entonces,
ct β̂ − r ∼ N (E(ct β̂ − r), var(ct β̂ − r))
27
Calculamos la esperanza y varianza2
E(ct β̂ − r) = ct β − r
var(ct β̂ − r) = var(ct β̂) = ct var(β̂)c
Luego llegamos a que

ct β̂ − r ∼ N (ct β̂ − r, σ 2 ct (X t X)−1 c)
Bajo H0 : ct β̂ − r el estadı́stico:
ct β̂ − r
Z=q ∼ N (0, 1)
var(c
ˆ t β̂ − r)
En la practica usamos el S 2 en lugar del sigma, entonces
V (ct β̂ − r) = ct var(β̂)c = S 2 ct (X t X)−1 c
Luego,
ct β̂ − r
t= q ∼ Tn−K
var(c
ˆ t β̂ − r)
Test de significatividad global

Nos preguntamos si todas las variables en conjunto son significativas:
H0 : β2 = 0 ∧ β3 = 0 ∧ ... ∧ βk = 0 vs. β2 6= 0 ∨ β3 6= 0 ∨ ... ∨ βk 6= 0
El estadı́stico:
SCE/(k − 1)
F = ∼ Fk−1,n−k
SRC/(n − k)
Significatividad de un grupo de variables: en el modelo con K variables, consideremos las
siguienes hipótesis:
H0 : β2 = 0 ∧ β3 = 0 vs. HA : β2 6= 0 ∨ β3 6= 0
Pensemos que estamos constestando dos modelos distintos:
El modelo irrestricto: contiene a las K variables explicativas
Modelo restricto: considera como verdadera H0 .

Si la H0 contiene q restricciones de significatividad, llamemos:
SRCI a la SRC del modelo con K variables
SRCR a la SRC del modelo que excluye las q variables consideradas en la H0 .

El estadı́stico de prueba es:
(SRCR − SRCI )/q
F = ∼ Fq,n−K
SRCI /(n − K)
2
sacar al cuadrado en matrices es premultiplicar la traspuesta y posmultiplicar el vector
28
Demostraciones de TPs
Demostraremos que no es necesario que E(µi ) = 0 para que el estimador de MC de β sea
insesgado. Partimos aplicándole la esperanza a β. Utilizaremos el argumento de que las
xi son estocásticas:
Pn
i=1 xi yi
E(β̂) = E Pn 2
i=1 xi
n
!
1 X
= Pn 2 E xi yi
i=1 xi i=1
n
1 X
= Pn xi E(yi )
i=1 x2i i=1
A continuación, miraremos más en profundidad a yi y luego le aplicaremos la esperanza.

Asumimos que E(µi ) = k con k ∈ R.
yi = Yi − Y
Pn
i=1 (α
+ βXi + µi )
yi = (α + βXi + µi ) −
n
P n Pn
nα i=1 Xi i=1 µi
yi = (α + βXi + µi ) − +β +
n n n
α + βXi − µi ) − (
yi = ( α + βX + µ)
yi = βXi + µi − βX − µ
yi = β(Xi − X ) + µi − µ
| {z }
xi
yi = βxi + µi − µ
E(yi ) = E(βxi + µi − µ)
E(yi ) = E(βxi ) + E(µi ) − E(µ)
n
!
1 X
E(yi ) = βxi + E(µi ) − E µi
n i=1
n
1X
E(yi ) = βxi + E(µi ) − E(µi )
n i=1
1
E(yi ) = βxi + E(µi ) − nE(µi )
n
E(yi ) = βxi + E(µi ) − E(µi )
E(yi ) = βxi
29
Retomamos:
n
1 X
E(β̂) = Pn xi E(yi )
i=1 x2i i=1
n
1 X
E(β̂) = Pn xi βxi
i=1 x2i i=1
Pn
i=1 x2i

E(β̂) = n 2 β
P
x
i=1 i
E(β̂) = β
Estimación MCO sin intercepto:

n
X 2
mı́n SRC = mı́n Si − δ̂Ii
δ̂ δ̂
i=1
Condición de Primer Orden de δ̂:

n
∂SRC X
= −2 (Si − δ̂Ii )Ii = 0
∂ δ̂ i=1
n
X n
X
= Si Ii − δ̂ Ii Ii = 0
i=1 i=1
n
X n
X
Si Ii = δ̂ Ii2
i=1 i=1
Pn
Si Ii
δ̂ = Pi=1
n 2
i=1 Ii
Pn
Si Ii
Concluimos que nuestro estimador MC para el modelo dado es δ̂ = Pi=1
n 2
i=1 Ii
Queremos demostrar, en el contexto del modelo lineal con k variables, que si el número de
observaciones es igual al número de variables explicativas, entonces la suma de residuos
al cuadrado es igual a cero. Para realizar esta demostración vamos a comenzar por la
definición de la suma de los residuos al cuadrado:
SRC ≡ et · e
siendo e la matriz de los residuos. Sabemos que si la cantidad de variables es igual a la

cantidad de observaciones (n = k), entonces X es una matriz cuadrada y le podemos
calcular el determinante. Si asumimos que este es distinto de cero (det(X) 6= 0) (porque
asumimos que se cumple no multicolinealidad perfecta) entonces podemos afirmar que
esa matriz es inversible. Sabemos que existe un teorema que dice que el determinante de
una matriz X ∈ Rn×n es igual al de su traspuesta. Por lo tanto, ambas son inversible si
asumimos el determinante no nulo. Si sabemos que la matriz X es inversible, sabemos que
existe una matriz X −1 tal que X · X −1 = X −1 · X = I. Lo que haremos es multiplicar la
−1
suma de cuadrados por X t · X t que es igual a la matriz identidad y por ende no va a
30
afectar la identidad:
SRC ≡ et · Ik · e
−1
SRC ≡ et · X t · Xt · e
Por un propiedad estadı́stica que se deriva de las condiciones de primer orden de Mı́nimos
Cuadrados Ordinarios sabemos que X t · e = 0. Entonces:
−1
SRC ≡ et · X t ·X t
| {z· e}
=0
SRC = 0
Wooldridge
A cross-sectional data set consists of a sample of individuals, households, firms, cities,
or a variety of other units, taken at a given point of the time. An important feature of
cross-sectional data is that we can often assume that they have been obtained by random
sampling from the underlying population.
y x
Dependent variable Independent variable
Explained variable Explanatory variable
Response variable Control variable
Predicted Variable Predictor variable
Regressand Regressor
It’s a crucial assumption that the average value of µ does not depend on the value of x.
We can write this:
E(µ|x) = E(µ) = 0
This is called the zero conditional mean assumption. It says, for any given value of x,
the average of the unobservables is the same and therefore must equal the average value
of µ in the entire population
Summary of Functional Forms Involving Logarithms

Model Dependent variable Independent variable Interpretation of β1
level-level y x ∆y = β1 ∆x
level-log y log(x) ∆y = (β1 /100) %∆x
log-level log(y) x %∆y = (100β1 )∆x
log-log log(y) log(x) %∆y = β1 %∆x
The meaning of “linear”: la ecuación del modelo lineal simple es que es linear en paráme-
tros. There are no restriction on how y and x relate to the original explained and expla-
natory variables of interest.
Siempre asumimos que (Xi − X)2 > 0. Si esto no pasa, no podemos calcular los esti-
P
madores mı́nimos cuadráticos.
31
Notas de Walter
A diferencia de la covarianza, la correlación no depende de las unidades de medida de las
variabes. Un cambio en las unidades de medida de una variable se obtiene al multiplicar
cada observación por una constante.
Cuando la mayor parte de los puntos en un gráfico de dispersión están por encima o por
debajo de ambas medias muestrales, la correlación es positiva. Una correlación cercana a
cero debe interpretarse como evidencia de ausencia de una relación lineal entre variables,
pero de ninguna manera indica ausencia de relación.
Para un modelo dado, la estimación por MCO maximiza el R2 . Si asumimos que µi

tiene distribución normal podemos asumir que Yi tambien lo esta. Esto es porque una
transformacion lineal de una variable aleatoria normal tambien es normal.
32
Tutora: Florencia Hnilo Otoño 2020
Vamos a probar que 𝒓𝟐𝑿𝒀 = 𝑹𝟐 . Primero recordemos las definiciones:

∑𝑛𝑖 𝑥𝑖 𝑦𝑖
𝑟𝑋𝑌 =
√∑𝑥𝑖2 √∑𝑦𝑖2
Donde 𝑥𝑖 = 𝑋𝑖 − 𝑋̅ y 𝑦𝑖 = 𝑌𝑖 − 𝑌̅. Si lo elevo al cuadrado, obtengo:
2
(∑𝑛𝑖 𝑥𝑖 𝑦𝑖 )2
𝑟𝑋𝑌 =
∑𝑥𝑖2 ∑𝑦𝑖2
Vamos ahora al coeficiente de determinación, 𝑅 2:
𝑆𝐶𝐸 ∑𝑛𝑖 𝑦̂𝑖 2

𝑅2 = =
𝑆𝐶𝑇 ∑𝑛𝑖 𝑦𝑖2
Notar que esta demostración es válida únicamente para el caso de un modelo lineal con dos
variables: una dependiente (Y) y otra independiente (X).
Empecemos: por definición, sabemos que:

̂𝑖 = 𝛼̂ + 𝛽̂ 𝑋𝑖
𝑌
También es cierto que:
̅𝑖 = 𝛼̂ + 𝛽̂ 𝑋̅𝑖
𝑌
Resto esta segunda expresión a la primera:
̅𝑖 = 𝛽̂ (𝑋𝑖 − 𝑋̅𝑖 )
̂𝑖 − 𝑌
𝑌
Elevo al cuadrado a ambos lados de la ecuación:
̅𝑖 )2 = [𝛽̂ (𝑋𝑖 − 𝑋̅𝑖 )]2

̂𝑖 − 𝑌
(𝑌
̅𝑖 )2 = 𝛽̂ 2 (𝑋𝑖 − 𝑋̅𝑖 )2
̂𝑖 − 𝑌
(𝑌
Aplicando sumatoria a ambos lados:

𝑛 𝑛
2
̅𝑖 ) = 𝛽̂ 2 ∑(𝑋𝑖 − 𝑋̅𝑖 )2
̂𝑖 − 𝑌
∑(𝑌
𝑖 𝑖
Fijate que el 𝛽̂ queda fuera de la sumatoria porque es una constante. Además, nota que esta
expresión puedo escribirla como:
𝑛 𝑛
2
∑ 𝑦̂𝑖 = 𝛽̂ 2 ∑ 𝑥𝑖2
𝑖 𝑖
Recordá que 𝑌 ̅
̅𝑖 = 𝑌
̂𝑖 . Vamos entonces a la definición del coeficiente de determinación:
2
∑𝑛𝑖 𝑦̂𝑖 2 𝛽̂ 2 ∑𝑛𝑖 𝑥𝑖2
𝑅 = 𝑛 2=
∑𝑖 𝑦𝑖 ∑𝑛𝑖 𝑦𝑖2
2
∑𝑛
𝑖 𝑦𝑖 𝑥𝑖 (∑𝑛
𝑖 𝑦𝑖 𝑥𝑖 )
Sabiendo que 𝛽̂ = ∑𝑛 2 , entonces es fácil ver que 𝛽̂ 2 = 2 2
. Reemplazo:
𝑖 𝑥𝑖 (∑𝑛
𝑖 𝑥𝑖 )
(∑𝑛𝑖 𝑦𝑖 𝑥𝑖 )2 ∑𝑛𝑖 𝑥𝑖2

𝑅2 = 2 . 𝑛 2
(∑𝑛 𝑥 2 ) ∑𝑖 𝑦𝑖
𝑖 𝑖
Fijate que ∑𝑛𝑖 𝑥𝑖2 aparece en el numerador y dos veces en el denominador. Entonces:
(∑𝑛𝑖 𝑦𝑖 𝑥𝑖 )2 1
𝑅2 = 𝑛 2 . 𝑛 2 = 𝑟𝑋𝑌
∑𝑖 𝑥𝑖 ∑𝑖 𝑦𝑖
¡Fin de la demostración!
Vamos ahora a ver que 𝑺𝟐 = 𝝈 ̂𝟐 es insesgado, o sea que 𝐸(𝜎̂2 ) = 𝜎 2 . Esta no es la única
forma de demostrar la insesgadez del estimador de la varianza del error, hay una más fácil con
matrices, pero por ahora vamos con esta.
𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝑢𝑖 (1)
Si aplico sumatoria a ambos lados y divido por n obtengo:

𝑌̅ = 𝛼 + 𝛽𝑋̅ + 𝑢̅ (2)
Resto (2) a (1) y obtengo:

𝑦𝑖 = 𝛽𝑥𝑖 + 𝑢𝑖 − 𝑢̅ (3)
Por otro lado, 𝑢̂𝑖 es por definición:

𝑢̂𝑖 = 𝑌𝑖 − 𝛼̂ − 𝛽̂ 𝑋𝑖 (4)
Si aplico sumatoria a ambos lados de (4) y divido por n obtengo:

𝑢̅
̂𝑖 = 𝑌̅ − 𝛼̂ − 𝛽̂ 𝑋̅ (5)
̅𝑖 = 0:
Restando (5) a (4) y teniendo en cuenta que 𝑢̂
𝑢̂𝑖 = 𝑦𝑖 − 𝛽̂ 𝑥𝑖 (6)
Sustituyendo (3) en (6):

𝑢̂𝑖 = (𝛽𝑥𝑖 + 𝑢𝑖 − 𝑢̅) − 𝛽̂ 𝑥𝑖
𝑢̂𝑖 = −(𝛽̂ − 𝛽)𝑥𝑖 + (𝑢𝑖 − 𝑢̅) (7)
Elevando al cuadrado ambos lados de (7) y aplicando sumatoria:

𝑛 𝑛 𝑛 𝑛
2
(8)
∑ 𝑢̂𝑖 2 = (𝛽̂ − 𝛽) ∑ 𝑥𝑖2 + ∑(𝑢𝑖 − 𝑢̅)2 − 2(𝛽̂ − 𝛽) ∑ 𝑥𝑖2 (𝑢𝑖 − 𝑢̅)
𝑖 𝑖 𝑖 𝑖
Tomando esperanza a ambos lados a (8):

𝑛 𝑛 𝑛
2
(9)
2
𝐸 [∑ 𝑢̂𝑖 ] = 𝐸 [(𝛽̂ − 𝛽) ] ∑ 𝑥𝑖2 + 𝐸 [∑(𝑢𝑖 − 𝑢̅)2 ]
𝑖 𝑖 𝑖
𝑛
− 2𝐸 [(𝛽̂ − 𝛽) ∑ 𝑥𝑖2 (𝑢𝑖 − 𝑢̅)]

𝑖
𝑛 𝑛
𝜎2 (10)
𝐸 [∑ 𝑢̂𝑖 2 ] = 𝑛 2 ∑ 𝑥𝑖2 + (𝑛 − 1)𝜎 2 − 2𝜎 2 = (𝑛 − 2)𝜎 2
∑𝑖 𝑥𝑖
𝑖 𝑖
Por lo tanto, notar que si paso dividiendo (n-2) obtengo:

𝐸[∑𝑛𝑖 𝑢̂𝑖 2 ]
= 𝜎2
𝑛−2
∑𝑛𝑖 𝑢̂𝑖 2
𝐸[ ] = 𝐸[𝑆 2 ] = 𝜎 2
𝑛−2
“Pero pará Flor, ¿cómo llegaste de (9) a (10)? ¡No tiene sentido!”
Ahí vamos:
2 𝜎2
𝐸 [(𝛽̂ − 𝛽) ] = 𝑉(𝛽̂ ) =
∑𝑛𝑖 𝑥𝑖2
Por otro lado (este paso y el que sigue son difíciles, hacelos mirando las demostraciones,
supuestos y propiedades de la Tutorial 3):
𝑛 𝑛 𝑛 2
∑𝑛𝑖 𝑢𝑖
𝐸 [∑(𝑢𝑖 − 𝑢̅)2 ] = 𝐸 [∑ 𝑢𝑖2 − 𝑛 𝑢̅2 ] = 𝐸 [∑ 𝑢𝑖2 − 𝑛 ( ) ]
𝑛
𝑖 𝑖 𝑖
𝑛 𝑛
1 𝑛
= 𝐸 [∑ 𝑢𝑖2 − (∑ 𝑢𝑖2 + ∑ 𝑢𝑖 𝑢𝑗 )] = 𝑛𝜎 2 − 𝜎 2 = (𝑛 − 1)𝜎 2
𝑛 𝑛
𝑖 𝑖 𝑖≠𝑗
Por último, el último término coloreado:

𝑛 𝑛 𝑛 𝑛 2
1 1
𝐸 [(𝛽̂ − 𝛽) ∑ 𝑥𝑖 (𝑢𝑖 − 𝑢̅)] = 𝐸 [ 𝑛 2 ∑ 𝑥𝑖 𝑢𝑖 ∑ 𝑥𝑖 𝑢𝑖 ]
2
= 𝑛 2 [∑ 𝑥𝑖 𝐸(𝑢𝑖 )]
∑𝑖 𝑥𝑖 ∑𝑖 𝑥𝑖
𝑖 𝑖 𝑖 𝑖
𝑛
1
= 𝑛 2 [∑ 𝑥𝑖2 𝐸(𝑢𝑖 )2 + ∑ ∑ 𝑥𝑖 𝑥𝑖 𝐸(𝑢𝑖 𝑢𝑗 )] = 𝜎 2
∑𝑖 𝑥𝑖
𝑖 𝑖≠𝑗
Segunda Parte
Magistrales
El análisis estadı́stico es internamente válido si la inferencia estadı́stica sobre los efectos
causales es válida para la población que está siendo estudiada. A contracara, el análisis
estadı́stico externamente válido se da cuando su inferencia y las conclusiones puede ge-
neralizarse, a partir de la población y contexto estudiado, a otras poblaciones y contextos.
La validez interna tiene dos componentes:
∗ El estimador del “efecto causal”debe ser insesgado y consistente
∗ La inferencia estadı́stica deberı́a tener el nivel deseado de significatividad.
Si no se cumplen los supuestos de MCO, está en juego la validez interna.
Asumir que X es no aleatoria es que el investigador la puede elegir. Ahora no hacemos

más ese supuesto. Es por eso que reescribimos los supuestos clásicos:
1. Linealidad
2. Exogeneidad estricta E(µ|X) = 0
3. Homocedasticidad var(µ|X) = σ 2
4. No correlación serial: cov(µi , µj |X) = 0 ∀i 6= j
Definimos el sesgo como:

sesgo(β̂M CO ) = E(β̂M CO ) − β
La varianza del estimador se define como:
h i2
2
varβ (β̂M CO ) = E β̂M CO − E(β̂M CO )
Un buen estimaodr tiene el menor sesgo y menos varianza posible. Existe un trade-off
entre sesgo y varianza. Aparece el Error Cuadrático Medio, que se define como:
ECM (β̂M CO ) = var(β̂M CO ) + sesgo2 (β̂M CO )
Demostración:
ECM (β̂M CO ) = E[β̂M CO − β]2

= E[((β̂M CO ) − E(β̂M CO )) + (E(β̂M CO ) − β)]2
= E[β̂M CO − E(β̂M CO )]2 + [E(β̂M CO ) − β]2
= var(β̂M CO ) + B 2 (β̂M CO )
El ECM se puede usar para comparar diferentes estimadores sesgados. Sean β̂ y β̃ dos
posibles estimadores de β, si
ECM (β̂) ≤ ECM (β̃)
36
decimos que β̂ es preferible a β̃. No podemos encontrar un estimador ECM óptimo.
En caso de tener diferentes estimadores insesgado, si
var(β̂) ≤ var(β̃)
decimos que β̂ es un estimador más eficiente que otro estimador insesgado.

p
El estimador es consistente si cuando n −→ ∞ el β̂M CO → − β. Es decir, se hace muy
probable que el estimador se acerque al parámetro. Formalmente:
h i
P |β̂M CO − β| < ε = 1 ∀ε > 0 o plim(β̂M CO ) = β
Para ello, se puede pensar en las condiciones suficientes para que ocurra: que el sesgo y
la varianza tiendan a cero a medida que n −→ ∞
Fuentes de Sesgo
El estimador de MCO puede estar sesgado, incluso para muestras grandes. Las fuentes
son las que detallaremos.
Sesgo por variable omitida

Si una variable independiente está correlacionada con algún regresor. Si omitimos una
variable que determina a la variable dependiente y correlaciona con la independiente,
entonces
p σµ
β̂M CO →
− β1 + ρX,µ
σX
Si ρ > 0 entonces tengo sesgo positivo, voy a estar sobreestimando el verdadero efecto y
si ρ < 0 voy a estar subestimando. Una fuente de sesgo es omitir una variable porque no
puede observarla.
corr(X1 , X2 ) > 0 corr(X1 , X2 ) < 0

β2 > 0 + -
β2 < 0 - +
Sesgo por error de especificación en la forma funcional

Equivocarse en la forma funcional va al término de error y eso hace que se correlacione
con el regresor.
Errores de medición en los regresores

Supongamos que quiere medir el ingreso de las personas. Supongamos que tengo un único
regresor X que es el ingreso real. Se mide en forma imprecisa X̃ (ingreso declarado). Mi
regresión de interés es:
y = β0 + β1 X + µ
Ahora con el ingreso declarado
y = β0 + β1 X̃ + [β1 (X − X̃)] + µ
37
La regresión que se estimará:
y = β0 + β1 X̃ + v
donde v = [β1 (X − X̃] + µ. Se puede ver que existe correlación con las variables.
Llamamos a los siguiente como error de medición clásico:
X̃ = X + ω
Por el hecho de que ω es aleatorio, podemos suponer que corr(ω, X) = 0 y que corr(ω, µ) =
0. Se puede probar que, incluso bajo el supuesto de que ω sea aleatorio
2
p σX
β̂1 →
− 2
β1
σX + σω2
Como el ratio de varianzas es menor a 1, β̂1 estará sesgado hacia el 0, es decir, estamos
subestimando el efecto, incluso para muestras grandes. Si no existe error de medición:
p
σω2 = 0 =⇒ β̂1 →
− β1
Missing Data y sesgo de selección muestral

Missing data es la situación en la cual para ciertos individuos no tengo información. Este
es un sesgo que viene desde la toma de la muestra. También el sesgo de selección consiste
en los datos que se pierden debido a un proceso de selección que está relacionado con y
además de con X.
Causalidad simultánea
Además de haber un efecto causal de X en y existe un efecto causal de y en X. Esta
reversión de la causalidad hace que X esté correlacionada con el término de error. Un
shock puede hacer que X se vea afectada por el cambio en µ.
Variables Instrumentales
Tenemos el caso más sencillo
y i = β0 + β1 Xi + µi aunque cov(X, µ)
Queremos obtener estimadores consistentes de β0 y β1 cuando X y µ están correlacionadas.

Necesitamos información adicional que vendrá de una variable instrumental (z).
Z −→ X −→ Y
↑ %
µ
Tiene que cumplir dos condiciones:
∗ Exogeneidad: cov(Z, µ) = 0
∗ Relevante: cov(Z, X) 6= 0
38
Z no puede explicar Y pero si tiene que tener relación con X. Hay una diferencia entre
ambos supuestos:
∗ cov(Z, µ) no es observable. Entonces no se puede constrastar empı́ricamrnte. Debe-

mos defender este supuesto recurriendo al sentido común.
∗ cov(Z, X) 6= 0 si se puede constrastar empı́ricamente con una regresión.
Indentificación de β1
Si se cumple que cov(Z, µ) = 0 y cov(Z, X) 6= 0 permiten identificar el parámetro β1 .
Aquı́ la identificación de un parámetro implica que podemos escribir β1 en términos de
los momentos poblacionales que se pueden estimar con los datos de la muestra.
cov(Z, Y ) = β1 cov(Z, X) + cov(Z, µ)
Si tenemos
y = β0 + β1 X + µ
Calculamos covarianza:
cov(Z, Y ) = cov(Z, βo + β1 X + µ)
cov(Z, Y ) = cov(Z, β0 ) +β1 cov(Z, X) + cov(Z, µ)
| {z } | {z } | {z }
=0 6=0 relevancia =0
cov(Z, Y ) = β1 cov(Z, X)
cov(Z,
c Y)
β̂1 =
cov(Z,
c X)
Si X = Z → β̂1 = β̂1M CO . MCO es un caso particular de variable instrumental en la que

yo digo que X no está correlacionada con µ.
Trabajando con análogos muestrales:

Pn
VI (Zi − Z)(Yi − Y )
β̂1 = Pni=1
i=1 (Zi − Z)(Xi − X)
β̂0V I = Y − β̂1V I X
Si X = Z, β̂1V I = β̂1OLS . Si se cumplen los supuestos de relevancia y exogeneidad
plim(β̂1V I ) = β1
Alguna falla en dichos supuestos vuelve inconsistente el estimador.
Magistrales - 15/05/2020
Para hacer inferencia podemos suponer que como el estimador de VI es parecido al MCO,
esperamos que se distribuya aproximadamente de forma normal para muestras grandes.
Para hacer inferencia, necesitamos el error estándar.
39
El enfoque tradicional es asumir homocedasticidad, es decir,
E(µ2 |z) = σ 2 = var(µ)
Si al supuesto anterior le adicionamos los supuestos de exogeneidad y relevancia del ins-
trumento, la varianza asintótica de
σ2
var(β̂1V I ) = 2 2
nσX ρX,Z
El grado de dependencia entre X y Z condiciona la varianza:
s
σ̂ 2
SE(β̂1V I ) = 2
SCT · RX,Z
donde SCT es la suma de cuadrados totales. Notemos que en el denominador lo distinto
2 2
con MCO es la aparición de RX,Z . Como RX,Z < 1 =⇒ var(β̂1V I ) > var(β̂1M CO )
Vimos que β̂1V I es consistente si se cumple que cov(z, µ) = 0 y cov(X, Z) 6= 0. Si la corre-

lación entre Z y X es débil, entonces aumenta el error estándar del estimador de variables
instrumentales. Tener un instrumento débil tiene una consecuencia más seria aún: β̂1V I
puede tener un gran sesgo asintótico incluso si Z y µ están levemente correlacionadas:
corr(Z, µ) σµ
plimβ̂1V I = β1 +
corr(Z, X) σX
Ahora lo que vamos a hacer es extender el análisis al caso múltiples. Tenemos la siguiente
regresión:
Ecuación estructural y1 = β0 + β1 y2 + β2 z1 + µ1
en donde:
∗ y1 : es la variable dependiente (endógena =⇒ cov(y1 , µ) 6= 0)
∗ y2 : variable explicativa (endógena) =⇒ cov(y2 , µ) 6= 0
∗ z1 : variable explicativa (exógena) =⇒ cov(z1 , µ) = 0
∗ µ1 : error aleatorio
Necesitamos otra variable exógena: z2 que no forme parte de la ecuación estructural.
Tiene que cumplir con:
∗ cov(z2 , y2 ) 6= 0 (condición de relevancia)
∗ cov(z2 , µ1 ) = 0 (condición de exogeneidad)
Si E(µ1 ) = 0, E(z1 µ1 ) = 0, E(z2 µ1 ) = 0 podemos obtener los estimadores β̂0 , β̂1 , β̂2 según
el enfoque del método de momentos:
n
X
(yi1 − β̂0 − β̂1 yi2 − β̂2 zi1 ) = 0
i=1
n
X
zi1 (yi1 − β̂0 − β̂1 yi2 − β̂2 zi1 ) = 0
i=1
n
X
zi2 (yi1 − β̂0 − β̂1 yi2 − β̂2 zi1 ) = 0
i=1
40
Hay tres ecuaciones y tres incógnitas. Notar que si z2 = y2 =⇒ V I = M CO. Tam-
bién necesitamos que cov(z2 , y2 ) (relevancia), pero como z1 está presente en la ecuación
estructural, este supuesto debe expresarse en términos de correlación parcial.
Forma reducida y2 = π0 + π1 z1 + π2 z2 + v2
Se llama correlación parcial porque también está z1 , es decir, se controla por otra variable.
La condición de identificación es que
π2 6= 0
Podemos tener la situación en la que tenemos un único regresor endógeno (y2 ):
y1 = β0 + β1 y2 + β2 z1 + µ1
Si disponemos de dos instrumentos válidos, z2 y z3 , entonces la mejor variable instrumen-

tal para y2 es una combinación lineal de las zj .
La ecuación de la forma reducida para y2 :
y2 = π0 + π1 z1 + π2 z2 + π3 z3 + v2
donde E(v2 ) = 0, cov(z1 , v2 ) = 0, cov(z2 , v2 ) = 0, cov(z3 , v2 ) = 0
Mı́nimos Cuadrados en Dos Etapas (MC2E)

Podemos estimar la ecuación en la forma reducida por MCO (primera etapa):
ŷ2 = π̂0 + π̂1 z1 + π̂2 z2 + π̂3 z3
Condición de identificación:
π2 6= 0 o π3 6= 0
Ahora ŷ2 es exógena y podemos usarla como VI de y2 porque es una combinación lineal
de dos exógenas.
Cuando usamos ŷ2 como VI de y2 , los estimadores de VI de β̂0 , β̂1 , β̂2 son idénticos a la
estimación por MCO a partir de la regresión (segunda etapa):
y1 = β0 + β1 ŷ2 + β2 z1 + µ1
En STATA se usa el comando ivregress 2sls . No se recomienda hacer a mano porque

lo que sucede es que se arrastran los errores estándar. Cuando en STATA corremos la
opción robust estamos corrigiendo por heterocedasticidad.
Multicolinealidad y MC2E
Si tenı́a multicolinealidad en MCO se me inflaba la varianza. En MC2E el problema puede
ser incluso más serio:
σ2
STˆ C 2 (1 − R22 )
en donde
41
∗ σ 2 = var(µ1 )
∗ STˆ C 2 es la varianza total de ŷ2
∗ R22 es el R2 de la regresión de la ecuación reducida.
La varianza del estimador de MC2E puede ser mayor al de MCO por dos razones. La
primera es que ŷ2 tiene menor varianza que y2 . La segunda es que la correlación entre ŷ2
y las variables exógenas es más alta que entre y2 y esas variables. Si hay multicolinealidad
aumenta el R2 de la primera regresión.
Prueba de Endogeneidad - Test de Haussman

Si las variables explicativas son exógenas, MC2E es menos eficiente que MCO. Haussman
lo que hace es contrastar un modelo contra el otro. Sea
y1 = β0 + β1 y2 + β2 z1 + β3 z2 + µ1
Asumamos que tenemos dos variables instrumentales: z3 y z4 . Si y2 fuera exógena, habrı́a

que estimar por MCO. Haussman (1978) propuso contrastar MCO y MC2E. Si ambas
difieren significativamente, entonces y2 debe ser endógena.
Procedimiento
1) Estimar la primera etapa:
y2 = π0 + π1 z1 + π2 z2 + π3 z3 + π4 z4 + v2
2) Obtener v̂2
3) Estimar por MCO:
y1 = β0 + β1 y2 + β2 z1 + β3 z2 + δ1 v̂2 + error
4) Evaluar H0 : δ1 = 0 mediante un test t.
5) Si rechazo H0 es porque tengo que usar MC2E porque son distintos. La hipótesis nula
es si MCO y MC2E son iguales, si es lo mismo. En Stata corro las dos regresiones, las
guardo con est store name y después hausman iv ols, force.
Test de restricciones de sobreidentificación - Test de Sargan

Si tenemos más instrumentos que los necesarios, se puede probar si alguno de ellos está
correlacionado con el error estructural. Volvamos al ejemplo que tenemos
y1 = β0 + β1 y2 + β2 z1 + β3 z2 + µ1
Tenemos un único regresor endógeno (y2 ) y dos variables instrumentales, z3 y z4
42
Procedimiento
1) Estimar la ecuación estructural mediante MC2E y obtener µ̂1
2) Estimar la regresión µ̂1 en función de todas las variables exógenas (z1 , z2 , z3 , z4 ) y ob-
tener el R2 (R12 ).
3) Evaluar la H0 de que todas las VI no correlacionan con µ. La alternativa es que alguno

es distinto de cero. Yo no quiero rechazar.
4) Usar el estadı́stico nR12 ∼ χ2q donde q es el número de variables instrumentales externas

al modelo menos el número total de regresores endógenos.
Si tenemos múltiples regresores endógenos, cada regresor endógeno requerirá su propia

primera etapa (en función de todas las otras variables instrumentales y resto de regresores
exógenas de la ecuación estructural. En la segunda etapa se estima la ecuación estructural
a partir de las predicciones de las primeras etapas. Comandos de STATA: ivreg 2sls
(con opción first), overid es para el test y ivreg2 (estima e incluye varios tests).
Validez interna y externa

La población estudiada es aquella de la que se extrajo la muestra. La población para la
cual los resultados se generalizan, o población de interés, es la población de entidades
individuales para la que se van a aplicar las inferencias causales del estudio. Se dice que
un análisis estadı́stico tiene validez interna si las inferencias estadı́sticas acerca de los
efectos causales son válidas para la población que está siendo estudiada. Se dice que el
análisis tienen validez externa si sus inferencias y conclusiones pueden ser generalizadas
a partir de la población y el escenario estudiados para otras poblaciones y entornos.
Amenazas a la validez interna: La validez interna tiene dos componentes. En primer lu-
gar, el estimador del efecto causal debe ser insesgado y consistente. En segundo lugar, los
constrastes de hipótesis deben tener el nivel de significación deseado, y los intervalos de
confianza deben tener el nivel de confianza deseado.
Amenazas a la validez externa. La primera es la diferencias entre poblaciones. Otra es

las diferencias en el escenario: incluso aunque la población estudiada y la población de
interés sean la misma, tal vez no sea posible generalizar los resultados del estudio si los
escenarios son distintos.
Hay cinco fuentes de sesgo que surgen debido a que el regresor está correlacionado con el
término de error de la regresión poblaciónal, violando un supuesto cásico.
Sesgo de la variable omitida: ocurre cuando se omite una variable que determina Y
y además está correlacionada con uno o con más de los regresores incluidos en esa misma
regresión. Si se dispone de datos de variable omitida, entonces se incluye en el modelo.
Si se dispone de datos sobre una o más variables de control, y esas variables de control
son adecuadas en el sentido de que conducen a la independencia de la media condicional,e
ntonces la inclusión de esas variables de control elimina el posible sesgo en el coeficiente
43
de la variable de interés.
Si se agrega una variable cuando no corresponda, esto hará reducir la precisión de los
estimadores de los otros coeficientes. En la práctica, existen cuatro pasos para decidir si
se incluye una variable o un conjunto de variables en la regresión:
1. Identificar el coeficiente o coeficientes de interés clave en la regresión.
2. Preguntarse: cuáles son las fuentes más probables de un sesgo importante de variable
omitida en esta regresión?. Se requiere teorı́a económica.
3. Aumentar la especificación base con las variables de control adicionales cuestiona-

bles indentificadas en el segundo paso. Si los coeficientes de las variables control son
estadı́sticamente significativos o si los coeficientes de interés estimados cambian sen-
siblmente cuando se incluyen las variables adicionales, entonces deben permanecer
en la especificación y debe modificarse la especificación base. Si no, estas variables
pueden ser excluidas de la regresión.
4. Presentar un resumen preciso de los resultados en forma de tabla.
Cuando no se dispone de variables de control adecuadas hay tres soluciones. La primera

es utilizar los datos en los que se observa la misma unidad observacional en diferentes mo-
mentos del tiempo. Esto se denomina datos de panel. La segunda opción es usar variables
instrumentales. La tercera es utilizar un diseño de estudio en el que el efecto de interés se
estudie mediante un experimento aleatorizado controlado.
Error de especificación en la forma funcional de la regresión: si la verdadera

función es no lineal y la estimada es lineal, por ejemplo, entonces este error produce que
el estimador MCO sea sesgado. Se puede solucionar haciendo un gráfico.
Sesgo de errores de medida y por errores en las variables: ocurre cuando una
variable independiente se mide de forma imprecisa. Este sesgo depende de la naturaleza
del error de medida y persiste incluso si el tamaño de la muestra es grande. La mejor
manera de resolverlo es obtener una medida precisa de X. Otra solución es usar VI y otra
es estimar los errores con modelos matemáticos.
Datos perdidos y selección muestral: cuando se pierden datos aleatoriamente solo

se reduce el tamaño de la muestra, pero no se introduce sesgo. En contraste, si los datos
se perdieron debido a un proceso de selección que está relacionado con el valor de la va-
riable dependientes (Y ) además de depender de los regresores (X) entonces este proceso
de selección puede introducir correlación entre el término de error y los regresores. Este
sesgo se denomina sesgo de selección muestral.
Sesgo por casualidad simultánea: aparece en una regresión de Y sobre X cuando,

además del vı́nculo causal de interés que va desde X hacia Y , existe un vı́nculo causal
desde Y hacia X. Esta causalida provoca que X esté correlacionado con el término de
error en la regresión poblacional de interés. Una solucion es usar variables instrumentales,
otra es hacer un experimento aleatorizado.
44
Existen dos razones para la inconsistencia de los errores estándar. La primera de ellas es la
heterocedasticidad. Si el error de la regresión es heterocedástico, estos errores estándar no
constituyen una base fiable para los contrastes de hipótesis y los intervalos de confianza.
Si las variables no son independientes entre distintas observaciones, lo cual puede ocurrir
en datos de panel y series temporales, entonces se necesita un nuevo ajuste en la fórmula
de los errores estándar a fin de obtener errores estándar válidos.
Capı́tulo 12 S&W - Variables Instrumentales

Las variables correlacionadas con el término de error se denominan variables endógenas,
mientras que las variables que no están correlacionadas con el término de error se llaman
variables exógenas.
Hay dos condiciones para que el instrumento sea válido. La primera se llama condición
de relevancia, que implica que la correlación entre el instrumento y la variable explicativa
es distinta de cero y la correlación del instrumento con el término de error es cero. A esto
se lo llama condición de exogeneidad del instrumento.
El modelo general de regresión VI tiene cuatro tipos de variables: la variable dependiente,

los regresores endógenos problemáticos X, regresores adicionales (variables exógenas in-
cluidas), que serán W y variables instrumentales, Z. Para que la regresión VI sea posible,
debe haber al menos tantas variables instrumentales como regresores X. Se dice que los
coeficientes de regresión están exactamente identificados si el número de isntrumentos
(m) es igual al número de regresores endógenos, k, es decir, m = k. Los coeficientes están
sobreidentificados si el número de instrumentos supera al número de regresores endógenos,
m > k y están subidentificados si m < k. Para estimar por VI, deben estar exactamente
identificados o bien sobreidentificados.
En general, si W es una variable de control efectiva en la regresión VI, entonces la inclu-

sión de W hace que el instrumento no esté correlacionado con µ, por lo que el estimador
MC2E del coeficiente de X es consistente. Si W está correlacionado con µ el coeficiente
MC2E de W está sujeto a un sesgo de variable omitida y no tiene una interpretación
causal. Matemáticamente, lo que buscamos es que E(µi |Wi ) = 0, ∀i.
Cuando tenemos varios regresores endógenos, X1i , ..., Xki cada regresor endógeno requiere
su propia regresión en la primera etapa. Esta primera etapa es similar a con un instru-
mento: se regresa la variable dependiente contra todas las variables explicativas exógenas
W y todos los instrumentos Z. En la segunda etapa se estima por MCO, excepto que los
regresores endógenos (X) se sustituyen por sus valores respectivos (X̂).
Bajo los supuestos de la regresión VI, el estimador MC2E es consistente y tiene una
distribución que, en muestras grandes, es aproximadamente normal. La regresión por VI
tiene cuatro supuestos claves:
1. E(µi |W1i , ..., Wri ) = 0
2. (X1i , ..., Xki , W1i , ..., Wri , Z1i , ..., Zmi , Yi ) son extracciones iid de su distribución con-
junta
45
3. Los valores elevados son poco probables, las X, W, Z e Y tienen momentos de cuarto
orden finitos y distintos de cero
4. Se cumplen las condiciones de relevancia y exogeneidad. Es decir, tienen colas pe-

sadas pero no se van a infinito
Cuando más relevante es el instrumento, entonces más precisa es la estimación. Cuando

la muestra es más grande, también más precisa es la estimación.
Verificación de validez de los instrumentos. Cuando más relevante sean los instrumentos
más información está disponible para su uso en la regresión VI. Un instrumento más rele-
vante da lugar a un estimador más preciso, as´;i como un tamaño muestral más grande da
lugar a un estimador más preciso. Los instrumentos que explican una pequeña proporción
de la variación de X se denominan instrumentos débiles.
Si los instrumentos son débiles entonces la distribución normal proporciona una aproxi-
mación pobre para la distribución muestral del estimador MC2E. Por lo tanto, no existe
justificación teórica para los métodos habituales de llevar a cabo la inferencia estadı́sti-
ca, incluso en muestras grandes. De hecho, si los instrumentos son débiles, el estimador
MC2E puede estar erróneamente sesgado en la dirección del estimador MCO. Cuando el
instrumento es irrelevante, la distribución para muestras grandes del estimador MC2E no
es la de una variable aleatoria normal, sino mas bien la distribución de un cociente de dos
variables aleatorias normales.
Para comprobar la debilidad de los instrumentos cuando existe un único regre-

sor endógeno es calcular el estadı́stico F para el constraste de la hipótesis de que todos
los coeficientes de los instrumentos son iguales a cero en la regresión de la primera etapa
de MC2E. Si el estadı́stico F > 10 entonces no hay que preocuparse. Para solucionar esto,
la primera opción es encontrar instrumentos adicionales, fuertes. La segunda es usar estos
instrumentos pero utilizando distintos métodos al de MC2E.
Si los coeficientes están sobreidentificados, es posible constrastar la sobreidentificación de

las restricciones, es decir, contrastar la hipótesis de que los instrumentos extras son exóge-
nos bajo el cumplimiento de que existen suficientes instrumentos válidos para identificar
los coeficientes de interés.
El contraste de sobreidentificación de restricciones (el estadı́stico J: sea µ̂M i

C2E
el residuo de la estimación MC2E . Se utiliza MCO para la estimación de los coeficientes

de regresión:
µ̂M
i
C2E
= δ0 + δ1 Z1i + ... + δm Zmi + δm+1 W1i + ... + δm+r Wri + ei
donde ei es el término de la regresión. Sea F el estadı́stico válido con homocedasticidad

para el contraste de hipótesis de que δ1 = ... = δm . El estadı́stico para el constraste de
sobreidentificación de restricciones es J = mF . Bajo la hipótesis nula de que todos los
instrumentos son exógenos, si ei es homocedástico, en muestras grandes J se distribuye
χ2m−k donde m − k es el grado de sobreidentificación, es decir, el número de instrumentos
menos el número de regresores endógenos.
46
Tutorial Práctica de Variables Instrumentales
El comando estat firststage hace un test de significatividad global de los instrumen-
tos. Cuando hay un solo instrumento es igual al test de significatividad individual.
Test de Hausman: con este test lo que hago es testear el supuesto de exogeneidad:
H0 : supuesto es válido vs. HA : supuesto no es válido
Bajo H0 el estimador de VI como el de MCO son consistentes, pero el de MCO es eficien-

te por Gauss-Markov. Bajo HA , solo IV es consistente. Para este test tengo que hacer la
regresion por OLS y VI, guardarlas y correr hausman iv ols, force.
Test de sobreidentificiación: si el modelo está sobreidentificado (el nro. de instrumentos es

mayor al número de variables endógenas), podemos testear si algunos de los instrumentos
son inválidos. Para esto usamos dos test: Test de Sargan y Test J o Test de Bassman.
Con el test de Sargan no quiero rechazar la hipótesis nula. Si la rechazo, no puedo decir
cual de los instrumentos es endógeno.
Ahora lo que nos interesa es la evolución temporal de las series económicas. Las series de
tiempo tienen dimensión t. La notación es yt y hay distintas frecuencias: anual, semestral,
trimestral, mensual, semanal, diaria, intradiaria. Cuando hay muchos datos en un inter-
valo de tiempo chico se dice una serie de alta frecuencia.
Tenemos distintos operadores:

∗ Rezagos (lags, L): yt−1 , yt−2 , ..., yt−j
,→ yt−1 = L · yt
,→ yt−j = Lj · yt
Acá lo que quiero hacer es expresar en términos pasados.
∗ Adelantos (leads): yt+1 , yt+2 , ..., yt+j
∗ Primeras diferencias (first differences)
∆yt = yt − yt−1 = (1 − L)yt
Se usa para computar diferencias. Respeta las unidades de medida. Separa en suma
∗ Logaritmos (logarithms): ln(yt ); ∆ ln(yt ). El logaritmo reduce la varianza. Se le pue-
de aplicar la tasa de crecimiento.
∗ Tasas de crecimiento (growth rates): 100 × ∆ ln(yt )
Veamos el caso particular de lo que es la doble diferencia:
∆2 yt = ∆(∆yt ) = ∆(yt − yt−1 ) = ∆yt − ∆yt−1 = yt − yt−1 − (yt−1 − yt−1 ) =

= yt − 2yt−1 + yt−2 = yt − 2Lyt + L2 yt = yt (1 − 2L + L2 ) = yt (L − 1)2
47
Propiedades de las series temporales
Propiedad 1: presentan comportamientos dinámicos. Al estar ordenadas temporalmen-
te, los valores pasados influyen en los valores presentes y futuros. Esto usualmente resulta
en la violación del supuesto de ausencia de correlación en MCO: cov(µi , µj ) 6= 0 ∀i 6= j.
Propiedad 2: usualmente tienen momentos que dependen del tiempo (ej.: media, varian-
za, asimetrı́a, kurtosis, etc.). Esto implia que las series no sean estacionarias. Granger y
Newbold (1974) demostraron que si regresionan dos variables independientes no estacio-
narias, la probabilidad de encontrar una relación espuria es muy alta.
Propiedad 3: la naturaleza secuencial de las series temporales permite realizar pronósti-

cos de futuros estables.
Propiedad 4: los eventos en las series temporales pueden causar quiebres estructurales
en la serie de datos. Se pueden estimar estos cambios mediante dummies, modelos de
regime switching/Markov, etc.
Propiedad 5: muchas series temporales están en una relación de equilibrio de largo pla-
zo (cointegración). Se pueden estimar estas relacionas mediante modelos de corrección de
erroes (MCE).
Propiedad 6: muchas series están endógenamente relacionada. Se puede modelar esti-

mando sistemas de ecuaciones, como los vectores autorregresivos (VAR).
Propiedad 7: los efectos de las variables explicativas sobre la variable dependiente pueden
variar en el tiempo. Podemos estimar estos efectos dinámicos con modelos que consideran
parámetros variantes en el tiempo.
Autocorrelación
Recordamos los supuestos clásicos:
TS.1. (linealidad en parámetros)
yt = βo + β1 x1t + ... + βk xkt + µt
TS.2. (no multicolinealidad perfecta) En la muestra, ninguno de los regresores es cons-

tante (igual al intercepto) y no hay una relación lineal exacta entre los regresores.
TS.3. (exogeneidad estricta) E(µt |X) = 0 donde X denota todas las xt e implica:
cov(x1t , µ) = 0, ..., cov(xkt , µt ) = 0 ∀t, j
TS.4. (errores homocedásticos) var(µt |X) = σ 2
TS.5. (ausencia de correlación) cov(µt , µs |X) = 0 ∀t 6= s.

Estos supuestos nos ofrecian eficiencia en la estimación. Teorema:
Supongamos que TS.1. a TS.5. se mantienen, entonces los estimadores MCO de β0 , β1 , ..., βk
48
son MELI, es decir, los mejores (menor varianza) estimadores lineales insesgados (E(β̂) −
β = 0).
Si se viola el supuesto TS.5. vamos a perder la eficiencia del estimador. En las series de
tiempo solemos encontrar autocorrelación. No podemos observar los µ0 s pero podemos
analizar los residuos (µ̂). Para analizar esto vamos plantear un test.
Test LM de Breusch-Godfreg (1978)

Una vez estimamos nuestro modelo por MCO:
yt = x0t β̂ + µ̂t
Se estima la siguiente regresión auxiliar:
µ̂t = x0t α̂ + φ1 µ̂t−1 + φ2 µ̂t−2 + ... + φp µ̂t−p + v̂t
Ahora lo que hago es meter los resagos del residuo. La hipótesis nula es que no hay
autocorrelación. Entonces se evalúa:
H0 : φ1 = φ2 = ... = φp = 0 vs. HA : algún φj 6= 0 ∀j = 1, ..., p
Mediante el estadı́stico, LM = T · R2 ∼ χ2 (p). Con H0 quiero decir que el pasado no

condiciona el presente. Las recomendaciones son siempre poner una unidad de tiempo
más. Si son años, son dos años; si son meses, son 13 meses.
Si el modelo no incluye rezagos de yt , los coeficientes de MCO serán insesgados, pero in-
eficientes. Los errores estándar están mal estimados afectando la eficiencia y la ineficiencia.
Si la forma de autocorrelación es conocida, usar MCG. Ojo, que si el supuesto es inválido,

el remedio puede ser peor que la enfermedad (Hendry y Mizon, 1978). La autocorrelación
es una oportunidad. En Stata, estat bgodfrey, si es muestra chica añadimos la opción
small. Si encuentro autocorrelación, tengo que meter la dinámica.
Modelos dinámicos
Bajos los supuestos de MCO, la matriz de varianzas y covarianzas de los errores era:
E(µµ0 |X) = σ 2 IT
Ahora, bajo autocorrelación:
E(µµ0 |X) = ΩAC 6= σ 2 IT
en donde
 
var(µ1 ) cov(µ1 , µ2 ) cov(µ1 , µ3 )
. . . cov(µ1 , µT )

 cov(µ1 , µ2 ) var(µ2 ) cov(µ2 , µ3 )
. . . cov(µ2 , µT )
ΩAC = E(µµ0 )  cov(µ1 , µ3 ) cov(µ2 , µ3 ) var(µ3 ). . . cov(µ3 , µT )


 .. .. .. ... .. 
 . . . . 
cov(µ1 , µt−1 ) cov(µ, µt−2 cov(µ, µt−3 ) . . . var(µT )
49
Si tomamos a γj es la autocovarianza de unos errores separadas j observaciones (constante
para cada j), tenemos que:
 
σ2 γ1 γ2 γ3 . . . γT −1
 γ1
 σ2 γ1 γ2 . . . γT −2  
 γ2 2
γ1 σ γ1 . . . γT −3 
ΩAC =  γ
 
2
 3 γ 2 γ 1 σ . . . γ 
T −4 
 .. .. .. .. ... 
 . . . . ... 
γT −1 γT −2 γT −3 γT −4 . . . σ 2
La autocovarianza cov(µ1 , µ3 ) hay dos periodos que lo separan, por eso se llama γ2 . A
medida que me alejo de la diagonal principal, aumenta el orden de la autocorrelación. Las
autocovarianzas no dependen del tiempo sino del grado de separación entre dos errores.
γj = cov(µj , µt−j )
Si hay autocorrelación no tengo más ceros, tengo valores distintos de cero. Si saco factor
común sigma, lo que obtengo es lo siguiente:
 
1 ρ1 ρ2 ρ3 . . . ρT −1
 ρ1 1 ρ1 ρ2 . . . ρT −2 
 
 ρ2 ρ 1 1 ρ 1 . . . ρT −3

ΩAC = σ 2 ×  ρ
 
 3 ρ2 ρ1 1 . . . ρT −4 

 .. .. .. .. . . 
 . . . . . ... 
ρT −1 ρT −2 ρT −3 ρT −4 . . . 1
donde ρj = γj /σ 2 . Como la matriz completa es dificil de estimar algunos propusieron
inicialmente usar un modelo que simplifique ΩAC notablemente, con modelos autorregre-
sivos. Una primera aproximación para modelar la autocorrelación podrı́a ser trabajar con
modelos autorregresivos donde se pretende predecir el futuro de una variable a partir de
sus valores pasados.
Modelos autorregresivos de primer orden, AR(1):
yt = β0 + β1 yt−1 + µt
Tutorial
No usamos modelos lineales para probabilidad porque MCO tiene el problema de llegar
a estimar predicciones inconsistentes. Otro problema es que µ es heterocedástico y por
último, el modelo lineal implica derivadas parciales constantes.
Para estimar modelos de probabilidad, están los que se llaman logit y probit. El modelo
no-lineal que se propone es:
p = F (X 0 β)
en donde F (·) tiene las siguientes propiedades:
50
∗ lı́m F (z) = 0 ∗ lı́m F (z) = 1 dF (z)
z→−∞ z→+∞ ∗ f (z) = >0
dz
Probit:
Zz
1 s2
F (z) = √ e 2 ds
2π
−∞
Logit:
ez
F (z) =
1 + ez
El efecto marginal es
∂p
= βk f (x0i β)
∂xk
Solo puedo interpretar el signo porque la derivada depende siempre del individuo. No sirve
interpretar R2 .
Nota 1: Tutoriales - Consultas
Exogeneidad: el instrumento solo le pega a Y a trav́es de X. En µ no hay ninguna
variable que está relacionada con el instrumento. Es óptimo un instrumento
aleatorio.
El instrumento debil es aquel que tiene poca relación con la variable que está ins-
trumentando. Para ver si es debil, hay que hacer el test F y ver si el estadı́stico
es mayor a 10 (regla del pulgar). Que sea debil quiero decir que la correlación es
bajita.
Si queremos hacer una predicción para T + 1
ŶT +1|T = β̂0 + β̂1 Yt
Por lo que el error de predicción será:
eT +1 = YT +1 − ŶT +1|T
La predicción no es el valor de predicción de MCO y el e no es el de MCO.
Modelos autoregresivos de resagos distribuı́dos (ADL)
yt = β0 + β1 yt−1 + ... + βp yt−p + δ1 Xt−1 + ... + δq xt−q + µt

Lo que se hace acá es meter resagos de otra variable. Notación ADL(p, q). Para estimar
por OLS tiene que darse
E(µt |yt−1 , yt−2 , ..., Xt−1 , Xt−2 , ...) = 0
51
Si incorporamos una regresión en forma contemporánea es más difı́cil que se cumpla
exogeneidad.
Predicción 6= Pronóstico
Pronóstico: proceso que llevo a cabo para inferir lo que va a suceder con una variable.
Para que un pronóstico sea exitoso deben darse dos requisitos: que existan regularidades,
que sean informativas respecto al futuro y que el método propuesto capture dichas irre-
gularidades. Nos concentramos en los pronósticos de los modelos univariantes.
Antes de comenzar un ejercicio de pronóstico el investigador debe definir.

1. El objetivo del pronóstico (ej: variable en nivel o diferencias)
2. Horizonte de pronóstico (h)
3. El conjunto de información disponible
El mejor modelo que ajuste tus datos no es necesariamente el mejor modelo. Vamos a ver
in-sample vs. pseudo out-of-sample:
|1 − − − − − − − − − − − − − − − |T − − − − − |T ∗
En T = observaciones dentro de la muestra (ventana de estimación). H = observaciones
fuera de la muestra (ventana de pronóstico). T ∗ = T + H = observaciones del total de la
muestra. Respecto a la ventana de estimación se puede adoptar alguno de los siguientes
modelos:
Fijo: el origen del pronóstico está fijo. Se realizan pronósticos para T +1, T +2, ..., T +
h
Recursivo: el origen del pronóstico se actualiza sucesivamente. Se realizan pronóstico
a partir de T , luego a partir de T + 1. Se va ampliando la ventana de estimación.
Rolling: el origen del pronóstico se actualiza, pero manteniendo una ventana fija.
En cada paso se adiciona un nuevo dato y se elimina el dato más antiguo.
Los pronósticos pueden ser dinámicos o estáticos. Los últimos se hacen basados en la
última información efectiva disponible. Los dinámicos, por su parte, utilizan el último
pronóstico disponible para el siguiente pronóstico. Si h = 1 ambos pronosticos son iguales.
Las medidas más usuales para medir la precisión de los pronósticos (ex-post) son el RM-
SE (Root Mean Squared Error) y el MAPE (Mean absolute Percentage Error). Queremos
un pronóstico que (eventualmente) sea insesgado y minimice la varianza del error.
La medida más común es el error cuadrático medio, al cual usualmente se le aplica la raı́z
para preservar las unidades de medida.
v
u T +h
u1 X
RM SE = t e2
h t=T +1 t
También son populares las medidas basadas en el error absoluto. El error medio absoluto
porcentual está dado por:
T +h
1 X
M AP E = |pt |
h t=T +1
52
Modelos ARMA
Una serie de tiempo es una colección de observaciones indizada por la fecha de cada ob-
servación (t). Usualmente, la muestra comienza en t = 1 y termina en t = T .
Sabemos que la serie de tiempo es la realización de un proceso estocástico. La función de

densidad conjunta: DY1 ,Y2 ,...,Yt (y1 , y2 , ...., yt ). Si nos concentramos solamente en m1 y m2
de esa función tenemos que:
E(yt ) = µt
var(yt ) = γ0t
cov(yt , yt−j = γjt (j-ésima covarianza)
No tendrı́amos grados de libertad sufiecientes para estimarlos.
E(yt ) = µt (T parámetros)
var(yt ) = γ0t (T parámetros)

2
T −T
cov(yt , yt−j ) = γjt parámetros
2
Vamos a suponer que las medias, covarianzas y varianzas son estables en el tiempo. Voy
a decir que una serie es estacionariamente débil (o en covarianzas)
E(yt ) = µ (1 parámetro)
var(yt ) = γ0 (1 parámetro)
cov(yt , yt−j ) = γj (T − 1 parámetros)
La estacionareidad en sentido estricto supone que la distribución no se modifica en el

tiempo.
Ruido blanco (white noise)

εt es un proceso de ruido blanco si:
E(εt ) = 0, ∀t
var(εt ) = E(ε2t ) = σ 2 < ∞, ∀t
cov(εt , εt−j ) = 0, ∀t, ∀j 6= 0
Es débilmente estacionario por definición (lo será en sentido estricto si asumimos su

distribución). Lo que nos dice que el shock es puramente aleatorio. Un ruido blanco es
impredecible con respecto a su pasado, es decir, el presente no se ve condicionado por
perı́odos anteriores:
E(εt |εt−j ) = E(εt ) = 0
53
Metodologı́a Box-Jenkins (1970)
Este es un enfoque puramente estadı́stico. El objetivo es inferir un proceso estocástico
subyacente de una serie. Es un análisis univariado, es decir, solo uso una sola serie tem-
poral. Aquı́, se deja que los propios de la serie temporal nos indiquen las caracterı́stica de
la estructura probabilı́stica subyacente. Se quiere encontrar el modelo (ARMA) de mejor
ajuste a una serie temporal para que los pronósticos sean lo más acertados.
Muchas veces, cuando la tendencia o la media no es constante a lo largo del tiempo, la

diferenciación (∆d , d ≥ 1), permite volver a la estacionariedad de la serie. En general,
d no es mayor a dos. Es decir, se diferencia una o dos veces.
Cuando la dispersión de una serie temporal no es constante, la transformación logarı́tmica

suele ser razonablemente estable
ẏt = ln(yt )
Es un caso particular de la Transformación de Box-Cox:
ytm − 1
ẏt = , con |m| ≤ 2
m
Cuando tomamos lı́mm→0 tenemos el logaritmo. El operador diferencia estacional del
perı́odo s y orden d (∆ds ) se puede aplicar a series que presentan tendencia junto a esta-
cionalidad
∆s ≡ yt − yt−s
Para series estacionales mensuales: s = 12, trimestrales s = 4. Tenemos una diferencia
importante entre:
∆2 yt = ∆(∆yt ) 6= ∆2 yt = yt − yt−2
Otra cosa que se puede hacer es tomar diferencia logarı́tmica;
∆ ln(yt ) = ln(yt ) − ln(yt−1 )
Diferencia estacional logarı́tmica:
∆4 ln(yt ) = ln(yt ) − ln(yt−4 )
54
Stock y Watson - Series de Tiempo intr.
Conceptos clave:
El j-ésimo rezago de Yt es Yt−j .
La primera diferencia de una serie, ∆Yt , es su variación entre los perı́odos t − 1 y t,

es decir, ∆Yt = Yt − Yt−1 .
La primera diferencia del logaritmo es Yt es ∆ ln(Yt ) = ln(Yt ) − ln(Yt−1 )
La variación porcentual de una serie temporal Yt entre los perı́odoss t−1 y t es apro-
ximadamente 100∆ ln(Yt ), siendo la aproximación más precisa cuando la variación
porcentual es pequeña.
En los datos de series temporales, el valor de Y en un perı́odo por lo general está correla-
cionado con su valor en el perı́odo siguiente. La correlación de una serie con sus propios
valores rezagados se denomina autocorrelación o correlación serial. La primera auto-
correlación (o coeficiente de autocorrelación es la correlación entre Yt e Yt−j , es decir,
la correlación entre los valores de Y en dos perı́odos adyacentes.
Las autocovarianzas y autocorrelaciones j-ésimas poblacionales pueden ser estimadas me-

diante las autocovarianzas y autocorrelaciones j-ésimas muestrales, cov(Yˆt , Yt−j ) y ρ̂j :
T
\ 1 X
cov(Yt , Yt−j ) = (Yt − Y j+1,T )(Yt−j − Y 1,Tj )
T t=j+1
\
cov(Y t , Yt−j
ρbj =
\t )
var(Y
donde Y j+1,T expresa la media muestral de Yt calculada para las observaciones t = j +

\t ) es la varianza muestral de Y 2 .
1, ..., T y donde var(Y
Modelos autorregresivos
El modelo autorregresivo de primer orden se abrevia mediante AR(1), donde el 1 indica
que es de primer orden. El modelo AR(1) poblaciónal de la serie Yt es:
Yt = β0 + β1 Yt−1 + µt
El error de predicción es el error cometido en la predicción, es decir la diferencia entre

el valor de YT +1 que realmente sucede y su valor de predicción basado en YẎ .
Error de predicción = YT +1 − ŶT +1|Ẏ
Las predicciones y los errores de predicción se refieren a observaciones “fuera de la mues-

tra”, mientras que los valores de predicción y los residuos se refieran a observaciones “en
la muestra”.
55
La raı́z del error cuadrático medio de predicción (RECMP) es una meddia de la
magnitud del error de predicción, es decir, de la magnitud de un error estándar cometido
con un modelo de predicción.
r h i
RECM P = E (YT +1 − ŶY +1|T )2
Tiene dos fuentes de error: el error que surge debido a que los valores futuros de µt son
desconocidos y el error cometido en la estimación de los coeficientes β0 y β1 . Si la primera
fuente de error es mucho mayor que la segunda, tal y como puedepocurrir si el tamaño de
la muestra es grande, entonces la RECMP es aproximadamente var(µt ).
El modelo autorregresivo de orden p

Este modelo AR(p) representa Yt como función de sus primeros p valores rezagados, es
decir, en el modelo AR(p), los regresores son Yt−1 , Yt−2 , ..., Yt−p más un término indepen-
diente. El numero de rezagos incluidos en el modelo se denomina orden, o longitud de los
rezagos, de la autorregresión.
El supuesto de que la esperanza condicional de µt es igual a cero dado todos los valores
pasados de Yt , es decir E(µt |Yt−1 , Yt−2 , ...) = 0, tiene dos implicaciones importantes.
La primera de ellas es que la mejor predicción para YT +1 basada en su historia completa

solamente depende de los p valores pasados más recientes. si Yt sigue un proceso AR(p),
entonces la mejor predicción basada en su historia es:
YT +1|T = β0 + β1 YT + β2 YT −1 + ... + βp YT −p+1
La segunda implicación es que los errores µt están serialmente incorrelacionados, un re-

sultado que se deriva de la última ecuación.
Regresión de series temporales con predictores adicionales y mo-

delo autorregresivo de retardos distribuı́dos
El modelo autorregresido de rezagos distribuidos es un modelo que incluye los rezagos de
la variable dependiente como de las variables explicativas, como en una autorregresión.
En general, un modelo autorregresivo de rezagos distribuı́dos con p rezagos de la variable
dependiente Yt y q rezagos de un predictor adicional Xt se denomina ARD(p, q). El
modelo:
Yt = β0 + β1 Yt−1 + β2 Y t − 2 + ... + βp Yt−p + δ1 Xt−1 + δ2 Xt−2 + ... + δq Xt−q + µt
El supuesto de que los errores en el modelo ARD tienen una media condicional igual a cero
dados todos los valores pasados de Y y X, es decir que E(µt |Yt−1 , Yt−2 , ..., Xt−1 , Xt−2 , ...) =
0, implica que ningún rezago adicional ni de X ni de Y pertenece al modelo ARD. En
otras palabra,s las longitudes de los rezagos p y q son las verdadores longitudes de los
rezagos, y los coeficientes de los rezagos adicionales son iguales a cero.
56
Estacionariedad
Una serie temporal Yt es estacionaria si su distribución de probabilidad no varı́a en el tiem-
po, es decir, si la distribución conjunta de (Ys+1 , Ys+2 , ..., Ys+T ) no depende de s sea cual
sea el valor de T ; de lo contrario, se dice que Yt no es estacionaria. Dos series se dice que son
conjuntamente estacionarias si la distribución conjunta de Ys+1 , Xs+1 , Ys+2 , Xs+2 , ..., Ys+T , Xs+T )
no depende de s, independientemente del valor de T . La estacionariedad require que el
futuro sea como el pasado, al menos en sentido probabilı́stico.
Regresión de series temporales con varios predictores. En el modelo con general

de regresión de series temporales permite k predictores adicionales, en el que se incluyen
q1 rezagos del primer predictor, q2 rezagos del segundo predictor, y ası́ sucesivamente:
Yt =β0 + β1 Yt−1 + β2 Yt−2 + ... + βp Yt−p

+ δ11 X1t−1 + δ12 X1t−2 + ... + δ1q1 X1t−q1
+ ... + δk1 Xkt−1 + δk2 Xkt−2 + ... + δkqk Xkt−qk + µt
donde
1. E(µt |Yt−1 , Yt−2 , ..., X1t−1 , X1t−2 , ..., Xkt−1 , Xkt−2 , ...) = 0
2. (a) Las variables aleatorias (Yt , X1t , ..., Xkt ) presentan una distribución estacionaria,
y (b) (Yt , X1t , ..., Xkt ) y (Yt−j , X1t−j , ..., Xkt−j ) pasan a ser independientes cuando j
se hace grande
3. Los valores extremos elevados son poco probables: X1t , ..., Xkt , Yt presentan momen-
tos de cuarto orden finitos y distintos de cero
4. No existe multicolinealidad perfecta

Los supuestos del modelo de regresión de series temporales:
1. El primer supuesto es que µt tiene media condicional igual a cero, dadas todas las
variables explicativas y los retardos adicionales.
2. El segundo supuesto se puede ver en dos
a) Los datos se tienen que haber obtenido a partir de una distribución estacionaria
de manera que la distribución de los datos hoy es la misma que su distribución
en el pasado. Este supuesto es una versión para series temporales de la parte
“idénticamente distribuı́das”del supuesto i.i.d.
b) Esto requiere que las variables aleatorias sean independientemente distribuı́das
cuando son muchos los perı́odos de tiempo que las separan. Este supuesto
se denomina dependencia debil, y asegura que en muestras grandes exista
aleatoriedad sufuciente en los datos como para que se cumpla la ley de los
grandes números y el teorema central del lı́mite.
3. Este supuesto establece que los valores extremos elevados son poco probables, pre-
cidado en forma matemática supone que todas las variables presentan momentos de
cuarto orden finitos y distintos de cero.
4. El último supone que los regresores no presenten multicolinealidad perfecta.
57
Contraste de causalidad de Granger (contraste de contenido predictivo). El
estadı́stico para el contraste de causalidad de Granger es el estadı́stico F para el contraste
de la hipótesis de que los coeficientes de todos los valores de una de las variables es distinto
de cero. Esta hipótesis nula implica que estos regresores no tienen contenido predicitivo
para Yt más allá del contenido en los otros regresores, y el contraste de esta hipótesis nula
se denomina contraste de causalidad de Granger.
Los correlogramas muestran la dependencia temporal de una serie. Los modelos ARMA
(AR de autoregresivo, MA de medias moviles) son modelos univariados, es decir, explican
con la historia de la propia variable. Tenemos que el AR(1) es el proceso autorregresivo
de orden 1:
yt = c + φyt−1 + εt , εt ∼ RB(0, σ 2 )
Para este modelo:
Cuando φ = 0, yt es ruido blanco
Cuando φ = 1 y c = 0, yt es un random walk
Cuando φ = 1 y c 6= 0, yt es un random walk with drift
Cuando φ < 0, yt oscila entorno a la media
Cuando |φ| < 1, yt es estacionaria. Si φ < 1 hay autocorrelación negativa. A Medida

que va aumentando φ va aparenciendo la tendencia.
El AR(1) va a ser más errático cuando φ → 0 y más tendencial cuando φ → 1. Si |φ| < 1:
c
E(yt ) ≡ µ = γj = φj γ0
1−φ
σ2
var(yt ) ≡ γ0 = ρj = φj .
1 − φ2
Las autocorrelaciones de un AR(1) estacionario debe decrecer exponencialmente en valor

absoluto. Recordemos que ρj = γj /γ0 , donde γ0 = cov(yt , yt ) = var(yt ).
En AR(1) donde |φ| < 1, ρj = φj .
ρ1 = cov(yt , yt−1 ) = φ ρ2 = cov(yt , yt−2 ) = φ2 ρ3 = cov(yt , yt−3 ) = φ3
Los AR(1) se los conoce como procesos de memoria infinita con decaimiento exponencial.
Cuando mide la correlación no estás mirando la dependencia directa. En correlograma:
las bandas de nulidad: si las barritas están adentro del coso gris es porque no es estadı́sti-
camente significativa.
Para que un AR(p) sea estacionario, tienen que darse ciertas condiciones:
Para un AR(1): −1 < φ < 1
58
Para un AR(2): −1 < φ < 1, φ1 + φ2 < 1, φ2 − φ1 < 1
Para un AR(3): restricciones son mas complicadas.
Un AR(1) estacionario puede pensarse como un proceso derivado de un RB a través de
una recursión:
c
yt = + εt + φεt−1 + φ2 εt−2 + ... si |φ| < 1
1−φ
Los shocks van convergiendo, entonces AR(1) es estacionario si |φ| < 1. Esta expresión es
lo mismo que decir que es un MA(∞) con ψ = φj . Demostración:
yt = c + φyt−1 + εt ⇐⇒ (1 − φL)yt = c + εt
Si |φ| < 1, aplicando (1 − φL)−1 a ambos lados, tengo que:
c εt
yt = +
1 − φL 1 − φL
donde 1
1−φL
= 1 + φL + φ2 L2 + φ3 L3 + .... y tamnbien (1 − φL)(1 − φL)−1 yt = yt . Entonces
yt = c(1 + φL + φ2 L2 + φ3 L3 + ...) + εt (1 + φL + φ2 L2 + φ3 L3 + ...)

= c + φc + φ2 c + .... + εt + φεt−1 + φ3 εt−2 + ... =
∞
c X
= + φj εt−j
1 − φ j=1
Lo último es la representación de un MA(∞) .
Teorema de Descomposición de Wold

Si {yt } es estacionaria debil, siempre admite representación por
∞
X
yt = ψj εt−j + kt
j=0
la suma ponderada de derminos puramente aleatorios. Esto es un ruido blanco más una
función determinı́sica (kt ).
Todo proceso estacionario es esencialmente es un MA(∞) estacionario. Esto implicarı́a

estimar infinitos parámetros. La idea es buscar una representación más parcimoniosa de
un MA(∞). Un MA(q) con q alto es una aproximación. En palabras, este teorema te dice
que toda serie temporal se puede separar en una parte determinı́stica y otra estocástica.
Procesos de Media Móvil (MA)

Proceso de media móvil de orden 1:
yt = µ + εt + θεt−1 , µ, θ < ∞, εt ∼ RB(0, σ 2 )
Propiedades:
θ
ρ1 = , ρ2 = 0, ..., ρj = 0 ∀j > 1
1 + θ2
Los procesos MA tienen memoria finita. El punto en el cual se hace cero la función de
autocorrelación entonces esto indica el orden del MA. Propiedades.
59
E(yt ) = µ γ1 = θσ 2
γ0 = var(yt ) = σ 2 (1 + θ2 ) γj = 0, ∀j > 1
=⇒ MA(1) es siempre estacionario. Esto es porque depende de ruidos blancos y son

todos independientes del pasado, por definición. Proceso MA(q):
yt = µ + εt + θ1 εt−1 + θ2 εt−2 + ... + θq εt−q , εt ∼ RB(0, σ 2 )
Todos los MA(q) son estacionarios y la dependencia con el pasado se anula luego de
q-ésimo perı́odo.
Procesos ARMA(p, q)
yt = c + φ1 yt−1 + φ2 yt−2 + ... + φp yt−p + θ1 εt−1 + θ2 εt−2 + ... + θq εt−q

La etapa de identificación se da mirando los correlogramas. A partir de estos, que son
una representación gráfica de la función de autocorrelación del proceso en cuestión:
γj
ρj =
γ0
La versión muestral (estimada) se denomina correlograma muestral:
1/T Tt=1 (yt − y)(yt−j − y)

P
γ̂j
ρ̂j = =
γ̂0 1/T Tt=1 (yt − y)2
P
La función de autocorrelación parcial (PAC, φjj ) mide la correlación entre yt y yt−j luego
de controlar por los rezagos intermedios (aquellos rezagos menores a j). Esto mide la
correlación directa y cada uno de sus rezagos. Autocorrelación parcial de orden 1 es φ1
(yt e yt−1 ). ρ̂2 es la dependencia indirecta. φ22 es la correlación directa. En un AR(1) las
correlaciónes parciales dan 0 a partir de 2.
AC (simple) PAC (parcial)

MA(q) Se anula para rezagos superiores a q Decrece rápido sin llegar a anularse
AR(p) Decrece rápido sin llegar a anularse Se anula para rezaos superiores a p
ARMA(p, q) Decrecimiento rápido sin llegar a anularse Decrecimineto rápido sin llegar a anularse
Etapa de estimación. Tenemos un AR(p):
yt = c + φ1 yt−1 + φ2 yt−1 + ... + φp yt−p + εt εt ∼ RB(0, σ 2 )
εt satisface los supuestos bajo los cuales MCO produce estimaciones consistentes y asintóti-
camente normales. Entonces consiste en regresar yt en función de sus rezagos. Estimación
MA(q): se usa el método de máxima verosimilitud o mı́nimos cuadrados no lineales.
Para la etapa de validación vamos a evaluar si los residuos son ruido blanco, porque
ahora los rezagos tienen toda la dinámica explicativa. Evaluando si los rezagos son ruido
blanco:
60
Test de Box-Pierce(Q)
m
X
Q=T ρ̂2t
t=1
Bajo H0 : los residuos son ruido blanco, es decir, todas las correlaciónes deberı́an ser cero.
El test Q se basa en suma de las primeras m autocorrelaciones. La elección de m implica
un trade-off. Bajo H0 , Q ∼ χ2m .
Sin embargo, el test de Box-Pierce no tiene buenas propiedades en muestras pequeñas.

Una variante, en casos de muestras pequeñas, está en el test de Ljung-Box (1978):
m
X ρ̂2τ
Q∗ = T (T + 2) ∼ χ2m
τ =1
(T − τ )
Para T → ∞, el test es igual al de Box-Pierce.
Metodologı́a de Box-Jenkins
1. Garantizar que el proceso es estacionario
2. Mediante correlogramas proponer un ARMA(p, q)
3. Estimarlo
4. Si el modelo es correcto, los residuos deberı́an ser ruido blanco
5. Se puede proceder a realizar pronósticos
Lo recomendable es seguir la metodologı́a General-a-particular: comenzar con un ARMA(p, q)

lo suficientemente grande e ir reduciendolo buscando el modelo más parcimonioso (con
residuos ruido blanco).
Si tenemos varios modelos alternativos con residuos RB usamos alguno de los criterios
de información (penalizan por falta de ajuste y la cantidad de parámetros). Ejemplo:
ln(L(k)) K
Arkaike (AIC): AIC = −2 +2
T T
ln(L(k)) ln(T )
Schwartz (SIC): SIC = −2 +k
T T
Hay que elegir el modelo que minimice alguno de estos criterios.
Enders cap 2 - Stationary Time Series Models

Stochastic Difference Equation Models
We consider equidistant intervals for time series. Discrete time series implies that t,
but not necessarily yt , is discrete. A discrete variable y is said to be a random va-
riable(stochastic) id, for any real number r, there exist a probability P (y ≤ r) that y
61
will take on a value less than or equal to r. It is useful to consider the elements of an ob-
served time series {y0 , y1 , y2 , ..., yt } as being realizations (outcomes) of a stochastic process.
White-noise process: a sequence {εt } is a white-noise process if each value in the sequence
has a mean of zero, a constant variance, and is uncorrelated with all other realizations.
Formally, if the notation of E(x) denotes the theoretical mean value of z, the sequence
{εt } is a white-noise process if for each period t:
E(ε) = E(εt−1 ) = ... = 0

E(ε2 ) = E(ε2t−1 ) = ... = σ 2
E(εt εt−s ) = E(εt−j εt−j−s ) = 0 ∀j, s or cov(εt , εt−s = 0)
Lets who a an interesting time series

q
X
xt = βi εt−1
i=0
For each period t, xt is constructed by taking values εt , εt−1 , ..., εt−q and multiplying each
by the associated value of βi . A sequence formed in this manner is called moving average
of order q and is denoted by MA(q).
ARMA Models
It’s possible to combine a moving average process with a linear difference ewuation to
obtain an autorregresive moving average (ARMA) modelo:
p q
X X
y t = a0 + ai yt−i + βi εt−i
i=1 i=0
The autorregresive part of the model is the difference equation given by the homogeneous
partion and the moving average part is the {xt } sequence. If the homogeneous part of
the difference equation contains p lags and the model for xt contains q lags, the model is
called and ARMA(p, q). In ARMA modelo, it is perfectly premissible to allow p and/or q
to be infinite.
If yt is a linear stochastic difference quation, the stability condition is a necessary condition

for the time series {yt } to be stationary.
Stationarity
Unfortunately, applied econometricians do not usually have the luxury of being able to
obtain an ensemble (i.e., multiple time-series data of the same proces over the same
time period). Typically, we observe only one set of realizations for any particular series.
Fortunately, if {yt } is stationary series, the mean, variance, and autocorrelations can
usually be well aproximated by sufficiently long time averages based on the single set
of realizations.
62
A stochastic process having a finite mean and variance is covariance stationary if for
alla t and t − s,
E(yt ) = E(yt−s ) = µ
E[(yt − µ)2 ] = E[(yt−s − µ)2 ] = var(yt ) = var(yt−s ) = σy2
E[(yt − µ)(yt−s − µ)] = cov(yt , yt−s ) = cov(yt−j , yt−j−s ) = γs
where µ, σy2 , γs are cosntants. In the literature, a covariance-stationary process is also

referred to as weakly stationary, a second-order stationary, or wide-sense stationary
process. (Note that a strongly stationary process need not have a finite mean and/or
variance).
For a covariance-stationary series, we can define the autocorrelation between yt and

yt−s as
γs
ρs ≡
γ0
where γ0 (variance) and γs are defined. Since γs and γ0 are time independent, the auto-
correlation coefficients ρs are also time independent. The autocorrelation between yt and
yt−1 must be identical to that between yt−s and yt−s−1 .
Stationary Restrictions for an AR(1) Process

For this model, the homogeneous solution must be zero. Either the sequence must have
started infinitely far in the past of the process must always be in equilibrium (so that the
arbitrary constant is zero). Second, the characteristic root a1 must be less than unity in
absolute value.
The Partial Autocorrelation Function

It is important to note that all such indirect correlations are present in the ACF of any
autorregresive process. In contrast, the partial autocorrelation beteen yt and yt−s eli-
minates the effecs of the invervening values yt−1 through yt−s . In the AR(1) process, the
partial autocorrelation between yt and yt−2 is equal to zero.
For an AR(p) process, there is no direct correlation between yt and yt−s for s > p. Hence,
for s < p, al values of φss will be zero, and the PACF of a pure AR(p) process should cut
to zero for all lags greater than p
63
In practice, the theoretical mean, variance and autocorrelations of a series are unknown to
the researcher. We can let y, σ̂ 2 , rs be estimates of the mean, variance and autocorrelation,
where
X T T
X
y = (1/T ) yt σ̂ 2 = (1/T ) (yt − y)2
t=1 t=1
and for each value of s = 1, 2, ...,

PT
t=s+1 (yt − y)(yy−s − y)
rs = PT 2
t=1 (yt − y)
If we use a 95 % confidence interval, i.e., two standard deviations.
Within any large group of autocorrelations, some will exceed two standard deviations as a
result of pure chance even though the true values in the data-generating process are zero.
The Q-statistic can be used to test wether a group of autocorrelations is significantly
different from zero. Box and Pierce (1970) used a sample autcorrelations to form the
statistic s
X
Q=T rk2
k=1
Under the null hypothesis that all values of rk = 0, Q is asymptotically χ2 distribuited

with s degrees of freedom. The inuition behind the use of the statistic is that high sam-
ple autocorrelations lead to large values of Q. Certainly, a white-noise process (in which
autocorrelations should be zero) would have a Q value of zero.
A problem with the Box-Pierce statistic is that it works poorly even in moderately lar-
ge samples. Ljung and Box (1978) reported superior small sample performance for the
modified Q-statistic calculates as
s
X rk2
Q = T (T + 1)
k=1
(T − k)
64
If the sample value of Q calculated exceeds the critical value of χ2 with s degrees of
freedom, then at least one value of rk is statistically different from zero at the specified
significance level. These tests serve as a check to see if the residuals from an estimated
model behave as a white-noise process.
Model Selection Criteria

There exist various model selection criteria that trade-off a reduction in the sum of squares
of the residuals for a more parsimonious model. The two most commonly used model
selection creteria the Akaike Information Criterion (AIC) and the Schwartz Bayesian
Criterion (SBC, BIC). Formulas:
AIC = T ln(sum of squared residuals ) + 2n

BIC = T ln(sum of squared residuals ) + n ln(T )
where n = number of parameters estimates (p + q+ possible constant term) and T =

number of usable observations.
Since ln(T ) will be greater than 2, the SBC will always select a more parsimonious model
than will the AIC; the marginal cost of adding regressors is greater with the SBC than
with the AIC. In the ARMA models, nonlinear search algorithms required to estimate the
model are not likely to converge to a solution.
Of the two criteria, the SBC has a superior large sample properties. AIC works better
than SBC in small samples.
Box-Jenkins Model Selection

Box and Jenkins popularized a three-stage method aimed at selecting an appropriate
model for the purpose of estimating and forecasting a univariate time series. Stages:
identification stage, estimation stage, estimation stage, and diagnostic stage.
Parsimony
A fundamental idea in the Box-Jenkins approach is the principle of parsimony. Parsimony
(meaning sparseness or stinginess) should come as second nature to economists. Incorpo-
rating additional coefficients will necessarily increase fit at a cost of reducing degrees of
freedom. Box and Jenkins argue that parsimonious models produce between forecasts than
overparametrized models. A parsimonious model fits the data well without incorporating
any needless coefficients. Certainly, forecasters do not want to project poorly estimated
coefficients. Certainly, forecasters do not want to project poorly estimated coefficients into
the future. The aim is to approximate the true-data generating process but not to pin
down the exact process.
Be aware of the common factor problem (page 77). To ensure that the model is parsi-
monious, the various ai and βi should all have t-statistics of 2.0 or greater. Moreover, the
coefficients should not be strongly correlated with each other. Highly collinear coefficients
are unstable; usually, one or more can be eliminated from the model without reducing
forecast performance.
65
Sationarity and Invertibility
The distribution theory underlying the use of the sample ACF and PACF as approxi-
mations to those of the true-data generating process assumes that the {yt } sequence is
stationary. The Box-Jenkins approach also necessitates that the model be invertible.
Formally, {yt } is invertible if it can be represented by a finite-order or convergent au-
toregressive process. Invertibility is important because the use of the ACF and PACF
implicitly asume that the sequence {yt } can be represented by an autoregressive model.
Example.
Goodness of fit
The third-stage of the Box-Jenkins methodology involves diagnostic checking. The
standard practice is to plot the residuals to look for outliers and evidence of period in
which the model does not fit the data well. One common practice is to create the stan-
dardized residuals by dividing each residual, εt , by its estimated standard deviation, σ. If
the residuals are normally distributed, the plot of the εt /σ series should be such that no
more than 5 % lie outside the band from -2 to +2 . If the standardize residuals seem to
be much larger in some periods than in others, it may be evidence of structural change.
Any evidence of serial correlation implies a systematic movement in the {yt } sequence
that is not accounted for by the ARMA coefficients included in the model.
Properties of Forecasts
Et (yt+j ) = a0 (1 + a1 + a21 + ... + aj−1 j

1 ) + a1 y t
This is called the forecast function, expresses all of the j-step-ahead forectas as a fun-
ction of the information set in period t. The quality of forecasts decliens as we forectat
further out into the future. For any stationary ARMA model, the conditional forecast of
yt + j converges to the unconditional mean as j → ∞.
We can define the j-step-ahead forecast error, called et (j), as the difference between the
realized value of yt+j and the forecasted value:
et (j) ≡ yt+j − Et yt+j
For an AR(1), the j-step-ahead forecast error is given by:
et (j) = εt+j + a1 εt+j−1 + a21 εt+j−2 + a21 εt+j−3 0 + ... + aj−1

1 εt+1
The conditional expectation of this error is Et et (j) = 0. Since the expected value of the
forecast error is zero, the forecasts are unbiased. The variance of the forecast error is:
2(j−1)
var[et (j)] = σ 2 [1 + a21 + a41 + a61 + ... + a1 ]
The variance of the forecast error is an increasing function of j.
66
Forecast Evaluation
Do not be fooled into thinking that the model with best fit is the one that will fore-
cast best. According to different studies, forecasts using overly parsimonious models with
little parameter uncertainty can provide better forecasts than models consistent witht
the actual data-generating process. Moreover, it is very difficult to construct confidence
intervals for this type of forecast error. Not only is it necessary to include the effects of the
stochastic variation in the future values of {yT +i }, but also it is necessary to incorporate
the fact that the coefficients are estimated with error.
Instead of focusing on the bias, many researchers would select the model with the smallest
mean square prediction error (MSPE).
The Granger-Newbold Test

Granger and Newbold (1976) show how to overcome the problem of contemporaneously
correlated forecast errors. If you have H one-step-ahead forecast errors from each model,
use the two sequences of forecast error to form:
xi = e1i + e2i and zi = e1i − e2i i = 1, ..., H
Given the first two assumptions above are value, under the null hypothesis of equal forecast
accuracy, xi and zi should be uncorrelated. Consider:
ρxz = E(xi zi ) = E(e21i − e22i )
If the models forecast equally well, it follows that E(e21i ) = E(e22i ). Model 1 has a larger
MSPE if ρxz is positive, and model 2 has a larger MSPE if ρxz is negative. Let rxz denote
the sample correlation coefficient between {xi } and {zi }. Granger and Newbold show than
if assumptions 1 and 2 hold p
2 )/(H − 1)
rxz / (1 − rxz
has a t-distribution with H − 1 degrees of freedom. Thus, if rxz is statistically different
from zero, model 1 has a larger MSPE if rxz is positive, and model 2 has a larger MSPE
if rxz is negative.
Magistrales 12/06/2020
Tendencia determinı́stica
Consideremos
yt = α + βt + εt , εt ∼ RB(0, σ 2 )
La media, E(yt ) = α + βE(t) y varianza, var(yt ) = σ 2 . Si definimos una nueva variable
y ∗ = y − (α + βt), los residuos son la serie sin tendencia. La tendencia determinı́stica son
funciones del tiempo (polinomios de orden 1 o superior). Este tipo de tendencia implica
que no hay incertidumbre sobre la evolución futura de la tendencia. Conocido el pasado,
entonces el futuro es previsible. La tendencia estocástica es más realista.
67
Problema de la regresión espúria
Tenemos :
yt = α0 + α1 y + υt , υt ∼ RB(0, σ 2 )
xt = λ0 + λ1 t + εt , εt ∼ RB(0, σ 2 )
donde α1 , λ1 6= 0 y que υt y εt están incorrelacionadas entre si. Entonces no existe una
relación entre xt e yt . Sin embargo, una estimación por MCO:
y t = β 0 + β 1 xt + µ t
nos da relación estadı́sticamente significativa e importante. Si nuestras variables muestran

un comportamiento tendencial sistemático a lo largo del tiempo, los resultados son po-
tencialmente espúrios. No se puede arender nada de esta relación.
Cuando xt e yt no están relacionados, nuestra regresión por MCO se convierte, en la

población, en
yt = α0 + β0 t + υt
donde ahora está claro que β1 = 0, β0 = α0 , µt = α1 t + υt en la regresión original, por lo
que t puede pensarse como variable omitida. Como t está correlacionada con xt entonces
estamos en presencia de un sesgo por variables omitidas.
La solución es incluir el regresor omitido, t
y t = β 0 + β 1 xt + β 2 t + µ t
Alternativamente, nos podemos si las partes aleatorias de yt y xt están correlacionadas.

El problema es que los terminos de error son inobservables. Para resolver esto, podemos
obtener proxies de los errores. Esto lo podemos hacer si:
1. Regresamos yt en función de una constante y de t y calculamos los residuos:
ÿt = yt − α̂0 − α̂1 t
2. Regresamos xt en función de una constante y del tiempo, calculamos los residuos
ẍt = xt − λ̂0 − λ̂1 t
Las variables ẍt e ÿt se denominan variables destendenciadas. Se puede re estimar el

modelo a partir de las series destendenciadas
ÿt = β0 + β1 ẍt + µ̈t
El β1 indica si hay relación a entre x, y a través de los residuos. El estadı́stico t tiene

las propiedades usuales. El R2 (R̈2 ) mida la porción de la variación de yt en torno a la
tendencia que es explicada por la variación en xt en torno a su tendencia.
68
Tendencia estocástica
Las series pueden presentar distintas series o medias locales que cambian con el tiempo.
La tendencia puede ser estocástica, es decir, no estarı́amos ni en un proceso estacionario
ni tendencial. La tendencia se captarı́a mejor con un esquema estocástico.
Vimos que en un random walk que es un AR(1) con φ = 1 no hay que estimar nada.
Vimos que un AR(1) es un proceso estacionario, en el cual los shocks son temporarios,
la función de autocorrelación decrece exponencialmente. Ahora, un ruido blanco tiene
la caracterı́stica que los shocks son permanentes y la función de autocorrelación decrece
linealmente. 3
Tipos de Random Walk:
RW (puro): yt = yt−1 + εt
RW (con constante / drift) : yt = α + yt−1 + εt
RW (con tendencia): yt = α + βt + yt−1 + εt
Hay diversas formas de remover la tendencia. La primera de ellas es la diferenciación,

la segunda la destendenciación. En un RW puro y con tendencia me queda estacionario
porque queda RB, mientras que en RW con tendencia no alcanza con diferenciación, hay
que destendenciar.
Pruebas de Raı́z Unitaria

Consideremos el siguiente proceso estocástico:
yt = φyt−1 + εt , εt ∼ RB(0, σ 2 )
Es un proceso estacionario si |φ| < 1, es un RW si |φ| = 1. Mi pregunta como investigador

es qué valor toma φ. Un test de raı́z unitaria equivale a evaluar:
H0 : φ − 1 = 0
Naturalmente, el estadı́stico que utilizarı́amos para evaluar la hipotesis nula es
φ̂ − 1
T =
SE(φ̂)
El problema es que bajo H0 ya no podemos usar la teorı́a asintótica estándar para estudiar
el comportamiento estadı́stico
3
Si en un correlograma uno observa que cae de a poquito significa que no es estocastico. En AR(1)
con φ > 1 tarda mucho en caer el correlograma de la FA. La parcial hay uno solo significativo.
69
Test de Dickey-Fuller
Sea
yt = φyt−1 + εt , εt ∼ RB(0, σ 2 )
H0 : φ = 1 vs. HA : φ < 1
Se puede reparametrizar de la siguiente manera (a esto se lo llama ecuación de Dickey-
Fuller)
∆yt = (φ − 1)yt−1 + εt = ψyt−1 + εt
Lo que equivale a evaluar
H0 : ψ = 0 vs. HA : ψ < 0
El estadı́stico:
ψ̂
T =
SE(ψ̂)
Si el valor cae a la izquierda del valor crı́tico (rechazo) entonces la variable es estacionaria.
Existen tres versiones del test:
Test de raı́z unitaria (sin componentes determinı́sticos)
∆yt = ψyt−1 + εt
Test de raı́z unitaria con constante
∆yt = α + ψyt−1 + εt
Test de raı́z unitaria con constante y tendencia determinı́stica:
∆yt = α + βt + ψyt−1 + εt
Van cambiando los valores criticos. Si veo tendencia, uso caso 3, sino el 2.
Asumir que todas las variables pueden ser representadas como un AR(1) es una sim-
plificación muy grande. Si εt no son IID, entonces se usa lo que se llama el Augmentes
Dickey-Fuller test (ADF). Ahora supongamos un AR(2).
yt = φ1 yt−1 + φ2 yt−2 + εt
Si sumamos y restamos φ2 yt−2
yt = (φ1 + φ2 )yt−1 − φ2 ∆yt−1 + εt
Si restamos yt−1 tenemos la ecuación de Dickey-Fuller aumentada
∆yt = (φ1 + φ2 − 1)yt−1 + δ∆yt−1 + εt
Ahora lo que se testea es si φ1 +φ2 −1 es igual a cero o no (se pueden incluir más rezagos).
En términos generales:
X t
∆yt = ψyt−1 + δ∆yt−j + εt
j=1
70
H0 : ψ = 0 vs. HA : ψ < 0
Para ver cual es el orden apropiado hay que ver que εt no tenga autocorrelación. En Sta-
ta, se corre el comando varsoc. Después cuando se corre el test se incluye dentro de las
opciones lags(#).
Decimos que yt es I(1) (integrada de primer orden) si ∆yt es I(0). es decir estacionaria
a través de la diferenciación. En general, yt es integrada de orden d, I(d) si ∆d yt es I(0)
4
. Es importante notar que no toda variable no estacionaria se identifica como
integrada, hay otras fuentes de no estacionariedad: breaks, heterocedasiticdad, etc.
El test de Dickey-Fuller tiene sus limitaciones. La primera es que es muy sensible a la in-
troducción de constantes y tendencias y la elección del número de lags. Después hay una
suerte de trade-off entre consistencia y potencia en la especificación de los componentes
determinı́sticos similar al problema estándar de variables omitidas. Tercero, incrementar
espúriamente el número de rezagos baja la potencia. Muy importante es que importa la
extención del perı́odo, no de la frecuencia. Las alternativas son dividir la muestra en fun-
ción de los breaks y aplicar el test de unit root por segmento o hacer un Test de Perron
o Zivot-Andrews.
Recomendaciones práticas:
1. Empezar con un gráfico (perfil de la variable) y terminar con un gráfico (residuos)
2. Mirar los correlogramas de la serie en nivel y en diferencias
3. Si existe estacionariedad, trabajar con ∆4 o ∆12
4. Evaluar si conviene trabajar con las variables en logaritmos
Tutorial 13
Proceso estacionario:
E(xt ) = µ
var(xt ) = σ 2
cov(xt , xt+n ) = f (n) 6= f (t)
La no estacionariedad en media implica tendencias deterministicas o estocasticas que des-

vian a la serie de su comportameinto cı́clico o sistemático.
Aparecen dos situaciones. Primero cuando la media se comporta como un polinomio de

orden d en el tiempo:
Xd
yt = α + βj tj + εt
j=0
4
Recomendación: cada vez que se aplique un test de unit root sobre una variable, hacerlo sobre el nivel
y sus diferencias hasta llegar a I(0)
71
Cuando un proceso autorregresivo no cumple con las condiciones de estacionariedad.
Tendencia determinı́stica implica que no existe incertidumbre sobre la evolución futura

de la tendencia (conocido pasado, el futuro es previsible). Esta tendencia es una función
del tiempo. Es poco realista. Más realista es la tendencia estocástica.
El problema de la regresión espúria está presente si las variables muestran un compor-

tamiento tendencial sistemático a lo largo del tiempo, los resultados de la regresión son
potencialment espúrios. No podemos aprender nada sobre la relación entre variables a
partir de un modelo simple de regresión en nivel. La solución primera es incluir el regresor
omitido, t:
yt = β0 + β1 xt + β2 t + εt
Otra alternativa es evaluar si las partes aleatorias de las variables están realcionadas.
Tendencia estocástica. Se quiere probar que el proceso es estacionario. En el test de

Dickey-Fuller: bajo la nula de que β = 1, el estadı́stico no se distribuye t-student, sino
DF:
H0 : δ = 0 vs. HA : δ < 0
ADL: modelo de rezagos distribuidos. El criterio de parcimonia: queremos un modelo con
criterios ARK y BIC bajos. Estos contemplan ajustes por pérdidas de grado de libertad.
Cuanto más complejo es el modelo, más te va a penalizar
En series de tiempo, una muestra chica son menos de 50 obs.
Enders cap. 4 - Models with Trend

Deterministic and Stochastic Trends
It is helpful to represent the general solution to a linear stochastic difference equation as
consisting of these three distinct parts:
yt = trend + stationary component + noise
In a deterministic trend, as there are no stochastic components in the trend, implies that
there is a deterministic ling-run of the real economy. The Real Business Cycle school
argues that technological advancements have permanent effects on the trend of the ma-
croeconomy.
Suppose we have this model:
yt = y0 + a0 t + A(L)εt
This model is called a trend stationary (TS) model. Now suppose that the expected
change in yt is a0 units. Let,
∆yt = a0 + εt
Sometimes, ∆yt exceeds a0 and sometimes it falls short of a0 . Since Et−1 (εt ) = 0, implies
that yt is expected to change by a0 units from one period to the next.
72
The Random Walk Model
The Random Walk model has a special place in the economics and finance literature.
In this kind of model, the current price should be equal to last period’s price plus a
white-noise term, so that
yt = yt−1 + εt ( or ∆yt = εt )
The mean of this model,

s
!
X
Et (yt+s ) = yt + Et εt+i = yt
i=1
The variance is time dependant. Given the value of y0 , the variance can be constructed
as
var(yt−s ) = var(εt−s + εt−s−1 + ...ε1 ) = (t − s)σ 2
Since the variance is not constant, the random walk process is nonstationary. Moreover,
as t → ∞, the variance of yt also approaches infinity. Como la media es constante, la
coviarianza es
E[(yt − y0 )(yt−s − y0 )] = (t − s)σ 2
El coeficiente de correlación: 0,5
(t − s)
ρs =
t
As s increases, the values of ρs declines. Hence, when using sample data, the autocorre-
lation function for a random walk process will show a slight tendency to decay.
The Random Walk Plus Drift Model

The random walk plus drift model augments the random walk model by adding a constant
term a0 , so that
yt = yt−1 + a0 + εt
Given an initial condition, the general solution for yt is given by
t
X
y t = y 0 + a0 t + εi
i=1
Hence, the behaviour of yt is governed by

P two nonstationary components: a linear deter-
ministic trend and the stochastic trend εt . As such, a random walk plus drift is a pure
model of a trend; there is no separate stationary component.
If we take expectations, the mean of yt is y0 +a0 t and the mean of E(yt+s ) = y0 +a0 (t+s).
However, you should not conclude that it is always easy to discern the difference between
a random walk model and a model with drift.
To obtain the s-step-ahead forecast for a random walk plus drift, update the equation by
s periods to obtain
t+s
X s
X
yt+s = y0 + a0 (t + s) + εi = yt + a0 s + εt+i
i=1 i=1
73
The expectation is Et (yt+s ) = yt + a0 s. The forecast function, in contrast to the pure
random walk model, is not flat. The fact that the average change in yt is always a constant
a0 is reflected in the forecast function.
Generalization of the Stochastic Trend Model

It is not difficult to generalize the random walk model to allow yt to be the sum of
a stochastic trend and a white-noise component. Formally, this third model - called as
random walk plus noise - is represented by:
t
X
yt = y0 + εi + η t
i=1
where {ηt } is a white-noise process with variance ση2 ; and εt and ηt−s are independently
distribuited for all t and s. In other words, E(εt ηt−s ) = 0.
The key properties of the random walk model plus noise:

Given the value of y0 , the mean of the {yt } sequence is constant: E(yt ) = y0 and
updating by s periods yuelds E(yt+s ) = y0 . Notice that successive εt shocks have
permanent effects on the {yt } sequence in that there is no P
decay factor on the past
values of εt . hence, yt has the stochastic trend component εi .
The {yt } sequence has a pure noise component in that the {ηt } has only a temporary
effect on the {yt } sequence. The current realization of ηt affects only yt but not the
subsequent values yt+s .
The variance of {yt } is not constant: var(yt ) = tσ 2 +ση2 and var(yt−s ) = (t−s)σ 2 +ση2 .
As in the other models with a stochastic trend, the variance of yt approaches infinity
as t increases. The presence of the noise component means that the correlation
coefficient between yt and yt−s is smaller than that for the pure random walk model.
The covariance:
cov(yt , yt−s ) = (t − s)σ 2
The correlation coefficient ρs is
(t − s)σ 2
ρs = q
2
(tσ 2 + ση) [(t − s)σ 2 + ση2 ]
The effect of noise component {ηt } is to increase the variance of {yt } without affecting
its long-run behaviour. After all, the random walk plus noise series is nothing more than
the random walk model with a purely temporary component added.
This models are the building blocks of more complex time-series models. for example
t
X
yt = y0 + a0 t + εi + η t
i=1
This is called the trend plus noise model; yt is the sum of a deterministic trend, a
stochastic model, and a pure white-noise term. Moreover, the noise sequence does not
74
need to be a white-noise process.
Let A(L) be a polynomial in the lag operator Ll it is possible to augment a random walk
plus drift process with the stationary process A(L)ηt so the general trend plus irregular
model is
t
X
y t = y 0 + ao t + εi + A(L)ηt
i=1
This has a deterministic trend, a stochastic trend, and a stationary component.
Removing the Trend

The usual methods for eliminating the trend are differencing and detrending. For
historical reasons, regressing a variable on a constant and time and saving the residuals
is called detrending. We still use this term even though the method only removes only a
deterministic, not a stochastic, trend. A series containing a unit root can be made statio-
nary by differencing. In fact, we know that the dth difference of ARIMA(p, d, q) model is
stationary.
The general point is that the dth difference of a process with d unit roots is stationary.
Such a sequence is integrated of order d and is denoted by I(d). An ARIMA(p, d, q) model
has d unit roots; the dth difference of such a model is statioanry ARMA(p, q) process.
Detrending
DS = difference stationary series. TS=trend stationary
Recall the invertibility of a stationary process requires that the MA component does not
have a unit root. Simply substracting the estimated values of the {yt } sequence from the
actual values yields an estimate of the starionary sequence {et }. The detrend process can
then be modeled using traditional methods (such as ARMA estimation). Check and
complete. 5
The Monte Carlo Method

The justification of using the Dickey-Fuller critical values to test the hypothsis a1 = 1
is that by the Law or Large Numbers, as the simple size T grows sufficiently large, the
mean converges to the true mean, µ. Hence, the sample mean is an unbiased estimate of
the population mean.
Dickey-Fuller Tests
The last section outlined a simple procedure to determine whether a1 = 1 in the model
yt = a1 yt−1 + εt . Begin by substracting yt−1 from each side of the equation in order to
write de equivalent form: ∆yt = γyt−1 + εt where γ = a1 − 1. Testing the hypothesis that
5
Business Cycle: the belief that trend is unchanging over time leads to the common practice of de-
trending macroeconomic data using a linear (or polynominal) deterministic regression equation.
75
Figura 1: Dickey-Fuller Distribution
a1 = 1 is equivalent to testing the hypothesis γ = 0. D&F actually consider three different

regression equations that can be used to test for the presence of a unit root:
∆yt = γyt−1 ε
∆yt = a0 + γyt−1 + εt
∆yt = a0 + γyt−1 + a2 t + εt
The differences between the three regressions concerns the presence of the deterministic
elements a0 and a2 t. The first is a random walk, the second adds an intercept or a drift
term and the third includes both a drift and a linear time trend. The parameter of interest
is γ; if γ = 0, the sequence {yt } contains a unit root. The test involves estimating one (or
more) of the equations above using OLS in order to obtain the estimated value of γ and
the associated standard error. The tree equations listed above can be estimated by OLS;
be aware that the critical values of the t-statistics do depend on whether an intercept
and/or time trend is included in the regression equation.
Tests including lagged changes are called augmented Dickey-Fuller test and the same τ, τµ
and ττ statistics are all used to test the hypotheses γ = 0.
The φ1 , φ2 , φ3 statistics are contructed in exactly the same way as ordinary F-tests:
[SSC(restricted)-SSR(unrestricted)]/r
φi =
SSR(unrestricted)/(T − k)
where SSR(restricted) and SSR(unrestricted) are the sums of the squared residuals from
the restricted and unrestricted models, r the number of restrictions, T number of usable
observations, and k number of parameters estimated in the unrestricted model. Hence,
T − k = degrees of freedom in the unrestricted model.
Thus, if the calculated value of φi is smaller than that reported by Dickey-Fuller, you can
accept the restricted model.
76
Extentions of the Dickey-Fuller Test
Not all time-series variables can be well represented by the first-order autoregressive pro-
cess. Consider the pth order autoregressive process. To best understand the methodology
of the augmented Dickey-Fuller (ADF) test, add and substract ap yt−p+1 to obtain
yt = a0 + a1 yt−1 + a2 yt−2 + a3 yt−3 + ... + ap−2 yt−p+2 + ap−1 yt−p+1 + ap ∆yt−p+1 + εt
Next, add and substract (ap−1 + ap )yt−p+2 . Continuing this fashion, we obtain
p
X
∆yt = a0 + γyt−1 + βi ∆t−i+1 + εt
i=2
Pp Pp
where γ = − (1 − i=1 ai ) and βi = j=1 aj .
The coefficient of interest is γ; if γ = 0 the equation is entirely in first differences and, so,
has a unit root. Note that the Dickey-Fuller tests assume that the error are independent
and have a constant variance. This raises six important problems related to the fact that
we do not know the true data-generating process.
1. We cannot properly estimate γ and its standard error unless all of the autorregresive
terms are included in the estimating equation. Since the true order of the autorre-
gresive process is unknown, the problem is to select the appropriate lag length.
2. The GDP may contain both autorregresive and moving average components. We
need to know how to conduct the test if the order of the moving average term is
unknown
3. The Dickey-Fuller test considers only a single unit root. However, a pth order auto-
rregressions has p characteristic roots; if there are d ≤ p unit roots, the series needs
to be differenced d times to achieve stationary
4. There may be roots that requires first differences and others that necessitate seasonal
differencing. We need to develop a method that can distinguish between these two
types of unit root processes
5. There might be structural breaks in the data.
6. It might not be known whether an intercept and/or time trend belongs in the last
equation presented.
Selection of the Lag Length

One approach to select the right amount of lags in order not to loose degrees of freedom
or have a model that does not capture the actual error process is the genera-to-specific
methodology. The idea is to start with a relatively long lag length and para down the
model by the usual t-test and/or F-tests. When doing this, plotting the residuals is a
most important diagnostic tool. There should not appear to by any strong evidence of
structural change or serial correlation. Moreover, the correlogram of the residuals should
appear to be white noise. The Ljung-Box Q-statistic should not reveal any significant
77
autocorrelation among the residuals.
Rule 1: Consider a regression equation containing a mixture of I(1) and I(0) variables
such that the residuals are white noise. If the model is such that coefficients or interest
can be written as a coefficient on zero-mean stationary variables, then asymptotically, the
OLS estimator converges to a normal distribution. As such, a t-test is appropriate. This
applies directly to unit root tests.
Structural Change
In performing unit root tests, special care must be taken if it is suspected that structural
change has occurred. When there are structural breaks, the various Dickey-Fuller test
statistics are biased toward the non-rejection of a unit root. The bias in a1 means that
the Dickey-Fuller test is biased towards accepting the null hypothesis of a unit root even
though the series is stationary within each of the subperiods.
Perron’s Test for Structural Change

Perron goes on to develop a formal procedure to test for unit roots in the presence of a
structural change at time period t = τ + 1. Consider the null hypothesis of a one-time
jump in the level of a unit root proces against the alternative of a one-time change in the
intercept of a trend stationary process. Formally,
H1 : yt = a0 + yt−1 + µ1 Dp + εt
A 1 : y t = a0 + a2 t + µ 2 D L + ε t
where DP represents a pulse dummy variable such that DP = 1 if t = τ + 1 and zero

otherwise. The proceduce is in pages 232. Complete if necessary.
Testing for Unit-Roots and Trend-Breaks in argentine

real GDP - Walter Sosa Escudero
If we have two models, one is difference stationary (DS) and the other is trend stationary
(TS), if we compare them:
1. TS model stationarity is achieved by subtracting the trend while in the DS model
the correct procedure is to take the difference of the series.
2. If et is assumed to be a zero-mean stationary ARMA process, the linear forecast s

periods ahead made at moment t of the TS model converges (in mean square) to
the time trend a + bt. The forecast for the DS process can be shown to be equal to
yt + bs. The main difference is the following: under both specification the forecast
converges to a line with slope b, but in the TS case the intercept is always a while
in the DS the intercept (yt ) changes with the value y and takes at the moment at
which we forecast is made
3. The mean square error of the forecast of the TS model converges to the unconditional
variance of et as the forecast horizon grows large. For the DS representation, the
MSE of the forecast error grows linearly with the forecast horizon.
78
4. For the TS model, the effect of a shock at time t on yt+s tends to zero as s grows
large while the same shock has a permanent effect on yt+s for the case of the DS
representation. This is the idea of ‘persistance of innovationsı́n the unit-root model.
For an econometric point of view the question is whether nonstationarity arises from the
presence of a deterministic time trend or a unit-root in the autorregresive polynomial.
From a macroeconomic point of view, the main point is to be able to determine whet-
her a shock in macro variable will have a permanent or transitory effect in its future values.
To consider the possibility of a deterministic change in the log GDP process we considered
a family of statistics proposed by Banerjee et.al:
1. Recursive tests: they are obtained using a recursive estimation of the DF t statistic
evaluating u=1. These statistics are computed recursively with subsamples. k0 is
the starting value of the recursive estimation and T is the size of the full sample.
From the sequence of DF statistics we will evaluate the maximum and minimum
DF test.
2. Rolling tests: these statistics are computed using a subsample of fixed size Ts , rolling
through the sample. Again, the statistics of interest are the maximum and minimum
Dickey-Fuller t coefficients.
3. Sequential tests: here we estimate the following equation using the full simple but
allowing for a possible single shift or break at every point in the sample
Shiller and Perron (1985) that we should expect an implicit loss in power of tests of a
unit-root against a stationary alternative when using a smaller sampled more frequently
as in the case with our quarterly information.
Magistrales 19/06/2020
Los test de tendencias estocásticas tienden a confundir los quiebres. Existen test para
fechas fijas de quiebre y fechas no conocidas. El quiebre puede aparecer como un cambio
discreto en los coeficientes poblacionales de la regresión o una evolución gradual de los
coeficientes a lo largo del tiempo. Dependiente del tamaño y ubicación del quiebre, la
regresión puede diferir mucho de la verdadera función de regresión.
Para una fecha conocida, tenemos el siguiente modelo autorregresivo. Podemos evaluar la
existencia de un break en el momento τ . Sea D una variable dicotómica que toma valor
0 antes del break y 1 después del break.
yt = β0 + β1 yt−1 + β2 xt γ0 Dt + γ1 (Dt · yt−1 ) + γ2 (Dt · xt ) + µt
Chow dice: armate una step dummy e incorporala al modelo. La H0 del test de Chow es
que los parametros son estables, es decir, H0 = γ0 , γ1 , γ2 , ... = 0 (estabilidad de parḿetros.
Si γ2 6= 0, entonces se ve un cambio en el efecto del tiempo.
Si no existe un break, los términos en los cuales está la variable binaria no deberı́an ser
significativos. La H0 es la ausencia del break:
γ0 = γ1 = γ2 = 0
79
Bajo HA : exise un break. Se puede hacer un test F. Si hay múltiples rezagos y regresores
puede extenderse el test incorporando más interacciones entre la variable binaria y el resto
de los rezagos y regresores.
Para una fecha desconocida. Puede ser que la fecha de quiebre sea desconocida a priori.
Supongamos que creemos que el quiebre se produce entre la fecha τ0 y τ1 . El test de Chow
recursivo es hacer el test de Chow de forma que podemos evaluar todas las posibles fechas
entre estos dos puntos y usar el estadı́stico más grande. Esta modificación del test de
Chow se conoce como el Quandant likelihood ration (QLR) statistic.
Cointegración
Una relación espuria, para la estadı́stica, es una relación matemática en la cual dos acon-
tecimientos que no tienen conexión lógica (idealmente causal), se puede implicar que la
tienen debido a un 3er factor no considerado. A este factor se lo conoce como “factor de
confusión .o “variable escondida”. La relación espuria da la impresión de la existencia de
un vı́nculo apreciable entre dos variables que es inválido cuando se lo evalúa objetivamente.
Técnicamente lo que sucede es los siguiente. Si tenemos dos variables yt e xt

yt = α + yt−1 + εt
xt = λ + xt−1 + υt
Ambos terminos de error son RB y donde εt + υt están incorrelacionadas entre si. Ambas
variables, al ser RW, presentan tendencias estocásticas. Si hacemos una regresión de y en
función de x esperamos que el beta tienda a cero y el R2 también tienda a cero. Ambas
variables son I(1). Sin embargo, los resultados por MCO muestran que
d
|tβ1 | →
− ∞, plim R2 = 1, ∆w → 0
Estos resultados sugieren que. Si nuestras variables muestran un comportamiento ten-
dencial (de tipo estocastico) a lo largo del tiempo, los residuos de la regresion son po-
tencialmente espurios. No podemos aprender nada sobre la relación entre las variables en
nivel que son I(1). La regresión está produciendo valores de t que indican una relación
significativa cuando no la hay. Este problema no desaparece ni aumentando T. En una
regresión espúria los residuos están autocorrelacionadas y los estadı́sticos t mal calculados
ya que se está usando un estimador inconsistente de la varianza residual.
Para detectar si la regresión entre series I(1) es espúria hay que hacer un correlograma y
un test de raiz unitaria sobre los residuos. Corremos:
y t = β 0 + β 1 xt + µ t
Tanto yt como xt son I(1). Si cuando analizo los residuos veo que son I(1) entonces me
quedo omitida la tendencia estocástica de y en µ. La regresión no es espuria si los errores
son I(0).
Para convertir una regresión espuria en valida, en los años ’70, la solución era diferenciar
ambos lados de la regresión:
∆yt = β0 + β1 ∆xt + µt
80
Tanto la variable dependiente, como al independiente y los errores son I(0). Otra forma de
lidiar con el problema de la regresión espúria entre variables I(1) es trabar con el modelo
en primeras diferencias. Si querı́amos estimar
y t = β 0 + β 1 xt + µ t
Ahora, con el modelo en diferencias serı́a:
∆yt = β0 + β1 ∆xt + µt , µt = ∆εt
Esto se puede a extender un modelo más general. Esta transformación resuelve el pro-
blema desde el punto de vista estadı́stico, pero desde el punto de vista economico no
podriamos modelar la eventual relacion entre niveles. La información contenida en una
regresión en tasas de crecimiento no es la misma que en una regresión en niveles.
Si los errores son I(0) entonces se puede estimar una regresión en niveles porque las
variables están cointegradas.
Cointegración
Vamos a decir que dos o mas variables I(1) están cointegradas si existe una combinación
de ellas que resulta estacionaria. Si bien la diferenciación es una solución al problema de
la regresión espúria, ya no tendremos un modelo en niveles sino en diferencias. Una alter-
nativa es evaluar si las variables en cuestión (ambas con el mismo nivel de integracion)
están cointegradas.
Una relación de cointegración puede tomarse como una relación de equilibrio de largo pla-
zo (estacionaria). Si bien las variables pueden desviarse de su relación en el corto plazo.
Es decir, pensamos a la relación de cointegración como una tendencia estocástica común
entre las variables.
Engle y Granger (1987) (egranger en Stata) proponen que la relación de largo plazo
puede ser obtenidas si :
y t = β 0 + β 1 xt + µ t
en donde la variable dependiente e independiente son I(1) y los errores son I(0). La
metodologı́a consiste en:
1. Estimar la regresión anterior
2. Obtener el residuos de µ̂t
3. Evaluar si el residuo es I(0) a través de un test de raı́z unitaria
4. En el caso de ser I(0), yt y xt están cointegradas.
5. Se puede ver que si se puede estimar la relación de largo plazo sin caer en el problema
de la regresión espuria
En Stata, en el test de Dickey-Fuller poner un lag menos que en el varsoc. La
salida de egranger te muestra. 1) El test. 2) El first step te muestra la tendencia (si la
pones). En el ejemplo de los precios era la elasticidad. 3) La segunda salida te muestra el
modelo de corrección de errores.
81
Modelo de corrección de errores
Una vez que se encontro la cointegración entre dos o mas variables, se puede estimar
un modelo de corrección de errores (MCE). Este modelo permite explicar las tasas de
crecimiento de yt (∆yt ) en función de
El crecimiento en xt (∆xt ) y,
El desequilibrio pasado entre los niveles de xt e yt
Estos modelos también son conocidos como modelos modelos de corrección al equi-
librio (MCEq)
Supongamos que los estimamos una relación de cointegración (el largo plazo) entre dos
variables. Ambas son integradas de grado 1.
ŷ1 = β̂0 + β̂1 xt
Obtenemos el residuo µ̂t que será I(0) y lo rezagamos un perı́odo. Estomamos por MCO
el siguiente MCE
p k k
X X X
∆yt = γ0 + αµ̂t−1 + φj ∆yt−j + λ ∆xt−j + δ wt−j + εt
j=1 j=1 j=0
El término de corrección de errores es µ̂t−1 (TCE).
Si tomamos de ejemplo el precio futuro y spot de la soja. Tenemos que la variable depen-
diente es la diferencia del logaritmo del spot. La variable explicada:
Constante
Residuos de la variable en niveles de la relación de cointegración
Rezagos de la variable dependiente
Rezagos de la diferencia de x
w puede ser otra variable que no estaba en la relación de integración. w tiene que
ser estacionaria
El error es white noise
En este modelo todo es estacionario. Las variables indican lo siguiente:
1. γ0 : media de corto plazo
2. α es el coeficiente de ajuste (−1 ≤ α ≤ 0). Trata de medir la velocidad a la cual

tardan las variables en llegar al equilibrio. Si es −1 entonces en un perı́odo ajusta
100 %. Si es 0.50, entonces ajusta en dos perı́odos
3. µ̂t−1 : son los desvı́os de largo plazo o también se los llama correcciones al equilibrio.
4. φ pj=1 ∆yt−j : parte autorregresiva

P
82
5. λj kj=1 ∆xt−j : efectos de corto plazo de x. λj miden los efectos de corto que pueda
P
tener x en y
6. δj kj=0 wt−j : efectos de otras variables de corto plazo

P
7. εt : error, que es ruido blanco.
Todos los terminos del MCE son estacionarios ya sea por diferenciación o cointegración.
Esto garantiza que no hay causalidad simultánea. Para que la estimación por MCO sea
válida, se tienen que cumplir los supuestos clásicos. El MCE implica una modelación con-
junta de la dinámica (corto plazo) y largo plazo.
Si tenemos
∆yt = γ0 + αµ̂t + φ∆yt−1 + λ∆xt−1 + εt
Sabemos que µ̂t es la desviación del largo plazo. Puede ser esrita como como
µ̂t−1 = yt−1 − β̂0 − β̂1 xt−1
Si la metemos en el modelo
∆yt = γ0 + α[yt−1 − β̂0 − β̂1 xt−1 ] + φ∆yt−1 + λ∆xt−1 + εt
Stata va a estimar
∆yt = (γ0 + βˆ0 ) + αyt−1 − αβ̂1 xt−1 + φ∆yt−1 + λ∆xt−1 + εt
Ojo! El coeficiente de xt−1 es −αβ̂1 . Si divido por −α, obtengo el efecto de largo plazo.
Supongamos que el coeficiente es 0.80. “Cuando el futuro se incrementa en 1 % entonces
el spot aumenta en un 83 % en el largo plazo”. Es diferente el β1 cuando estimás porque
estás controlando por otras variables.
Tutorial 12
La metodologı́a de Box-Jenkins es un enfoque estadı́stico cuyo objetivo es inferir el proces
estocástico subyacente de una serie.
El Paso 1 es Estacionarizar. Esto se puede hacer diferenciando (cuando la tendencia o

la media no es constante), realizando una transformación logarı́tmica (cuando la dispre-
sión de una serie temporal no es constante), utilizando el operador diferencia estacional
cuando hay estacionalidad + tendencia. Queremos un proceso estocástico yt es estaciona-
rio sin la distribución de probabilidades se mantiene estable a través del tiempo.
El Paso 2 es Identificar el tipo de proceso. Esto se hace con el correlograma total:

podemos ver si se trata de un AR o el orden del MA. Correlograma parcial: si se trata de
un MA o del orden del AR.
El Paso 3 es Estimar. El Paso 4 es Verificar la presencia de ruido blanco. Queremos

que los residuos sean ruido blanco. Si quiero probar esto, tengo que hacer un test. que sea
RB es que es un proceo aleatorio. Es relevante porque
83
Predictibilidad: si tu serie es RB, entonces por definición es aleatoria. No podes
modelarla y hace predicciones.
Diagnostico del modelo: los errores de un modelo de predicción deberı́an ser rudio
blanco, o sea, completamente aleatorios.
Siempre la idea es quedarse con el modelo parcimonioso.
Para que una serie sea estacionaria debe ser constante en media, varianza y covarianzas.
Para que sea estacionaria en covarianzas tiene que variar lo mismo en todos los periodos.
Para ver si los modelos son validos, vemos si los residuos son RB, despues criterios de
información.
Cap. 6 Enders- Cointegration and Error-Correction

Models
If we have a model in which variables are characterized as nonstationary I(1) variables,
the error term must be stationary. Equilibrium theories invoving nonstationary variables
require the existence of a combination of the variables that is starionary.
The analysis made by Engle and Granger begins by considering a set of economic variables
in ling run equilibrium when:
β1 x1t + β2 x2t + +βn xnt = 0
Letting β and xt , denote the vectors (β1 , β2 , ..., βn ) and (x1t , x2t , ..., xnt )0 , the system is in
long-run equilibrium when βxt = 0. The deviation from long-run equilibrium is called the
equilibrium error, so that
et = βxt
The econometric use of the term equilibrium makes reference to any long-run relationship
among nonstationary variables.
The components of the vector xt = (x1t , x2t , ..., xnt )0 are said to be cointegrated of order
d, b denoted by xt ∼ CI(d, b) if
1. All components of xt are integrated of order d
2. There exists a vector β = (β1 , β2 , ..., βn ) such that the linear combination βx1 =
β1 x1t + β2 x2t + ... + βn xnt is integrated of order (d − b) where b > 0 Note that the
vector β is called the cointegrating vector
There are four important points to note about the definition:
1. Cointegration typically refers to a linear combination of nonstationary variables.

Theoretically, it is quite possible that nonlinear long-run relationships exist among
a set of integrated variables. Also note that the cointegration vector is not uni-
que. If (β1 , β2 , ..., βn ) is a cointegrating vector, then for any nonzero value of λ,
(λβ1 , λβ2 , ..., λβn ) is also a cointegrating vector. Typically, one of the variables is
used to normalize the cointegrating vector by fixing its coefficient at unity. To nor-
malize the coeintegrating vector with repect to x1t , simply select λ = 1/β1 .
84
2. For Engel and Granger’s original definition, coeintegration refers to variables that
are integrated of the same order. This does not imply that all integrated variables are
cointegrated; usually, a set of I(d) is not cointegrated. If two variables are integrated
of different orders, they cannot be cointegrated.
3. There may be more than one independent cointegrating cectors for a set of I(1)
variables. The number of cointegrating vector is called the cointegrating rank of
xt .
4. Most of the cointegration literature focuses on the case in which each variable con-
tains a single unit root. The reason if that traditional regression or time-series applies
when variables are I(0) and few economic variables are integrated of an order higher
than unity. When it is unambiguous, many authors use the term cointegration to
refer to the case in which variables are CI(1, 1).
Cointegration and Common Trends

Cointegration will ocurr whenever the trend in one variable can be expressed as a linear
combination of the trends in the other variable(s). In such circumstances it is always
possible to find a vector β such that the linear combination β1 yt + β2 zt + β3 wt does not
contend a trend. The result easily generalizes to the case of n variables. Consider the
vector representation
xt = µt + et
where xt = (x1t , x2t , ..., xnt )0 , µt = the vector of stochastic trends (µ1t , µ2t , ..., µnt )0 and et
an n · 1 vector of stationary components.
If one trend can be expressed as a linear combination of the other trends in the system,
it means that there exists a vector β such that
β1 µ1t + β2 µ2t + ... + βn µnt = 0
Multiplicamos la representacion vectorial por β
βxt = βµt + βet
Since βµt = 0, it follows that βxt = βet . Hence, the linear combination βxt is stationary.
Cointegration and Error Correction

In an error-correction model, the short-term dynamics of the variables in the system
are influenced by the deviation from equilibrium. Lets suppose we have the short-run and
long-run interest rates. If we introduce the lagges changes of each rate into both equations:
X X
∆rSt = a10 + αS (rLt−1 − βrSt−1 + a11 (i)∆rSt−i + a12 (i)∆rLt−i + εSt
X X
∆rLt = a20 + αL (rLt−1 − βrSt−1 + a11 (i)∆rSt−i + a12 (i)∆rLt−i + εLt
εSt , εLt and all terms involving ∆rSt−1 and ∆rLt−i are stationary. Thus. the linear combi-
nation of interest rates rLt−1 − βrSt−1 must also be stationary. Notice that αS and αL have
85
the interpretation of speed of adjustment parameters. The larger αS is, the greater res-
ponde of rSt to the previous period’s deviation from long-run equilibrum. At the opposite
extreme, very small values of αS imply that the short-term interest rate is unresponsive to
last period’s equilibrium error. For de sequence {∆rSt to be unaffected by the long-term
interest rate sequence, αS and all te a12 (i) coefficients must be equal to zero. If both αS
and αL are equal to zero, the long-run equilibrium relationship does not appear and the
model is not one of error correction or cointegration.
Formally, the (n · 1) vector or I(1) variables xt = (x1t , x2t , ..., xnt )0 has an error-correction
representation if it can be expressed in the form:
∆xt = π0 + πxt−1 + π1 ∆xt−1 + π2 ∆xt−2 + ... + πp ∆xt−p + εt
Where: π0 = and (n · 1) vector of intercepts terms with elements πi0 πi = (n · n) coefficient

matrices wi elements pijk (i), π a matrix with elements πjk such that one or more of the
πjk 6= 0, εt = an (n · 1) vector with elements εit . Note that the disturbance terms are such
that εit may be correlated with εjt .
Let all variables in xt be I(1). Now, if there is an error-correction representation of these

variables, there is necessarily a linear combination of the I(1) variables that is stationary.
Solving for the equation above:
X
πxt−1 = ∆xt − π0 − πi ∆xt−i − εt
Sin each expression on the right-hand side is stationary, πxt−1 must also be stationary.
Since π contains only constants, each row of π is a cointegrating vector of xt .
Testing for cointegration: the Engel-Granger Methodology

Suppose two variables, say yt and zt are believed to be I(1) and we want to determine
whether there exists an equilibrium relationship between the two. Engle and Granger
propose a four-step procedure to determine if two I(1) variables are cointegrated of order
CI(1, 1).
1. Pretest the variables for their order of integration. Cointegration necessitates that
two variables be integrated of the same order. The first step in the analysis is to
pretest each variable to determine its order of integration. The augmented Dickey-
Fuller tests can be used to infer the numbers of unit roots (if any) in each variables. If
both variables are stationary, it is not necessary to proceed since standard time-series
methods apply to stationary variables. If the variables are integrated of different
orders, its is possible to conclude that they are not cointegrated.
2. Estimate the long-run equilibrium relationship. If the results of Step 1 indicate that
both {yt } and {zt } are I(1), the next step is to estimate the long run relationship
in the form
yy = β0 + β1 z1 + et
If the variables are cointegrates, an OLS regression yields a super-consistent estima-
tor of the cointegrating parameters β0 and β1 . It is proved that the OLS estimates
86
of the parameters converge faster than they do in OLS models using stationary va-
riables.
In order to determine if the variables are cointegrated, denote the residual sequence
from this equation by {êt }. Thus, the {êt } series contains the estimated values of
the deviations from the long-run relationship. If these deviations are found to be
stationary, the {yt } and {zt } sequences are cointegrated of order (1,1). It would be
convenient if we could perform a Dickey-Fuller test on these residuals to determine
their order of integration. Consider the autorregression of residuals:
∆êt = a1 êt−1 + εt
There is no need to include an intercept due to the fact that the sequence is a
residual; the parameter of interest is a1 . If we cannot reject the null hypothesis
a1 = 0, we can conclude that the residuals contain a unit root. Hence, we conclude
that the {yt } and {zt } sequences are not cointegrated. If it not possible to reject
the null hypothesis a1 = 0, we cannot rejec the hypothesis that the variables are not
cointegrated. Given that {yt } and {zt } were both found to be I(1) and that the
residuals are stationary, we can conclude that the series are cointegrated of order
(1,1). Hay que tener cuidado porque uno no conoce a ciencia cierta la secuencia de
los errores, solo conoce el estimado.
3. Step 1: Estimate the error-correction model. If the variables are cointegrated, the
residuals from the equilibrium regression can be used to estimate the error-corrction
model. If {yt } and {zt } are CI(1, 1), the variables have the error-correction form
X X
∆yt = α1 + αy [yt−1 − β1 zt−1 ] + a11 (i)∆yt−1 + a12 (i)∆zy−i + εyt
i=1 i=1
X X
∆zt = α2 + αz [yt−1 − β1 zt−1 ] + a21 (i)∆yt−1 + a22 (i)∆zy−i + εzt
i=1 i=1
where β1 = the parameter of the cointegrating vector given by the first OLS estima-
tion, εyt , εzt = white-noise disturbances and α1 , α2 , αy , αz α11 (i), α12 (i), α21 (i), α22 (i)
are all parameters.
Engle and Granger. They proposed that the magnitude of the residual êt−1 is the
deviation from long-run equilibrium in period (t − 1). Hence, it is possible to use the
save residuals {êt−1 } obtained in step 2 as an estimate of the expression yt−1 −β1 zt−1 .
Thus, using the saved residuals from the estimation of the long-run equilibrium
relationaship, estimate the error-correcting model as
X X
∆yt = α1 + αy êt−1 + a11 (i)∆yt−1 + a12 (i)∆zy−i + εyt
i=1 i=1
X X
∆zt = α2 + αz êt−1 + a21 (i)∆yt−1 + a22 (i)∆zy−i + εzt
i=1 i=1
Other than the error-correction term êt−1 and the models constitute a VAR in first
differences.
87
4. Step 4: Assess Model Adequacy. There are several procedures that can help deter-
mine whether the error-correction estimated model is appropriate.
a) You should be careful to asses the adequacy of the model by performing diag-
nostic checks to determine whether the residuals of the error-correction equa-
tion approximate white noise. If the residuals are serially correlated, lag lengths
may be too short. Reestimate he model using lag lengths that yield serially un-
correlated errors.
b) The speed of adjustment coefficients αy and αz are of particular interest in that
they have important implications for the dynamics of the system.
It’s very tempting to use t-statistics to perform significance tests on the cointegrating
vector. However, you must avoid this temptation since, in general, the coefficients do not
have an asymptotic t-distribution.
Explaining Cointegration Analysis - Hendry & Juse-

lius
The unit-root process can be interpreted as allowing a different “trend” at every point of
time, so are said to have stochastic trend. A non-stationary process is, by definition, one
which violates the stationarity requirement, so its means and variances are non-constant
over time.
The difference between a linear stochastic trend and a deterministic trend is that the
increments of a stochastic trend are random, whereas those of a deterministic trend are
constant over time.
Variables Integradas - Hildegart Ahumada

Sims, Stock y Watson concluyeron que en las formulaciones generales que incluyan va-
riables integradas junto a otras que no lo sean y componentes determinı́sticos, aquellos
estimadores de parámetros que puedan ser escritos como coeficientes de regresores no-
integrados con media cero, tienen distribuciones estándader. Pero lo más importante es
que esto es válido solo con la existencia (potencial) de la transformación a estacionariedad
(con media cero) aunque esta no sea efectivamente llevada a cabo. Un supuesto critico en
SSW es que el modelo esté correctamente especificado.
Un resultado conocido en la literatura (Banerjee) es que a partir de la relación de largo

plazo entre variables integradas estimada a partir de modelos uniecuacionales dinámicos
es superior a la obtenida en la regresión estática debido a los sesgos en muestras finitas
(a pesar de su superconsistencia)
88
Nota 2: Consulta Final Flor
El RW
yt = yt−1 + εt
Un proceso cuyo coeficiente es 1 entonces tiene raiz unitaria. Al depender exac-
tamente del pasado, no es que desaparece el efecto del pasado, entonces no es
estacionario. Para que sea estacionario necesito que las cosa.
H0: no es estacionario, no tiene raiz unitaria. Nosotros queremos que sea de raiz
unitaria.
Estacionalidad: significa que vos tenes patrones por estaciones. Ejemplo: consumo
de helado cuando es verano. Esto es estacionalidad. Se desestacionaliza: esto se
hace poniendo dummies por estacion. Estas te chupan la estacionalidad.
Estacionariedad: media, covarianza, varianza es igual a cero. Si no es asi, cambian

los parametros.
La coviarianza se mantenga constante entre periodos que estan separados por

cierta cantidad de tiempo.
Los MA son siempre estacionarios porque los efectos del pasado siempre desapare-
cen cuando te vas muy atras. Los MA se los imagina como consumos que dependen
de cosas aleatorias que son impredecibles.
Estacionariedad estricta te dice que toda la densidad tiene que ser estricta.
Exogeneidad es que la esperanza de los residuos respecto de las x es igual a cero.

Estricta es que la esperanza con respecto a lo que paso hoy y siempre. Debil es
cuando controlo solo en y en su periodo.
Esto escribió Flor para calcular la esperanza del AR(1):
89
Nota 3: Consulta Final Maggie
Variable categorica con 6 categorias. En ese caso vas a estar diciendo: por cada
nivel educativo adicional, el indice de mas coporal va a caer en .332 unidades.
El sesgo de seleccion de muestra pasa solo cuando la variable es una variable

explicativa. Si es la variable dependiente ahi se genera un problema de eficiencia.
Si es independiente ahi aparece el sesgo.
Es un determinante de la variable dependiente que correlaciona con la variable

explicativa. ESTO ES ENDOGENEIDAD.
varsoc te mide el nivel de autocorrelacion parcial. El test de Dickey-Fuller es para

los AR y no para los MA porque estos ultimos son estacionarios.
Si los instrumentos son debiles te van a inflar la varianza.
Un instrumento fuerte es que el estadistico t del test significatividad individual es

mayor a 3,5. Asi es fuerte y es relevante.
Es el estadistico F aplicado solo al instrumento. Despues de correr la regresion por

MC2E corres estat firststage. Cuando tenes una regresion con un solo regresor,
el estadistico F = t2 .
La diferencia entre una serie de ruido blanco y estacionaria es que las covarianzas
con el pasado son distintas de cero cuando es estacionaria y son igual a ruido blanco.
La variable dependiente esta en diferencias. Esta la idea de si tu serie es estaciona-

ria. Ecuacion de Dickey-Fuller.
Dos motivos por el cual la varianza del MC2E es mayor que la de OLS. En el
denominador de la varianza de MC2E:
El ST C2 de ŷ2 es la suma cuadrado totales de la estimacion de la primera etapa. La
varianza del estimador de del x de la primera etapa va a ser menor que la varianza
real, entonces como este valor es mayor la varianza aumenta. El R22 es lo que mide el
nivel de correlacion entre el x1 estimado y las variables estimado. Esta correlacion
es mas alta que porque es una combinacion lineal de los intrumentos, entonces el
R2 va a ser mas alto que un solo instrumento y la otra variable exogena.
90

Econometria

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Econometria

Cargado por

Copyright:

Formatos disponibles

Econometrı́a

También tenemos el coeficiente de correlación:

∗ −1 < ρX,Y < 1

∗ El coeficiente de correlación solo mide relaciones lineales. Que ρ = 0 no implica

∗ Yi es la variable dependiente. Observable

∗ Xi es la variable independiente. Observable

La función de regresión es Yi = α + βXi . La regresión representa la parte sistemática de

El error/residuo es la distancia del punto a la recta. La distancia es como una estima-

Heterogeneidad no observable ⇒ µi . Es distinto y observo algo que no está en el modelo.

Si E(µi ) = 0 =⇒ E(Yi ) = E(α + βXi + µi ) ⇔ E(Yi ) = E(α) + E(βXi ) + E(µi ) ⇔ E(Yi ) =

Lo aleatorio como representación de lo no exacto. Si es posible mover X marginalmente:

Estimación de los parámetros

De cada muestra voy a obtener un β̂ y α̂ diferente. Vamos a utilizar un cambio de notación:

Demostración: utilizamos la CPO de α̂:

Qué pasa si tengo un modelo que no incluye α, es decir, Yi = βXi + µi ? Si no tengo α, no

De esta demostración, obtenemos diversas conclusiones:

SEC Suma Explicada de Cuadrados

STC = SEC + SRC

Sabemos que ei = Yi − Ŷi ⇔ Yi = ei + Ŷi ⇔ Yi − Y = ei + Ŷi − Y . Sabemos que Y = Ŷ

yi2 = (ei + ŷi )2

var(µi ) = E (µi − E(µi ) )2 

Si (1) E(µi ) = 0 y (2) cov(µi , µj ) = 0 ⇒ E(µi · µj ) = 0. Dem:

cov(µi , µj ) = E[(µi − E(µi ))(µj − E(µi ))]

La covarianza en el shock en las distintas observaciones es cero.

cov(µi , µj ) para i = j es σ 2 . Demo:

cov(µi , µj ) = cov(µi , µi ) = var(µi ) =σ

∗ La multicolinealidad perfecta: las Xi , i = 1, ..., n no pueden ser todas iguales.

Propiedades Estadı́sticas de los estimadores

E(yi ) = E(βxi ) − E(µ)

Intuición: si yo pudiera sacar infinitas muestras de la población, el promedio de los infinitos

var(β̂) = E (β̂ − E(β̂) )2 

∗ Exogeneidad ∗ Homocedasticidad ∗ No correlación serial

Paso 1: αX = αX. Demostración:

Demostración: notar que para cualquier constante se cumple que:

En particular, consideremos c = ni=1 xi yi / ni=1 x2i . Reemplazando:

Voy a la definición de coeficiente de correlación muestral:

La demostración es análoga cuando β < 0. En este caso, ρX,Y = −1 e Y es una función

Yo tengo un valor de β̂ y sabien la varianza y la esperanza puedo hacer un test de hipótesis.

Regla: aceptamos H0 si β̂ es cercano al valor correspondiente a esa hipótesis. Para definir

Demostraciones de propiedades estadı́sticas:

Yi = β1 + β2 X2i + β3 X3i + ... + βk Xki + µi i = 1, ..n

Cambia el supuesto de no multicolinealidad; ahora no hay dependencia lineal entre las

E(Yi ) = β1 + β2 X2i + β3 X3i + ... + βk Xki

E(Wi ) = β1 + β2 aedui + δ hombrei

∗ Para hombres E(Wi |hombre = 1) = β1 + β2 aedui + δ

∗ Para mujeres E(Wi |hombre = 0) = β1 + β2 aedui .

Restando miembro a miembro:

E(Wi |hombre = 1) − E(Wi |hombre = 0) = β1 + β2 aedui + δ − (β1 + β2 aedui + δ · 0) = δ

1. Modelo logarı́tmico (log-log)

Modelo logarı́tmico (log-log)

ln(Yi ) = ln(A) + β ln(Xi ) + µi

Si µi se mantiene constante cuando Xi cambia,

d ln(Yi ) ∆Yi /Yi

d ln(Yi ) ∼ ∆Yi /Yi

Hay dos tipos de variables dummies:

Aditivas: son las que evaluan las ordenadas al origen

Multiplicativas: son las que varian si las pendientes difieren

Ejemplo: tenemos el siguiente modelo:

ln(wi ) = β1 + β2 · aedui + β3 · edadi + β4 · edad2i + β5 · hombrei + µi

Mujer: ln(ŵM ) = β̂1 + β̂2 · aedu + β̂3 · edad + β̂4 · edad2

Resto miembro a miembro:

ln(ŵH ) − ln(ŵM ) = β̂5

Si β̂5 pequeño, exp(β̂5 ) − 1 ∼

En el caso más complejo, en el que tenemos k variables, el estadı́stico es: