Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Econometria Resumo 220709 135453
Econometria Resumo 220709 135453
Gabriel F. Ferraz
September 2020
y = β0 + β1 x + u (1)
• y → dependent variable
• x → independent variable
• β0 → intercept parameter
• β1 → slope parameter
• u → error term
E(u) = 0 (2)
Crucial assumption:
E(u|x) = E(u) (3)
Substituting (2) on (3) we have the zero conditional mean assumption:
E(y|x) = β0 + β1 x (5)
yi = β0 + β1 xi + ui (6)
1
0.1 Estimação
Método dos Momentos
E(y − β0 − β1 x|x) = 0
E(u|x) − 0 =⇒ Cov(u, x) = 0 ∴ E(ux) = 0 =
E((y − β0 − β1 x)x|x) = 0
n
X
E(y − β0 − β1 x|x) = 0 =⇒ (yi − βˆ0 − βˆ1 xi ) · n−1 = 0
i=1
n
X
E((y − β0 − β1 x)x|x) = 0 =⇒ (yi − βˆ0 − βˆ1 xi )xi · n−1 = 0
i=1
n n n
X X (yi − y)xi X (xi − x)xi
(yi − y + βˆ1 x − βˆ1 xi )xi · n−1 = 0 =⇒ − βˆ1 =0
i=1 i=1
n i=1
n
n
X n
X
βˆ1 (xi − x)xi = (yi − y)xi (8)
i=1 i=1
We know that:
n
X n
X n
X n
X n
X n
X
(xi −x)(yi −y) = (xi yi −xi y−xyi +xy) = xi yi − xi y− xyi + xy
i=1 i=1 i=1 i=1 i=1 i=1
n
X n
X n
X n
X n
X n
X
xi yi −nxy−nxy+nxy = xi yi −nxy = xi yi − xi y = xi yi −xi y = (yi −y)xi
i=1 i=1 i=1 i=1 i=1 i=1
n
X n
X
(yi − y)xi = (xi − x)(yi − y) (9)
i=1 i=1
Also:
n
X n
X n
X n
X n
X n
X
(xi −x)2 = (x2i −2xi x+x2 ) = x2i −2 xi x+ x2 = x2i −2nx2 +nx2
i=1 i=1 i=1 i=1 i=1 i=1
n
X n
X n
X n
X n
X n
X
x2i −nx2 = x2i −(nx)·x = x2i − xi ·x = xi ·xi −xi ·x = xi (xi −x)
i=1 i=1 i=1 i=1 i=1 i=1
n
X n
X
(xi − x)xi = (xi − x)2 (10)
i=1 i=1
2
Substituting (9) and (10) on (8), we have:
Pn
(x − x)(yi − y)
βˆ1 = i=1Pn i 2
(11)
i=1 (xi − x)
Pn
i=1 (xi −x)(yi −y)
βˆ1 = Pn n
2
i=1 (xi −x)
n
\x1 ]
cov[y,
βˆ1 =
\1 ]
var[x
ûi = yi − yˆi
uˆ2i
Pn i
∂ X
(βˆ0 ) : i=1
=2 (yi − βˆ0 − βˆ1 xi )(−1) = 0
∂ βˆ0 i=1
3
n
X n
X
yi − nβˆ0 − βˆ1 xi = 0
i=1 i=1
y − βˆ0 − βˆ1 x = 0
βˆ0 = y − βˆ1 x
uˆ2i
Pn i
∂ X
(βˆ1 ) : i=1
=2 (yi − βˆ0 − βˆ1 xi )(−xi ) = 0
∂ βˆ0 i=1
i
X
(yi − βˆ0 − βˆ1 xi )(xi ) = 0
i=1
i
X
(yi − y + βˆ1 x − βˆ1 xi )(xi ) = 0
i=1
i
X i
X
(yi − y)(xi ) + βˆ1 (xi − x)(xi ) = 0
i=1 i=1
i
X i
X
(yi − y)(xi − x) + βˆ1 (xi − x)2 = 0
i=1 i=1
Pn
(x − x)(yi − y)
ˆ Pn i
β1 = i=1 2
i=1 (xi − x)
Máxima verssomilhança
Considere:
4
n
Y
f (y1 , . . . yn ; β0 , β1 , σ 2 ) = f (y1 ; . . . ) · · · · f (yn ; . . . ) = f (yi ; β0 , β1 , σ 2 )
i=1
n
1 1 y − β0 − β1 x i 2
√ exp[− ( i
Y
L(β0 , β1 , σ 2 ) = ) ]
i=1
σ 2π 2 σ
n
1 1 X
L = n n/2 exp[− 2 (yi − β0 − β1 xi )2 ]
σ 2π 2σ i=1
n
n n 2 1 X
logL = − log(2π) − logσ − 2 (yi − β0 − β1 xi )2
2 2 2σ i=1
max logL
β0 ,β1 ,σ 2
C.P.O:
n
ˆ ∂logL 1 X
( β0 ) : = − 22 (yi − β0 − β1 xi )(−1) = 0
∂ βˆ0 2σ i=1
n
X n
X
yi − nβ0 − β1 xi = 0
i=1 i=1
Dividindo por n:
y − β0 − β1 x = 0
β0 = y − β1 x
n
∂logL 1 X
(βˆ1 ) : = − 22 (yi − β0 − β1 xi )(−xi ) = 0
∂ βˆ1 2σ i=1
n
X
(yi − y + β1 x − β1 xi )(xi ) = 0
i=1
n
X n
X
(yi − y)(xi ) − β1 (xi − x)(xi ) = 0
i=1 i=1
n
X n
X
(yi − y)(xi − x) − β1 (xi − x)2 = 0
i=1 i=1
Pn
(y − y)(xi − x)
Pn i
βˆ1 = i=1 2
i=1 (xi − x)
n
∂logL n 1 1 X
(σ 2 ) : = − · + (yi − β0 − β1 xi )2 = 0
∂σ 2 2 σ2 2σ 4 i=1
5
n
X
−nσ 2 + (yi − β0 − β1 xi )2 = 0
i=1
Pn
i=1 (yi − β0 − β1 xi )2
σ2 =
n
yˆi = βˆ0 + βˆ1 xi → sample regression function
ˆ ˆ ûi > 0 → overestimate
ûi = yi − yˆi = ûi = yi − β0 − β1 xi =
ûi < 0 → underestimate
*Properties
Pn
i=1 ûi = 0 → the sum, and therefore the sample average of the OLS
residual
Pn is zero
i=1 xi ûi = 0 → the sample covariance between the regressor and the OLS
residual is zero
y = βˆ0 + βˆ1 x → the point (x, y) is always on the OLS regression line
n
X n
X n
X n
X n
X
yi = yˆi + ûi → yi = yˆi + ûi = yˆi = (βˆ0 + βˆ1 xi )
i=1 i=1 i=1 i=1 i=1
Pn Pn ˆ + βˆ1 xi )
yi i=1 (β0
i=1
= → y = βˆ0 + βˆ1 x
n n
Pn
Total sum of squares → SST ≡ i=1 (yi − y)2
Pn
Explained sum of squares → SSE ≡ i=1 (yˆi − y)2
Pn
Residual sum of squares → SSR ≡ i=1 ûi 2
E(βˆ0 ) = β0
6
E(βˆ1 ) = β1
Hipótese 5: Homocedasticidade → Var(ui |xi ) = σ 2 = Var(ui )
σ2
Var(βˆ1 ) =
SSTx
Pn
ˆ σ 2 · i=1 x2i
Var(β0 ) =
n · SSTx
Sendo que: Pn
2 ûi 2
i=1
σ̂ =
n−2
Assim como:
E(σ̂ 2 ) = σ̂ 2
Além disso: q
ˆ
se(βˆ0 ) = Var(βˆ0 )
q
ˆ
se(βˆ1 ) = Var(βˆ1 )
Exemplo:
Base de dados "salario"
reg <- lm(salariom ∼ educ, data = salario, na.action = na.exclude)
Visualizar sumário na tabela 1
Table 1:
Dependent variable:
salariom
educ 180.674∗∗∗
(1.339)
Constant 0.830
(13.313)
Observations 161,092
R2 0.101
Adjusted R2 0.101
Residual Std. Error 2,308.464 (df = 161090)
F Statistic 18,196.630∗∗∗ (df = 1; 161090)
Note: ∗
p<0.1; ∗∗
p<0.05; ∗∗∗
p<0.01
7
reg <- lm(lsalario-h ∼ educ, data = salario, na.action = na.exclude)
Visualizar sumário na tabela 2
Table 2:
Dependent variable:
lsalario_h
educ 0.089∗∗∗
(0.0005)
Constant 1.154∗∗∗
(0.005)
Observations 151,934
R2 0.192
Adjusted R2 0.192
Residual Std. Error 0.769 (df = 151932)
F Statistic 36,038.180∗∗∗ (df = 1; 151932)
Note: ∗
p<0.1; ∗∗
p<0.05; ∗∗∗
p<0.01
Table 3:
Dependent variable:
lsalario_h
log(idade) 0.358∗∗∗
(0.007)
Constant 0.686∗∗∗
(0.024)
Observations 152,359
R2 0.019
Adjusted R2 0.019
Residual Std. Error 0.846 (df = 152357)
F Statistic 2,946.150∗∗∗ (df = 1; 152357)
Note: ∗
p<0.1; ∗∗
p<0.05; ∗∗∗
p<0.01
8
Interpretação: log-log, a elasticidade dos salários em hora com respeito a
idade, que dá em média, 35,8%
Capítulo 3
y = β 0 + β 1 x 1 + β 2 x 2 + . . . βk x k + u
• y → dependent variable
• x1 − xk → independent variable
• β0 → intercept parameter
• β1 − βk → slope parameter
• u → error term
Key assumption
E(u|x1 , x2 , . . . xk ) = 0
Ao mínimo a equação acima requer que todos os fatores no termo não observado
sejam não correlacionados com as váriaveis explicativas
C.P.O:
n
X
[β0 ] : 2 (yi − βˆ0 − βˆ1 xi1 − βˆ2 xi2 )(−1) = 0(∗)
i=1
n
X
[β1 ] : 2 (yi − βˆ0 − βˆ1 xi1 − βˆ2 xi2 )(−xi1 ) = 0(∗∗)
i=1
9
n
X
[β2 ] : 2 (yi − βˆ0 − βˆ1 xi1 − βˆ2 xi2 )(−xi2 ) = 0(∗ ∗ ∗)
i=1
De (*)
n
X n
X
−2 (yi − βˆ0 − βˆ1 xi1 − βˆ2 xi2 ) = 0 → (yi − βˆ0 − βˆ1 xi1 − βˆ2 xi2 ) = 0
i=1 i=1
n
X n
X n
X
yi − nβˆ0 − βˆ1 xi1 − βˆ2 xi2 = 0 (/n) → y − βˆ0 − βˆ1 x1 − βˆ2 x2 = 0
i=1 i=1 i=1
n
X n
X n
X n
X
xi1 [(yi −y)−βˆ1 (xi1 −x1 )−βˆ2 (xi2 −x2 )] = 0(∗∗)0 → xi1 (yi −y) = βˆ1 xi1 (xi1 −x1 )+βˆ2 xi1 (xi2 −x2 )]
i=1 i=1 i=1 i=1
Pn Pn Pn
ˆ
Pi=1 xi1 (xi1 − x1 ) Pi=1 xi1 (xi2 − x2 ) β1 i=1 xi1 (yi − y)
n n
ˆ = Pn
i=1 xi2 (xi1 − x1 ) i=1 xi2 (xi2 − x2 ) β2 i=1 xi2 (yi − y)
Aβ̂ = b
Lembrando:
a11 a12
A=
a21 a22
10
Pn Pn Pn
1
Pnxi2 (xi2 − x2 )
i=1 Pn i=1 xi1 (xi2 − x2 ) Pni=1 xi1 (yi − y)
(−1)
detA (−1) i=1 xi2 (xi1 − x1 ) i=1 xi1 (xi1 − x1 ) i=1 xi2 (yi − y)
Pn Pn Pn Pn
ˆ i=1 xi2 (xi2 − x2 ) i=1 xi1 (yi − y) − i=1 xi1 (xi2 − x2 ) i=1 xi2 (yi − y)
β1 = Pn Pn Pn Pn
i=1 xi1 (xi1 − x1 ) i=1 xi2 (xi2 − x2 ) − i=1 xi1 (xi2 − x2 ) i=1 xi2 (xi1 − x1 )
Como
n
X n
X
xi1 (yi − y) = (xi1 − x1 )(yi − y)
i=1 i=1
n
X n
X
xi1 (xi1 − x1 ) = (xi1 − x1 )2
i=1 i=1
n
X n
X
xi1 (xi2 − x2 ) = (xi1 − x1 )(xi2 − x2 )
i=1 i=1
Portanto
Pn Pn Pn Pn
ˆ )2 i=1 (xi1 − x1 )(yi − y) − i=1 (xi1 − x1 )(xi2 − x2 ) i=1 (xi2 − x2 )(yi − y)
i=1 (xi2 − x2P
β1 = n 2
Pn 2
Pn 2
i=1 (xi1 − x1 ) i=1 (xi2 − x2 ) − [ i=1 (xi1 − x1 )(xi2 − x2 )]
Pn 2 Pn Pn Pn
i=1 (xi2 −x2 ) i=1 (xi1 −x1 )(yi −y) i=1 (xi1 −x1 (xi2 −x2 ) i=1 (xi2 −x2 )(yi −y)
−
βˆ1 = n Pn nP
2 n 2
Pnn n
i=1 (xi1 −x1 ) i=1 (xi2 −x2 ) i=1 (xi1 −x1 )(xi2 −x2 )
n n −[ n ]2
\x1 ]var[x
cov[y, \2 ] − cov[x
\ \
1 , x2 ]cov[y, x2 ]
βˆ1 =
\1 ]var[x
var[x \2 ] − [cov[x
\ 2
1 , x2 ]]
Valor predito:
11
Properties
Pn
Pni=1 ûi = 0 → deviations from regression line sum up to zero
i=1 xij ûi = 0 → covariance between deviation and regression are zero
y = βˆ0 + βˆ1 x1 + βˆ2 x2 +...+ βˆk xk → sample averages of y and of the regressors
lie on regression line Pn Pn Pn
Pn Pn Pn uˆi yi yˆi
ûi = yi − yˆi → i=1 ûi = i=1 yi − i=1 yˆi → i=1 n = i=1
n + i=1n
û = y − ŷ Pn
i=1 u
ˆi
Pn
i=1 ûi = 0 → n = û = 0
Logo ŷ = y
ŷ = βˆ0 + βˆ1 x1 + βˆ2 x2 + ... + βˆk xk
Então y = βˆ0 + βˆ1 x1 + βˆ2 x2 + ... + βˆk xk
Considere a regressão com duas variáveis Podemos usar o resíduo de uma
regressão (auxiliar) simples de x1 contra x2 para obter βˆ1 por meio de outra
regressão simples → efeito "Partialling out" de βˆ1
i.e, qual a relção entre y e x1 depois de "considerar" o efeito de x2 em x1
Processo:
• Regredir a varável explicativa x1 contra x2 , obter o vetor de resíduos dessa
regressão rˆi1
• Regredir y contra esse vetor de resíduos do passo 1.
Pn
rˆi1 yi
βˆ1 = Pi=1
n
rˆi1
i=1
Pn
i=1 rˆ
i1 yi
Mostar que βˆ1 = P n (*) é igual a βˆ1 =
i=1 rˆi1
\ 1 ]var[x
cov[y,x \2 ]−cov[x \ \
1 ,x2 ]cov[y,x2 ]
(**)
var[x1 ]var[x2 ]−[cov[x1 ,x2 ]]2
\ \ \
1º passo: rˆi1 = xi1 − xˆi1 onde xˆi1 = αˆ0 + αˆ1 xi2
αˆ0 = x1 − αˆ1 x2
Substituindo
rˆi1 = xi1 − xˆi1 = rˆi1 = xi1 − αˆ0 + αˆ1 xi2 = xi1 − (x1 − αˆ1 x2 ) + αˆ1 xi2
12
Resolvendo o denominador:
n
X n
X n
X n
X
(xi2 − x2 )2 rˆi1 2 = (xi2 − x2 )2 [(xi1 − x1 ) − αˆ1 (xi2 − x2 )]2
i=1 i=1 i=1 i=1
n
X n
X
= (xi2 − x2 )2 [(xi1 − x1 )2 − αˆ1 (xi1 − x1 )(xi2 − x2 ) + αˆ1 2 (xi2 − x2 )2 ]
i=1 i=1
n
X n
X n
X n
X
= (xi2 −x2 )2 (xi1 −x1 )2 −αˆ1 (xi1 −x1 )(xi2 −x2 ) (xi2 −x2 )2 +αˆ1 2 (xi2 −x2 )4
i=1 i=1 i=1 i=1
n n Pn n n
(x − x1 )(xi2 − x2 ) X
Pni1
X X X
2 2
= (xi2 −x2 ) (xi1 −x1 ) −( i=1
2
) (xi1 −x1 )(xi2 −x2 ) (xi2 −x2 )2 +
i=1 i=1 i=1 (xi2 − x2 ) i=1 i=1
Pn
(x − x1 )(xi2 − x2 ) 2
( Pni1
i=1
2
) (xi2 − x2 )4
i=1 (x i2 − x 2 )
n
X n
X n
X
= (xi2 − x2 )2 (xi1 − x1 )2 − [ (xi1 − x1 )(xi2 − x2 )]2
i=1 i=1 i=1
Juntando tudo:
Pn Pn Pn Pn
(xi2 − x2 )2 i=1 (xi1 − x1 )(yi − y) − i=1 (xi1 − x1 )(xi2 − x2 ) i=1 (xi2 − x2 )(yi − y)
βˆ1 = i=1 Pn 2
Pn 2
Pn 2
i=1 (xi2 − x2 ) i=1 (xi1 − x1 ) − [ i=1 (xi1 − x1 )(xi2 − x2 )]
Pn 2 Pn Pn Pn
i=1 (xi2 −x2 ) i=1 (xi1 −x1 )(yi −y) i=1 (xi1 −x1 )(xi2 −x2 ) i=1 (xi2 −x2 )(yi −y)
−
βˆ1 = n Pn n P
2 n 2
Pnn n
i=1 (xi2 −x2 ) i=1 (xi1 −x1 ) i=1 (xi1 −x1 )(xi2 −x2 )
n n −[ n ]2
\x1 ]var[x
cov[y, \2 ] − cov[x
\ \
1 , x2 ]cov[y, x2 ]
βˆ1 =
\1 ]var[x
var[x \2 ] − [cov[x
\ 2
1 , x2 ]]
R-quadrado
SSE SSR
R2 ≡ =1−
SST SST
13
O R2 nunca reduz quando adicionado outras váriaveis → ferramenta ruim
para avaliar se uma variável deve ser incluida no modelo
cov[y, ŷ]
ρy,ŷ =
σy σŷ
R2 = (ρy,ŷ )2
Pn
2 [ − y)(yˆi − ŷ)]2
i=1 (yi
R = Pn 2
Pn 2
i=1 (yi − y) i=1 (yˆi − ŷ)
Pn 2
i=1 (yi −y)(yˆi −ŷ)]
n2
= Pn 2
Pn 2
i=1 (yi −y) i=1 (yˆi −ŷ)
n n
2
cov[yi , y]
=
var[yi ]var[ŷ]
Mostrar que R2 = (ρy,ŷ )2 = SSE
SST P
[ ni=1 (yi −y)(yˆi −ŷ)]
2
Como yi = yˆi + ûi e 2
R = Pn (y 2
Pn 2
i=1 i −y) i=1 (yˆi −ŷ)
Pn Pn
[ (yˆi + ûi − y)(yˆi − ŷ)]2 [ i=1 (yˆi − y + ûi )(yˆi − ŷ)]2
R2 = Pni=1 2
P n 2
= P n 2
Pn 2
i=1 (yi − y) i=1 (yˆi − ŷ) i=1 (yi − y) i=1 (yˆi − ŷ)
Como ŷ = y
Pn Pn
2 [ i=1 (yˆi − y)2 + i=1 ûi (yˆi − ŷ)]2
R = Pn 2
Pn 2
i=1 (yi − y) i=1 (yˆi − ŷ)
Como
n
X n
X
ûi (yˆi − ŷ) = ûi [βˆ1 (xi1 − x1 ) + βˆ2 (xi2 − x2 ) + . . . βˆk (xik − xk )]
i=1 i=1
n
X n
X n
X
= βˆ1 ûi (xi1 − x1 ) + βˆ2 ûi (xi2 − x2 ) + . . . βˆk ûi (xik − xk )
i=1 i=1 i=1
Pn
Pela prop. 2: Pi=1 ûi xij = 0 para j = 1, 2, . . . k
n
Deriva-se que i=1 ûi (xij − xj ) = 0
Portanto:
Xn
ûi (yˆi − ŷ) = βˆ1 0 + βˆ2 0 + . . . βˆk 0
i=1
Então:
Pn Pn
2 [ i=1 (yˆi − y)2 ]2 i=1 (yˆi − y)
2
SSE
R = Pn n = Pn 2
=
− SST
P
(y
i=1 i − y) 2 (
i=1 iyˆ − ŷ)2 (y
i=1 i y)
14
Hipótese 1: O modelo é linear nos parâmetros → y = β0 + β1 x1 + β2 x2 +
· · · + βk x k + u
Hipótese 2: A amostra é aleatória → {(xi1 , xi2 , . . . , xik , yi ) : i =
1, 2, . . . , n} | yi = β0 + β1 xi1 + β2 xi2 + · · · + βk xik + ui
Hipótese 3: Ausência de colinearidade perfeita.
Isso acontece quando ao menos uma váriavel independente é uma combinação
linear exata de outras váriaveis independentes.
Hipótese 4: média condicional zero → E(u|x) = 0 =⇒
E(ui |xi1 , xi2 , . . . , xik ) = 0
variáveis endógenas → variáveis explicativas correlacionadas com o termo
de erro
variáveis exógenas → variáveis explicativas não são correlacionadas com
o erro
Exogeneidade é portanto uma hipótese crucial para a interpretação causal
da regressão, assim como, para a condição de não-viés dos estimadores de OLS
Teorema 1:
Sobre hipótese 1-4 temos que:
E(βˆj ) = βj , j = 0, 1, . . . , k
Prova (matricial)
y = Xβ + u
u = y − Xβ
Then if we want to derive OLS we must find the beta value that minimizes the
squared residuals (u).
u0 u = (y − Xβ)0 (y − Xβ)
Note that the square of a matrix is denoted by the multiplication of the matrix
transpose by itself. Our next step is to simply distribute the terms.
u0 u = y 0 y − 2(Xβ)0 y + β 0 X 0 Xβ
Now in order to finnd the beta that minimizes our subject, we want to take the
derivative in respect to beta and set it equal to zero. This will find the point in
the function where our slope is equal to zero, also known as a minimum point.
∂u0 u
= −2X 0 y + 2X 0 X β̂ = 0
∂β
X 0 X β̂ = X 0 y
(X 0 X)−1 X 0 X β̂ = (X 0 X)−1 X 0 y
15
β̂ = (X 0 X)−1 X 0 y
Substituindo y por Xβ + u
β̂ = (X 0 X)−1 X 0 (Xβ + u)
β̂ = (X 0 X)−1 X 0 Xβ + (X 0 X)−1 X 0 u
β̂ = Iβ + (X 0 X)−1 X 0 u
Tirando a expectativa dos dois lados, sabendo que E[ui |xi ] = 0 temos que:
E[β̂] = β
σ2
V ar[βˆj ] =
SSTj (1 − Rj2 )
Teorema 5: Gauss-Markov
Dada as hipóteses 1-5, o estimador de OLS é o melhor estimador linear
não-viesado ("BLUE") dos coeficientes da regressão, i.e
V ar[βˆj ] ≤ V ar[β˜j ] j = 0, 1, . . . , k
Pn
para todo β˜j = i=1 wij yi tal que E[β˜j ] = βj ; j = 0, . . . , k
16
Table 4:
Dependent variable:
salariom
educ 208.138∗∗∗
(1.341)
idade 42.068∗∗∗
(0.473)
horas_m 6.183∗∗∗
(0.102)
Constant −2,902.121∗∗∗
(30.242)
Observations 161,092
R2 0.160
Adjusted R2 0.160
Residual Std. Error 2,231.445 (df = 161088)
F Statistic 10,262.850∗∗∗ (df = 3; 161088)
Note: ∗
p<0.1; ∗∗
p<0.05; ∗∗∗
p<0.01
17
Exemplo: Base de dados "salario"
reg <- lm(salariom ∼ educ + idade + horas-m, data = salario, na.action =
na.exclude)
Visualizar sumário na tabela 4:
Interpretação: Cada ano amais de estudo, em média, o salário aumenta
em 208,13 reais controlando por idade e horas mensais trabalhadas.
Cada ano amais de idade, em média, o salário aumenta em 42,06 reais con-
trolando por estudos e horas mensais trabalhadas
Cada hora amais trabalhada, em média, aumenta o salário em 6,18 reais
controlado por estudo e idade.
Capítulo 4
Hipótese 6: Normalidade → u ∼ N ormal(0, σ 2 )
since u is independent of the xj under 6, E[u|x1 , . . . , xk ] = E[u] = 0 and
V ar[u|x1 , . . . , xk ] = V ar[u] = 0 → hipótese forte
Hipóteses 1-6: Classical Linear Model (CLM) assumptions
Então CLM = Gauss-Markov + distribuição normal do termo de erro
βˆj − βj
βˆj ∼ N ormal(βj , V ar[βˆj ]) ∼ N ormal(0, 1)
sd[βˆj ]
n
X n
X n
X n
X
β0 wi1 + β1 wi1 xi1 + · · · + βk wi1 xik + wi1 ui
i=1 i=1 i=1 i=1
Pn Pn Pn
i) i=1 wi1 = 0, pois i=1
Pnrˆi1 2 = Pn 1 2 i=1 rˆ
i1 =0
i=1 rˆ
i1 i=1 rˆ
i1
18
Pn
ii) i=1 wi1 xi1 = 1, pois
n n Pn
rˆi1 1 i=1 (xi1 − xˆi1 )(xi1 − xˆi1 )
X X
Pn x
2 i1 = Pn 2 (xi1 − xˆ )x
i1 i1 = Pn 2
i=1
r
i=1 i1ˆ rˆ
i=1 i1 i=1 i=1 rˆi1
Pn Pn
pois Pi=1 rˆi1 xˆi1 = Pi=1 rˆi1 (αˆ0 + αˆ1 xi2 + P . . . αk−1
ˆ xik )
n n n
= αˆP
0 i=1 rˆ
i1 + α
ˆ1 i=1 rˆ
i1 x i2 + . . . α ˆ
k−1 i=1 rˆ
i1 xik = 0
n
iii) i=1 wˆi1 xik = 0, pois
n n
X rˆi1 1 X
Pn x
2 ik = P n 2 rˆi1 xik = 0, ∀k ≥ 2
i=1 i=1 rˆi1 i=1 rˆ
i1 i=1
Pn
=⇒ βˆ1 = β1 + i=1 wi1 ui
onde wi1 só depende de xi
Hip.2 =⇒ ui iid
Hip.6 =⇒ ui ∼ N (0, σ 2 )
Pn
βˆ1 = β1 + i=1 wi1 ui é normal, pois a soma de variáveis normais indepe-
dentes é uma normal.
Qual a média e variância?
E[βˆ1 |xi ] = β1 ← não-viés, exógeno
σ2
V ar[βˆ1 |xi ] = Pn (xi1 −x 2 2 , R
i ) (1−R )
2
da regressão de x1 em {x2 , . . . xk }
i=1 1
βˆ1 − β1
∼ N (0, 1)
sd(βˆ1 )
Teorema: (distribuição t para valores padronizados de βˆ1 usando o erro
padrão)
Sob CLM:
βˆj − βj
∼ tn−k−1
se(βˆj )
Teste de hipótese
Defina um nível de significância (= a probabilidade de rejeitar H0 quando
ela é verdadeira)
Testando contra H1 em teste unilateral
H0 : βj = 0 contra H1 : βj > 0
1. Construa a estatistica-t
2. Defina o nível de significância: 5% (+ comum)
3. Obtenha a tabela de distribuição-t o valor crítico (c) correspondente a 5%
e n − k − 1 graus de liberdade. Nesse caso n − k − 1 = 28, por isso c =
1,701
19
4. Rejeitar H0 se estatistica-t > 1,701
1. Construa a estatistica-t
2. Defina o nível de significância: 5% (+ comum)
1. Construa a estatistica-t
2. Defina o nível de significância: 5% (+ comum)
20
3. Obtenha a tabela de distribuição-t o valor crítico (c) correspomndente a
5% e n − k − 1 graus de liberdade. Nesse caso n − k − 1 = 25, por isso c
= 2,06 e -2,06
Lembrar:
21
• O p-valor é o menor nível de significância sob a qual a H0 é ainda rejeitada
• No caso bilateral, o p-valor é portanto a probabilidade que a variável
aleatória que segue a distribuição-t com n − k − 1 graus de liberdade seja
maior que a estatistica t em termos absolutos, por ex. P C|T | > 1.85 =
2P (T > 1.85) = 2(0.0355) = 0.0718
Por exemplo, se o nível for 5%, H0 não é rejeitada (pois 0.0718 > 5%)
Importância econômica 6= Significância estatística
Importância econômica depende do tamanho e sinal de βˆj e da unidade
de medida da variável dependente e independente.
Intervalo de confiança
Rescrevendo o teorema sobre o teste de hipótese, temos:
Intervalos comuns:
22
(SSRr − SSRur )/q
F =
SSRur /(n − k − 1)
onde n − k − 1 são os graus de liberdade da regressão do modelo irrestrito e
q é o número de restrições em H0
Distribuição da estatística-F
Prova:
SSR + SSE = SST
23
Capítulo 5
Nos capítulos 3 e 4 vimos o que é chamado de amostra finita, amostra pequena
ou propriedades exatas dos estimadores OLS no modelo populacional:
y = β 0 + β 1 x 1 + β 2 x 2 + . . . βk x k + u
Consistência
Um estimador βˆj é dito consistente para um parâmetro populacional βj
se:
P (|βˆjn − βj | < ε) → 1∀ε > 0 e n → ∞
Notação alternativa ("convergência em probabilidade"): plimβjn = βj
Prova:
yi = β0 + β1 xi1 + ui [Hip.1 − 2]
Pn Pn
(xi1 − x1 )yi i=1 (xi1 − x )(β + β1 xi1 + ui )
βˆ1 = Pi=1
n 2
= Pn 1 0 2
(x
i=1 i1 − x 1 ) i=1 (xi1 − x1 )
Pn Pn Pn
β0 i=1 (xi1 − x1 ) + β1 i=1 (xi1 − x1 )xi1 + i=1 (xi1 − x1 )ui
= Pn 2
i=1 (xi1 − x1 )
Como:
n n n Pn n n
X X X
i=1 xi1 X X
(xi1 − x1 ) = xi1 − nx1 = xi1 − n = xi1 − xi1
i=1 i=1 i=1
n i=1 i=1
Isto é:
n
X
(xi1 − x1 ) = 0
i=1
E
n
X n
X
(xi1 − x1 )xi1 = (xi1 − x1 )2
i=1 i=1
Temos que:
Pn
i=1 (xi1 −x1 )ui
Pn
(xi1 − x1 )ui
βˆ1 = β1 + Pi=1
n = β1 + Pn n
2
2 i=1 (xi1 −x1 )
i=1 (xi1 − x1 ) n
Pn Pn
i=1 (xi1 −x1 )ui i=1 (xi1 −x1 )(ui −u)
Como u = 0 então n = n (i.e, covariância x, u
amostral)
24
Pn
(x −x )2
e i=1 ni1 1 é a variância amostral de x1
Pela Lei dos Grandes Números:
Pn
i=1 (xi1 − x1 )(ui − u)
→P Cov[x1 , u]
n
Quando n tende ao infinito a covariância amostral tende a covariância popula-
cional. Pn 2
i=1 (xi1 − x1 )
→P Var[x1 ]
n
Como i) Hip.4: E[u|x] = 0 =⇒ Cov[u,x]=0
ii) Hip.3 V ar[x1 ] 6= 0
Então: Pn
i=1 (xi1 −x1 )ui
0
βˆ1 = β1 + Pn (xn −x )2 →P β1 +
i=1 i1 1 V ar[x1 ]
n
Normalidade assintótica
Inferência em amostras grandes: Os estimadores de OLS são normais
em amostras grandes mesmo a Hipótese 6.
Sob Hip.1-5:
βˆj − βj a
∼ N ormal(0, 1)
se(βˆj )
Em amostras grandes:
• A variância da regressão é consistente plimσˆ2 = σ 2
• Testes (t e F) são válidos mesmo sem Hip.6
• Ainda precisamos assumir Hip.1-5 e V ar[u] < ∞
σˆ2
ar[βˆj ] =
Vd
SSTj (1 − Rj2 )
25
Capítulo 6
Forma Funcional
Vantagens de alterar a forma funcional:
• Interpretação dos coeficientes
• Usar log atenua o problema de outliers nos dados
• Usar log frequentemente ajuda garantir normalidade e homocedasticidade
Cuidado:
• O log não deve ser usado quando a variável assume valores negativos
• Pode ser usado quando a variável assume (poucos) valores, iguais a zero,
desde que feita a normalização log(x + 1)
• Não se deve ser usado em variáveis com suporte entre 0 e 1: o log nesse
caso expande o suporte da variável (torna-se ilimitado a esquerda)
• Previsão de y quando a variável dependente é log(y): "desfazer" o log
usando a função exponencial prove um estimador enviesado porém consis-
tente
Correção: Seja a regressão,
log(y)
c = βˆ0 + βˆ1 log(x1 ) + βˆ2 x2
Podemos usar a função exponencial para recuperar uma estimativa consistente
de ∆y. Quando ∆x2 = 1
%∆ŷ = 100[exp(βˆ2 ) − 1]
Regra de bolso: usamos log para variáveis com valores monetários (salários,
PIB, faturamento, etc.) e variáveis de contagem (população, número de alunos,
número de empregados, etc.)
Função Quadrática
Utilizada para captar possível não-linearidade no efeito
Considere a equação estimada:
ŷ = βˆ0 + βˆ1 x + βˆ2 x2
Obtenha o efeito de x sobre y:
∆y
≈ βˆ1 + 2βˆ2 x
∆x
Note que o efeito depende do nível de x, caso βˆ2 seja estatisticamente diferente
de zero.
Calculando o ponto máximo, i.e, onde ∂x ∂y
=0
−βˆ1
x∗ =
2βˆ2
26
R-quadrado ajustado
O estimador da variância do erro (SSR/n) e da variância de y (SST /n) são
viesados.
SSR (SSR/n)
R2 = 1 − =1−
SST (SST /n)
2
σu
que é uma estimativa para 1 − σy2
Sendo que:
P 2
SSR uˆi
n = n →p σu2
(yi −y)2
P
SST
n = n →p σy2
(SSR/n) p σ2
R2 = 1 − → 1 − u2
(SST /n) σy
Sabemos que:
• O estimador não viesado da variância do erro é SSR/(n − k − 1)
• O estimador não viesado da variância de y é SST /(n − 1)
• Por isso, calcula-se o R2 ajustado:
2 (SSR/(n − k − 1)) adjusted R2
R =1− =
(SST /(n − 1)
SSR
n n são viesados, i.e, E[ n ] 6= σu e E[ n ] 6= σy
e SST SSR 2 SST 2
Outros
Prevendo y quando log(y) é a variável dependente
log(y) = β0 + β1 x1 + β2 x2 + . . . βk xk + u
=⇒ y = exp(β0 + β1 x1 + β2 x2 + . . . βk xk )exp(u)
Sob a hipótese adicional de independência de u em relação a x1 , . . . xk
=⇒ E[y|x] = exp(β0 + β1 x1 + β2 x2 + . . . βk xk )E[exp(u)]
n
1 X
=⇒ ŷ = exp(βˆ0 + βˆ1 x1 + βˆ2 x2 + . . . βˆk xk )( exp(ûi ))
n i=1
27
Capítulo 7
Variáveis dummy descrevem uma informação qualitativa.
Table 5:
Dependent variable:
salario_h
mulher −4.134∗∗∗
(0.242)
educ 1.440∗∗∗
(0.028)
Constant 0.501∗
(0.284)
Observations 161,092
R2 0.017
Adjusted R2 0.017
Residual Std. Error 47.693 (df = 161089)
F Statistic 1,374.700∗∗∗ (df = 2; 161089)
Note: ∗
p<0.1; ∗∗
p<0.05; ∗∗∗
p<0.01
28
A interação com uma variável dummu permite testar diferentes efeitos da
educação sobre os salários entre homens e mulheres:
Exemplo:
reg <- lm(lsalario-h mulher + educ + mulher· educ, na.action = na.exclude,
data = salario)
Visualizar na tabela 6:
Table 6:
Dependent variable:
lsalario_h
mulher −0.321∗∗∗
(0.010)
educ 0.091∗∗∗
(0.001)
mulher:educ 0.007∗∗∗
(0.001)
Constant 1.237∗∗∗
(0.006)
Observations 151,934
R2 0.212
Adjusted R2 0.212
Residual Std. Error 0.759 (df = 151930)
F Statistic 13,643.630∗∗∗ (df = 3; 151930)
Note: ∗
p<0.1; ∗∗
p<0.05; ∗∗∗
p<0.01
29
Váriavel dependente binária
Estimar pelo método OLS quando a variável dependente é uma dummy:
"modelo de probabilidade linear"
y = β0 + β1 x 1 + · · · + βk x k + u
=⇒ E[y|x] = β0 + β1 x1 + · · · + βk xk
Esperança (ou média) de uma variável binaria:
Logo
=⇒ P (y = 1|x) = β0 + β1 x1 + · · · + βk xk
i.e, Modelo de probabilidade linear (LPM)
=⇒ βj = ∆P (y = 1|x)/∆xj
Capítulo 8
Estimação da variância do coeficiente do OLS na presença de hetero-
cedasticidade
Variância "robusta" do estimador de OLS:
Pn
rˆij 2 ûi 2
Vdar[βˆj ] = i=1 2
SSRj
30
Heterocedasticidade invalida a expressão da variância do estimador de OLS,
assim como Testes t e F. Todavia a propriedades de não-viés e consistência do
OLS preservadas.
Mas feito a correção, essa variância, o teste t é valido assintoticamente
Exemplo: Base de dados "salario" reg <- lm(salariom idade + educ,
na.action = na.exclude, data = salario)
mqo <- coeftest(reg) [Erros-padrão Eicker–Huber–White]
Visualizar sumário na tabela 7:
Table 7:
Dependent variable:
idade 41.335∗∗∗
(0.479)
educ 210.844∗∗∗
(1.355)
Constant −1,855.249∗∗∗
(25.125)
Note: ∗
p<0.1; ∗∗
p<0.05; ∗∗∗
p<0.01
yi = β0 + β1 x1 + · · · + βk xk + ui
yi 1 x1 xk ui
[ √ ] = β0 [ √ ] + β1 [ √ ] + · · · + βk [ √ ] + [ √ ]
hi hi hi hi hi
yi∗ = β0 x∗i0 + β1 x∗i1 + · · · + βk x∗ik + u∗i
Este é o modelo transformado: não tem intercepto
O modelo transformado é homocedastico (garante Hip. 5) pois:
ui E[u2i |xi ] σ 2 hi
E[u∗2
i |xi ] = E[ √ |xi ] = = = σ2
hi hi hi
31
Dadas Hip. 1-4, OLS no modelo transformado é o melhor estimador
linear não viesado
OLS no modelo transformado é o estimador de Mínimos Quadrados Ponder-
ados (WLS)
n
X yi 1 x1 xk
min ([ √ ] − b0 [ √ ] − b1 [ √ ] + · · · − bk [ √ ])2
i=1
h i h i h i hi
n
X
⇐⇒ min (yi − b0 − b1 xi1 − · · · − bk xik )2 /hi
i=1
OLS x WLS
O que acontece se a função especificada h(x) estiver errada?
• WLS ainda é consistente pois não viola Hip.1-4, porem é necessário com-
putar os erros padrão robustos depois de estimar o WLS
• O estimador de OLS e WLS podem ser muito diferentes
– Isso tipicamente ocorre quando Hip. 4 é falsa
– i.e., quando o modelo esta mal especificado:
E[y|x] 6= β0 + β1 x1 + · · · + βk xk
FGLS
Quando não conhecemos a forma funcional da variância hetero-
cedastica (“feasible GLS”)
u2 = σ 2 exp(δ0 + δ1 x1 + · · · + δk xk ) · v
log(u2 ) = α0 + δ1 x1 + · · · + δk xk + e
32
• Usar 1/h para ponderar as observações na regressão como fazemos no
WLS. Nesse caso, h é estimado!
• Ou, de forma equivalente,√transformamos cada variável inclusive a con-
stante dividindo-as por 1/ h e então estima o OLS no modelo transfor-
mado, com h estimado
33
Table 8:
Dependent variable:
cigs
OLS S.E. FGLS
(1) (2)
log(income) 0.880 1.295∗∗∗
(0.728) (0.437)
34
The price effect is also notably bigger, but it is still statistically insignificant.
Conclusion:
Cigarette smoking is negatively related to schooling, has a quadratic rela-
tionship with age, and is negatively affected by restaurant smoking restrictions.
LPM e WLS
WLS aplicado ao modelo de probabilidade linear
P (y = 1|x) = p(x) = β0 + β1 x1 + . . . βk xk
35
Table 9:
Dependent variable:
PC
OLS S.E. WLS
(1) (2)
hsGPA 0.065 0.033
(0.137) (0.130)
36
Capítulo 9
Variável Proxy
Usando uma variável proxy para substituir uma variável explica-
tiva não observada
Exemplo: habilidade é omitida
Erro de Medida
Erro de medida na variável dependente:
y = y ∗ + e0
y ∗ = β0 + β1 x 1 + · · · + βk x k + u
37
Modelo populacional
=⇒ y = β0 + β1 x1 + · · · + βk xk + (u + e0 )
Consequências do erro de medida na variável dependente:
• Estimativas são menos precisas pois a variância do erro da regressão (=
u + e0 ) é maior
• OLS continua não-viesado e consistente (se o erro de medida não for cor-
relacionado com as variáveis explicativas!)
Erro de medida na variável explicativa:
x1 = x∗1 + e1
Valor com erro = valor verdadeiro + erro de medida
y = β0 + β1 x∗1 + · · · + βk xk + u
=⇒ y = β0 + β1 x1 + · · · + βk xk + (u − β1 e1 )
Hipótese: o erro é clássico, i.e Cov[x∗1 , e1 ]
Mesmo assim x1 é correlacionada com o erro da regressão:
=⇒ Cov[x1 , e1 ] = Cov[x∗1 , e1 ] + Cov[e1 , e1 ] = σe21
38
Estimação OLS - caso geral (Matriz)
Vamos considerar modelo de regressão linear múltipla com amostra aleatória:
u = y − Xβ
Para estimar essa regressão via OLS temos que somar o quadrado dos resíduos.
Ou seja
u1
X u2
u2i = u1 u2 . . . un . = u0 u
..
un
Substituindo a nossa equação rearranjada nessa nova, temos:
X
u2i = u0 u = (y − Xβ)0 (y − Xβ)
(A0 )0 = A (13)
(A + B)0 = A0 + B 0 (14)
0
(AB) = B A 0 0
(15)
Portanto aplicando essas propriedades, temos que:
X
u2i = u0 u = y0 y − y0 Xβ − β 0 X0 y + β 0 X0 Xβ
y0 Xβ = (y)0 (β 0 X0 )0 = B 0 A0 = AB = β 0 X0 y
u0 u = y0 y − 2β 0 X0 y + β 0 X0 Xβ
39
Portanto para achar os mínimo quadrados temos que derivar a soma dos
resíduos ao quadrado por β:
∂u0 u ∂(y − Xβ)0 (y − Xβ) ∂(y0 y − 2β 0 X0 y + β 0 X0 Xβ)
= =
∂β ∂β ∂β
Antes de resolver precisamos de alguns conceitos de cálculo matricial:
∂a0 b ∂b0 a
= =a
∂b ∂b
quando a e b são vetores K × 1
∂b0 Ab
= 2Ab = 2b0 A
∂b
quando A é qualquer matriz simétrica. Note que você pode escrever a derivada
como 2Ab ou 2b0 A
∂2β 0 X0 y ∂2β 0 (X0 y)
= = 2X0 y
∂β ∂β
e
∂β 0 X0 Xβ ∂β 0 Aβ
= = 2Aβ = 2X0 Xβ
∂β ∂β
quando X0 X é uma matriz K × K
Consequentemente:
∂u0 u
= −2X0 y + 2X0 Xβ̂ = 0
∂β
Ou seja,
X0 Xβ̂ = X0 y
(X0 X)−1 X0 Xβ̂ = (X0 X)−1 X0 y
Ou seja,
β̂ = (X0 X)−1 X0 y
Econometria 2 (Cunningham)
Revisão de álgebra matricial
Uma matriz é um arranjo retangular de números. Ela assume
duas dimensões, linhas e colunas. Usualmente, identificamos cada
célula pelo seu respectivo número de linha e número da coluna. As-
sim, por exemplo, uma matriz m × n é escrita como:
40
Em que aij denota o elemento da i-ésima linha e j-ésima coluna
da matriz A.
Uma matriz cujos número de linhas e número de colunas são
iguais é denominada matriz quadrada.
Uma matriz na qual uma das dimensões é igual a 1 é denominada
de vetor. Ele pode ser um vetor coluna (n=1) ou vetor linha (m=1).
Uma matriz 1×1 é um escalar.
Operações: soma de matrizes
Soma de Matrizes: Duas matrizes A e B da mesma dimensão
mxn podem ser somadas elemento a elemento. Isto é:
41
• α(A + B) = αA + αB
• (αβ)A = α(βA)
• α(AB) = (αA)B
• A+B=B+A
• (A + B) + C = A + (B + C)
• (AB)C = A(BC)
• A(B + C) = AB + AC
• (A + B)C = AC + BC
• IA = AI = A
• A+0=A
• A A=0
• A0 = 0A = 0
Não necessariamente AB = BA
Transposta de uma matriz
A transposta de uma matriz Am × n é escrita como A’ ou AT
e é definida como a troca de posição de linhas e colunas na matriz
A. Assim, por exemplo, a transposta de uma matriz A m × n tem
dimensões n × m. Vejamos um exemplo:
0 1 −10 9
A = 2
0 8 3
42
• (AB) = BA, com A e B conformáveis à multiplicação
• x0 x = ni=1 x2i , com x sendo um vetor coluna
P
A é dita simétrica se A = A’
43
Inversa
A inversa de uma matriz quadrada A é escrita como A−1 e é
definida como: A−1 A = In ou AA1 = In
Caso A−1 exista, diz-se que A é invertível ou não-singular. Um
resultado da álgebra linear é que A−1 existe se, e somente se,
det(A) 6==0.
Propriedades:
• Se A−1 existe, então ela é única
• (αA)−1 = α1 A−1 , com α 6= 0 e A invertível
• (AB)−1 = B −1 A−1 , com A e B sendo matrizes quadradas de
dimensão n e ambas individualmente invertíveis
• (A−1 )−1 = A
Os softwares estatísticos automatizam o cálculo da inversa. Con-
tudo, há algoritmos de inversão manual de matrizes, tais como o
método de Gauss-Jordan.
Dependência Linear e Posto de uma matriz
Um conjunto de vetores n × 1 x1 , x2 , . . . , xr é dito linearmente
independente se, e somente se, a solução da seguinte equação:
α1 x1 + α2 x2 + · · · + αr xr = 0
é única e dada por α1 = α2 = · · · = αr = 0, ou seja, esse sistema
admite unicamente a solução trivial. Quando há soluções múltiplas
(e nesse caso infinitas), diz-se que os vetores dados são linearmente
dependentes.
Seja A uma matriz n × m. Então, o posto de A é definido como
o número máximo de colunas linearmente independentes de A.
Se posto(A)=m, então diz-se que A tem posto completo.
Propriedades:
• posto(A) = posto(A’)
• Se A é n × k, então posto(A) ≤ minn, k
• Se A é quadrada de dimensão k e posto(A) = k, então A é
invertível.
44
Formas quadráticas e matrizes positivas definidas
Seja A uma matriz quadrada de dimensão n, então para qualquer
vetor x de dimensão n × 1, a forma quadrática associada é dada por:
n
X n X
X n
0
f (x) = x Ax = aii x2i +2 aij xi xj
i=1 i=1 j>i
45
• posto(A) = tr(A)
• A é positiva semi-definida
Exemplos de duas matrizes idempotentes importantes na
Econometria. Seja X uma matriz n×k com posto completo, então
as matrizes P e M a seguir são idempotentes:
P = X(XX)1 X
M = In X(XX)1 X = In P
Diferenciação de formas quadr´aticas e lineares
Há basicamente dois tipos de diferenciações de matrizes que são
usadas na derivação do estimador de MQO para o modelo de re-
gressão linear.
Considere um vetor a de dimensão n×1 e defina uma função linear
dada por f (x) = ax, com x sendo um vetor coluna de tamanho n.
Então, a derivada de f em relação a x é um vetor 1×n de drivadas
parciais dadas por:
∂f (x)
= a0
∂x
Para uma matriz simétrica A de tamanho n×n, defina a forma
quadrática como g(x) = xAx, então:
∂g(x)
= 2x0 A
∂x
Que é um vetor 1×n.
46
Com σi2 = V ar[yi ] e σij = Cov[yi , yj ]
Propriedades:
• Se a é um vetor de dimensão n×1, então V ar[ay] =
a[V ar(y)]a ≥ 0
• Se V ar[ay] > 0 para todo a 6= 0, então é positiva definida.
• V ar[y] = E[(yµ)(yµ)], comµ = E[y]
• Se todos os elementos de y são não-correlacionados, então
Var[y] é uma matriz diagonal.
OLS Matricial
i = índice para uma observação
n = índice para número de observações
Modelo de regressão linear com k + 1 parâmetros
yi = β0 + β1 xi1 + β2 xi2 + . . . βk xik + ui ; i = 1, 2, . . . , n
Para cada i temos:
y = xi β + u
onde
~xi = [1, xi1 , xi2 , . . . , xik ]
1×(k+1)
β0 = [β0 , β1 , β2 , . . . , βk ]0
(k+1)×1
47
Portanto
n×1
z }| {
yn×1 = Xn×(k+1) β(k+1)×1 +un×1
Derivando o OLS na forma matricial
Lembrando:
y = Xβ + u
Queremos a partir desta fórmula o β̂ OLS que minimiza a
soma dos quadrados dos resíduos (SSR)
n
X ∂SSR(b)
SSR(b) ≡ (yi − xi b)2 =⇒ = 0 =⇒ β̂
i=1
∂b
Sendo que
n
X n
X
2
SSR(b) = (yi − b0 − b1 xi1 − b2 xi2 − · · · − bk xik ) = u2i
i=1 i=1
β̂ = (X0 X)−1 X0 y
sendo que
β̂ = (X0 X)−1 X0 y
(k+1)×1 (k+1)×(k+1)(k+1)×nn×1
48
4. Homocedasticidade:
• V ar[ui |X] = σ 2 , i = 1, . . . , n
• Cov[ui , uj = 0, ∀i 6= j
sendo que os itens de 4 juntos implicam a seguinte propriedade:
2
σ 0 ... 0
0 σ2 . . . 0
V ar[u|X] = σ 2 In =
... .. . . .
. . ..
0 0 · · · σ2
49
O indivíduo original (que é o nosso grupo de tratamento) iria
tomar a aspirina (o tratamento), enquanto seu clone (que é nosso
grupo de controle) não iria toma-lá. Como estamos comparando
o mesmo, qualquer possível variavel confundidora, isto é, qualquer
variável que pode afetar o tratamento e a resposta vai ser balançeada
na comparação, justamente que o que possívelmente podia afetar o
indivíduo , também pode possívelmente afetar o seu clone já que
são a mesma pessoa! Ou seja, o ceteris é paribus, assim basta fazer
uma simples média.
Embora (ainda) não podemos clonar pessoas, portanto calcular
o efeito causal a nível do indivíduo é impossível. Ainda sim, pode-
mos pegar grupo de indivíduos e montar um grupo de tratamento
e de controle de tal modo que as variáveis confundidoras estão bal-
anceadas. Em outras palavras, os grupos (na média) são iguais,
portanto é como se fossem clones.
50
Genericamente, se meu tratamento foi D = d, então meu resul-
tado contrafactual é Y 1−d
médio:
AT E = E[Y 1 − Y 0 ]
51
Lembrando:
E[Y |D = d]
isso lê como "o valor esperado de Y dado D = d". Ou seja, isso
restringe para a
N = π · N + (1 − π) · N
52
Dado os problemas no mundo real, desejariamos poder estimar esses
valores respectivamente o ATU e ATT (imagens abaixo). Sendo que
AT U = E[Y 1 − Y 0 |D = 0]
AT T = E[Y 1 − Y 0 |D = 1]
Uma vez que podemos representar o efeito causal médio em termos
de uma ponderação desses dois efeitos:
53
Logo, podemos fazer o seguinte:
AT E = πAT T + (1 − π)AT U
54
Substituindo os valores, temos:
e = {πa + (1 − π)b} − {πc + (1 − π)d}
e = πa + b − πb − πc − d + πd
e = πa + b − πb − πc − d + πd + (a − a) + (c − c) + (d − d)
0 = e − πa − b + πb + πc − d + πd − a + a − c + c − d + d
a − d = e − πa − b + πb + πc − d + πd + a − c + c − d
a − d = e + (c − d) + a − πa − b + πb − c + πc − d + πd
a − d = e + (c − d) + (1 − π)a − (1 − π)b − (1 − π)c − (1 − π)d
a − d = e + (c − d) + (1 − π)(a − c) − (1 − π)(b − d)
55
Portanto, substituindo os valores com os termos originais chegamos
justamente onde queriamos:
E[Y 1 |D = 1]−E[Y 0 |D = 0] = AT E+E[Y 0 |D = 1]−E[Y 0 |D = 0]+(1−π)(AT T −AT U )
E para nossa felicidade, tomando algumas hipóteses isso pode ser
estimado!
Dados observados → Hipóteses Causais → Resultados Potenciais
As hipóteses causais são:
Hipótese 1: Stable Unit Treatment Value Assumption (SUTVA)
SUTVA em verdade são duas hipóteses em uma só, são essas:
1)Não interferência:
• As unidades não interferem umas as outras
• Atribuição de tratamento de uma unidade não afeta o resultado
de outra unidade
56
Hipótese 4: Positividade ou Common Support
Essencialmente afirma que, para todo valor de X, a atribuição de
tratamento não foi determinística
P r(D = d|X = x) > 0 ∀a e x
Se, para alguns valores de X, o tratamento fosse determinístico,
então não teríamos valores observados de Y para um dos grupos de
tratamento para esses valores de X.
E[Yi |D = d, X = x] = E[Y d |X = x]
+ E[Y 0 |D = 1] − E[Y 0 |D = 0]
| {z }
Viés de seleção
+ (1 − π)(AT T − AT U )
| {z }
Viés de heterogeneidade
57
dos resultados potenciais, assim (Y 1 , Y 0 )D. Chegamos na seguinte
condição:
E[Y 0 |D = 1] = E[Y 0 ]
E[Y 0 |D = 0] = E[Y 0 ]
∴ E[Y 0 |D = 1] = E[Y 0 |D = 0] =⇒ Viés de seleção é zerado
Assim como
AT U = E[Y 1 − Y 0 |D = 0] = E[Y 1 − Y 0 ]
AT T = E[Y 1 − Y 0 |D = 1] = E[Y 1 − Y 0 ]
∴ (1 − π)(AT T − AT U ) = 0 =⇒ Viés de heterogeneidade é zerado
Em outras palavras, se as hipóteses valerem temos que:
Diferença simples observada de resultados = Efeito causal médio
Então para o nosso pesquisador conseguir descobrir o efeito causal
média a partir da diferença simples observada de resultados é preciso
eliminar o viés de seleção e o viés de heterogeneidade.
Tais viéses são zerado quando o experimento satisfaz a hipótese
da independência (ou ignorabilidade). Para realizar isso é preciso
que este seja randomizado. Por isso, é tão importante a aleator-
ização na experimentação.
58
Matching
Fumar causa câncer?
59
Z
S C
Subclassificação
S C
60
A situação descrita acima é uma que pode ser resolvida com uma téc-
nica de Matching, chamada de Subclassificação. Sua intuição é a
seguinte: nossa variável S (Fumar cigarro) está gerando causalmente
a variável C (câncer), porém há um conjunto de variáveis denomidas
covariáveis que estão gerando uma variação em S e em C. Como
estamos olhando apenas a variação de S e C, devemos controlar por
X de modo que fiquemos apenas com o efeito puro de S em C.
61
Taxas de mortalidade ajustadas usando 3 grupos etários
Grupo de fumantes Canada U.K. USA
não fumantes 20.2 11.3 13.5
cigarro 28.3 12.8 17.7
cachimbo 21.2 12.0 14.2
Hipóteses de identificação
Para a estrátegia de Matching funcionar precisamos que a hipótese
da Ignorabilidade(CIA) [i.e, (Y 0 , Y 1 ) ⊥
⊥ D|X] e Positividade
(Common Support) [i.e, 0 < P (D = 1|X) < 1]
Resultado da Identificação:
Z
δAT E = (E[Y |D = 1] − E[Y |D = 0])dP (X)
Z
δAT T = (E[Y |X, D = 1] − E[Y |X, D = 0])dP (X|D = 1)
Sendo que dado a ignorabilidade, se segue que δAT E = δAT T
Estimador de subclassificação
Assuma que X pode K diferentes células (cada uma represen-
tando uma covariável) {X 1 , . . . , X K }. Portanto temos os seguintes
estimadores:
K
X 1,k 0,k Nk
δ̂AT E = (Y − Y ) ·
k=1
N
K
X 1,k 0,k Nk
δ̂AT T = (Y − Y ) · T
k=1
NT
62
sendo N k o número de observações e NTk o número de observações
1,k
de tratamento em uma célula k. Y é o resultado médio para
0,k
o tratado na célula k, enquanto Y é o resultado médio para o
controle na célula k.
Maldição da dimensionalidade
A subclassificação pode se tornar (e se torna) menos viável em
amostras finitas à medida que o número de covariáveis cresce. Por
exemplo assuma que há k covariáveis e para cada dividimos para
m categorias (por exemplo, novo e velho, etc). Então o número
de células de subclassificação (ou “estratos”) é mk , i.e, cresce expo-
nencialmente. O que resulta no fato de que quando k aumenta, as
células da estratificação podem (e ficam) vazias, tornando impossível
estimar o efeito de tratamento.
63
Rubin (1977) e Rosenbaum e Rubin (1983) desenvolvem um
método que pode conter as covariáveis K usadas para ajuste. Na me-
dida em que o tratamento é condicional aleatório em K covariáveis
(CIA vale), então pode-se usar o propensity score para ajustar os
fatores de confusão.
Intuição: Anteriormente, combinamos X’s para comparar
unidades "próximas" umas das outras com base em alguma distân-
cia, mas as discrepâncias e a escassez de correspondência criaram
problemas. As pontuações de propensão resumem informações co-
variáveis sobre a seleção de tratamento em um único número limi-
tado entre 0 e 1 (ou seja, uma probabilidade). Agora comparamos
unidades com probabilidades estimadas semelhantes de tratamento.
E uma vez que ajustamos usando o propensity score, não precisamos
mais ajustar para X.
Ou seja, condesamos toda informação das K covariáveis em uma
unica medida de probabilidade e fazemos o mesmo processo de antes.
Uma unidade tratamento com propensity score tal pode ser pareada
com uma unidade de controle (ou várias) que posse o mesmo propen-
sity score. Então tal unidade de controle serve como o contrafactual
dessa unidade de tratamento.
Hipóteses de identificação
Para a estrátegia de Propensity Score Matching (PSM) funcionar
precisamos que a hipótese da Ignorabilidade(CIA) [i.e, (Y 0 , Y 1 ) ⊥
⊥
D|X] e Positividade (Common Support) [i.e, 0 < P (D = 1|X) <
1]
64
Estimando o Propensity Score
Estimar a probabilidade condicional de tratamento usando o modelo
probit ou logit
P (Di = 1|Xi ) = F (βXi )
Use os coeficientes estimados para calcular a pontuação de propen-
são para cada unidade i
ρ̂i = β̂Xi
O propensity score é a probabilidade condicional prevista de trata-
mento ou o valor ajustado para cada unidade são a mesma coisa.
Corolário: Se (Y 1 , Y 0 ) ⊥
⊥ D|X, então para estimar o ATE,
basta:
E[Y 1 − Y 0 |ρ(X)] = E[Y |D = 1, ρ(X)] − E[Y |D = 0, ρ(X)]
Propriedade de balanceamento
D e X são condicionalmente independentes de ρ(X), i.e, D ⊥
⊥
X|ρ(X). Então possuimos a seguinte propriedade:
P (X|D = 1, ρ(X)) = P (X|D = 0, ρ(X))
Esse teorema nos diz que a única covariável que precisamos ajus-
tar é a probabilidade condicional do próprio tratamento (ou seja, o
propensity score). No entanto, não nos diz qual método devemos
usar para fazer esse ajuste, o que é uma questão de estimativa. Ex-
istem opções: inverse probability weighting, formas de imputação,
estratificação e, às vezes, até regressões incorporarão a pontuação
como pesos.
Inverse Probability Weighting
IPW é basicamente uma repesagem dos resultados por meio do
propensity score. Tais pesos podem ser expressios sem normalização
ou com normalização.
Proposição: Se (Y 1 , Y 0 ) ⊥
⊥ D|X, então
D − ρ(X)
δAT E = E[Y 1 − Y 0 ] = E[Y · ]
ρ(X)(1 − ρ(X))
65
1 D − ρ(X)
δAT T = E[Y 1 − Y 0 |D = 1] = E[Y · ]
P (D = 1) 1 − ρ(X)
Ponderando os propensity scores
Para ponderação, primeiro estima-se o propensity score (ρ̂(X)). En-
tão basta calcular o ATE e ATT estimados com os dados amostrais:
N
1 X Di − ρ̂(Xi )
δ̂AT E = Yi ·
N i=1 ρ̂(Xi )(1 − ρ̂(Xi ))
N
1 X Di − ρ̂(Xi )
δ̂AT T = Yi ·
NT i=1 1 − ρ̂(Xi )
66
X
D Y
67
Vantagens do LPM:
• Fácil estimativa e interpretação
• Os efeitos estimados e as previsões são geralmente razoavel-
mente bons na prática
• Geralmente funciona bem para valores das variáveis indepen-
dentes que estão próximos das médias da amostra.
Desvantagens do LPM:
• As probabilidades previstas podem ser maiores que um ou
menores que zero
• O modelo de probabilidade linear é necessariamente hetero-
cedástico devido à natureza binária de y
exp z
Logit: G(z) = Λ(z) = (função logística)
1 + exp z
Formulação de variaveis latentes do Probit e Logit
68
Podemos derivar os modelos Probit e Logit assumindo no pano de
fundo um modelo de variáveis latentes. Tomemos y ∗ uma variável
não observada (latente) tal que:
y ∗ = Xβ + ε e y = 1|y ∗ > 0
Ou seja,
∂y
= β̂i
∂xi
Ou seja, o coeficiente β̂i é quanto varia a variável dependente quando
há um aumento de uma unidade da variável independente i, con-
trolando por demais fatores.
Ou seja,
∂P (y = 1|x) ∂G(Xβ)
= = G0 (Xβ)βi = g(Xβ)βi
∂xi ∂xi
Isto é
∂P (y = 1|x)
= g(Xβ)βj onde ∂G(z)/∂z ≡ g(z)
∂xj
Portanto diferente no caso de OLS, não sabemos estimar a mag-
nitude da varição da variável dependente em termos da varição da
69
variável independente. Contudo, consiguimos estimar o sinal do
efeito.
Além de que no caso que queiremos saber o efeito relativo entre
dois coenficientes, aí neste caso conseguimos estimar a magnitude.
Ou seja,
∂P/∂xi g(Xβ)β̂i β̂i
= = ∀i 6= j
∂P/∂xj g(Xβ)β̂j β̂j
Lembrar :
Efeitos Marginais na média:
∂P (y = 1|x) ∂G(z)
= g(Xβ)βi onde g(z) ≡ >0
∂xi ∂z
Onde X representa o valor atribuído ao indivíduo representativo,
que neste caso é indivíduo médio.
Efeito Marginal Médio (APE):
n
X ∂G(z)
AP
[ Ej = n −1
· g(Xβ)β̂j onde g(z) ≡ >0
i=1
∂z
70
do tratamento ocorrer abruptamente quando alguma variável sub-
jacente X chamada "running variable" passa por um ponto de
corte c0 , podemos usar isso para estimar o efeito causal mesmo de
um tratamento autoselecionado.
Então temos uma running variable que é usada para atribuir
tratamente a unidades arbitrariamente (e portanto de forma
exógena) e, consequentemente, as probabilidades de tratamento
“saltarão” quando essa running variable exceder um limite con-
hecido. Dado a atribuição exógena seria como se fosse o tratamento
fosse aleatorizado nos entornos do limite.
71
onde c0 é um limite ou corte conhecido. Em outras palavras, se você
conhece o valor de Xi para uma unidade i, você conhece a atribuição
de tratamento para a unidade i com certeza
Extrapolação
Hipóteses de identificação
72
Suavidade (ou continuidade) de funções de expectativa
condicional:
E[Yi0 |X = c0 ] e E[Yi1 |X = c0 ] são contínuos (suaves) quando
X está em c0
73
Não linearidade
Tomar cuidado, pois suavidade (continuidade) não é a mesma coisa
que linearidade. Então pode ser o caso que se estime uma OLS
padrão e aparente haver um efeito, quando em verdade ele desa-
pareceria dado a não-linearidade. A exemplo:
74
Problemas:
Nossa hipótese pode ser violada em duas condições:
• Manipulação da running variable
• Endogenidade no cutoff
O tratamento não é tão bom quanto atribuído aleatoriamente em
torno do ponto de corte, c0 , quando os agentes são capazes de ma-
nipular suas pontuações na running variable. Isso acontece quando:
• A regra de atribuição é conhecida antecipadamente
• Agentes estão interessados em ajustar para ficar em um grupo
ou outro.
• Os agentes têm tempo para se ajustar
• Peculiaridades administrativas como empilhamento não
aleatório ao longo da variável em execução
Definição - Manipulação da running variable:
Suponha um tratamento desejável, D, e uma regra de atribuição
X ≥ c0 . Se os indivíduos ordenam em D escolhendo X tal que X ≥
c0 , então dizemos que os indivíduos estão manipulando a running
variable.
75
Variáveis Instrumentais (IV)
Variáveis Instrumentais é uma técnica de inferência causal con-
sagrada na economia, por possuir hipóteses mais flexíveis. No caso,
pode ser usada sem precisar assumir ignorabilidade.
Tal técnica permite resolver os seguintes problemas:
• Viés de Variável Omitida
• Erro de medida
• Viés de simultaneidade
• Causalidade reversa
• Experimentos randomizandos controlados sem compliance.
O DAG que melhor representa a situação da nossa estratégia de
identificação é o seguinte:
Z D Y
76
confundida por U , ou seja, aquela mediada por Z. Neste cenário, um
instrumento é o gênero do filho, para entender o porque recomendo
Angrist Evans (1998).
Y = α + δD + η =⇒ E[η|D] 6= 0
|{z}
(γU +ν)
Hipóteses de identificação
77
Cov[D,Z] Cov[U,Z] Cov[ν,Z]
z }| { z }| { z }| {
= δ {E[DZ] − E[D]E[Z]} +γ {E[U Z] − E[U ]E[Z]} + {E[νZ] − E[ν]E[Z]}
Cov[Y, Z] = δCov[D, Z] + γCov[U, Z] + Cov[ν, Z]
Cov[Y, Z] Cov[U, Z] Cov[ν, Z]
=δ+γ +
Cov[D, Z] Cov[D, Z] Cov[D, Z]
Por nossas hipóteses, temos que
Cov[Y, Z]
δ IV = =δ
Cov[D, Z]
Provando a consistência do IV dado hipóteses
Cov[Y, Z] Cov[(α + δD + γU + ν), Z]
δ IV = =
Cov[D, Z] Cov[D, Z]
Cov[[D], Z] Cov[[U ], Z] Cov[[ν], Z] Cov[η, Z]
=δ +γ + =δ+γ
Cov[D, Z] Cov[D, Z] Cov[D, Z] Cov[D, Z]
Consequentemente tomando o limite de probabilidade, que é um
operador asintótico, temos que:
Cov[η, Z]
plimδ IV = plimδ + γ =⇒ δ IV = δ
Cov[D, Z]
Estimador Two Stage Least Squares (2SLS)
Para estimar o design IV usamos o estimador 2SLS. Tal estimador
consiste nos seguintes passos:
Modelo Causal - ou nosso modelo estrutural
Yi = α + δD + η
Primeiro estágio - aqui vamos estimar a variação da nossa
variavel independente de interesse que não é fruto de uma variável
não observada.
Di = αF S + β F S Zi + εF S
Deste operação conseguimos estimar a seguinte regressão via OLS:
D̂i = α̂F S + β̂ F S Zi
78
Segundo estágio - tendo estimado a variação da variável
independente independente da variável não observada. Pegamos
seu valor predito e colocamos na regressão original.
Yi = αSS + δ D̂i + εSS
Assim, o δ estimado pelo segundo estágio é o coeficientes de variável
instrumental desejado.
Forma reduzida - para termos de estimação é costume fazer esse
modelo também.
Yi = αRF + β RF Zi + εRF
Isso se deve, pois o coeficiente de IV é o seguinte:
Cov[Y, Z] Cov[Y, Z]/V ar[Z] β̂ RF
δ IV = = =
Cov[D, Z] Cov[D, Z]/V ar[Z] β̂ F S
Logo
Cov[Y, Z] β̂ RF
δ IV = =
Cov[D, Z] β̂ F S
Weak Instruments - Problema de Instrumentos Fracos
E quando as hipóteses do IV não são safisteitas, mas são aproxi-
madamente verdadeiras. Isto é, Cov[D, Z] é baixo e tende a zero
(Cov[D, Z] → 0) e Cov[η, Z] 6= 0, ou seja, a média condicional não
é zero.
Tomando o modelo verdadeiro e o estimador de IV, temos a
seguinte situação:
Cov[η, Z]
δ IV = δ + γ
Cov[D, Z]
Se Cov[η, Z] for (suficientemente) baixo, então podemos dizer que
δ IV ≈ δ. No caso do instrumento ser muito fraco, i.e, (Cov[D, Z] →
0) então o estimador explode, ou seja, δ IV > δ.
Outro jeito de ver o problema de Instrumentos fracos é pelo Teste
F:
Cov[D, Z] 1
E[δ IV − δ] = ·
V ar[Z] F +1
Ou seja
Cov[D, Z]
F → 0 =⇒ E[δ IV − δ] → viés do OLS
V ar[Z]
79
Ou seja, no caso de instrumento fraco, o viés da estimação de IV
converge para o viés de OLS. Entõa é preferivel estimar por OLS
dado que a variância do 2SLS é maior que o de OLS.
Dados em Painel
Estrutura de dados:
• Cross Section (N)
• Séries de Tempo (T)
• Dados em Painel (N + t)
Dados em painel - observamos as mesmas unidades por vários peri-
odos de tempo.
Problemas que Dados em Painel NÃO resolve
• Causalidade Reversa
• Heterogeneidade não observada variável no tempo
Ou seja, se a heterogeneidade não observada não variar no tempo,
conseguimos efetivamente eliminar esta da regressão. Resolvendo o
viés de variável omitida.
Notação de painel formal
Seja y e x ≡ (x1 , x2 , . . . , xk ) sejam variáveis aleatórias observáveis e c
ser uma variável aleatória não observável. Estamos interessados nos
efeitos parciais da variável xj na função de regressão populacional
E[y|x1 , x2 , . . . , xk , c]
Nós observamos uma amostra de i = 1, 2, . . . , N unidades cross-
section para t = 1, 2, . . . , T unidade temporais.
• Para cada unidade i, nós denotamos as variáveis observadas em
todos os períodos no tempo como {(yit , xit ) : t = 1, 2, . . . , T }
• xitk ≡ (xit1 , xit2 , . . . , xitk ) é um vetor 1 × K
80
Tipicamente assumimos que as unidades cross-section são i.i.d
tiradas de uma população {yi , xi , ci }N
i=1 ∼ i.i.d (indepedência cross-
section)
• yi ≡ (yi1 , yi2 , . . . , yiT )0 e xi ≡ (xi1 , xi2 , . . . , xiT )
Para uma única unidades, tempos:
yi1 Xi,1,1 Xi,1,2 . . . Xi,1,K
.. .. .. ..
.
..
. . . .
yi = yit Xi = Xi,t,1 Xi,t,2 . . . Xi,t,K
. . .. .. ..
.. .. . . .
yiT T ×1 Xi,T,1 Xi,T,2 . . . Xi,T,K T ×K
81
• Violações são comuns (E[νit |xit ] 6= 0): sempre que omitimos
uma variável constante de tempo que está correlacionada com
os regressores (viés de heterogeneidade)
• Problema adicional: vit são correlacionados serialmente para o
mesmo i já que ci está presente em cada t e, portanto, os erros
padrão POLS são inválidos
Como resolver? Com o seguinte estimador...
Regressão de Efeitos Fixos (FE)
Nosso modelo é o seguinte:
yit = xit β + ci + εit , t = 1, 2, . . . , T
Se tivermos dados em vários períodos de tempo, podemos pensar em
ci como efeitos fixos a serem estimados. Portanto, fica deste modo:
N X
X T
(β̂, ĉ1 , . . . , ĉN ) =b,m1 ,...,mN (yit − xit b − mi )2
i=1 t=1
Regressão
Para estimar a regressão é preciso fazer o processo de demean uma
variável. Isto é,
T
X αit
αi = =⇒ α̈i ≡ αit − αi
t=1
t | {z }
α demean
82
Hipóteses de identificação
Para o modelo funcionar precisamos que as seguintes hipótese sejam
satisfeitas:
• E[νit |xi1 , xi2 , . . . , xiT , ci ] = 0, i = 1, 2, . . . , N
• rank( Tt=1 E[ẍ0it ẍit ]) = K
P
Propriedades
β̂F E é consistente:
plimN →∞ β̂F E,N = β
β̂F E não é viesado condicionado em X
83
(servindo de experimento natural), que serviu como intervenção e as-
sim separou as unidades em grupo de tratamento e controle. Assim
o efeito passou a ser DC , sob algumas hipóteses de indentificação,
assumimos que na ausência da intervenção o efeito permaneceria
constante. Ou seja, as retas permaneceriam paralelas, logo o efeito
causal da intervenção pode ser escrito como:
DC = DB − DA (por isso se chama DiD)
A estimação em termos de médias amostrais, considerando k como
a unidade tratada e U a unidade controle, fica assim no caso de dois
períodos:
2×2 P ost(k) P re(k) P ost(k) P re(k)
δ̂kU = (y k − yk ) − (y U − yU )
A mesma equação em termos de expectativa populacional:
2×2
δ̂kU = (E[Yk |P ost] − E[Yk |P re]) − (E[YU |P ost] − E[YU |P re])
Modelo de Regressão DiD
o modelo típico (de DiD) que estimamos é o seguinte:
Yit = β1 + β2 T reati + β3 P ostt + β4 (T reta × P ost)it + εit
onde T reat é uma dummy se a observação estiver no grupo de trata-
mento e P ost uma dummy de pós-tratamento. Ou seja
P re(k)
• yU = β1
P ost(k)
• yU = β1 + β3
P re(k)
• yk = β1 + β2
P ost(k)
• yk = β1 + β2 + β3 + β4
Portanto
P ost(k) P re(k) P ost(k) P re(k)
(y k − yk ) − (y U − yU ) = β4 = δ̂ DiD
Hipóteses de identificação
A hipótese principal para o modelo funcionar é a hipótese de
“tendências paralelas" (parallel trends)
(E[Yk0 |P ost] − E[Yk0 |P re]) − (E[YU0 |P ost] − E[YU0 |P re])
| {z }
viés de tendências não paralelas
84
Outro jeito de escrever a mesma coisa (que eu prefiro inclusive) é a
seguinte:
E[Yk0 − YU0 |P ost] − E[Yk0 − YU0 |P re]
| {z } | {z }
tedência contrafactual tedência original
Ou seja,
Se a tendência contrafactual 6= tendência original =⇒ viés de
tendências não paralelas
A hipótese de identificação para todos os projetos DiD é alguma
representação de uma tendência paralela contrafactual. As tendên-
cias paralelas não podem ser verificadas diretamente porque tecni-
camente uma das tendências paralelas é um contrafactual não obser-
vado. Mas muitas vezes verificamos usando dados de pré-tratamento
para mostrar que as tendências eram as mesmas antes do trata-
mento.
Controle Sintético
O método do Controle Sintético é uma comparação de caso,
que não depende de extrapolação como no design de pesquisa do
RDD e DiD. Mas faz uma interpolação.
85
Intuição: Usamos esse design quando há um (ou poucas)
unidade(s) de tratamento e vários unidades no grupo controle. Por
meio de uma ponderação dos controles, podemos criar uma única
unidade controle que sirva como um contrafactual ótimo (nosso con-
trole sintético) da nossa unidade de tratamento.
Como dito, suas vantagens advém do fato que usa uma interpo-
lação, uma vez que o efeito causal estimado sempre se baseia em
comparações de um resultado de um dado período contra um con-
trafactual neste mesmo dado período! Não precisa-se estipular como
seria esse resultado contrafactual na ausência de tratamento. Outra
vantagem é que a construção do contrafactual não depende do re-
sultados pós tratamento, além do fato que deixa explicito os pesos
usados no contrafactual.
Formalização
Seja Yjt o resultado de interessa da unidade j de J + 1 unidades
agregadas no tempo t, sendo que o grupo de tratamento é j = 1. Os
estimadores de controle sintético modelam o efeito da intervenção no
tempo T0 no grupo de tratamento usando uma combinação linear
de unidades otimamente escolhidas como controle sintético. Para
o período pós intervenção, Pestimador de controle ótimo mensura o
efeito causal como Y1t − J+1 j=2 w ∗
Y
j jt , onde wj∗ é um vetor de pesos
otimizados.
As variáveis de matching X0 e X1 , são escolhidas como predi-
tores do resultado pós intervenção e não devem ser afetadas pela
intervenção. Os pesos são feitos à modo de minimizar a norma,
kX1 − X0 W k sujeito a restrição de pesos. Há duas restrinções
de pesos. Primeira, seja W = (w2 , . . . , wJ+1 )0 como wj ≥ 0 para
j = 2, . . . , J + 1. Segunda, seja w2 + · · · + wJ+1 = 1.
Assim, considere:
p
kX1 − X0 W k = (X1 − X0 W )0 V(X1 − X0 W )
onde V é uma matriz (k × k) simétrica e semidefinida positiva.
Seja Xjm o valor da covariável m da unidade j. Tipicamente, V
é diagonal com a diagonal princial v1 , . . . , vk . Então os pesos do
controle sintético minimizam:
Xk J+1
X
(X1m − wj Xjm )2
m=1 j=2
86
em que vm é o peso que reflete a importância relativa atribuida a
variável m que mede a discrepância entre a unidade tratada e o
controle.
Então, os métodos de controle sintético depende da escolha dessa
variável V, sendo que o vetor de pesos ótimo W ∗ (V) é uma função
dela. Na prática de pesquisa que usa controle sintético, geralmente
escolhem o V que minimza esta expressão:
T0
X J+1
X
(Y1t − wj∗ (V )Yjt )2
t=1 j=2
87