Está en la página 1de 87

Econometria - Resumo

Gabriel F. Ferraz
September 2020

Econometria 1 (Wooldridge) - Capítulo 2

y = β0 + β1 x + u (1)

• y → dependent variable
• x → independent variable
• β0 → intercept parameter

• β1 → slope parameter
• u → error term

E(u) = 0 (2)
Crucial assumption:
E(u|x) = E(u) (3)
Substituting (2) on (3) we have the zero conditional mean assumption:

E(u|x) = E(u) = 0 (4)

Population regression function (PRF):

E(y|x) = β0 + β1 x (5)

Let {(xi , yi ): i = 1, 2, . . . , n } denote a random sample size n from the


population.

yi = β0 + β1 xi + ui (6)

1
0.1 Estimação
Método dos Momentos


E(y − β0 − β1 x|x) = 0
E(u|x) − 0 =⇒ Cov(u, x) = 0 ∴ E(ux) = 0 =
E((y − β0 − β1 x)x|x) = 0

n
X
E(y − β0 − β1 x|x) = 0 =⇒ (yi − βˆ0 − βˆ1 xi ) · n−1 = 0
i=1

y = βˆ0 + βˆ1 x (7)

n
X
E((y − β0 − β1 x)x|x) = 0 =⇒ (yi − βˆ0 − βˆ1 xi )xi · n−1 = 0
i=1
n n n
X X (yi − y)xi X (xi − x)xi
(yi − y + βˆ1 x − βˆ1 xi )xi · n−1 = 0 =⇒ − βˆ1 =0
i=1 i=1
n i=1
n
n
X n
X
βˆ1 (xi − x)xi = (yi − y)xi (8)
i=1 i=1

We know that:
n
X n
X n
X n
X n
X n
X
(xi −x)(yi −y) = (xi yi −xi y−xyi +xy) = xi yi − xi y− xyi + xy
i=1 i=1 i=1 i=1 i=1 i=1

n
X n
X n
X n
X n
X n
X
xi yi −nxy−nxy+nxy = xi yi −nxy = xi yi − xi y = xi yi −xi y = (yi −y)xi
i=1 i=1 i=1 i=1 i=1 i=1

n
X n
X
(yi − y)xi = (xi − x)(yi − y) (9)
i=1 i=1

Also:

n
X n
X n
X n
X n
X n
X
(xi −x)2 = (x2i −2xi x+x2 ) = x2i −2 xi x+ x2 = x2i −2nx2 +nx2
i=1 i=1 i=1 i=1 i=1 i=1

n
X n
X n
X n
X n
X n
X
x2i −nx2 = x2i −(nx)·x = x2i − xi ·x = xi ·xi −xi ·x = xi (xi −x)
i=1 i=1 i=1 i=1 i=1 i=1
n
X n
X
(xi − x)xi = (xi − x)2 (10)
i=1 i=1

2
Substituting (9) and (10) on (8), we have:
Pn
(x − x)(yi − y)
βˆ1 = i=1Pn i 2
(11)
i=1 (xi − x)
Pn
i=1 (xi −x)(yi −y)

βˆ1 = Pn n
2
i=1 (xi −x)
n

\x1 ]
cov[y,
βˆ1 =
\1 ]
var[x

Mínimo quadrados ordinários (OLS)


Como "ajustar uma reta de regressão linear" da melhor maneira possível
entre os pontos de dados é o que faz o método OLS

Resíduo ou o erro estimado:

ûi = yi − yˆi

Sendo que yˆi = βˆ0 + βˆ1 xi

ûi = yi − βˆ0 − βˆ1 xi


Portanto o método requer que:
n
uˆ2i
X
min
βˆ0 ,βˆ1 i=1

uˆ2i = (yi − βˆ0 − βˆ1 xi )2


Pn
C.P.O: sendo i=1

uˆ2i
Pn i
∂ X
(βˆ0 ) : i=1
=2 (yi − βˆ0 − βˆ1 xi )(−1) = 0
∂ βˆ0 i=1

3
n
X n
X
yi − nβˆ0 − βˆ1 xi = 0
i=1 i=1

Dividindo por n nos dois lados:

y − βˆ0 − βˆ1 x = 0

βˆ0 = y − βˆ1 x

uˆ2i
Pn i
∂ X
(βˆ1 ) : i=1
=2 (yi − βˆ0 − βˆ1 xi )(−xi ) = 0
∂ βˆ0 i=1
i
X
(yi − βˆ0 − βˆ1 xi )(xi ) = 0
i=1
i
X
(yi − y + βˆ1 x − βˆ1 xi )(xi ) = 0
i=1
i
X i
X
(yi − y)(xi ) + βˆ1 (xi − x)(xi ) = 0
i=1 i=1
i
X i
X
(yi − y)(xi − x) + βˆ1 (xi − x)2 = 0
i=1 i=1
Pn
(x − x)(yi − y)
ˆ Pn i
β1 = i=1 2
i=1 (xi − x)

Idênticos aos estimadores do Método de Momentos.

Máxima verssomilhança
Considere:

• ui são independentes com distribuição N (0, σ 2 )


• A densidade de uma observação i para o modelo de regressão com erros
normais é:
1 1 y − β0 − β1 x i 2
f (yi ; β0 , β1 , σ 2 ) = √ exp[− ( i ) ]
σ 2π 2 σ
De yi = β0 + β1 xi + ui temos que E[yi |xi ] = β0 + β1 xi (consegue descobrir
porque?). Assim como V ar[yi |xi ] = V ar[σ 2 ]
ui ∼ N (0, σ 2 )
yi |xi ∼ N (β0 + β1 xi , σ 2 )

4
n
Y
f (y1 , . . . yn ; β0 , β1 , σ 2 ) = f (y1 ; . . . ) · · · · f (yn ; . . . ) = f (yi ; β0 , β1 , σ 2 )
i=1

n
1 1 y − β0 − β1 x i 2
√ exp[− ( i
Y
L(β0 , β1 , σ 2 ) = ) ]
i=1
σ 2π 2 σ
n
1 1 X
L = n n/2 exp[− 2 (yi − β0 − β1 xi )2 ]
σ 2π 2σ i=1
n
n n 2 1 X
logL = − log(2π) − logσ − 2 (yi − β0 − β1 xi )2
2 2 2σ i=1

max logL
β0 ,β1 ,σ 2

C.P.O:
n
ˆ ∂logL 1 X
( β0 ) : = − 22 (yi − β0 − β1 xi )(−1) = 0
∂ βˆ0 2σ i=1

n
X n
X
yi − nβ0 − β1 xi = 0
i=1 i=1

Dividindo por n:
y − β0 − β1 x = 0
β0 = y − β1 x

n
∂logL 1 X
(βˆ1 ) : = − 22 (yi − β0 − β1 xi )(−xi ) = 0
∂ βˆ1 2σ i=1
n
X
(yi − y + β1 x − β1 xi )(xi ) = 0
i=1
n
X n
X
(yi − y)(xi ) − β1 (xi − x)(xi ) = 0
i=1 i=1
n
X n
X
(yi − y)(xi − x) − β1 (xi − x)2 = 0
i=1 i=1
Pn
(y − y)(xi − x)
Pn i
βˆ1 = i=1 2
i=1 (xi − x)

n
∂logL n 1 1 X
(σ 2 ) : = − · + (yi − β0 − β1 xi )2 = 0
∂σ 2 2 σ2 2σ 4 i=1

5
n
X
−nσ 2 + (yi − β0 − β1 xi )2 = 0
i=1
Pn
i=1 (yi − β0 − β1 xi )2
σ2 =
n
yˆi = βˆ0 + βˆ1 xi → sample regression function

ˆ ˆ ûi > 0 → overestimate
ûi = yi − yˆi = ûi = yi − β0 − β1 xi =
ûi < 0 → underestimate

*Properties
Pn
i=1 ûi = 0 → the sum, and therefore the sample average of the OLS
residual
Pn is zero
i=1 xi ûi = 0 → the sample covariance between the regressor and the OLS
residual is zero
y = βˆ0 + βˆ1 x → the point (x, y) is always on the OLS regression line

n
X n
X n
X n
X n
X
yi = yˆi + ûi → yi = yˆi + ûi = yˆi = (βˆ0 + βˆ1 xi )
i=1 i=1 i=1 i=1 i=1

Pn Pn ˆ + βˆ1 xi )
yi i=1 (β0
i=1
= → y = βˆ0 + βˆ1 x
n n

Pn
Total sum of squares → SST ≡ i=1 (yi − y)2
Pn
Explained sum of squares → SSE ≡ i=1 (yˆi − y)2
Pn
Residual sum of squares → SSR ≡ i=1 ûi 2

∴ SST = SSE + SSR


SSE SSR
R2 = =1− (12)
SST SST

Hipótese 1: O modelo é linear nos parâmetros → y = β0 + β1 x1 + u


Hipótese 2: A amostra é aleatória → {(xi , yi ) : i = 1, 2, . . . , n} | yi =
β0 + β1 xi + ui Pn
Hipótese 3: Há variação na váriavel explicativa x → i=1 (xi − x) > 0
Hipótese 4: média condicional zero → E(u|x) = 0 =⇒ E(ui |xi ) = 0
Sobre hipótese 1-4 temos que:

E(βˆ0 ) = β0

6
E(βˆ1 ) = β1
Hipótese 5: Homocedasticidade → Var(ui |xi ) = σ 2 = Var(ui )

σ2
Var(βˆ1 ) =
SSTx
Pn
ˆ σ 2 · i=1 x2i
Var(β0 ) =
n · SSTx
Sendo que: Pn
2 ûi 2
i=1
σ̂ =
n−2
Assim como:
E(σ̂ 2 ) = σ̂ 2
Além disso: q
ˆ
se(βˆ0 ) = Var(βˆ0 )
q
ˆ
se(βˆ1 ) = Var(βˆ1 )
Exemplo:
Base de dados "salario"
reg <- lm(salariom ∼ educ, data = salario, na.action = na.exclude)
Visualizar sumário na tabela 1

Table 1:

Dependent variable:
salariom
educ 180.674∗∗∗
(1.339)

Constant 0.830
(13.313)

Observations 161,092
R2 0.101
Adjusted R2 0.101
Residual Std. Error 2,308.464 (df = 161090)
F Statistic 18,196.630∗∗∗ (df = 1; 161090)
Note: ∗
p<0.1; ∗∗
p<0.05; ∗∗∗
p<0.01

Interpretação: nivel-nivel, cada um ano amais de estudo, em média, au-


menta o salário em 180,67 reais

7
reg <- lm(lsalario-h ∼ educ, data = salario, na.action = na.exclude)
Visualizar sumário na tabela 2

Table 2:

Dependent variable:
lsalario_h
educ 0.089∗∗∗
(0.0005)

Constant 1.154∗∗∗
(0.005)

Observations 151,934
R2 0.192
Adjusted R2 0.192
Residual Std. Error 0.769 (df = 151932)
F Statistic 36,038.180∗∗∗ (df = 1; 151932)
Note: ∗
p<0.1; ∗∗
p<0.05; ∗∗∗
p<0.01

interpretção: log-nivel, cada ano amais de estudo, em média, o prêmio


salárial é de 8,9% a mais no salário recebido por hora trabalhada.
reg <- lm(lsalario-h ∼ log(idade), data = salario, na.action = na.exclude)
Visualizar sumário na tabela 3

Table 3:

Dependent variable:
lsalario_h
log(idade) 0.358∗∗∗
(0.007)

Constant 0.686∗∗∗
(0.024)

Observations 152,359
R2 0.019
Adjusted R2 0.019
Residual Std. Error 0.846 (df = 152357)
F Statistic 2,946.150∗∗∗ (df = 1; 152357)
Note: ∗
p<0.1; ∗∗
p<0.05; ∗∗∗
p<0.01

8
Interpretação: log-log, a elasticidade dos salários em hora com respeito a
idade, que dá em média, 35,8%

Capítulo 3

y = β 0 + β 1 x 1 + β 2 x 2 + . . . βk x k + u

• y → dependent variable
• x1 − xk → independent variable
• β0 → intercept parameter

• β1 − βk → slope parameter
• u → error term

Key assumption
E(u|x1 , x2 , . . . xk ) = 0
Ao mínimo a equação acima requer que todos os fatores no termo não observado
sejam não correlacionados com as váriaveis explicativas

Definição do resíduo de uma regressão múltipla

ûi = yi − βˆ0 − βˆ1 xi1 − βˆ2 xi2 · · · − βˆk xik

O método de OLS consiste em escolher os k + 1 parâmetros do modelo


economêtrico de forma a minimizar a soma do quadrado dos resíduos:
n
X
min ûi 2 → βˆ0 , βˆ1 , βˆ2 , . . . βˆk
i=1

Caso de duas váriaveis (ou 3 parâmetros

ûi = yi − βˆ0 − βˆ1 xi1 − βˆ2 xi2


n
X n
X
min ûi 2 = (yi − βˆ0 − βˆ1 xi1 − βˆ2 xi2 )2
i=1 i=1

C.P.O:
n
X
[β0 ] : 2 (yi − βˆ0 − βˆ1 xi1 − βˆ2 xi2 )(−1) = 0(∗)
i=1
n
X
[β1 ] : 2 (yi − βˆ0 − βˆ1 xi1 − βˆ2 xi2 )(−xi1 ) = 0(∗∗)
i=1

9
n
X
[β2 ] : 2 (yi − βˆ0 − βˆ1 xi1 − βˆ2 xi2 )(−xi2 ) = 0(∗ ∗ ∗)
i=1

De (*)
n
X n
X
−2 (yi − βˆ0 − βˆ1 xi1 − βˆ2 xi2 ) = 0 → (yi − βˆ0 − βˆ1 xi1 − βˆ2 xi2 ) = 0
i=1 i=1

n
X n
X n
X
yi − nβˆ0 − βˆ1 xi1 − βˆ2 xi2 = 0 (/n) → y − βˆ0 − βˆ1 x1 − βˆ2 x2 = 0
i=1 i=1 i=1

βˆ0 = y − βˆ1 x1 − βˆ2 x2 (1)


Substituindo (1) em (**)
n
X n
X
−2 xi1 (yi −(y−βˆ1 x1 −βˆ2 x2 )−βˆ1 xi1 −βˆ2 xi2 ) = 0 → xi1 (yi −y+βˆ1 x1 +βˆ2 x2 −βˆ1 xi1 −βˆ2 xi2 ) = 0
i=1 i=1

n
X n
X n
X n
X
xi1 [(yi −y)−βˆ1 (xi1 −x1 )−βˆ2 (xi2 −x2 )] = 0(∗∗)0 → xi1 (yi −y) = βˆ1 xi1 (xi1 −x1 )+βˆ2 xi1 (xi2 −x2 )]
i=1 i=1 i=1 i=1

Simetricamente para (***)


n
X n
X n
X n
X
xi2 [(yi −y)−βˆ1 (xi1 −x1 )−βˆ2 (xi2 −x2 )] = 0(∗∗∗)0 → xi2 (yi −y) = βˆ1 xi2 (xi1 −x1 )+βˆ2 xi2 (xi2 −x2 )]
i=1 i=1 i=1 i=1

Montando um sistema Ax=b com (**)’ e (***)’

Pn Pn    Pn
ˆ

Pi=1 xi1 (xi1 − x1 ) Pi=1 xi1 (xi2 − x2 ) β1 i=1 xi1 (yi − y)
n n
ˆ = Pn
i=1 xi2 (xi1 − x1 ) i=1 xi2 (xi2 − x2 ) β2 i=1 xi2 (yi − y)

Aβ̂ = b
Lembrando:
 
a11 a12
A=
a21 a22

detA = a11 a22 − a12 a21

Aβ̂ = b → β̂ = A−1 b, se detA 6= 0

(−1)1+1 a22 (−1)1+2 a12


 
1
β̂ = b
detA (−1)2+1 a21 (−1)2+2 a11
Pn Pn  Pn
(−1)2 Pi=1 xi2 (xi2 − x2 ) (−1)3 Pi=1 xi1 (xi2 − x2 ) Pi=1 xi1 (yi − y)
 
1
n n n
detA (−1)3 i=1 xi2 (xi1 − x1 ) (−1)4 i=1 xi1 (xi1 − x1 ) i=1 xi2 (yi − y)

10
 Pn Pn  Pn 
1
Pnxi2 (xi2 − x2 )
i=1 Pn i=1 xi1 (xi2 − x2 ) Pni=1 xi1 (yi − y)
(−1)
detA (−1) i=1 xi2 (xi1 − x1 ) i=1 xi1 (xi1 − x1 ) i=1 xi2 (yi − y)

Pn Pn Pn Pn
ˆ i=1 xi2 (xi2 − x2 ) i=1 xi1 (yi − y) − i=1 xi1 (xi2 − x2 ) i=1 xi2 (yi − y)
β1 = Pn Pn Pn Pn
i=1 xi1 (xi1 − x1 ) i=1 xi2 (xi2 − x2 ) − i=1 xi1 (xi2 − x2 ) i=1 xi2 (xi1 − x1 )

Como
n
X n
X
xi1 (yi − y) = (xi1 − x1 )(yi − y)
i=1 i=1
n
X n
X
xi1 (xi1 − x1 ) = (xi1 − x1 )2
i=1 i=1
n
X n
X
xi1 (xi2 − x2 ) = (xi1 − x1 )(xi2 − x2 )
i=1 i=1

Portanto
Pn Pn Pn Pn
ˆ )2 i=1 (xi1 − x1 )(yi − y) − i=1 (xi1 − x1 )(xi2 − x2 ) i=1 (xi2 − x2 )(yi − y)
i=1 (xi2 − x2P
β1 = n 2
Pn 2
Pn 2
i=1 (xi1 − x1 ) i=1 (xi2 − x2 ) − [ i=1 (xi1 − x1 )(xi2 − x2 )]
Pn 2 Pn Pn Pn
i=1 (xi2 −x2 ) i=1 (xi1 −x1 )(yi −y) i=1 (xi1 −x1 (xi2 −x2 ) i=1 (xi2 −x2 )(yi −y)

βˆ1 = n Pn nP
2 n 2
Pnn n
i=1 (xi1 −x1 ) i=1 (xi2 −x2 ) i=1 (xi1 −x1 )(xi2 −x2 )
n n −[ n ]2
\x1 ]var[x
cov[y, \2 ] − cov[x
\ \
1 , x2 ]cov[y, x2 ]
βˆ1 =
\1 ]var[x
var[x \2 ] − [cov[x
\ 2
1 , x2 ]]

Agora para βˆ2


Pn Pn Pn Pn
− xi2 (xi1 − x1 ) i=1 xi1 (yi − y) + i=1 xi1 (xi1 − x1 ) i=1 xi2 (yi − y)
βˆ2 = Pn i=1 Pn Pn Pn
i=1 xi1 (xi1 − x1 ) i=1 xi2 (xi2 − x2 ) − i=1 xi1 (xi2 − x2 ) i=1 xi2 (xi1 − x1 )
Pn Pn Pn Pn
ˆ − i=1 (xi2 − x2 )(xi1 − x1 ) i=1 (xi1 − x1 )(yi − y) + i=1 (xi1 − x1 )2 i=1 (xi2 − x2 )(yi − y)
β2 = Pn 2
Pn 2
Pn 2
i=1 (xi1 − x1 ) i=1 (xi2 − x2 ) − [ i=1 (xi1 − x1 )(xi2 − x2 )]
Pn Pn Pn 2 Pn
i=1 (xi2 −x2 )(xi1 −x1 ) i=1 (xi1 −x1 )(yi −y) i=1 (xi1 −x1 ) i=1 (xi2 −x2 )(yi −y)
− +
βˆ2 = n
Pn
)2
Pn n
2
Pn n n
i=1 (xi1 −x1 i=1 (xi2 −x2 ) i=1 (xi1 −x1 )(xi2 −x2 ) 2
n n −[ n ]
\x2 ]var[x
cov[y, \1 ] − cov[x
\ \
1 , x2 ]cov[y, x1 ]
βˆ2 =
\1 ]var[x
var[x \2 ] − [cov[x
\ 2
1 , x2 ]]

Valor predito:

yˆi = βˆ0 + βˆ1 xi1 + βˆ2 xi2 + ... + βˆk xik

sendo yˆi o fitted or predicted value.


Resíduo:
ûi = yi + yˆi

11
Properties
Pn
Pni=1 ûi = 0 → deviations from regression line sum up to zero
i=1 xij ûi = 0 → covariance between deviation and regression are zero
y = βˆ0 + βˆ1 x1 + βˆ2 x2 +...+ βˆk xk → sample averages of y and of the regressors
lie on regression line Pn Pn Pn
Pn Pn Pn uˆi yi yˆi
ûi = yi − yˆi → i=1 ûi = i=1 yi − i=1 yˆi → i=1 n = i=1
n + i=1n
û = y − ŷ Pn
i=1 u
ˆi
Pn
i=1 ûi = 0 → n = û = 0
Logo ŷ = y
ŷ = βˆ0 + βˆ1 x1 + βˆ2 x2 + ... + βˆk xk
Então y = βˆ0 + βˆ1 x1 + βˆ2 x2 + ... + βˆk xk
Considere a regressão com duas variáveis Podemos usar o resíduo de uma
regressão (auxiliar) simples de x1 contra x2 para obter βˆ1 por meio de outra
regressão simples → efeito "Partialling out" de βˆ1
i.e, qual a relção entre y e x1 depois de "considerar" o efeito de x2 em x1
Processo:
• Regredir a varável explicativa x1 contra x2 , obter o vetor de resíduos dessa
regressão rˆi1
• Regredir y contra esse vetor de resíduos do passo 1.
Pn
rˆi1 yi
βˆ1 = Pi=1
n
rˆi1
i=1
Pn
i=1 rˆ
i1 yi
Mostar que βˆ1 = P n (*) é igual a βˆ1 =
i=1 rˆi1
\ 1 ]var[x
cov[y,x \2 ]−cov[x \ \
1 ,x2 ]cov[y,x2 ]
(**)
var[x1 ]var[x2 ]−[cov[x1 ,x2 ]]2
\ \ \
1º passo: rˆi1 = xi1 − xˆi1 onde xˆi1 = αˆ0 + αˆ1 xi2
αˆ0 = x1 − αˆ1 x2
Substituindo

rˆi1 = xi1 − xˆi1 = rˆi1 = xi1 − αˆ0 + αˆ1 xi2 = xi1 − (x1 − αˆ1 x2 ) + αˆ1 xi2

rˆi1 = (xi1 − x1 ) − αˆ1 (xi2 − x2 )


Substituindo em (*)
Pn Pn Pn
ˆ i=1 [(xi1 − P
x1 ) − αˆ1 (xi2 − x2 )]yi i=1 (xi1 − x1 )yP
i − αˆ1 i=1 (xi2 − x2 )yi
β1 = n = n
r
i=1 i1ˆ r
i=1 i1ˆ
Pn
Pn (x −x1 )(xi2 −x2 ) Pn
− x1 )yi − Pn i1 − x2 )yi
i=1 (xi1 i=1 (xi2
i=1
2
i=1 (xi2 −x2 )
βˆ1 = Pn
i=1 rˆ
i1
Pn 2
Pn Pn Pn
i=1 (xi2 − x2 ) i=1 (xi1 − x1 )(yi − y) − i=1 (xi1 − x1 )(xi2 − x2 ) i=1 (xi2 − x2 )(yi − y)
βˆ1 = Pn 2
Pn
i=1 (xi2 − x2 ) i=1 rˆ
i1

12
Resolvendo o denominador:
n
X n
X n
X n
X
(xi2 − x2 )2 rˆi1 2 = (xi2 − x2 )2 [(xi1 − x1 ) − αˆ1 (xi2 − x2 )]2
i=1 i=1 i=1 i=1

n
X n
X
= (xi2 − x2 )2 [(xi1 − x1 )2 − αˆ1 (xi1 − x1 )(xi2 − x2 ) + αˆ1 2 (xi2 − x2 )2 ]
i=1 i=1
n
X n
X n
X n
X
= (xi2 −x2 )2 (xi1 −x1 )2 −αˆ1 (xi1 −x1 )(xi2 −x2 ) (xi2 −x2 )2 +αˆ1 2 (xi2 −x2 )4
i=1 i=1 i=1 i=1
n n Pn n n
(x − x1 )(xi2 − x2 ) X
Pni1
X X X
2 2
= (xi2 −x2 ) (xi1 −x1 ) −( i=1
2
) (xi1 −x1 )(xi2 −x2 ) (xi2 −x2 )2 +
i=1 i=1 i=1 (xi2 − x2 ) i=1 i=1
Pn
(x − x1 )(xi2 − x2 ) 2
( Pni1
i=1
2
) (xi2 − x2 )4
i=1 (x i2 − x 2 )
n
X n
X n
X
= (xi2 − x2 )2 (xi1 − x1 )2 − [ (xi1 − x1 )(xi2 − x2 )]2
i=1 i=1 i=1

Juntando tudo:
Pn Pn Pn Pn
(xi2 − x2 )2 i=1 (xi1 − x1 )(yi − y) − i=1 (xi1 − x1 )(xi2 − x2 ) i=1 (xi2 − x2 )(yi − y)
βˆ1 = i=1 Pn 2
Pn 2
Pn 2
i=1 (xi2 − x2 ) i=1 (xi1 − x1 ) − [ i=1 (xi1 − x1 )(xi2 − x2 )]

Pn 2 Pn Pn Pn
i=1 (xi2 −x2 ) i=1 (xi1 −x1 )(yi −y) i=1 (xi1 −x1 )(xi2 −x2 ) i=1 (xi2 −x2 )(yi −y)

βˆ1 = n Pn n P
2 n 2
Pnn n
i=1 (xi2 −x2 ) i=1 (xi1 −x1 ) i=1 (xi1 −x1 )(xi2 −x2 )
n n −[ n ]2

\x1 ]var[x
cov[y, \2 ] − cov[x
\ \
1 , x2 ]cov[y, x2 ]
βˆ1 =
\1 ]var[x
var[x \2 ] − [cov[x
\ 2
1 , x2 ]]

Decompondo a variação total das váriavel explicada (y):

SST = SSE + SSR


n
X
SST = (yi − y)2
i=1
n
X
SSE = (yˆi − y)2
i=1
n
X
SSR = ûi 2
i=1

R-quadrado
SSE SSR
R2 ≡ =1−
SST SST

13
O R2 nunca reduz quando adicionado outras váriaveis → ferramenta ruim
para avaliar se uma variável deve ser incluida no modelo

cov[y, ŷ]
ρy,ŷ =
σy σŷ
R2 = (ρy,ŷ )2

Pn
2 [ − y)(yˆi − ŷ)]2
i=1 (yi
R = Pn 2
Pn 2
i=1 (yi − y) i=1 (yˆi − ŷ)
Pn 2
i=1 (yi −y)(yˆi −ŷ)]
n2
= Pn 2
Pn 2
i=1 (yi −y) i=1 (yˆi −ŷ)
n n
2
cov[yi , y]
=
var[yi ]var[ŷ]
Mostrar que R2 = (ρy,ŷ )2 = SSE
SST P
[ ni=1 (yi −y)(yˆi −ŷ)]
2
Como yi = yˆi + ûi e 2
R = Pn (y 2
Pn 2
i=1 i −y) i=1 (yˆi −ŷ)

Pn Pn
[ (yˆi + ûi − y)(yˆi − ŷ)]2 [ i=1 (yˆi − y + ûi )(yˆi − ŷ)]2
R2 = Pni=1 2
P n 2
= P n 2
Pn 2
i=1 (yi − y) i=1 (yˆi − ŷ) i=1 (yi − y) i=1 (yˆi − ŷ)

Como ŷ = y
Pn Pn
2 [ i=1 (yˆi − y)2 + i=1 ûi (yˆi − ŷ)]2
R = Pn 2
Pn 2
i=1 (yi − y) i=1 (yˆi − ŷ)
Como
n
X n
X
ûi (yˆi − ŷ) = ûi [βˆ1 (xi1 − x1 ) + βˆ2 (xi2 − x2 ) + . . . βˆk (xik − xk )]
i=1 i=1

n
X n
X n
X
= βˆ1 ûi (xi1 − x1 ) + βˆ2 ûi (xi2 − x2 ) + . . . βˆk ûi (xik − xk )
i=1 i=1 i=1
Pn
Pela prop. 2: Pi=1 ûi xij = 0 para j = 1, 2, . . . k
n
Deriva-se que i=1 ûi (xij − xj ) = 0
Portanto:
Xn
ûi (yˆi − ŷ) = βˆ1 0 + βˆ2 0 + . . . βˆk 0
i=1

Então:
Pn Pn
2 [ i=1 (yˆi − y)2 ]2 i=1 (yˆi − y)
2
SSE
R = Pn n = Pn 2
=
− SST
P
(y
i=1 i − y) 2 (
i=1 iyˆ − ŷ)2 (y
i=1 i y)

14
Hipótese 1: O modelo é linear nos parâmetros → y = β0 + β1 x1 + β2 x2 +
· · · + βk x k + u
Hipótese 2: A amostra é aleatória → {(xi1 , xi2 , . . . , xik , yi ) : i =
1, 2, . . . , n} | yi = β0 + β1 xi1 + β2 xi2 + · · · + βk xik + ui
Hipótese 3: Ausência de colinearidade perfeita.
Isso acontece quando ao menos uma váriavel independente é uma combinação
linear exata de outras váriaveis independentes.
Hipótese 4: média condicional zero → E(u|x) = 0 =⇒
E(ui |xi1 , xi2 , . . . , xik ) = 0
variáveis endógenas → variáveis explicativas correlacionadas com o termo
de erro
variáveis exógenas → variáveis explicativas não são correlacionadas com
o erro
Exogeneidade é portanto uma hipótese crucial para a interpretação causal
da regressão, assim como, para a condição de não-viés dos estimadores de OLS
Teorema 1:
Sobre hipótese 1-4 temos que:

E(βˆj ) = βj , j = 0, 1, . . . , k

Prova (matricial)
y = Xβ + u
u = y − Xβ
Then if we want to derive OLS we must find the beta value that minimizes the
squared residuals (u).
u0 u = (y − Xβ)0 (y − Xβ)
Note that the square of a matrix is denoted by the multiplication of the matrix
transpose by itself. Our next step is to simply distribute the terms.

u0 u = y 0 y − y 0 (Xβ) − (Xβ)0 y + (Xβ)0 (Xβ)

Sabemos que y 0 (Xβ) é igual a (Xβ)0 y

u0 u = y 0 y − 2(Xβ)0 y + (Xβ)0 (Xβ)

u0 u = y 0 y − 2(Xβ)0 y + β 0 X 0 Xβ
Now in order to finnd the beta that minimizes our subject, we want to take the
derivative in respect to beta and set it equal to zero. This will find the point in
the function where our slope is equal to zero, also known as a minimum point.

∂u0 u
= −2X 0 y + 2X 0 X β̂ = 0
∂β

X 0 X β̂ = X 0 y
(X 0 X)−1 X 0 X β̂ = (X 0 X)−1 X 0 y

15
β̂ = (X 0 X)−1 X 0 y
Substituindo y por Xβ + u

β̂ = (X 0 X)−1 X 0 (Xβ + u)
β̂ = (X 0 X)−1 X 0 Xβ + (X 0 X)−1 X 0 u
β̂ = Iβ + (X 0 X)−1 X 0 u
Tirando a expectativa dos dois lados, sabendo que E[ui |xi ] = 0 temos que:

E[β̂] = β

Hipótese 5: Homocedasticidade → Var[ui |xi1 , xi2 , . . . xik ] = σ 2


Notação: V ar[ui |xi ] = σ 2 onde xi = (xi1 , xi2 , . . . xik )
Teorema 2:
Dadas as hipóteses 1-5, a variância dos esrtimadores OLS:

σ2
V ar[βˆj ] =
SSTj (1 − Rj2 )

A variância do erro pode ser estimada:


Pn
2 i=1 ûi
σ =
[n − k − 1]

Teorema 3: A variância do erro estimado é não viesado


Dado as hipóteses 1-5:
E[σ 2 ] = σ 2
Calculando o erro padrão dos estimadores de OLS:
A verdadeira variância ou desvio de βˆj :
s
σ2
q
sd(βˆj ) = V ar[βˆj ] =
[SSTj (1 − Rj2 )]

A variância do erro estimado de βˆj


s
σˆ2
q
ˆ
se(βˆj ) = V ar[ ˆβj] =
[SSTj (1 − Rj2 )]

Teorema 5: Gauss-Markov
Dada as hipóteses 1-5, o estimador de OLS é o melhor estimador linear
não-viesado ("BLUE") dos coeficientes da regressão, i.e

V ar[βˆj ] ≤ V ar[β˜j ] j = 0, 1, . . . , k
Pn
para todo β˜j = i=1 wij yi tal que E[β˜j ] = βj ; j = 0, . . . , k

16
Table 4:

Dependent variable:
salariom
educ 208.138∗∗∗
(1.341)

idade 42.068∗∗∗
(0.473)

horas_m 6.183∗∗∗
(0.102)

Constant −2,902.121∗∗∗
(30.242)

Observations 161,092
R2 0.160
Adjusted R2 0.160
Residual Std. Error 2,231.445 (df = 161088)
F Statistic 10,262.850∗∗∗ (df = 3; 161088)
Note: ∗
p<0.1; ∗∗
p<0.05; ∗∗∗
p<0.01

17
Exemplo: Base de dados "salario"
reg <- lm(salariom ∼ educ + idade + horas-m, data = salario, na.action =
na.exclude)
Visualizar sumário na tabela 4:
Interpretação: Cada ano amais de estudo, em média, o salário aumenta
em 208,13 reais controlando por idade e horas mensais trabalhadas.
Cada ano amais de idade, em média, o salário aumenta em 42,06 reais con-
trolando por estudos e horas mensais trabalhadas
Cada hora amais trabalhada, em média, aumenta o salário em 6,18 reais
controlado por estudo e idade.

Capítulo 4
Hipótese 6: Normalidade → u ∼ N ormal(0, σ 2 )
since u is independent of the xj under 6, E[u|x1 , . . . , xk ] = E[u] = 0 and
V ar[u|x1 , . . . , xk ] = V ar[u] = 0 → hipótese forte
Hipóteses 1-6: Classical Linear Model (CLM) assumptions
Então CLM = Gauss-Markov + distribuição normal do termo de erro

y|x ∼ N ormal(β0 + β1 x1 + β2 x2 + ... + βk xk , σ 2 )


where x = (x1 , . . . , xk ). Thus, conditional on x, y has a normal distribution
with mean linear in x1 , . . . , xk and a constant variance.
Teorema: Distribuição amostral dos estimadores de OLS
Sob CLM:

βˆj − βj
βˆj ∼ N ormal(βj , V ar[βˆj ]) ∼ N ormal(0, 1)
sd[βˆj ]

condicional as variáveis independentes xi


Prova:
y = β0 + β1 x 1 + · · · + βk x k + u
Método Pnde 2 estágios
rˆi1 yi
βˆ1 = Pi=1 n onde rˆi1 = xi1 − xˆi1
i=1 rˆ
i1
e xˆi1 é o valor predito de xi1 obtida da regressão de xi1 contra {xi2 , xi3 , , xik }
Rescrevendo βˆ1
Pn n n
rˆi1 X X
βˆ1 = [ Pni=1 ]yi = wi1 yi = wi1 (β0 + β1 xi1 + · · · + βk xik + ui )
i=1 rˆ i1 i=1 i=1

n
X n
X n
X n
X
β0 wi1 + β1 wi1 xi1 + · · · + βk wi1 xik + wi1 ui
i=1 i=1 i=1 i=1
Pn Pn Pn
i) i=1 wi1 = 0, pois i=1
Pnrˆi1 2 = Pn 1 2 i=1 rˆ
i1 =0
i=1 rˆ
i1 i=1 rˆ
i1

18
Pn
ii) i=1 wi1 xi1 = 1, pois
n n Pn
rˆi1 1 i=1 (xi1 − xˆi1 )(xi1 − xˆi1 )
X X
Pn x
2 i1 = Pn 2 (xi1 − xˆ )x
i1 i1 = Pn 2
i=1
r
i=1 i1ˆ rˆ
i=1 i1 i=1 i=1 rˆi1
Pn Pn
pois Pi=1 rˆi1 xˆi1 = Pi=1 rˆi1 (αˆ0 + αˆ1 xi2 + P . . . αk−1
ˆ xik )
n n n
= αˆP
0 i=1 rˆ
i1 + α
ˆ1 i=1 rˆ
i1 x i2 + . . . α ˆ
k−1 i=1 rˆ
i1 xik = 0
n
iii) i=1 wˆi1 xik = 0, pois
n n
X rˆi1 1 X
Pn x
2 ik = P n 2 rˆi1 xik = 0, ∀k ≥ 2
i=1 i=1 rˆi1 i=1 rˆ
i1 i=1

Pn
=⇒ βˆ1 = β1 + i=1 wi1 ui
onde wi1 só depende de xi
Hip.2 =⇒ ui iid
Hip.6 =⇒ ui ∼ N (0, σ 2 )
Pn
βˆ1 = β1 + i=1 wi1 ui é normal, pois a soma de variáveis normais indepe-
dentes é uma normal.
Qual a média e variância?
E[βˆ1 |xi ] = β1 ← não-viés, exógeno
σ2
V ar[βˆ1 |xi ] = Pn (xi1 −x 2 2 , R
i ) (1−R )
2
da regressão de x1 em {x2 , . . . xk }
i=1 1

βˆ1 |xi ∼ N (β1 , V ar[βˆ1 |xi ])

βˆ1 − β1
∼ N (0, 1)
sd(βˆ1 )
Teorema: (distribuição t para valores padronizados de βˆ1 usando o erro
padrão)
Sob CLM:
βˆj − βj
∼ tn−k−1
se(βˆj )

Teste de hipótese
Defina um nível de significância (= a probabilidade de rejeitar H0 quando
ela é verdadeira)
Testando contra H1 em teste unilateral
H0 : βj = 0 contra H1 : βj > 0

1. Construa a estatistica-t
2. Defina o nível de significância: 5% (+ comum)
3. Obtenha a tabela de distribuição-t o valor crítico (c) correspondente a 5%
e n − k − 1 graus de liberdade. Nesse caso n − k − 1 = 28, por isso c =
1,701

19
4. Rejeitar H0 se estatistica-t > 1,701

Testando contra H1 em teste unilateral (menor que zero)


H0 : βj = 0 contra H1 : βj < 0

1. Construa a estatistica-t
2. Defina o nível de significância: 5% (+ comum)

3. Obtenha a tabela de distribuição-t o valor crítico (c) correspondente a 5%


e n − k − 1 graus de liberdade. Nesse caso n − k − 1 = 18, por isso c =
-1,734
4. Rejeitar H0 se estatistica-t < -1,734

Testando contra H1 em teste bilateral (diferente de zero)


H0 : βj = 0 contra H1 : βj 6= 0

1. Construa a estatistica-t
2. Defina o nível de significância: 5% (+ comum)

20
3. Obtenha a tabela de distribuição-t o valor crítico (c) correspomndente a
5% e n − k − 1 graus de liberdade. Nesse caso n − k − 1 = 25, por isso c
= 2,06 e -2,06

4. Rejeitar H0 se estatistica-t < -2,06 ou > 2,06

Lembrar:

|t − ratio| > 1.645 → ”estatisticamente relevante ao nivel de 10%”

|t − ratio| > 1.96 → ”estatisticamente relevante ao nivel de 5%”


|t − ratio| > 2.576 → ”estatisticamente relevante ao nivel de 1%”
Calculando o p-valor para os testes com 1 parâmetro
P-valor: é o menor nivel de significância sob o qual a H0 é ainda rejeitada
→ Um p-valor pequeno é evidência contra H0 dado que esta pode ser rejeitada
mesmo a um nível muito pequeno de significância.
Como o p-valor é calculado

21
• O p-valor é o menor nível de significância sob a qual a H0 é ainda rejeitada
• No caso bilateral, o p-valor é portanto a probabilidade que a variável
aleatória que segue a distribuição-t com n − k − 1 graus de liberdade seja
maior que a estatistica t em termos absolutos, por ex. P C|T | > 1.85 =
2P (T > 1.85) = 2(0.0355) = 0.0718

• H0 é rejeitada se e somente se o p-valor é menor do que o nivel escolhido de significância

Por exemplo, se o nível for 5%, H0 não é rejeitada (pois 0.0718 > 5%)
Importância econômica 6= Significância estatística
Importância econômica depende do tamanho e sinal de βˆj e da unidade
de medida da variável dependente e independente.

Intervalo de confiança
Rescrevendo o teorema sobre o teste de hipótese, temos:

P (βˆj − c0,05 · se(βˆj ) ≤ βj ≤ βˆj + c0,05 · se(βˆj )) = 0, 95

Intervalos comuns:

P (βˆj − c0,01 · se(βˆj ) ≤ βj ≤ βˆj + c0,01 · se(βˆj )) = 0, 99

P (βˆj − c0,05 · se(βˆj ) ≤ βj ≤ βˆj + c0,05 · se(βˆj )) = 0, 95


P (βˆj − c0,10 · se(βˆj ) ≤ βj ≤ βˆj + c0,10 · se(βˆj )) = 0, 90
sendo:
c0,01 = 2, 576
c0,05 = 1, 96
c0,10 = 1, 645

Relação entre intervalo de confiança e teste de hipótese:

Se aj 6∈ intervalo ⇐⇒ rejeita − se H0 : βj = aj em f avor de H1 : βj 6= aj

Teste de hipótese - várias restrinções


Estatística de teste para múltiplas restrinções: Estatística F
Como calcular a estatística-F:
1. Obter a soma dos quadrados dos resíduos do modelo irrestrito SSRur
2. Obter a soma dos quadrados dos resíduos do modelo restrito SSRr
3. Obter a estatística-F:

22
(SSRr − SSRur )/q
F =
SSRur /(n − k − 1)
onde n − k − 1 são os graus de liberdade da regressão do modelo irrestrito e
q é o número de restrições em H0
Distribuição da estatística-F

(SSRr − SSRur )/q


F = ∼ Fq,n−k−1
SSRur /(n − k − 1)
A estatistica-F também pode ser usada para testar a significância geral da
regressão. Considere o modelo:

y = β0 + β1 xi1 + β2 xi2 + . . . βk xik + u

H0 : β0 = β1 = β2 = · · · = βk = 0 ← H0 é para testar se as variáveis


explicativas não são úteis para explicar y
Nesse caso, é possível mostrar a relação entre estatística-F e o R2 da regressão
completa:

(SSRr − SSRur )/q R2 /k


F = = 2
∼ Fq,n−k−1
SSRur /(n − k − 1) (1 − R )/(n − k − 1)

Prova:
SSR + SSE = SST

SSE SST − SSR SSR


R2 = = =1− =⇒ SSR = (1 − R2 )SST
SST SST SST
Portanto:
SSRr = (1 − Rr2 )SST
2
SSRur = (1 − Rur )SST
Substituindo na estatística-F:

(SSRr − SSRur )/q ((1 − Rr2 )SST − (1 − Rur


2
)SST )/1
F = = 2
SSRur /(n − k − 1) (1 − Rur )SST /(n − k − 1)
(1 − Rr2 − 1 + Rur
2
)/q 2
(Rur − Rr2 )/q
= 2
= 2
(1 − Rur )/(n − k − 1) (1 − Rur )/(n − k − 1)
No caso de teste geral da regressão:
→ modelo restrito: y = β0 + u
=⇒ SSE = 0 =⇒ Rr2 = 0
Além de que q = k
2
(Rur − 0)/k R2 /k
F = 2 )/(n − k − 1)
=
(1 − Rur (1 − R2 )/(n − k − 1)

23
Capítulo 5
Nos capítulos 3 e 4 vimos o que é chamado de amostra finita, amostra pequena
ou propriedades exatas dos estimadores OLS no modelo populacional:

y = β 0 + β 1 x 1 + β 2 x 2 + . . . βk x k + u

As propriedades derivadas como o Não-viés ou "BLUE" se mantem para


amostras de qualquer tamanho.
Veremos agora as Propriedades assintóticas ou Propriedade de
amostras grandes de estimadores e testes estatísticos. Essas propriedades não
são definidas por o tamanho de uma amostra específica, ao invés, são definidas
como o tamanho da amostra que cresce sem limite.

Consistência
Um estimador βˆj é dito consistente para um parâmetro populacional βj
se:
P (|βˆjn − βj | < ε) → 1∀ε > 0 e n → ∞
Notação alternativa ("convergência em probabilidade"): plimβjn = βj
Prova:
yi = β0 + β1 xi1 + ui [Hip.1 − 2]
Pn Pn
(xi1 − x1 )yi i=1 (xi1 − x )(β + β1 xi1 + ui )
βˆ1 = Pi=1
n 2
= Pn 1 0 2
(x
i=1 i1 − x 1 ) i=1 (xi1 − x1 )
Pn Pn Pn
β0 i=1 (xi1 − x1 ) + β1 i=1 (xi1 − x1 )xi1 + i=1 (xi1 − x1 )ui
= Pn 2
i=1 (xi1 − x1 )
Como:
n n n Pn n n
X X X
i=1 xi1 X X
(xi1 − x1 ) = xi1 − nx1 = xi1 − n = xi1 − xi1
i=1 i=1 i=1
n i=1 i=1

Isto é:
n
X
(xi1 − x1 ) = 0
i=1

E
n
X n
X
(xi1 − x1 )xi1 = (xi1 − x1 )2
i=1 i=1

Temos que:
Pn
i=1 (xi1 −x1 )ui
Pn
(xi1 − x1 )ui
βˆ1 = β1 + Pi=1
n = β1 + Pn n
2
2 i=1 (xi1 −x1 )
i=1 (xi1 − x1 ) n
Pn Pn
i=1 (xi1 −x1 )ui i=1 (xi1 −x1 )(ui −u)
Como u = 0 então n = n (i.e, covariância x, u
amostral)

24
Pn
(x −x )2
e i=1 ni1 1 é a variância amostral de x1
Pela Lei dos Grandes Números:
Pn
i=1 (xi1 − x1 )(ui − u)
→P Cov[x1 , u]
n
Quando n tende ao infinito a covariância amostral tende a covariância popula-
cional. Pn 2
i=1 (xi1 − x1 )
→P Var[x1 ]
n
Como i) Hip.4: E[u|x] = 0 =⇒ Cov[u,x]=0
ii) Hip.3 V ar[x1 ] 6= 0
Então: Pn
i=1 (xi1 −x1 )ui
0
βˆ1 = β1 + Pn (xn −x )2 →P β1 +
i=1 i1 1 V ar[x1 ]
n

plimβˆ1 = β1 ou βˆ1 →P β1 ou P (|βˆjn − βj | < ε) → 1∀ε > 0 e n → ∞


Observações:
• Foi necessário assumir: V ar[x1 ] < ∞ e V ar[u] < ∞
• Não foi necessário assumir Hip.4, e sim sua versão mais fraca Hip.4’:
E[u] = 0, Cov[xj , u] = 0 para j = 1, 2, . . . , k.

Normalidade assintótica
Inferência em amostras grandes: Os estimadores de OLS são normais
em amostras grandes mesmo a Hipótese 6.
Sob Hip.1-5:
βˆj − βj a
∼ N ormal(0, 1)
se(βˆj )
Em amostras grandes:
• A variância da regressão é consistente plimσˆ2 = σ 2
• Testes (t e F) são válidos mesmo sem Hip.6
• Ainda precisamos assumir Hip.1-5 e V ar[u] < ∞

Sobre a variância dos estimadores em amostras grandes:

σˆ2
ar[βˆj ] =
Vd
SSTj (1 − Rj2 )

i.e, é irrelevante ter desvio-padrão ou o erro-padrão na estatística de teste (em


grandes amostras).

25
Capítulo 6
Forma Funcional
Vantagens de alterar a forma funcional:
• Interpretação dos coeficientes
• Usar log atenua o problema de outliers nos dados
• Usar log frequentemente ajuda garantir normalidade e homocedasticidade
Cuidado:
• O log não deve ser usado quando a variável assume valores negativos
• Pode ser usado quando a variável assume (poucos) valores, iguais a zero,
desde que feita a normalização log(x + 1)
• Não se deve ser usado em variáveis com suporte entre 0 e 1: o log nesse
caso expande o suporte da variável (torna-se ilimitado a esquerda)
• Previsão de y quando a variável dependente é log(y): "desfazer" o log
usando a função exponencial prove um estimador enviesado porém consis-
tente
Correção: Seja a regressão,
log(y)
c = βˆ0 + βˆ1 log(x1 ) + βˆ2 x2
Podemos usar a função exponencial para recuperar uma estimativa consistente
de ∆y. Quando ∆x2 = 1
%∆ŷ = 100[exp(βˆ2 ) − 1]
Regra de bolso: usamos log para variáveis com valores monetários (salários,
PIB, faturamento, etc.) e variáveis de contagem (população, número de alunos,
número de empregados, etc.)

Função Quadrática
Utilizada para captar possível não-linearidade no efeito
Considere a equação estimada:
ŷ = βˆ0 + βˆ1 x + βˆ2 x2
Obtenha o efeito de x sobre y:
∆y
≈ βˆ1 + 2βˆ2 x
∆x
Note que o efeito depende do nível de x, caso βˆ2 seja estatisticamente diferente
de zero.
Calculando o ponto máximo, i.e, onde ∂x ∂y
=0
−βˆ1
x∗ =
2βˆ2

26
R-quadrado ajustado
O estimador da variância do erro (SSR/n) e da variância de y (SST /n) são
viesados.
SSR (SSR/n)
R2 = 1 − =1−
SST (SST /n)
2
σu
que é uma estimativa para 1 − σy2
Sendo que:
P 2
SSR uˆi
n = n →p σu2
(yi −y)2
P
SST
n = n →p σy2

(SSR/n) p σ2
R2 = 1 − → 1 − u2
(SST /n) σy
Sabemos que:
• O estimador não viesado da variância do erro é SSR/(n − k − 1)
• O estimador não viesado da variância de y é SST /(n − 1)
• Por isso, calcula-se o R2 ajustado:
2 (SSR/(n − k − 1)) adjusted R2
R =1− =
(SST /(n − 1)
SSR
n n são viesados, i.e, E[ n ] 6= σu e E[ n ] 6= σy
e SST SSR 2 SST 2

Porém, ao ajustar, E[ n−k−1 ] = σu e E[ n−1 ] = σy


SSR 2 SST 2

Além de que n−k−1


SSR
→p σu2 e SST p 2
n−1 → σy
2
O R ajustado aumenta se e somente se a estatística-t de um re-
gressor adicional é maior que 1 em valor absoluto/ se e somente se
a estatística-F de um conjunto de regressores adicionados for maior
que 1
2
R = 1 − (1 − R2 )(n − 1)/(n − k − 1)
O R2 ou R2 ajustado não devem ser usados para comparar modelos
em que a variável dependente tem formatos diferentes

Outros
Prevendo y quando log(y) é a variável dependente
log(y) = β0 + β1 x1 + β2 x2 + . . . βk xk + u
=⇒ y = exp(β0 + β1 x1 + β2 x2 + . . . βk xk )exp(u)
Sob a hipótese adicional de independência de u em relação a x1 , . . . xk
=⇒ E[y|x] = exp(β0 + β1 x1 + β2 x2 + . . . βk xk )E[exp(u)]
n
1 X
=⇒ ŷ = exp(βˆ0 + βˆ1 x1 + βˆ2 x2 + . . . βˆk xk )( exp(ûi ))
n i=1

27
Capítulo 7
Variáveis dummy descrevem uma informação qualitativa.

salario − h = β0 + δ0 mulher + β1 educ + u

Onde mulher é uma váriavel dummy em que é 1 quando a pessoa é mulher, e 0


quando a pessoa é homem.
δ0 = o salário ganho/perdido se a pessoa é uma mulher ao invés de um
homem (mantendo todos os fatores constantes).

δ0 = E[salario − h|mulher = 1|educ] − E[salario − h|mulher = 0|educ]

i.e, é a diferença entre a media salarial de mulheres e homens com o mesmo


nível de educação.
Exemplo:
reg <- lm(salario-h mulher + educ, na.action = na.exclude, data = salario)
Visualizar tabela 5:

Table 5:

Dependent variable:
salario_h
mulher −4.134∗∗∗
(0.242)

educ 1.440∗∗∗
(0.028)

Constant 0.501∗
(0.284)

Observations 161,092
R2 0.017
Adjusted R2 0.017
Residual Std. Error 47.693 (df = 161089)
F Statistic 1,374.700∗∗∗ (df = 2; 161089)
Note: ∗
p<0.1; ∗∗
p<0.05; ∗∗∗
p<0.01

interpretação: Controlando por educação, as mulheres recebem $4.13/ho-


ras menos do que os homens.
Cada ano amais de estudo, em média, o salário aumenta em 1,44 reais con-
trolando por gênero.

28
A interação com uma variável dummu permite testar diferentes efeitos da
educação sobre os salários entre homens e mulheres:

lsalarios − h = β0 + δ0 mulher + β1 educ + δ1 mulher · educ + u

Exemplo:
reg <- lm(lsalario-h mulher + educ + mulher· educ, na.action = na.exclude,
data = salario)
Visualizar na tabela 6:

Table 6:

Dependent variable:
lsalario_h
mulher −0.321∗∗∗
(0.010)

educ 0.091∗∗∗
(0.001)

mulher:educ 0.007∗∗∗
(0.001)

Constant 1.237∗∗∗
(0.006)

Observations 151,934
R2 0.212
Adjusted R2 0.212
Residual Std. Error 0.759 (df = 151930)
F Statistic 13,643.630∗∗∗ (df = 3; 151930)
Note: ∗
p<0.1; ∗∗
p<0.05; ∗∗∗
p<0.01

Interpretação: Controlando por educação, as mulheres recebem $0.32/ho-


ras menos do que os homens.
Cada ano amais de estudo, em média, o salário (para os homens) aumenta
em 0,09 reais.
Para cada ano de educação a mais para a mulher ela vai ter 0, 091 + 0, 007
reais a mais.

29
Váriavel dependente binária
Estimar pelo método OLS quando a variável dependente é uma dummy:
"modelo de probabilidade linear"

y = β0 + β1 x 1 + · · · + βk x k + u

=⇒ E[y|x] = β0 + β1 x1 + · · · + βk xk
Esperança (ou média) de uma variável binaria:

E[y|x] = 1 · P (y = 1|x) + 0 · P (y = 0|x)

Logo
=⇒ P (y = 1|x) = β0 + β1 x1 + · · · + βk xk
i.e, Modelo de probabilidade linear (LPM)

=⇒ βj = ∆P (y = 1|x)/∆xj

No LPM, os coeficientes descrevem o efeito da variável explicativa sobre


a probabilidade de y ser igual a 1
Desvantagens do LPM
• Probabilidade predita podem estar fora do intervalo [0, 1]
• O LPM é necessariamente heterocedastico (viola Hip.5)
V ar[y|x] = P (y = 1|x)[1 − P (y = 1|x)]
onde P (y = 1|x) = β0 + β1 x1 + · · · + βk xk
• Não afeta a estimação dos coeficientes (não viola Hip.1-4), porém afeta os
erros-padrão e inferência. Tem que fazer correção dos erros-padrão para
heterocedasticidade
Vantagens do LPM
• Fácil estimação dos efeitos marginais (= coeficientes do OLS)
• Na prática, a predição de y geralmente é razoável
• Ajuste da regressão OLS melhor do que o de outros modelos mais avança-
dos (probit, logit, . . . ) quando y e vários x são dummies

Capítulo 8
Estimação da variância do coeficiente do OLS na presença de hetero-
cedasticidade
Variância "robusta" do estimador de OLS:
Pn
rˆij 2 ûi 2
Vdar[βˆj ] = i=1 2
SSRj

30
Heterocedasticidade invalida a expressão da variância do estimador de OLS,
assim como Testes t e F. Todavia a propriedades de não-viés e consistência do
OLS preservadas.
Mas feito a correção, essa variância, o teste t é valido assintoticamente
Exemplo: Base de dados "salario" reg <- lm(salariom idade + educ,
na.action = na.exclude, data = salario)
mqo <- coeftest(reg) [Erros-padrão Eicker–Huber–White]
Visualizar sumário na tabela 7:

Table 7:

Dependent variable:

idade 41.335∗∗∗
(0.479)

educ 210.844∗∗∗
(1.355)

Constant −1,855.249∗∗∗
(25.125)

Note: ∗
p<0.1; ∗∗
p<0.05; ∗∗∗
p<0.01

Mínimos quadrados ponderados (WLS)


Antes de desenvolver erros-padrão e testes robustos, o usual era especificar
a forma da heterocedasticidade e estimar a equação por WLS

V ar[ui |xi ] = σ 2 h(xi ), h(xi ) = hi > 0

Temos como hipótese que a forma funcional da heterocedasticidade é conhecida

yi = β0 + β1 x1 + · · · + βk xk + ui
yi 1 x1 xk ui
[ √ ] = β0 [ √ ] + β1 [ √ ] + · · · + βk [ √ ] + [ √ ]
hi hi hi hi hi
yi∗ = β0 x∗i0 + β1 x∗i1 + · · · + βk x∗ik + u∗i
Este é o modelo transformado: não tem intercepto
O modelo transformado é homocedastico (garante Hip. 5) pois:

ui E[u2i |xi ] σ 2 hi
E[u∗2
i |xi ] = E[ √ |xi ] = = = σ2
hi hi hi

31
Dadas Hip. 1-4, OLS no modelo transformado é o melhor estimador
linear não viesado
OLS no modelo transformado é o estimador de Mínimos Quadrados Ponder-
ados (WLS)
n
X yi 1 x1 xk
min ([ √ ] − b0 [ √ ] − b1 [ √ ] + · · · − bk [ √ ])2
i=1
h i h i h i hi
n
X
⇐⇒ min (yi − b0 − b1 xi1 − · · · − bk xik )2 /hi
i=1

OLS x WLS
O que acontece se a função especificada h(x) estiver errada?
• WLS ainda é consistente pois não viola Hip.1-4, porem é necessário com-
putar os erros padrão robustos depois de estimar o WLS
• O estimador de OLS e WLS podem ser muito diferentes
– Isso tipicamente ocorre quando Hip. 4 é falsa
– i.e., quando o modelo esta mal especificado:
E[y|x] 6= β0 + β1 x1 + · · · + βk xk

FGLS
Quando não conhecemos a forma funcional da variância hetero-
cedastica (“feasible GLS”)

V ar[u|x] = σ 2 exp(δ0 + δ1 x1 + · · · + δk xk ) = σ 2 h(x)

Os dados e os coeficientes vão dizer o formato de h(x). Mas como estimar os


coeficientes δj j = 1, . . . , k? Defina o erro u:

u2 = σ 2 exp(δ0 + δ1 x1 + · · · + δk xk ) · v

v é independente de x1 , ..., xk e tem media 1.

log(u2 ) = α0 + δ1 x1 + · · · + δk xk + e

e = log(v), tem media 0 e é independente de x1 , ..., xk .

log(û2 ) = αˆ0 + δˆ1 x1 + · · · + δˆk xk + error

Usamos os residuos da regressao de y em 1,x1 , ..., xk . E rodamos a regressao de


log(residuo2 ) em 1,x1 , ..., xk

=⇒ ĥi = exp(αˆ0 + δˆ1 x1 + · · · + δˆk xk )

32
• Usar 1/h para ponderar as observações na regressão como fazemos no
WLS. Nesse caso, h é estimado!
• Ou, de forma equivalente,√transformamos cada variável inclusive a con-
stante dividindo-as por 1/ h e então estima o OLS no modelo transfor-
mado, com h estimado

• O estimador “feasible GLS” é enviesado: pois h foi estimada partindo do


pressuposto que o erro u ao quadrado é função de x1 , ..., xk
– Logo, não é BLUE
• Porem, o estimador “feasible GLS” é consistente e assintoticamente mais
eficiente que o OLS
Exemplo: Base de dados "smoke"
Step 1: Estimate the model
reg-OLS <- lm(cigs ∼ log(income) + log(cigpric) + educ + age + I(age2̂) +
restaurn)
BP test
library(lmtest)
bptest(reg-OLS) → The p-value is less than 0.000015, which is very strong
evidence of heteroskedasticity.
Obtain the residuals from step 1:
u-hat <- resid(reg-OLS)
Step 2: Square the residuals and take the natural log.
log-u-hatsqr <- log((u-hat)2̂)
Step 3: Regress the residual squares on the explanatory variables
reg-u-hat <-lm(log-u-hatsqr ∼ log(income) + log(cigpric) + educ + age +
I(age2̂) + restaurn)
Obtain the fitted value from the step 3 g-hat <- fitted(reg-u-hat)
Step 4: Exponetiate these fitted values h-hat <- exp(g-hat)
create the weights W <- 1/h-hat
Step 5: Estimate the model by using "W" weights.
reg-FGLS <- lm(cigs ∼ log(income) + log(cigpric) + educ + age + I(age2̂)
+ restaurn, weight = W)
Visualizar tabela 8:
OLS results:
Neither income nor cigarette price is statistically significant in column 1,
and their effects are not practically large.
Each year of education reduces the average cigarettes smoked per day by
one-half of a cigarette, and the effect is statistically significant.
Cigarette smoking is also related to age, it increases with a decreasing rate.
The presence of a restriction on smoking in restaurants decreases cigarette
smoking by almost three cigarettes per day, on average.
FGLS results:
The income effect is now statistically significant and larger in magnitude.

33
Table 8:

Dependent variable:
cigs
OLS S.E. FGLS
(1) (2)
log(income) 0.880 1.295∗∗∗
(0.728) (0.437)

log(cigpric) −0.751 −2.940


(5.773) (4.460)

educ −0.501∗∗∗ −0.463∗∗∗


(0.167) (0.120)

age 0.771∗∗∗ 0.482∗∗∗


(0.160) (0.097)

I(ageˆ2) −0.009∗∗∗ −0.006∗∗∗


(0.002) (0.001)

restaurn −2.825∗∗ −3.461∗∗∗


(1.112) (0.796)

Constant −3.640 5.635


(24.079) (17.803)

Observations 807 807


R2 0.053 0.113
Adjusted R2 0.046 0.107
Residual Std. Error (df = 800) 13.405 1.579
F Statistic (df = 6; 800) 7.423∗∗∗ 17.055∗∗∗
Note: ∗
p<0.1; ∗∗
p<0.05; ∗∗∗
p<0.01

34
The price effect is also notably bigger, but it is still statistically insignificant.
Conclusion:
Cigarette smoking is negatively related to schooling, has a quadratic rela-
tionship with age, and is negatively affected by restaurant smoking restrictions.

Ou seja, os resultados qualitativos não se alteram nesse caso porem os coe-


ficientes são estimados com mais precisão.

LPM e WLS
WLS aplicado ao modelo de probabilidade linear

P (y = 1|x) = p(x) = β0 + β1 x1 + . . . βk xk

=⇒ V ar[y|x] = p(x)[1 − p(x)]


=⇒ ĥi = ŷi [1 − ŷi ]
Estimar usando WLS com pesos iguais a 1/h, sendo h estimado
• Problema: se o valor predito de y for < 0 ou >1 para algum i
– Se esses casos são poucos, os valores menores que 0 podem ser ajus-
tados para .01 e os maiores que 1 ajustados para .99, para que h seja
positivo para todas as observações
• Ou, mais fácil e melhor, é estimar OLS e computar os erros-padrão robus-
tos
Exemplo: Base de dados "gpa1"
gpa1$parcoll <- ifelse(fathcoll == 1 | mothcoll == 1, 1, 0)
attach(gpa1)
Estimate the model
reg-OLS <- lm(PC ∼ hsGPA + ACT + parcoll)
White S.E.
coeftest(reg-OLS, hccm(reg-OLS, type = "hc0"))
There are no striking differences between the usual and robust standard
errors.
Let’s estimate this model by WLS.
y-hat <- fitted(reg-OLS)
h-hat <- y-hat(1 - y-hat) # Calculate h(x)
W <- 1/h-hat # Create weights
Estimate the model by WLS.
reg-WLS <- lm(PC ∼ hsGPA + ACT + parcoll, weights = W)
Visualizar a tabela 9:
There are no important differences in the OLS and WLS estimates. The
only significant explanatory variable is parcoll, and in both cases, we estimate
that the probability of PC ownership is about 0.22 higher if at least one parent
attended college.

35
Table 9:

Dependent variable:
PC
OLS S.E. WLS
(1) (2)
hsGPA 0.065 0.033
(0.137) (0.130)

ACT 0.001 0.004


(0.015) (0.015)

parcoll 0.221∗∗ 0.215∗∗


(0.093) (0.086)

Constant −0.0004 0.026


(0.491) (0.477)

Observations 141 141


R2 0.042 0.046
Adjusted R2 0.021 0.026
Residual Std. Error (df = 137) 0.486 1.016
F Statistic (df = 3; 137) 1.979 2.224∗
Note: ∗
p<0.1; ∗∗
p<0.05; ∗∗∗
p<0.01

36
Capítulo 9
Variável Proxy
Usando uma variável proxy para substituir uma variável explica-
tiva não observada
Exemplo: habilidade é omitida

log(wage) = β0 + β1 educ + β2 exper + β3 abil + u

A omissão de habilidade na regressão de salários geralmente leva a estimadores


enviesados. Uma proxy para habilidade pode ser usada para controlar para
diferenças de habilidade entre indivíduos de tal forma a obter coeficientes não
enviesados do OLS. Possível proxy: teste de QI.
Demonstração:
y = β0 + β1 x1 + β2 x2 + β3 x∗3 + u
x∗3 → variável omitida
x∗3 = δ0 + δ3 x3 + v3
Regressão da variável omitida contra sua proxy. Por construção, Cov(v3 , x3 ) = 0

Hipóteses necessárias para que a proxy funcione:


• A proxy somente explica salários via habilidade, i.e. não faz parte do
modelo econômico, não esta correlacionada com o erro u
Corr(x3 , u) = 0
• A proxy de fato explica a variável omitida (x∗3 ), i.e. independentemente
das outras variáveis incluídas (x1 ex2 )
E[x∗3 |x1 , x2 , x3 ] = E[x∗3 |x3 ] = δ0 + δ3 x3
Corr(x1 , v3 ) = Corr(x2 , v3 ) = 0
Se esse for o caso, o modelo pode ser estimado com a proxy x3 :

=⇒ y = (β0 + β3 δ0 ) + β1 x1 + β2 x2 + (β3 δ3 )x3 + (u + β3 v3 )

Dadas as hipóteses, o termo de erro (u + β3 v3 ) não é correlacionado com as


explicativas x1 , x2 , x3 . Os estimadores de OLS são não viesados.

Erro de Medida
Erro de medida na variável dependente:

y = y ∗ + e0

Valor com erro = valor verdadeiro + erro de medida

y ∗ = β0 + β1 x 1 + · · · + βk x k + u

37
Modelo populacional
=⇒ y = β0 + β1 x1 + · · · + βk xk + (u + e0 )
Consequências do erro de medida na variável dependente:
• Estimativas são menos precisas pois a variância do erro da regressão (=
u + e0 ) é maior
• OLS continua não-viesado e consistente (se o erro de medida não for cor-
relacionado com as variáveis explicativas!)
Erro de medida na variável explicativa:
x1 = x∗1 + e1
Valor com erro = valor verdadeiro + erro de medida
y = β0 + β1 x∗1 + · · · + βk xk + u
=⇒ y = β0 + β1 x1 + · · · + βk xk + (u − β1 e1 )
Hipótese: o erro é clássico, i.e Cov[x∗1 , e1 ]
Mesmo assim x1 é correlacionada com o erro da regressão:
=⇒ Cov[x1 , e1 ] = Cov[x∗1 , e1 ] + Cov[e1 , e1 ] = σe21

=⇒ Cov[x1 , u − β1 e1 ] = −β1 Cov[x1 , e1 ] = −β1 σe21


Consequências do erro de medida na variável explicativa:
• Se o erro de medida for clássico, OLS é enviesado e inconsistente pois viola
Hip. 4 (variável explicativa endógena)
2
σx ∗
• A inconsistência se dá pelo seguinte fator: plimβˆ1 = β1 σ2 1
+σe2
x∗
1 1

• Demonstração (modelo de regressão simples):


2
Cov[x1 , u − β1 e1 ] β1 σx∗1 σe21
plimβˆ1 = β1 + = β1 + 2 = β 1 (1 − )
V ar[x1 ] σe1 + σe21 σe21 + σe21
σx2∗1
plimβˆ1 = β1
σx2∗ + σe21
1

onde V ar[x1 ] = V ar[x∗1 ] + V ar[e1 ], dado que Cov[x∗1 , e1 ] = 0


• Se o erro de medida for clássico, o viés é de atenuação! Quanto maior a
variância do erro de medida mais próxima de zero estará a estimativa
• Quando o modelo possui mais variáveis explicativas (regressão múltipla),
o erro de medida em x1 , de uma forma geral, gera viés em todos os coefi-
cientes de OLS
• No caso especifico em que, por exemplo, Cov[x∗1 , x2 ] = 0, βˆ2 é consistente,
porem esse caso é raro na pratica

38
Estimação OLS - caso geral (Matriz)
Vamos considerar modelo de regressão linear múltipla com amostra aleatória:

yi = β0 + β1 xi1 + β2 xi2 + · · · + βk xik + ui

Podemos alternativamente podemos representar essa equação por sua forma


matricial, que é:
y = Xβ + u
       
y1 1 x11 . . . x1k β0 u0
 y2  1 x21 . . . x2k   β1   u1 
Em que: y=  . , X=  . .. .. .. , β =  .. , u =  .. 
       
 ..   .. . . .   .   . 
yn 1 xn1 . . . xnk βn un
Tendo definido os termos, voltemos a nossa formula de regressão e
rearranjando-a de forma conviniente aos nossos propósitos:

u = y − Xβ

Para estimar essa regressão via OLS temos que somar o quadrado dos resíduos.
Ou seja  
u1
X   u2 

u2i = u1 u2 . . . un  .  = u0 u
 
 .. 
un
Substituindo a nossa equação rearranjada nessa nova, temos:
X
u2i = u0 u = (y − Xβ)0 (y − Xβ)

Antes de continuar, vamos lembrar das propriedades da transposta:

(A0 )0 = A (13)

(A + B)0 = A0 + B 0 (14)
0
(AB) = B A 0 0
(15)
Portanto aplicando essas propriedades, temos que:
X
u2i = u0 u = y0 y − y0 Xβ − β 0 X0 y + β 0 X0 Xβ

Dando atenção especial ao termo y0 Xβ, temos que:

y0 Xβ = (y)0 (β 0 X0 )0 = B 0 A0 = AB = β 0 X0 y

Para entender a equação acima usamos a propriedade que a transposta de um


escalar é o próprio escalar, portanto nesse caso B 0 A0 = (AB)0 = AB. Voltando
a nossa equação, temos:

u0 u = y0 y − 2β 0 X0 y + β 0 X0 Xβ

39
Portanto para achar os mínimo quadrados temos que derivar a soma dos
resíduos ao quadrado por β:
∂u0 u ∂(y − Xβ)0 (y − Xβ) ∂(y0 y − 2β 0 X0 y + β 0 X0 Xβ)
= =
∂β ∂β ∂β
Antes de resolver precisamos de alguns conceitos de cálculo matricial:
∂a0 b ∂b0 a
= =a
∂b ∂b
quando a e b são vetores K × 1
∂b0 Ab
= 2Ab = 2b0 A
∂b
quando A é qualquer matriz simétrica. Note que você pode escrever a derivada
como 2Ab ou 2b0 A
∂2β 0 X0 y ∂2β 0 (X0 y)
= = 2X0 y
∂β ∂β
e
∂β 0 X0 Xβ ∂β 0 Aβ
= = 2Aβ = 2X0 Xβ
∂β ∂β
quando X0 X é uma matriz K × K
Consequentemente:
∂u0 u
= −2X0 y + 2X0 Xβ̂ = 0
∂β
Ou seja,
X0 Xβ̂ = X0 y
(X0 X)−1 X0 Xβ̂ = (X0 X)−1 X0 y
Ou seja,
β̂ = (X0 X)−1 X0 y

Econometria 2 (Cunningham)
Revisão de álgebra matricial
Uma matriz é um arranjo retangular de números. Ela assume
duas dimensões, linhas e colunas. Usualmente, identificamos cada
célula pelo seu respectivo número de linha e número da coluna. As-
sim, por exemplo, uma matriz m × n é escrita como:

a11 a12 a13 . . . a1n


 
 a21 a22 a23 . . . a2n 
 ...
A = [aij ] =  ..
.
..
.
... .. 
. 
am1 am2 am3 . . . amn

40
Em que aij denota o elemento da i-ésima linha e j-ésima coluna
da matriz A.
Uma matriz cujos número de linhas e número de colunas são
iguais é denominada matriz quadrada.
Uma matriz na qual uma das dimensões é igual a 1 é denominada
de vetor. Ele pode ser um vetor coluna (n=1) ou vetor linha (m=1).
Uma matriz 1×1 é um escalar.
Operações: soma de matrizes
Soma de Matrizes: Duas matrizes A e B da mesma dimensão
mxn podem ser somadas elemento a elemento. Isto é:

C = A + B ⇐⇒ C[cij ] = A[aij ] + B[bij ]


De uma forma mais genérica, tem-se:
a11 + b11 a12 + b12 a13 + b13 ... a1n + b1n
 
 a21 + b21 a22 + b22 a23 + b23 ... a2n + b2n 
A+B= .. .. .. .. .. 
 . . . . . 
am1 + bm1 am2 + bm2 am3 + bm3 . . . amn + bmn
Operações: multiplicação por escalar
Multiplicação por escalar: Dado um número real e uma matriz
A, então A = A[γaij ].
De uma forma mais genérica, tem-se:

γa11 γa12 γa13 . . . γa1n


 
 γa21 γa22 γa23 . . . γa2n 
 ...
γA =  ..
.
..
.
... .. 
. 
γam1 γam2 γam3 . . . γamn
Operações: multiplicação de matrizes
Duas matrizes A de dimensão m × n e B de dimensão p × q são
ditas conformáveis à multiplicação se, e somente se, n = p. Neste
caso, a multiplicação dessas matrizes é definida como:
Xn
AB = [ aik bkj ]
k=1

propriedades das operações de matrizes


• (α + β)A = αA + βA

41
• α(A + B) = αA + αB
• (αβ)A = α(βA)
• α(AB) = (αA)B
• A+B=B+A
• (A + B) + C = A + (B + C)
• (AB)C = A(BC)
• A(B + C) = AB + AC
• (A + B)C = AC + BC
• IA = AI = A
• A+0=A
• A A=0
• A0 = 0A = 0
Não necessariamente AB = BA
Transposta de uma matriz
A transposta de uma matriz Am × n é escrita como A’ ou AT
e é definida como a troca de posição de linhas e colunas na matriz
A. Assim, por exemplo, a transposta de uma matriz A m × n tem
dimensões n × m. Vejamos um exemplo:
 
0 1 −10 9
A = 2
0 8 3

A’ nesse caso é dado por:


 
1 0
A0 = −10 8 
2
9 3

Propriedades da matriz transposta


• (A’)’ = A
• (αA)0 = αA0
• (A + B)’ = A’ + B’

42
• (AB) = BA, com A e B conformáveis à multiplicação
• x0 x = ni=1 x2i , com x sendo um vetor coluna
P

A é dita simétrica se A = A’

Multiplicação de matrizes via particionamento


Sejam A e B duas matrizes conformáveis à multiplicação, então
uma outra forma de calcular AB se dá por definir A e B da seguinte
forma:  
A11 A12
A=
A21 A22
e  
B11 B12
B=
B21 B22
Em que A11 é m1 × n1 , A12 é m1 × n2 ,A21 é m2 × n1 e A22 é
m2 × n2 . Analogamente, B11 é m1 × p1 , B12 é n1 × p2 , B21 é n2 × p1
e B22 é n2 × p2 , com m1 + m2 = m, n1 + n2 = n e p1 + p2 = p
O produto AB então será dado por:
 
A11 B11 + A12 B21 A11 B12 + A12 B22
AB =
A21 B11 + A22 B21 A21 B12 + A22 B22
Traço
O traço de uma matriz A, escrito como tr(A) é definido como:
n
X
tr(A) = aii
i=1

O traço tem as seguintes propriedades:


• tr(In ) = n
• tr(A’) = tr(A)
• tr(A + B) = tr(A) + tr(B)
• tr(αA) = αtr(A)
• tr(AB) = tr(BA)

43
Inversa
A inversa de uma matriz quadrada A é escrita como A−1 e é
definida como: A−1 A = In ou AA1 = In
Caso A−1 exista, diz-se que A é invertível ou não-singular. Um
resultado da álgebra linear é que A−1 existe se, e somente se,
det(A) 6==0.
Propriedades:
• Se A−1 existe, então ela é única
• (αA)−1 = α1 A−1 , com α 6= 0 e A invertível
• (AB)−1 = B −1 A−1 , com A e B sendo matrizes quadradas de
dimensão n e ambas individualmente invertíveis
• (A−1 )−1 = A
Os softwares estatísticos automatizam o cálculo da inversa. Con-
tudo, há algoritmos de inversão manual de matrizes, tais como o
método de Gauss-Jordan.
Dependência Linear e Posto de uma matriz
Um conjunto de vetores n × 1 x1 , x2 , . . . , xr é dito linearmente
independente se, e somente se, a solução da seguinte equação:

α1 x1 + α2 x2 + · · · + αr xr = 0
é única e dada por α1 = α2 = · · · = αr = 0, ou seja, esse sistema
admite unicamente a solução trivial. Quando há soluções múltiplas
(e nesse caso infinitas), diz-se que os vetores dados são linearmente
dependentes.
Seja A uma matriz n × m. Então, o posto de A é definido como
o número máximo de colunas linearmente independentes de A.
Se posto(A)=m, então diz-se que A tem posto completo.
Propriedades:
• posto(A) = posto(A’)
• Se A é n × k, então posto(A) ≤ minn, k
• Se A é quadrada de dimensão k e posto(A) = k, então A é
invertível.

44
Formas quadráticas e matrizes positivas definidas
Seja A uma matriz quadrada de dimensão n, então para qualquer
vetor x de dimensão n × 1, a forma quadrática associada é dada por:
n
X n X
X n
0
f (x) = x Ax = aii x2i +2 aij xi xj
i=1 i=1 j>i

Uma matriz simétrica A é dita positiva definida se para qual-


quer vetor x n × 1, excetor o vetor nulo, temos que
x0 Ax > 0
Uma matriz simétrica A é dita positiva semi-definida se para
qualquer vetor x n × 1, exceto o vetor nulo, temos que:
x0 Ax ≥ 0
Se uma matriz é positiva definida ou positiva semi-definida, assume-
se automaticamente que ela também é simétrica.
Propriedades de matrizes positivas definidas e positivas semi-
definidas:
• Uma matriz positiva definida tem elementos diagonais estrita-
mente positivos, enquanto uma matriz positiva semi-definida
tem elementos diagonais não-negativos.
• Se A é positiva definida, então A1 existe e é também positiva
definida.
• Se X é n×k, então XX e XXsão positivas semi-definidas.
• Se X é n×k e posto(X) = k, então XX é positiva definida (logo,
não-singular).
Matrizes idempotentes
Uma matriz simétrica de dimensão n×n é dita idempotente se,
e somente se, AA = A.
Exemplo de uma matriz idempotente:
 
1 0 0
0 0 0
0 0 1
Propriedades:

45
• posto(A) = tr(A)
• A é positiva semi-definida
Exemplos de duas matrizes idempotentes importantes na
Econometria. Seja X uma matriz n×k com posto completo, então
as matrizes P e M a seguir são idempotentes:
P = X(XX)1 X
M = In X(XX)1 X = In P
Diferenciação de formas quadr´aticas e lineares
Há basicamente dois tipos de diferenciações de matrizes que são
usadas na derivação do estimador de MQO para o modelo de re-
gressão linear.
Considere um vetor a de dimensão n×1 e defina uma função linear
dada por f (x) = ax, com x sendo um vetor coluna de tamanho n.
Então, a derivada de f em relação a x é um vetor 1×n de drivadas
parciais dadas por:
∂f (x)
= a0
∂x
Para uma matriz simétrica A de tamanho n×n, defina a forma
quadrática como g(x) = xAx, então:
∂g(x)
= 2x0 A
∂x
Que é um vetor 1×n.

Momentos de vetores aleatórios


Um vetor aleatório é um vetor cujos elementos são variáveis
aleatórias.
Se y é um vetor n×1, o valor esperado de y, denotado por E[y] é
o vetor de valores esperados, isto é, E(y) = [E[y1 ], E[y2 ], . . . , E[yn ]]
Se Z é uma matriz n×m aleatória, então E[Z] é uma matriz n×m
de valores esperados: E[Z] = [E[zij ]]
Se y é um vetor aleatório de tamanho n×1, sua matriz de
variância-covariância é dada por:
 2
σ1 σ12 . . . σ1n

 σ21 σ22 . . . σ2n 
 ...
V ar[y] =  ..
.
... .. 
. 
2
σm1 σm2 . . . σmn

46
Com σi2 = V ar[yi ] e σij = Cov[yi , yj ]

Propriedades:
• Se a é um vetor de dimensão n×1, então V ar[ay] =
a[V ar(y)]a ≥ 0
• Se V ar[ay] > 0 para todo a 6= 0, então é positiva definida.
• V ar[y] = E[(yµ)(yµ)], comµ = E[y]
• Se todos os elementos de y são não-correlacionados, então
Var[y] é uma matriz diagonal.

OLS Matricial
i = índice para uma observação
n = índice para número de observações
Modelo de regressão linear com k + 1 parâmetros
yi = β0 + β1 xi1 + β2 xi2 + . . . βk xik + ui ; i = 1, 2, . . . , n
Para cada i temos:
y = xi β + u
onde
~xi = [1, xi1 , xi2 , . . . , xik ]
1×(k+1)

β0 = [β0 , β1 , β2 , . . . , βk ]0
(k+1)×1

Assim possuimos o seguinte resultado





 y1 = β0 + β1 x11 + β2 x12 + . . . + βk x1k + u1
 y2

= β0 + β1 x21 + β2 x22 + . . . + βk x2k + u2
.. .. .. .. ... .. ..


 . . . . . .

 y
n = β0 + β1 xn1 + β2 xn2 + . . . + βk xnk + un
que é equivalente em sua forma matricial a seguinte expressão:
y1 1 x11 x12 . . . x1k β0 u1
      
 y2  1 x21 x22 . . . x2k   β1   u2 
 .  = . . .. .. . . + .
 ..   .. .. . ..   ..   .. 
   
.
yn 1 xn1 xn2 . . . xnk βk uk

47
Portanto
n×1
z }| {
yn×1 = Xn×(k+1) β(k+1)×1 +un×1
Derivando o OLS na forma matricial
Lembrando:
y = Xβ + u
Queremos a partir desta fórmula o β̂ OLS que minimiza a
soma dos quadrados dos resíduos (SSR)
n
X ∂SSR(b)
SSR(b) ≡ (yi − xi b)2 =⇒ = 0 =⇒ β̂
i=1
∂b

Sendo que
n
X n
X
2
SSR(b) = (yi − b0 − b1 xi1 − b2 xi2 − · · · − bk xik ) = u2i
i=1 i=1

Sendo assim, quando derivamos a expressão acima temos:



∂SSR(b)
−2 ni=1 (·)
P

 ∂b0 = = 0
 ∂SSR(b) Pn
= −2 i=1 xi1 (·) = 0


X0 (y − Xβ̂) = 0 ∂b1
. .. ..
(k+1)×n n×1 (k+1)×1 
 .. . .

 ∂SSR(b) = −2 Pn x (·) = 0

∂bk i=1 ik

Disso chegaremos na famosa expressão:

β̂ = (X0 X)−1 X0 y

sendo que
β̂ = (X0 X)−1 X0 y
(k+1)×1 (k+1)×(k+1)(k+1)×nn×1

Propriedades estatísticas OLS (amostra finita)


1. y = Xβ + u (linear nos parâmetros)
2. rank(X) = k + 1 =⇒ X0 X é não singular ou inversível
=⇒ (X’X)−1 (X 0 X) = I
3. E[u|X] = 0 =⇒ E[β̂|X] = β (provado em outro lugar)

48
4. Homocedasticidade:
• V ar[ui |X] = σ 2 , i = 1, . . . , n
• Cov[ui , uj = 0, ∀i 6= j
sendo que os itens de 4 juntos implicam a seguinte propriedade:
 2
σ 0 ... 0

 0 σ2 . . . 0 
V ar[u|X] = σ 2 In = 
 ... .. . . .
. . .. 
0 0 · · · σ2

Temos Heteroscedasticidade quando V ar[ui |X] 6= σ 2 , e temos


Cluster data quando Cov[ui , uj ] 6= 0

Dado as hipóteses 1 - 4 garantimos que β̂ OLS é BLUE. Além


de as Propriedades assintóticas OLS também são garantidas, i.e,
Consistência [plimβ̂j = βj , ∀j ∈ {1, . . . k}] e Normalidade [β̂ ∼
N(β, σ̂V ar)]

Resultados Potenciais ou Modelo Neyman-Rubin


O modelo Neyman-Rubin ou modelo de Resultados Potencias
adota a teoria contrafactual da causalidade. Mas o que é um
contrafactual?
Contrafactual é como um mundo possível, isto é, uma descrição
completa e consistente de como as coisas poderiam ter sido ou de
como as coisas são.

Por exemplo, suponha que um indivíduo está com dor de cabeça


e resolve tomar uma aspirina. O contrafactual desse evento é não
tomar a aspirina.
A intuição do modelo é que para descobrir o efeito causal temos
que deixar tudo o mais constante (ceteris paribus), sendo a única
fonte de variação da resposta fruto da variação no tratamento. Por-
tanto, no caso da aspirina pegariamos uma pessoa com dor de cabeça
e clonariamos ela, ou em termos de mundos possíveis, iriamos com-
parar o indivíduo no mundo atual com ele mesmo num mundo pos-
sível.

49
O indivíduo original (que é o nosso grupo de tratamento) iria
tomar a aspirina (o tratamento), enquanto seu clone (que é nosso
grupo de controle) não iria toma-lá. Como estamos comparando
o mesmo, qualquer possível variavel confundidora, isto é, qualquer
variável que pode afetar o tratamento e a resposta vai ser balançeada
na comparação, justamente que o que possívelmente podia afetar o
indivíduo , também pode possívelmente afetar o seu clone já que
são a mesma pessoa! Ou seja, o ceteris é paribus, assim basta fazer
uma simples média.
Embora (ainda) não podemos clonar pessoas, portanto calcular
o efeito causal a nível do indivíduo é impossível. Ainda sim, pode-
mos pegar grupo de indivíduos e montar um grupo de tratamento
e de controle de tal modo que as variáveis confundidoras estão bal-
anceadas. Em outras palavras, os grupos (na média) são iguais,
portanto é como se fossem clones.

tratamento: D = 1 se receber a aspirina, D = 0 caso contrário


resultado: Y = 1 se melhorar a dor de cabeça, Y = 0 caso
contrário
Antes de receber o tratamento (tomar ou não a aspirina), o indi-
víduo possui dois resultados potenciais que veriamos sobre trata-
mento.

Notação: Y d é o resultado que seria observado se o tratamento


for estabelecido para D = d

Cada pessoa tem dois resultados potenciais Y 0 , Y 1 . Ou seja,


D = 1 → Y 1 : Tratamento

Y =
D = 0 → Y 0 : Controle
Resultados contrafactuais são aqueles que seriam observados se
o tratamento tivesse sido diferente.

Se meu tratamento foi D = 1, então meu resultado contrafactual


é Y0
Se meu tratamento foi D = 0, então meu resultado contrafactual
é Y1

50
Genericamente, se meu tratamento foi D = d, então meu resul-
tado contrafactual é Y 1−d

O problema fundamental da inferência causal é que apenas


observamos um resultado potencial para cada pessoa. Ou seja, nos
faltam dados (sempre). Todavia, para nossa sorte e com algumas
hipóteses auxiliares, podemos estimar o efeito causal médio na nível
populacional.
Em geral: D terá um efeito causal em Y se Y 1 6= Y 0

No nosso mundo ideal, a pesquisa seriam assim: Efeito causal

médio:
AT E = E[Y 1 − Y 0 ]

51
Lembrando:
E[Y |D = d]
isso lê como "o valor esperado de Y dado D = d". Ou seja, isso
restringe para a

Mas (infelizmente) o mundo real que o pesquisador depara é as-


sim:

Para simplificar vamos chamar a Diferença média de resultados


entre subpopulações definidas pelo grupo de tratamento de apenas
diferença simples observada de resultados

Sendo que Ou seja, para uma população de interesse N :

N = π · N + (1 − π) · N

52
Dado os problemas no mundo real, desejariamos poder estimar esses
valores respectivamente o ATU e ATT (imagens abaixo). Sendo que

AT U = E[Y 1 − Y 0 |D = 0]
AT T = E[Y 1 − Y 0 |D = 1]
Uma vez que podemos representar o efeito causal médio em termos
de uma ponderação desses dois efeitos:

E[Y 1 − Y 0 ] = π · E[Y 1 − Y 0 |D = 1] + (1 − π) · E[Y 1 − Y 0 |D = 0]


∴ AT E = π · AT T + (1 − π) · AT U
Como esperança é um operador linear, podemos fazer a seguinte
separação:
E[a + b] = E[a] + E[b]

53
Logo, podemos fazer o seguinte:
AT E = πAT T + (1 − π)AT U

= πE[Y 1 |D = 1]−πE[Y 0 |D = 1]+(1−π)E[Y 1 |D = 0]−(1−π)E[Y 0 |D = 0]


= {πE[Y 1 |D = 1]+(1−π)E[Y 1 |D = 0]}−{πE[Y 0 |D = 1]+(1−π)E[Y 0 |D = 0]}
Tomando:
E[Y 1 |D = 1] = a
E[Y 1 |D = 0] = b
E[Y 0 |D = 1] = c
E[Y 0 |D = 0] = d
AT E = e

54
Substituindo os valores, temos:
e = {πa + (1 − π)b} − {πc + (1 − π)d}

e = πa + b − πb − πc − d + πd
e = πa + b − πb − πc − d + πd + (a − a) + (c − c) + (d − d)
0 = e − πa − b + πb + πc − d + πd − a + a − c + c − d + d
a − d = e − πa − b + πb + πc − d + πd + a − c + c − d
a − d = e + (c − d) + a − πa − b + πb − c + πc − d + πd
a − d = e + (c − d) + (1 − π)a − (1 − π)b − (1 − π)c − (1 − π)d
a − d = e + (c − d) + (1 − π)(a − c) − (1 − π)(b − d)

55
Portanto, substituindo os valores com os termos originais chegamos
justamente onde queriamos:
E[Y 1 |D = 1]−E[Y 0 |D = 0] = AT E+E[Y 0 |D = 1]−E[Y 0 |D = 0]+(1−π)(AT T −AT U )
E para nossa felicidade, tomando algumas hipóteses isso pode ser
estimado!
Dados observados → Hipóteses Causais → Resultados Potenciais
As hipóteses causais são:
Hipótese 1: Stable Unit Treatment Value Assumption (SUTVA)
SUTVA em verdade são duas hipóteses em uma só, são essas:
1)Não interferência:
• As unidades não interferem umas as outras
• Atribuição de tratamento de uma unidade não afeta o resultado
de outra unidade

2)Só há uma versão do tratamento

Com o SUTVA podemos escrever o Resultado Potencial da n-


ésima pessoas em termos apenas do tratamento dessa pessoa. Isto
é:
E[YiD=d ] = E[Y D=d ]
Hipótese 2: Consistência
O resultado potencial em tratamenbto D = d, Y d , é igual ao resul-
tado observado se o tratamento dado foi D = d
Y = Y d , se D = d, ∀d
Hipótese 3: Ignorabilidade ou Conditional Independence
Assumption (CIA)
dado as covariáveis X pré tratamento, a atribuição de tratamento é
independente dos resultados potenciais. Ou seja, entre as pessoas
com o mesmo valor de X, podemos pensar o tratamento A como
sendo atribuído aleatoriamente. Isto é:
Y 0, Y 1 ⊥
⊥ D|X

56
Hipótese 4: Positividade ou Common Support
Essencialmente afirma que, para todo valor de X, a atribuição de
tratamento não foi determinística
P r(D = d|X = x) > 0 ∀a e x
Se, para alguns valores de X, o tratamento fosse determinístico,
então não teríamos valores observados de Y para um dos grupos de
tratamento para esses valores de X.

E[Yi |D = d, X = x] envolve apenas dados observados


Pela hipótese SUTVA temos que:
E[Yi |D = d, X = x] = E[Y |D = d, X = x]
Pela hipótese da consistência, temos que:
E[Y |D = d, X = x] = E[Y d |D = d, X = x]
Pela hipótese da ignorabilidade, temos que:
E[Y d |D = d, X = x] = E[Y d |X = x]
Ou seja, chegamos que:

E[Yi |D = d, X = x] = E[Y d |X = x]

Assim conseguimos escrever os resultados observados em termos dos


resultados potenciais.
Portanto a formula que tinhamos fica assim:
E[Y |D = 1] − E[Y |D = 0] = AT
| {zE}
| {z }
Diferença simples observada de resultados Efeito médio de tratamento

+ E[Y 0 |D = 1] − E[Y 0 |D = 0]
| {z }
Viés de seleção

+ (1 − π)(AT T − AT U )
| {z }
Viés de heterogeneidade

Se as hipóteses valem, então por ignorabilidade, ou até mesmo


por sua versão mais forte que é Hipótese da Idependencia,
que nada mais diz que a atribuição de tratamento é independente

57
dos resultados potenciais, assim (Y 1 , Y 0 )D. Chegamos na seguinte
condição:
E[Y 0 |D = 1] = E[Y 0 ]
E[Y 0 |D = 0] = E[Y 0 ]
∴ E[Y 0 |D = 1] = E[Y 0 |D = 0] =⇒ Viés de seleção é zerado
Assim como
AT U = E[Y 1 − Y 0 |D = 0] = E[Y 1 − Y 0 ]
AT T = E[Y 1 − Y 0 |D = 1] = E[Y 1 − Y 0 ]
∴ (1 − π)(AT T − AT U ) = 0 =⇒ Viés de heterogeneidade é zerado
Em outras palavras, se as hipóteses valerem temos que:
Diferença simples observada de resultados = Efeito causal médio
Então para o nosso pesquisador conseguir descobrir o efeito causal
média a partir da diferença simples observada de resultados é preciso
eliminar o viés de seleção e o viés de heterogeneidade.
Tais viéses são zerado quando o experimento satisfaz a hipótese
da independência (ou ignorabilidade). Para realizar isso é preciso
que este seja randomizado. Por isso, é tão importante a aleator-
ização na experimentação.

Problemas - Mas e se não conseguimos conduzir um experi-


mento (controlado) randomizado?
Problemas com design de experimento:
• Falta de compliance entre os administradores
• Falta de compliance entre os membros do grupo de tratamento
• Falta de compliance entre os membros do grupo de controle
Problemas com o próprio uso de experimentos
• Muito caro
• Antiético
• Não é factível dado outra razão
Como resolver? Aí que entra a inferência causal e suas técni-
cas como Matching, Propensity Score Matching, Regressão Discon-
tínua, Variáveis Instrumentais, Diferenças em diferenças e Controle
Sintético.

58
Matching
Fumar causa câncer?

Essa pergunta gerou um enorme debate na comunidade ciên-


tifica, já que estudos observacionais (ou seja, que usam dados não-
experimentais/não-controlados) apontavam uma associação muito
forte entre fumar cigarro (ou charuto) e câncer.

Todavia, diziam os estatísticos "correlação não implica causali-


dade". Uma forte associação não implica um efeito causal. Pode
ser o caso que existe uma terceira váriavel (um confundidor) que
está simultaneamente causando tanto o fumar quanto o câncer, por
exemplo, algum fator genético não observado.

59
Z

S C

Como não é possível resolver essa questão sem usar experimentos


controlados randomizado. Como achar o efeito causal do uso de
cigarro?

Taxa de mortalidade de 1.000 pessoas por ano (Cochran 1968)


Grupo de fumantes Canada U.K. USA
não fumantes 20.2 11.3 13.5
cigarro 20.5 14.1 13.5
cachimbo 35.5 20.7 17.4
Média de idade, anos (Cochran 1968)
Grupo de fumantes Canada U.K. USA
não fumantes 54.9 49.1 57.0
cigarro 50.5 49.8 53.2
cachimbo 65.9 55.7 59.7
Quando olhamos os grupos por média de idade percebemos que
cachibo mata mais, mas também está associado a uma idade mais
velha. Então seria o cachimbo que causa a morte ou simplesmente
a velhice? Como resolver isso?

Subclassificação

S C

60
A situação descrita acima é uma que pode ser resolvida com uma téc-
nica de Matching, chamada de Subclassificação. Sua intuição é a
seguinte: nossa variável S (Fumar cigarro) está gerando causalmente
a variável C (câncer), porém há um conjunto de variáveis denomidas
covariáveis que estão gerando uma variação em S e em C. Como
estamos olhando apenas a variação de S e C, devemos controlar por
X de modo que fiquemos apenas com o efeito puro de S em C.

Definição - Covariáveis predeterminadas: A variável X é


predeterminada em relação ao tratamento D (também chamado de
"pré-tratamento") se para cada indivíduo i, Xi0 = Xi1 , ou seja, o
valor de Xi não depende do valor de Di . Tais características são
chamadas de covariáveis.

Nossa Subclassificação (também chamada de estratificação)


consiste em comparar as taxas de mortalidade entre os diferentes
grupos de fumantes dentro das faixas etárias para neutralizar os de-
sequilíbrios de covariáveis na amostra observada. Ou seja, com essa
técnica queremos balancear as covariáveis a modo de que a vari-
ação entre os grupos (tratamento e controle) seja apenas do efeito
causal que bsucamos estimar.
Méida de idade, anos (Cochran 1968)
Taxas de mortalidade Número de
fumantes de cachimbo fumantes de cachibo não fumantes
Idade 20-50 15 11 29
Idade 50-70 35 13 9
Idade +70 50 16 2
Total 40 40
Qual é a taxa média de mortalidade para fumantes de cachimbo?
11 13 16
15 · + 35 · + 50 · = 35.5
40 40 40
Pergunta: Qual seria a taxa média de mortalidade para os fumantes
de cachimbo? se tivessem a mesma distribuição etária dos
não fumantes?
29 9 2
15 · + 35 · + 50 · = 21.2
40 40 40

61
Taxas de mortalidade ajustadas usando 3 grupos etários
Grupo de fumantes Canada U.K. USA
não fumantes 20.2 11.3 13.5
cigarro 28.3 12.8 17.7
cachimbo 21.2 12.0 14.2

Definição - Resultados: Essas variáveis, Y , que são (possivel-


mente) não predeterminadas são chamadas de resultados (para al-
gum indivíduo i, Yi0 6= Yi1 )
Perceba que para impedir o confundimento do nosso efeito causal
controlamos pela covariável Idade, por isso é dito que essa técnica de
subclassificação é um Ajuste para observáveis, i.e, controlamos
apenas as covariáveis observáveis. Ainda ficamos com o problema
de variáveis não observadas (genética) confundindo o resultado.

Hipóteses de identificação
Para a estrátegia de Matching funcionar precisamos que a hipótese
da Ignorabilidade(CIA) [i.e, (Y 0 , Y 1 ) ⊥
⊥ D|X] e Positividade
(Common Support) [i.e, 0 < P (D = 1|X) < 1]

Resultado da Identificação:
Z
δAT E = (E[Y |D = 1] − E[Y |D = 0])dP (X)
Z
δAT T = (E[Y |X, D = 1] − E[Y |X, D = 0])dP (X|D = 1)
Sendo que dado a ignorabilidade, se segue que δAT E = δAT T

Estimador de subclassificação
Assuma que X pode K diferentes células (cada uma represen-
tando uma covariável) {X 1 , . . . , X K }. Portanto temos os seguintes
estimadores:
K
X 1,k 0,k Nk
δ̂AT E = (Y − Y ) ·
k=1
N
K
X 1,k 0,k Nk
δ̂AT T = (Y − Y ) · T
k=1
NT

62
sendo N k o número de observações e NTk o número de observações
1,k
de tratamento em uma célula k. Y é o resultado médio para
0,k
o tratado na célula k, enquanto Y é o resultado médio para o
controle na célula k.
Maldição da dimensionalidade
A subclassificação pode se tornar (e se torna) menos viável em
amostras finitas à medida que o número de covariáveis cresce. Por
exemplo assuma que há k covariáveis e para cada dividimos para
m categorias (por exemplo, novo e velho, etc). Então o número
de células de subclassificação (ou “estratos”) é mk , i.e, cresce expo-
nencialmente. O que resulta no fato de que quando k aumenta, as
células da estratificação podem (e ficam) vazias, tornando impossível
estimar o efeito de tratamento.

Nearest Neighbor Matching

Também poderíamos estimar δAT T imputando o resultado poten-


cial ausente de cada unidade de tratamento i usando o resultado
observado do vizinho "mais próximo" desse resultado j no conjunto
de controle.
1 X
δAT T = (Yi − Yj(i) )
NT D =1
i

onde Yj(i) é o resultado observado de uma unidade de controle tal que


Xj(i) é o valor mais próximo de Xi entre todas as observações de
controle (por exemplo, correspondência [match] em X). O matching
aqui então é um pareametro da unidade de tratamento com seu
controle mais parecido à modo de servir como seu contrafactual.
Matching
Também poderíamos usar o resultado médio observado em M cor-
respondências mais próximas:
M
1 X X
δAT T = (Yi − [ Yjm (i) ])
NT D =1 m=1
i

Como resolver a maldição da dimensionalidade?

63
Rubin (1977) e Rosenbaum e Rubin (1983) desenvolvem um
método que pode conter as covariáveis K usadas para ajuste. Na me-
dida em que o tratamento é condicional aleatório em K covariáveis
(CIA vale), então pode-se usar o propensity score para ajustar os
fatores de confusão.
Intuição: Anteriormente, combinamos X’s para comparar
unidades "próximas" umas das outras com base em alguma distân-
cia, mas as discrepâncias e a escassez de correspondência criaram
problemas. As pontuações de propensão resumem informações co-
variáveis sobre a seleção de tratamento em um único número limi-
tado entre 0 e 1 (ou seja, uma probabilidade). Agora comparamos
unidades com probabilidades estimadas semelhantes de tratamento.
E uma vez que ajustamos usando o propensity score, não precisamos
mais ajustar para X.
Ou seja, condesamos toda informação das K covariáveis em uma
unica medida de probabilidade e fazemos o mesmo processo de antes.
Uma unidade tratamento com propensity score tal pode ser pareada
com uma unidade de controle (ou várias) que posse o mesmo propen-
sity score. Então tal unidade de controle serve como o contrafactual
dessa unidade de tratamento.
Hipóteses de identificação
Para a estrátegia de Propensity Score Matching (PSM) funcionar
precisamos que a hipótese da Ignorabilidade(CIA) [i.e, (Y 0 , Y 1 ) ⊥

D|X] e Positividade (Common Support) [i.e, 0 < P (D = 1|X) <
1]

Definição (formal) - Propensity Score: Um propensity score


é um número limitado entre 0 e 1 que mede a probabilidade de
atribuição de tratamento condicional a um vetor de variáveis de
confusão: p(X) = P (D = 1|X)
Etapas para o PSM
1. Estime a pontuação de propensão usando logit/probit
2. Estimar um ATE específico incorporando o escore de propensão
usando estratificação, imputação, regressão ou ponderação de
probabilidade inversa
3. Estimar erros padrão

64
Estimando o Propensity Score
Estimar a probabilidade condicional de tratamento usando o modelo
probit ou logit
P (Di = 1|Xi ) = F (βXi )
Use os coeficientes estimados para calcular a pontuação de propen-
são para cada unidade i
ρ̂i = β̂Xi
O propensity score é a probabilidade condicional prevista de trata-
mento ou o valor ajustado para cada unidade são a mesma coisa.

Teorema Propensity Score Se (Y 1 , Y 0 ) ⊥⊥ D|X (CIA), então


⊥ D|ρ(X), onde ρ(X) = P (D = 1|X), é o propensity score
(Y , Y 0 ) ⊥
1

Corolário: Se (Y 1 , Y 0 ) ⊥
⊥ D|X, então para estimar o ATE,
basta:
E[Y 1 − Y 0 |ρ(X)] = E[Y |D = 1, ρ(X)] − E[Y |D = 0, ρ(X)]
Propriedade de balanceamento
D e X são condicionalmente independentes de ρ(X), i.e, D ⊥

X|ρ(X). Então possuimos a seguinte propriedade:
P (X|D = 1, ρ(X)) = P (X|D = 0, ρ(X))
Esse teorema nos diz que a única covariável que precisamos ajus-
tar é a probabilidade condicional do próprio tratamento (ou seja, o
propensity score). No entanto, não nos diz qual método devemos
usar para fazer esse ajuste, o que é uma questão de estimativa. Ex-
istem opções: inverse probability weighting, formas de imputação,
estratificação e, às vezes, até regressões incorporarão a pontuação
como pesos.
Inverse Probability Weighting
IPW é basicamente uma repesagem dos resultados por meio do
propensity score. Tais pesos podem ser expressios sem normalização
ou com normalização.

Proposição: Se (Y 1 , Y 0 ) ⊥
⊥ D|X, então
D − ρ(X)
δAT E = E[Y 1 − Y 0 ] = E[Y · ]
ρ(X)(1 − ρ(X))

65
1 D − ρ(X)
δAT T = E[Y 1 − Y 0 |D = 1] = E[Y · ]
P (D = 1) 1 − ρ(X)
Ponderando os propensity scores
Para ponderação, primeiro estima-se o propensity score (ρ̂(X)). En-
tão basta calcular o ATE e ATT estimados com os dados amostrais:
N
1 X Di − ρ̂(Xi )
δ̂AT E = Yi ·
N i=1 ρ̂(Xi )(1 − ρ̂(Xi ))

N
1 X Di − ρ̂(Xi )
δ̂AT T = Yi ·
NT i=1 1 − ρ̂(Xi )

Técnica Padrão de Matching


Emparelhe cada unidade de tratamento i com uma ou mais unidades
de grupo de controle comparáveis j, onde a comparabilidade é em
termos de proximidade com a pontuação de propensão estimada.
Atribua o resultado contrafactual ausente da unidade Yi(j) com base
na unidade ou unidades escolhidas na etapa anterior. Se mais de um
são “vizinhos mais próximos”, então use os resultados ponderados dos
vizinhos: X
Yi(j) = wij Yj
j∈C(i)

onde C(i) é o conjunto de vizinhos com W = 0 da unidade de


tratamento
P i e wij é o peso das unidades do grupo controle j com
w
j∈C(i) ij = 1

Problemas: O propensity score pode tornar os grupos (trata-


mento e controle) comparáveis, mas apenas nas variáveis usadas para
estimar o propensity score em primeiro lugar. Não há garantia de
que você está equilibrando em covariáveis não observadas. Se você
sabe que existem variáveis não observáveis importantes, pode pre-
cisar de outra ferramenta. Lembrando que a randomização garante
que as variáveis observáveis e não observáveis sejam equilibradas.
Ou seja, o DAG que enfrentamos e que gera problema para
Matching (que é uma técnica que ajusta apenas as covariáveis ob-
servadas) é o seguinte:

66
X

D Y

Modelos de Escolha Discreta


Remembremos o Linear Probability Model (LPM): Quando
a variável dependente (y) toma valor 0 ou 1. Como y pode assumir
apenas dois valores, βj não pode ser interpretado como a mudança
em y dado um aumento de uma unidade em xj , mantendo todos os
outros fatores fixos: y ou muda de zero para um ou de um a zero
(ou não muda).
No entanto, βj ainda tem interpretações úteis. Se assumir-
mos que a suposição de média condicional zero é válida, ou seja,
E[u|x1 , . . . , xk ] = 0, então temos, como sempre,
y = β0 + β1 x1 + · · · + βk xk + u
E[y|x] = β0 + β1 x1 + · · · + βk xk
E[y|x] = 1 · P (y = 1|x) + 0 · P (y = 0|x) =⇒ E[y|x] = P (y = 1|x)
Ou seja, o LPM:
P (y = 1|x) = β0 + β1 x1 + · · · + βk xk
A probabilidade de sucesso, digamos, p(x) = P (y = 1|x), é uma
função linear do xj , daí o "linear" no nome.
No LPM, βj mede a mudança na probabilidade de sucesso quando
xj muda, mantendo outros fatores fixos:
∂P (y = 1)
βj =
∂xj

67
Vantagens do LPM:
• Fácil estimativa e interpretação
• Os efeitos estimados e as previsões são geralmente razoavel-
mente bons na prática
• Geralmente funciona bem para valores das variáveis indepen-
dentes que estão próximos das médias da amostra.
Desvantagens do LPM:
• As probabilidades previstas podem ser maiores que um ou
menores que zero
• O modelo de probabilidade linear é necessariamente hetero-
cedástico devido à natureza binária de y

V ar[y|x] = P (y = 1|x)[1 − P (y = 1|x)]

• Erros padrão consistentes com heteroscedasticidade precisam


ser calculados
Podemos ultrapassar os problemas do LMP usando modelos de es-
colha discreta, como Probit e Logit. Portanto, precisamos considere
uma classe de modelos de resposta binária em que a probabilidade
de resposta é uma função não linear de variáveis explicativas
P (y = 1|x) = G(β0 + β1 x1 + · · · + βk xk ) = G(Xβ)
Sendo que G(Xβ) é uma função de distribuição cumulativa 0 <
G(z) < 1. A probabilidade de resposta é, portanto, uma função das
variáveis explicativas x

Funções Link (link functions) sugeridas:


Z z
Probit: G(z) = Φ(z) = φ(v)dv (distribuição normal)
−∞

exp z
Logit: G(z) = Λ(z) = (função logística)
1 + exp z
Formulação de variaveis latentes do Probit e Logit

68
Podemos derivar os modelos Probit e Logit assumindo no pano de
fundo um modelo de variáveis latentes. Tomemos y ∗ uma variável
não observada (latente) tal que:
y ∗ = Xβ + ε e y = 1|y ∗ > 0

Assuma que ε é independente de X e que ε tem uma distribuição


logística ou uma distribuição normal padrão. Em ambos os casos,
e é distribuído simetricamente em torno de zero, o que significa
G(−z) = 1 − G(z)
Podemos derivar a probabilidade de resposta para y:

P (y = 1|x) = P (y ∗ > 0|x) = P (ε > −Xβ) = 1G(−Xβ) = G(Xβ)


Interpretação dos coeficientes em Logit e Probit
Lembremos primeiro o modelo OLS:
y = Xβ + u

Ou seja,
∂y
= β̂i
∂xi
Ou seja, o coeficiente β̂i é quanto varia a variável dependente quando
há um aumento de uma unidade da variável independente i, con-
trolando por demais fatores.

Agora no modelo Probit ou Logit, temos o seguinte:


P (y = 1|x) = G(Xβ)

Ou seja,
∂P (y = 1|x) ∂G(Xβ)
= = G0 (Xβ)βi = g(Xβ)βi
∂xi ∂xi
Isto é
∂P (y = 1|x)
= g(Xβ)βj onde ∂G(z)/∂z ≡ g(z)
∂xj
Portanto diferente no caso de OLS, não sabemos estimar a mag-
nitude da varição da variável dependente em termos da varição da

69
variável independente. Contudo, consiguimos estimar o sinal do
efeito.
Além de que no caso que queiremos saber o efeito relativo entre
dois coenficientes, aí neste caso conseguimos estimar a magnitude.
Ou seja,
∂P/∂xi g(Xβ)β̂i β̂i
= = ∀i 6= j
∂P/∂xj g(Xβ)β̂j β̂j
Lembrar :
Efeitos Marginais na média:
∂P (y = 1|x) ∂G(z)
= g(Xβ)βi onde g(z) ≡ >0
∂xi ∂z
Onde X representa o valor atribuído ao indivíduo representativo,
que neste caso é indivíduo médio.
Efeito Marginal Médio (APE):
n
X ∂G(z)
AP
[ Ej = n −1
· g(Xβ)β̂j onde g(z) ≡ >0
i=1
∂z

Regressão Discontínua (RDD)


O melhor jeito de entender regressão discontínua é graficamente,
segue a imagem: Queremos estimar algum efeito causal de um trata-

mento em algum resultado, mas estamos preocupados com o viés


de seleção E[Y 0 |D = 1] 6= E[Y 0 |D = 0] devido à auto-seleção
no tratamento O RDD é baseado em uma ideia: se a atribuição

70
do tratamento ocorrer abruptamente quando alguma variável sub-
jacente X chamada "running variable" passa por um ponto de
corte c0 , podemos usar isso para estimar o efeito causal mesmo de
um tratamento autoselecionado.
Então temos uma running variable que é usada para atribuir
tratamente a unidades arbitrariamente (e portanto de forma
exógena) e, consequentemente, as probabilidades de tratamento
“saltarão” quando essa running variable exceder um limite con-
hecido. Dado a atribuição exógena seria como se fosse o tratamento
fosse aleatorizado nos entornos do limite.

• Sharp RDD: tratamento é uma função deterministica da run-


ning variable
• Fuzzy RDD: Discontinuidade "salta" na probabilidade de
tratamento quando X > c0 . Cutoff é usado como uma var-
iável instrumental para o tratamento.
Definição - Atribuição de tratamento deterministico (“sharp
RDD”):
No Sharp RDD, o status de tratamento é deterministico e uma
função descintínua da covariável, Xi :
1, se X ≥ c0

Di =
0, se X < c0

71
onde c0 é um limite ou corte conhecido. Em outras palavras, se você
conhece o valor de Xi para uma unidade i, você conhece a atribuição
de tratamento para a unidade i com certeza

Definição do efeito de tratamento e estimação


Definição - efeito de tratamento: O parâmetro de efeito de
tratamento, δ , é a descontinuidade na função de expectativa condi-
cional:
δ = lim E[Yi1 |Xi = c0 ]− lim E[Yi0 |Xi = c0 ] = lim E[Yi |Xi = c0 ]− lim E[Yi |Xi = c0 ]
Xi →c0 c0 ←Xi Xi →c0 c0 ←Xi

A estimação do sharp RDD é interpretada como um efeito causal


médio do tratamento na descontinuidade.
δSRD = E[Yi1 − Yi0 |Xi = c0 ]
Técnicas de inferências causal geralmente assumem que a atribuição
de tratamento satisfaz a propriedade da ignorabilidade, portanto ex-
istiria (na média) um overlap ou sobreposição, i.e, um balancea-
mento das covariáveis entre grupos. Alguns métodos requerem so-
breposição e, portanto, estão fora de questão sem ela; mas o RDD
tem uma solução alternativa usando extrapolação.

Extrapolação

Hipóteses de identificação

72
Suavidade (ou continuidade) de funções de expectativa
condicional:
E[Yi0 |X = c0 ] e E[Yi1 |X = c0 ] são contínuos (suaves) quando
X está em c0

Exemplo gráfico da suavidade.

Exemplo gráfico do efeito de tratamento. Lembrando que esse


efeito é local, i.e, estimamos o Local Average Treatment Effect
(LATE), pois estamos assumindo que no limite do cutoff, a unidade
no controle e a unidade no tratamento nesta região são próximos o
suficiente para servirem de contrafactual.

73
Não linearidade
Tomar cuidado, pois suavidade (continuidade) não é a mesma coisa
que linearidade. Então pode ser o caso que se estime uma OLS
padrão e aparente haver um efeito, quando em verdade ele desa-
pareceria dado a não-linearidade. A exemplo:

Sharp RDD - caso não linear:


Suponha que a relação não linear seja E[Yi0 |Xi ] = f (Xi ) para
alguma função razoavelmente suave f (Xi ). Nesse caso, ajustaríamos
o modelo de regressão:
Yi = f (Xi ) + δDi + εi
Como f (Xi ) é contrafactual para valores de Xi > c0 , como modelar
a não linearidade?
Uma maneira padrão de aproximar f (Xi ) é usar um polinômio
de ordem ρ:

Yi = β0 + δDi + β1 xi + β2 x2i + · · · + βρ xρi + εi


Teste de Robustez
Diferentemente de um RCT que as propriedades desejaveis do trata-
mento são alcaçadas decorrente da aleatorização, no caso do RDD (e
de muitas técnicas de inferência causal) é preciso fazer um caso para
justificar que sua hipótese de indentificação (suavidade) é crível.

74
Problemas:
Nossa hipótese pode ser violada em duas condições:
• Manipulação da running variable
• Endogenidade no cutoff
O tratamento não é tão bom quanto atribuído aleatoriamente em
torno do ponto de corte, c0 , quando os agentes são capazes de ma-
nipular suas pontuações na running variable. Isso acontece quando:
• A regra de atribuição é conhecida antecipadamente
• Agentes estão interessados em ajustar para ficar em um grupo
ou outro.
• Os agentes têm tempo para se ajustar
• Peculiaridades administrativas como empilhamento não
aleatório ao longo da variável em execução
Definição - Manipulação da running variable:
Suponha um tratamento desejável, D, e uma regra de atribuição
X ≥ c0 . Se os indivíduos ordenam em D escolhendo X tal que X ≥
c0 , então dizemos que os indivíduos estão manipulando a running
variable.

Teste de densidade de McCrary


McCrary (2008) sugere um teste formal: sob a hipótese nula a den-
sidade deve ser contínua no ponto de corte.
Sob a hipótese alternativa, a densidade deve aumentar na do-
bra (onde D é visto como bom). Isso implica que nossa hipótese
provavelmente foi violada.
Regra de Bolso: No teste de McCrary se o p-valor < 0.05,
então rejeitar a hipótese nula.

Na imagem na figura C não há violação (p-valor > 0.05) e na


figura D há violação (p-valor < 0.05).

75
Variáveis Instrumentais (IV)
Variáveis Instrumentais é uma técnica de inferência causal con-
sagrada na economia, por possuir hipóteses mais flexíveis. No caso,
pode ser usada sem precisar assumir ignorabilidade.
Tal técnica permite resolver os seguintes problemas:
• Viés de Variável Omitida
• Erro de medida
• Viés de simultaneidade
• Causalidade reversa
• Experimentos randomizandos controlados sem compliance.
O DAG que melhor representa a situação da nossa estratégia de
identificação é o seguinte:

Z D Y

Inutuição: Queremos estimar o efeito de D (o tratamento) em Y


(a resposta). Porém, ao tentar estimar via OLS nosso efeito é con-
fundido por uma variável não-observada U . Por exemplo, tentar
estimar o efeito da educação nos salários usando apenas anos de
educação como variável independente. Obviamente existe um com-
ponente não mensuravel que explica salários, por exemplo abilidade.
Então a lógica de variáveis instrumentais é que existe uma var-
iável Z (o instrumento) que afeta nosso tratamento, porém não é
afetada por nossa variável U . Logo, podemos estimar mediante esse
efeito Z em D, o efeito de D em Y.
Para ficar mais claro: suponha que queremos saber o efeito do
tamanho de uma família na oferta de trabalho, mas precisam de
mudanças exógenas no tamanho da família. No caso, precisamos de
um instrumento para achar estimar a variação de D em Y que não é

76
confundida por U , ou seja, aquela mediada por Z. Neste cenário, um
instrumento é o gênero do filho, para entender o porque recomendo
Angrist Evans (1998).

Nosso modelo causal - exemplo da educação salário


Y = α + δD + γU + ν
Onde Y é o log dos salários, D são os anos de educação, U é abali-
dade e ν o termo de erro. Este é o modelo que gostariamos de poder
estimar.
Todavia o que de fato (podemos) estimar é o seguinte:

Y = α + δD + η =⇒ E[η|D] 6= 0
|{z}
(γU +ν)

Como a hipótese de média condicional do erro não é satisfeita, então


incorremos ao viés de variável omitida:
Cov[U, D]
β̂ OLS = δ + γ =⇒ E[δ̂] 6= δ
V ar[D]
Agora, como fugir deste problema? Quais as hipótese que o instru-
mento tem que satisfazer?

Hipóteses de identificação

As condições para que o design de IV sejá válido são os seguintes:


• Cov[Z, D] 6= 0: este é chamado de o primeiro estágio
• Cov[U, Z] = Cov[ε, Z] = 0: esta é chamada de restrição de
exclusão. Ou seja, não pode ser o caso que o nosso instrumento
está no nosso modelo verdadeiro.
Dado o Instrumento, como obter estimadores consistentes e/ou não
viesados?
Tomemos a seguinte expressão:
Cov[Y, Z] = Cov[(α+δD+γU +ν), Z] = E[α+δD+γU +ν]−E[α+δD+γU +ν]E[Z]

= (αE[Z]+δE[DZ]+γE[U Z]+E[νZ])−(αE[Z]+δE[D]E[Z]+γE[U ]E[Z]+E[ν]E[Z])

77
Cov[D,Z] Cov[U,Z] Cov[ν,Z]
z }| { z }| { z }| {
= δ {E[DZ] − E[D]E[Z]} +γ {E[U Z] − E[U ]E[Z]} + {E[νZ] − E[ν]E[Z]}
Cov[Y, Z] = δCov[D, Z] + γCov[U, Z] + Cov[ν, Z]
Cov[Y, Z] Cov[U, Z] Cov[ν, Z]
=δ+γ +
Cov[D, Z] Cov[D, Z] Cov[D, Z]
Por nossas hipóteses, temos que
Cov[Y, Z]
δ IV = =δ
Cov[D, Z]
Provando a consistência do IV dado hipóteses
Cov[Y, Z] Cov[(α + δD + γU + ν), Z]
δ IV = =
Cov[D, Z] Cov[D, Z]
Cov[[D], Z] Cov[[U ], Z] Cov[[ν], Z] Cov[η, Z]
=δ +γ + =δ+γ
Cov[D, Z] Cov[D, Z] Cov[D, Z] Cov[D, Z]
Consequentemente tomando o limite de probabilidade, que é um
operador asintótico, temos que:
Cov[η, Z]
plimδ IV = plimδ + γ =⇒ δ IV = δ
Cov[D, Z]
Estimador Two Stage Least Squares (2SLS)
Para estimar o design IV usamos o estimador 2SLS. Tal estimador
consiste nos seguintes passos:
Modelo Causal - ou nosso modelo estrutural
Yi = α + δD + η
Primeiro estágio - aqui vamos estimar a variação da nossa
variavel independente de interesse que não é fruto de uma variável
não observada.
Di = αF S + β F S Zi + εF S
Deste operação conseguimos estimar a seguinte regressão via OLS:
D̂i = α̂F S + β̂ F S Zi

78
Segundo estágio - tendo estimado a variação da variável
independente independente da variável não observada. Pegamos
seu valor predito e colocamos na regressão original.
Yi = αSS + δ D̂i + εSS
Assim, o δ estimado pelo segundo estágio é o coeficientes de variável
instrumental desejado.
Forma reduzida - para termos de estimação é costume fazer esse
modelo também.
Yi = αRF + β RF Zi + εRF
Isso se deve, pois o coeficiente de IV é o seguinte:
Cov[Y, Z] Cov[Y, Z]/V ar[Z] β̂ RF
δ IV = = =
Cov[D, Z] Cov[D, Z]/V ar[Z] β̂ F S
Logo
Cov[Y, Z] β̂ RF
δ IV = =
Cov[D, Z] β̂ F S
Weak Instruments - Problema de Instrumentos Fracos
E quando as hipóteses do IV não são safisteitas, mas são aproxi-
madamente verdadeiras. Isto é, Cov[D, Z] é baixo e tende a zero
(Cov[D, Z] → 0) e Cov[η, Z] 6= 0, ou seja, a média condicional não
é zero.
Tomando o modelo verdadeiro e o estimador de IV, temos a
seguinte situação:
Cov[η, Z]
δ IV = δ + γ
Cov[D, Z]
Se Cov[η, Z] for (suficientemente) baixo, então podemos dizer que
δ IV ≈ δ. No caso do instrumento ser muito fraco, i.e, (Cov[D, Z] →
0) então o estimador explode, ou seja, δ IV > δ.
Outro jeito de ver o problema de Instrumentos fracos é pelo Teste
F:
Cov[D, Z] 1
E[δ IV − δ] = ·
V ar[Z] F +1
Ou seja
Cov[D, Z]
F → 0 =⇒ E[δ IV − δ] → viés do OLS
V ar[Z]

79
Ou seja, no caso de instrumento fraco, o viés da estimação de IV
converge para o viés de OLS. Entõa é preferivel estimar por OLS
dado que a variância do 2SLS é maior que o de OLS.

Estimador de 2SLS via matricial:


β̂ IV = (Z0 X)−1 Z0 y

Dados em Painel
Estrutura de dados:
• Cross Section (N)
• Séries de Tempo (T)
• Dados em Painel (N + t)
Dados em painel - observamos as mesmas unidades por vários peri-
odos de tempo.
Problemas que Dados em Painel NÃO resolve
• Causalidade Reversa
• Heterogeneidade não observada variável no tempo
Ou seja, se a heterogeneidade não observada não variar no tempo,
conseguimos efetivamente eliminar esta da regressão. Resolvendo o
viés de variável omitida.
Notação de painel formal
Seja y e x ≡ (x1 , x2 , . . . , xk ) sejam variáveis aleatórias observáveis e c
ser uma variável aleatória não observável. Estamos interessados nos
efeitos parciais da variável xj na função de regressão populacional
E[y|x1 , x2 , . . . , xk , c]
Nós observamos uma amostra de i = 1, 2, . . . , N unidades cross-
section para t = 1, 2, . . . , T unidade temporais.
• Para cada unidade i, nós denotamos as variáveis observadas em
todos os períodos no tempo como {(yit , xit ) : t = 1, 2, . . . , T }
• xitk ≡ (xit1 , xit2 , . . . , xitk ) é um vetor 1 × K

80
Tipicamente assumimos que as unidades cross-section são i.i.d
tiradas de uma população {yi , xi , ci }N
i=1 ∼ i.i.d (indepedência cross-
section)
• yi ≡ (yi1 , yi2 , . . . , yiT )0 e xi ≡ (xi1 , xi2 , . . . , xiT )
Para uma única unidades, tempos:
   
yi1 Xi,1,1 Xi,1,2 . . . Xi,1,K
 ..   .. .. ..
.
.. 
 .   . . . 
yi =  yit  Xi =  Xi,t,1 Xi,t,2 . . . Xi,t,K 
   
 .   . .. .. .. 
 ..   .. . . . 
yiT T ×1 Xi,T,1 Xi,T,2 . . . Xi,T,K T ×K

Painel com todas as unidades, temos:


   
y1 X1
.
 .   .. 
 .   . 
y =  yi  X =  Xi 
   
 .   . 
 ..   .. 
yN N T ×1 XN N T ×K

Heterogeneidade não obsevada


Para uma unidade cross-section i sorteada aleatoriamente, o modelo
é dado por:
yit = xit β + ci + εit , t = 1, 2, . . . , T
Pooled OLS (POLS)
POLS é um modelo quando ignoramos o componente de painel nos
dados. Assim, estimamos o seguinte modelo:

yit = xit β + |{z}


ν
ci +εit

Se xit for correlacionado com ci então nossa variável independente


vai ser correlacionada com o termo de erro e portanto caimos no viés
de variável omitida. Então para esse modelo funcionar pressumos
que E[νit |xi1 , xi2 , . . . , xiT ] = E[νit |xit ] = 0
Problemas:

81
• Violações são comuns (E[νit |xit ] 6= 0): sempre que omitimos
uma variável constante de tempo que está correlacionada com
os regressores (viés de heterogeneidade)
• Problema adicional: vit são correlacionados serialmente para o
mesmo i já que ci está presente em cada t e, portanto, os erros
padrão POLS são inválidos
Como resolver? Com o seguinte estimador...
Regressão de Efeitos Fixos (FE)
Nosso modelo é o seguinte:
yit = xit β + ci + εit , t = 1, 2, . . . , T
Se tivermos dados em vários períodos de tempo, podemos pensar em
ci como efeitos fixos a serem estimados. Portanto, fica deste modo:
N X
X T
(β̂, ĉ1 , . . . , ĉN ) =b,m1 ,...,mN (yit − xit b − mi )2
i=1 t=1

Condições de Primeira Ordem (FOC)


N X
X T
x0it (yit − xit β̂ − ĉi ) = 0
i=1 t=1
T
X
(yit − xit β̂ − ĉi ) = 0
t=1
para i = 1, 2, . . . , N .

Regressão
Para estimar a regressão é preciso fazer o processo de demean uma
variável. Isto é,
T
X αit
αi = =⇒ α̈i ≡ αit − αi
t=1
t | {z }
α demean

Portanto, nossa regressão de FE fica assim


yit = xit β + ci + εit
y i = x i β + ci + ε i

ÿit = ẍit β + ε̈it

82
Hipóteses de identificação
Para o modelo funcionar precisamos que as seguintes hipótese sejam
satisfeitas:
• E[νit |xi1 , xi2 , . . . , xiT , ci ] = 0, i = 1, 2, . . . , N
• rank( Tt=1 E[ẍ0it ẍit ]) = K
P

Propriedades
β̂F E é consistente:
plimN →∞ β̂F E,N = β
β̂F E não é viesado condicionado em X

Intuição: A regressão de FE seria analoga a uma regressão OLS


no qual deixamos o β0 , ou seja, o intercepto variar para cada unidade
cross section. Já no caso do POLS fixamos apenas um intercepto,
por isso pode gerar resultados muitos diferentes do caso de FE.

Diferenças em Diferenças (DiD)


A técnica de pesquisa Differenças em Diferenças (ou DiD) pode
ser resumida a esta imagem: Ou seja, a intuição desse design é

que observamos duas unidades que seguiam uma trajetória paralela


(ou seja, o efeito de interessa era DA . Então algo exógeno aconteceu

83
(servindo de experimento natural), que serviu como intervenção e as-
sim separou as unidades em grupo de tratamento e controle. Assim
o efeito passou a ser DC , sob algumas hipóteses de indentificação,
assumimos que na ausência da intervenção o efeito permaneceria
constante. Ou seja, as retas permaneceriam paralelas, logo o efeito
causal da intervenção pode ser escrito como:
DC = DB − DA (por isso se chama DiD)
A estimação em termos de médias amostrais, considerando k como
a unidade tratada e U a unidade controle, fica assim no caso de dois
períodos:
2×2 P ost(k) P re(k) P ost(k) P re(k)
δ̂kU = (y k − yk ) − (y U − yU )
A mesma equação em termos de expectativa populacional:
2×2
δ̂kU = (E[Yk |P ost] − E[Yk |P re]) − (E[YU |P ost] − E[YU |P re])
Modelo de Regressão DiD
o modelo típico (de DiD) que estimamos é o seguinte:
Yit = β1 + β2 T reati + β3 P ostt + β4 (T reta × P ost)it + εit
onde T reat é uma dummy se a observação estiver no grupo de trata-
mento e P ost uma dummy de pós-tratamento. Ou seja
P re(k)
• yU = β1
P ost(k)
• yU = β1 + β3
P re(k)
• yk = β1 + β2
P ost(k)
• yk = β1 + β2 + β3 + β4
Portanto
P ost(k) P re(k) P ost(k) P re(k)
(y k − yk ) − (y U − yU ) = β4 = δ̂ DiD
Hipóteses de identificação
A hipótese principal para o modelo funcionar é a hipótese de
“tendências paralelas" (parallel trends)
(E[Yk0 |P ost] − E[Yk0 |P re]) − (E[YU0 |P ost] − E[YU0 |P re])
| {z }
viés de tendências não paralelas

84
Outro jeito de escrever a mesma coisa (que eu prefiro inclusive) é a
seguinte:
E[Yk0 − YU0 |P ost] − E[Yk0 − YU0 |P re]
| {z } | {z }
tedência contrafactual tedência original
Ou seja,
Se a tendência contrafactual 6= tendência original =⇒ viés de
tendências não paralelas
A hipótese de identificação para todos os projetos DiD é alguma
representação de uma tendência paralela contrafactual. As tendên-
cias paralelas não podem ser verificadas diretamente porque tecni-
camente uma das tendências paralelas é um contrafactual não obser-
vado. Mas muitas vezes verificamos usando dados de pré-tratamento
para mostrar que as tendências eram as mesmas antes do trata-
mento.

Mas, mesmo que as pré-tendências sejam as mesmas, ainda é


preciso se preocupar com outras políticas mudando ao mesmo tempo
(viés de variável omitida).
Neste caso é possível resolver o problemas por meio de uma re-
gressão de Estudo de Caso.

Controle Sintético
O método do Controle Sintético é uma comparação de caso,
que não depende de extrapolação como no design de pesquisa do
RDD e DiD. Mas faz uma interpolação.

85
Intuição: Usamos esse design quando há um (ou poucas)
unidade(s) de tratamento e vários unidades no grupo controle. Por
meio de uma ponderação dos controles, podemos criar uma única
unidade controle que sirva como um contrafactual ótimo (nosso con-
trole sintético) da nossa unidade de tratamento.
Como dito, suas vantagens advém do fato que usa uma interpo-
lação, uma vez que o efeito causal estimado sempre se baseia em
comparações de um resultado de um dado período contra um con-
trafactual neste mesmo dado período! Não precisa-se estipular como
seria esse resultado contrafactual na ausência de tratamento. Outra
vantagem é que a construção do contrafactual não depende do re-
sultados pós tratamento, além do fato que deixa explicito os pesos
usados no contrafactual.

Formalização
Seja Yjt o resultado de interessa da unidade j de J + 1 unidades
agregadas no tempo t, sendo que o grupo de tratamento é j = 1. Os
estimadores de controle sintético modelam o efeito da intervenção no
tempo T0 no grupo de tratamento usando uma combinação linear
de unidades otimamente escolhidas como controle sintético. Para
o período pós intervenção, Pestimador de controle ótimo mensura o
efeito causal como Y1t − J+1 j=2 w ∗
Y
j jt , onde wj∗ é um vetor de pesos
otimizados.
As variáveis de matching X0 e X1 , são escolhidas como predi-
tores do resultado pós intervenção e não devem ser afetadas pela
intervenção. Os pesos são feitos à modo de minimizar a norma,
kX1 − X0 W k sujeito a restrição de pesos. Há duas restrinções
de pesos. Primeira, seja W = (w2 , . . . , wJ+1 )0 como wj ≥ 0 para
j = 2, . . . , J + 1. Segunda, seja w2 + · · · + wJ+1 = 1.
Assim, considere:
p
kX1 − X0 W k = (X1 − X0 W )0 V(X1 − X0 W )
onde V é uma matriz (k × k) simétrica e semidefinida positiva.
Seja Xjm o valor da covariável m da unidade j. Tipicamente, V
é diagonal com a diagonal princial v1 , . . . , vk . Então os pesos do
controle sintético minimizam:
Xk J+1
X
(X1m − wj Xjm )2
m=1 j=2

86
em que vm é o peso que reflete a importância relativa atribuida a
variável m que mede a discrepância entre a unidade tratada e o
controle.
Então, os métodos de controle sintético depende da escolha dessa
variável V, sendo que o vetor de pesos ótimo W ∗ (V) é uma função
dela. Na prática de pesquisa que usa controle sintético, geralmente
escolhem o V que minimza esta expressão:
T0
X J+1
X
(Y1t − wj∗ (V )Yjt )2
t=1 j=2

Um exemplo do uso do método de Controle Sintético é Abadie, Di-


amond, e Hainmueller (2010), em que os pesquisadores buscaram
estimar o efeito da venda de cigarros depois da aprovação de um
aumento de impostos nesse bem no estado da Califórnia.
Aqui um gráfico da vendas de cigarros na Califórnia contra a
califórnia Sintética, estimada pelos pesquisadores

87

También podría gustarte