Está en la página 1de 13

INTRODUÇÃO À MODELAGEM LISTA 1 18 DE DEZEMBRO, 2017

KENNEDY ANDERSON GUIMARÃES DE ARAÚJO - 401554


Lista 1 - Modelagem Estocástica

a.

Yi = β0 + β1 X1i + . . . + βk Xki + i , i = 1, . . . , n. (1)

b.

Y = Xβ + ε, (2)

com o vetor Yn,1 dado por:

 
Y1

 Y2 

Y =
 Y3 
 (3)
 .. 
 . 
Yn

A matriz Xn,p , com p = k + 1 sendo o número de parâmetros, é dada por

 
1 X11 X12 ··· X1k

 1 X21 X22 ··· X2k 

X=
 1 X31 X32 ··· X3k 
 (4)
 .. .. .. .. .. 
 . . . . . 
1 Xn1 Xn2 ··· Xik

E com a matriz de parâmetros, βp,1 , e a matriz de erros, εn1 , dadas por:


 
β1
 β2 
β= . (5)
 
 ..


βk

 
ε1
 ε2 
ε= (6)
 
.. 
 . 
εn

c. Método dos momentos, Método dos mı́nimos quadrados e Método da máxima verossimilhança.
Pn
d. Minimizando a soma dos desvios i=1 εi 2 , na forma matricial:

n
X
εi = εT ε (7)
i=1

Como εi = (Y − Xβ), então


INTRODUÇÃO À MODELAGEM LISTA 1 Page 2 of 13

εT ε = (εT ε)T (εT ε) (8)


= Y T Y − Y T Xβ − (Xβ)T Y + (Xβ)T (Xβ) (9)
= Y T Y − Y T Xβ − β T X T Y + β T X T Xβ (10)

Como

Y T Xβ = β T X T Y, (11)

então

εT ε = Y T − 2Y T Xβ + β T X T Xβ (12)

Utilizando estas simplificações temos:

d(εT ε) d
= [Y T − 2Y T Xβ + β T X T Xβ] (13)
dβ dβ

Nessa derivação de matrizes, precisamos dos seguintes resultados

daT X
= a (14)
dX
dX T aX
= 2aX (15)
dX

Então, respectivamente, temos os valores

dY T Xβ
= (Y T X) (16)

= (X T Y ) (17)
T T
dβ X Xβ
= (Y T X) (18)

= 2(X T X)β (19)

Igualando a zero

−2X T Y + 2(X T X)βb = 0 (20)


(X T X)βb = X Y T
(21)
(X T X)−1 (X T X)βb = T
(X X) −1 T
X Y (22)
T −1 T
βb = (X X) X Y (23)

e. Considerando:

Cont.
INTRODUÇÃO À MODELAGEM LISTA 1 Page 3 of 13

E[β]
b = E[(X T X)−1 X T Y ] (24)
= (X T X)−1 X T E[Y ] (25)
T −1 T
= (X X) X β (26)
= β (27)

Para o cálculo da variância dos estimadores devemos saber um resultado simples:

V [AY ] = AV [Y ]AT (28)

Logo,

V [β]
b = V [(X T X)−1 X T Y ] (29)
= (X T X)−1 X T V [Y ][(X T X)−1 X T ]T (30)
T −1 T 2 T −1
= (X X) X σ IX(X X) (31)
2 T −1 T T −1
= σ (X X) X X(X X) (32)
2 T −1
= σ (X X) . (33)

f. Vamos agora estimar o vetor de parâmetros utilizando o Estimador de Máxima Verossimilhança. Como

Y ∼Nn (Xβ, σ 2 I) (34)

A função densidade da Normal Multivariada


 X
Y ∼Nn µ, (35)

É dada por

 
1 −1 T
X−1
fY (y) = P exp (Y − µ) (Y − µ) . (36)
(2π)n/2 | |1/2 2
P
Onde é o determinante da matriz de variâncias e covariâncias. A função de verossimilhança é, então,
dada por:

 
1 −1
L(β, σ 2 ) = exp (Y − Xβ)T
(Y − Xβ) (37)
(2π)n/2 (σ 2 )n/2 2σ 2

Aplicando o logaritmo, temos:

n n 1
l(β, σ 2 ) = − ln(2π) − ln(σ 2 ) − (Y − Xβ)T (Y − Xβ) (38)
2 2 2

Se derivarmos em relação ao vetor de parâmetros chegaremos a mesma expressão encontrada pelo


Método dos Mı́nimos Quadrados, isto é,

Cont.
INTRODUÇÃO À MODELAGEM LISTA 1 Page 4 of 13

β = (X T X)−1 X T Y (39)

Vamos utilizar a expressão do logaritmo acima para calcular também a estimativa de σ 2 :

∂l(β, σ 2 ) n (Y − Xβ)T (Y − Xβ)


= − 2
+ (40)
∂σ 2σ 2σ 4
(41)

Igualando a zero:

n (Y − Xβ)T (Y − Xβ)
− 2
+ = 0 (42)
2σ 2σ 4
(Y − Xβ)T (Y − Xβ) n
= (43)
2σ 4 2σ 2
(Y − Xβ)T (Y − Xβ)
σ2 = . (44)
n

g.

β∼N
b (β, hrmV ar(β)) (45)

h. Nos testes individuais dos parâmetros, estamos interessados em saber se determinado parâmetro é igual
a determinado valor, isto é, estamos interessados em testar as seguintes hipóteses:
H0 : β j = β j 0
H1 : βj 6=βj0
Como todo teste, precisamos encontrar a quantidade pivotal. Como os βj0 são funções de variáveis
aleatórias com distribuição Normal, então podemos assumir que

βj0 ∼N (βj , var(βj )) (46)

Pois, como já demonstramos

E[β]
b =β (47)

Tendo a distribuição, encontramos a quantidade pivotal necessária para o teste:

βj − βj 0
q ∼N (0, 1) (48)
var(β)
b

i.
j.
l. O modelo tem como premissa 4 suposições principais:

– Independência: Os erros são independentes entre si, não devem ser correlacionados.

Cont.
INTRODUÇÃO À MODELAGEM LISTA 1 Page 5 of 13

– Identicamente distribuı́dos: Os erros são i.d., ou seja, identicamente distribuı́dos com distribuição
N (0, σ 2 ).
– Linearidade: O modelo supõe que X e Y possuem uma relação linear.
– Homoscedasticidade: A variabilidade dos erros é constante.

m. Análise de diagnóstico com o objetivo de verificar as premissas assumidas ao iniciar as análises.

n. Para verificar as premissas assumidas ao iniciar as análises dos dados.


o. – Resı́duo padronizado
Definido por

ei
rı = p , i = 1, 2, . . . , n, (49)
QM E(1 − hıı )

com σ̂ 2 = QM E e hii o i-ésimo elemento da matriz matriz chapéu (hat), H = X(X 0 X)−1 X 0 .
– Resı́duo Studentizado
Definido por

Yi − Ŷi(i)
ti = q . (50)
0 X )−1 x
σ̂ 1 + x0i (X(i) (i) i

p. – Não linearidade de X e Y;
– Não normalidade dos erros;
– Heterocedasticidade;
– Correlação entre os erros;
– Presença de valores extremos ou outlier;
– Modelo mal especificado.
q. Podemos expressar o seguinte modelo polinomial:

Yi = β0 + β1 xi1 + β2 x2i2 + β3 xi3 + i , i = 1, 2, ..., n. (51)

r. Considerando X1 , ..., Xn os dados originais, a transformação de Box-Cox consiste em encontrar um λ


tal que:

ln(Xi ), se λ = 0,



Yi (λ) = λ (52)
 Xi − 1 ,

se λ 6= 0,
λ

Precisamos então, encontrar uma estimativa para o parâmetro de transformação λ. Uma das formas
de estimar λ é utilizando o método de máxima verossimelhança.
Assumimos que Yi (λ), i = 1, ..., n é uma função monotona tal que Yi (λ) ∼ N (µ, σ 2 ) para algum λ fixo.
Portanto, a função de máxima verissimilhança de Yi (λ) em relação às observações originais Yi é obtida
multiplicando a função de máxima verossimilhança pelo Jacobiano da transformação, temos então:

Cont.
INTRODUÇÃO À MODELAGEM LISTA 1 Page 6 of 13

( Pn )
2
2
 1 − i=1 (Yi (λ) − µ)
L Yi (λ), µ, σ = exp J(λ, Y ) (53)
(2π)n/2 σ n 2σ 2

em que

n n
Y ∂Yi (λ) Y
J(λ, Y ) =
∂Yi
= Yiλ−1 (54)
i=1 i=1

Desta forma, temos que para um λ fixo, os estimadores σ̂ 2 (λ) e µ̂(λ) são dados por:

Pn
i=1 Yi (λ)
µ̂(λ) = Ȳ (λ) = (55)
n

Pn
i=1 (Yi (λ) − Ȳ (λ))2
σ̂ 2 (λ) = (56)
n

Em seguida, substituı́mos os valores de µ e σ 2 pelos estimadores de máxima verossimilhança encon-


trados acima, µ̂(λ) e σ̂ 2 (λ), respectivamente, na função de máxima verossimilhança. Desta forma,
obtemos o logaritmo da função de máxima verossimilhança dependendo somente de λ

h i nπ 1
`(λ) = log L(λ|Yi , µ̂, σˆ2 ) = − − log σ̂ 2 (λ) + (1 − λ) log(Yi ) (57)
2 2

Precisamos então, encontrar λ que maximiza `(λ). Uma forma que encontramos na literatura para
facilitar a estimativa de λ utilizar a forma normalizada da transformação, Zi (λ), para que desta forma
termos J(λ, Z) = 1. Considere a seguinte função:

Yi (λ)
Zi (λ) = 1/n
(58)
[J(λ, Y )]

Desta forma, o logaritmo da função de máxima verossimilhança fica

h i nπ 1
`(λ) = log L(λ|Zi , µ̂, σˆ2 ) = − − log σ̂ 2 (Z, λ) (59)
2 2

onde

Pn
2 i=1 (Zi (λ) − Z̄(λ))2
σ̂ (Z, λ) = (60)
n

Portanto, maximizar `(λ) é equivalente a encontrar o mı́nimo de σ̂ 2 (Z, λ) em relação a λ.


Box e Cox (1964) afirmam que após a transformação adequada das observações Y para Y (λ) os valores
esperados das observações transformadas estarão normalmente distribuı́dos com variância constante.

Cont.
INTRODUÇÃO À MODELAGEM LISTA 1 Page 7 of 13

s. Em muitos casos, ao analisarmos os resı́duos de um modelo de regressão linear, ao visualizarmos que


estes não apresentam a caracterı́stica de variância constante, temos uma das suposições do modelo
não atendidas. Quando isso acontece, dizemos que o modelo apresenta heterocedasticidade nos erros
(resı́duos), ou ainda que o modelo é heterocedástico. Alguns efeitos causados por essa falha na suposição
do modelo são:
Os erros padrões dos estimadores, obtidos pelo Método dos Mı́nimos Quadrados Ordinários, são in-
corretos e portanto a inferência estatı́stica não é valida. Não podemos mais dizer que os Estimadores
de Mı́nimos Quadrados Ordinários são os melhores estimadores de variância mı́nima para β, embora
ainda possam ser não viciados.
Por que usar pesos?
Suponhamos que a variância seja não constante, isto é,

Var(Yi ) = σi2 , para i = 1, . . . , n. (61)

tomamos, por exemplo, pesos de forma que

1
wi ∝ , i = 1, . . . , n. (62)
σi2

Com isso, as estimativas de Mı́nimos Quadrados Ponderados (MQP) tem erros padrão menores do que
as estimativas de Mı́nimos Quadrados Ordinários (MQO). Como dito anteriormente, as estimativas de
MQO são incorretos, em relação as estimativas de MQP.
A avaliação da hipótese de homoscedasticidade dos resı́duos, é feita através das estatı́sticas de Cochran,
Brown-Forsyte (Levene), Breusch-Pagan e Goldfeld-Quandt.
Neste momento, consideramos o modelo de regressão linear simples e vamos denotar por σi2 a variância
relacionada ao i-ésimo erro εi ,, A suposição do modelo é que εi ∼ N (0, σi ) independentes. Observe que
estamos considerando que a variância σi2 depende da i-ésima observação, podendo ser não constante
ao longo das observações. O modelo descrito é da forma:

Yi = βw0 + βw1 Xi + εi , para i = 1, . . . , n, (63)

em que,

– Yi é a i-ésima observação da variável resposta;


– Xi é a i-ésima observação da co-variável constante e conhecida;
– βw0 e βw1 são os parâmetros desconhecidos da regressão;
– εi é o i-ésimo erro, consideramos εi ∼ N (0, σi2 ) para i = 1, 2, . . . , n e n é o número de observações.

Podemos obter os estimadores dos coeficientes da regressão considerando o método de máxima verossim-
ilhança ou pelo método dos mı́nimos quadrados. A seguir, descrevemos a estimação pelo método de
máxima verossimilhança. Para isto, substituı́mos σ 2 por σi2 devidamente e obtemos a expressão:

n
( )
2
Y 1 (Yi − (βw0 + βw1 Xi ))
L(βw0 ; βw1 |y, x) = exp − . (64)
2σi2
p
2
2πσi
i=1

Supomos o peso wi , inversamente proporcional a variância σ 2 , sendo:

Cont.
INTRODUÇÃO À MODELAGEM LISTA 1 Page 8 of 13

1
wi = . (65)
σi2

e então, obtemos a função verossimilhança da seguinte forma:

n √ n  
Y wi Y 1 2
L(βw1 ; β2 |y, x) = √ exp − wi (Yi − (βw0 + βw1 Xi )) (66)
i=1
2π i=1 2

n 
( n
)
Y wi 1/2 1X 2
= exp − wi (Yi − (βw0 + βw1 Xi )) . (67)
i=1
2π 2 i=1

Obtemos os estimadores dos coeficientes da regressão maximizando em relação a βw0 e βw1 . Porém,
podemos perceber que a função de verossimilhança é inversamente proporcional ao termo exponencial,
portanto, maximizar equivale a minimizar o termo:

n
X n
X 2
Qw = ε2wi = wi (Yi − (βw0 + βw1 Xi )) . (68)
i=1 i=1

que é soma dos desvios ponderados do método dos mı́nimos quadrados ponderados.
Os estimadores βbw0 e βbw1 são conhecidos como estimadores de mı́nimos quadrados ponderados. No-
tamos que esses estimadores, coincidem com os estimadores de mı́nimos quadrados ordinários quando
consideramos a suposição de homoscedasticidade, que implica em pesos (wi ) iguais.
As observações de maior variância têm menos influência sobre os estimadores de βw0 e βw1 , e as de
menor variância têm mais influência. Isso é devido ao fato de que as observações de menor variância
apresentam informações mais pertinentes a respeito da hbbE[Y |Xi ], i = 1, . . . , n.
Calculamos os estimadores de mı́nimos quadrados ponderados derivando Qw em relação aos parâmetros
e igualando a zero para obter o ponto de mı́nimo, ou seja:

n n n n
∂Qw X X X X
=2 wi (Yi − (βw0 + βw1 Xi )) = 2 wi Yi − 2βw0 wi − 2βw1 wi Xi = 0 (69)
∂βw0 i=1 i=1 i=1 i=1

n n n n
∂Qw X X X X
=2 wi (Yi − (βw0 + βw1 Xi )) Xi = 2 wi Yi Xi − 2βw0 wi Xi − 2βw1 wi Xi 2 = 0 (70)
∂βw1 i=1 i=1 i=1 i=1

Desta forma, obtemos o sistema:

n
 X n
X n
X
w Y = β w + β wi Xi

i i w0 i ww1



i=1 i=1 i=1
n
X n
X n
X (71)
wi Xi 2



 w Y X
i i i = β w0 w X
i i + β w1
i=1 i=1 i=1

Com isso, a solução das equações são dadas por:

Cont.
INTRODUÇÃO À MODELAGEM LISTA 1 Page 9 of 13

n
X n
X
wi Yi − βw1 wi Xi
i=1 i=1
βw0 = n (72)
X
wi
i=1

n
X n
X
n
wi Yi wi Xi
X i=1 i=1
wi Yi Xi − n
X
i=1
wi
i=1
βw1 = !2 (73)
n
X
n
wi Xi
X i=1
2
wi Xi − n
X
i=1
wi
i=1

n
X n
X
wi Yi wi Xi
i=1 i=1
Para facilitar a notação, denotamos Y w = n e Xw = n as médias ponderadas de Y e
X X
wi wi
i=1 i=1
X, respectivamente. Afim de facilitar os cálculos, vamos reescrever o estimador de mı́nimos quadrados
ponderados de βw1 da seguinte maneira:

n
X
wi (Xi − X w )(Yi − Y w )
i=1
βbw1 = n = (74)
X
2
wi (Xi − X w )
i=1

n
X n
X n
X n
X
wi Xi Yi − wi Xi Y w − wi X w Yi + wi X w Y w
i=1 i=1 i=1 i=1
= n = (75)
X
wi (Xi − X w )2
i=1

 n
X
  n
X

n n  wi Yi  n n  wi Yi 
X X  i=1  X X  i=1 
wi Yi Xi − wi Xi 
 X n
−
 wi X w Yi + wi X w 
 X n


i=1 i=1  i=1 i=1
wi wi
  
i=1 i=1
= n = (76)
X
2
wi (Xi − X w )
i=1

Cont.
INTRODUÇÃO À MODELAGEM LISTA 1 Page 10 of 13

n
X n
X n
X n
X
n
wi Yi wi Xi n
wi X w wi Yi
X i=1 i=1
X i=1 i=1
wi Yi Xi − n − wi X w Yi + n
X X
i=1 i=1
wi wi
i=1 i=1
= n = (77)
X
wi (Xi − X w )2
i=1

n
X n
X n
X n
X
wi Yi Xi − wi Yi X w − wi Yi X w + wi Yi X w
i=1 i=1 i=1 i=1
= n (78)
X
2
wi (Xi − X w )
i=1

n
X n
X n
X
wi Yi Xi − wi Yi X w wi (Xi − X w )Yi
i=1 i=1 i=1
= n = n . (79)
X X
2 2
wi (Xi − X w ) wi (Xi − X w )
i=1 i=1

Logo, os estimadores de mı́nimos quadrados ponderados são dadas por:

βbw0 = Y w − βbw1 X w (80)

n
X
wi (Xi − X w )Yi
i=1
βbw1 = n (81)
X
2
wi (Xi − X w )
i=1

Os valores de βbw0 eβbw0 obtidos são denominados Estimadores de Mı́nimos Quadrados Ponderados
(EMQP).
O modelo de regressão linear simples ponderado ajustado é dado por

Ybi = βbw0 + βbw1 Xi i = 1, . . . , n (82)

em que Yb é um estimador pontual da média da variável Y para um valor de x, ou seja,

\|Xi ) = βbw0 + βbw1 Xi ,


hbbE(Y i = 1, . . . , n (83)

t. Quando há correlação par a par dos erros, temos o modelo da forma
   
Y1 β0 + β1 X11 + β2 X12 + ... + βk X1k + ε1
 Y2   β0 + β1 X21 + β2 X22 + ... + βk X2k + ε2 
   
 Y3   β0 + β1 X31 + β2 X32 + ... + βk X3k + ε3
= (84)

 
 ..   .. 
 .   . 
Yn β0 + β1 Xn1 + β2 Xn2 + ... + βk Xnk + εn

Cont.
INTRODUÇÃO À MODELAGEM LISTA 1 Page 11 of 13

Onde:

  
0  
1 0 ... 0
 0  
   0 1 ... 0 
e = N 
 0  2
,σ  .. .. .

(85)
... ..

 ..   . . 
 .  
0 0 ... 1
0

De modo que:

  
1 0 ... 0
  0 1 ... 0  
Y |X ∼ Nn Xβ, Σ  (86)
  
.. .. . 
... .. 

  . .
0 0 ... 1

Sendo X a matriz de dados, β o vetor de parâmetros, Y o vetor de variáveis respostas,  a fonte de


variação e Σ a matriz de correlação dos erros.
u. Quando existe uma estrutura autorregressiva, temos o seguinte modelo:

Y = Xβ + ε (87)

De modo que,

hrmV ar(e) = σ 2 Σ, (88)

sendo

... ρn
 
1 ρ
 ρ 1 ... ... 
Σ= . (89)
 
.. .. .
 . . ... .. 
ρn ... ... 1

Sendo X a matriz de dados, β o vetor de parâmetros, Y o vetor de variáveis respostas,  a fonte de


variação e Σ a matriz de correlação dos erros.

v. Podemos aplicar o critério de Rubber, que se baseia em minimizar

n
X
S(β) = ρ(zi ), (90)
i=1

em que zi = ei /5 para dois casos. O primeiro para |z| ≤ c, na qual teremos:

z 2 /2 (91)

Cont.
INTRODUÇÃO À MODELAGEM LISTA 1 Page 12 of 13

e para |z| ≥ c,

c [|z| − c/2] . (92)

Assim, pondera-se os resı́duos e a distância de Cook pelos pesos estimados no processo de estimação.
x. Quando se tem erros de medidas nas variáveis algumas alternativas são utilizadas, dentre elas: modelos
de calibração, modelo linear heterocedástico com erros nas variáveis e na equação.
z. Nesses casos, utilizamos o modelo de regressão logı́stica, que é semelhante ao modelo de regressão
linear. No entanto, no modelo logı́stico a variável resposta Yi é binária (assume dois valores), como por
exemplo, Yi = 0 e Yi = 1, denominados ”fracasso” e ”sucesso”, respectivamente. Neste caso, ”sucesso”
é o evento de interesse.
No modelo linear temos

Yi = β0 + β1 xi + εi . (93)

Assumindo que E(εi ) = 0, obtemos que

E(Yi ) = β0 + β1 xi . (94)

A variável resposta Y tem distribuição Bernoulli (1, π), com probabilidade de sucesso P (Yi = 1) = πi
e de fracasso P (Yi = 0) = 1 − πi . Desta forma

E(Yi ) = πi . (95)

Logo, temos:

E(Yi ) = πi = β0 + β1 xi . (96)

Essa igualdade viola as suposições do modelo linear. De fato,

– Os erros não são normais, pois:

y i = 1 ⇒ ε i = 1 − β0 − β1 x 1 (97)

y i = 0 ⇒ ε i = 0 − β0 − β1 x 1 (98)

Assim não faz sentido assumirmos a normalidade dos erros.


– Não homogeneidade da variância.
Temos que

Var(Y1 ) = πi (1 − πi ) = (β0 + β1 x1 )(1 − β0 − β1 x1 ) (99)

então a variância de Yi depende de xi , e consequentemente, não é constante.

Cont.
INTRODUÇÃO À MODELAGEM LISTA 1 Page 13 of 13

– Restrição para a resposta média E(Yi ). Como a resposta média é obtida em probabilidades temos
que 0 ≤ β0 + β1 x1 ≤ 1. Entretanto, esta restrição é inapropriada para resposta em um modelo
linear, que assume valores no intervalo (−∞, ∞). Uma forma de resolver esse problema é utilizar
o modelo logı́stico.

Muitas funções foram propostas para a análise de variáveis com respostas dicotômicas. Dentre elas
a mais simples é a que dá origem ao modelo logı́stico. Do ponto de vista estatı́stico este modelo é
bastante flexı́vel e de fácil interpretação.

The End.

También podría gustarte