Está en la página 1de 50

Analise de dados e metodos de diagnostico em

modelos normais lineares

Prof. Caio Azevedo

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Forma matricial para do MNL
Y = X +

Y1 X11 ... X1p 1 1

Y2 X21 ... X2p 2 2


Y=
..
,X =
.. ..
, =
..
, =
.. ..

. . . . . .

Yn Xn1 ... Xnp p n
Suposicao Nn (0, 2 In ) (que e o vetor de erros).
Y e o vetor das variaveis resposta.
O ndice n da variavel resposta e geral e pode representar
combinacoes de ndices.
X e a matriz de plajenamento (ou delineamento) que define a parte
sistematica do modelo.
Prof. Caio Azevedo
Analise de dados e metodos de diagnostico em modelos normais lineares
Suposicoes

As principais suposicoes do MNL sao:

Homocedasticidade.
Independencia dos erros.
Normalidade dos erros.

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Suposicoes

As principais suposicoes do MNL sao:

Homocedasticidade.
Independencia dos erros.
Normalidade dos erros.

Como verificar as suposicoes do modelo?

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Suposicoes

As principais suposicoes do MNL sao:

Homocedasticidade.
Independencia dos erros.
Normalidade dos erros.

Como verificar as suposicoes do modelo?

Como proceder se uma ou mais de uma suposicao nao for


(satisfatoriamente) valida?

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Resduos

Como os erros () nao sao observados (observaveis), precisamos de


algum preditor apropriado para avaliar as suposicoes feitas sobre eles.

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Resduos

Como os erros () nao sao observados (observaveis), precisamos de


algum preditor apropriado para avaliar as suposicoes feitas sobre eles.
bi = Yi x0 .
Ja definimos os resduos: bi = Ri = Yi Y b
i

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Resduos

Como os erros () nao sao observados (observaveis), precisamos de


algum preditor apropriado para avaliar as suposicoes feitas sobre eles.
bi = Yi x0 .
Ja definimos os resduos: bi = Ri = Yi Y b
i

Matricialmente R = Y Y
b = Y X
b = (I H)Y,

H = X(X0 X)1 X0 .

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Resduos

Como os erros () nao sao observados (observaveis), precisamos de


algum preditor apropriado para avaliar as suposicoes feitas sobre eles.
bi = Yi x0 .
Ja definimos os resduos: bi = Ri = Yi Y b
i

Matricialmente R = Y Y
b = Y X
b = (I H)Y,

H = X(X0 X)1 X0 .

Assim temos, sob as suposicoes do modelo, que


R Nn (0, 2 (I H)) (sao correlacionados).

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Cont.
  
Ri
Defina Ti = , em que S 2 = 1
np Y X
b Y X
b e
S 2 (1hii )
hii e o i-esimo elemento da diagonal principal de H.

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Cont.
  
Ri
Defina Ti = , em que S 2 = 1
np Y X
b Y X
b e
S 2 (1hii )
hii e o i-esimo elemento da diagonal principal de H.

A divisao por (1 hii ) atenua a correlacao entre os resduos.

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Cont.
  
Ri
Defina Ti = , em que S 2 = 1
np Y X
b Y X
b e
S 2 (1hii )
hii e o i-esimo elemento da diagonal principal de H.

A divisao por (1 hii ) atenua a correlacao entre os resduos.

Contudo, Ri e S 2 nao sao independentes.

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Cont.
  
Ri
Defina Ti = , em que S 2 = 1
np Y X
b Y X
b e
S 2 (1hii )
hii e o i-esimo elemento da diagonal principal de H.

A divisao por (1 hii ) atenua a correlacao entre os resduos.

Contudo, Ri e S 2 nao sao independentes.


2 2
Porem, S(i) e Ri o sao (em que S(i) e S 2 correspondente ao modelo
sem a i-esima observacao).

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Cont.
  
Ri
Defina Ti = , em que S 2 = 1
np Y X
b Y X
b e
S 2 (1hii )
hii e o i-esimo elemento da diagonal principal de H.

A divisao por (1 hii ) atenua a correlacao entre os resduos.

Contudo, Ri e S 2 nao sao independentes.


2 2
Porem, S(i) e Ri o sao (em que S(i) e S 2 correspondente ao modelo
sem a i-esima observacao).
npTi2
 
2
Pode-se provar, alem disso, que S(i) = S2 np1 .

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Cont.
  
Ri
Defina Ti = , em que S 2 = 1
np Y X
b Y X
b e
S 2 (1hii )
hii e o i-esimo elemento da diagonal principal de H.

A divisao por (1 hii ) atenua a correlacao entre os resduos.

Contudo, Ri e S 2 nao sao independentes.


2 2
Porem, S(i) e Ri o sao (em que S(i) e S 2 correspondente ao modelo
sem a i-esima observacao).
npTi2
 
2
Pode-se provar, alem disso, que S(i) = S2 np1 .

Tem-se, entao, que Ti = q Ri t(np1) , sob a validade das


2 (1h )
S(i) ii

hipoteses do modelo.

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
O que e como observar nos resduos?
Grafico de dispersao dos resduos versus seu ndice: Ausencia de
tendencia (autocorrelacoes, por exemplo).

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
O que e como observar nos resduos?
Grafico de dispersao dos resduos versus seu ndice: Ausencia de
tendencia (autocorrelacoes, por exemplo).

Grafico de dispersao dos resduos versus valores ajustados:


Variancias parecidas para diferentes grupos de resduos.

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
O que e como observar nos resduos?
Grafico de dispersao dos resduos versus seu ndice: Ausencia de
tendencia (autocorrelacoes, por exemplo).

Grafico de dispersao dos resduos versus valores ajustados:


Variancias parecidas para diferentes grupos de resduos.

Boxplot e/ou grafico de quantis-quantis: Simetria, ausencia de


out-liers e multimodalidade.

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
O que e como observar nos resduos?
Grafico de dispersao dos resduos versus seu ndice: Ausencia de
tendencia (autocorrelacoes, por exemplo).

Grafico de dispersao dos resduos versus valores ajustados:


Variancias parecidas para diferentes grupos de resduos.

Boxplot e/ou grafico de quantis-quantis: Simetria, ausencia de


out-liers e multimodalidade.

Problema no grafico de quantis-quantis: Visualmente, muitas vezes,


e complicado avaliar a proximidade dos quantis.

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
O que e como observar nos resduos?
Grafico de dispersao dos resduos versus seu ndice: Ausencia de
tendencia (autocorrelacoes, por exemplo).

Grafico de dispersao dos resduos versus valores ajustados:


Variancias parecidas para diferentes grupos de resduos.

Boxplot e/ou grafico de quantis-quantis: Simetria, ausencia de


out-liers e multimodalidade.

Problema no grafico de quantis-quantis: Visualmente, muitas vezes,


e complicado avaliar a proximidade dos quantis.

Solucao: criar bandas de confianca.

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Grafico de envelopes
ri
1 Ajusta-se o modelo e obtem-se ti = q
2 (1h )
.
s(i) ii

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Grafico de envelopes
ri
1 Ajusta-se o modelo e obtem-se ti = q
2 (1h )
.
s(i) ii

2 Gera-se n observacoes N(0,1) as quais sao armazenadas em


y = (y1 , ..., yn ).

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Grafico de envelopes
ri
1 Ajusta-se o modelo e obtem-se ti = q
2 (1h )
.
s(i) ii

2 Gera-se n observacoes N(0,1) as quais sao armazenadas em


y = (y1 , ..., yn ).

3 Ajusta-se o modelo considerando-se y e obtem-se ri = yi yei (relativo ao


modelo ajustado nesta etapa).

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Grafico de envelopes
ri
1 Ajusta-se o modelo e obtem-se ti = q
2 (1h )
.
s(i) ii

2 Gera-se n observacoes N(0,1) as quais sao armazenadas em


y = (y1 , ..., yn ).

3 Ajusta-se o modelo considerando-se y e obtem-se ri = yi yei (relativo ao


modelo ajustado nesta etapa).
ri
4 Obtem-se agora, ti = q
2 (1h )
, i = 1, ..., n
s(i) ii

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Grafico de envelopes
ri
1 Ajusta-se o modelo e obtem-se ti = q
2 (1h )
.
s(i) ii

2 Gera-se n observacoes N(0,1) as quais sao armazenadas em


y = (y1 , ..., yn ).

3 Ajusta-se o modelo considerando-se y e obtem-se ri = yi yei (relativo ao


modelo ajustado nesta etapa).
ri
4 Obtem-se agora, ti = q
2 (1h )
, i = 1, ..., n
s(i) ii

5 Repete-se os passos (2)-(4), m vezes. Logo, teremos tij , i = 1, ..., n e


j = 1, ..., m.

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Grafico de envelopes
ri
1 Ajusta-se o modelo e obtem-se ti = q
2 (1h )
.
s(i) ii

2 Gera-se n observacoes N(0,1) as quais sao armazenadas em


y = (y1 , ..., yn ).

3 Ajusta-se o modelo considerando-se y e obtem-se ri = yi yei (relativo ao


modelo ajustado nesta etapa).
ri
4 Obtem-se agora, ti = q
2 (1h )
, i = 1, ..., n
s(i) ii

5 Repete-se os passos (2)-(4), m vezes. Logo, teremos tij , i = 1, ..., n e


j = 1, ..., m.

6 Colocamos cada grupo de n resduos em ordem crescente, obtendo-se t(i)j .

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Grafico de envelopes
ri
1 Ajusta-se o modelo e obtem-se ti = q
2 (1h )
.
s(i) ii

2 Gera-se n observacoes N(0,1) as quais sao armazenadas em


y = (y1 , ..., yn ).

3 Ajusta-se o modelo considerando-se y e obtem-se ri = yi yei (relativo ao


modelo ajustado nesta etapa).
ri
4 Obtem-se agora, ti = q
2 (1h )
, i = 1, ..., n
s(i) ii

5 Repete-se os passos (2)-(4), m vezes. Logo, teremos tij , i = 1, ..., n e


j = 1, ..., m.

6 Colocamos cada grupo de n resduos em ordem crescente, obtendo-se t(i)j .

7 Obtemos os limites t(i)I = minj t(i)j e t(i)S = maxj t(i)j . Assim, os limites
correspondentes ao i-esimo resduo serao dados por t(i)I e t(i)S .
Prof. Caio Azevedo
Analise de dados e metodos de diagnostico em modelos normais lineares
Exemplo 1: considerando as etiologias cardacas

Voltemos ao exemplo 1.

Considerando primeiro o modelo que contempla os grupos e depois o


modelo reduzido.

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Modelo 1 (considerando as etiologias)


Resduo Studentizado

4
Residuo Studentizado


2

2













0

0














2

0 20 40 60 80 100 120 8 10 12 14 16 18

Indice Valores Ajustados

4
4


Residuo Studentizado
Residuo studentizado



2
2

2 1 0 1 2

Percentis da N(0,1)

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Modelo 2 (um unico grupo)
4

4

Resduo Studentizado

Residuo Studentizado


2

2














0

0


















2

0 20 40 60 80 100 120 8 10 12 14 16

Indice Valores Ajustados

3

3


Residuo Studentizado
Residuo studentizado

2

2




1


1

2 1 0 1 2

Percentis da N(0,1)

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Exemplo 2: considerando todos os tipos de solvente

Voltemos ao exemplo 2.

Considerando primeiro o modelo que contempla todos os tipos de


solvente e depois o modelo reduzido.

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Modelo 1 (considerando as etiologias)
3

3
Resduo Studentizado

Residuo Studentizado

2

2


1

1




0

0



1

1





3

3
5 10 15 20 25 0.2 0.3 0.4 0.5 0.6

Indice Valores Ajustados

3

Residuo Studentizado
2
Residuo studentizado

2

1

1


3
2

2 1 0 1 2

Percentis da N(0,1)

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Modelo 2 (um unico grupo)
3

3
Resduo Studentizado

Residuo Studentizado

2

2


1

1





0

0




1

1




2

2
3

3
5 10 15 20 25 0.2 0.3 0.4 0.5 0.6

Indice Valores Ajustados

3

2

Residuo Studentizado
Residuo studentizado

2
1
1


2
3
2

2 1 0 1 2

Percentis da N(0,1)

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Ausencia de normalidade

Voltemos ao MNL:

Y n = Xn + n

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Ausencia de normalidade

Voltemos ao MNL:

Y n = Xn + n

Suponha que E( n ) = 0n e Cov ( n ) = 2 In .

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Ausencia de normalidade

Voltemos ao MNL:

Y n = Xn + n

Suponha que E( n ) = 0n e Cov ( n ) = 2 In .


Suposicoes adicionais
1 max1kn x0nk (X0n Xn )1 xnk 0, quando n .
2 limn X0n Xn = V.

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Ausencia de normalidade

Voltemos ao MNL:

Y n = Xn + n

Suponha que E( n ) = 0n e Cov ( n ) = 2 In .


Suposicoes adicionais
1 max1kn x0nk (X0n Xn )1 xnk 0, quando n .
2 limn X0n Xn = V.

Pelo Teorema Central do Limte (TCL) de Linderberg-Feller (se


n ), entao
D
b ) Np (0, 2 V1 )
n(
Prof. Caio Azevedo
Analise de dados e metodos de diagnostico em modelos normais lineares
Comentario

Para n suficientemente grande

b Np (, 2 (Xn Xn )1 )

Em relacao a primeira suposicao adicional, considere que



x0n1

0
xn2 1n1 0 n 0
Xn = ; X0n Xn = 1
.. ; Xn =

. 0 1n2 0 n2

x0nn
Assim

x0n1 (X0n Xn )1 xn1 = n11 ; x0n2 (X0n Xn )1 xn2 = n21


Prof. Caio Azevedo
Analise de dados e metodos de diagnostico em modelos normais lineares
Ausencia de homocedasticiade e presenca de correlacao

Suponha a mesma estrutura anterior mas Cov () = 2 ,


conhecida.

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Ausencia de homocedasticiade e presenca de correlacao

Suponha a mesma estrutura anterior mas Cov () = 2 ,


conhecida.
Defina

Z = W + (1)

em que

= 1/2 1/2 (decomposicao de Cholesky)

Z = 1/2 Y

W = 1/2 X

= 1/2
Prof. Caio Azevedo
Analise de dados e metodos de diagnostico em modelos normais lineares
Cont.

Assim, E() = 1/2 E() = 0 e Cov () = 2 1/2 1/2 = 2 I.

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Cont.

Assim, E() = 1/2 E() = 0 e Cov () = 2 1/2 1/2 = 2 I.

Logo, o estimador de MQO de , baseado no modelo (1), e dado


por:

b = (W0 W)1 W0 Z = (X0 1 X)1 X0 1 Y


Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Cont.

Assim, E() = 1/2 E() = 0 e Cov () = 2 1/2 1/2 = 2 I.

Logo, o estimador de MQO de , baseado no modelo (1), e dado


por:

b = (W0 W)1 W0 Z = (X0 1 X)1 X0 1 Y


Se Nn (0, 2 ), entao
b Np (, 2 (X0 1 X)1 )

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Cont.

Se a suposicao de normalidade for desconsiderada mas as suposicoes


relativas ao TCL anterior se verificarem, entao

b Np (, 2 (X0 1 X)1 )

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Cont.

Se a suposicao de normalidade for desconsiderada mas as suposicoes


relativas ao TCL anterior se verificarem, entao

b Np (, 2 (X0 1 X)1 )

Quando e diagonal mas (6= I), dizemos que


b e o estimador de

mnimos quadrados ponderados (MQP) de (baseado no modelo


original).

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Cont.

Se a suposicao de normalidade for desconsiderada mas as suposicoes


relativas ao TCL anterior se verificarem, entao

b Np (, 2 (X0 1 X)1 )

Quando e diagonal mas (6= I), dizemos que


b e o estimador de

mnimos quadrados ponderados (MQP) de (baseado no modelo


original).

Quando nao e diagonal, dizemos que


b e o estimador de mnimos

quadrados generalizados (MQG) de (baseado no modelo original).

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
desconhecido

Considere novamente o modelo original, Y = X + , com E() = 0


e Cov () = .

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
desconhecido

Considere novamente o modelo original, Y = X + , com E() = 0


e Cov () = .

Uma alternativa consite em considerar o estimador de dois estagio


de Aitken, ou seja

b 1 X)1 X0
b = (X0
b 1 Y

bP
em que
b e um estimador consistente de , ( ).

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Cont.

Assim, temos que (se validas as condicoes do TCL apresentado


anteriomente), que:
D
b ) Np (0, V1 )
n(

em que V = limn n1 (X0n 1


n Xn )

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares
Cont.

Assim, temos que (se validas as condicoes do TCL apresentado


anteriomente), que:
D
b ) Np (0, V1 )
n(

em que V = limn n1 (X0n 1


n Xn )

b 1 X.
b = X0
Em geral, toma-se V

Prof. Caio Azevedo


Analise de dados e metodos de diagnostico em modelos normais lineares