Documentos de Académico
Documentos de Profesional
Documentos de Cultura
APLICAÇÕES
Estatística Aplicada II
2017/2018
ESTATÍSTICA APLICADA II
ANÁLISE DE VARIÂNCIA A DOIS FATORES
(ANOVA TWO-WAY LAYOUT)
Teresa A. Oliveira
Para situações que envolvem a comparação de vários níveis, atendendo a dois fatores
distintos, a Análise de Variância a dois Fatores (Analysis of Variance, case ANOVA Two-
Way Layout) é a metodologia adequada, desde que se verifiquem os pressupostos de
normalidade, homocedastecidade e independência.
Consideremos de um modo geral, a comparação de dois fatores, L e C (linha e coluna) com r e
k níveis respectivamente. Os dados podem ser dispostos numa matriz de r linhas por k
colunas, em que cada elemento da matriz define uma célula. A análise do caso em que há
apenas uma observação por célula é a mais simples. O método de análise torna-se mais
complexo quando o número de observações por célula é diferente de um, podendo ainda neste
caso ocorrer duas situações distintas: uma em que o número de observações por célula é
constante e outra em que o número de observações por célula varia.
Nos problemas com dois fatores, podem ser considerados três tipos de modelo: Modelo de
Efeitos Fixos, Modelo de Efeitos Aleatórios e Modelo de Efeitos Mistos (um fator de efeitos
fixos e outro fator de efeitos aleatórios).
P a g e 1 | 23
1.1 Análise de variância a dois fatores com uma observação por célula
O modelo adequado para descrever os dados, quando estão em causa dois fatores e uma
observação por célula é o modelo linear aditivo do tipo:
yij i j ij , i=1,2,...,r; j=1,2,...,k ,
mantendo-se na generalidade os pressupostos assumidos para o caso de ANOVA a um fator.
Assim, tem-se:
yij observação do i-ésimo nível do fator L e j-ésimo nível do fator C;
constante desconhecida representativa da média global;
i constantes desconhecidas representativas do efeito principal do i-ésimo nível do fator L
(contribuição da linha i);
j constantes desconhecidas representativas do efeito principal do j-ésimo nível do fator C
(contribuição da coluna j);
ij componente aleatória representativa do erro ou resíduo, sob os pressupostos usuais,
Fator C
1 2 ... k
r y r1 yr 2 ... y rk
P a g e 2 | 23
Cada valor observado representa uma diferente combinação de um nível de uma determinada
linha (fator L) com um nível de uma determinada coluna (Fator C). Pode-se afirmar que cada
célula é representativa de um diferente tratamento a que cada elemento é submetido. Trata-se
portanto de rk tratamentos aplicados aos elementos amostrais.
Nos modelos de efeitos fixos, sem perda de generalidade, é assumido que:
r k
i 1
i 0 e que
j1
j 0.
Represente-se por:
y io soma total das observações da i-ésima linha ;
yi média das observações da i-ésima linha ;
y oj soma total das observações da j-ésima coluna ;
yi média das observações da j-ésima coluna;
yoo soma de todas as observações;
y média global das observações .
Assim , tem-se:
k
yio
yio yij , yi , i=1,2,...,r
j1 k
r yoj
y oj y ij , y j , j=1,2,...,k
i 1 r
r k
y oo
yoo y ij , y , n rk
i 1 j1 n
A soma de quadrados total, representada por SQT, pode particionar-se de modo análogo ao
exposto para a análise de variância a um fator:
r k r k r k r k
P a g e 3 | 23
Em suma, a variabilidade total pode ser agora expressa como uma partição de três parcelas :
(i) soma de quadrados entre linhas;
(ii) soma de quadrados entre colunas;
(iii) Soma de quadrados do erro ou resíduo.
SQT=SQL+SQC+SQE
Onde:
SQT representa a soma de quadrados total
SQL representa a soma de quadrados entre linhas
SQC representa a soma de quadrados entre colunas
SQE representa a soma de quadrados do erro ou resíduo
Os dados consistem de n observações no total, donde SQT tem n-1 graus de liberdade; há r
níveis do fator linha (r diferentes linhas a comparar), logo SQL tem r-1 graus de liberdade; há
k níveis do fator coluna ( k diferentes colunas a comparar), logo SQC tem k-1 graus de
liberdade; o número de graus de liberdade do erro ou resíduo é (r-1)(k-1).
Em termos práticos convém desenvolver expressões mais simples para o cálculo das somas
de quadrados, tal como se segue:
r k r 2 k
y oo
SQT= (yij y ) y
2 2
ij
i 1 j1 i 1 j1 rk
r
r k y 2
io 2
y oo
SQL= (yi y ) 2
i 1 j1
i 1
k
rk
k
r k y 2
oj 2
y oo
SQC= (y j y )2
i 1 j1
j1
r
rk
SQE=SQT-SQL-SQC ( por subtracção).
r
Admitindo H oL verdadeira, então
i 1
i 0 , podendo provar-se que:
SQL
E(SQL) (r 1)2 , com 2r 1 .
2
k
Admitindo H oC verdadeira, então
j1
j 0 , podendo provar-se que:
SQC
E(SQC) (k 1)2 , com 2k1 .
2
P a g e 4 | 23
Verifica-se também que:
SQE
E(SQE)= (r 1)(k 1)2 , com (2r 1)(k1) .
2
Um teste de hipóteses para diferenças entre linhas pode ser estabelecido através da
comparação entre QML e QME. Um teste de hipóteses para diferenças entre colunas pode ser
estabelecido através da comparação entre QMC e QME. Apresenta-se em seguida a tabela de
análise de variância a dois fatores para modelos de efeitos fixos, uma observação por célula.
colunas y 2
oj 2 QMC QMC
SQC=
j1
y oo F0C
r rk QME
Erro ou (r-1)(k-1) SQE= QME
Resíduo
SQT-SQL -SQC
Total n-1 r k
SQT= y
i 1 j1
2
ij ny2
P a g e 5 | 23
Rejeitar HoC : 1 2 ... k 0 (não há diferenças entre colunas) , no caso de o valor
observado de F0C ser superior ao valor tabelado F(k1),(r1)(k1) () . Se H oC não for rejeitada,
isto significa que não há evidência estatística de diferenças entre colunas, ao nível de
significância .
2.2 Análise de variância a dois fatores com mais de uma observação por célula:
interação
No caso exposto anteriormente apenas se teve em consideração uma observação por célula.
No entanto, uma repetição da experiência pode originar réplicas ou mais de uma observação
por célula, disponibilizando mais informação sobre os fatores. Nestas situações, é importante
não só averiguar se os dois fatores em estudo têm influência no resultado final, mas também
saber se existe uma interação significativa entre eles. Em algumas experiências pode
acontecer que o fator linha tenha um efeito positivo sobre a resposta para um certo nível do
fator coluna e para outros níveis do fator coluna tenha um efeito negativo. É usado o termo
efeito positivo para descrever uma situação em que a resposta aumenta à medida que
aumentam os níveis de um dado fator (de acordo com uma ordem estabelecida), e efeito
negativo quando a um decréscimo na resposta corresponde um decréscimo dos níveis do
fator.
Exemplo ilustrativo da importância do estudo interação:
Considerem-se os dois fatores L e C consistindo respectivamente de r e k níveis, e as médias
observadas por célula.
Fator C
1 2 3 Total
Fator C
1 2 ... k
y r11 y r 21 y rk1
r y r12 y r 22 y rk2
y r1c yr2c y rk c
Represente-se por:
yijo soma das observações da célula ij ;
yijo
yij média das observações da célula ij ;
c
yioo soma das observações para o i-ésimo nível do fator L;
P a g e 7 | 23
yojo soma das observações para o j-ésimo nível do fator C;
HoLC : ()11 ()12 ... () rk 0 (não há interação entre os fatores linha e coluna)
versus
H1LC : ()ij 0 ;
i 1 j1 1
(yij y ) 2 kc ( y i y ) 2 rc (y j y ) 2
i 1 j1
r k r k c
c(yij yi y j y ) 2 (yij yij ) 2
i 1 j1 i 1 j1 1
Onde SQT representa a soma de quadrados total, SQL a soma de quadrados entre linhas, SQC
a soma de quadrados entre colunas, SQ(LC) a soma de quadrados para a interação entre linhas
e colunas e SQE a soma de quadrados do erro. Os graus de liberdade são distribuídos
respectivamente como:
Dividindo cada soma de quadrados pelo correspondente número de graus de liberdade, obtêm-
se os quadrados médios respectivos, que conduzem a estimadores independentes para 2 :
k
cr2j
r
ck 2
i
j1
E(QML) 2 i 1
; E(QMC) 2 ;
r 1 k 1
r k
c () ij2
i 1 j1
E(QM(LC)) 2 ; E(QME) 2 .
(r 1)(k 1)
De notar que, admitindo que as hipóteses nulas são verdadeiras, qualquer dos estimadores
anteriores para 2 é não tendencioso. É importante, como já foi referido, realizar-se primeiro
o teste respeitante à interação, antes de testar os efeitos dos fatores principais (linha e coluna).
Se a interação não for significativa podem testar-se sem problemas os efeitos dos fatores
principais. No entanto, uma interação significativa pode ser preocupante e obrigar a uma total
P a g e 9 | 23
restruturação do problema, havendo a necessidade de aprofundar o estudo da influência de
cada fator nos níveis do outro.
Apresentam-se fórmulas simplificadas para a determinação algébrica dos valores das somas
de quadrados (correspondentes à tabela abaixo).
y
r
yioo
2 2
ojo
y2 j1
2
y ooo
SQL i 1
ooo ; SQC
kc n rc n
r k k
yijo2 y
r
y 2 2
ioo ojo 2
i 1 j1 j1 y ooo
SQ(LC)= i 1
c kc rc n
r k 2 c
y ooo
SQT y 2
ijk
i 1 j1 1 n
SQE=SQT-SQL-SQC-SQ(LC).
Na tabela não figuram as razões de variâncias para os efeitos principais, pois o cálculo destes
depende do resultado obtido quanto à interação. Vejamos de seguida o procedimento do teste.
Compara-se o valor calculado com o valor tabelado F(r1)(k1),rk(c1) () , rejeitando H oLC caso
F3 F(r1)(k1),rk(c1) () .
QML QMC
F1 e F2 .
QME QME
(2) No caso de a interação ser significativa, as diferenças entre fatores são importantes
apenas se forem comparadas com estas diferenças devidas à interação. Assim, as estatísticas
de teste apropriadas para testar:
serão respectivamente:
QML QMC
F1 e F2 ,
QM(LC) QM(LC)
F2 F(k1),(r1)(k1) () .
Serão significativas as diferenças entre dois níveis do fator linha, i e i' , se:
2(r 1)
ˆ i ˆ i' QME Fr1,(r1)(k1) ()
k
Serão significativas as diferenças entre dois níveis do fator coluna, j e j' , se:
2(k 1)
ˆ j ˆ j' QME Fk1,(r1)(k1) ()
r
2(r 1)
ˆ i ˆ i' QME F ()
ck r 1,r k(c1)
2(k 1)
ˆ j ˆ j' QME Fk1,r k(c1) ()
rc
P a g e 12 | 23
2.4 Análise de Modelos de Efeitos Aleatórios
yij , e ij são definidos de modo análogo ao modelo de efeitos fixos. Neste modelo de
efeitos aleatórios consideram-se agora i , j e ()ij variáveis aleatórias normais,
H oC : 2 0
versus
H1C : 2 0 ;
HoLC : 2 0
versus
H1LC : 2 0
Tal como no modelo de efeitos fixos, no modelo de efeitos aleatórios o denominador da razão
de variâncias não é necessariamente QME. Para o modelo de efeitos aleatórios tem-se:
P a g e 13 | 23
E(QM(LC)) 2 c2
E(QME)= 2
SQE
QME=
Erro ou rk(c-1) SQE rk(c 1)
Resíduo
n-1 SQT
Total
Do ponto de vista prático, tal como já foi referido no modelo de efeitos fixos, primeiro testa-
se a hipótese referente à interação entre os fatores linha e coluna,
HoLC : 2 0 versus H1LC : 2 0
QM(LC)
Calcula-se a estatística adequada à realização deste teste, que é F3 .
QME
Compara-se o valor calculado com o valor tabelado F(r1)(k1),rk(c1) () , rejeitando H oLC caso
F3 F(r1)(k1),rk(c1) () .
P a g e 14 | 23
O procedimento seguinte será:
Se H oLC é rejeitada, isto significa que há interacções.
Se H oLC não é rejeitada, isto significa que não há interacções significativas entre os dois
(i) Pode-se argumentar que “não rejeitar” H oLC não é o mesmo que “aceitar” H oLC e continuar
a admitir ser E(QM(LC)) o melhor estimador para 2 c2 , mantendo o raciocínio anterior
(ii) Pode-se admitir que realmente se deve aceitar que a interação não é significativa e usar nas
estatísticas de teste dos efeitos principais QME como denominador, continuando a análise
como para os efeitos fixos;
P a g e 15 | 23
Exercícios Resolvidos
1. Num problema que envolve uma ANOVA Two-Way com quatro níveis para o Factor A,
cinco níveis para o Factor B e um total de 100 observações, escolha a combinação
adequada para os graus de liberdade:
Mota de Água
Combustível A B C D E
2.1 Haverá diferenças significativas no gasto de combustível devido ao tipo de mota de água
e/ou combustível?
2.2 No caso de haver diferenças significativas entre tipos de mota de água e/ou combustível,
qual o método que aconselharia para estudar essas diferenças? Justifique.
P a g e 16 | 23
3. Está a ser investigada a produção resultante de um processo químico tendo como objectivo
testar a influência de dois factores, a pressão e a temperatura. Por dia, só conseguem ser
obtidos dois resultados experimentais para cada combinação de factores, encontrando-se na
tabela os resultados obtidos:
Pressão
P a g e 17 | 23
Resolução
versus
H11 : Pelo menos um combustível difere dos restantes
versus
H12 : Pelo menos uma das 5 motas difere das restantes
Dados os valores de consumo observados, têm-se os seguintes cálculos auxiliares:
r=4 ; k=5
Tabela de resumo de cálculos
P a g e 18 | 23
SQT=10975.11+10806.81+10569.9+10833.95+10694.46-53861.821=
=53880.23-53861.821=18.409
SQE= 18.409-7.529-2.1465=8.7335
Tabela Anova
Motas
Total 19 18.409
P a g e 19 | 23
3.1 O modelo adequado para investigar estes dados. É o modelo linear aditivo, com dois
factores e interação, que pode ser descrito como se segue:
yij i j ()ij ij , i=1,2,3; j=1,2,3; 1,2 ,
onde:
representa a média global;
i representa o efeito principal do i-ésimo nível do factor temperatura;
j representa o efeito principal do j-ésimo nível do factor pressão;
i 1
i 0 ,
j1
j 0 ,
i 1
() ij 0 ,
j1
()ij 0 .
3.2 As hipóteses a testar dizem respeito às linhas, colunas e interação, respectivamente. Assim
tem-se:
versus
H1LC : ()ij 0 ;
3.3 Em primeiro lugar deve testar-se a interação entre os dois factores. No caso desta
interação não ser significativa pode concluir-se a tabela relativamente aos dois efeitos
principais e considerando como denominador da estatística F para ambos os casos QME. No
P a g e 20 | 23
caso de a interação ser significativa então o denominador da razão de variâncias para as
estatísticas dos testes dos factores principais é QM(LC) em vez de QME.
Recorde-se a tabela de valores observados:
Pressão
y ooo 1293.4
P a g e 21 | 23
433.52 434.22 425.7 2 1293.42
SQC 7.421
3(2) 3(3)(2)
SQ(LC)
Entre 2
Linhas
Entre 2
colunas
Total 17
3.4 Verificou-se que a interação não é significativa. Então para testar a existência de
diferenças significativas entre os níveis de algum dos factores, conclui-se a tabela anterior
usando QME como denominador em cada estatística de teste. Assim tem-se:
P a g e 22 | 23
O.V. G.L. S.Q. Q.M. R.V.
Total 17
Conclusão: Uma vez que qualquer das estatísticas de teste tem por valor observado um valor
inferior ao tabelado, não se rejeita nenhuma das hipóteses nulas. Não há evidência estatística
ao nível de significância de 5% de diferenças significativas entre temperaturas, nem entre
pressões.
P a g e 23 | 23