Análise de variância a dois fatores com uma observação por célula

LICENCIATURA EM MATEMÁTICA E
APLICAÇÕES
Estatística Aplicada II
2017/2018
ESTATÍSTICA APLICADA II
ANÁLISE DE VARIÂNCIA A DOIS FATORES
(ANOVA TWO-WAY LAYOUT)
Teresa A. Oliveira
1. Objectivos da análise de variância a dois fatores
Para situações que envolvem a comparação de vários níveis, atendendo a dois fatores
distintos, a Análise de Variância a dois Fatores (Analysis of Variance, case ANOVA Two-
Way Layout) é a metodologia adequada, desde que se verifiquem os pressupostos de
normalidade, homocedastecidade e independência.
Consideremos de um modo geral, a comparação de dois fatores, L e C (linha e coluna) com r e
k níveis respectivamente. Os dados podem ser dispostos numa matriz de r linhas por k
colunas, em que cada elemento da matriz define uma célula. A análise do caso em que há
apenas uma observação por célula é a mais simples. O método de análise torna-se mais
complexo quando o número de observações por célula é diferente de um, podendo ainda neste
caso ocorrer duas situações distintas: uma em que o número de observações por célula é
constante e outra em que o número de observações por célula varia.
Nos problemas com dois fatores, podem ser considerados três tipos de modelo: Modelo de
Efeitos Fixos, Modelo de Efeitos Aleatórios e Modelo de Efeitos Mistos (um fator de efeitos
fixos e outro fator de efeitos aleatórios).
P a g e 1 | 23
1.1 Análise de variância a dois fatores com uma observação por célula
O modelo adequado para descrever os dados, quando estão em causa dois fatores e uma
observação por célula é o modelo linear aditivo do tipo:
yij    i   j  ij , i=1,2,...,r; j=1,2,...,k ,
mantendo-se na generalidade os pressupostos assumidos para o caso de ANOVA a um fator.
Assim, tem-se:
yij  observação do i-ésimo nível do fator L e j-ésimo nível do fator C;
 constante desconhecida representativa da média global;
i  constantes desconhecidas representativas do efeito principal do i-ésimo nível do fator L
(contribuição da linha i);
 j  constantes desconhecidas representativas do efeito principal do j-ésimo nível do fator C
(contribuição da coluna j);
ij  componente aleatória representativa do erro ou resíduo, sob os pressupostos usuais,
ij iid  N(0, 2 ) .
O objectivo do problema consiste não só em comparar os valores médios 1 , 2 ,...,r , como

também em comparar os valores médios 1 , 2 ,...,k , a fim de investigar acerca existências de
diferenças significativas entre linhas (níveis do fator L) e de diferenças significativas entre
colunas (níveis do fator C), podendo a análise envolver a estimação dos efeitos
respectivamente do fator L e do fator C. O modelo com uma observação por célula é
vulgarmente conhecido por ANOVA Two-Way Layout.
Disposição típica das observações em experiências com dois fatores

Caso: Uma observação por célula
Fator C
1 2 ... k
1 y11 y12 ... y1k

Fator L
2 y21 y22 ... y 2k
    
r y r1 yr 2 ... y rk
P a g e 2 | 23
Cada valor observado representa uma diferente combinação de um nível de uma determinada
linha (fator L) com um nível de uma determinada coluna (Fator C). Pode-se afirmar que cada
célula é representativa de um diferente tratamento a que cada elemento é submetido. Trata-se
portanto de rk tratamentos aplicados aos elementos amostrais.
Nos modelos de efeitos fixos, sem perda de generalidade, é assumido que:
r k

i 1
i  0 e que 
j1
j  0.
Represente-se por:
y io  soma total das observações da i-ésima linha ;
yi  média das observações da i-ésima linha ;
y oj  soma total das observações da j-ésima coluna ;
yi  média das observações da j-ésima coluna;
yoo  soma de todas as observações;
y  média global das observações .
Assim , tem-se:
k
yio
yio   yij , yi  , i=1,2,...,r
j1 k
r yoj
y oj   y ij , y j  , j=1,2,...,k
i 1 r
r k
y oo
yoo   y ij , y   , n  rk
i 1 j1 n
As hipóteses a testar são:
HoL : 1  2  ...  r  0 (não há diferenças entre linhas)

versus
H1L : i  0 , para pelo menos algum i.
e
HoC : 1  2  ...  k  0 (não há diferenças entre colunas)
versus
H1C :  j  0 , para pelo menos algum j.
A soma de quadrados total, representada por SQT, pode particionar-se de modo análogo ao
exposto para a análise de variância a um fator:
r k r k r k r k
(yij  y )2  (yi  y ) 2  (y j  y ) 2  (yij  yi  y j  y ) 2

i 1 j1 i 1 j1 i 1 j1 i 1 j1
P a g e 3 | 23
Em suma, a variabilidade total pode ser agora expressa como uma partição de três parcelas :
(i) soma de quadrados entre linhas;
(ii) soma de quadrados entre colunas;
(iii) Soma de quadrados do erro ou resíduo.
Simbolicamente a expressão anterior pode escrever-se como se segue:
SQT=SQL+SQC+SQE
Onde:
SQT representa a soma de quadrados total
SQL representa a soma de quadrados entre linhas
SQC representa a soma de quadrados entre colunas
SQE representa a soma de quadrados do erro ou resíduo
Os dados consistem de n observações no total, donde SQT tem n-1 graus de liberdade; há r
níveis do fator linha (r diferentes linhas a comparar), logo SQL tem r-1 graus de liberdade; há
k níveis do fator coluna ( k diferentes colunas a comparar), logo SQC tem k-1 graus de
liberdade; o número de graus de liberdade do erro ou resíduo é (r-1)(k-1).
Em termos práticos convém desenvolver expressões mais simples para o cálculo das somas
de quadrados, tal como se segue:
r k r 2 k
y oo
SQT= (yij  y )   y 
2 2
ij
i 1 j1 i 1 j1 rk
r
r k y 2
io 2
y oo
SQL= (yi  y ) 2 
i 1 j1
i 1
k

rk
k
r k y 2
oj 2
y oo
SQC= (y j  y )2 
i 1 j1
j1
r

rk
SQE=SQT-SQL-SQC ( por subtracção).
r
Admitindo H oL verdadeira, então 
i 1
i  0 , podendo provar-se que:
SQL
E(SQL)  (r  1)2 , com   2r 1 .
2
k
Admitindo H oC verdadeira, então 
j1
j  0 , podendo provar-se que:
SQC
E(SQC)  (k  1)2 , com   2k1 .
 2
P a g e 4 | 23
Verifica-se também que:
SQE
E(SQE)= (r  1)(k  1)2 , com  (2r 1)(k1) .
 2
Os estimadores da variância podem escrever-se como:
SQL SQC SQE

QML= , QMC= e QME= ,
r 1 k 1 (r  1)(k  1)
sendo designados por:
QML Quadrados Médios das Linhas

QMC Quadrados Médios das Colunas
QME Quadrado Médio do Erro
Um teste de hipóteses para diferenças entre linhas pode ser estabelecido através da
comparação entre QML e QME. Um teste de hipóteses para diferenças entre colunas pode ser
estabelecido através da comparação entre QMC e QME. Apresenta-se em seguida a tabela de
análise de variância a dois fatores para modelos de efeitos fixos, uma observação por célula.
ANOVA a dois fatores

Modelo de efeitos fixos: uma observação por célula
O.V. G.L. S.Q. Q.M. R.V.
r
Entre linhas r-1 y 2

io 2
y oo QML QML
SQL= i 1
 F0L 
k rk QME
Entre k-1 k
colunas y 2
oj 2 QMC QMC
SQC=
j1

y oo F0C 
r rk QME
Erro ou (r-1)(k-1) SQE= QME
Resíduo
SQT-SQL -SQC
Total n-1 r k
SQT=  y
i 1 j1
2
ij  ny2
Procedimento dos testes:

Rejeitar HoL : 1  2  ...  r  0 ( não há diferenças entre linhas), no caso de o valor
observado de F0L ser superior ao valor tabelado F(r1),(r1)(k1) () . Se H oL não for rejeitada,
isto significa que não há evidência estatística de diferenças entre linhas, ao nível de
significância  .
P a g e 5 | 23
Rejeitar HoC : 1  2  ...  k  0 (não há diferenças entre colunas) , no caso de o valor
observado de F0C ser superior ao valor tabelado F(k1),(r1)(k1) () . Se H oC não for rejeitada,
isto significa que não há evidência estatística de diferenças entre colunas, ao nível de
significância  .
2.2 Análise de variância a dois fatores com mais de uma observação por célula:
interação
No caso exposto anteriormente apenas se teve em consideração uma observação por célula.
No entanto, uma repetição da experiência pode originar réplicas ou mais de uma observação
por célula, disponibilizando mais informação sobre os fatores. Nestas situações, é importante
não só averiguar se os dois fatores em estudo têm influência no resultado final, mas também
saber se existe uma interação significativa entre eles. Em algumas experiências pode
acontecer que o fator linha tenha um efeito positivo sobre a resposta para um certo nível do
fator coluna e para outros níveis do fator coluna tenha um efeito negativo. É usado o termo
efeito positivo para descrever uma situação em que a resposta aumenta à medida que
aumentam os níveis de um dado fator (de acordo com uma ordem estabelecida), e efeito
negativo quando a um decréscimo na resposta corresponde um decréscimo dos níveis do
fator.
Exemplo ilustrativo da importância do estudo interação:
Considerem-se os dois fatores L e C consistindo respectivamente de r e k níveis, e as médias
observadas por célula.
Fator C
1 2 3 Total
1 3.2 7.5 4.3 15.0

Fator L
2 5.8 3.2 6.0 15.0
3 8.2 1.6 5.2 15.0
Total 17.2 12.3 15.5 45.0
Obviamente o efeito de L é positivo em C1 e negativo em C2. Estas diferenças que os níveis

do fator L provocam nos níveis do fator C têm bastante interesse, mas ao ser realizada a
análise estatística este facto não seria evidenciado, uma vez que os totais para as linhas são
todos iguais entre si. Ao ser considerada a influência média do fator Linha sobre todos os
níveis do fator C, não há nenhum efeito. A existência de interação ajuda a dissimular o
efeito do fator linha. É extremamente importante que na análise estatística haja o cuidado
P a g e 6 | 23
prévio de averiguar acerca da existência ou não de interação entre fatores, para assim ser
permitida a separação da variação devida ao erro experimental propriamente dito, da
variação que é devida à interação. Só então se deve passar à análise dos efeitos dos fatores
principais. Serão estudados apenas os casos em que o número de observações por célula é
fixo, digamos c.
Admitindo a interação entre os dois fatores em estudo, o modelo apropriado aos dados passa a
ter um novo elemento representativo desta interação.
Considerem-se então c observações por célula. Neste caso trata-se de verdadeiras réplicas da
experiência e não apenas de diferentes medições. Os dados podem ser dispostos numa tabela
como se segue.
Disposição típica das observações em experiências com dois fatores

Caso: c observações por célula
Fator C
1 2 ... k
y111 y121 y1k1

1 y112 y122  y1k 2
  
y11c y12c y1k c
y 211 y 221 y 2k1

2 y 212 y 222  y 2k 2
Fator L   
y 21c y 22c y 2k c
    
y r11 y r 21 y rk1
r y r12 y r 22  y rk2
  
y r1c yr2c y rk c
Represente-se por:
yijo  soma das observações da célula ij ;
yijo
yij   média das observações da célula ij ;
c
yioo  soma das observações para o i-ésimo nível do fator L;
yi  média das observações do i-ésimo nível do fator L;
P a g e 7 | 23
yojo  soma das observações para o j-ésimo nível do fator C;
y j   média das observações para o j-ésimo nível do fator C;
y ooo  soma de todas as n = rkc observações;
y  média global das n observações .

Cada observação yij , pode ser escrita como:
yij    i   j  ()ij  ij , i=1,...,r; j=1,...,k;   1,...,c
  representa a média global;

i  representa o efeito principal do i-ésimo nível do fator L;
 j  representa o efeito principal do j-ésimo nível do fator C;
()ij representa o efeito da interação do nível i do fator L com o nível j do fator C;
ij componente aleatória representativa do erro ou resíduo, sob os pressupostos usuais,
sendo que  ij iid  N (0, 2 ) .
Impõem-se as seguintes restrições:

r k r k

i 1
i 0 , 
j1
j 0 , 
i 1
() ij  0 , 
j1
()ij  0 .
As hipóteses a testar dizem respeito às linhas, colunas e interação, respectivamente. Tem-se:
 HoL : 1  2  ...  r  0 ( não há diferenças entre linhas)

versus
H1L : i  0 ;
 HoC : 1  2  ...  k  0 (não há diferenças entre colunas)

versus
H1C :  j  0 ;
 HoLC : ()11  ()12  ...  () rk  0 (não há interação entre os fatores linha e coluna)
versus
H1LC : ()ij  0 ;
Cada um destes testes será baseado na comparação de estimadores independentes de  2

obtidos com base na partição da soma de quadrados, desta vez em quatro componentes.
P a g e 8 | 23
A soma de quadrados total, representada por SQT, pode particionar-se de modo análogo ao
exposto para a análise de variância a um fator:
r k c r k

i 1 j1 1
(yij  y ) 2  kc ( y i  y  ) 2  rc (y j  y ) 2 
i 1 j1
r k r k c
 c(yij  yi  y j  y ) 2  (yij  yij ) 2
i 1 j1 i 1 j1 1
Simbolicamente pode escrever-se:
SQT=SQL+SQC+ SQ(LC)+ SQE,
Onde SQT representa a soma de quadrados total, SQL a soma de quadrados entre linhas, SQC
a soma de quadrados entre colunas, SQ(LC) a soma de quadrados para a interação entre linhas
e colunas e SQE a soma de quadrados do erro. Os graus de liberdade são distribuídos
respectivamente como:
rkc – 1 = (r-1)+ (k-1) + (r-1)(k-1) + rk(c-1)
Dividindo cada soma de quadrados pelo correspondente número de graus de liberdade, obtêm-
se os quadrados médios respectivos, que conduzem a estimadores independentes para  2 :
SQL SQC SQ(LC) SQE

QML  ; QMC  ; QM(LC)  ; QME 
r 1 k 1 (r  1)(k  1) rk(c  1)
Interpretando as somas de quadrados como variáveis aleatórias independentes, prova-se que:
k
cr2j
r
ck  2
i
j1
E(QML)    2 i 1
; E(QMC)   2  ;
r 1 k 1
r k
c () ij2
i 1 j1
E(QM(LC))   2  ; E(QME)  2 .
(r  1)(k  1)
De notar que, admitindo que as hipóteses nulas são verdadeiras, qualquer dos estimadores
anteriores para  2 é não tendencioso. É importante, como já foi referido, realizar-se primeiro
o teste respeitante à interação, antes de testar os efeitos dos fatores principais (linha e coluna).
Se a interação não for significativa podem testar-se sem problemas os efeitos dos fatores
principais. No entanto, uma interação significativa pode ser preocupante e obrigar a uma total
P a g e 9 | 23
restruturação do problema, havendo a necessidade de aprofundar o estudo da influência de
cada fator nos níveis do outro.
Apresentam-se fórmulas simplificadas para a determinação algébrica dos valores das somas
de quadrados (correspondentes à tabela abaixo).
y
r
 yioo
2 2
ojo
y2 j1
2
y ooo
SQL  i 1
 ooo ; SQC  
kc n rc n
r k k
 yijo2 y
r
y 2 2
ioo ojo 2
i 1 j1 j1 y ooo
SQ(LC)=  i 1
 
c kc rc n
r k 2 c
y ooo
SQT   y  2
ijk
i 1 j1 1 n
SQE=SQT-SQL-SQC-SQ(LC).
Na tabela não figuram as razões de variâncias para os efeitos principais, pois o cálculo destes
depende do resultado obtido quanto à interação. Vejamos de seguida o procedimento do teste.
ANOVA a dois fatores
Modelo de efeitos fixos, c observações por célula: Interação
Entre r-1 SQL SQL

QML 
Linhas r 1
Entre k-1 SQC SQC

QMC 
Colunas k 1
Interação (r-1)(k-1) SQ(LC) SQ(LC) QM(LC)

QM(LC)= F3 
(r  1)(k  1) QME
Erro ou rk(c-1) SQE SQE

QME=
Resíduo rk(c  1)
Total n-1 SQT

P a g e 10 | 23
Procedimento do teste:
Do ponto de vista prático, tal como já foi referido, primeiro testa-se a hipótese de não haver
interação entre os fatores linha e coluna,
HoLC : ()11  ()12  ...  () rk  0

Versus a hipótese alternativa de que há interação.
Calcula-se a estatística adequada à realização deste teste, que é:

QM(LC)
F3  .
QME
Compara-se o valor calculado com o valor tabelado F(r1)(k1),rk(c1) () , rejeitando H oLC caso
F3  F(r1)(k1),rk(c1) () .
O procedimento que se segue será:

(1) Se H oLC não é rejeitada, isto significa que não há interacções significativas entre linhas e
colunas. Assim, as estatísticas de teste adequadas para testar HoL : 1  2  ...  r  0 (não
há diferenças entre linhas) e HoC : 1  2  ...  k  0 (não há diferenças entre colunas),
serão respectivamente:
QML QMC
F1  e F2  .
QME QME
A hipótese HoL : 1  2  ...  r  0 será rejeitada se F1  F(r1), rk(c1) () .
A hipótese HoC : 1  2  ...  k  0 será rejeitada se F2  F(k1), rk(c1) () .
(2) No caso de a interação ser significativa, as diferenças entre fatores são importantes
apenas se forem comparadas com estas diferenças devidas à interação. Assim, as estatísticas
de teste apropriadas para testar:
HoL : 1  2  ...  r  0 e HoC : 1  2  ...  k  0 ,
serão respectivamente:
QML QMC
F1  e F2  ,
QM(LC) QM(LC)
usando em denominador QM(LC) em vez de QME.

P a g e 11 | 23
A hipótese HoL : 1  2  ...  r  0 será rejeitada se F1  F(r1),(r1)(k1) () .
A hipótese HoC : 1  2  ...  k  0 será rejeitada se
F2  F(k1),(r1)(k1) () .
2.3 O Teste de comparação múltipla de Scheffé
2.3.1 O caso de uma observação por célula

Para o caso de dois fatores em que se pretende aplicar um método de comparação múltipla há
que ter em conta se as diferenças significativas são entre os níveis do fator L(linha) ou entre os
níveis do fator C(coluna), ou ambas as situações. Só faz sentido aplicar o método de
comparações múltiplas aos fatores em que forem detectadas diferenças significativas.
Interessa estudar então duas situações, uma no que refere ao fator linha e outra ao fator
coluna como se apresenta de seguida.
(1) Comparação dos níveis do fator L (linha):
Serão significativas as diferenças entre dois níveis do fator linha, i e i' , se:
2(r  1)
ˆ i  ˆ i'  QME Fr1,(r1)(k1) ()
k
(2) Comparação dos níveis do fator C (coluna):
Serão significativas as diferenças entre dois níveis do fator coluna,  j e  j' , se:
2(k  1)
ˆ j  ˆ j'  QME Fk1,(r1)(k1) ()
r
2.3.2 O caso de dois fatores com interação
(1) Comparação dos níveis do fator L (linha):

Serão significativas as diferenças entre dois níveis do fator linha, i e i' , se:
2(r  1)
ˆ i  ˆ i'  QME F ()
ck r 1,r k(c1)
(2) Comparação dos níveis do fator C (coluna):

Serão significativas as diferenças entre dois níveis do fator coluna,  j e  j' , se:
2(k  1)
ˆ j  ˆ j'  QME Fk1,r k(c1) ()
rc
P a g e 12 | 23
2.4 Análise de Modelos de Efeitos Aleatórios
De um modo geral o modelo linear estatístico pode escrever-se:
yij    i   j  ()ij  ij , i=1,...,r; j=1,...,k;   1,...,c , onde:
yij representa a  -ésima observação da célula ij.

i  representa o efeito principal do i-ésimo nível do fator L;
 j  representa o efeito principal do j-ésimo nível do fator C;
()ij representa o efeito da interação do nível i do fator L com o nível j do fator C;
ij componente aleatória representativa do erro ou resíduo.
yij ,  e ij são definidos de modo análogo ao modelo de efeitos fixos. Neste modelo de
efeitos aleatórios consideram-se agora i ,  j e ()ij variáveis aleatórias normais,
independentes com médias zero e variâncias respectivamente 2 , 2 e  2 .
As somas de quadrados calculam-se de modo análogo às do modelo de efeitos fixos. As

hipóteses a testar são agora:
 HoL : 2  0
versus
H1L : 2  0 ;
 H oC : 2  0
versus
H1C : 2  0 ;
 HoLC : 2   0
versus
H1LC : 2  0
Tal como no modelo de efeitos fixos, no modelo de efeitos aleatórios o denominador da razão
de variâncias não é necessariamente QME. Para o modelo de efeitos aleatórios tem-se:
E(QML)  2  c2  kc2
E(QMC)  2  c2  rc2
P a g e 13 | 23
E(QM(LC))  2  c2
E(QME)=  2
Os estimadores não viciados para as componentes da variância são dados por:

QML QM(LC) QMC QM(LC)
ˆ 2  ;
ˆ 2 
kc rc
QM(LC)  QME
ˆ 2  ;
ˆ 2  QME
c
Tabela ANOVA a dois fatores, modelo de efeitos aleatórios: Interação
Entre Linhas r-1 SQL SQL

QML 
r 1
Entre Colunas k-1 SQC SQC

QMC 
k 1
Interação (r-1)(k-1) SQ(LC) SQ(LC) QM(LC)

QM(LC)= F3 
(r  1)(k  1) QME
SQE
QME=
Erro ou rk(c-1) SQE rk(c  1)
Resíduo
n-1 SQT
Total
Do ponto de vista prático, tal como já foi referido no modelo de efeitos fixos, primeiro testa-
se a hipótese referente à interação entre os fatores linha e coluna,
 HoLC : 2   0 versus H1LC : 2  0
QM(LC)
Calcula-se a estatística adequada à realização deste teste, que é F3  .
QME
Compara-se o valor calculado com o valor tabelado F(r1)(k1),rk(c1) () , rejeitando H oLC caso
F3  F(r1)(k1),rk(c1) () .
P a g e 14 | 23
O procedimento seguinte será:
 Se H oLC é rejeitada, isto significa que há interacções.
(i) Para testar:

QML
HoL : 2  0 a estatística apropriada será F1  , rejeitando HoL : 2  0 , se
QM(LC)
F1  F(r1),(r1)(k1) () .
(ii) Para testar:

QMC
HoC : 2  0 a estatística apropriada será F2  , rejeitando H oC : 2  0 , se
QM(LC)
F2  F(k1),(r1)(k1) () .
 Se H oLC não é rejeitada, isto significa que não há interacções significativas entre os dois
fatores. Nesse caso há três opções possíveis para o procedimento a seguir:
(i) Pode-se argumentar que “não rejeitar” H oLC não é o mesmo que “aceitar” H oLC e continuar
a admitir ser E(QM(LC)) o melhor estimador para 2  c2 , mantendo o raciocínio anterior
(como se H oLCtivesse sido rejeitada) para a determinação dos testes;
(ii) Pode-se admitir que realmente se deve aceitar que a interação não é significativa e usar nas
estatísticas de teste dos efeitos principais QME como denominador, continuando a análise
como para os efeitos fixos;
(iii) Pode-se ainda, em situações mais complexas, considerar um estimador ponderado

envolvendo QM(LC) e QME, para estimar  2 . Por exemplo pode-se tomar para denominador
da razão de variâncias dos efeitos dos fatores principais um valor de QM ponderado, diga-se
SQ(LC)  SQE
QMp  .
(r  1)(k  1)  rk(c  1)
P a g e 15 | 23
Exercícios Resolvidos
1. Num problema que envolve uma ANOVA Two-Way com quatro níveis para o Factor A,
cinco níveis para o Factor B e um total de 100 observações, escolha a combinação
adequada para os graus de liberdade:
 A. GLA=4; GLB=5; GLAB=20; GLE=71; GLT=100
 B. GLA=3; GLB=4; GLAB=7; GLE=86; GLT=100
 C. GLA=3; GLB=4; GLAB=12; GLE=80; GLT=99
 D. GLA=3; GLB=4; GLAB=7; GLE=90; GLT=99
 E. nenhuma das respostas anteriores está correcta.
2. Pretende-se comparar 4 tipos de combustível quanto à adequação a 5 diferentes marcas de

motas de água e, averiguar também, se diferenças no consumo podem ser devidas ao tipo de
mota. Assim os valores de consumo observados, numa certa unidade codificada, encontram-se
na tabela seguinte:
Mota de Água
Combustível A B C D E
I 51.7 51.2 50.8 52.3 50.3
II 53.7 52.2 51.9 54.1 52.6
III 52.3 51.8 50.6 51.3 52.0
IV 51.8 52.7 52.3 50.4 51.9
2.1 Haverá diferenças significativas no gasto de combustível devido ao tipo de mota de água
e/ou combustível?
2.2 No caso de haver diferenças significativas entre tipos de mota de água e/ou combustível,
qual o método que aconselharia para estudar essas diferenças? Justifique.
P a g e 16 | 23
3. Está a ser investigada a produção resultante de um processo químico tendo como objectivo
testar a influência de dois factores, a pressão e a temperatura. Por dia, só conseguem ser
obtidos dois resultados experimentais para cada combinação de factores, encontrando-se na
tabela os resultados obtidos:
Pressão
150 200 250

Temperatura
72.4 72.8 70.5
Baixa
71.6 72.1 70.3
71.8 71.5 70.4

Média
71.2 72.7 71.2
72.7 73.8 73.1

Alta
73.8 71.3 70.2
3.1 Indique qual o modelo adequado para investigar estes dados.

3.2 Estabeleça as hipóteses que achar convenientes e esboce a sua análise.
3.3 Haverá interação entre a temperatura e a pressão?=5%.
3.4 Haverá diferenças significativas entre os níveis de algum dos factores? =5%.
P a g e 17 | 23
Resolução
1. C. GLA=3; GLB=4; GLAB=12; GLE=80; GLT=99
2.1 O objectivo do problema é comparar 4 tipos de combustível quanto à adequação a 5

diferentes marcas de motas de água e também comparar as motas entre si.
As hipóteses a testar são:
 H o1 : Não há diferenças entre combustíveis (linhas)
versus
H11 : Pelo menos um combustível difere dos restantes
 H o2 : Não há diferenças entre motas de água
versus
H12 : Pelo menos uma das 5 motas difere das restantes
Dados os valores de consumo observados, têm-se os seguintes cálculos auxiliares:
r=4 ; k=5
Tabela de resumo de cálculos
Mota de Água Totais Médias

A B C D E y io y i
I 51.7 51.2 50.8 52.3 50.3 256.3 51.26
II 53.7 52.2 51.9 54.1 52.6 264.5 52.9
III 52.3 51.8 50.6 51.3 52.0 258 51.6
IV 51.8 52.7 52.3 50.4 51.9 259.1 51.82
y oj 209.5 207.9 205.6 208.1 206.8 yoo  1037.9
y j 52.375 51.975 51.4 52.025 51.7 y  51.895
P a g e 18 | 23
SQT=10975.11+10806.81+10569.9+10833.95+10694.46-53861.821=
=53880.23-53861.821=18.409
256.32  264.52  2582  259.12

SQcomb=  53861.821=
5
=53869.35-53861.821=7.529
209.52  207.92  205.62  208.12  206.82

SQmotas=  53861.821=
4
=53863.986-53861.821=2.1465
SQE= 18.409-7.529-2.1465=8.7335
Tabela Anova
Entre 3 7.529 2.51 3.447

Combustíveis
Entre 4 2.1465 0.537 0.738
Motas
Resíduo 12 8.7335 0.728
Total 19 18.409
F3,12 (5%)  3.49 ; F4,12 (5%)  3.26

Conclusão: Não se rejeita nenhuma das hipótese nulas. Não são significativas ao nível de
significância de 5% diferenças entre combustíveis nem diferenças entre motas de água.
No caso de haver diferenças significativas entre tipos de mota de água e/ou combustível, o
método que aconselharia para estudar essas diferenças era o método de Scheffé, uma vez que
a dimensão das amostras é constante.
P a g e 19 | 23
3.1 O modelo adequado para investigar estes dados. É o modelo linear aditivo, com dois
factores e interação, que pode ser descrito como se segue:
yij    i   j  ()ij  ij , i=1,2,3; j=1,2,3;   1,2 ,
onde:
i  representa o efeito principal do i-ésimo nível do factor temperatura;
 j  representa o efeito principal do j-ésimo nível do factor pressão;
()ij representa o efeito da interação do nível i do factor temperatura com o nível j do

factor pressão;
ij componente aleatória representativa do erro ou resíduo, sob os pressupostos usuais,
ij iid  N(0, 2 ) .

Impõem-se ainda as seguintes restrições:
3 3 3 3

i 1
i 0 , 
j1
j 0 , 
i 1
() ij  0 , 
j1
()ij  0 .
3.2 As hipóteses a testar dizem respeito às linhas, colunas e interação, respectivamente. Assim
tem-se:
 HoL : 1  2  3  0 ( não há diferenças entre temperaturas)

versus
H1L : i  0 ;
 HoC : 1  2  3  0 (não há diferenças entre pressões)

versus
H1C :  j  0 ;
 HoLC : ()11  ()12  ...  () 33  0 (não há interação entre os factores)
versus
H1LC : ()ij  0 ;
3.3 Em primeiro lugar deve testar-se a interação entre os dois factores. No caso desta
interação não ser significativa pode concluir-se a tabela relativamente aos dois efeitos
principais e considerando como denominador da estatística F para ambos os casos QME. No
P a g e 20 | 23
caso de a interação ser significativa então o denominador da razão de variâncias para as
estatísticas dos testes dos factores principais é QM(LC) em vez de QME.
Recorde-se a tabela de valores observados:
Pressão
150 200 250

Temperatura
72.4 72.8 70.5
Baixa
71.6 72.1 70.3
71.8 71.5 70.4

Média
71.2 72.7 71.2
72.7 73.8 73.1

Alta
73.8 71.3 70.2
y11o  144 ; y12o  144.9 ; y13o  140.8
y 21o  143 ; y 22o  144.2 ; y 23o  141.6
y31o  146.5 ; y32o  145.1; y33o  143.3
y1oo  144  144.9  140.8  429.7
y 2oo  143  144.2  141.6  428.8
y3oo  146.5  145.1  143.3  434.9
yo1o  144  143  146.5  433.5
yo2o  144.9  144.2  145.1  434.2
yo3o  140.8  141.6  143.3  425.7
y ooo  1293.4
429.7 2  428.82  434.92 1293.42

SQL    3.614
3(2) 3(3)(2)
P a g e 21 | 23
433.52  434.22  425.7 2 1293.42
SQC    7.421
3(2) 3(3)(2)
SQ(LC) 
1442  144.92  140.82  1432  144.22  141.62  146.52  145.12  143.32 

  -92941.59-
 2 
92945.397+92937.976 =92950.5-92941.59-92945.397+92937.976=1.489
SQT= 92960.24-92937.976=22.264
SQE= 22.264-3.614-7.421-1.489=9.74
Tabela Anova (Interação)
Entre 2
Linhas
Entre 2
colunas
Interação 4 1.489 0.372 0.344
Resíduo 9 9.74 1.082
Total 17
F4,9 (5%)  3.63

Não se rejeita a hipótese nula de que não há interação entre os factores temperatura e pressão,
ao nível de significância de 5%.
3.4 Verificou-se que a interação não é significativa. Então para testar a existência de
diferenças significativas entre os níveis de algum dos factores, conclui-se a tabela anterior
usando QME como denominador em cada estatística de teste. Assim tem-se:
P a g e 22 | 23
Entre linhas 2 3.614 1.807 1.67
Entre colunas 2 7.421 3.711 3.429
Interação 4 1.489 0.372 0.344
Resíduo 9 9.74 1.082
Total 17
F2,9 (5%)  4.26
Conclusão: Uma vez que qualquer das estatísticas de teste tem por valor observado um valor
inferior ao tabelado, não se rejeita nenhuma das hipóteses nulas. Não há evidência estatística
ao nível de significância de 5% de diferenças significativas entre temperaturas, nem entre
pressões.
P a g e 23 | 23

Análise de variância a dois fatores com uma observação por célula

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análise de variância a dois fatores com uma observação por célula

Cargado por

Copyright:

Formatos disponibles

LICENCIATURA EM MATEMÁTICA E

1. Objectivos da análise de variância a dois fatores

ij iid  N(0, 2 ) .

O objectivo do problema consiste não só em comparar os valores médios 1 , 2 ,...,r , como

Disposição típica das observações em experiências com dois fatores

1 y11 y12 ... y1k

As hipóteses a testar são:

HoL : 1  2  ...  r  0 (não há diferenças entre linhas)

(yij  y )2  (yi  y ) 2  (y j  y ) 2  (yij  yi  y j  y ) 2

Simbolicamente a expressão anterior pode escrever-se como se segue:

Os estimadores da variância podem escrever-se como:

SQL SQC SQE

sendo designados por:

QML Quadrados Médios das Linhas

ANOVA a dois fatores

Entre linhas r-1 y 2

Procedimento dos testes:

1 3.2 7.5 4.3 15.0

2 5.8 3.2 6.0 15.0

3 8.2 1.6 5.2 15.0

Total 17.2 12.3 15.5 45.0

Obviamente o efeito de L é positivo em C1 e negativo em C2. Estas diferenças que os níveis

Disposição típica das observações em experiências com dois fatores

y111 y121 y1k1

y 211 y 221 y 2k1

yi  média das observações do i-ésimo nível do fator L;

y j   média das observações para o j-ésimo nível do fator C;

y ooo  soma de todas as n = rkc observações;

y  média global das n observações .

yij    i   j  ()ij  ij , i=1,...,r; j=1,...,k;   1,...,c

  representa a média global;

()ij representa o efeito da interação do nível i do fator L com o nível j do fator C;

ij componente aleatória representativa do erro ou resíduo, sob os pressupostos usuais,

sendo que  ij iid  N (0, 2 ) .

Impõem-se as seguintes restrições:

As hipóteses a testar dizem respeito às linhas, colunas e interação, respectivamente. Tem-se:

 HoL : 1  2  ...  r  0 ( não há diferenças entre linhas)

 HoC : 1  2  ...  k  0 (não há diferenças entre colunas)

Cada um destes testes será baseado na comparação de estimadores independentes de  2

Simbolicamente pode escrever-se:

SQT=SQL+SQC+ SQ(LC)+ SQE,

rkc – 1 = (r-1)+ (k-1) + (r-1)(k-1) + rk(c-1)

SQL SQC SQ(LC) SQE

Interpretando as somas de quadrados como variáveis aleatórias independentes, prova-se que:

ANOVA a dois fatores

Modelo de efeitos fixos, c observações por célula: Interação

O.V. G.L. S.Q. Q.M. R.V.

Entre r-1 SQL SQL

Entre k-1 SQC SQC

Interação (r-1)(k-1) SQ(LC) SQ(LC) QM(LC)

Erro ou rk(c-1) SQE SQE

Total n-1 SQT

HoLC : ()11  ()12  ...  () rk  0

Calcula-se a estatística adequada à realização deste teste, que é:

O procedimento que se segue será:

A hipótese HoL : 1  2  ...  r  0 será rejeitada se F1  F(r1), rk(c1) () .

A hipótese HoC : 1  2  ...  k  0 será rejeitada se F2  F(k1), rk(c1) () .

HoL : 1  2  ...  r  0 e HoC : 1  2  ...  k  0 ,

usando em denominador QM(LC) em vez de QME.

A hipótese HoC : 1  2  ...  k  0 será rejeitada se

2.3 O Teste de comparação múltipla de Scheffé

2.3.1 O caso de uma observação por célula