Documentos de Académico
Documentos de Profesional
Documentos de Cultura
= ANOVA
= Analysis of Variance
Univ.-Prof.DI.Dr.Karl P. Pfeiffer
Dept.f. Med. Statistik, Informatik und
Gesundheitsökonomie (MSIG)
Medizinische Universität Innsbruck
E-mail: karl-peter.pfeiffer@i-med.ac.at
www.i-med.ac.at/msig/
v.20070310
15.01.2008 Varianzanalyse/Pfeiffer 1
ANOVA:Literatur
Kleinbaum et. Al: Applied regression and other
multivariable methods. Duxbury Press. Albany, 1998
Büning, Trenkler: Nichtparametrische statistische
Methoden. De Gruyter Verlag, Berlin, 1978
Fisher L.D., van Belle G.: Biostatistics. John Wiley,
New York, 1993
Hartung J., Elpelt B.: Multivariate Statistik.
R.Oldenburg Verlag, München, 1992
15.01.2008 Varianzanalyse/Pfeiffer 2
ANOVA - Problemstellung
ANOVA – Analysis of Variance -
Streuungszerlegung
Einfache Varianzanalyse
Ein Einflussfaktor mit k>2 Ausprägungen
Bspl.: 4 verschiedene Therapieformen
Vergleicht die Mittelwerte durch
Zerlegung der Varianz in:
Streuung zwischen (between) den Gruppen
Innerhalb (within) der Gruppen (=Residuen)
15.01.2008 Varianzanalyse/Pfeiffer 3
ANOVA - Beispiele
Vergleich des Einkommens in 5
verschiedenen Regionen
Vergleich der Verkaufszahlen in 10 gleich
grossen Filialen eines Unternehmens
Vergleich der Wirksamkeit der Kombination
von zwei Medikamenten mit 3 bzw. 4
verschiedenen Dosierungen
Vergleich der Zufriedenheit von Studierenden
aus verschiedenen Studienrichtungen
15.01.2008 Varianzanalyse/Pfeiffer 4
ANOVA: Studiendesign
Ein oder mehrere Einflussfaktoren
mit k≥2 Ausprägungen
15.01.2008 Varianzanalyse/Pfeiffer 5
ANOVA - Überblick
Einfache Varianzanalyse (ANOVA)
Ein Einflussfaktor mit k≥2 Ausprägungen
Mehrweg-ANOVA
Mehrere (≥ 2) Einflussfaktoren mit jeweils ≥ 2
Ausprägungen
Kovarianzanalyse
Stetige und diskrete Einflussfaktoren
MANOVA
Mehrere abhängige Variable
15.01.2008 Varianzanalyse/Pfeiffer 6
Einweg-ANOVA: Daten
Gruppen / Faktor Gesamt
1 2 ... k
y11 y21 ... yk1
y12 y22 yk2
Beobachtungen
.. . ..
.. .. ..
.. .. ..
y1N1 y2N2 ... ykNk
Stichproben-
umfang N1 N2 ... Nk N
Mittelwert
y1 y2 ...
y
Standard-
abweichung s1 s2 ... sk s
Summe pro
Gruppe T1 T2 ... Tk G
15.01.2008 Varianzanalyse/Pfeiffer 7
Feste oder zufällige Effekte
Feste Effekte
In der Studienplanung vorgegeben
Zufällige Effekte
Durch die Auswahl einer Zufallsstichprobe
entstanden
15.01.2008 Varianzanalyse/Pfeiffer 8
Zufällige Effekte
Yij = μ + Ai + Eij
Ai ≈ N (0, σ A2 ), i = 1,2,....
H 0 : σ A2 = 0
Hypothesentest ist analog dem Modell für feste Effekte.
15.01.2008 Varianzanalyse/Pfeiffer 9
ANOVA: Hypothesen
H 0 : μ1 = μ 2 = ... = μ k
d.h. alle k Mittelwerte sind gleich
H 1 : μi ≠ μ j , für mindestens ein Paar (i, j)
Feste Effekte
Keine Aussage darüber, welche der einzelnen
Gruppen unterschiedliche Mittelwerte haben
Globaler Test
15.01.2008 Varianzanalyse/Pfeiffer 10
ANOVA-Modell
Das ANOVA-Modell (zufällige Effekte):
yij = μ + α i + ε ij
Die Nullhypothese:
H0:α1 = α2 = ... = αk = 0
Die Alternativhypothese:
Mindestens ein αi ist ungleich 0
Annahme :
α i ≈ N (0, σ α2 )
15.01.2008 Varianzanalyse/Pfeiffer 11
ANOVA - Streuungszerlegung
SST = SSB + SSE 2 2
i =1 j =1 i =1 j =1
= SSB + SSE
k
SSB = ∑ ni ( yi − y ) 2
i =1
2
SSE = ∑∑ ( yij − yi )
k ni
i =1 j =1
k ni k
1 1
y=
N
∑∑
i =1 j =1
yij =
N
∑n y
i =1
i i
ni
1
yi =
ni
∑y
j =1
ij
i =1 j =1 i =1 j =1
ni
1
yi =
ni
∑y
j =1
ij
15.01.2008 Varianzanalyse/Pfeiffer 13
ANOVA: Teststatistik
Varianz zwischen den Gruppen:
k
SSB ∑ (T i
2
/ ni ) − G 2 / n
MSB = = i =1
k −1 k −1
Varianz innerhalb der Gruppen:
k ni k
SSE
∑ ∑ ∑ i / ni )
y − (T 2
i =1 j =1
2
ij
i =1
MSE =
n−k n−k
F=MSB/MSE...F-verteilt mit (k-1),(n-k)
Freiheitsgrade
15.01.2008 Varianzanalyse/Pfeiffer 14
ANOVA Tabelle
Einfache Varianzanalyse
Zerlegung der Gesamtsstreuung SST in
SSB + SSE
15.01.2008 Varianzanalyse/Pfeiffer 15
ANOVA: Voraussetzungen
Unabhängige Beobachtungen
Normalverteilung
Gleiche Varianzen in allen Gruppen
15.01.2008 Varianzanalyse/Pfeiffer 16
Multiples Testen
Gesamtniveau α bei allen Tests auf die gleichen
Daten einhalten
Korrektur des α-Wertes
Bonferroni Korrektur der Irrtumswahrscheinlichkeit
bei c Tests
α* = α/c
Hochberg-Bonferroni
Hochberg-Benjamini
15.01.2008 Varianzanalyse/Pfeiffer 17
Multiple Tests
Tukey Test
LSD – Least significant difference
Scheffe Test
Lineare Kontraste
Dunnett
Sidak
Gabriel
...
Bei Gleichheit der Varianzen
15.01.2008 Varianzanalyse/Pfeiffer 18
LSD-Approach
LSD...Least Significant Difference
Nutze die globale Signifikanz α aus
Bilde die Differenzen: Yi − Y j
Sortiere diese absteigend
Berechne die paarweisen Konfidenzintervalle
⎛1 1⎞
(Yi − Y j ) ± t n − k ,1−α / 2 MSE ⎜ + ⎟
⎜n n ⎟
⎝ i j ⎠
15.01.2008 Varianzanalyse/Pfeiffer 19
Tukey´s Verfahren
(Yi − Y j ) ± T MSE
1
T= qk ,n − k ,1−α
*
n
qk,n-k,1-α...studentisierte Spannweite
Modifikation für ungleiche n(i)
(Yi − Y j ) ± T ( MSE / 2) * (1 / ni + 1 / n j
15.01.2008 Varianzanalyse/Pfeiffer 20
Studentisierte Spannweite
R = {max i ( yi ) − min i ( yi )}
yi ...normalverteilt mit μ und σ 2
s ist ein Schätzwert von σ mit N - k Freiheitsgraden
bei k Gruppen
R/s...studentisierte Spannweitenverteilung mit N - k, k Freiheitsgraden
15.01.2008 Varianzanalyse/Pfeiffer 21
Student-Newman-Keuls
Ersetze k durch k* im Tukey-Test
k*...Anzahl der Mittelwerte in der
Spannweite der Mittelwerte, die getestet
werden
Z.B.: k*=3 beim Vergleich des zweitgrössten
mit dem kleinsten MW bei vier Gruppen
15.01.2008 Varianzanalyse/Pfeiffer 22
Scheffe-Test
Lineare Kontraste:
Beispiel: k=4 Gruppen
μ1 + μ 2 μ3 + μ 4
L= −
2 2
Allgemein:
k
L = ∑ ci μ i
i =1
k
∑c
i =1
i =0
15.01.2008 Varianzanalyse/Pfeiffer 23
Scheffe´s Verfahren
Scheffe-Konfidenzintervalle
⎛ c k 2
⎞
∑i ciYi ± S MSE⎜⎜ ∑ i
⎟⎟
⎝ i =1 ni ⎠
Mit S2=(k-1)F(k-1),(n-k),1-α
15.01.2008 Varianzanalyse/Pfeiffer 24
Kruskal-Wallis-H-Test
Alternative zur Einweg-ANOVA
Wenn die Daten nicht normalverteilt sind
Basiert auf der Rangstatistik
Ähnlich dem Wilcoxon-Man-Whitney U-Test
Globaler Test
Voraussetzung:
Gleiche Verteilungsform F(z) in den
Gruppen
15.01.2008 Varianzanalyse/Pfeiffer 25
Kruskal-Wallis-H-Test:
Teststatistik
Ordne den N Elementen die Ränge 1 bis N zu
Ri ...Rangsumme der Gruppe i
ni ( N + 1)
E [Ri ] =
2
k
12 1
H= ∑ ( Ri − E [Ri ]) 2
N ( N + 1) i =1 ni
ni ( N + 1)( N − ni )
VAR[Ri ] =
12
R − E [Ri ]
Zi = i
VAR[Ri ]
k
∑Z
i =1
i
2
≅ χ k2−1
15.01.2008 Varianzanalyse/Pfeiffer 26
H-Test:
Korrektur bei Bindungen
r
H * = H /(1 − ∑ (b 3j − b j ) /( N 3 − N ))
j =1
15.01.2008 Varianzanalyse/Pfeiffer 27
Zwei- und Mehrweg ANOVA
Grundprinzip: Kombination von zwei oder
mehreren Faktoren
Randomisiertes Block-Design
Stratifizierung nach einem Faktor (=Block)
Randomisierung nach einem zweiten Faktor
Zwei-Weg-ANOVA
Zwei Einflussfaktoren mit k≥2 Ausprägungen
N(i,j)=1: keine Interaktionsprüfung möglich
N(i,j)=const ≥2 ... Interaktionsprüfung möglich, einfache
Streuungszerlegung
N(i,j) ≥2 ... Lösung über Regressionsmodell
15.01.2008 Varianzanalyse/Pfeiffer 28
Zweiweg ANOVA
Studiendesigns
15.01.2008 Varianzanalyse/Pfeiffer 29
Randomisierte Blöcke /1
Allgemein: Zwei Einflussfaktoren A und B
Bspl: Kombination von 2 Medikamenten A und B
Einfachster Fall
N(i,j)=1 oder N(i,j)=const.
Zeilen-
BLOCK: Faktor A mittelwert
A1 A2 ... Ac
B1 Y(1,1) Y(1,2) ... Y(1,c) Y(1,.)
B2 Y(2,1) Y(2,2) ... Y(2,c) Y(2,.)
... ... ... ... ...
Faktor B Br Y(r,1) ... ... Y(r,c) Y(c,.)
Spalten-
mittelwert Y(.,1) Y(.,2) Y(.,c) Y(.,.)
15.01.2008 Varianzanalyse/Pfeiffer 30
Randomisierte Blöcke /2
Spezielles Studiendesign mit 2
Einflussfaktoren A und B
Z.B.: Faktor A ergibt sich aus einer
Stratifzierung in Blöcke,
Faktor B wird zufällig zugeordnet
15.01.2008 Varianzanalyse/Pfeiffer 31
Randomisierte Blöcke /3
Tests auf Behandlungsunterschiede
Nullhypothese H0 :
H 0 : μ1 = μ 2 = ... = μ k
Alternativhypothese H1 :
Es gibt mindestens ein Paar mit : μi ≠ μ j
ANOVA-Tabelle
15.01.2008 Varianzanalyse/Pfeiffer 32
Randomisierte Blöcke -
Streuungszerlegung
Behandlungseffekt bei k Behandlungen :
k
SST = b∑ (Yi + − Y+ + ) 2
i =1
Rest :
k b
SSE = ∑∑ (Yij - Yi + - Y+ j + Y + + ) 2
i =1 j=1
15.01.2008 Varianzanalyse/Pfeiffer 33
Zweiweg-ANOVA (balanciert)
2-Weg-ANOVA, nij=4
Faktor A
A1 A2 A3 A4
B1 YYYY YYYY YYYY YYYY n1+=16
Faktor B2 YYYY YYYY YYYY YYYY n2+=16
B B3 YYYY YYYY YYYY YYYY n3+=16
n+1=12 n+2=12 n+3=12 n+4=12 n++=n=48
Hypothesen
Faktor A
Faktor B
Interaktionen AB
15.01.2008 Varianzanalyse/Pfeiffer 34
Balancierte Zweiweg ANOVA:
Modell
2 Faktoren A,B und eine Wechselwirkung:
yijk = μ + α i + β j + γ ij + ε ijk
15.01.2008 Varianzanalyse/Pfeiffer 35
Balancierte Zweiweg ANOVA:
Streuungszerlegung
r c n
TSS = ∑∑∑ (Yijk − Y+ + + ) 2 =
i =1 j =1 k =1
15.01.2008 Varianzanalyse/Pfeiffer 36
Zwei- und Mehrweg ANOVA:
unballanziert
Keine Streuungszerlegung möglich
Lösung über lineare Regression
r −1 c −1 r −1 c −1
Y = μ + ∑ α i X i + ∑ β j Z j + ∑∑ γ ij X i Z j + E
i =1 j =1 i =1 j =1
Dummy Variables
Kodierung von k-Ausprägungen durch k-1
Dummy Variables Dummy Kodierung, 2 Beispiele
α1 α2 α3 α1 α2 α3
A1 0 0 0 0 0 0
A2 1 0 0 1 0 0
A3 0 1 0 1 1 0
A4 0 1 1 1 1 1
15.01.2008 Varianzanalyse/Pfeiffer 37
Quadratsummen
Typ I
Hierarchische Zerlegung der QS
Haupteffekt vor Wechselwirkungen 1.,2.,... Ordnung
Typ II
Effekte werden aneinander angepasst
Bei ausgeglichenen Modellen
Bei Modellen nur mit Haupteffekten
Typ III – Standard
Bei ausgeglichenen und unausgeglichenen Modellen ohne
leere Zellen
Invariant bezüglich Zellhäufigkeit
Typ IV
Auch bei Modellen mit leeren Zellen
15.01.2008 Varianzanalyse/Pfeiffer 38