MV 01

Multivariate Statistik, und Versuchsdesign
Vorlesung Modul M 103 (Vorl.-Nr. 28206 )
Projektplanung
Dr. G. Lischeid
Gunnar.Lischeid@bayceer.uni-bayreuth.de http://www.bayceer.uni-bayreuth.de/mod/
Gliederung der Vorlesung

15.04.05 22.04.05 29.04.05 06.05.05 13.05.05 20.05.05 27.05.05 03.06.05 10.06.05 17.06.05 24.06.05 08.07.05 01.07.05 15.07.05 Einfhrung, Verteilungen Datentransformation (Auto-)Korrelation (zu verschieben)
Multiple lineare Regression (Pfingstwoche) Clusteranalyse
Hauptkomponentenanalyse Korrespondenzanalyse Diskriminanzanalyse
Mehrfaktorielle Versuche Nicht-lineare Methoden Abschlusskolloquium
Grundlagen der Versuchsplanung Parameter-freie Methoden
Links und Lehrbcher

http://www.multivariate.de http://wwwhomes.uni-bielefeld.de/hjawww/glossar/stichwor.htm
Backhaus, K., Erichson, B., Plinke, W., Weiber, R. (2003): Multivariate Auflage, Springer, ISBN 3-540-00491-2 ISBN 3-540-56200-1
Analysemethoden. Eine anwendungsorientierte Einfhrung. 10.
Bortz, J. (1993): Statistik fr Sozialwissenschaftler. 4. Auflage, Springer, Wackernagel, H. (1998): Multivariate Geostatistics. 2. Auflage, Springer
Statistik - Zielrichtungen
1. Deskriptiv - Beschreibung (der Verteilung) eines Datensatzes
2. Konfirmativ - Testen von Hypothesen (Zusammenhngen) 3. Explorativ - Suche nach Strukturen (Zusammenhngen)
Datentypen
1. Nominal skaliert 2. Ordinal skaliert 3. Intervall-skaliert - Zugehrigkeit zu einer Gruppe (Name) - Rangfolge (Ordnung) - Abstnde der Zahlenwerte proportional der Abstnde der Merkmalsausprgung
4. Metrisch skaliert - Zahlenwerte propotional der Merkmalsausprgung (Ma)
Dichtefunktion der Normalverteilung

PH

Hufigkeit
95,5%
Verteilungen
Normalverteilung: Approximaton der Binomialverteilung fr groe Stichproben fr eine normalverteilte Zufallsgre z (mit = 0 und = 1) gilt:

Verteilungen
Normalverteilung 2-Verteilung
t-Verteilung
F-Verteilung:
F (n , n ) =
t-Verteilung:
t =
mit
n n2
n n
F-Verteilung:
2-Verteilung:
fr 2 = z2, bzw. fr n Freiheitsgrade: = z
Schiefe, Exzess
AM: Mo: Md: Arithmtisches Mittel Modalwert Median
(Bortz 1993)
Momente (I)
k-tes Moment der Variablen x: (= Moment k-ter Ordnung)
( x, A) = E[( x A) k ] k
gewhnliches Moment: Mittelwert:
A=0
A = 0; k = 1 : = E ( x)
zentrales Moment: Varianz:
A = E (x)

A = ; k = 2 :
= E(x )
Momente (II)
fr z =
x E ( x)
(z-Transformation):

(Werte <0: negative Schiefe => rechtssteil = linksschief)

(Werte < 0: breitgipflige Verteilung)
Kovarianz, Korrelation (I)

=

Varianz:
var( x) =
Korrelation:
r=
(Produkt-Moment-Korrelation, Pearson-Korrelation)
cov( x, y ) var( x) var( y )

Kovarianz:
cov( x, y ) =
n
cov( x, y ) s s
(x

(x x)

(x x) (x x)
n x) ( y y)
Exzess:
3=
3=
Schiefe:
z
n
3 (= Kurtosis, Wlbung)
Normiertes Moment k-ter Ordnung:
( x, A) =
E[( x A) ]
maximal mgliche Kovarianz
Kovarianz, Korrelation (II)

Korrelation:
z-Transformation
z-Transformation
Unterschiedliche Wertebereiche fr unterschiedliche Parameter => unterschiedliche Gewichtung in der multivariaten Analyse, die nur vom Wertebereich (Einheit!) abhngig ist => Notwendigkeit der Normierung => analog zur Korrelation: 1. Normierung auf Mittelwert = 0, d.h.: Substraktion des Mittelwertes
2. Normierung auf Varianz = 1 (= Standardabweichung), d.h.: Division durch die Standardabweichung
x x y y 1 n s s
s s
1 n
r=
cov( x, y ) s s
( x x ) ( y y)
Produkt-Moment-Korrelation
Moment:
( x, A) =
E[( x A) ]
1. Produkt-Moment zweier Zufallsvariabler:
( x, A) =
Nichtlineare Korrelation
Spearman-Rangkorrelationskoeffizient: (Di: Rangplatzdifferenzen)
Kendall's :
(Ko: Konkordanzen = gleichsinnige nderungen x1 x2 und y1 y2, Di: Diskordanzen)
r =
2 ( Ko Di) n (n 1)
r = 1
n n
6 D
E [([ x x ] [ y y ]) var var

1. zentrales Moment:
( x, x ) =
E[( x x ) ]
Dichtefunktion der Normalverteilung
95,5%
Test auf Normalverteilung (I)

2-Test: Vergleich der beobachteten Hufigkeit fi von k Klassen (mit fi > 10) mit den erwarteten Hufigkeiten ei (mit ei 1 und ei < 5 fr max. 20% der Klassen) ( f e ) Testgre: = verteilt nach 2 mit (k-r-1) e Freiheitsgraden (r = Anzahl der geschtzten Parameter der Verteilung)

Verwerfen der Null-Hypothese "F = Normalverteilung" fr p
Fehler 1. und 2. Art (-, -Fehler)

H0 Entscheidung aufgrund der Stichprobe richtig -Fehler
in Grundgesamtheit gilt H1 -Fehler richtig
Nullhypothese H0 = Alternative zur eigentlich zu prfenden Hypothese H1
Irrtumswahrscheinlichkeit p
-Fehler: "Irrtumswahrscheinlichkeit" p = Wahrscheinlichkeit, einen bestimmten Wert zu beobachten, wenn tatschlich die H0 gilt: p(beobachteten Wert | H0 = wahr) = bedingte Wahrscheinlichkeit -Fehler: p(beobachteten Wert | H1 = wahr)
=> quantitativ nur zu bestimmen, wenn die Verteilung der Werte gem der H1-Hypothese priori bekannt ist
=> dies ist aber i.d.R. nicht mglich entsprechend fr Test auf Normalverteilung: alternative Verteilung msste definiert werden
10
Irrtumswahrscheinlichkeit p
Die "Irrtumswahrscheinlichkeit" p p(beobachteter Wert | H0 = wahr)
Unterscheide:
1 - p(H0)
p(beobachteter Wert)
p(H0 = wahr)
p(H0 = wahr | beobachteter Wert)
Fehler 1. und 2. Art (-, -Fehler)

H0 Entscheidung aufgrund der Stichprobe richtig -Fehler
in Grundgesamtheit gilt H1 -Fehler richtig
Nullhypothese H0 = Alternative zur eigentlich zu prfenden Hypothese H1
11
Test auf Normalverteilung (II)

Kolmogorov-Smirnov mit Lilliefors-Schranken: Testgre: maximale absolute Abweichung der Ordinatenabstnde zwischen der beobachteten und der erwarteten kumulierten Hufigkeitsverteilung Verwerfen der Null-Hypothese "F = Normalverteilung" fr p <
Test auf Normalverteilung (III)

Anpassungstest nach Shapiro und Wilk (fr n 50): Testgre: Korrelationskoeffizient zwischen beobachteten und erwarteteten Werten der kumulativen Hufigkeitsverteilungen Verwerfen der Null-Hypothese "F = Normalverteilung" fr p <
Q-Q-Diagramm (Quantil-Quantil-Diagramm) von PH
0 ! " $# ) 0 $# % & 0 ' "( ! $# )
12
Box-Cox Transformation
Ziel: Korrektur der Schiefe, so dass die transformierten Daten eine Normalverteilung aufweisen
transformierte Daten
x 1 T ( x) = T ( x ) = ln x
fr fr
>0 =0
10 8 6 4 2 0 -2 0 2 4 6
=1.5
1:1 =1 =0.5 =0
10
ursprngliche Daten
Box-Cox Transformation
(http://www.itl.nist.gov/div898/handbook/eda/section3/eda336.htm)
13
Aufgabe: Datentransformation
Ersetzen Sie die Eintrge "< Bestimmungsgrenze" durch sinnvolle nummerische Werte.
berrpfen Sie die einzelnen Parameter auf Normalverteilung, und fhren anschlieend die transformierten Daten auf Normalverteilung.
Sie, falls erforderlich, eine Box-Cox-Transformation durch. berprfen Sie
Fhren Sie anschlieend eine z-Transformation fr alle Parameter durch.
14

MV 01

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

MV 01

Cargado por

Copyright:

Formatos disponibles

Multivariate Statistik, und Versuchsdesign

Vorlesung Modul M 103 (Vorl.-Nr. 28206 )

Gliederung der Vorlesung

Multiple lineare Regression (Pfingstwoche) Clusteranalyse

Hauptkomponentenanalyse Korrespondenzanalyse Diskriminanzanalyse

Mehrfaktorielle Versuche Nicht-lineare Methoden Abschlusskolloquium

Grundlagen der Versuchsplanung Parameter-freie Methoden

Links und Lehrbcher

Analysemethoden. Eine anwendungsorientierte Einfhrung. 10.

4. Metrisch skaliert - Zahlenwerte propotional der Merkmalsausprgung (Ma)

Dichtefunktion der Normalverteilung

fr 2 = z2, bzw. fr n Freiheitsgrade: = z

gewhnliches Moment: Mittelwert:

zentrales Moment: Varianz:

(Werte <0: negative Schiefe => rechtssteil = linksschief)

(Werte < 0: breitgipflige Verteilung)

Kovarianz, Korrelation (I)

cov( x, y ) var( x) var( y )

Normiertes Moment k-ter Ordnung:

maximal mgliche Kovarianz

Kovarianz, Korrelation (II)

2. Normierung auf Varianz = 1 (= Standardabweichung), d.h.: Division durch die Standardabweichung

1. Produkt-Moment zweier Zufallsvariabler:

(Ko: Konkordanzen = gleichsinnige nderungen x1 x2 und y1 y2, Di: Diskordanzen)

E [([ x x ] [ y y ]) var var

Dichtefunktion der Normalverteilung

Test auf Normalverteilung (I)

Verwerfen der Null-Hypothese "F = Normalverteilung" fr p

Fehler 1. und 2. Art (-, -Fehler)

in Grundgesamtheit gilt H1 -Fehler richtig

Nullhypothese H0 = Alternative zur eigentlich zu prfenden Hypothese H1

p(H0 = wahr | beobachteter Wert)

Fehler 1. und 2. Art (-, -Fehler)

in Grundgesamtheit gilt H1 -Fehler richtig

Nullhypothese H0 = Alternative zur eigentlich zu prfenden Hypothese H1

Test auf Normalverteilung (II)

Test auf Normalverteilung (III)

Sie, falls erforderlich, eine Box-Cox-Transformation durch. berprfen Sie

Fhren Sie anschlieend eine z-Transformation fr alle Parameter durch.

También podría gustarte