Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Begleitveranstaltung zur
Deskriptive Statistik
SS 2009
Familienphoto
Statistik?
Warum Statistik im Studium der Pädagogik?
Was ist Statistik?
1
Beispiel: Aufgabe
Um was geht‘
geht‘s ?
Grundlagen der deskriptiven Statistik
Häufigkeitsverteilungen
Maße der zentralen Tendenz
Maße der Dispersion
Korrelation
Lineare Regression
Folien
Im Browser der Wahl folgendes eingeben:
http://www.esnips.com/web/DeskriptiveStatistik
1.
2.
2
SPSS
Rechnerraum
Lokale Lizenz mit VPN Tunnel
Installationsanleitung: http://www.urz.uni-
landau.de/downloads/Skripte/spss_info_ld.pdf
VPN Tunnel Anleitung: http://www.urz.uni-
landau.de/downloads/Skripte/vpnXP.pdf
SPSS Lizenz
SPSS Lizenz
3
Statistik I und II
ten
on Da
llen v Deskriptive Statistik
Darste
Statistik Pr
og
n os Grundlage für
ev
on
Da
te
n
Inferenz Statistik
Begriffe
Statistik
- Datensammlung (z.B. Meldestatistik, Unfallstatistik)
- Kennwerte (Schätzstatistik, Teststatistik)
- Wissenschaft (Statistische Methodenlehre)
4
Was ist Wissenschaft?
Beschreibung
Analyse
Erklärung
Vorhersage
Optimierung
Begriffe
Grundgesamtheit, Population vs.
Stichprobe
Deskriptiv .. beschreibend
Inferenz … der unvollständige Schluss von der Stichprobe auf die Population
5
Begriffe (13.05)
Variable / Merkmal vs.
- unabhängige Variable
- abhängige Variable
Variablen- / Merkmalsausprägung
Manifest vs. latent
Diskret vs. stetig
Dichotom vs. polytom
Formeln verstehen…
verstehen…
Was heißt s ?
v=
t
Was muss ich wissen?
6
Rechnen mit dem Summenzeichen
80
Oder :
∑x
i =1
i
Bsp.
10
Summe alle Messwerte: ∑x
i =1
i = 103
10
Beispiel: ∑x
i=5
i =
7
Schreiben in Summen
u1 + u2 + u3 + ... + ui + ... + um
∑u
j =1
j
∑ x − (i − 1)
i =1
i ∑x i +1 −i
i =1
Übungen
5 N
∑n
n =1
2
= ∑n n =1
2
=
3 N
∑n
i =1
i
2
= ∑x 2
=
n=2
4 3
∑i = ∑ (xi =2
2
+ 1) =
i =1
3 3
∑5 = ∑x
2
i +1 =
i =2 i =1
8
Rechenregeln fü
für Summen
Ausklammern von Faktoren
- (1)
Achtung…
Achtung…
9
Aufgabe (20.05)
Für welchen Wert a gilt ?
Begriffe
Qualitative Variable:
Variable Variable, deren Werte lediglich eine
qualitative Andersartigkeit in der Merkmalsausprägung
widerspiegeln (vgl. Nominalskala)
Quantitative Variable:
Variable Variable, deren Werte quantitative
Unterschiede in der Merkmalsausprägung (d.h.
mindestens größer-kleiner-Relationen) widerspiegeln
(d.h. mindestens Ordinalskala)
Metrische Variable:
Variable Variable, bei denen Unterschiede
zwischen zwei Messwerten inhaltlich interpretiert
werden dürfen (d.h. mindestens Intervallskala)
Beobachtung
Befragung
- Schriftlich
- Mündlich
Experiment
Soziometrie
Inhaltsanalyse
Literatur: Wosnitza, M. & Jäger R.S. (2006). Daten erfassen, auswerten und
präsentieren, aber wie? Landau: VEP.
10
Das Messen selbst
„Alles messen, was messbar ist und versuchen,
messbar zu machen, was es noch nicht ist.“ Gallilei
Messen = Zuordnung von Zahlen zu
Beobachtungen (=num. Relativ)
Sozialwissenschaft ≠ Naturwissenschaft
Operationalisieren…
Messfehler???
Skalenniveau
charakterisiert eine Messung im Hinblick darauf,
- wie eindeutig die Zahlenzuordnung ist,
ist d.h. in welchem
Umfang mathematische Operationen und
Transformationen möglich sind, ohne dass die
Abbildungsfunktion eingeschränkt wird,
- welche Interpretationen zulä
zulässig sind,
sind d.h. in welchem
Umfang Eigenschaften des numerischen Relativs auf
das empirische Relativ übertragen werden dürfen,
- welche Analysen mö
möglich und zulä
zulässig sind,
sind d.h. in
welchem Umfang das Zahlenmaterial statistisch
weiterverarbeitet werden darf.
Nominalskalenniveau
Abbildungsregel:
- Gleiche Merkmalsausprägungen sollen gleiche Zahlen
bekommen, unterschiedliche Merkmalsausprägungen sollen
unterschiedliche Zahlen bekommen.
Transformationen:
Transformationen
- „Eineindeutige Transformationen“: Es ist egal, welche Zahlen
zugeordnet werden, so lange die o.g. Abbildungsregel nicht
verletzt wird.
Beispiele:
Beispiele
- Geschlecht, Wohnort, Studienfach, Automarke
Interpretationen:
Interpretationen
- Gleichheit und Ungleichheit
Analysemö
Analysemöglichkeiten:
glichkeiten
- Analyse von Häufigkeiten
11
Ordinalskalenniveau
Abbildungsregel:
- Ein Objekt mit größerer Merkmalsausprägung muss eine höhere
Zahl bekommen; Objekte mit gleicher Ausprägung müssen die
gleiche Zahl bekommen.
Transformationen:
Transformationen
- „Monotone Transformationen“: Es ist egal, welche Zahlen
zugeordnet werden, so lange die o.g. Abbildungsregel nicht
verletzt wird.
Beispiele:
Beispiele
- Schulnoten, Bundesligatabelle, Olympiamedaillen
Interpretationen:
Interpretationen
- Gleichheit und Ungleichheit, Größer-Kleiner-Relationen
Analysemö
Analysemöglichkeiten:
glichkeiten
- Häufigkeiten, zentrale Tendenz (Median)
Intervallskalenniveau
Abbildungsregel:
- Die Rangordnung der Zahlendifferenzen zwischen zwei Objekten
entspricht der Rangordnung der Merkmalsunterschiede
zwischen den beiden Objekten.
Transformationen:
Transformationen
- „Lineare Transformationen“: ym = b·xm + a mit b > 0 (wichtig ist,
dass die Äquidistanz der Skala erhalten bleibt!)
Beispiele:
Beispiele
- Temperatur in Grad Celsius, Intelligenzquotient
Interpretationen:
Interpretationen
- Gleichheit und Ungleichheit, Größer-Kleiner-Relationen,
Differenzen zwischen Zahlen
Analysemö
Analysemöglichkeiten:
glichkeiten
- Häufigkeiten, zentrale Tendenz (Arithmetisches Mittel),
Dispersion (Varianz, Streuung)
Verhä
Verhältnisskalenniveau
Abbildungsregel:
- Die Zahlen, die die Merkmalsausprägung repräsentieren, stehen
im selben Verhältnis zueinander wie die Merkmalsausprägungen
der Objekte.
Transformationen:
Transformationen
- „Proportionale Transformationen“: ym = b·xm mit b > 0 (Wichtig
ist, dass der Nullpunkt der Skala erhalten bleibt!)
Beispiele:
Beispiele
- Körpergröße, Gewicht, Kaufpreis
Interpretationen:
Interpretationen
- Gleichheit und Ungleichheit, Größer-Kleiner-Relationen,
Differenzen, Verhältnisse, Nullpunkt
• Analysemö
Analysemöglichkeiten:
glichkeiten
- Häufigkeiten, zentrale Tendenz (Geometrisches Mittel),
Dispersion (Varianz, Streuung)
12
Absolutskalenniveau
Abbildungsregel:
- Die Zahlen, die die Merkmalsausprägung repräsentieren,
entsprechen den Merkmalsausprägungen der Objekte.
Transformationen:
Transformationen
- keine: ym = xm
Beispiele:
Beispiele
- Anzahl Arztbesuche im vergangenen Jahr, Anzahl Geschwister,
Anzahl der Regentage pro Jahr
Interpretationen:
Interpretationen
- alle: Gleichheit und Ungleichheit, Größer-Kleiner-Relationen,
Differenzen, Verhältnisse, die Werte selbst (inkl. 0)
Analysemö
Analysemöglichkeiten:
glichkeiten
- alle: Häufigkeiten, zentrale Tendenz (Geometrisches Mittel),
Dispersion (Varianz, Streuung)
Aufgabe (27.05)
Walter Fair, ein an Statistik interessierter Student, verwaltet alle
ihm zur Verfügung stehenden Informationen über seinen
weiblichen Freundeskreis:
- Augenfarbe, Haarfarbe,
- Familienstand, Kontostand,
- Studienfach, Alter
- Telefonnummer, Zensur in Statistik
Begriffe: Skalenniveau
Zusammenfassung
Nominalskala = ≠ Geschlecht
13
Skalenniveaus
Woher weiß man, auf welchem Skalenniveau sich eine
Messung bewegt?
- Bleibt ungeprüft, ist meist eine Frage der Plausibilität
Skalenniveaus sind „abwärtskompatibel“ (d.h. alles, was
für ein untergeordnetes Skalenniveau gilt, gilt auch für
ein übergeordnetes), aber nicht umgekehrt!
Messungen können auf ein untergeordnetes
Skalenniveau transformiert werden, aber nicht
umgekehrt!
Entscheidungsbaum fü
für Skalen
Welche Skale wä
wählt man fü
für…
Geschlecht
Alter in Jahren
Mathematikzensur
Temperatur in °C
Platzierung im Wettlauf
Gehalt in Euro
Beruf
Anzahl gekaufter Birnen
14
Darstellung von Daten
Bsp.: Alter
a) Urliste
b) Rangfolge
c) Häufigkeitsverteilung
Altersverteilung
Alter
Gültige Kumulierte
Häufigkeit Prozent Prozente Prozente
Gültig 19 2 2,3 2,5 2,5
20 19 22,1 23,5 25,9
21 20 23,3 24,7 50,6
22 10 11,6 12,3 63,0
23 5 5,8 6,2 69,1
24 5 5,8 6,2 75,3
25 2 2,3 2,5 77,8
26 4 4,7 4,9 82,7
27 6 7,0 7,4 90,1
28 1 1,2 1,2 91,4
29 4 4,7 4,9 96,3
30 1 1,2 1,2 97,5
36 1 1,2 1,2 98,8
37 1 1,2 1,2 100,0
Gesamt 81 94,2 100,0
Fehlend System 5 5,8
Gesamt 86 100,0
Kumulierte Hä
Häufigkeiten
15
Kumulierte Hä
Häufigkeiten
Beispiel
16
Beispiel
Beispiel
Beispiel
Prozentangabe bei
10 Personen??
17
Beispiel (nominal)
Doppelt so viel?
Verschiedene Verteilungen
18
Altersverteilung in der Vorlesung
Vorschlä
Vorschläge?
Durch welchen Wert wird die Verteilung am
besten reprä
repräsentiert?
- Vorschlag 1: Durch den Wert, der in der Verteilung am
häufigsten vorkommt
= Modalwert oder Modus (Mo oder h)
- Vorschlag 2: Durch den Wert, der die Verteilung in der
groß
Mitte in zwei gleich große Hä
Hälften teilt
= Median (Md oder x~)
- Vorschlag 3: Durch den Durchschnitt aller Werte
= Arithmetisches Mittel (M oder x)
19
Maß
Maße der zentralen Tendenz
(Lokalisationsparameter)
Modus (Mo)
Median (Md)
Mittelwert (M)
Modus
Modus
20
Median
Median ist der Wert, der eine der Größe nach
geordnete Reihe von Messwerten halbiert.
3 4 4 5 6 7 8 8 8 9 10 (N=11)
3445677889 (N=10)
Median
Median
21
Alter
Gültige Kumulierte
Häufigkeit Prozent Prozente Prozente
Gültig 19 2 2,3 2,5 2,5
20 19 22,1 23,5 25,9
Quartile 21
22
23
20
10
5
23,3
11,6
5,8
24,7
12,3
6,2
50,6
63,0
69,1
24 5 5,8 6,2 75,3
25 2 2,3 2,5 77,8
26 4 4,7 4,9 82,7
25% 27 6 7,0 7,4 90,1
28 1 1,2 1,2 91,4
25% 29
30
4
1
4,7
1,2
4,9
1,2
96,3
97,5
36 1 1,2 1,2 98,8
37 1 1,2 1,2 100,0
Gesamt 81 94,2 100,0
Fehlend System 5 5,8
Gesamt 86 100,0
25%
25%
Arithmetisches Mittel
… der „Schwerpunkt“ der Verteilung
Beispiel
22
Altersverteilung
Mo = 21
Md = 21
M = 22.9
Aufgabe
Bestimme den Modus, den Median und den
Mittelwert aus folgender Verteilung.
Interpretiere die Ergebnisse.
VAR00001
Gültige Kumulierte
Häufigkeit Prozent Prozente Prozente
Gültig 1,00 10 27,8 27,8 27,8
2,00 4 11,1 11,1 38,9
3,00 4 11,1 11,1 50,0
4,00 4 11,1 11,1 61,1
5,00 3 8,3 8,3 69,4
6,00 3 8,3 8,3 77,8
7,00 4 11,1 11,1 88,9
8,00 3 8,3 8,3 97,2
9,00 1 2,8 2,8 100,0
Gesamt 36 100,0 100,0
Lösung
Statistiken
Mittelwert = 3,8889
Median = 3,5000
Modus = 1,00
23
Eigenschaften den arithmetischen
Mittels
Die Summe aller Abweichungen aller Messwerte von
ihrem arithmetischen Mittel ist gleich Null.
n
∑ (x
i =1
i − x) = 0
∑ (x − x)
i =1
i
2
= min
Streuungsmaß
Streuungsmaße
Bsp. Intelligenzwerte
24
Spannweite (Range), Minimum,
Maximum
R = 112-
112-88 = 24
88 112 126
74
R = 126-
126-74 = 52
Quartilabstand = Q3 – Q1
Q3 − Q1
Mittlere Quartilabstand QA =
2
Boxplot
Gleichzeitiges darstellen von zentraler Tendenz
und Dispersion
25
Die durchschnittliche Abweichung
10.06.
Die durchschnittliche Abweichung
(AD = average deviation) ist definiert als der
Durchschnitt der absoluten Abweichung aller
Messwerte einer Verteilung von ihrem
Mittelwert.
Was heißt das?
∑ (x − x) = 0
M= 3
15 N=5 i
i =1
n
∑| x − x |
i =1
i
AD =
N
26
Fahrmeir, L. u. a.: Statistik.
Pospeschill, M. (2006). Statistische Methoden: Strukturen, Der Weg zur Datenanalyse.
Grundlagen, Anwendungen in Psychologie Berlin 2002 (Springer)
und Sozialwissenschaften. Spektrum.
27
Die Varianz
Eigenschaft des arithmetischen Mittels war:
- Die Summe der quadrierten Abweichungen der
Einzelwerte vom arithmetischen Mittel ist minimal.
n
∑ (x − x)
i =1
i
2
= min
Die Summe der quadrierten Abweichungen ist insofern auch
ein Dispersionsmaß. Es nennt sich „Summe der
Abweichungsquadrate“ oder einfach „Quadratsumme“.
n
∑ (x − x)
2
i
Varianz s = 2 i =1
28
Varianz
Problem: das Quadrieren macht die Varianz
unanschaulich…
Mit dem zeihen der Quadratwurzel aus der
Varianz erhält man die Standardabweichung (SD)
n
∑ (x
2
i − x)
i =1
s= = SD
N
SD gibt an, wie weit die einzelnen x Werte
durchschnittlich von M abweichen
Aufgaben
Archäologen haben eine Gletscherleiche gefunden
(einen Herrn N. Ice). Sie schätzen das Alter von N. Ice
und kommen auf folgende Werte in Jahren:
29
Lösung
A) Modus = 2750, Median = 3200, Mittelwert = 3200
∑ (x − x)
2
i
B) satt 2
s = i =1
n 2
n
n
∑ xi
∑ xi − i =1
2
1 n 2
s2 = ∑ xi − x 2
n i =1
Oder Maschinenformel s 2 = i =1
n
n
Lösung B
xi xi2 22400
x= = 3200
7
2750 7562500
x 2 = 3200 2 = 10240000
2750 7562500
8122500 1 n 2
2850 s2 = ∑ xi − x 2
n i =1
3200 10240000
3250 10562500 1 7
s2 = ∑ 73430000 − 10240000
7 i =1
3300 10890000
4300 18490000 s 2 = 250000
∑ 22400 ∑ 73430000 s = 500
30
Exkurs: Stichprobenkennwerte und
Population
Wie gut lässt sich die Schätzung der
Stichprobenkennwerte auf die entsprechenden
Populationsparameter übertragen?
Population Stichprobe
Gedankenexperiment
Man könnte sehr viele (z.B. 10.000) Stichproben
der Größe n= 5 aus der Population ziehen und
sich jeweils den Stichprobenmittelwert und die
Stichprobenvarianz notieren...
Population Stichproben
31
Stichprobenkennwertverteilung:
Mittelwert
Stichprobenkennwertverteilung:
Varianz
Stichprobenkennwertverteilung:
Varianz
1
Der blaue Graph ist die korrigierte Fassung s 2 =
n −1
∑ ( xi − x)2
32
Stichproben-
Stichproben-Kennwerte vs.
Parameter der Population
Mittelwert :
- x bzw. M ist der Mittelwert der gezogenen Stichprobe
- Populationsparameter µ ist der „wirkliche“ Mittelwert
der Population und wird mit x bzw. M am besten
geschätzt.
Varianz (Taschenrechner, Achtung):
- s2 ist die Varianz der gezogenen Stichprobe
1
s2 =
n −1
∑ ( xi − x) 2
- Populationsparameter σ2
1
σ2 =
n
∑ ( xi − x) 2
Standardisierung
z- Transformation
z-Transformation oder Standardtransformation ist eine
lineare Transformation
xi − x
zi =
sx
Bei der z-Transformation werden die x-Werte um ihren
Mittelwert herum zentriert und anschließend durch die
Streuung geteilt
Dies führt dazu, dass z-Werte (oder Standardwerte)
immer einen Mittelwert von z= 0 und eine Streuung von
sz= 1 haben
33
Warum das Ganze??
… um Einzelwerte in Relation zu der Stichprobe
zu setzen, aus der sie stammen;
… um Einzelwerte, die aus Stichproben mit
unterschiedlichem Mittelwert und
unterschiedlicher Streuung stammen, besser
miteinander vergleichen zu können
Beispiel (17.06)
Intelligenztest Studie1 Studie2
Beim ersten mal hat Person A
einen Score von 84 erreicht; ein x=90 x=92
Semester später den Score von
89. Hat sich der Wert –relativ zu M = 88 M= 93
den Werten der anderen
Versuchspersonen in den beiden
s=2,8 s=3,1
Stichproben – verbessert?
xi − x z = 0,71 z = -0,32
zi =
sx
Anwendung
Anwendungen von z-Transformationen:
- z.B. wenn Testwerte von Kindern in Relation zu allen anderen
Kindern der gleichen Altersklasse gesetzt werden sollen;
- z.B. wenn Testwerte mit unterschiedlichen experimentellen
Bedingungen zwischen unterschiedlichen Studien miteinander
verglichen werden sollen.
Vorteile von z-Werten:
- Sie sind unabhängig von der Originalmetrik
- Sie sind eindeutig interpretierbar als
„Standardabweichungseinheiten oberhalb bzw. unterhalb des
Mittelwerts“
- Wieder zurückrechenbar …
34
Wiederholung Beispiel
Bestimme die Varianz nach der Maschinenformel:
1 2
n
6 n
∑ xi
∑ xi − i =1
2
3
n
2 s 2 = i =1
8 n −1
9
6
2
1
4
Normalverteilung
Die Bedeutung der Standardabweichung am
Beispiel der Normalverteilung
-> 2/3 aller Fälle befinden sich innerhalb +/- einer
Standardabweichung
Flä
Flächenstü
chenstücke unter der
Normalverteilung
35
Sigma Umgebung (SD Umgebung)
In der Literatur hat man sich auf folgende
Umgebungswahrscheinlichkeiten geeinigt:
Beispiel
• Bei µ = 60 und σ = 10 heißt das:
36
Zusammenfassung
Auf die Frage, was das geeignete Dispersionsmaß ist gibt
es keine allgemein verbindliche Antwort
Range ist einfach zu ermitteln und zu verstehen (eher
Grenzen als Dispersion)
Der (mittlere) Quartilabstand ignoriert die unteren 25%
und die oberen 25% der Verteilung
Die durchschnittliche Abweichung ist aus der Mode
gekommen
Varianz und Standardabweichung sind eine Funktion aller
Messwerte einer Verteilung
Bivariate Verteilungen
Beschreibung univariater Verteilungen ist in der
empirischen Sozialforschung nie Endzweck,
sondern dient der Vorbereitung zur eigentlichen Analyse.
Dabei geht es meist um die Beziehung zwischen
(Zusammenhänge) Variablen (Assoziation, Korrelation).
Den Grad der Beziehung gibt man mit Koeffizienten an.
Oft spricht man bei nominalskalierten Variablen von
Kontingenz- , bei ordinalskalierten von Assoziations- und
bei intervallskalierten von Korrelationskoeffizienten oder
verwendet die Begriffe synonym.
Kreuztabelle
37
Beispiel: Schulnoten
Aufgabe: Kreuzdiagramm zeichnen …
Deutsch Mathe Deutsch Mathe
A 1 2 L 2 1
B 3 3 M 3 1
C 4 5
N 4 4
D 6 4
O 4 5
E 5 4
F 1 2 P 5 4
G 3 2 Mathe
Q 1 2
H 3 3
R 1 2
I 2 3
S 1 1
J 4 3
K 1 1 T 3 3
Deutsch
Spezialfall 2x2
Bei bei 2 dichotomen Variablen
Beispiele
38
Beispiele
Beispiele
Abhä
Abhängige / unabhä
unabhängige
Stichproben
Abhängige Stichproben
- Mehrere Stichproben werden an ein und derselben
Gruppe von Versuchspersonen oder an zwei Gruppen
von Versuchspersonen, die einander paarweise
zugeordnet sind, erhoben. Z.B Zeitreihen.
Unabhängige Stichproben
- Es besteht keine Verbindung zwischen beiden
Stichproben, die verschiedenen Stichproben
beeinflussen sich nicht gegenseitig.
39
Was ist ein Zusammenhang?
Konzept der Abweichung von der statistischen
Unabhängigkeit
- Abweichung von der Nicht-Beziehung zueinander wird
bestimmt
- D.h zwei Variablen sind assoziiert, wenn sie keine
Nicht-Beziehung zueinander aufweisen
Der Grundgedanke
1. Die Daten X und Y stehen zueinander in
Beziehung oder nicht…
2. Man prüft wie die Tabelle aussähe, wenn X und
Y nicht assoziiert wären…
3. Man vergleicht die beiden Tabellen
miteinander…
4. Differieren die Daten, sagt man X und Y stehen
zueinander in Beziehung…
Chi Quadrat (χ
(χ2)
… ist die Summe über alle quadrierten
Differenzen zwischen den gemessenen und den
erwarteten Häufigkeiten, dividiert durch die
erwartete Häufigkeit.
40
Die Erwartungen berechnen…
berechnen…
Aufgabe
Berechne über eine Tabelle
χ2= oder
41
Für den Spezialfall 2x2 …
Chi Quadrat ist von N anhängig, daher besser Phi
berechnen
Phi φ
Sensibles Assoziations Maß
Geeignet für 2 dichotome Variablen
0 wenn statistische Unabhängigkeit herrscht
1 wenn Chi Quadrat maximal, also N ist (d.h. die
Diagonalzellen unbesetzt sind)
Kann aber bei größeren als 2x2 Tabellen auch
größer als 1 werden…
42
Zusammenhangshypothesen
Zusammenhangshypothesen
Scatterplots
43
Scatterplots
Scatterplots
Zusammenhangshypothesen
Für eine quantitative Analyse von
Merkmalszusammenhängen sind folgende Fragen
von Bedeutung:
- Wie lässt sich die Form des Zusammenhangs zwischen
X und Y beschreiben?
- Welche Richtung hat der Zusammenhang zwischen X
und Y, d.h. ist er negativ oder positiv?
- Wie stark ist der Zusammenhang zwischen X und Y?
- Lässt sich der in der Stichprobe ermittelte
Zusammenhang auf die Population übertragen?
44
Richtung des Zusammenhangs
Kovarianz
Welchen Quadranten tragen positive, welche
Quadranten tragen negative Werte bei?
45
Schritt 1
Wir berechnen für jeden Wert x sowie für jeden
Wert y die Differenz vom jeweiligen Mittelwert.
Schritt 2
Wir berechnen für jedes Wertepaar xy das
Kreuzprodukt, d.h. das Produkt der
Mittelwertsabweichung.
Schritt 3
Wir berechnen die Kreuzproduktsumme (oder
„Produkt-Moment“), d.h. die Summe aller
Kreuzprodukte von m= 1 bis n.
46
Schritt 4
Wir berechnen das mittlere Kreuzprodukt oder
die Kovarianz (Cov), indem wir das Produkt-
Moment durch n teilen.
Die Kovarianz
Die Kovarianz ist definiert als das mittlere Kreuzprodukt.
Die Kovarianz ist dann hoch positiv,
positiv wenn hohe positive Abweichungen
von Mx auch mit hohen positiven Abweichungen von My einhergehen
und hohe negative Abweichungen von Mx auch mit hohen negativen
Abweichungen von My einhergehen.
Die Kovarianz ist dann hoch negativ,
negativ wenn hohe positive
Abweichungen von Mx mit hohen negativen Abweichungen von My
und hohe negative Abweichungen von Mx mit hohen positiven
Abweichungen von My einhergehen.
Die Kovarianz ist dann Null,
Null wenn die Richtung der Abweichung von
Mx nicht systematisch mit einer bestimmten Richtung der Abweichung
von My einhergeht.
Voraussetzung: Die beteiligten Variablen müssen mindestens auf
Intervallskalenniveau gemessen sein.
47
Übung
Gibt es einen Zusammenhang zwischen der Anzahl
der Mensabesuche (X) und der Anzahl der
konsumierten Kaffees an der Uni (Y).
X Y
2 1
1 2
9 6
5 4
3 2
48
Von der Cov zur Produkt-
Produkt-Moment-
Moment-
Korrelation
Problem: auch die Kovarianz ist vom Maßstab der
Messwerte abhängig.
Daher hat man den Korrelationskoeffizienten rxy
entwickelt
auch Bravais-Pearson-Korrelation oder Produkt-
Moment-Korrelation genannt
cov( x, y )
rxy =
sx s y
Schritt 5
(Aufgabe berechne jeweils s [unkorrigierte Populationsvarianz])
cov( x, y )
rxy =
sx s y
Korrelationskoeffizienten
Beschreibt die Enge des Zusammenhangs zw. zwei
Merkmalen
Kann i.d.R. von -1 über 0 bis +1 laufen
Bei Werten von -1 bzw. +1 geht der stochastische
Zusammenhang in einen deterministischen
Zusammenhang über
+1 ist ein linear gleichsinniger Zusammenhang
-1 ist ein linear entgegengerichteter Zusammenhang
Daraus ergeben sich KEINE Kausalbeziehungen
49
Übung
Relativiere die Kovarianz, so dass man rxy als
interpretierbaren Koeffizient erhält. ( SD ohne Korrektur berechnen)
Gibt es einen Zusammenhang zwischen der Anzahl der Mensabesuche (X)
und der Anzahl der konsumierten Kaffees an der Uni (Y).
X Y
2 1
1 2
9 6
5 4
3 2
S=
Übung
Berechne die Produkt Moment Korrelation rxy
X Y
2 1
1 2
9 6
5 4
3 4
2 5
7 0
3 2
50
Korrelation zwischen zwei
ordinalen Variablen
- Beispiel: Studierende werden gebeten, fünf deutsche
Universitätsstädte nach ihrer Beliebtheit (Motivation,
in dieser Stadt zu studieren) in eine Rangreihe zu
bringen. Hypothese: Die Beliebtheit einer Stadt hängt
mit ihrer Größe zusammen.
51
Beispiel: Zusammenhang Intelligenz
IQ
93
und Geschlecht
Geschlecht
1
120 1
112 1
104 1
107 0
108 1
109 1 Geschlec Geschlec
IQ ht IQ ht
102 0
99 0 93 1 107 0
98 0 120 1 102 0
115 0 112 1 99 0
103 0 104 1 98 0
100 1 100 1 99 0
99 0 101 1 98 0
98 0 Mittelwert
101 1
52