Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. Sitzung
- Deskriptive Statistik: Zusammenfassung & Präsentation von Daten. Ziel: Überblick über
betrachtetes Phänomen gewinnen/ Datensatz mit anderen Gruppen vergleichen.
- Merkmalsausprägung: Alle mögl. Werte, die das Merkmal beim Merkmalsträger annehmen
kann.
Merkmalsarten:
- qualitativ: Merkmalswerten = Namen oder Klassenbezeichnungen
- diskretes Merkmal: quantitatives Merkmal, das abzählbar viele Werte annehmen kann (z.B.
Einwohnerzahl einer Stadt)
- stetiges Merkmal: quantitatives Merkmal, das überabzählbar viele Werte annehmen kann (z.B.
Füllmengen). Um stetiges Merkmal wie diskretes zu behandeln -> Einheit hinzufügen (z.B.
Füllmengen in Litern)
- häufbares Merkmal: Merkmal, von dem Merkmalsträger mehr als 1 Merkmalswert annehmen
kann (z.B. Hobbys).
- nicht häufbares Merkmal: Merkmal, von dem ein Merkmalsträger nur 1 Merkmalswert
besitzen kann (z.B. Alter).
Verteilungsformen:
- absolute Häufigkeit hj: Anzahl der Merkmalswerten in der Urliste. Note 1 = 3x, ->
h(1)=3
- relative Häufigkeit fi: Division der absoluten Häufigkeit durch Gesamtanzahl. Noten-
Urliste = 10 Elemente -> relative Häufigkeit für Note 1 3/10=0,3. Multipliziert relative
Häufigkeit x 100, -> prozentuale relative Häufigkeit. 0,3*100=30% → 30%
2. Sitzung
Kumulierte Häufigkeiten Fi: Aufsummmierung der relativen Häufigkeiten. (a) + (b) = (c)
Klassenmitte: (xj*) repräsentiert die jew. Klasse bei der Auswertung des statistische
Datenmaterials.
Kontinuierliches Merkmal:
Histogramm:
1 of 21
Begriffsübersicht Statistik I 2018/19
- Bezeichnung: D
- Bestimmung:
• Wenn 2 nicht nebeneinanderliegende Maßzahlen gleich oft & am häufigsten vorhanden ->
bimodale Verteilung-> beide Maßzahlen = Modalwerte -> 3,4,5,5,5,5,6,6,7,8,8,8,8,9 D = 5; 8
- Voraussetzung: Nominalskalenniveau
- Aussagekraft:
- Bestimmung:
• Bei geradem N: Median liegt zwischen 2 zentralen Messwerten (arithmetisches Mittel der
beiden bilden)
- Voraussetzung: Ordinalskalenniveau
- Aussagekraft:
• Angebracht bei offenen Maßzahlen (am Anfang/ Ende der Verteilung d.h. viele Ausreißer)
• Angebracht bei extrem geringer Anzahl von Messwerten/ bei sehr schiefen Verteilungen
- Formel:
- Bestimmung: Quotienten aus der Summe aller Maßzahlen durch ihre Gesamtanzahl
Variation:
2 of 21
Begriffsübersicht Statistik I 2018/19
Varianz & Standardabweichung:
- Varianz (s2) = Summe der Abweichungsquadrate aller Messwerte einer Verteilung von ihrem
arithmetischen Mittel, dividiert durch die um 1 verminderte Anzahl der Messungen
- Standardabweichung (s) = [=mittlere quadratische Abweichung] ist die Quadratwurzel aus der
Varianz
- Mittelwert der Mittelwertsabweichungen: gibt Grad der Abweichung einzelner Werte in einer
Liste vom Mittelwert aller Werte in der Liste an
- je kleiner Standardabweichung -> desto geringer Abweichung einzelner Werte vom Mittelwert +
größere Zuverlässigkeit des Mittelwerts
- Vorteile:
- Voraussetzung: Intervallskalenniveau
- Vergleich:
- Zentraltendenz bedeutet die Lage der Verteilung durch die in mehrfacher Weise angebbare
Mitte auf dem Merkmalskontinuum
- Zentraltendenz als Maß und Norm für Pegel, Rangstufe, Durch- und Querschnitt
Dispersion als Maß für die Abweichungen der Elemente der statistischen Menge
voneinander (z.B. als Maß für die Homogenität einer Gruppe, interindividuelle
Übereinstimmung)
3. Sitzung
Spannweite( absoluter Streubereich, Streuungsbreite, Variationsweite):
- Differenz zwischen kleinstem & größtem Wert: R = X(max) - X(min) d.h. Blick auf Extremwerte &
wieweit sie auseinander liegen
- Bezeichnung: R = Range
- Vorteile:
• leicht bestimmbar
• leicht verständlich
- Nachteile:
- Voraussetzung: setzt Ordinalskalenniveau voraus; nur bei bei kleinen Stichproben verwenden
(n<=12)
3 of 21
Begriffsübersicht Statistik I 2018/19
Interquartilsabstand
Mittlere Quartilsabstand
- = Intervall auf Merkmalsachse, das durch unteres Quartil Q1 & oberes Quartil Q3 begrenzt wird
- In diesem Bereich liegen 50% aller Werte. Diese Streuen umso stärker, je breiter der
Quartilabstand
- QA = halber Quartilabstand
- Voraussetzung:
• Ordinalskalenniveau
• wenn kein Intervall- oder Verhältnisskalenniveau, d.h. wenn kein arithm. Mittel berechnet
werden kann
Normalverteilung
- Basis Standartnormalverteilung
Normalverteilungen können
verschiedene Mitten &
Streuungen haben
4 of 21
Begriffsübersicht Statistik I 2018/19
Standardnormalverteilung
- charakteristischer Verteilungsverlauf:
- Symmetrieachse 0
- Mitte=0
- Streuung=1
- 0 bis +/-∞=0,5
- S-förmiger Verlauf
Prozentränge
- Nutzen:
- How to:
• 2. Rangplätze vergeben: geringste Merkmalsausprägung -> Rangplatz 1; größte Ausprägung -> letzten Rangplatz
- Eigenschaft:
• Prozentränge treffen keine Aussage über Grad der Unterschiedlichkeit von Merkmalsträgern
5 of 21
Begriffsübersicht Statistik I 2018/19
- Definitionen, Formel:
1. DEFINITION 2. DEFINITION
- Merkmalsträger besitzt bzgl. Merkmal den - Merkmalsträger besitzt bzgl. Merkmal den
Prozentrang von “P ”
Prozentrang von “P ”
rang rang
-> Werte von P % aller Merkmalsträger = kleiner -> Werte von P % aller Merkmalsträger = kleiner
rang rang
oder gleich dem Wert dieses Merkmalsträgers als der Wert dieses Merkmalsträgers
-> Berechnung Prozentrang bei n Merkmalsträger mit versch. Werten für Merkmalsträger mit
Rangplatz “rangplatz” (auf Basis 2. Definition):
Profildiagramm
- Definition:
• Grafische Beschreibung der Unterschiedlichkeit von Merkmalsträgern (mehrerer Merkmale)
6 of 21
Begriffsübersicht Statistik I 2018/19
z-Transformation & Standardisierung & z-Score “z” (PRÜFUNG)
standardisierter Wert als z- Abstand des Wertes vom - durch Standardisierung von x
score zugewiesen Zentrum sowie die ermittelt
(Stichwort: Standardnormalverteilung)
- Lassen sich Werte eines Merkmalsträgers, die er für 2 oder mehrere Merkmale besitzt, sinnvoll
untereinander vergleichen?
- Können 2 oder mehrere Merkmalsträger bzgl ihrer Werte, die sie bei 1 oder mehreren
Merkmalen besitzen, miteinander verglichen werden?
- Beispiel:
• Ist Schüler im Deutschtest (Punktwert 30 erreicht) besser als im Mathematiktest (Leistung mit
Punktwert 40 bewertet)?
- 1. wichtige Frage:
- Was bedeutet besser? Bzw. Wie kann ich die Werte vergleichen?
Antwort: Für Beurteilung das Abschneiden aller Schüler beachten, d.h. Beurteilung eines Punktwerts im
Kontext des durchschnittlichen Punktwerts betrachten
- 2. wichtige Fragen:
• Liegt jew. Wert der Person links oder rechts des Zentrums?
- Formel: Z-Transformation
7 of 21
Begriffsübersicht Statistik I 2018/19
3.
- Berechnung am Beispiel
Ergebnis:
- Für Mathe & Deutsch gilt: positiver Wert geht mit besserer Leistung einher
Für den Vergleich zweier Merkmale (hier: der Leistungen) gilt für ermittelte z- scores:
- |zi| < |zj| => xi ist näher dem Zentrum von X als xj. (bzw yj dem Zentrum von Y (bei anderem
Merkmal))
8 of 21
Begriffsübersicht Statistik I 2018/19
Inverse z-Transformation & Flächengleichheit
- Vorabinformation:
• Standardnormalverteilung besitzt, wie die empirische Verteilung der z-scores, die Mitte 0
und die Streuung 1
• Generell gilt: Jede empirische Verteilung, unabhängig von ihrem Verteilungsverlauf, kann
in eine z-score Verteilung transformiert werden
• Kann man aufgrund der empirischen Verteilung aber von einem normalverteilten Merkmal
ausgehen, so erhält man als z-score Verteilung die Standardnormalverteilung
• Ein normalverteiltes Merkmal= X : N (m,s)
Inverse z-Transformation
Eigenschaft
Vorteile/ Nutzen - Angabe, mit welcher Wahrscheinlichkeit Werte in ein bestimmtes Intervall fallen
Formel
Zusammenhänge - aus einer inversen z-Transformation resultiert -> die Normalverteilung N(m,s)
(normalverteilte - aus z-Transformation einer Normalverteilung N(m,s) resultiert
Merkmale) Standardnormalverteilung N(0,1)
- How to:
9 of 21
Begriffsübersicht Statistik I 2018/19
4. Sitzung
Prüfung auf Normalverteilung:
- Definition: grafische Darstellung einer Häufigkeitsverteilung in Form von Säulen, die den
Häufigkeiten der Messwerte entsprechen
- Ausgangsfrage: Ähnelt die empirische Verteilung, die sich grafisch als Histogramm darstellen
lässt, einer Normalverteilung?
10 of 21
Begriffsübersicht Statistik I 2018/19
- es gilt: Ist Merkmal normalverteilt -> alle Punkte, die innerhalb des Koordinatensystems
eingetragen sind, liegen auf einer Geraden
- How to:
• Punkte in ein Koordinatensytem mit einer Ordinatenachse (vertikal) und einer Abzissenachse
(horizontal) eingetragen
Normalwert zj
Eigenschaft
(bedeutet, dass Fläche der SNV durch Zahl zj in demselben Verhältnis aufgeteilt
wird, wie die empirische Verteilung aller Werte durch den Wert xj geteilt wird)
Verteilung ist keine Normalverteilung
Verteilung ist eine Normalverteilung
- Definition: Zur Einschätzung der Symmetrie einer Verteilung dient die Statistik Schiefe
(skewness).
- Formel:
- Interpretation:
11 of 21
Begriffsübersicht Statistik I 2018/19
Wölbungskoeffizient
- Nutzen: Zur Einschätzung der Zentriertheit einer symmetrischen Verteilung dient die Statistik
Wölbung (Kurtosis)
- Formel:
Bildung von Gesamttestwerten -> SPSS
Gesamtindikatoren
- Formel:
- Anwendungsbereich:
5. Sitzung
Gab es nicht
Vorwissen:
- Beschreibung der Verteilung einzelner Merkmale = Univariate Verteilungen
- Beschreibung der Verteilung zweier oder mehrerer Merkmale Bi- oder multivariate Verteilungen
Statistische Abhängigkeit
12 of 21
Begriffsübersicht Statistik I 2018/19
- Definition: (statistical dependency) = statistischer Zusammenhang, statistische
Wechselbeziehung, d.h. Merkmale variieren gemeinsam
Kontingenz
- Beispiel pos. Ass.: Je höher man seine Leistungsfähigkeit einschätzt, desto größer ist die
Motivation, sich am Unterricht zu beteiligen
- Beispiel neg. Korrelation: Je öfter man für ein Diktat übt, desto geringer fällt die Anzahl der
Rechtschreibfehler aus
ACHTUNG: statistische Beziehungen können auf kausale Beziehungen hinweisen, sie aber
niemals beweisen!!!
- Sonderfall: Artefakt
- Nominalskala: Kontingenz
- Definition:
• Die “rxc Tabelle” ist eine Kontingenztabelle, die die Ausprägungen von Zeilenmerkmal &
Spaltenmerkmals in Form von r Zeilen (rows) & c Spalten (columns) wiedergibt
- Nutzen:
- Arten: bivariate Verteilung kann sich auf Zeilenmerkmal oder Spaltenmerkmal ausrichten
Konditionalverteilung Neutral
13 of 21
Begriffsübersicht Statistik I 2018/19
- ??
Was Wann
Spaltenkonditionalverteilungen unterschieden
statistische Abhängigkeit von 2 Merkmale
sich voneinander
müssen sich mindestens 2 voneinander
Bei mehr als 2 Spaltenkonditionalverteilungen
unterscheiden
Merkmale voneinander statistisch unabhängig Keine Abweichung der
Spaltenkonditionalverteilungen
diese Verteilungen stimmen mit der
statistischer Unabhängigkeit
Marginalverteilung des Zeilenmerkmals überein
Statistische Unabhängigkeit
Partialtabelle
- Nutzen: Prüfung, ob andere Merkmale (Drittvariablen) einen Einfluss auf die bivariate
Verteilung ausüben (3. Merkmal als Kontrollgröße wird untersucht)
14 of 21
Begriffsübersicht Statistik I 2018/19
• kein Einfluss auf bivariate Verteilung = in Partialtabellen & Kontingenztabellen ist die gleiche
statistische Beziehung (Abhängigkeit oder Unabhängigkeit) beschrieben
Interaktionseffekte
- Kontingenztabelle=statistische Abhängigkeit
- Partialtabelle= statistische Unabhängigkeit
1. Fall: Erklärender Interaktionseffekt
- -> Das Merkmal erklärt bzw. unterstützt die statistische
Abhängigkeit
- Kontingenztabelle=statistische Unabhängigkeit
- Partialtabelle=statistische Abhängigkeit
2. Fall: Spezifizierender Interaktionseffekt
- ->Die Einflussgröße spezifiziert die statistische Beziehung
der beiden Merkmale
Boxplots
- Eigenschaften:
• Box durch das erste (Q1) und das dritte Quartil (Q3) begrenzt àInnerhalb der Box liegen 50%
der Werte
-> Statistiken, die Stärke oder Schwäche des statistischen Zusammenhangs beschreiben
-> Statistiken, die ggf. Richtung des statistischen Zusammenhangs beschreiben
15 of 21
Begriffsübersicht Statistik I 2018/19
• Festgelegter Wertebereich: ab wann ist noch unabhängig ist und ab wann nicht mehr
χ2 : Chi-Quadrat-Koeffizient (PRÜFUNG)
- Def.: Statistik, die die Stärke der statistischen Beziehung in Form der Abweichung der
Kontingenztabelle von der Indifferenztabelle = Chi-Quadrat χ2
- Grundliegende Frage: Wie sieht gemeinsame Verteilung aus, wenn statistische Unabhängigkeit
vorliegen würde?
- How To:
• Erstellung Indifferenztabelle für Fall, dass für die bivariate Verteilung statistische
Unabhängigkeit angenommen werden kann (Zellenhäufigkeiten dann nicht beobachtete
Häufigkeiten, sondern erwartete Häufigkeiten fe)
- Formel:
- 1. Problem:
• Was bedeutet es, wenn sich ein Wert von χ2=5,35 ergibt?
• Wie kann ich Wert sinnvoll bzgl. der Stärke der Abhängigkeit interpretieren?
-> KEINE ANTWORT MÖGLICH
- Merkmale:
• χ 2 ist abhängig von der Tabellengröße und den jeweiligen Zellenhäufigkeiten!!!
- 2. Problem:
• Aus der Verdopplung der Zellenhäufigkeiten resultiert (bei gleichbleibenden hj und pj) eine
Verdopplung des Chi-Quadrat Koeffizienten
- Lösung: χ 2 normieren -> eindeutiger Wertebereich liegt vor & Verdopplungseffekt tritt nicht auf
17 of 21
Begriffsübersicht Statistik I 2018/19
Phi-Koeffizient
Cramers V
Kontingenzkoeffizient C
PRE-Maß Lambda
7. Sitzung
Konkordante & diskordante Paare
18 of 21
Begriffsübersicht Statistik I 2018/19
Gamma als Statistik
Somers‘ d
Kendall‘s Tau A
Kendall‘s Tau C
8. Sitzung
Streudiagramm
Kovariation
19 of 21
Begriffsübersicht Statistik I 2018/19
Kovarianz
Korrelationskoeffizient I
Regressionsgerade
Extra:
- Korrelation (positiv & negativ): 2 (oder mehr) Ereignisse treten gleichzeitig auf & hängen
miteinander zusammen; korrelative Beziehung muss konsistent & theoretisch untermauert sein;
Erklärungsmöglichkeiten:
-> Depressivität führt zum Rückzug oder zu mangelnder Kompetenz, soziale Kontakte zu pflegen.
-> Hieraus folgt nicht sofort, dass die Therapie wirksam ist: Meist beginnen Patienten eine
Therapie wenn es ihnen extrem schlecht geht. Es ist aber dann möglicherweise zu erwarten, dass
auch ohne Therapie eine gewisse Besserung eintritt.
-> Hieraus lässt sich nicht folgern, dass die Tabletten Ursachen für das Missbefinden sind. Denn,
nur diejenigen, denen es schlecht geht, nehmen Tabletten.
20 of 21
Begriffsübersicht Statistik I 2018/19
- Koinzidenz: 2 (oder mehr) Ereignisse treten zufällig auf; es besteht zwischen ihnen kein
theoretisch begründbarer Zusammenhang -> erlaubt keinerlei wissenschaftlich fundierte
Voraussagen
- z scores: zum besseren vlg. Zwischen zwei Studien; Standardisierung der werte (Maßeinheit)
Zusammenfassung Formeln:
21 of 21