Mathe Lernzettel PDF

Begriffsübersicht Statistik I 2018/19
1. Sitzung
- Deskriptive Statistik: Zusammenfassung & Präsentation von Daten. Ziel: Überblick über
betrachtetes Phänomen gewinnen/ Datensatz mit anderen Gruppen vergleichen.
- Merkmalsträger: Subjekt oder Objekt der statistischen Untersuchung.
- Grundgesamtheit: Gesamtmenge aller Merkmalsträger
- Variable, Merkmal,Item: Eigenschaft des Merkmalsträgers
- Merkmalsausprägung: Alle mögl. Werte, die das Merkmal beim Merkmalsträger annehmen
kann.
- Wert: Wert, der beim Merkmalsträger festgestellt wurde.
Merkmalsarten:
- qualitativ: Merkmalswerten = Namen oder Klassenbezeichnungen
- Quantitativ: Merkmal = besitzt messbare Dimension besitzt/ Mengeneinheiten (z.B. Verbrauch

in Litern)
- diskretes Merkmal: quantitatives Merkmal, das abzählbar viele Werte annehmen kann (z.B.
Einwohnerzahl einer Stadt)
- stetiges Merkmal: quantitatives Merkmal, das überabzählbar viele Werte annehmen kann (z.B.
Füllmengen). Um stetiges Merkmal wie diskretes zu behandeln -> Einheit hinzufügen (z.B.
Füllmengen in Litern)
- häufbares Merkmal: Merkmal, von dem Merkmalsträger mehr als 1 Merkmalswert annehmen
kann (z.B. Hobbys).
- nicht häufbares Merkmal: Merkmal, von dem ein Merkmalsträger nur 1 Merkmalswert
besitzen kann (z.B. Alter).
Verteilungsformen:
- absolute Häufigkeit hj: Anzahl der Merkmalswerten in der Urliste. Note 1 = 3x, ->
h(1)=3
- relative Häufigkeit fi: Division der absoluten Häufigkeit durch Gesamtanzahl. Noten-
Urliste = 10 Elemente -> relative Häufigkeit für Note 1 3/10=0,3. Multipliziert relative
Häufigkeit x 100, -> prozentuale relative Häufigkeit. 0,3*100=30% → 30%
Skalenniveaus: extra Blatt!
2. Sitzung
Kumulierte Häufigkeiten Fi: Aufsummmierung der relativen Häufigkeiten. (a) + (b) = (c)
Rel. Häufigkeit Kummulierte Häufigkeit
(a) Entspricht dem wert

von a
(b) (C)
Quantile (genauer p-Quantile):
Klassenmitte: (xj*) repräsentiert die jew. Klasse bei der Auswertung des statistische
Datenmaterials.
Klassenbreite: Differenz 2 aufeinander folgender Klassengrenzen (x o – x u) 

Diskretes Merkmal: : quantitatives Merkmal, das abzählbar viele Werte annehmen kann (z.B.
Einwohnerzahl einer Stadt)
Kontinuierliches Merkmal:
Histogramm:
1 of 21
Modus (Modalwert, Gipfelwert, Dichtemittel, häufigster Wert):
- = der in der Verteilung am häufigsten vorkommende Messwert
- Bezeichnung: D
- Bestimmung:
• Ablesen in der Häufigkeitsverteilung -> 3,4,4,5,5,5,5,6.6.6,7,8 D = 5
• wenn 2+ nebeneinanderliegende Maßzahlen gleich oft & am häufigsten vorhanden: ihr

arithmetisches Mittel = Modalwert -> 3,4,4,5,5,5,6,6,6,7 D = 5,5
• Wenn 2 nicht nebeneinanderliegende Maßzahlen gleich oft & am häufigsten vorhanden ->
bimodale Verteilung-> beide Maßzahlen = Modalwerte -> 3,4,5,5,5,5,6,6,7,8,8,8,8,9 D = 5; 8  
- Voraussetzung: Nominalskalenniveau
- Aussagekraft:
• aussageschwächstes Maß der Zentraltendenz
• bringt Verteilung nicht zum Ausdruck
• leicht von Zufallsfehlern beeinflusst
• Geeignet für: Kennzeichnung zwei- oder mehrgipfliger Häufigkeitsverteilungen
Median (Zentral; 50. Zentil):

- = Mittlere Maßzahl in geordneter Urliste der Messwerte; unter/ über diesem Pkt. Liegen jeweils
50% der Messwerte (N) der Verteilung
- Bestimmung:
• Ablesen der mittleren Maßzahl (s. prozentuale Häufigkeitsverteilung)
• Bei ungeradem N: Median ist tatsächlich auftretender Wert
• Bei geradem N: Median liegt zwischen 2 zentralen Messwerten (arithmetisches Mittel der
beiden bilden)
- Voraussetzung: Ordinalskalenniveau
- Aussagekraft:
• mehr Infos über Verteilung als Modalwert
• als “mittlerer Fall” von weniger Ausreißern beeinflusst
• Angebracht v.A. bei ordinalskallierten Merkmalen
• Angebracht bei offenen Maßzahlen (am Anfang/ Ende der Verteilung d.h. viele Ausreißer)
• Angebracht bei extrem geringer Anzahl von Messwerten/ bei sehr schiefen Verteilungen
Arithmetisches Mittel (Durchschnitt, Mittelwert):
- Formel:
- Bestimmung: Quotienten aus der Summe aller Maßzahlen durch ihre Gesamtanzahl
- Voraussetzung: mindestens Intervallskala
- Aussagekraft: mehr Infos als Modus & Median
Variation:
2 of 21
 
Varianz & Standardabweichung:
- Varianz (s2) = Summe der Abweichungsquadrate aller Messwerte einer Verteilung von ihrem
arithmetischen Mittel, dividiert durch die um 1 verminderte Anzahl der Messungen
- Standardabweichung (s) = [=mittlere quadratische Abweichung] ist die Quadratwurzel aus der
Varianz
- Mittelwert der Mittelwertsabweichungen: gibt Grad der Abweichung einzelner Werte in einer
Liste vom Mittelwert aller Werte in der Liste an
- je kleiner Standardabweichung -> desto geringer Abweichung einzelner Werte vom Mittelwert +
größere Zuverlässigkeit des Mittelwerts
- Wenn STABW = 0 -> dann sind alle Werte gleich
- Vorteile:
• wird von zufälligen Extremwerten der Stichprobe kaum beeinflußt
• hängt von allen Messwerten der Verteilung ab
• stellt eine algebraische Funktion aller Meßwerte der Verteilung dar
• zuverlässiger Schätzwert für die Streuung in der Grundgesamtheit
• für die Prüfstatistik gut geeignet
- Voraussetzung: Intervallskalenniveau
- Vergleich:
- Zentraltendenz bedeutet die Lage der Verteilung durch die in mehrfacher Weise angebbare
Mitte auf dem Merkmalskontinuum
- Dispersion bezeichnet die Breite der Verteilung Interpretation:
- Zentraltendenz als Maß und Norm für Pegel, Rangstufe, Durch- und Querschnitt 
Dispersion als Maß für die Abweichungen der Elemente der statistischen Menge
voneinander (z.B. als Maß für die Homogenität einer Gruppe, interindividuelle
Übereinstimmung)
anwenden: Zentralmaße berechnen
3. Sitzung
Spannweite( absoluter Streubereich, Streuungsbreite, Variationsweite):
- Differenz zwischen kleinstem & größtem Wert: R = X(max) - X(min) d.h. Blick auf Extremwerte &
wieweit sie auseinander liegen
- je stärker sie auseinander liegen -> desto größer die Streuung
- Bezeichnung: R = Range
- Vorteile:
• leicht bestimmbar
• leicht verständlich
• wird von den Extremwerten der Verteilung bestimmt
- Nachteile:
• stark von Zufallseinflüssen abhängig
• hängt stark von Stichprobengröße ab (Variationsweiten aus verschieden großen

Stichproben nicht unmittelbar vergleichbar)
• liefert unzulässige Schätzwerte für die Streuung in der Grundgesamtheit
- Voraussetzung: setzt Ordinalskalenniveau voraus; nur bei bei kleinen Stichproben verwenden
(n<=12)
3 of 21
Interquartilsabstand
 
Mittlere Quartilsabstand
- = Intervall auf Merkmalsachse, das durch unteres Quartil Q1 & oberes Quartil Q3 begrenzt wird
- In diesem Bereich liegen 50% aller Werte. Diese Streuen umso stärker, je breiter der
Quartilabstand
- Berechnung: Qdif = Q3 - Q1 = P75 - P25
- QA = halber Quartilabstand
- Voraussetzung:
• Ordinalskalenniveau
• wenn kein Intervall- oder Verhältnisskalenniveau, d.h. wenn kein arithm. Mittel berechnet
werden kann
Normalverteilung
- Grundlage vieler statistischer verfahren
- viele Merkmale sind normalverteilt
- Basis Standartnormalverteilung
- empirische Verteilung, die annähernd Verlauf der Normalverteilung

entspricht -> normalverteilt
- normalverteiltes Merkmal= X : N (m,s) 
- Normalvert. Merk.: inversen z-Transformation —> Normalverteilung N(m,s)
- Normalvert. Merk.: Normalverteilung N(m,s) —z-Transformation—> Standardnormalverteilung N(0,1)
Normalverteilungen können
verschiedene Mitten &
Streuungen haben
- Wahrscheinlichkeit 1 Wert im Intervall [a;b] -> “prob [a;b]”
4 of 21
Standardnormalverteilung
- charakteristischer Verteilungsverlauf:
- [-1;+1]= 68% der Verteilungsfläche

- [-2;+2]= 95% der Verteilungsfläche
- [-3;+3]=99,7% der Verteilungsfläche

- Merkmale:
- Asymptotisch zur x-Achse
- Symmetrieachse 0
- Mitte=0
- Streuung=1
- 0 bis +/-∞=0,5
- standardnormalverteiltes Merkmal: X: N (0,1)
- Ogive: kumulative Häufigkeitsverteilung einer theoretischen Standardnormalverteilung
- S-förmiger Verlauf
Prozentränge
- Nutzen:
• Einstufung einzelner Merkmalsträger über Prozentränge bzw. über standardisierte Werte;

• Verwendet sie für paarweiser Vergleich von Merkmalsträgern eines Merkmals
- Voraussetzung: mindestens ordinalskaliertes Merkmal
- How to:
• 1. Rangreihe der Werte: Merkmalsausprägungen werden aufsteigend geordnet
• 2. Rangplätze vergeben: geringste Merkmalsausprägung -> Rangplatz 1; größte Ausprägung -> letzten Rangplatz
• 3. Prozentrang ermitteln: Prozentrang des Merkmalsträgers kennzeichnet seine relative

Stellung in Gesamtheit aller Merkmalsträger
- Eigenschaft:
• Prozentränge treffen keine Aussage über Grad der Unterschiedlichkeit von Merkmalsträgern
5 of 21
- Definitionen, Formel:
1. DEFINITION 2. DEFINITION
- Merkmalsträger besitzt bzgl. Merkmal den - Merkmalsträger besitzt bzgl. Merkmal den
Prozentrang von “P ”
Prozentrang von “P ”
rang rang
-> Werte von P % aller Merkmalsträger = kleiner -> Werte von P % aller Merkmalsträger = kleiner
rang rang
oder gleich dem Wert dieses Merkmalsträgers als der Wert dieses Merkmalsträgers
- der Sonderfall: alle Werte sind unterschiedlich!
-> Berechnung Prozentrang bei n Merkmalsträger mit versch. Werten für Merkmalsträger mit
Rangplatz “rangplatz” (auf Basis 2. Definition):
Profildiagramm
- Definition:
• Grafische Beschreibung der Unterschiedlichkeit von Merkmalsträgern (mehrerer Merkmale)
• = Sammlung von Linienzügen (jede Linie enthält sämtliche Werte eines/vieler

Merkmalsträger/s (z.B. Mittelwert)
6 of 21
z-Transformation & Standardisierung & z-Score “z” (PRÜFUNG)
z-Transformation Standardisierung z-Score z

Jedem Wert wird ein Um Werte zu vergleichen, - besitzt (anders als Ursprungswert x)
zugehöriger wird der jeweilige keine Maßeinheit
standardisierter Wert als z- Abstand des Wertes vom - durch Standardisierung von x
score zugewiesen Zentrum sowie die ermittelt
Variabilität der jeweiligen

Testwerte berücksichtigt - z>0, wenn x rechts vom Zentrum liegt
Definition
- z<0, wenn x links vom Zentrum liegt
- Absolutbetrag von z => kennzeichnet

Entfernung vom Zentrum, d.h. der zu
z zugehörige Ursprungswert x liegt
um das z-fache der Dispersion vom
Zentrum entfernt
Bewertung, wie stark sich 2 Kennzeichnung, um das “Wievielfache
Merkmalsträger der Dispersion” Ursprungswert X vom
Nutzen
voneinander unterscheiden Zentrum in (positiver/negativer
Richtung) entfernt liegt
Voraussetzung intervallskaliertes Merkmal
- Verteilung von z-scores:
Eigenschaft Merke: z ≠ Z - Zentrum = 0; Dispersion = 1
(Stichwort: Standardnormalverteilung)
- Lassen sich Werte eines Merkmalsträgers, die er für 2 oder mehrere Merkmale besitzt, sinnvoll
untereinander vergleichen?
- Können 2 oder mehrere Merkmalsträger bzgl ihrer Werte, die sie bei 1 oder mehreren
Merkmalen besitzen, miteinander verglichen werden?
- Beispiel:
• Ist Schüler im Deutschtest (Punktwert 30 erreicht) besser als im Mathematiktest (Leistung mit
Punktwert 40 bewertet)?
- 1. wichtige Frage:
- Was bedeutet besser? Bzw. Wie kann ich die Werte vergleichen?
Antwort: Für Beurteilung das Abschneiden aller Schüler beachten, d.h. Beurteilung eines Punktwerts im
Kontext des durchschnittlichen Punktwerts betrachten
- 2. wichtige Fragen:
• Liegt jew. Wert der Person links oder rechts des Zentrums?
• Entfernung des Werts vom Zentrum?
Antwort: Standardisierung der Werte
- Formel: Z-Transformation
7 of 21
- how to: Z-Transformation
1. Von XXX den Mittelwert des Merkmals

subtrahieren
2. Ergebnis durch die Dispersion dividieren
3.
- Berechnung am Beispiel
Schüler erreichte in Mathe 40 & in Deutsch 30 Pkt.
Ergebnis:
- Für Mathe & Deutsch gilt: positiver Wert geht mit besserer Leistung einher
- Ergebnis z-Transormation: Mathe -0.95; Deutsch +0.95
-> Der Schüler hat im Mathetest schlechter abgeschnitten als im Deutschtest
Für den Vergleich zweier Merkmale (hier: der Leistungen) gilt für ermittelte z- scores:
- |zi| < |zj| => xi ist näher dem Zentrum von X als xj. (bzw yj dem Zentrum von Y (bei anderem
Merkmal))
- Abweichen (positiv/negativ) vom Zentrum lässt sich nur inhaltlich begründen!!!
8 of 21
Inverse z-Transformation & Flächengleichheit
- Vorabinformation:
• Standardnormalverteilung besitzt, wie die empirische Verteilung der z-scores, die Mitte 0
und die Streuung 1
• Generell gilt: Jede empirische Verteilung, unabhängig von ihrem Verteilungsverlauf, kann
in eine z-score Verteilung transformiert werden
• Kann man aufgrund der empirischen Verteilung aber von einem normalverteilten Merkmal
ausgehen, so erhält man als z-score Verteilung die Standardnormalverteilung
• Ein normalverteiltes Merkmal= X : N (m,s)
• Ein standardnormalverteiltes Merkmal: X: N (0,1)
Inverse z-Transformation
Definition Rücktransformation der z-score Werte in die ursprünglichen empirischen Werte xi
inverse z-Transformation & z- Transformation
= flächeninvariant (Flächenanteile bleiben gleich)
Eigenschaft
- Liegt ein normalverteiltes Merkmal vor, können konkret Verteilungsflächenanteile durch

Transformation in die Standardnormalverteilung angegeben werden
Vorteile/ Nutzen - Angabe, mit welcher Wahrscheinlichkeit Werte in ein bestimmtes Intervall fallen
- Für Flächenberechnung bei normalverteilten Merkmalen benötigt man durch z-

Transformation & Flächeninvarianz nur die Standardnormalverteilungstabelle
Formel
Bei theoretischen Verteilung (Standardnormalvert.):
Zusammenhänge - aus einer inversen z-Transformation resultiert -> die Normalverteilung N(m,s)
(normalverteilte - aus z-Transformation einer Normalverteilung N(m,s) resultiert
Merkmale) Standardnormalverteilung N(0,1)

- How to:
anwenden: Berechnung per Hand
9 of 21
Berechnung von Flächenanteilen innerhalb der Standardnormalverteilung
4. Sitzung
Prüfung auf Normalverteilung:
Ausgangsfrage: Ist die empirische Verteilung einer Normalverteilung ähnlich?
- Werte der Merkmalsträger z-

transformieren (= Standardisierung)
1. Möglichkeit - aus der Standardisierung resultierende

Verteilung mit Standardnormalverteilung
(SNV) vergleichen
- Werte der Standardnormalverteilung so

transformieren, dass ein X: N (m,s) entsteht
2. Möglichkeit - die mit der ursprünglichen empirischen

Verteilung verglichen werden
- = Vgl. Mit Originaldaten
Prüfen auf NV mit Histogrammen
- Definition: grafische Darstellung einer Häufigkeitsverteilung in Form von Säulen, die den
Häufigkeiten der Messwerte entsprechen
- Ausgangsfrage: Ähnelt die empirische Verteilung, die sich grafisch als Histogramm darstellen
lässt, einer Normalverteilung?
10 of 21
Prüfen auf NV mit Q-Q- Diagrammen( =Quantil-Quantil) / QQ-Plots
- es gilt: Ist Merkmal normalverteilt -> alle Punkte, die innerhalb des Koordinatensystems
eingetragen sind, liegen auf einer Geraden
- How to:
• Punkte in ein Koordinatensytem mit einer Ordinatenachse (vertikal) und einer Abzissenachse
(horizontal) eingetragen
• Abzissenwerte (x-Achse) = Merkmalsausprägungen der empirischen Verteilung
• Ordinatenwerte (y-Achse) = Normalwerte zj
Normalwert zj
- Werte, die man erhalten würde, wenn das Merkmal normalverteilt

Definition
(=erwartete Normalwerte)
- Normalwert wird so ermittelt, dass er mit dem Wert xj lagemäßig korrespondiert
Eigenschaft
(bedeutet, dass Fläche der SNV durch Zahl zj in demselben Verhältnis aufgeteilt
wird, wie die empirische Verteilung aller Werte durch den Wert xj geteilt wird)
Verteilung ist keine Normalverteilung
Verteilung ist eine Normalverteilung
Der Schiefekoeffizient (Schiefe einer Verteilung)
- Definition: Zur Einschätzung der Symmetrie einer Verteilung dient die Statistik Schiefe
(skewness).
- Formel:
FEHLT WAS (+ gehört Bild zu schiefe o. wölbung?)
- Interpretation:
• Schiefe annähernd 0, dann Symmetrie

(symmetrische Verteilung)
• Schiefe >0, dann linkssteile Verteilung
• Schiefe <0, dann rechtssteile Verteilung
11 of 21
Wölbungskoeffizient
- Nutzen: Zur Einschätzung der Zentriertheit einer symmetrischen Verteilung dient die Statistik
Wölbung (Kurtosis)
- Formel:
- Interpretation (Abgleich emp. Verteilung mit NV):

• Beide gleichartig zentriert: Wölbung ≈0
• Empirische Verteilung zentrierter: Wölbung > 0
• Normalverteilung ist zentrierter: Wölbung <0
 
Bildung von Gesamttestwerten -> SPSS
Gesamtindikatoren
- Nutzen: Wenn einzelne Subtestwerte summiert

werden sollen -> man spricht von dem
Gesamtindikator z.B. für Konstrukt “Intelligenz”
- Formel:
- Anwendungsbereich:
• Indikatormerkmale gleiche inhaltliche Dimension messen
• Verteilungen der Indikatormerkmale sich nicht bedeutsam voneinander unterscheiden
• alle Indikatormerkmale die gleiche Maßeinheit besitzen
5. Sitzung
Gab es nicht
X: Sitzung: Zweidimensionale (bivariate) Verteilungen: Nominalskala -> Statistische

(Un)Abhängigkeit
Vorwissen:
- Beschreibung der Verteilung einzelner Merkmale = Univariate Verteilungen
- Beschreibung der Verteilung zweier oder mehrerer Merkmale Bi- oder multivariate Verteilungen
Statistische Abhängigkeit
gleicher Verteilungsverlauf aber unterschiedliche

Abhängigkeit
Zentren der Merkmale
Unabhängigkeit gleiche Zentren sowie Verteilungen der 2 Merkmale
12 of 21
- Definition: (statistical dependency) = statistischer Zusammenhang, statistische
Wechselbeziehung, d.h. Merkmale variieren gemeinsam
Kontingenz
- Beispiel: Es gibt geschlechtsspezifische Unterschiede in der Neigung, mit dem Computer zu

arbeiten
Positive bzw. negative Assoziation
- Beispiel pos. Ass.: Je höher man seine Leistungsfähigkeit einschätzt, desto größer ist die
Motivation, sich am Unterricht zu beteiligen
Positive bzw. negative Korrelation
- Beispiel neg. Korrelation: Je öfter man für ein Diktat übt, desto geringer fällt die Anzahl der
Rechtschreibfehler aus
ACHTUNG: statistische Beziehungen können auf kausale Beziehungen hinweisen, sie aber
niemals beweisen!!!
- Sonderfall: Artefakt
• Definition: Scheinbare Abhängigkeiten/ Unabhängigkeiten; auch Scheinkorrelationen

• statistische Beziehung sachlogisch nicht begründbar!
Statistische Abhängigkeit anhand der Skalenniveaus: (HIER HIN)
- Nominalskala: Kontingenz
- Ordinalskala: Positive oder negative Assoziation
- Intervallskala: Positive oder negative Korrelation
Kontigenztabelle (Kreuztabelle, contingency table)
- Definition:
• Die “rxc Tabelle” ist eine Kontingenztabelle, die die Ausprägungen von Zeilenmerkmal &
Spaltenmerkmals in Form von r Zeilen (rows) & c Spalten (columns) wiedergibt
- Nutzen:
• Diskussion der statistischen Beziehung zwischen 2 Merkmalen X und Y
• Darstellung der bivariaten (gemeinsamen) Verteilung von 2 nominalskalierter Merkmale
- Arten: bivariate Verteilung kann sich auf Zeilenmerkmal oder Spaltenmerkmal ausrichten
Konditionalverteilung Neutral
Zeilenkonditionalverteilung Bedingt durch das Zeilenmerkmal
Spaltenkonditionalverteilung Bedingt durch das Spaltenmerkmal
13 of 21
- ??
• Aus Verteilungen des Zeilen- und Spaltenmerkmals

resultiert eine univariate Verteilung:
• Marginal- oder Randverteilung
Was Wann
Spaltenkonditionalverteilungen unterschieden
statistische Abhängigkeit von 2 Merkmale
sich voneinander
müssen sich mindestens 2 voneinander
Bei mehr als 2 Spaltenkonditionalverteilungen
unterscheiden
Merkmale voneinander statistisch unabhängig Keine Abweichung der
Spaltenkonditionalverteilungen
diese Verteilungen stimmen mit der
statistischer Unabhängigkeit
Marginalverteilung des Zeilenmerkmals überein
- Fazit : unwichtig ob Konditionalverteilung des Spalten-Merkmals oder des Zeilenmerkmals

miteinander vergleichen wird. Es wird immer entweder “stat. Unabhängigkeit” oder “stat.
Zusammenhang” festgestellt!
Statistische Unabhängigkeit
Partialtabelle
- Nutzen: Prüfung, ob andere Merkmale (Drittvariablen) einen Einfluss auf die bivariate
Verteilung ausüben (3. Merkmal als Kontrollgröße wird untersucht)
14 of 21
- Interpretation (Einfluss 3. Merkmal):
• kein Einfluss auf bivariate Verteilung = in Partialtabellen & Kontingenztabellen ist die gleiche
statistische Beziehung (Abhängigkeit oder Unabhängigkeit) beschrieben
• Merkmal besitzt Interaktionsefekt = mind. 1 Partialtabelle unterscheidet sich von der

statistischen Beziehung innerhalb der Kontingenztabelle
Interaktionseffekte
- Kontingenztabelle=statistische Abhängigkeit
- Partialtabelle= statistische Unabhängigkeit
1. Fall: Erklärender Interaktionseffekt
- -> Das Merkmal erklärt bzw. unterstützt die statistische
Abhängigkeit
- Kontingenztabelle=statistische Unabhängigkeit
- Partialtabelle=statistische Abhängigkeit
2. Fall: Spezifizierender Interaktionseffekt
- ->Die Einflussgröße spezifiziert die statistische Beziehung
der beiden Merkmale
Boxplots
- Nutzen: Grafische Beschreibung der Konditionalverteilungen intervall- bzw. ordinalskalierter

Merkmale durch Boxplots; statt Kontingenztabellen
- Eigenschaften:
• Box durch das erste (Q1) und das dritte Quartil (Q3) begrenzt àInnerhalb der Box liegen 50%
der Werte
• Mittellinie im Boxplot ist der Median (Q2)
• Distanz zwischen Q1und Q3 = Interquartilsabstand (IQR)
• Definition der Antennen (Whiskers) nicht einheitlich:
• 1. Variante: Antennen = kleinster Wert innerhalb Q1

- 1,5 IQR bzw. größter Wert innerhalb Q3 + 1,5 IQR
• 2. Variante: Antennen = beim 2,5% und 97,5%

Quantil
• „Milde” Ausreißer = Werte zwischen 1,5 IQR - 3

IQR
• Extreme Ausreißer = Werte größer 3 IQR
-> Statistiken, die Stärke oder Schwäche des statistischen Zusammenhangs beschreiben
-> Statistiken, die ggf. Richtung des statistischen Zusammenhangs beschreiben
15 of 21
6. Sitzung: Zweidimensionale Verteilungen: Nominalskala
- Vorwissen bivariaten Statistiken:
• Aussagen über Stärke/Schwäche des statistischen Zusammenhangs
• Festgelegter Wertebereich: ab wann ist noch unabhängig ist und ab wann nicht mehr
• Richtung des Zusammenhangs: positiv oder negativ
• Stärke & Richtung des Zusammenhangs ->

2 Gruppen von Statistiken:
- PRE-Maße (Proportional Reduction in Error)

- Unterschiedliche Statistiken
χ2 : Chi-Quadrat-Koeffizient (PRÜFUNG)
- Def.: Statistik, die die Stärke der statistischen Beziehung in Form der Abweichung der
Kontingenztabelle von der Indifferenztabelle = Chi-Quadrat χ2
- Nutzen: Beurteilung der Stärke des statistischen Zusammenhangs zw. 2 nominalskalierten

Merkmalen
- Grundliegende Frage: Wie sieht gemeinsame Verteilung aus, wenn statistische Unabhängigkeit
vorliegen würde?
- How To:
• Verwendung der Kontingenztabelle + Abgleich mit einer Kontingenztabelle bei stat.

Unabhängigkeit (Indifferenztabelle)
• Erstellung Indifferenztabelle für Fall, dass für die bivariate Verteilung statistische
Unabhängigkeit angenommen werden kann (Zellenhäufigkeiten dann nicht beobachtete
Häufigkeiten, sondern erwartete Häufigkeiten fe)
Es ergibt sich folgende Indifferenztabelle
- Formel:
Übersetzung: Summe der quadratischen

Abweichungen der beobachteten Häufigkeiten
16 of
fb aus der Kontingenztabelle von 21
den
erwarteten Häufigkeiten fe der
Indifferenztabelle dividiert durch fe
- Chi-Quadrat bzgl. Der stat. (un)Abhängigkeit:
• Statistische Unabhängigkeit = alle beobachteten Häufigkeiten fb sind gleich den erwarteten

Häufigkeiten fe→χ2=0
• Statistische Abhängigkeit = Je größer der Unterschied zw. Kontingenztabelle &

Indifferenztabelle, desto größer χ2
- 1. Problem:
• χ2 hat keinen festen Wertebereich
• Was bedeutet es, wenn sich ein Wert von χ2=5,35 ergibt?
• Wie kann ich Wert sinnvoll bzgl. der Stärke der Abhängigkeit interpretieren?
-> KEINE ANTWORT MÖGLICH
- Merkmale:
• χ 2 ist abhängig von der Tabellengröße und den jeweiligen Zellenhäufigkeiten!!!
Die bivariate Verteilung

wird nicht verändert,
sondern die
Zellenhäufigkeiten
lediglich verdoppelt
- 2. Problem:
• Aus der Verdopplung der Zellenhäufigkeiten resultiert (bei gleichbleibenden hj und pj) eine
Verdopplung des Chi-Quadrat Koeffizienten
- Lösung: χ 2 normieren -> eindeutiger Wertebereich liegt vor & Verdopplungseffekt tritt nicht auf
17 of 21
Phi-Koeffizient
Cramers V
Kontingenzkoeffizient C
PRE-Maß Lambda
anwenden: Chi-Quadrat & Lambda per Hand berechnen
7. Sitzung
Konkordante & diskordante Paare
18 of 21
Gamma als Statistik
Somers‘ d
Kendall‘s Tau A
Kendall‘s Tau B &
Kendall‘s Tau C
anwenden: N & N per Hand berechnen

c d
8. Sitzung
Streudiagramm
Kovariation
19 of 21
 
Kovarianz
Korrelationskoeffizient I
Regressionsgerade
anwenden: Erklärung des Prinzips der Kovarianz
Extra:
- Korrelation (positiv & negativ): 2 (oder mehr) Ereignisse treten gleichzeitig auf & hängen
miteinander zusammen; korrelative Beziehung muss konsistent & theoretisch untermauert sein;
Beispiele: Rauchen & Lungenkrebs;

Körpergröße & Gewicht
- Vorsicht bei Interpretation von Korrelationen ! 

z.B. Depressive Menschen haben weniger soziale Kontakte. (Ausmaß der Depressivität korreliert
mit Anzahl sozialer Kontakte)
Erklärungsmöglichkeiten:
-> Depressivität führt zum Rückzug oder zu mangelnder Kompetenz, soziale Kontakte zu pflegen.
-> Der Rückgang sozialer Kontakte führt zur Depressivität.
-> Depressive Menschen leben in einer reizärmeren Umgebung: dies führt zu
erhöhter Depressivität und resultiert in Isolation. 

z.B. Die Dauer einer Therapie ist positiv korreliert mit der Befindlichkeit.
-> Hieraus folgt nicht sofort, dass die Therapie wirksam ist: Meist beginnen Patienten eine
Therapie wenn es ihnen extrem schlecht geht. Es ist aber dann möglicherweise zu erwarten, dass
auch ohne Therapie eine gewisse Besserung eintritt.
z.B. Menschen, die Tabletten nehmen fühlen sich unwohler.
-> Hieraus lässt sich nicht folgern, dass die Tabletten Ursachen für das Missbefinden sind. Denn,
nur diejenigen, denen es schlecht geht, nehmen Tabletten.
20 of 21
- Koinzidenz: 2 (oder mehr) Ereignisse treten zufällig auf; es besteht zwischen ihnen kein
theoretisch begründbarer Zusammenhang -> erlaubt keinerlei wissenschaftlich fundierte
Voraussagen
- z scores: zum besseren vlg. Zwischen zwei Studien; Standardisierung der werte (Maßeinheit)
- > dispersion = Streuung entspricht der Standardabweichung in der epischen

Verteilung
Zusammenfassung Formeln:
21 of 21

Mathe Lernzettel PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mathe Lernzettel PDF

Cargado por

Copyright:

Formatos disponibles

Begriﬀsübersicht Statistik I 2018/19

- Merkmalsträger: Subjekt oder Objekt der statistischen Untersuchung.

- Grundgesamtheit: Gesamtmenge aller Merkmalsträger

- Variable, Merkmal,Item: Eigenschaft des Merkmalsträgers

- Wert: Wert, der beim Merkmalsträger festgestellt wurde.

- Quantitativ: Merkmal = besitzt messbare Dimension besitzt/ Mengeneinheiten (z.B. Verbrauch

Skalenniveaus: extra Blatt!

Rel. Häufigkeit Kummulierte Häufigkeit

(a) Entspricht dem wert

Quantile (genauer p-Quantile):

Klassenbreite: Diﬀerenz 2 aufeinander folgender Klassengrenzen (x o – x u)

Modus (Modalwert, Gipfelwert, Dichtemittel, häufigster Wert):

- = der in der Verteilung am häufigsten vorkommende Messwert

• Ablesen in der Häufigkeitsverteilung -> 3,4,4,5,5,5,5,6.6.6,7,8 D = 5

• wenn 2+ nebeneinanderliegende Maßzahlen gleich oft & am häufigsten vorhanden: ihr

• aussageschwächstes Maß der Zentraltendenz

• bringt Verteilung nicht zum Ausdruck

• leicht von Zufallsfehlern beeinflusst

• Geeignet für: Kennzeichnung zwei- oder mehrgipfliger Häufigkeitsverteilungen

Median (Zentral; 50. Zentil):

• Ablesen der mittleren Maßzahl (s. prozentuale Häufigkeitsverteilung)

• Bei ungeradem N: Median ist tatsächlich auftretender Wert

• mehr Infos über Verteilung als Modalwert

• als “mittlerer Fall” von weniger Ausreißern beeinflusst

• Angebracht v.A. bei ordinalskallierten Merkmalen

Arithmetisches Mittel (Durchschnitt, Mittelwert):

- Voraussetzung: mindestens Intervallskala

- Aussagekraft: mehr Infos als Modus & Median

- Wenn STABW = 0 -> dann sind alle Werte gleich

• wird von zufälligen Extremwerten der Stichprobe kaum beeinflußt

• hängt von allen Messwerten der Verteilung ab

• stellt eine algebraische Funktion aller Meßwerte der Verteilung dar

• zuverlässiger Schätzwert für die Streuung in der Grundgesamtheit

• für die Prüfstatistik gut geeignet

- Dispersion bezeichnet die Breite der Verteilung Interpretation:

anwenden: Zentralmaße berechnen

- je stärker sie auseinander liegen -> desto größer die Streuung

• wird von den Extremwerten der Verteilung bestimmt

• stark von Zufallseinflüssen abhängig

• hängt stark von Stichprobengröße ab (Variationsweiten aus verschieden großen

• liefert unzulässige Schätzwerte für die Streuung in der Grundgesamtheit

- Berechnung: Qdif = Q3 - Q1 = P75 - P25

- Grundlage vieler statistischer verfahren

- viele Merkmale sind normalverteilt

- empirische Verteilung, die annähernd Verlauf der Normalverteilung

- normalverteiltes Merkmal= X : N (m,s)

- Normalvert. Merk.: inversen z-Transformation —> Normalverteilung N(m,s)

- Normalvert. Merk.: Normalverteilung N(m,s) —z-Transformation—> Standardnormalverteilung N(0,1)

- Wahrscheinlichkeit 1 Wert im Intervall [a;b] -> “prob [a;b]”

- [-1;+1]= 68% der Verteilungsfläche

- [-3;+3]=99,7% der Verteilungsfläche

- Asymptotisch zur x-Achse

- standardnormalverteiltes Merkmal: X: N (0,1)

- Ogive: kumulative Häufigkeitsverteilung einer theoretischen Standardnormalverteilung

• Einstufung einzelner Merkmalsträger über Prozentränge bzw. über standardisierte Werte;

- Voraussetzung: mindestens ordinalskaliertes Merkmal

• 1. Rangreihe der Werte: Merkmalsausprägungen werden aufsteigend geordnet

• 3. Prozentrang ermitteln: Prozentrang des Merkmalsträgers kennzeichnet seine relative

- der Sonderfall: alle Werte sind unterschiedlich!

• = Sammlung von Linienzügen (jede Linie enthält sämtliche Werte eines/vieler

z-Transformation Standardisierung z-Score z

Variabilität der jeweiligen

- Absolutbetrag von z => kennzeichnet

Klassenbreite: Diﬀerenz 2 aufeinander folgender Klassengrenzen (x o – x u) 

- normalverteiltes Merkmal= X : N (m,s)