Stat 4 Regression2

Statistik fr Psychologen
4
Multiple Regressionsanalyse
Hans-Rdiger Pfister, Gerd Meier
Mehr als ein Prdiktor
Meistens steht zur Vorhersage eines Kriteriums Y mehr als nur ein Prdiktor X zu
Verfgung:
Leistung im Beruf <- Abschlussnote, Alter, Berufserfahrung

Allgemeine Intelligenz <- sprachliche F., numerische F., visuelle F.
Arbeitszufriedenheit <- Einkommen, Fhrungsstil, Alter
Mehrere Prdiktoren X1, X2, ... fhren i.d.R. zu einer besseren Vorhersage.
Je mehr Prdiktoren, um so weniger sparsam und um so stichprobenspezifischer ist

aber das Regressionsmodell.
Oft sind die Prdiktoren selbst untereinander korreliert; die Information, die die
Prdiktoren enthalten, ist daher teilweise redundant.
Ziele der multiplen Regression:
Mache eine mglichst gute Vorhersage (R2).

Verwende dazu mglichst wenige Prdiktoren (Sparsamkeitsprinzip).
Die Beziehung zwischen Prdiktoren und Kriterium ist theoretisch begrndbar.
Modell der multiplen Regression

y i = a + bk xik + .... + bK xiK
yi y i = yresi = ei
2
i
Minimum
Methode der kleinsten Quadrate: Finde die Koeffizienten a und bk, die die Summe der
quadrierten Residuen minimieren.
bk
bk
Z
Z
Z
Falsch: Mehrere einfache Regressionen

bercksichtigen die Redundanz unter den
Prdiktoren nicht.
Z
Optimale bk -Koeffizienten bercksichtigen die
Redundanz: sie liefern den spezifischen Beitrag
eines Prdiktors zur Vorhersage von Y, wenn
alle anderen Prdiktoren im Modell kontrolliert
(auspartialisiert, konstant gehalten) werden.
Illustration
y
Statt einer Regressionsgeraden erhalten wir bei 2 Prdiktoren eine

Regressionsebene im 3-dimensionalen Raum. Bei mehr als 2
Prdiktoren sind k-dimensionale Rume nicht mehr anschaulich
darstellbar.
x2
y
yres
b2
{
y
b1
x1
Die Partialkorrelation
Die einfache Korrelation rXY bezeichnet die

symmetrische lineare Beziehung zwischen
zwei Variablen X und Y.
Die Partialkorrelation rXY.Z bezeichnet die

lineare Beziehung zwischen X und Y, nachdem
der Einfluss einer dritten Variable Z kontrolliert
(auspartialisiert) wurde.
rXY .Z = rxres ( z ), yres ( z )

Z
Statistisch: Die Partialkorrelation ist die

Korrelation zwischen den Residuen von X und
Y, wenn X und Y jeweils durch Z vorhergesagt
werden.
rxy. z =
rxy rxz ryz

(1 rxz2 )(1 ryz2 )
Semipartielle Korrelation (part correlation)
ry , x. z =
ryx rxz ryz

1 rxz2
Z
Der Einfluss einer dritten Variable Z wird nur aus einer der
beiden Variablen X oder Y auspartialisiert (hier X).
Modellschtzung
Die Schtzung eines multiplen Regressionsmodells mit mehreren
Prdiktoren ist nicht mehr durch elementare algebraische Formeln
mglich.
Eine Schtzung ist durch Anwendung der Matrixalgebra mglich:
X: Matrix der Prdiktoren (1. Spalte konst=1, intercept)
y: Vektor des Kriteriums
b: Schtzer der Regressionskoeffizient
b = (X T X)1 X T y
y = Xb
y res = y y
Interpretation von b
Der Regressionskoeffizient bk gibt an, um wie viele Einheiten sich das Kriterium
Y verndert, wenn sich der Prdiktor Xk um eine Einheit verndert und alle
anderen Prdiktoren konstant gehalten werden. Er bezeichnet den spezifischen
Einfluss von Xk im Kontext aller bercksichtigten Prdiktoren.
Der standardisierte Regressionskoeffizient k ist der b-Koeffizient, den man bei
Verwendung z-standardisierter Variablen erhlt.
Durch die Gleichheit der Standardabweichung sd =1 aller Prdiktoren werden die
Prdiktoren dadurch in einem gewissen Sinn vergleichbar (da b und lineare
Funktionen voneinander sind, hat dies keinerlei Einfluss auf Signifikanztests
usw.!)
s
=b
sy
ACHTUNG: Der standardisierte Regressionskoeffizient darf nicht mit dem

Populationsparameter verwechselt werden!
Interpretation von R
Der multiple Korrelationskoeffizient R bezeichnet die Korrelation zwischen
beobachteten und vorhergesagten Werten.
Die quadrierte multiple Korrelation R2 (auch: Determinationskoeffizient)
bezeichnet den Anteil an der Kriteriumsvarianz, der durch die Prdiktoren insgesamt
vorhergesagt (erklrt) werden kann.
R2 kann in eine Summe quadrierter semi-partieller Korrelationen zerlegt werden:
R y .1.. K = ryy (1... K )

R y2.1.. K = k ryk =
SS y
SS y
= ry2,k .(1.. K 1) = ry21 + ry2, 2.1 + ry2,3.12 ... + ry2, K .(1.. K 1)
Jeder (signifikante) Prdiktor liefert einen spezifischen Anteil zustzlicher erklrter

Varianz (zu den bereits im Modell vorhandenen Prdiktoren), der von den anderen
Prdiktoren unabhngig ist.
Signifikanztests
Voraussetzungen:
Normalverteilung der Residuen
Varianzhomogenitt der Residuen
FK ; N K 1 =
t N K 1 =
MS y
MS res
bk
=
sbk
R 2 ( N K 1)
(1 R 2 ) K
bk
1 R y2.1... K
(1 Rk2.G )( N K 1)
F-Test der H0: R2 = 0 in der Population

K = Anzahl der Prdiktoren
t-Test (mit N-K-1 df) der H0:

k = 0 in der Population
Voraussetzungen
E (Y | X ) = + xi
Varianzhomogenitt
Normalverteilung
Residuals vs Fitted
Normal Q-Q
19
60
80
19
24
-2
-40
-20
Standardized residuals
20
0
Residuals
40
24
69
88
80
90
100
110
120
130
Fitted values
lm(SYMPTOMS ~ STRESS)
-2
-1
Theoretical Quantiles
lm(SYMPTOMS ~ STRESS)
Anmerkungen
Ein Regressionsmodell impliziert keine kausale Beziehung.
Ein aus einer Stichprobe geschtztes Regressionsmodell ist nur fr den

Wertebereich der Prdiktorvariablen gltig, der in der Stichprobe
vorhanden war.
Regressionskoeffizienten hngen simultan von allen im Modell befindlichen

Prdiktoren ab; sie ndern sich, wenn Prdiktoren aufgenommen oder
herausgenommen werden.
Mit einem Regressionsmodell knnen wir

die Beziehung zwischen Kriterium und Prdiktoren beschreiben,
neue Flle mit bestimmter Reliabilitt vorhersagen,
unter Annahme(!) einer kausalen Beziehung die Response erklren.
Ausreier
Diagnostische Kennwerte
Hinsichtlich X: Leverage hi (hat value) einer
Beobachtung i bezeichnet die Distanz von i
vom Mittelpunkt aller Prdiktoren.
Beobachtungen mit groem leverage
beeinflussen die Regression besonders
stark.
Hinsichtlich Y: Studentized Residuals sind

am Standarschtzfehler und h
standardisierte Residuen; Studentized
Residuals > 2 sollten berprft werden (z.B.
fehlerhafte Messung der AV)
Gesamteinfluss einer Beobachtung i: Cooks
Di misst die Vernderung des
Regressionskoeffizienten bj, wenn die i-te
Beobachtung weggelassen wird. Di, die
deutlich grer als die restlichen sind, sollten
berprft werden.
1
+
n
hi =
( xi x ) 2
(x j x )2
0 hi 1 ;
= K +1
h =
( K + 1)
n
studri =
Di =
Ei2 =
hi > 2
K +1
outlier!
n
~
yi
serr ( i ) (1 hi )
Ei2
h
i
k + 1 1 hi
~
y
i
serr 1 hi
Outlier Detection
16
12
14
12
10
resid
studres Cooks D
leverage
-2.23 -0.87
0.10
0.20
-1.23 -0.47
0.03
0.20
-1.71 -0.62
0.03
0.11
11
2
0
0
X
1
2
3
4
5
6
7
8
9
10
11
12
1
1
3
3
3
4
5
5
6
7
10
13
Y
1
2
3
5
7
6
8
10
5
10
4
14
10
12
predicted
3,23
3,23
4,71
4,71
4,71
5,45
6,19
6,19
6,93
7,67
9,89
12,11
14
0.29
0.10
0.00
0.11
2.29
0.85
0.05
0.11
0.55
0.19
0.00
0.09
1.81
0.65
0.02
0.08
3.81
1.49
0.09
0.08
-1.93 -0.69
0.02
0.09
0.05
0.11
9
10
2.33
0.86
11 -5.89 -3.54
1.01
0.26
12
0.55
0.53
1.89
0.98
Schrittweise Regression (stepwise regression)
Ziel: Auswahl einer optimalen Menge von Prdiktoren aus einer Menge von J
potentiellen Prdiktoren
R y2. X = ry21 + ry2, 2.1 + ry2,3.12 ... + ry2, K .(1.. K 1)
Stepwise-Algorithmus (G: Menge der Prdiktoren im Modell):
nimm X mit grtem ryx -> X1
berechne ry,j.G fr alle anderen Prdiktoren X und nimm das Xj mit der grten
Teste X2 auf Signifikanz, falls nicht signifikant, entferne X2
zurck nach 2., solange bis keine Prdiktoren mehr da sind und man ein Modell mit nur
semipartiellen Korrelation: -> X2
signifikanten Prdiktoren hat.
Toleranz: Varianz eines Prdiktors Xj, die nicht durch die anderen Prdiktoren G
2
vorhergesagt werden kann
Tolerance j = 1 R j .G
geringe Toleranz fhrt zu instabilen Regressionslsungen, im Extrem bei NullToleranz kann die Regression nicht berechnet werden (d.h. rjk ~1.0:
Multikollinearitt)
Kreuzvalidierung
Durch eine Kreuzvalidierung wird ein Regressionsmodell, das an einer Stichprobe A

gewonnen wurde, an einer zweiten unabhngigen Stichprobe B getestet:
y = bx + a
Berechne Regressionskoeffizienten a und b fr Stichprobe A und R2:
nimm die Koeffizienten a und b und berechne fr Stichprobe B geschtzte Werte:
y cv = bxB + a
berechne R2cv zwischen den tatschlichen und den so geschtzten Werten in Stichprobe B;
ist R2cv deutlich kleiner als R2, dann ist das Regressionsmodell sehr spezifisch fr
Stichprobe A und nicht verallgemeinerbar;
eine Kreuzvalidierung kann bei hinreichend groer Stichprobe durchgefhrt werden, indem
man die gesamte Stichprobe zufllig in zwei Teilstichproben aufteilt und wechselseitig
kreuzvalidiert.
Mediatoren
Z
b3
b2
b1
Ein Mediator Z vermittelt den Einfluss zwischen

einer unabhngigen Variable X und einer
abhngigen Variable Y: der Effekt von X auf Y ist
also indirekt.
Statistisch nennt man Z genau dann eine

Mediatorvariable, wenn:
Y = b1 X
b1 signifikant ist
b2 signifikant ist
b3 signifikant ist
b3* signifikant ist
die Vorhersage von Y durch X und Z den
Einfluss von X signifikant reduziert: b1* < b1
Z = b2 X
Y = b3 Z
Y = b1* X + b3* Z
Zeitdruck
emails schreiben
Magengeschwr
Moderatoren
X*Z
Ein Moderator verndert den Effekt (Richtung
und/oder Strke) von X auf Y, d.h. Z wirkt
zusammen mit X auf Y.
Statistisch nennt man Z eine Moderatorvariabale,

wenn die Interaktion zwischen X und Z signifikant
ist.
Der Interaktionsterm im Regressionsmodell wird
als Produkt von X und Z abgebildet.
Y = b1 X + b2 Z + b3 ( X Z )
Rauchen * fettes Essen
fettes Essen
Rauchen
Bluthochdruck
Suppressorvariablen
Z
.70
Manchmal kommt es vor, dass ein Prdiktor Z, der

mit dem Kriterium nicht korreliert ist, einen hohen
signifikanten und meist negativen
Regressionskoeffizienten bZ erhlt, sofern er
zusammen in einem Modell mit einem weiteren
Prdiktor X benutzt wird.
.00
Y
.60
Einen solchen Prdiktor Z nennt man eine

Suppressorvariable.
Ein Suppressor Z unterdrckt Varianzanteile in
anderen Prdiktoren X, die nicht mit dem Kriterium
Y korreliert sind. Obwohl er also selbst nicht mit
dem Kriterium korreliert, erhht ein Suppressor die
Vorhersagekraft des gesamten Regressionsmodells
Y = X + Z.
Prfungsangst
.00
.70
by.x = 1.18
Diplomnote
.60
Berufserfolg
by.z = -0.82
10

Stat 4 Regression2

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Stat 4 Regression2

Cargado por

Copyright:

Formatos disponibles

Statistik fr Psychologen

Hans-Rdiger Pfister, Gerd Meier

Mehr als ein Prdiktor

Leistung im Beruf <- Abschlussnote, Alter, Berufserfahrung

Je mehr Prdiktoren, um so weniger sparsam und um so stichprobenspezifischer ist

Ziele der multiplen Regression:

Mache eine mglichst gute Vorhersage (R2).

Hans-Rdiger Pfister, Gerd Meier

Modell der multiplen Regression

Falsch: Mehrere einfache Regressionen

Hans-Rdiger Pfister, Gerd Meier

Statt einer Regressionsgeraden erhalten wir bei 2 Prdiktoren eine

Hans-Rdiger Pfister, Gerd Meier

Die einfache Korrelation rXY bezeichnet die

Die Partialkorrelation rXY.Z bezeichnet die

rXY .Z = rxres ( z ), yres ( z )

Statistisch: Die Partialkorrelation ist die

rxy rxz ryz

Hans-Rdiger Pfister, Gerd Meier

Semipartielle Korrelation (part correlation)

ryx rxz ryz

Hans-Rdiger Pfister, Gerd Meier

ACHTUNG: Der standardisierte Regressionskoeffizient darf nicht mit dem

Hans-Rdiger Pfister, Gerd Meier

R y .1.. K = ryy (1... K )

= ry2,k .(1.. K 1) = ry21 + ry2, 2.1 + ry2,3.12 ... + ry2, K .(1.. K 1)

Jeder (signifikante) Prdiktor liefert einen spezifischen Anteil zustzlicher erklrter

Hans-Rdiger Pfister, Gerd Meier

F-Test der H0: R2 = 0 in der Population

t-Test (mit N-K-1 df) der H0:

Hans-Rdiger Pfister, Gerd Meier

Hans-Rdiger Pfister, Gerd Meier

Ein Regressionsmodell impliziert keine kausale Beziehung.

Ein aus einer Stichprobe geschtztes Regressionsmodell ist nur fr den

Regressionskoeffizienten hngen simultan von allen im Modell befindlichen

Mit einem Regressionsmodell knnen wir

Hans-Rdiger Pfister, Gerd Meier

Hans-Rdiger Pfister, Gerd Meier

Hinsichtlich Y: Studentized Residuals sind

Hans-Rdiger Pfister, Gerd Meier

Hans-Rdiger Pfister, Gerd Meier

Schrittweise Regression (stepwise regression)

R y2. X = ry21 + ry2, 2.1 + ry2,3.12 ... + ry2, K .(1.. K 1)

Stepwise-Algorithmus (G: Menge der Prdiktoren im Modell):

nimm X mit grtem ryx -> X1

Teste X2 auf Signifikanz, falls nicht signifikant, entferne X2

semipartiellen Korrelation: -> X2

signifikanten Prdiktoren hat.

Hans-Rdiger Pfister, Gerd Meier

Durch eine Kreuzvalidierung wird ein Regressionsmodell, das an einer Stichprobe A

Berechne Regressionskoeffizienten a und b fr Stichprobe A und R2:

nimm die Koeffizienten a und b und berechne fr Stichprobe B geschtzte Werte:

Hans-Rdiger Pfister, Gerd Meier

Ein Mediator Z vermittelt den Einfluss zwischen

Statistisch nennt man Z genau dann eine

Hans-Rdiger Pfister, Gerd Meier

Statistisch nennt man Z eine Moderatorvariabale,

Hans-Rdiger Pfister, Gerd Meier

Manchmal kommt es vor, dass ein Prdiktor Z, der

Einen solchen Prdiktor Z nennt man eine

Hans-Rdiger Pfister, Gerd Meier

También podría gustarte