Documentos de Académico
Documentos de Profesional
Documentos de Cultura
4
Multiple Regressionsanalyse
Meistens steht zur Vorhersage eines Kriteriums Y mehr als nur ein Prdiktor X zu
Verfgung:
Mehrere Prdiktoren X1, X2, ... fhren i.d.R. zu einer besseren Vorhersage.
Oft sind die Prdiktoren selbst untereinander korreliert; die Information, die die
Prdiktoren enthalten, ist daher teilweise redundant.
2
i
Minimum
Methode der kleinsten Quadrate: Finde die Koeffizienten a und bk, die die Summe der
quadrierten Residuen minimieren.
bk
bk
Z
Z
Z
Z
Optimale bk -Koeffizienten bercksichtigen die
Redundanz: sie liefern den spezifischen Beitrag
eines Prdiktors zur Vorhersage von Y, wenn
alle anderen Prdiktoren im Modell kontrolliert
(auspartialisiert, konstant gehalten) werden.
Illustration
y
x2
y
yres
b2
{
y
b1
x1
Die Partialkorrelation
rxy. z =
ry , x. z =
Z
Der Einfluss einer dritten Variable Z wird nur aus einer der
beiden Variablen X oder Y auspartialisiert (hier X).
Modellschtzung
Die Schtzung eines multiplen Regressionsmodells mit mehreren
Prdiktoren ist nicht mehr durch elementare algebraische Formeln
mglich.
Eine Schtzung ist durch Anwendung der Matrixalgebra mglich:
X: Matrix der Prdiktoren (1. Spalte konst=1, intercept)
y: Vektor des Kriteriums
b: Schtzer der Regressionskoeffizient
b = (X T X)1 X T y
y = Xb
y res = y y
Hans-Rdiger Pfister, Gerd Meier
Interpretation von b
Der Regressionskoeffizient bk gibt an, um wie viele Einheiten sich das Kriterium
Y verndert, wenn sich der Prdiktor Xk um eine Einheit verndert und alle
anderen Prdiktoren konstant gehalten werden. Er bezeichnet den spezifischen
Einfluss von Xk im Kontext aller bercksichtigten Prdiktoren.
Der standardisierte Regressionskoeffizient k ist der b-Koeffizient, den man bei
Verwendung z-standardisierter Variablen erhlt.
Durch die Gleichheit der Standardabweichung sd =1 aller Prdiktoren werden die
Prdiktoren dadurch in einem gewissen Sinn vergleichbar (da b und lineare
Funktionen voneinander sind, hat dies keinerlei Einfluss auf Signifikanztests
usw.!)
s
=b
sy
Interpretation von R
Der multiple Korrelationskoeffizient R bezeichnet die Korrelation zwischen
beobachteten und vorhergesagten Werten.
Die quadrierte multiple Korrelation R2 (auch: Determinationskoeffizient)
bezeichnet den Anteil an der Kriteriumsvarianz, der durch die Prdiktoren insgesamt
vorhergesagt (erklrt) werden kann.
R2 kann in eine Summe quadrierter semi-partieller Korrelationen zerlegt werden:
SS y
SS y
Signifikanztests
Voraussetzungen:
Normalverteilung der Residuen
Varianzhomogenitt der Residuen
FK ; N K 1 =
t N K 1 =
MS y
MS res
bk
=
sbk
R 2 ( N K 1)
(1 R 2 ) K
bk
1 R y2.1... K
(1 Rk2.G )( N K 1)
Voraussetzungen
E (Y | X ) = + xi
Varianzhomogenitt
Normalverteilung
Residuals vs Fitted
Normal Q-Q
19
60
80
19
24
-2
-40
-20
Standardized residuals
20
0
Residuals
40
24
69
88
80
90
100
110
120
130
Fitted values
lm(SYMPTOMS ~ STRESS)
-2
-1
Theoretical Quantiles
lm(SYMPTOMS ~ STRESS)
Anmerkungen
Ausreier
Diagnostische Kennwerte
Hinsichtlich X: Leverage hi (hat value) einer
Beobachtung i bezeichnet die Distanz von i
vom Mittelpunkt aller Prdiktoren.
Beobachtungen mit groem leverage
beeinflussen die Regression besonders
stark.
1
+
n
hi =
( xi x ) 2
(x j x )2
0 hi 1 ;
= K +1
h =
( K + 1)
n
studri =
Di =
Ei2 =
hi > 2
K +1
outlier!
n
~
yi
serr ( i ) (1 hi )
Ei2
h
i
k + 1 1 hi
~
y
i
serr 1 hi
Outlier Detection
16
12
14
12
10
resid
studres Cooks D
leverage
-2.23 -0.87
0.10
0.20
-1.23 -0.47
0.03
0.20
-1.71 -0.62
0.03
0.11
11
2
0
0
X
1
2
3
4
5
6
7
8
9
10
11
12
1
1
3
3
3
4
5
5
6
7
10
13
Y
1
2
3
5
7
6
8
10
5
10
4
14
10
12
predicted
3,23
3,23
4,71
4,71
4,71
5,45
6,19
6,19
6,93
7,67
9,89
12,11
14
0.29
0.10
0.00
0.11
2.29
0.85
0.05
0.11
0.55
0.19
0.00
0.09
1.81
0.65
0.02
0.08
3.81
1.49
0.09
0.08
-1.93 -0.69
0.02
0.09
0.05
0.11
9
10
2.33
0.86
11 -5.89 -3.54
1.01
0.26
12
0.55
0.53
1.89
0.98
Ziel: Auswahl einer optimalen Menge von Prdiktoren aus einer Menge von J
potentiellen Prdiktoren
berechne ry,j.G fr alle anderen Prdiktoren X und nimm das Xj mit der grten
zurck nach 2., solange bis keine Prdiktoren mehr da sind und man ein Modell mit nur
Toleranz: Varianz eines Prdiktors Xj, die nicht durch die anderen Prdiktoren G
2
vorhergesagt werden kann
Tolerance j = 1 R j .G
geringe Toleranz fhrt zu instabilen Regressionslsungen, im Extrem bei NullToleranz kann die Regression nicht berechnet werden (d.h. rjk ~1.0:
Multikollinearitt)
Kreuzvalidierung
y = bx + a
y cv = bxB + a
berechne R2cv zwischen den tatschlichen und den so geschtzten Werten in Stichprobe B;
ist R2cv deutlich kleiner als R2, dann ist das Regressionsmodell sehr spezifisch fr
Stichprobe A und nicht verallgemeinerbar;
eine Kreuzvalidierung kann bei hinreichend groer Stichprobe durchgefhrt werden, indem
man die gesamte Stichprobe zufllig in zwei Teilstichproben aufteilt und wechselseitig
kreuzvalidiert.
Mediatoren
Z
b3
b2
b1
Y = b1 X
b1 signifikant ist
b2 signifikant ist
b3 signifikant ist
b3* signifikant ist
die Vorhersage von Y durch X und Z den
Einfluss von X signifikant reduziert: b1* < b1
Z = b2 X
Y = b3 Z
Y = b1* X + b3* Z
Zeitdruck
emails schreiben
Magengeschwr
Moderatoren
X*Z
Ein Moderator verndert den Effekt (Richtung
und/oder Strke) von X auf Y, d.h. Z wirkt
zusammen mit X auf Y.
Y = b1 X + b2 Z + b3 ( X Z )
Rauchen * fettes Essen
fettes Essen
Rauchen
Bluthochdruck
Suppressorvariablen
Z
.70
.00
Y
.60
Prfungsangst
.00
.70
by.x = 1.18
Diplomnote
.60
Berufserfolg
by.z = -0.82
10