Está en la página 1de 10

Statistik fr Psychologen

4
Multiple Regressionsanalyse

Hans-Rdiger Pfister, Gerd Meier

Mehr als ein Prdiktor

Meistens steht zur Vorhersage eines Kriteriums Y mehr als nur ein Prdiktor X zu
Verfgung:

Leistung im Beruf <- Abschlussnote, Alter, Berufserfahrung


Allgemeine Intelligenz <- sprachliche F., numerische F., visuelle F.
Arbeitszufriedenheit <- Einkommen, Fhrungsstil, Alter

Mehrere Prdiktoren X1, X2, ... fhren i.d.R. zu einer besseren Vorhersage.

Je mehr Prdiktoren, um so weniger sparsam und um so stichprobenspezifischer ist


aber das Regressionsmodell.

Oft sind die Prdiktoren selbst untereinander korreliert; die Information, die die
Prdiktoren enthalten, ist daher teilweise redundant.

Ziele der multiplen Regression:

Mache eine mglichst gute Vorhersage (R2).


Verwende dazu mglichst wenige Prdiktoren (Sparsamkeitsprinzip).
Die Beziehung zwischen Prdiktoren und Kriterium ist theoretisch begrndbar.

Hans-Rdiger Pfister, Gerd Meier

Modell der multiplen Regression


y i = a + bk xik + .... + bK xiK
yi y i = yresi = ei

2
i

Minimum

Methode der kleinsten Quadrate: Finde die Koeffizienten a und bk, die die Summe der
quadrierten Residuen minimieren.

bk

bk
Z

Z
Z

Falsch: Mehrere einfache Regressionen


bercksichtigen die Redundanz unter den
Prdiktoren nicht.

Z
Optimale bk -Koeffizienten bercksichtigen die
Redundanz: sie liefern den spezifischen Beitrag
eines Prdiktors zur Vorhersage von Y, wenn
alle anderen Prdiktoren im Modell kontrolliert
(auspartialisiert, konstant gehalten) werden.

Hans-Rdiger Pfister, Gerd Meier

Illustration
y

Statt einer Regressionsgeraden erhalten wir bei 2 Prdiktoren eine


Regressionsebene im 3-dimensionalen Raum. Bei mehr als 2
Prdiktoren sind k-dimensionale Rume nicht mehr anschaulich
darstellbar.

x2

y
yres
b2

{
y

b1
x1

Hans-Rdiger Pfister, Gerd Meier

Die Partialkorrelation

Die einfache Korrelation rXY bezeichnet die


symmetrische lineare Beziehung zwischen
zwei Variablen X und Y.

Die Partialkorrelation rXY.Z bezeichnet die


lineare Beziehung zwischen X und Y, nachdem
der Einfluss einer dritten Variable Z kontrolliert
(auspartialisiert) wurde.

rXY .Z = rxres ( z ), yres ( z )


Z

Statistisch: Die Partialkorrelation ist die


Korrelation zwischen den Residuen von X und
Y, wenn X und Y jeweils durch Z vorhergesagt
werden.

rxy. z =

rxy rxz ryz


(1 rxz2 )(1 ryz2 )

Hans-Rdiger Pfister, Gerd Meier

Semipartielle Korrelation (part correlation)

ry , x. z =

ryx rxz ryz


1 rxz2

Z
Der Einfluss einer dritten Variable Z wird nur aus einer der
beiden Variablen X oder Y auspartialisiert (hier X).

Hans-Rdiger Pfister, Gerd Meier

Modellschtzung
Die Schtzung eines multiplen Regressionsmodells mit mehreren
Prdiktoren ist nicht mehr durch elementare algebraische Formeln
mglich.
Eine Schtzung ist durch Anwendung der Matrixalgebra mglich:
X: Matrix der Prdiktoren (1. Spalte konst=1, intercept)
y: Vektor des Kriteriums
b: Schtzer der Regressionskoeffizient

b = (X T X)1 X T y
y = Xb
y res = y y
Hans-Rdiger Pfister, Gerd Meier

Interpretation von b
Der Regressionskoeffizient bk gibt an, um wie viele Einheiten sich das Kriterium
Y verndert, wenn sich der Prdiktor Xk um eine Einheit verndert und alle
anderen Prdiktoren konstant gehalten werden. Er bezeichnet den spezifischen
Einfluss von Xk im Kontext aller bercksichtigten Prdiktoren.
Der standardisierte Regressionskoeffizient k ist der b-Koeffizient, den man bei
Verwendung z-standardisierter Variablen erhlt.
Durch die Gleichheit der Standardabweichung sd =1 aller Prdiktoren werden die
Prdiktoren dadurch in einem gewissen Sinn vergleichbar (da b und lineare
Funktionen voneinander sind, hat dies keinerlei Einfluss auf Signifikanztests
usw.!)
s

=b

sy

ACHTUNG: Der standardisierte Regressionskoeffizient darf nicht mit dem


Populationsparameter verwechselt werden!

Hans-Rdiger Pfister, Gerd Meier

Interpretation von R
Der multiple Korrelationskoeffizient R bezeichnet die Korrelation zwischen
beobachteten und vorhergesagten Werten.
Die quadrierte multiple Korrelation R2 (auch: Determinationskoeffizient)
bezeichnet den Anteil an der Kriteriumsvarianz, der durch die Prdiktoren insgesamt
vorhergesagt (erklrt) werden kann.
R2 kann in eine Summe quadrierter semi-partieller Korrelationen zerlegt werden:

R y .1.. K = ryy (1... K )


R y2.1.. K = k ryk =

SS y
SS y

= ry2,k .(1.. K 1) = ry21 + ry2, 2.1 + ry2,3.12 ... + ry2, K .(1.. K 1)

Jeder (signifikante) Prdiktor liefert einen spezifischen Anteil zustzlicher erklrter


Varianz (zu den bereits im Modell vorhandenen Prdiktoren), der von den anderen
Prdiktoren unabhngig ist.

Hans-Rdiger Pfister, Gerd Meier

Signifikanztests
Voraussetzungen:
Normalverteilung der Residuen
Varianzhomogenitt der Residuen

FK ; N K 1 =

t N K 1 =

MS y
MS res

bk
=
sbk

R 2 ( N K 1)
(1 R 2 ) K

bk
1 R y2.1... K
(1 Rk2.G )( N K 1)

F-Test der H0: R2 = 0 in der Population


K = Anzahl der Prdiktoren

t-Test (mit N-K-1 df) der H0:


k = 0 in der Population

Hans-Rdiger Pfister, Gerd Meier

Voraussetzungen

E (Y | X ) = + xi
Varianzhomogenitt

Normalverteilung

Residuals vs Fitted

Normal Q-Q

19

60

80

19

24

-2

-40

-20

Standardized residuals

20
0

Residuals

40

24
69

88

80

90

100

110

120

130

Fitted values
lm(SYMPTOMS ~ STRESS)

-2

-1

Theoretical Quantiles
lm(SYMPTOMS ~ STRESS)

Hans-Rdiger Pfister, Gerd Meier

Anmerkungen

Ein Regressionsmodell impliziert keine kausale Beziehung.

Ein aus einer Stichprobe geschtztes Regressionsmodell ist nur fr den


Wertebereich der Prdiktorvariablen gltig, der in der Stichprobe
vorhanden war.

Regressionskoeffizienten hngen simultan von allen im Modell befindlichen


Prdiktoren ab; sie ndern sich, wenn Prdiktoren aufgenommen oder
herausgenommen werden.

Mit einem Regressionsmodell knnen wir


die Beziehung zwischen Kriterium und Prdiktoren beschreiben,
neue Flle mit bestimmter Reliabilitt vorhersagen,
unter Annahme(!) einer kausalen Beziehung die Response erklren.

Hans-Rdiger Pfister, Gerd Meier

Ausreier

Hans-Rdiger Pfister, Gerd Meier

Diagnostische Kennwerte
Hinsichtlich X: Leverage hi (hat value) einer
Beobachtung i bezeichnet die Distanz von i
vom Mittelpunkt aller Prdiktoren.
Beobachtungen mit groem leverage
beeinflussen die Regression besonders
stark.

Hinsichtlich Y: Studentized Residuals sind


am Standarschtzfehler und h
standardisierte Residuen; Studentized
Residuals > 2 sollten berprft werden (z.B.
fehlerhafte Messung der AV)
Gesamteinfluss einer Beobachtung i: Cooks
Di misst die Vernderung des
Regressionskoeffizienten bj, wenn die i-te
Beobachtung weggelassen wird. Di, die
deutlich grer als die restlichen sind, sollten
berprft werden.

1
+
n

hi =

( xi x ) 2
(x j x )2

0 hi 1 ;

= K +1

h =

( K + 1)
n

studri =

Di =
Ei2 =

hi > 2

K +1
outlier!
n

~
yi
serr ( i ) (1 hi )

Ei2
h
i
k + 1 1 hi
~
y
i

serr 1 hi

Hans-Rdiger Pfister, Gerd Meier

Outlier Detection
16

12

14

12
10

resid

studres Cooks D

leverage

-2.23 -0.87

0.10

0.20

-1.23 -0.47

0.03

0.20

-1.71 -0.62

0.03

0.11

11

2
0
0

X
1
2
3
4
5
6
7
8
9
10
11
12

1
1
3
3
3
4
5
5
6
7
10
13

Y
1
2
3
5
7
6
8
10
5
10
4
14

10

12

predicted
3,23
3,23
4,71
4,71
4,71
5,45
6,19
6,19
6,93
7,67
9,89
12,11

14

0.29

0.10

0.00

0.11

2.29

0.85

0.05

0.11

0.55

0.19

0.00

0.09

1.81

0.65

0.02

0.08

3.81

1.49

0.09

0.08

-1.93 -0.69

0.02

0.09

0.05

0.11

9
10

2.33

0.86

11 -5.89 -3.54

1.01

0.26

12

0.55

0.53

1.89

0.98

Hans-Rdiger Pfister, Gerd Meier

Schrittweise Regression (stepwise regression)

Ziel: Auswahl einer optimalen Menge von Prdiktoren aus einer Menge von J
potentiellen Prdiktoren

R y2. X = ry21 + ry2, 2.1 + ry2,3.12 ... + ry2, K .(1.. K 1)

Stepwise-Algorithmus (G: Menge der Prdiktoren im Modell):

nimm X mit grtem ryx -> X1

berechne ry,j.G fr alle anderen Prdiktoren X und nimm das Xj mit der grten

Teste X2 auf Signifikanz, falls nicht signifikant, entferne X2

zurck nach 2., solange bis keine Prdiktoren mehr da sind und man ein Modell mit nur

semipartiellen Korrelation: -> X2

signifikanten Prdiktoren hat.

Toleranz: Varianz eines Prdiktors Xj, die nicht durch die anderen Prdiktoren G
2
vorhergesagt werden kann

Tolerance j = 1 R j .G

geringe Toleranz fhrt zu instabilen Regressionslsungen, im Extrem bei NullToleranz kann die Regression nicht berechnet werden (d.h. rjk ~1.0:
Multikollinearitt)

Hans-Rdiger Pfister, Gerd Meier

Kreuzvalidierung

Durch eine Kreuzvalidierung wird ein Regressionsmodell, das an einer Stichprobe A


gewonnen wurde, an einer zweiten unabhngigen Stichprobe B getestet:

y = bx + a

Berechne Regressionskoeffizienten a und b fr Stichprobe A und R2:

nimm die Koeffizienten a und b und berechne fr Stichprobe B geschtzte Werte:

y cv = bxB + a

berechne R2cv zwischen den tatschlichen und den so geschtzten Werten in Stichprobe B;

ist R2cv deutlich kleiner als R2, dann ist das Regressionsmodell sehr spezifisch fr
Stichprobe A und nicht verallgemeinerbar;

eine Kreuzvalidierung kann bei hinreichend groer Stichprobe durchgefhrt werden, indem
man die gesamte Stichprobe zufllig in zwei Teilstichproben aufteilt und wechselseitig
kreuzvalidiert.

Hans-Rdiger Pfister, Gerd Meier

Mediatoren

Z
b3

b2

b1

Ein Mediator Z vermittelt den Einfluss zwischen


einer unabhngigen Variable X und einer
abhngigen Variable Y: der Effekt von X auf Y ist
also indirekt.

Statistisch nennt man Z genau dann eine


Mediatorvariable, wenn:

Y = b1 X

b1 signifikant ist
b2 signifikant ist
b3 signifikant ist
b3* signifikant ist
die Vorhersage von Y durch X und Z den
Einfluss von X signifikant reduziert: b1* < b1

Z = b2 X
Y = b3 Z
Y = b1* X + b3* Z
Zeitdruck

emails schreiben

Magengeschwr

Hans-Rdiger Pfister, Gerd Meier

Moderatoren
X*Z
Ein Moderator verndert den Effekt (Richtung
und/oder Strke) von X auf Y, d.h. Z wirkt
zusammen mit X auf Y.

Statistisch nennt man Z eine Moderatorvariabale,


wenn die Interaktion zwischen X und Z signifikant
ist.
Der Interaktionsterm im Regressionsmodell wird
als Produkt von X und Z abgebildet.

Y = b1 X + b2 Z + b3 ( X Z )
Rauchen * fettes Essen
fettes Essen

Rauchen

Bluthochdruck

Hans-Rdiger Pfister, Gerd Meier

Suppressorvariablen
Z
.70

Manchmal kommt es vor, dass ein Prdiktor Z, der


mit dem Kriterium nicht korreliert ist, einen hohen
signifikanten und meist negativen
Regressionskoeffizienten bZ erhlt, sofern er
zusammen in einem Modell mit einem weiteren
Prdiktor X benutzt wird.

.00

Y
.60

Einen solchen Prdiktor Z nennt man eine


Suppressorvariable.
Ein Suppressor Z unterdrckt Varianzanteile in
anderen Prdiktoren X, die nicht mit dem Kriterium
Y korreliert sind. Obwohl er also selbst nicht mit
dem Kriterium korreliert, erhht ein Suppressor die
Vorhersagekraft des gesamten Regressionsmodells
Y = X + Z.

Prfungsangst
.00

.70

by.x = 1.18
Diplomnote

.60

Berufserfolg

by.z = -0.82

Hans-Rdiger Pfister, Gerd Meier

10