Está en la página 1de 32

Corrélation et régression linéaire simple

1. La corrélation
2. La régression linéaire simple
Introduction

Etude de la relation entre deux variables quantitatives:

Nuage de points: -description de


l’association linéaire:
corrélation, régression
linéaire simple
Y
- explication /
prédiction d’une
variable à partir de
l’autre: modèle linéaire
X simple
La corrélation

Statistique descriptive de la relation entre X et Y: variation


conjointe
1. La covariance

Dans l’échantillon:

1 n
cov(x, y)   x i y i  xy
n i1
Estimation pour la population: n
1
cov(x, y)  
ˆ xy  
n 1 i1
(x i  x )(y i  y )
 n
1 n
cov(x, y)  
n 1 i1
x y
i i 
n 1
xy
La corrélation
Covariance et nuage de points
(x i  x )  0
<0 (y i  y )  0
Contribution > 0
y

 < 0
>0

 x


La corrélation
2. Le coefficient de corrélation linéaire

« de Pearson »
s xy
Dans l’échantillon: rxy 
sx2 s 2y

sxy
Estimation pour la population: 
ˆ xy  rxy 
sx2 sy2


La corrélation
2. Le coefficient de corrélation linéaire
Indice de covariance absolu: -1 ≤ r ≤ 1

X2 X2 X2

r = 0.9 r = 0.5 r=0

X2 X2 X2

r = -0.9 r = -0.5 r=0

X1
La corrélation
3. Conditions d’utilisation
Normalité
La loi de probabilité du couple (X,Y)
f(x,y)dxdy = P(x ≤ X ≤ x+dx, y ≤ Y ≤ y+dy)
est une loi normale à deux dimensions:
Notamment, pour chaque valeur de X, les valeurs
de Y sont normalement distribuées et vice-versa.
r=0
r = 0.8
La corrélation
3. Conditions d’utilisation

Homoscédasticité
Y

Homoscédasticité
La variance de Y est
indépendante de X et vice-
versa.

Hétéroscédasticité

X
La corrélation

3. Conditions d’utilisation

Linéarité

La relation est linéaire

Y Y

Linéarité Non-linéarité

X X
La corrélation

Non respect des conditions d’utilisation


60 1.8

1.7
50
FKLNGTH

1.6

LFKL
40
1.5

30
1.4

20 1.3
0 10 20 30 40 50 0.5 1.0 1.5 2.0
AGE LAGE

Relation âge - longueur chez l’esturgeon: transformation log-log;


Alternative: utiliser la corrélation non paramétrique
La corrélation

4. Tests de la corrélation

a. Distribution d’échantillonnage du coefficient de corrélation


linéaire

Lorsque les conditions d’utilisation (binormalité,


homoscédasticité, linéarité) sont remplies,

sous Ho:  = 0: R n 2
: Tn2 (Student)
2
1 R

Attention, sous Ha:  ≠ 0: distribution complexe


La corrélation

4. Tests de la corrélation

b. Test de  = 0

H 0 :   0 Absence de relation linéaire (mais pas



H a :   0 absence de relation y compris causale)

r n2
Sous Ho: t obs   t n2,
2
 1 r

Si H0 est rejetée: corrélation ≠ causalité


La régression linéaire simple

Description de la relation entre


X et Y: « courbes de niveau »
du nuage de points.
Si (X,Y) suit une loi binormale:
ellipses.

X
La régression linéaire simple
Courbes de régression
E(X/Y)

Description de la relation: E(Y/X)


densité de probabilité de Y
conditionnellement à X: Y

f x x 0 (y)dy  P(y  Y  y  dy / X  x 0 )

Courbe de régression = E(Y/X) et E(X/Y) X

Si (X,Y) binormale alors les courbes de régression sont des droites

- X et Y tiennent un rôle symétrique !


- Plusieurs courbes possibles
La régression linéaire simple
1. Le modèle

On suppose: y = f(x) = a + bx

Modèle: Yi = a + bXi + ei avec, pour X = xi, Yi : N(a+bxi, )

X = variable explicative
(« indépendante »), contrôlée
Y = variable expliquée
(dépendante ), aléatoire Y

Relation de causalité ≠
interdépendance
X
La régression linéaire simple
2. L’estimation des paramètres

a? b?
Méthode d’estimation: les moindres carrés:

yi Mi
ei y = a+bx
yˆ i
M’i
ei = yi - (a + bxi)
Y

 i
e 2
minimale

X xi
La régression linéaire simple
2. L’estimation des paramètres

Méthode des moindres carrés

n
On cherche le minimum de  i    E ( a , b)
2
( y ( a bxi ))
i 1

 E n

   2(y i  (a  bx i ))(1)  0 (1)


 a i1

 E
n
  2(y  (a  bx ))(x )  0 (2)
 
b i1
i i i
La régression linéaire simple
2. L’estimation des paramètres

Méthode des moindres carrés

n n n
(1)   y i   (a  bx i )  na  b x i
i1 i1 i1

ny  na  nbx

 a  y  bx

La régression linéaire simple
2. L’estimation des paramètres

Méthode des moindres carrés

n(cov(x, y)  xy )  (y  bx )nx  bn(sx2  x 2 )  0


cov(x, y)
cov(x, y)  bs 2
x b
sx2
 Si y = a+bx alors
ˆb  cov(x, y) et aˆ  y  bx
2
sx
On 
peut alors prédire y pour x 
compris dans l’intervalle des
valeurs de l’échantillon: yˆ i  aˆ bˆ x i

La régression linéaire simple

3. Qualité de l’ajustement

On a supposé: Yi = a + bXi + ei avec


pour X = xi, Yi : N(a+bxi, )

- distribution normale des erreurs


- variance identique (homoscédasticité)
- indépendance: cov(ei ,e j )  0
- linéarité de la relation

Test a posteriori : étude du nuage de points/ du


graphedes résidus
La régression linéaire simple
3. Qualité de l’ajustement

Normalité de l’erreur
Résidus

Valeurs prédites

Questions à se poser: structure de l’erreur?


Valeurs extrêmes: ont-elles un sens biologique? Influencent-
elles l’estimation des paramètres?
La régression linéaire simple
3. Qualité de l’ajustement

Homoscédasticité
Résidus

Valeurs prédites

Possibilité de transformation: attention aux transformations ad hoc


La régression linéaire simple
3. Qualité de l’ajustement

Indépendance entre erreurs, linéarité


Résidus

Structure de l’erreur?
Résidus

Relation non linéaire?


La régression linéaire simple

4. Coefficient de détermination

Décomposition de la variation

Quelle part de la variabilité de Y est expliquée par la relation


linéaire avec X?

Variabilité? Somme des Carrés des Ecarts SCE:

n
SCE T   (y i  y )  ns 2 2
y
i1
La régression linéaire simple

4. Coefficient de détermination

Décomposition de la variation

Y
= +

SCE Totale SCE reg.lin. (Expliquée) SCE hors reg.lin. (erreur)


N N N
 (Yi  Y ) 2
=  (Yi  Y ) 2
+  (Yi  Yi )2
i 1 i 1 i 1
La régression linéaire simple

4. Coefficient de détermination

La décomposition de la SCE permet d’estimer la part de SCE


de Y expliquée par la régression:

SCE reg.lin.
r 
2
Coefficient de détermination
SCE T

0 ≤ r2 ≤ 1

 Relation avec r?
La régression linéaire simple

4. Coefficient de détermination

Relation entre r et r2
n n
SCE reg.lin.   ( yˆ i  y ) 2   ((a  bx i )  (a  bx )) 2
i1 i1
n
 b 2  (x i  x ) 2  b 2 nsx2  b 2 SCE x
i1

 2 2 2 2
b ns cov(x, y) s (cov(x, y))
Donc r 
2
2
x
( 2
) 2
2 x
2 2
 (r) 2

nsy sx sy sx sy

En particulier, r = 0 <=> r2 = 0
La régression linéaire simple
5. Tests
Test de la décomposition de la variation ou analyse de
variance (ANOVA): H0 : 2 = 0
 reg.lin.
2
SCE reg.lin. /1
 : F 1

 horsreg.lin. SCE horsreg.lin. /(n  2)


2 n2

SCE reg.lin. /1 r 2 SCET r n 2 2


NB:  ( )
SCE horsreg .lin. /(n  2) (1 r )SCE T /(n  2)
2
1 r 2


SCE reg.lin. /1 r n2
1
: Fn 2
numériquement : Tn2
SCE horsreg.lin. /(n  2) équivalent à 1 r 2
La régression linéaire simple
Test sur la pente

Principe des tests sur les paramètres: : Tn2
sˆb
bˆ bˆ
Ici:  : Tn2
sˆb (1 r 2 )sy2
Ho: b = 0
(n  2)sx2 
bˆ  2
NB: cov(x, y) (n 2)s r n2
 2
x

2 2
(1 r )sy sx 2
(1 r )sy2
1 r 2
 (n  2)sx2
Les tests de nullité de b, r et r2 sont numériquement équivalents
La régression linéaire simple

Autres tests

- comparaison de la pente à une valeur non nulle

- comparaison de l’ordonnée à l’origine à une valeur


quelconque

- comparaison de pentes
La régression linéaire simple

Bilan

X et Y aléatoires X contrôlée, Y aléatoire


Question
Y a-t-il un lien? Corrélation Explication de Y par X:
Quel lien? Régression Modèle linéaire simple

Modèle
(X,Y) binormal => Y = a + bx + e
linéarité des régressions
Dy/x : a, b Pour X = xi, Yi : N(a+bxi, )
Dx/y : c, d
La régression linéaire simple

Bilan

X et Y aléatoires X contrôlée, Y aléatoire

Lien r: paramètre de la R2 : part de variation de


distribution de (X,Y) Y expliquée par X

Tests
- test de  - test de r2: ANOVA
-Tests sur les pentes b
et d r 2 (n  2)
2
 F 1
n2
1 r
- test sur la pente

También podría gustarte