Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. La corrélation
2. La régression linéaire simple
Introduction
Dans l’échantillon:
1 n
cov(x, y) x i y i xy
n i1
Estimation pour la population: n
1
cov(x, y)
ˆ xy
n 1 i1
(x i x )(y i y )
n
1 n
cov(x, y)
n 1 i1
x y
i i
n 1
xy
La corrélation
Covariance et nuage de points
(x i x ) 0
<0 (y i y ) 0
Contribution > 0
y
< 0
>0
x
La corrélation
2. Le coefficient de corrélation linéaire
« de Pearson »
s xy
Dans l’échantillon: rxy
sx2 s 2y
sxy
Estimation pour la population:
ˆ xy rxy
sx2 sy2
La corrélation
2. Le coefficient de corrélation linéaire
Indice de covariance absolu: -1 ≤ r ≤ 1
X2 X2 X2
X2 X2 X2
X1
La corrélation
3. Conditions d’utilisation
Normalité
La loi de probabilité du couple (X,Y)
f(x,y)dxdy = P(x ≤ X ≤ x+dx, y ≤ Y ≤ y+dy)
est une loi normale à deux dimensions:
Notamment, pour chaque valeur de X, les valeurs
de Y sont normalement distribuées et vice-versa.
r=0
r = 0.8
La corrélation
3. Conditions d’utilisation
Homoscédasticité
Y
Homoscédasticité
La variance de Y est
indépendante de X et vice-
versa.
Hétéroscédasticité
X
La corrélation
3. Conditions d’utilisation
Linéarité
Y Y
Linéarité Non-linéarité
X X
La corrélation
1.7
50
FKLNGTH
1.6
LFKL
40
1.5
30
1.4
20 1.3
0 10 20 30 40 50 0.5 1.0 1.5 2.0
AGE LAGE
4. Tests de la corrélation
sous Ho: = 0: R n 2
: Tn2 (Student)
2
1 R
4. Tests de la corrélation
b. Test de = 0
r n2
Sous Ho: t obs t n2,
2
1 r
X
La régression linéaire simple
Courbes de régression
E(X/Y)
f x x 0 (y)dy P(y Y y dy / X x 0 )
On suppose: y = f(x) = a + bx
X = variable explicative
(« indépendante »), contrôlée
Y = variable expliquée
(dépendante ), aléatoire Y
Relation de causalité ≠
interdépendance
X
La régression linéaire simple
2. L’estimation des paramètres
a? b?
Méthode d’estimation: les moindres carrés:
yi Mi
ei y = a+bx
yˆ i
M’i
ei = yi - (a + bxi)
Y
i
e 2
minimale
X xi
La régression linéaire simple
2. L’estimation des paramètres
n
On cherche le minimum de i E ( a , b)
2
( y ( a bxi ))
i 1
E n
n n n
(1) y i (a bx i ) na b x i
i1 i1 i1
ny na nbx
a y bx
La régression linéaire simple
2. L’estimation des paramètres
3. Qualité de l’ajustement
Normalité de l’erreur
Résidus
Valeurs prédites
Homoscédasticité
Résidus
Valeurs prédites
Structure de l’erreur?
Résidus
4. Coefficient de détermination
Décomposition de la variation
n
SCE T (y i y ) ns 2 2
y
i1
La régression linéaire simple
4. Coefficient de détermination
Décomposition de la variation
Y
= +
4. Coefficient de détermination
SCE reg.lin.
r
2
Coefficient de détermination
SCE T
0 ≤ r2 ≤ 1
Relation avec r?
La régression linéaire simple
4. Coefficient de détermination
Relation entre r et r2
n n
SCE reg.lin. ( yˆ i y ) 2 ((a bx i ) (a bx )) 2
i1 i1
n
b 2 (x i x ) 2 b 2 nsx2 b 2 SCE x
i1
2 2 2 2
b ns cov(x, y) s (cov(x, y))
Donc r
2
2
x
( 2
) 2
2 x
2 2
(r) 2
nsy sx sy sx sy
En particulier, r = 0 <=> r2 = 0
La régression linéaire simple
5. Tests
Test de la décomposition de la variation ou analyse de
variance (ANOVA): H0 : 2 = 0
reg.lin.
2
SCE reg.lin. /1
: F 1
SCE reg.lin. /1 r n2
1
: Fn 2
numériquement : Tn2
SCE horsreg.lin. /(n 2) équivalent à 1 r 2
La régression linéaire simple
Test sur la pente
bˆ
Principe des tests sur les paramètres: : Tn2
sˆb
bˆ bˆ
Ici: : Tn2
sˆb (1 r 2 )sy2
Ho: b = 0
(n 2)sx2
bˆ 2
NB: cov(x, y) (n 2)s r n2
2
x
2 2
(1 r )sy sx 2
(1 r )sy2
1 r 2
(n 2)sx2
Les tests de nullité de b, r et r2 sont numériquement équivalents
La régression linéaire simple
Autres tests
- comparaison de pentes
La régression linéaire simple
Bilan
Modèle
(X,Y) binormal => Y = a + bx + e
linéarité des régressions
Dy/x : a, b Pour X = xi, Yi : N(a+bxi, )
Dx/y : c, d
La régression linéaire simple
Bilan
Tests
- test de - test de r2: ANOVA
-Tests sur les pentes b
et d r 2 (n 2)
2
F 1
n2
1 r
- test sur la pente