Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Régression linéaire
http://www.ea3888.univ-rennes1.fr
Positionnement
si fluctuations statistiques
à une valeur d'une des variables correspond une distribution des
valeurs de l'autre variable
http://www.ea3888.univ-rennes1.fr
Représentation graphique
http://www.ea3888.univ-rennes1.fr
Correlation et régression
http://www.ea3888.univ-rennes1.fr
Correlation
http://www.ea3888.univ-rennes1.fr
Représentation graphique
http://www.ea3888.univ-rennes1.fr
Notion de covariance
http://www.ea3888.univ-rennes1.fr
4 couples de valeurs x et y
μy
X
μx
http://www.ea3888.univ-rennes1.fr
4 couples de valeurs x et y
I II
μy
III IV
X
μx
http://www.ea3888.univ-rennes1.fr
Les distances de chaque point à l’axe des moyennes μy et μx
Y représentent les écarts aux moyennes
(x – μx)
(y – μy)
μy
X
μx
I
http://www.ea3888.univ-rennes1.fr
Les aires des rectangles représentante les produits des écarts de chaque couple
μy
IV
X
μx
Les rectangles verts dans les zones I et IV représentent les produits négatifs
http://www.ea3888.univ-rennes1.fr
Y
II
+
μy
III
X
μx
Les rectangles Mauves dans les zones II et III représentent les produits Positifs
http://www.ea3888.univ-rennes1.fr
La covariance peut être illustrée par la somme des aires des rectangles
I II
- +
μy
+ -
III IV
X
μx
http://www.ea3888.univ-rennes1.fr
On définit la covariance :
σ XY =
∑ (x − μ i X )( yi − μY )
N
3 cas de figure
1 er cas : pas de liaison en X et Y
Les points sont répartis uniformement dans les quandrants
Les aires se compensent :
∑(x − μ i X )( yi − μY ) = 0
http://www.ea3888.univ-rennes1.fr
1 er cas : pas de liaison en X et Y
Les points sont répartis uniformément dans les quadrants
Les aires se compensent : (y – μy)(x – μx) = 0
Y
σ XY =
∑ (x − μ i X )( yi − μY )
=0
N
I II
- +
+ -
III IV
http://www.ea3888.univ-rennes1.fr
Ici, la somme des aires est positive, la covariance est positive.
Î Il semble exister une liaison positive entre X et Y,
Î plus X est élevé,
- plus Y est élevé
Y
σ XY =
∑ (x − μi X )( yi − μY )
>0
N
I II
+
-
-
+
III IV
http://www.ea3888.univ-rennes1.fr
Ici, la somme des aires est négative, la covariance est négative.
Î Il semble exister une liaison négative entre X et Y,
Î plus X est élevé, plus Y est bas
(y – μy)(x – μx) < 0
Y
σ XY =
∑ (x − μ i X )( yi − μY ) <0
N
I II
-
+
+
-
III IV
http://www.ea3888.univ-rennes1.fr
Coefficient de correlation
σ XY =
∑ (x − μ i X )( yi − μY )
N
Elle ne se prête donc pas à l’analyse statistique
Pour calculer ρ le coefficient de corrélation, on divise
par le produit des écarts types de chaque distribution. On
obtient un coefficient sans unité.
Soit : σ XY
ρ=
σ XσY
http://www.ea3888.univ-rennes1.fr
La covariance entre X et Y pour une population de N sujets
dont les valeurs pour les variables X et Y sont (xi,yi) vaut :
σ XY =
∑ (x − μ i X ) ( yi − μ Y )
N
Comme on a
σX 2
=
∑ (x − μi X )
N
σY 2 = ∑ ( yi − μY )
N
Après simplification on a :
ρ= ∑(x − μ i X )( yi − μY )
∑(x − μ i X ) 2
( y i − μY ) 2
http://www.ea3888.univ-rennes1.fr
Interprétation de ρ
ρ>0 ρ<0
ρ=0
http://www.ea3888.univ-rennes1.fr
Propriété de ρ
http://www.ea3888.univ-rennes1.fr
Propriété de ρ
http://www.ea3888.univ-rennes1.fr
Si X et Y sont indépendantes alors ρ=0
L’inverse n’est pas vrai :
Si ρ~0, les variables peuvent soient être indépendantes mais
aussi être liées (mais non linéairement)
On peut seulement affirmer que les variables X et Y ne sont pas
liées linéairement
http://www.ea3888.univ-rennes1.fr
Estimation ρ Î r
cov XY =
∑ (x − m i X )( yi − mY )
n −1
n −1
x
s 2y =
∑ i y
( y − m ) 2
n −1
http://www.ea3888.univ-rennes1.fr
Après simplification par (n-1) on obtient pour un échantillon
de n sujet où les couples de valeurs de X et Y observés sont
(xi,yi)
∑ ( x − m )( y
i x i − my )
r= i =1
n n
∑ i x ∑ i y
( x
i =1
− m ) 2
( y − m ) 2
i =1
http://www.ea3888.univ-rennes1.fr
Autres formules
1
∑ xi yi − n (∑ xi )(∑ yi )
r=
⎡ 1 2 ⎤⎡ 1 2⎤
⎢⎣∑ xi − n ( ∑ xi ) ⎥⎦ ⎢⎣∑ yi − n ( ∑ yi ) ⎥⎦
2 2
r=
∑ xy i i − n.mx .m y
( n − 1) s s 2 2
x y
http://www.ea3888.univ-rennes1.fr
Exemple
http://www.ea3888.univ-rennes1.fr
Pour 63 nouveau nés, on a relevé le poids maternel avant
grossesse (X), et paternel (Y) en kilogramme.
On donne :
Σxi=3 644 Σyi=4 729
Σxi2=217 502 Σyi2=363 527
Σxiyi= 275 480
Calculer r
http://www.ea3888.univ-rennes1.fr
On donne :
Σxi=3 644 Σyi=4 729
Σxi2=217 502 Σyi2=363 527
Σxiyi= 275 480
1
∑ i i n (∑ xi )(∑ yi )
x y −
r=
⎡ 1 2 ⎤⎡ 1 2⎤
⎢⎣ ∑ xi
2
−
n
( ∑ xi ) ⎥⎦ ⎢⎣ ∑ y i
2
−
n
( ∑ y i ) ⎥⎦
1
275480 − 4729 × 3644
63 1948,63
r= = = 0,26
1 1 7585,49
( 217502 − 36442 )(363527 − 47292 )
63 63
http://www.ea3888.univ-rennes1.fr
Interpretation
r = 0,20 à 0,40 : faible ou quasi absence de correlation
r = 0,40 à 0,60 : moyenne correlation
r = 0,60 à 0,80 : bonne corrélation;
r = 0,80 : corrélation élevée.
http://www.ea3888.univ-rennes1.fr
Pour comprendre une valeur de r lorsque il n’est ni proche
de 1 ni de 0 ?
r2 matérialise la force de la corrélation
Représente le % de variance que perd une des deux
variables quand l’autre est fixée.
Diagramme de Venn :
Cercle = variables
Pourcentage de surface commune = r2
Plus le recouvrement est important, plus les variables sont
liées :
X Y X Y
X Y
http://www.ea3888.univ-rennes1.fr
Test du coefficient de correlation
Attention: rectification
2 types de constructions de tables dans les ouvrages
Î changement dans les hypothèses Ho et H1
Au concours : 1 seule type de table
r n−2
Le test consiste à calculer
to =
1− r 2
http://www.ea3888.univ-rennes1.fr
Conditions d’applications :
La régression entre X et Y est linéaire
Une des deux distribution conditionnelles normales et de
variance constante.
Les distributions de Y liées à chaque valeur de X doivent être
normales et de variance constante.
Symétriquement, Les distributions de X liées à chaque valeur
de Y doivent être normales et de variance constante.
http://www.ea3888.univ-rennes1.fr
Les observation pour chaque variable doivent être
indépendantes les unes des autres.
Ex : comparaison des données Y en fonction du temps X
Les données de la veille ne sont pas indépendantes des
données du lendemain.
Il ya auto-correlation Î nécessite d’autres techniques
d’analyse.
http://www.ea3888.univ-rennes1.fr
Exemple
On cherche a trouver voir s’il existe une corrélation entre les poids
maternels et paternels
r=0,26 pour un échantillon de 63 sujets
r n−2 0,26 61
to = to = = 2,10
1− r 2
1 − 0,26 2
http://www.ea3888.univ-rennes1.fr
Régression
http://www.ea3888.univ-rennes1.fr
La régression permet d’étudier l’association entre deux
variables quantitatives
Définition
Pour décrire le lien entre deux variables X et Y, la régression
consiste à décrire au mieux la façon dont Y varie en fonction de
X.
http://www.ea3888.univ-rennes1.fr
Ù à décrire la distribution de Y pour chaque valeur de X.
Il existe un lien entre X et Y si la distribution varie selon les
valeurs de X
Et au contraire. Il n’existe pas de lien entre X et Y si la
distribution d’Y reste la même quelque soit la valeur de X.
E (Y / x ) = μY / x
V (Y / x ) = σ 2
Y /x
http://www.ea3888.univ-rennes1.fr
Si il existe une association entre X et Y,
la distribution conditionnelle de Y varie selon les valeurs de X
μY / x
Dépendent de x
σ 2
Y /x
f ( x) = E(Y / x)
http://www.ea3888.univ-rennes1.fr
Exemple
Terme
(semaine)
Poids moyen de naissance
(grammes) Termes de naissances (X) et les
27 1146,92 poids de naissance (Y) d’une
28 1292,73 POPULATION de nouveau né
29 1694,52 Seule 17 valeurs sont indiquées
30 1892,00
Chaque valeur est la moyenne du
31 1986,11
poids conditionnelle au terme
32 2000,34
E(Y|x)
33 2119,46
34 2290,85
35 2569,11
36 2800,77
37 3019,50
38 3210,61
39 3364,59
40 3475,05
41 3553,32
42 3582,63
43 3604,81
http://www.ea3888.univ-rennes1.fr
Exemple
http://www.ea3888.univ-rennes1.fr
Cas de la régression linéaire
f ( x ) = E (Y / x ) = α + βx
yˆ = α + βx
On note plus simplement ŷ la valeur moyenne de Y
pour la sous population des sujets tels que X=x.
http://www.ea3888.univ-rennes1.fr
La droite de régression
permettant de mieux
représenter les points est :
ŷ= - 3115,6 + 162,30 x
http://www.ea3888.univ-rennes1.fr
Dans le cadre d’une régression linéaire Î 2 tâches à
réaliser :
Estimer α et β à partir des données
http://www.ea3888.univ-rennes1.fr
Comment interpréter β et α
ŷ= - 3115,6 + 162,30 x
http://www.ea3888.univ-rennes1.fr
Droite de régression
(xi,yi)
X
http://www.ea3888.univ-rennes1.fr
La droite de regression
(xi,yi) Y= α+βX est parmi
toutes les droites
possible celle qui
(yi-ŷi) résume le mieux ce
nuage de point
C’est-à-dire celle dont
les points du nuage sont
en moyenne les plus
Y= α+βX proches.
Cette proximité des
(xi, ŷi) points à la droite se
mesure par la distance
verticale (yi-ŷi) entre le
point observé (xi,yi) et le
point cerrespondant sur
la droite (xi, ŷi)
http://www.ea3888.univ-rennes1.fr
(xi,yi)
Y= α+βX
(yi-ŷi)
(xi, ŷi)
http://www.ea3888.univ-rennes1.fr
La distance de la droite à l’ENSEMBLE des points est par
définition la somme des carrés des distances de chaque
point à la droite : SCE
La droite de régression est celle qui correspond à la
distance minimum à l’ensemble des points
C’est à dire à la valeur minimum de SCE
C’est la droite des moindre carrés.
Or comme on a yˆ i = α + βxi
SCE = ∑i =1 ( yi − α − β xi )
Il vient n 2
http://www.ea3888.univ-rennes1.fr
L’estimation des coefficients de la droites de régression à
partir d’un ECHANTILLON de n sujets pour lesquels on a n
paires d’observations (x1,y1),…,(xn,yn) est obtenu en prenant
les valeurs a et b qui correspondant au minimum de SCE
1
∑ xi yi − n (∑ xi )(∑ yi ) ∑ ( x − m )( y − m )
b= = i x i y
∑i n∑i
x 2
−
1
( x ) 2 ∑(x − m )
i x
2
a=
∑ y i
−b
∑ x i
= m y − bmx
n n
http://www.ea3888.univ-rennes1.fr
Pour les calculs:
b=
∑ xy i i − nmx m y
( n − 1) s 2
x
http://www.ea3888.univ-rennes1.fr
EXEMPLE
http://www.ea3888.univ-rennes1.fr
A partir du tableau on donne les valeurs pré-calculées
63 suivantes :
∑y
i =1
i = 213.000
63
∑x i = 3.644
1
∑ xi yi − n (∑ xi )(∑ yi )
i =1
63
∑ i = 743.130.000
y 2
b=
1
i =1
63 ∑i n∑i
x 2
− ( x ) 2
∑ i = 217.502
x 2
i =1
63
∑x y i i = 12.486.100
i =1 1
12.486.100 − 3.644 × 213.000
63 160.125,40
b= = = 23,80
1 6.728,41
217.502 − (3.644) 2
63
http://www.ea3888.univ-rennes1.fr
a=
∑ y i
−b
∑ x i
n n
213.100 3.644
a= − 23,80 × = 2.006
63 63
http://www.ea3888.univ-rennes1.fr
La droite de régression du poids de naissance sur le poids
maternel est donc :
yˆ = 2.006 + 23,80 x
http://www.ea3888.univ-rennes1.fr
TEST DE LA PENTE DE LA DROITE DE
REGRESSION
On rappelle que si β =0
Alors E(Y/x)= α
Y ne dépend pas alors de X
Il n’y a pas de lien en moyenne entre Y et X
http://www.ea3888.univ-rennes1.fr
Si les conditions précédentes sont remplies
On calcule la quantité
b
to =
sb2
2
⎛ sy ⎞
⎜ ⎟ − b2
⎜s ⎟
avec sb =
2 ⎝ x ⎠
n−2
http://www.ea3888.univ-rennes1.fr
On compare to à la valeur seuil au risque α de la loi de
student à n-2 ddl
On rejette Ho si |to|>=tn-2;α
http://www.ea3888.univ-rennes1.fr
Exemple
63
∑y i = 213000 ∑ i
( x 2
) − ∑ ( xi ) 2
217 . 502 −
1
3644 2
i =1 sx =
2 n = 63 = 108,52
63 n −1 62
∑x i = 3644
1
i =1
743.130.000 − 2131002
63
sy =
2 63 = 359.851,51
∑y
i =1
2
i = 743.130.000 62
63
∑x
i =1
2
i = 217.502
2
⎛ sy ⎞
⎜ ⎟ − b2 ( 359.851,51) − 23,802
⎜s ⎟
sb =
2 ⎝ x ⎠
=
108,52
= 45,07
n−2 61
http://www.ea3888.univ-rennes1.fr
On calcule to
b 23,80
to = = = 3,54
sb2 45,07
http://www.ea3888.univ-rennes1.fr
L’échantillon fait 63 sujets. On consulte la table de student
avec n-2 cad 61 ddl
http://www.ea3888.univ-rennes1.fr
Le degré de signification est p=(P|t61|>3,54)
La table indique que p=0,01
Comment interpréter le test de la pente
Y Y
X X
Y Y
X X
http://www.ea3888.univ-rennes1.fr
Précision de la droite de régression
b=
∑ xy i i − nmx m y
( n − 1) sx2
2
⎛ sy ⎞
⎜ ⎟ − b2
⎜s ⎟
sb = ⎝ ⎠
2 x
On connaît par ailleurs la variance de b
n−2
On peut alors calculer l’intervalle de confiance de la pente
de la droite de régression :
b ± tn −2,α s 2
b
http://www.ea3888.univ-rennes1.fr
exemple
Exemple précédent :
La pente de la régression du poids de naissance sur le
poids maternel est b=23,80.
Sa variance est s2b=45,07
La limite à 5% de t à 61dll est ~ 2 L’intervalle de confiance
vaut :
http://www.ea3888.univ-rennes1.fr
Relation entre r et b
sx
r=b
sy
http://www.ea3888.univ-rennes1.fr
Spearman
http://www.ea3888.univ-rennes1.fr
Test du coefficient de correlation des
rangs de spearman
http://www.ea3888.univ-rennes1.fr
On ne s’intéresse plus aux valeurs mais à leur rang.
On appelle rang le numéro d’ordre d’une valeur après
classement de la variable par ordre croissant.
Sur la série 1,4,5,8 la valeur 5 a pour rang 3, et la valeur 8 a
pour rang 4. En cas d’ex aequo on attribut le rang moyen à
chacun d’eux
On définit x’i et y’i les rangs des valeurs observées
On définit rs le coefficient de corrélation des rangs de Spearman
6∑ ( x ' − y ' )
2
r = 1− i i
n( n − 1)
s 2
1− r 2
sr = s
http://www.ea3888.univ-rennes1.fr
n−2
Le test de Spearman consiste à calculer to
rs
to =
sr
Et à la comparer à une valeur théorique :
Test bilatéral :Ho : ρ=0 et H1 : ρ=/=0
on rejette Ho si
o t ≥t
n − 2 ;α
http://www.ea3888.univ-rennes1.fr
Exemple
Taille (x) 82,9 83,4 82,4 82,1 84,8 86,7 84,0 89,0 85,0 85,4 87,7 87,7 86,4 86,4 86,9
Poids
8,7 9,2 9,5 10,1 10,4 10,5 10,8 11,0 11,5 11,6 12,4 13,6 13,8 13,9 14,6
(y)
http://www.ea3888.univ-rennes1.fr
Conditions d’application vérifiées :
Le nombre de couples de valeurs >10
Indépendances
Pas d’exigence sur la normalité ni sur la linéarité
On pose
Ho : il n’existe aucune corrélation entre la taille et le poids
H1 : il existe une relation entre taille et poids
http://www.ea3888.univ-rennes1.fr
Taille (x) 82,9 83,4 82,4 82,1 84,8 86,7 84,0 89,0 85,0 85,4 87,7 87,7 86,4 86,4 86,9
valeurs
82,1 82,4 82,9 83,4 84 84,8 85 85,4 86,4 86,4 86,7 86,9 87,7 87,7 89
http://www.ea3888.univ-rennes1.fr
Taille (x) 82,9 83,4 82,4 82,1 84,8 86,7 84,0 89,0 85,0 85,4 87,7 87,7 86,4 86,4 86,9
valeurs
82,1 82,4 82,9 83,4 84 84,8 85 85,4 86,4 86,4 86,7 86,9 87,7 87,7 89
1 2 3 4 5 6 7 8
Affecter les
rangs
http://www.ea3888.univ-rennes1.fr
Taille (x) 82,9 83,4 82,4 82,1 84,8 86,7 84,0 89,0 85,0 85,4 87,7 87,7 86,4 86,4 86,9
valeurs
(8+11)/2=9,5 (12+15)/2=13,5
Affecter les
rangs
http://www.ea3888.univ-rennes1.fr
valeurs
rangs
x 82,9 83,4 82,4 82,1 84,8 86,7 84,0 89,0 85,0 85,4 87,7 87,7 86,4 86,4 86,9
Taille
x’ 3 4 2 1 6 11 5 15 7 8 13,5 13,5 9,5 9,5 12
y 8,7 9,2 9,5 10,1 10,4 10,5 10,8 11,0 11,5 11,6 12,4 13,6 13,8 13,9 14,6
Poids
y’ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
valeurs
rangs
http://www.ea3888.univ-rennes1.fr
x’ 3 4 2 1 6 11 5 15 7 8 13,5 13,5 9,5 9,5 12
y’ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
∑ ( x ' − y ' ) 2
= 155
6 ∑ ( x 'i − y 'i )
2 (6 × 155)
rs = 1 − rs = 1 − = 0,72
n( n 2 − 1) 15 × (15 − 1)
2
1− r 2
(1 − 0,722 )
sr = s sr = = 0,19
n−2 (15 − 2)
http://www.ea3888.univ-rennes1.fr
0 ,72
to = = 3,79
0 ,19
ddl = 15 − 2 = 13
Or t13;5%=2,160
to>t13;5%
On rejette Ho.
La valeur t est encore supérieure à t13;1%
On conclut donc qu’il existe une liaison
positive significative entre la taille et le
poids des enfants de 2 ans (p<0,01)