RENNES20061124103958 Cuggiacorrelationregression PCEM1

Corrélation et
Régression linéaire
http://www.ea3888.univ-rennes1.fr
Positionnement
variations respectives de plusieurs grandeurs dans une même

population
ex: relation entre poids et taille
courbe associée à la fonction y=f(x)
si la loi est définie, la connaissance de x suffit à déterminer y

relation fonctionnelle (sciences exactes)
si fluctuations statistiques
à une valeur d'une des variables correspond une distribution des
valeurs de l'autre variable
Représentation graphique
Représenter les couples de valeurs (x,y)

Obtention d’un nuage de point
1 individu : Mr Dupont 1,85 m et 74 kg
Correlation et régression
La régression permet d’étudier l’association entre deux

variables quantitatives, en étudiant les variations de l’une
en fonction des valeurs de l’autre.
Le coefficient de corrélation est une mesure d’association

entre deux variables quantitatives faisant jouer des rôles
symétriques aux valeurs.
Les deux variables peuvent être placées indifferement en
abscisse ou en ordonnées)
On cherche à savoir simplement s’il existe une liaison entre
ces deux variables et à quantitfier l’intensité de la liaison
Correlation
X et Y sont des variables quantitatives

Dire que X et Y sont corrélées, c’est affirmer qu’il existe
une liaison entre ces deux variables.
Plus X varie dans un sens, plus Y varie.
Si Y varie dans le même sens, Î la corrélation est positive
Si Y varie dans le sens opposé Î la corrélation est négative
Si X et Y varie indépendamment de l’un de l’autre Î les
variables ne sont pas corrélées.
Représentation graphique
Nuage de points diffus

Ù
Absence de liaison
entre les caractères étudiés
Notion de covariance
Indicateur qui mesure la liaison entre deux variables X et Y

C’est la moyenne des produits des écarts entre X et Y divisé
par leurs moyennes respectives μx et μy
4 couples de valeurs x et y
μy
X
μx
4 couples de valeurs x et y
I II
μy
III IV
X
μx
Les distances de chaque point à l’axe des moyennes μy et μx
Y représentent les écarts aux moyennes
(x – μx)
(y – μy)
μy
X
μx
I
Les aires des rectangles représentante les produits des écarts de chaque couple
(y – μy)(x – μx) < 0

Y
μy
IV
X
μx
Les rectangles verts dans les zones I et IV représentent les produits négatifs
Y
(y – μy)(x – μx) > 0
II
+
μy
III
X
μx
Les rectangles Mauves dans les zones II et III représentent les produits Positifs
La covariance peut être illustrée par la somme des aires des rectangles
I II
- +
μy
+ -
III IV
X
μx
On définit la covariance :
σ XY =
∑ (x − μ i X )( yi − μY )
N
3 cas de figure
1 er cas : pas de liaison en X et Y
Les points sont répartis uniformement dans les quandrants
Les aires se compensent :
∑(x − μ i X )( yi − μY ) = 0
1 er cas : pas de liaison en X et Y
Les points sont répartis uniformément dans les quadrants
Les aires se compensent : (y – μy)(x – μx) = 0
Y
σ XY =
∑ (x − μ i X )( yi − μY )
=0
N
I II
- +
+ -
III IV
Ici, la somme des aires est positive, la covariance est positive.
Î Il semble exister une liaison positive entre X et Y,
Î plus X est élevé,
- plus Y est élevé
(y – μy)(x – μx) > 0
Y
σ XY =
∑ (x − μi X )( yi − μY )
>0
N
I II
+
-
-
+
III IV
Ici, la somme des aires est négative, la covariance est négative.
Î Il semble exister une liaison négative entre X et Y,
Î plus X est élevé, plus Y est bas
(y – μy)(x – μx) < 0
Y
σ XY =
∑ (x − μ i X )( yi − μY ) <0
N
I II
-
+
+
-
III IV
Coefficient de correlation
La covariance est le produit de deux termes exprimés en

unités qui peuvent être différentes
σ XY =
∑ (x − μ i X )( yi − μY )
N
Elle ne se prête donc pas à l’analyse statistique
Pour calculer ρ le coefficient de corrélation, on divise
par le produit des écarts types de chaque distribution. On
obtient un coefficient sans unité.
Soit : σ XY
ρ=
σ XσY
La covariance entre X et Y pour une population de N sujets
dont les valeurs pour les variables X et Y sont (xi,yi) vaut :
σ XY =
∑ (x − μ i X ) ( yi − μ Y )
N
Comme on a
σX 2
=
∑ (x − μi X )
N
σY 2 = ∑ ( yi − μY )
N
Après simplification on a :
ρ= ∑(x − μ i X )( yi − μY )
∑(x − μ i X ) 2
( y i − μY ) 2
Interprétation de ρ
ρ>0 ρ<0
ρ=0
Propriété de ρ
Le coefficient de corrélation fait jouer un rôle symétrique à

X et Y
Il ne change pas si on permute X et Y
ρ a le même signe que β, la pente de la droite de régression
de Y en fonction de X
ρ reste inchangé si on change d’unité ou d’origine pour les
X et Y
Propriété de ρ
ρ est toujours compris entre -1 et 1 et ces bornes ne

peuvent être atteintes que si Y = β X + α
ρ permet de mesurer la FORCE DE L’ASSOCIATION entre X et
Y. Plus ρ est proche de +1 ou de -1, plus l’association est forte
Ce n’est pas le cas β qui n’indique rien en elle-même sur la
force de l’association, puisqu’elle dépend totalement du choix
des unités de ces variables
Si X et Y sont indépendantes alors ρ=0
L’inverse n’est pas vrai :
Si ρ~0, les variables peuvent soient être indépendantes mais
aussi être liées (mais non linéairement)
On peut seulement affirmer que les variables X et Y ne sont pas
liées linéairement
Estimation ρ Î r
Le coefficient de corrélation d’un échantillon est noté r.

On l’obtient en remplaçant la covariance et les variances
par leurs estimations.
Estimation de la covariance à partir d’un échantillon de n
individus
cov XY =
∑ (x − m i X )( yi − mY )
n −1
Rappelons l’estimation des variances pour un échantillon

de n individus
s 2
=
∑ (x − m )
2
i x
n −1
x
s 2y =
∑ i y
( y − m ) 2
n −1
Après simplification par (n-1) on obtient pour un échantillon
de n sujet où les couples de valeurs de X et Y observés sont
(xi,yi)
∑ ( x − m )( y
i x i − my )
r= i =1
n n
∑ i x ∑ i y
( x
i =1
− m ) 2
( y − m ) 2
i =1
Autres formules
1
∑ xi yi − n (∑ xi )(∑ yi )
r=
⎡ 1 2 ⎤⎡ 1 2⎤
⎢⎣∑ xi − n ( ∑ xi ) ⎥⎦ ⎢⎣∑ yi − n ( ∑ yi ) ⎥⎦
2 2
r=
∑ xy i i − n.mx .m y
( n − 1) s s 2 2
x y
Exemple
Pour 63 nouveau nés, on a relevé le poids maternel avant
grossesse (X), et paternel (Y) en kilogramme.
On cherche a trouver voir s’il existe une corrélation entre

les poids maternels et paternels
On donne :
Σxi=3 644 Σyi=4 729
Σxi2=217 502 Σyi2=363 527
Σxiyi= 275 480
Calculer r
On donne :
Σxi=3 644 Σyi=4 729
Σxi2=217 502 Σyi2=363 527
Σxiyi= 275 480
1
∑ i i n (∑ xi )(∑ yi )
x y −
r=
⎡ 1 2 ⎤⎡ 1 2⎤
⎢⎣ ∑ xi
2
−
n
( ∑ xi ) ⎥⎦ ⎢⎣ ∑ y i
2
−
n
( ∑ y i ) ⎥⎦
1
275480 − 4729 × 3644
63 1948,63
r= = = 0,26
1 1 7585,49
( 217502 − 36442 )(363527 − 47292 )
63 63
Interpretation
r = 0,20 à 0,40 : faible ou quasi absence de correlation
r = 0,40 à 0,60 : moyenne correlation
r = 0,60 à 0,80 : bonne corrélation;
r = 0,80 : corrélation élevée.
Ici r=0,26 Î faible ou quasi absence de corrélation

Pas de raison, a priori d’avoir des poids de père et de mère
corrélées.
Pour comprendre une valeur de r lorsque il n’est ni proche
de 1 ni de 0 ?
r2 matérialise la force de la corrélation
Représente le % de variance que perd une des deux
variables quand l’autre est fixée.
Diagramme de Venn :
Cercle = variables
Pourcentage de surface commune = r2
Plus le recouvrement est important, plus les variables sont
liées :
X Y X Y
X Y
r=0,9 r=0,6 r=0,3

Test du r
Rappel : r concerne les variables d’un échantillon

Le calcul de r peut être sujet à fluctuation.
Tester r, c’est tenter d’affirmer ou pas que sa valeur est
statistiquement significative et ce avec un risque maîtrisé
(p<0,05)
Même mécanisme que pour les autres test : hypothèses sur
la population
Ho = Hypothèse nulle : ρ=0

H1 = Hypothèse alternative :
ρ=0 (test bilateral)
ρ<0 ou ρ>0 (test unilateral)
Test du coefficient de correlation
Attention: rectification
2 types de constructions de tables dans les ouvrages
Î changement dans les hypothèses Ho et H1
Au concours : 1 seule type de table
r n−2
Le test consiste à calculer
to =
1− r 2
Et à le comparer à la valeur seuil lue dans la table du test t

de student à (n-2) ddl.
La règle de décision du test est :
Test bilatéral :Ho : ρ=0 et H1 : ρ=0

on rejette Ho si
to ≥ tn −2;α
Test unilatéral Ho : ρ=0
H1: ρ>0 on rejette Ho si to ≥ tn −2;2α
H1: ρ<0 on rejette Ho si
to ≥ tn −2; −2α ( = −tn −2;2α )
Conditions d’applications :
La régression entre X et Y est linéaire
Une des deux distribution conditionnelles normales et de
variance constante.
Les distributions de Y liées à chaque valeur de X doivent être
normales et de variance constante.
Symétriquement, Les distributions de X liées à chaque valeur
de Y doivent être normales et de variance constante.
Les observation pour chaque variable doivent être
indépendantes les unes des autres.
Ex : comparaison des données Y en fonction du temps X
Les données de la veille ne sont pas indépendantes des
données du lendemain.
Il ya auto-correlation Î nécessite d’autres techniques
d’analyse.
Exemple
Pour 63 nouveau nés, on a relevé le poids maternel avant grossesse

(X), et paternel (Y) en kilogramme.
On cherche a trouver voir s’il existe une corrélation entre les poids
maternels et paternels
r=0,26 pour un échantillon de 63 sujets
r n−2 0,26 61
to = to = = 2,10
1− r 2
1 − 0,26 2
Rappel en hypothèse bilatérale, on rejette Ho si

or to=2,1 et o t ≥tn − 2 ;α
t61;5%= ? Î on prend le ddl immédiatement au dessous
t40;5%=2,021
Î On rejette Ho
Le coefficient de corrélation entre le poids de la mère et le poids
paternel est significativement différent de 0.
Les conditions d’application sont que
la régression du poids maternel sur le poids de la mère est linéaire.
La distribution conditionnelle de l’une des 2 variables et normale et de
variance constante
Régression
La régression permet d’étudier l’association entre deux
variables quantitatives
Définition
Pour décrire le lien entre deux variables X et Y, la régression
consiste à décrire au mieux la façon dont Y varie en fonction de
X.
Ù à décrire la distribution de Y pour chaque valeur de X.
Il existe un lien entre X et Y si la distribution varie selon les
valeurs de X
Et au contraire. Il n’existe pas de lien entre X et Y si la
distribution d’Y reste la même quelque soit la valeur de X.
La distribution de Y lorsque X est fixé s’appelle la Distribution

conditionnelle de Y par rapport à X.
Il y a autant de distribution conditionnelle que de valeur de X.
Par simplification, on caractérises ces distribution par leurs
moyennes et leurs variances appelées Moyenne et Variances
conditionnelles
E (Y / x ) = μY / x
V (Y / x ) = σ 2
Y /x
Si il existe une association entre X et Y,
la distribution conditionnelle de Y varie selon les valeurs de X
μY / x
Dépendent de x
σ 2
Y /x
Par définition, la fonction de régression de Y en X est la

fonction f décrivant la variation de la moyenne conditionnelle
de Y en fonction de x (μY / x ) .
ce qui s’écrit :
f ( x) = E(Y / x)
Exemple
Terme
(semaine)
Poids moyen de naissance
(grammes) Termes de naissances (X) et les
27 1146,92 poids de naissance (Y) d’une
28 1292,73 POPULATION de nouveau né
29 1694,52 Seule 17 valeurs sont indiquées
30 1892,00
Chaque valeur est la moyenne du
31 1986,11
poids conditionnelle au terme
32 2000,34
E(Y|x)
33 2119,46
34 2290,85
35 2569,11
36 2800,77
37 3019,50
38 3210,61
39 3364,59
40 3475,05
41 3553,32
42 3582,63
43 3604,81
Exemple
Le poids moyen varie en

fonction du terme
Ù il y a une liaison entre
le terme et le poids de
naissance
La courbe de régression
est celle qui joint les
points successifs
La FONCTION de
REGRESSION est la
fonction qui permet de
décrire
mathématiquement cette
courbe
Cas de la régression linéaire
En pratique, on ne recherche pas la forme exacte de la

courbe.
On se contente le plus souvent d’une droite.
La fonction f est alors linéaire et d’équation :
f ( x ) = E (Y / x ) = α + βx
yˆ = α + βx
On note plus simplement ŷ la valeur moyenne de Y
pour la sous population des sujets tels que X=x.
La droite de régression
permettant de mieux
représenter les points est :
ŷ= - 3115,6 + 162,30 x
Sans être strictement

linéaire, la liaison entre le
terme et le poids peut être
représentée par une droite.
Dans le cadre d’une régression linéaire Î 2 tâches à
réaliser :
Estimer α et β à partir des données
Savoir si β =0 car si c’est le cas

E(Y/x)= α Î Y ne dépend pas alors de X (il n’y a pas de lien en
moyenne entre Y et X).
Cela n’est vrai que si la relation entre X et Y est effectivement
linéaire.
La régression linaire permet de tester l’existence d’une liaison

entre 2 variables quantitatives X et Y sous l’hypothèse d’une
relation linéaire.
Comment interpréter β et α
ŷ= - 3115,6 + 162,30 x
β= 162,30 Î augmentation moyenne du

poids de naissance quand le terme
augmente d’une semaine
Augmentation MOYENNE
Les poids de 2 bébés nés à 1 semaine
d’intervalle diffèrent EN MOYENNE de
162,30 g
Cette augmentation correspond au
choix de la régression LINEAIRE
Elle n’est à considérer que sur la
période considérée
α n’a pas d’interprétation concrète.
Ù au poids moyens des nouveau nés
ayant un terme = 0 semaine
Droite de régression
Estimation des coefficients par la méthode des moindres

carrés
Chacun des sujets de la population peut être caractérisé par
un couple de valeurs (x,y) et être représenté par un point.
On obtient un nuage de point
(xi,yi)
X
La droite de regression
(xi,yi) Y= α+βX est parmi
toutes les droites
possible celle qui
(yi-ŷi) résume le mieux ce
nuage de point
C’est-à-dire celle dont
les points du nuage sont
en moyenne les plus
Y= α+βX proches.
Cette proximité des
(xi, ŷi) points à la droite se
mesure par la distance
verticale (yi-ŷi) entre le
point observé (xi,yi) et le
point cerrespondant sur
la droite (xi, ŷi)
(xi,yi)
Y= α+βX
(yi-ŷi)
(xi, ŷi)
La distance de la droite à l’ENSEMBLE des points est par
définition la somme des carrés des distances de chaque
point à la droite : SCE
La droite de régression est celle qui correspond à la
distance minimum à l’ensemble des points
C’est à dire à la valeur minimum de SCE
C’est la droite des moindre carrés.
Pour calculer SCE

SCE = ∑i =1 ( yi − yˆ i ) 2
n
Or comme on a yˆ i = α + βxi
SCE = ∑i =1 ( yi − α − β xi )
Il vient n 2
L’estimation des coefficients de la droites de régression à
partir d’un ECHANTILLON de n sujets pour lesquels on a n
paires d’observations (x1,y1),…,(xn,yn) est obtenu en prenant
les valeurs a et b qui correspondant au minimum de SCE
1
∑ xi yi − n (∑ xi )(∑ yi ) ∑ ( x − m )( y − m )
b= = i x i y
∑i n∑i
x 2
−
1
( x ) 2 ∑(x − m )
i x
2
a=
∑ y i
−b
∑ x i
= m y − bmx
n n
Pour les calculs:
b=
∑ xy i i − nmx m y
( n − 1) s 2
x
EXEMPLE
Pour 63 nouveau nés, on a relevé le poids de naissance et

le poids maternel avant la grossesse en kilogramme
On s’intéresse à la régression du poids de naissance sur le

poids maternel
Dans ce cas X est le poids maternel, et Y le poids de
naissance.
A partir du tableau on donne les valeurs pré-calculées
63 suivantes :
∑y
i =1
i = 213.000
63
∑x i = 3.644
1
∑ xi yi − n (∑ xi )(∑ yi )
i =1
63
∑ i = 743.130.000
y 2
b=
1
i =1
63 ∑i n∑i
x 2
− ( x ) 2
∑ i = 217.502
x 2
i =1
63
∑x y i i = 12.486.100
i =1 1
12.486.100 − 3.644 × 213.000
63 160.125,40
b= = = 23,80
1 6.728,41
217.502 − (3.644) 2
63
a=
∑ y i
−b
∑ x i
n n
213.100 3.644
a= − 23,80 × = 2.006
63 63
La droite de régression du poids de naissance sur le poids
maternel est donc :
yˆ = 2.006 + 23,80 x
TEST DE LA PENTE DE LA DROITE DE
REGRESSION
On rappelle que si β =0
Alors E(Y/x)= α
Y ne dépend pas alors de X
Il n’y a pas de lien en moyenne entre Y et X
Pour tester la pente de la droite de régression, on pose

Hypothèse nulle : Ho: β =0
Hypothèse alternative (bilatérale) H1: β =/=0
Condition d’application du test :

La régression doit être linéaire
X étant fixé, les valeurs Y doivent être indépendantes et leur
distribution normale et de variance constante.
Ex de Pb d’indépendance : supposons que les bébés ont été
pesés 2 fois. Pour X fixé, on a 2 valeurs de Y concernant un
même bébé
Si les conditions précédentes sont remplies
On calcule la quantité
b
to =
sb2
2
⎛ sy ⎞
⎜ ⎟ − b2
⎜s ⎟
avec sb =
2 ⎝ x ⎠
n−2
On compare to à la valeur seuil au risque α de la loi de
student à n-2 ddl
On rejette Ho si |to|>=tn-2;α
Exemple
63
∑y i = 213000 ∑ i
( x 2
) − ∑ ( xi ) 2
217 . 502 −
1
3644 2
i =1 sx =
2 n = 63 = 108,52
63 n −1 62
∑x i = 3644
1
i =1
743.130.000 − 2131002
63
sy =
2 63 = 359.851,51
∑y
i =1
2
i = 743.130.000 62
63
∑x
i =1
2
i = 217.502
2
⎛ sy ⎞
⎜ ⎟ − b2 ( 359.851,51) − 23,802
⎜s ⎟
sb =
2 ⎝ x ⎠
=
108,52
= 45,07
n−2 61
On calcule to
b 23,80
to = = = 3,54
sb2 45,07
L’échantillon fait 63 sujets. On consulte la table de student
avec n-2 cad 61 ddl
En pratique on prend le plus proche dll immédiatement

inférieur (40) si 61 n’existe pas dans la table
La valeur seuil à 5% est de 2,021
to>2 Î on rejette Ho et on conclut que la pente β de la

droite de régression est différente de 0
Le degré de signification est p=(P|t61|>3,54)
La table indique que p=0,01
Comment interpréter le test de la pente
Hypothèse nulle : Ho: β =0

Hypothèse alternative (bilatérale) H1: β =/=0
Si Ho n’est pas rejetée : (β =0)

Si la régression de Y en X est LINEAIRE, alors X ne permet
pas ou peu de prédire Y.
Si la régression de Y en X N’EST PAS LINEAIRE, la droite de
régression ne montre pas de tendance dans la variation de Y
en fonction de X.
Y Y
X X
Ne pas rejeter Ho, implique qu’une relation linéaire ne permet

pas de prédire correctement Y en fonction de X mais
n’implique pas l’absence d’association entre X et Y
Si Ho est rejetée : (β =0)
X aide à la prédiction de Y
Mais il existe peut être un meilleur modèle que la droite, bien

qu’il y ait une composante linéaire. Dans ce cas on parle de
tendance à l’augmentation de Y lorsque X augmente.
Y Y
X X
Précision de la droite de régression
Le coefficient β de la droite de régression est estimé par b à

partir des couples de valeurs (x,y) observés sur un
échantillon
b=
∑ xy i i − nmx m y
( n − 1) sx2
2
⎛ sy ⎞
⎜ ⎟ − b2
⎜s ⎟
sb = ⎝ ⎠
2 x
On connaît par ailleurs la variance de b
n−2
On peut alors calculer l’intervalle de confiance de la pente
de la droite de régression :
b ± tn −2,α s 2
b
exemple
Exemple précédent :
La pente de la régression du poids de naissance sur le
poids maternel est b=23,80.
Sa variance est s2b=45,07
La limite à 5% de t à 61dll est ~ 2 L’intervalle de confiance
vaut :
• ICβ 95% = 23,80 ± 2 45,01 = [10,37;37,23]
Relation entre r et b
sx
r=b
sy
Spearman
Test du coefficient de correlation des
rangs de spearman
S’il existe un doute sur la normalité des distributions de X

et Y, ou sur la linéarité de la relation entre X et Y, on ne peut
pas utiliser le coefficient de corrélation de Pearson
On utilise alors un test non paramétrique :
le coefficient de corrélation des rangs de Spearman
Il étudie l’existence d’une liaison entre 2 variables
quantitatives.
On ne s’intéresse plus aux valeurs mais à leur rang.
On appelle rang le numéro d’ordre d’une valeur après
classement de la variable par ordre croissant.
Sur la série 1,4,5,8 la valeur 5 a pour rang 3, et la valeur 8 a
pour rang 4. En cas d’ex aequo on attribut le rang moyen à
chacun d’eux
On définit x’i et y’i les rangs des valeurs observées
On définit rs le coefficient de corrélation des rangs de Spearman
6∑ ( x ' − y ' )
2
r = 1− i i
n( n − 1)
s 2
On définit l’écart type du coefficient de Spearman :
1− r 2
sr = s
n−2
Le test de Spearman consiste à calculer to
rs
to =
sr
Et à la comparer à une valeur théorique :
Test bilatéral :Ho : ρ=0 et H1 : ρ=/=0
on rejette Ho si
o t ≥t
n − 2 ;α
Test unilatéral Ho : ρ=0

H1: ρ>0 on rejette Ho si to ≥ tn −2;2α
H1: ρ<0 on rejette Ho si to ≥ tn −2; −2α ( = −tn −2;2α )
Exemple
On désire vérifier la corrélation entre la taille (en cm) et le

poids (en kg) des enfants de 2 ans sur un échantillon de 15
individus.
Taille (x) 82,9 83,4 82,4 82,1 84,8 86,7 84,0 89,0 85,0 85,4 87,7 87,7 86,4 86,4 86,9
Poids
8,7 9,2 9,5 10,1 10,4 10,5 10,8 11,0 11,5 11,6 12,4 13,6 13,8 13,9 14,6
(y)
Il existe un doute sur la linéarité de la relation entre x et y.

On préconise le calcul du coefficient de Spearman
Les observations pour chaque variables sont
indépendantes les unes des autres
Conditions d’application vérifiées :
Le nombre de couples de valeurs >10
Indépendances
Pas d’exigence sur la normalité ni sur la linéarité
On pose
Ho : il n’existe aucune corrélation entre la taille et le poids
H1 : il existe une relation entre taille et poids
Taille (x) 82,9 83,4 82,4 82,1 84,8 86,7 84,0 89,0 85,0 85,4 87,7 87,7 86,4 86,4 86,9
valeurs
Ordonner les valeurs de façon croissante
82,1 82,4 82,9 83,4 84 84,8 85 85,4 86,4 86,4 86,7 86,9 87,7 87,7 89
Taille (x) 82,9 83,4 82,4 82,1 84,8 86,7 84,0 89,0 85,0 85,4 87,7 87,7 86,4 86,4 86,9
valeurs
82,1 82,4 82,9 83,4 84 84,8 85 85,4 86,4 86,4 86,7 86,9 87,7 87,7 89
1 2 3 4 5 6 7 8
Affecter les
rangs
Taille (x) 82,9 83,4 82,4 82,1 84,8 86,7 84,0 89,0 85,0 85,4 87,7 87,7 86,4 86,4 86,9
valeurs
82,1 82,4 82,9 83,4 84 84,8 85

85,4 86,4 86,4 86,7 86,9 87,7 87,7 89
1 2 3 4 5 6 7 8 9,5 9,5 11 12 13,5 13,5 15
(8+11)/2=9,5 (12+15)/2=13,5
Affecter les
rangs
valeurs
rangs
x 82,9 83,4 82,4 82,1 84,8 86,7 84,0 89,0 85,0 85,4 87,7 87,7 86,4 86,4 86,9
Taille
x’ 3 4 2 1 6 11 5 15 7 8 13,5 13,5 9,5 9,5 12
y 8,7 9,2 9,5 10,1 10,4 10,5 10,8 11,0 11,5 11,6 12,4 13,6 13,8 13,9 14,6
Poids
y’ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
valeurs
rangs
x’ 3 4 2 1 6 11 5 15 7 8 13,5 13,5 9,5 9,5 12
y’ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Calcul des carrés des différences des rangs (rang(x)-rang(y))2
Rang (y) 4 4 1 9 1 25 4 49 4 4 6,25 2,25 12,25 20,25 9
∑ ( x ' − y ' ) 2
= 155
6 ∑ ( x 'i − y 'i )
2 (6 × 155)
rs = 1 − rs = 1 − = 0,72
n( n 2 − 1) 15 × (15 − 1)
2
1− r 2
(1 − 0,722 )
sr = s sr = = 0,19
n−2 (15 − 2)
0 ,72
to = = 3,79
0 ,19
ddl = 15 − 2 = 13
Or t13;5%=2,160
to>t13;5%
On rejette Ho.
La valeur t est encore supérieure à t13;1%
On conclut donc qu’il existe une liaison
positive significative entre la taille et le
poids des enfants de 2 ans (p<0,01)

RENNES20061124103958 Cuggiacorrelationregression PCEM1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

RENNES20061124103958 Cuggiacorrelationregression PCEM1

Cargado por

Copyright:

Formatos disponibles

Corrélation et

variations respectives de plusieurs grandeurs dans une même

courbe associée à la fonction y=f(x)

si la loi est définie, la connaissance de x suffit à déterminer y

Représenter les couples de valeurs (x,y)

1 individu : Mr Dupont 1,85 m et 74 kg

La régression permet d’étudier l’association entre deux

Le coefficient de corrélation est une mesure d’association

X et Y sont des variables quantitatives

Nuage de points diffus

Indicateur qui mesure la liaison entre deux variables X et Y

(y – μy)(x – μx) < 0

(y – μy)(x – μx) > 0

(y – μy)(x – μx) > 0

La covariance est le produit de deux termes exprimés en

Le coefficient de corrélation fait jouer un rôle symétrique à

ρ est toujours compris entre -1 et 1 et ces bornes ne

Le coefficient de corrélation d’un échantillon est noté r.

Rappelons l’estimation des variances pour un échantillon

On cherche a trouver voir s’il existe une corrélation entre

Ici r=0,26 Î faible ou quasi absence de corrélation

r=0,9 r=0,6 r=0,3

Rappel : r concerne les variables d’un échantillon

Ho = Hypothèse nulle : ρ=0

Et à le comparer à la valeur seuil lue dans la table du test t

Test bilatéral :Ho : ρ=0 et H1 : ρ=0

Pour 63 nouveau nés, on a relevé le poids maternel avant grossesse

Rappel en hypothèse bilatérale, on rejette Ho si

La distribution de Y lorsque X est fixé s’appelle la Distribution

Par définition, la fonction de régression de Y en X est la

Le poids moyen varie en

En pratique, on ne recherche pas la forme exacte de la

Sans être strictement

Savoir si β =0 car si c’est le cas

La régression linaire permet de tester l’existence d’une liaison

β= 162,30 Î augmentation moyenne du

Estimation des coefficients par la méthode des moindres

Pour calculer SCE

Pour 63 nouveau nés, on a relevé le poids de naissance et

On s’intéresse à la régression du poids de naissance sur le

Pour tester la pente de la droite de régression, on pose

Condition d’application du test :

En pratique on prend le plus proche dll immédiatement

to>2 Î on rejette Ho et on conclut que la pente β de la

Hypothèse nulle : Ho: β =0

Si Ho n’est pas rejetée : (β =0)

Ne pas rejeter Ho, implique qu’une relation linéaire ne permet

Mais il existe peut être un meilleur modèle que la droite, bien

Le coefficient β de la droite de régression est estimé par b à

• ICβ 95% = 23,80 ± 2 45,01 = [10,37;37,23]

S’il existe un doute sur la normalité des distributions de X

On définit l’écart type du coefficient de Spearman :

Test unilatéral Ho : ρ=0

On désire vérifier la corrélation entre la taille (en cm) et le

Il existe un doute sur la linéarité de la relation entre x et y.

Ordonner les valeurs de façon croissante

Ordonner les valeurs de façon croissante

Ordonner les valeurs de façon croissante

82,1 82,4 82,9 83,4 84 84,8 85

1 2 3 4 5 6 7 8 9,5 9,5 11 12 13,5 13,5 15

Calcul des carrés des différences des rangs (rang(x)-rang(y))2

Rang (y) 4 4 1 9 1 25 4 49 4 4 6,25 2,25 12,25 20,25 9

También podría gustarte