Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ce graphique montre la corrlation entre les variables Al, Na, Fe, Mg et Ca. Le graphique montre
que Fe et Mg sont fortement corrls entre eux et aussi ont corrlation modre avec les variables
de Ca et Na. Nous pouvons galement observer que Al est indpendante d'autres variables, mais
ces variables ont mis en place une forte corrlation ngative.
Le chevauchement des projections des deux nuages dans le mme plan devient interprtation plus
expressive, car il est entendu que les nuages ont des significations diffrentes. Les proximits entre
un individu et une variable n'a pas de signification mathmatique n'ont pas un sens
mathmatique. Toutefois, l'interprtation des axes factoriels, base sur des corrlations avec les
variables qui comportent, pour nous permettre de relier les deux nuages d'une faon dtourne.
barplot(b$loadings[,1],main="C1",col=1:5)
Pour le composante C1, ce graphique indique la forte corrlation entre les variables Fe et Mg et
une corrlation entre Fe, Mg, Ca et Na. Le graphique montre aussi que Al est indpendante
d'autres variables, ces variables ont mis en place une forte corrlation ngative.
barplot(b$loadings[,2],main="C2",col=1:5)
Par rapport C2, ce graphe indique qu'il existe une corrlation entre Al, Fe et Na, mais modre. Le
graphique montre aussi que Mg et Ca ont correlation mais faible. Enfin, Mg et Ca font apparatre
une corrlation ngative avec Al, Fe, Na, et si on peut considrer que ces variables sont presque
indpendantes.
barplot(b$loadings[,3],main="C3",col=1:5)
Par rapport C3, ce graphe indique qu'il existe une forte corrlation entre Al et Ca et aussi existe
une correlation entre Al, Ca, Mg et Na, mais elle est plus faible. Le graphique montre aussi que Mg
et Ca ont correlation mais faible. Le graphique montre aussi que Fe est indpendante d'autres
variables, ces variables ont mis en place une forte corrlation ngative (Fe par rapport Al, Mg, Ca et
Na).
?USArrests
1. a<- USArrests
(le chargement des donnes)
2. names(a) (les noms des variables tudies)
[1] "Murder" "Assault" "UrbanPop" "Rape"
3. row.names(a) (les noms de las villes)
[1] "Alabama"
"Alaska"
"Arizona"
"Arkansas"
[5] "California" "Colorado"
"Connecticut" "Delaware"
[9] "Florida"
"Georgia"
"Hawaii"
"Idaho"
[13] "Illinois"
"Indiana"
"Iowa"
"Kansas"
[17] "Kentucky"
"Louisiana"
"Maine"
"Maryland"
[21] "Massachusetts" "Michigan"
"Minnesota"
"Mississippi"
[25] "Missouri"
"Montana"
"Nebraska"
"Nevada"
[29] "New Hampshire" "New Jersey" "New Mexico" "New York"
[33] "North Carolina" "North Dakota" "Ohio"
"Oklahoma"
[37] "Oregon"
"Pennsylvania" "Rhode Island" "South Carolina"
[41] "South Dakota" "Tennessee"
"Texas"
"Utah"
[45] "Vermont"
"Virginia"
"Washington" "West Virginia"
[49] "Wisconsin"
"Wyoming"
4. n<-nrow(a)
5. print(n)
[1] 50
6. apply(a,2,function(x)(1:50)[x==min(x)]) apply(a,2,function(x)(1:50)[x==max(x)])
Murder Assault UrbanPop Rape
34
34
45
34
7. stars(USArrests[, 1:4], key.loc = c(14, 2), main = "USARRESTS : full
stars()",flip.labels=FALSE)
Chaque point de l'toile dans le graphique "star" indique une variable. La intensit de la
variable peuve tre indiqu par la distance de la pointe (variable) par rapport au centre de
l'toile.
8. apply(a,2,mean)
Murder Assault UrbanPop Rape
7.788 170.760 65.540
21.232
9. apply(a,2,var)
Murder Assault
UrbanPop
Rape
18.97047 6945.16571 209.51878 87.72916
Prsenter quelques mesures sommaires de ces variables
10. summary(a)
Murder
Assault
UrbanPop
Rape
Min. : 0.800 Min. : 45.0 Min. :32.00 Min. : 7.30
1st Qu.: 4.075 1st Qu.:109.0 1st Qu.:54.50 1st Qu.:15.07
Median : 7.250 Median :159.0 Median :66.00 Median :20.10
Mean : 7.788 Mean :170.8 Mean :65.54 Mean :21.23
3rd Qu.:11.250 3rd Qu.:249.0 3rd Qu.:77.75 3rd Qu.:26.18
Max. :17.400 Max. :337.0 Max. :91.00 Max. :46.00
boxplot est utilis pour fournir des informations sur les dimensions des variables dans
un jeu de donnes. La ligne horizontale lourd dans chaque bote est porte la valeur
mdiane du groupe de donnes. Le haut de la bote est trace au 75e centile tandis que le
fond de la bote est trace au 25e percentile. Les moustaches suprieures et infrieures se
terminent des valeurs plus extrmes des points non calculs aberrants.
11. boxplot(a)
12. b<-scale(a)
13. boxplot(as.data.frame(b))
Les variables sont mesures dans des units diffrentes. L'analyse en composantes
principales est base sur la matrice de corrlation de l'chantillon, qui est donn cidessous.
14. cor(a)
Murder Assault UrbanPop Rape
Murder 1.00000000 0.8018733 0.06957262 0.5635788
Assault 0.80187331 1.0000000 0.25887170 0.6652412
UrbanPop 0.06957262 0.2588717 1.00000000 0.4113412
Rape
0.56357883 0.6652412 0.41134124 1.0000000
15. cor(b)
Murder Assault UrbanPop Rape
Murder 1.00000000 0.8018733 0.06957262 0.5635788
Assault 0.80187331 1.0000000 0.25887170 0.6652412
UrbanPop 0.06957262 0.2588717 1.00000000 0.4113412
Rape
0.56357883 0.6652412 0.41134124 1.0000000
Sur le graphique on constate que dans la plupart des cas, les corrlations les plus leves
sont observes dans les panneaux de l'chantillon en regard de la diagonale secondaire.
17. pairs(a)
18. eigen(cor(a))
$values
[1] 2.4802416 0.9897652 0.3565632 0.1734301
$vectors
[,1]
[,2]
[,3]
[,4]
[1,] -0.5358995 0.4181809 -0.3412327 0.64922780
[2,] -0.5831836 0.1879856 -0.2681484 -0.74340748
[3,] -0.2781909 -0.8728062 -0.3780158 0.13387773
[4,] -0.5434321 -0.1673186 0.8177779 0.08902432
19. ?princomp()
20. princomp(a,cor=T)
Call:
princomp(x = a, cor = T)
Standard deviations:
Comp.1 Comp.2 Comp.3 Comp.4
1.5748783 0.9948694 0.5971291 0.4164494
4 variables and 50 observations.
21. acp<-princomp(a,cor=T)
22. summary(acp)
Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4
Standard deviation 1.5748783 0.9948694 0.5971291 0.41644938
Proportion of Variance 0.6200604 0.2474413 0.0891408 0.04335752
Cumulative Proportion 0.6200604 0.8675017 0.9566425 1.00000000
23. print(attributes(acp))
$names
[1] "sdev"
$class
[1] "princomp"
24. acp$loadings
Loadings:
Comp.1 Comp.2 Comp.3 Comp.4
Murder -0.536 0.418 -0.341 0.649
Assault -0.583 0.188 -0.268 -0.743
UrbanPop -0.278 -0.873 -0.378 0.134
Rape -0.543 -0.167 0.818
Comp.1 Comp.2 Comp.3 Comp.4
SS loadings 1.00 1.00 1.00 1.00
Proportion Var 0.25 0.25 0.25 0.25
Cumulative Var 0.25 0.50 0.75 1.00
25. matrix (acp$loadings).
26.
[,1]
[1,] -0.53589947
[2,] -0.58318363
[3,] -0.27819087
[4,] -0.54343209
[5,] 0.41818087
[6,] 0.18798560
[7,] -0.87280619
[8,] -0.16731864
[9,] -0.34123273
[10,] -0.26814843
[11,] -0.37801579
[12,] 0.81777791
[13,] 0.64922780
[14,] -0.74340748
[15,] 0.13387773
[16,] 0.08902432
27. tab<-matrix (acp$loadings,4,4) print(tab,digits=3)
[,1] [,2] [,3] [,4]
[1,] -0.536 0.418 -0.341 0.649
[2,] -0.583 0.188 -0.268 -0.743
[3,] -0.278 -0.873 -0.378 0.134
[4,] -0.543 -0.167 0.818 0.089
28. names(acp)
[1] "sdev" "loadings" "center" "scale" "n.obs" "scores" "call"
29. acp$sdev
Comp.1 Comp.2 Comp.3 Comp.4
1.5748783 0.9948694 0.5971291 0.4164494
30. vp<-acp$sdev^2
Les valeurs propres de facteurs successifs peuvent tre reprsentes dans un simple trac
curviligne. Cattell (1966) a propos que ce trac des valeurs propres soit utilis pour dterminer
graphiquement le nombre optimal de facteurs conserver. Le trac des valeurs propres doit
permettre de trouver l'endroit o les valeurs propres semblent s'quilibrer droite du trac. A
droite de ce point, on risque de ne trouver que des "boulis factoriels" - "boulis" est un terme
gologique dsignant les dbris trouvs sur la partie infrieure d'une pente rocheuse. Par
consquent, il ne faut par retenir plus que le nombre de facteurs situs gauche de ce point.
32. acp$scores
Comp.1
Alabama
Comp.2
Comp.3
Comp.4
Alaska
Arizona
Arkansas
California
Colorado
Connecticut
Delaware
Florida
Georgia
Hawaii
Idaho
Illinois
Indiana
Iowa
Kansas
Kentucky
Louisiana
Maine
Maryland
Montana
Nebraska
Nevada
New Mexico
New York
Oklahoma
Oregon
Texas
Utah
Vermont
Virginia
Washington
33.
Wisconsin
Wyoming
var(acp$scores)
Comp.1
Comp.2
Comp.3
Comp.4
34.
plot(acp)
35.
cor(a,acp$scores)
Comp.1 Comp.2 Comp.3 Comp.4
Murder -0.8439764 0.4160354 -0.2037600 0.27037052
Assault -0.9184432 0.1870211 -0.1601192 -0.30959159
UrbanPop -0.4381168 -0.8683282 -0.2257242 0.05575330
Rape -0.8558394 -0.1664602 0.4883190 0.03707412
36.
biplot(acp)
Les graphiques indiquent que les variables de Murder, Assault, Rape et UrbanPop ont corrlation.
Murder et Assault sont le plus troitement lis, suivie par le Rape. UrbanPop a corrlation avec
Assassiner, agression et viol, mais faible. On peut aussi dire que le North Dakota est une ville plus
scuritaire que le New Mexique et la Californie qui a une forte population urbaine, par exemple.
37.
barplot(acp$loadings[,1],main="C1",col=1:4)
28 11.51 7.01 14.17 1.94 51.16 15.18 45.84 4.6 56.28 303.17 7422
29 11.26 6.90 12.41 1.88 48.24 15.61 38.02 4.4 52.68 272.06 7310
30 11.50 7.09 12.94 1.82 49.27 15.56 42.32 4.5 53.50 293.85 7237
31 11.43 6.22 13.98 1.91 51.25 15.88 46.18 4.6 57.84 294.99 7231
32 11.47 6.43 12.33 1.94 50.30 15.00 38.72 4.0 57.26 293.72 7016
33 11.57 7.19 10.27 1.91 50.71 16.20 34.36 4.1 54.94 269.98 6907
34 12.12 5.83 9.71 1.70 52.32 17.05 27.10 2.6 39.10 281.24 5339
Le table reprsente les rsultats de 34 joueurs, qui font 10 tapes dune olympiade. Par lanalyse du
summary , nous avons not que la colonne a rsultats qui diffrent beaucoup des rsultats des autres
joueurs. Alors, elle devrait tre supprim.
> O2<-olympic[,-11]
Renommer les colonnes
> names(O2)<-c("100m","long","poids","haut","400m","110m","disque","perche","javelot","1500m")
> O2
100m long poids haut 400m 110m disque perche javelot 1500m
1 11.25 7.43 15.48 2.27 48.90 15.13 49.28 4.7 61.32 268.95
2 10.87 7.45 14.97 1.97 47.71 14.46 44.36 5.1 61.76 273.02
3 11.18 7.44 14.20 1.97 48.29 14.81 43.66 5.2 64.16 263.20
4 10.62 7.38 15.02 2.03 49.06 14.72 44.80 4.9 64.04 285.11
5 11.02 7.43 12.92 1.97 47.44 14.40 41.20 5.2 57.46 256.64
6 10.83 7.72 13.58 2.12 48.34 14.18 43.06 4.9 52.18 274.07
7 11.18 7.05 14.12 2.06 49.34 14.39 41.68 5.7 61.60 291.20
8 11.05 6.95 15.34 2.00 48.21 14.36 41.32 4.8 63.00 265.86
9 11.15 7.12 14.52 2.03 49.15 14.66 42.36 4.9 66.46 269.62
10 11.23 7.28 15.25 1.97 48.60 14.76 48.02 5.2 59.48 292.24
11 10.94 7.45 15.34 1.97 49.94 14.25 41.86 4.8 66.64 295.89
12 11.18 7.34 14.48 1.94 49.02 15.11 42.76 4.7 65.84 256.74
13 11.02 7.29 12.92 2.06 48.23 14.94 39.54 5.0 56.80 257.85
14 10.99 7.37 13.61 1.97 47.83 14.70 43.88 4.3 66.54 268.97
15 11.03 7.45 14.20 1.97 48.94 15.44 41.66 4.7 64.00 267.48
16 11.09 7.08 14.51 2.03 49.89 14.78 43.20 4.9 57.18 268.54
17 11.46 6.75 16.07 2.00 51.28 16.06 50.66 4.8 72.60 302.42
18 11.57 7.00 16.60 1.94 49.84 15.00 46.66 4.9 60.20 286.04
19 11.07 7.04 13.41 1.94 47.97 14.96 40.38 4.5 51.50 262.41
20 10.89 7.07 15.84 1.79 49.68 15.38 45.32 4.9 60.48 277.84
21 11.52 7.36 13.93 1.94 49.99 15.64 38.82 4.6 67.04 266.42
22 11.49 7.02 13.80 2.03 50.60 15.22 39.08 4.7 60.92 262.93
23 11.38 7.08 14.31 2.00 50.24 14.97 46.34 4.4 55.68 272.68
24 11.30 6.97 13.23 2.15 49.98 15.38 38.72 4.6 54.34 277.84
25 11.00 7.23 13.15 2.03 49.73 14.96 38.06 4.5 52.82 285.57
26 11.33 6.83 11.63 2.06 48.37 15.39 37.52 4.6 55.42 270.07
27 11.10 6.98 12.69 1.82 48.63 15.13 38.04 4.7 49.52 261.90
28 11.51 7.01 14.17 1.94 51.16 15.18 45.84 4.6 56.28 303.17
29 11.26 6.90 12.41 1.88 48.24 15.61 38.02 4.4 52.68 272.06
30 11.50 7.09 12.94 1.82 49.27 15.56 42.32 4.5 53.50 293.85
31 11.43 6.22 13.98 1.91 51.25 15.88 46.18 4.6 57.84 294.99
32 11.47 6.43 12.33 1.94 50.30 15.00 38.72 4.0 57.26 293.72
33 11.57 7.19 10.27 1.91 50.71 16.20 34.36 4.1 54.94 269.98
34 12.12 5.83 9.71 1.70 52.32 17.05 27.10 2.6 39.10 281.24
row.names(O2)
[1] "1" "2" "3" "4" "5" "6" "7" "8" "9" "10" "11" "12" "13" "14" "15"
[16] "16" "17" "18" "19" "20" "21" "22" "23" "24" "25" "26" "27" "28" "29" "30"
[31] "31" "32" "33" "34"
n<-nrow(O2)
print(n)
[1] 34
apply(O2,2,function(x)(1:34)[x==max(x)])
100m long poids haut 400m 110m disque perche javelot 1500m
34
18
34
34
17
17
28
apply(O2,2,function(x)(1:33)[x==min(x)])
100m long poids haut 400m 110m disque perche javelot 1500m
4
NA
NA
NA
NA
NA
NA
Chaque point de l'toile dans le graphique "star" indique une variable. La intensit de la variable
peuve tre indiqu par la distance de la pointe (variable) par rapport au centre de l'toile.
apply(O2,2,mean)
100m
long
poids
haut
400m
110m
disque
1500m
long
poids
haut
400m
110m
perche
javelot
1500m
long
poids
haut
110m
disque
perche
1500m
boxplot est utilis pour fournir des informations sur les dimensions des variables dans
un jeu de donnes. La ligne horizontale lourd dans chaque bote est porte la valeur
mdiane du groupe de donnes. Le haut de la bote est trace au 75e centile tandis que le
fond de la bote est trace au 25e percentile. Les moustaches suprieures et infrieures se
terminent des valeurs plus extrmes des points non calculs aberrants.
boxplot(O2)
b<-scale(O2)
boxplot(as.data.frame(b))
cor(O2)
100m
100m
long
poids
haut
400m
110m
110m
perche
javelot
1500m
long
poids
haut
400m
110m
110m
perche
javelot
1500m
pairs(O2)
eigen(cor(O2))
$values
$vectors
[,1]
[,2]
[,3]
[,4]
[,5]
[,6]
[,8]
[,9]
[,10]
princomp(O2,cor=T)
Call:
princomp(x = O2, cor = T)
Standard deviations:
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8
2.2413205 1.4421863 0.8575944 0.8280933 0.6134004 0.5496433 0.5343281 0.4730538
Comp.9 Comp.10
0.4524784 0.2880684
Comp.3
Comp.4 Comp.5
Comp.7
Comp.8
Comp.9
Comp.10
$class
[1] "princomp"
acp$loadings
Loadings:
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8 Comp.9 Comp.10
100m
-0.856 0.356
-0.147 -0.148
400m
110m
-0.285 0.392
0.286
-0.620
-0.136
-0.446 0.426
-0.186
0.555
-0.472
javelot -0.293 -0.298 -0.136 -0.566 0.454 -0.374 -0.101 -0.299 0.170 0.109
1500m
Proportion Var 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1
Cumulative Var 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Comp.10
SS loadings
1.0
Proportion Var
0.1
Cumulative Var
1.0
[13,] -0.394274668
[14,] 0.007412489
[15,] -0.427197688
[16,] -0.131247472
[17,] -0.416387386
[18,] -0.061929264
[19,] -0.298380393
[20,] -0.545601880
[21,] -0.300422253
[22,] -0.076948833
[23,] 0.125214195
[24,] -0.855858671
[25,] -0.232213546
[26,] -0.149138797
[27,] 0.046052787
[28,] 0.075491898
[29,] -0.135859807
[30,] 0.230671635
[31,] -0.175913559
[32,] -0.114806578
[33,] -0.173585942
[34,] 0.356066484
[35,] 0.016885789
[36,] -0.387307995
[37,] -0.041080967
[38,] 0.066216037
[39,] -0.565921891
[40,] 0.567737651
[41,] -0.272176167
[42,] 0.455732285
[43,] -0.267975888
[44,] -0.065562145
[45,] 0.285836203
[46,] -0.054890655
[47,] -0.445627442
[48,] -0.155662784
[49,] 0.453519136
[50,] 0.359039136
[51,] -0.107377027
[52,] 0.613165270
[53,] 0.043078275
[54,] -0.009049015
[55,] -0.001910878
[56,] 0.372650115
[57,] 0.426245582
[58,] -0.381392023
[59,] -0.374427279
[60,] 0.065940767
[61,] 0.514409335
[62,] 0.370971485
[63,] -0.285205799
[64,] -0.146969101
[65,] -0.061245615
[66,] 0.130145819
[67,] -0.010495383
[68,] 0.664091139
[69,] -0.101263842
[70,] 0.150832388
[71,] 0.156995201
[72,] 0.253141175
[73,] 0.392126347
[74,] -0.148112792
[75,] 0.583619034
[76,] -0.419995750
[77,] -0.186134296
[78,] 0.029753426
[79,] -0.298874413
[80,] -0.306115694
[81,] 0.569470488
[82,] 0.136398761
[83,] -0.000555435
[84,] -0.052874132
[85,] -0.367484434
[86,] -0.490602799
[87,] 0.077744794
[88,] -0.472409406
[89,] 0.169800354
[90,] 0.143247276
[91,] -0.096598076
[92,] -0.085473517
[93,] -0.620479016
[94,] -0.135685895
[95,] 0.339895567
[96,] -0.308543253
[97,] 0.554692586
[98,] -0.006121098
[99,] 0.109294902
[100,] -0.222628781
tab<-matrix (acp$loadings,10,10)
print(tab,digits=4)
[,1]
[,2]
[,3]
[,4]
[,5]
[,6]
[,7]
[,8]
[,10]
acp$sdev
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8
2.2413205 1.4421863 0.8575944 0.8280933 0.6134004 0.5496433 0.5343281 0.4730538
Comp.9 Comp.10
0.4524784 0.2880684
vp<-acp$sdev^2
Les valeurs propres de facteurs successifs peuvent tre reprsentes dans un simple trac
curviligne. Cattell (1966) a propos que ce trac des valeurs propres soit utilis pour dterminer
graphiquement le nombre optimal de facteurs conserver. Le trac des valeurs propres doit
permettre de trouver l'endroit o les valeurs propres semblent s'quilibrer droite du trac. A
droite de ce point, on risque de ne trouver que des "boulis factoriels" - "boulis" est un terme
gologique dsignant les dbris trouvs sur la partie infrieure d'une pente rocheuse. Par
consquent, il ne faut par retenir plus que le nombre de facteurs situs gauche de ce point.
acp$scores
Comp.1
Comp.2
Comp.3
Comp.4
Comp.5
Comp.6
Comp.8
Comp.9
Comp.10
Comp.2
Comp.3
Comp.4
Comp.5
Comp.7
Comp.8
Comp.9
Comp.10
cor(O2,acp$scores)
Comp.1
100m
Comp.2
Comp.3
Comp.4
Comp.5
Comp.6
110m
Comp.8
Comp.9
Comp.10
Nous pouvons observer dans le graphique que la variable "long", "haute", "perche" javelot ",
"Poids "et "disque " sont en corrlation avec l'autre. On a galement observ que les variables
"1500m ", "400m", "100m"et "110m" ont corrlation. Des variables javelot, Poids et disque
sont fortement corrls. Des variables "long", "haute" et "perche" ont galement une corrlation
lgrement forte. Des variables "100m et 110m ont galement une forte corrlation. Des
variables "1500m" et "400m"ont corrlation modre.
Par le graphique est possible observer que le joueur 34 a de mauvais rsultats dans toutes les
catgories et a de profil mauvais par rapport aux autres. Les Joueurs 30 et 32 ont de bons rsultats
en termes 100m et 110m. Les Joueurs 7, 10, 11 ont de bons rsultats dans les catgories javelot,
Poids et Disque.
barplot(acp$loadings[,1],main="C1",col=1:10)
barplot(acp$loadings[,2],main="C2",col=1:10)
barplot(acp$loadings[,3],main="C3",col=1:10)
barplot(acp$loadings[,4],main="C4",col=1:10)
barplot(acp$loadings[,5],main="C5",col=1:10)
plot(acp$scores[,1],acp$scores[,2],type="n")
text(acp$scores[,1], acp$scores[,2],row.names(O2))
plot(acp$scores[,1],acp$scores[,3],type="n")
text(acp$scores[,1],acp$scores[,3],row.names(O2))
biplot(acp)
biplot(acp)
coord=acp$scores[,1:10]
coord
Comp.1
Comp.2
Comp.3
Comp.4
Comp.5
Comp.6
Comp.8
Comp.9
Comp.10
[,2]
[,3]
[,4]
[,5]
[,6]
[,8]
[,9]
[,10]
c2
100m
0.804 -0.2944
0.660 -0.6161
110m
0.837 -0.1893
c2