Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis Dicriminante Con SPSS y R
Analisis Dicriminante Con SPSS y R
Introduccin
Supongamos que un conjunto de objetos est ya clasificado en una serie de grupos, es
decir, se sabe previamente a qu grupos pertenecen. El Anlisis Discriminante se puede
considerar como un anlisis de regresin donde la variable dependiente es categrica y
tiene como categoras la etiqueta de cada uno de los grupos, y.las variables independientes
son continuas y determinan a qu grupos pertenecen los objetos. Se pretende encontrar
relaciones lineales entre las variables continuas que mejor discriminen en los grupos dados
a los objetos.
Un segundo objetivo es construir una regla de decisin que asigne un objeto nuevo,
que no sabemos clasificar previamente, a uno de los grupos prefijados con un cierto grado
de riesgo.
Es necesario considerar una serie de restricciones o supuestos:
Se tiene una variable categrica y el resto de variables son de intervalo o de razn y son
independientes respecto de ella.
Es necesario que existan al menos dos grupos, y para cada grupo se necesitan dos o ms
casos.
El nmero de variables discriminantes debe ser menor que el nmero de objetos menos
2: x1 , ..., xp , donde p < (n 2) y n es el nmero de objetos.
Ninguna variable discriminante puede ser combinacin lineal de otras variables discriminantes.
1
Modelo matemtico
A partir de q grupos donde se asignan a una serie de objetos y de p variables medidas
sobre ellos (x1 , . . . , xp ), se trata de obtener para cada objeto una serie de puntuaciones
que indican el grupo al que pertenecen (y1 , . . . , ym ), de modo que sean funciones lineales
de x1 , . . . , xp
y1 = a11 x1 + + a1p xp + a10
Descomposicin de la varianza
Se puede descomponer la variabilidad total de la muestra en variabilidad dentro de los
grupos y entre los grupos.
Partimos de
1X
(xij xj ) (xij 0 xj 0 )
Cov (xj , xj 0 ) =
n i=1
n
decir,
xkj =
1 X
xij
nk iI
k
para k = 1, . . . , q.
De este modo, la media total de la variable xj se puede expresar como funcin de las
medias dentro de cada grupo. As,
X
xij = nk xkj ,
iIk
entonces
q
1X
1 XX
=
xij =
xij =
n i=1
n k=1 iI
n
xj
X nk
1X
nk xkj =
xkj .
n k=1
n
k=1
As,
q
1 XX
(xij xj ) (xij 0 xj 0 )
Cov (xj , xj 0 ) =
n k=1 iI
k
= d(xj , xj 0 ) + e(xj , xj 0 ).
Es decir, la covarianza total es igual a la covarianza dentro de grupos ms la covarianza
entre grupos. Si denominamos como t(xj , xj 0 ) a la covarianza total entre xj y xj 0 (sin
distinguir grupos), entonces lo anterior se puede expresar como
t(xj , xj 0 ) = d(xj , xj 0 ) + e(xj , xj 0 ).
3
Procedimiento matricial
Se sigue un mtodo parecido al anlisis factorial, as se busca una funcin lineal de
x1 , . . . , xp : y = a0 x, de modo que
V ar(y) = a0 T a = a0 Ea + a0 Da
es decir, la variabilidad entre grupos ms la variabilidad dentro de grupos.
Queremos maximizar la variabilidad entre los grupos para discriminarlos mejor y esto
equivale a hacer
a0 Ea
,
max
a0 T a
a0 Ea
a0 T a
a0 Ea
a0 T a
equivale a
L = a0 Ea (a0 T a 1)
y se calcula su derivada:
L
= 0.
a
5
L
= 2Ea 2T a = 0
a
Ea = T a
(T 1 E)a = a
Por tanto, el autovector asociado a la primera funcin discriminante lo es de la matriz
T 1 E (que no es simtrica en general).
Como Ea = T a,
a0 Ea = a0 T a =
Luego si tomo el vector asociado al mximo autovalor, se obtendr la funcin que recoge
el mximo poder discriminante.
El autovalor asociado a la funcin discriminante indica la proporcin de varianza total
explicada por las m funciones discriminantes que recoge la variable yi .
Para obtener ms funciones discriminantes, se siguen sacando los autovectores de la
matriz (T 1 E) asociados a los autovalores elegidos en orden decreciente:
a02
..
.
a0m
a02 x = y2
..
.
a0m x = ym
donde m = mn(q 1, p)
Estos vectores son linealmente independientes y dan lugar a funciones incorreladas
entre s.
La suma de todos los autovalores,
Pm
i=1
Pm i
i=1
100 %
separado. Si para alguna variable las medias de los grupos son diferentes y la variabilidad
es pequea, se considera que dicha variable ser importante a la hora de discriminar a los
grupos.
A continuacin, se observan las relaciones entre las variables. Se calculan matrices de
correlaciones en lugar de matrices de covarianzas por ser ms fcilmente interpretables.
Adems de analizar la correlacin entre pares de variables sin distinguir grupos, se debe
analizar las correlaciones dentro de cada grupo y luego considerar la media de las mismas
Se calcula tambin la matriz Pooled within-groups correlation matrix. Dicha matriz se
calcula como una matriz media de correlaciones calculadas por separado en cada grupo. A
menudo no se parece a la matriz de correlaciones total. Veamos, por ejemplo, el siguiente
grfico de dos variables y tres grupos:
Si se considera cada grupo por separado (1, 2 y 3), el coeficiente de correlacin entre x1
y x2 es 0 (el hecho de variar x1 no influye en x2 : la pendiente de la recta de regresin
es 0). Si hallamos la media de esos coeficientes, su valor es tambin 0; sin embargo, el
coeficiente de correlacin calculado para todos los datos sin tener en cuenta a los grupos
est prximo a 1, porque cuando aumenta el valor de x1 tambin lo hace el valor de x2 .
8
Estadsticos usados
F de Snedecor Se compara para cada variable las desviaciones de las medias de cada
uno de los grupos a la media total, entre las desviaciones a la media dentro de cada grupo.
Si F es grande para cada variable, entonces las medias de cada grupo estn muy separadas
y la variable discrimina bien. Si F es pequea, la variable discriminar poco, ya que habr
poca homogeneidad en los grupos y stos estarn muy prximos.
de Wilks Tambin se la denomina U -estadstico. Cuando se considera a las variables
de modo individual, la es igual al cociente entre la suma de cuadrados dentro de los
grupos y la suma de cuadrados total (sin distinguir grupos). Es decir, equivale a las
desviaciones a la media dentro de cada grupo, entre las desviaciones a la media total sin
distinguir grupos. Si su valor es pequeo, la variable discrimina mucho: la variabilidad
total se debe a las diferencias entre grupos, no a las diferencias dentro de grupos.
(i ) Se incluye en el anlisis la variable que tenga el mayor valor aceptable para el criterio
de seleccin o de entrada.
(ii) Se evala el criterio de seleccin para las variables no seleccionadas. La variable que
presenta el valor ms alto para el criterio se selecciona (siempre que est dentro de
un lmite).
(iii) Se examinan las variables seleccionadas segn un criterio de salida y se examinan
tambin las variables no seleccionadas, para ver si cumplen el criterio de entrada. Se
excluyen o se incluyen variables segn cumplan los criterios de entrada y de salida.
(iv) Se repite el paso (iii) hasta que ninguna variable ms pueda ser seleccionada o
eliminada.
Adems de todo lo anterior, en el SPSS se considera un nmero mximo de pasos,
dado que una variable puede ser incluida y eliminada en ms de una ocasin. Se toma
el doble del nmero de variables originales como nmero mximo de pasos del mtodo
stepwise.
En el SPSS se considera tambin para cada variable la tolerancia asociada.
Tolerancia
Se define para un conjunto de p variables, Ri , el coeficiente de correlacin mltiple que
expresa el porcentaje de variabilidad de la variable xi (i = 1, . . . , p) recogida por el resto
de (p 1) variables. Si se eleva al cuadrado Ri2 se obtiene el coeficiente de determinacin.
Entonces, la tolerancia se define como 1 Ri2 . As, cuanto mayor sea la tolerancia de una
variable, ms informacin independiente del resto de variables recoger.
De este modo, si en una iteracin dada del procedimiento stepwise la variable seleccionada verifica que su tolerancia con respecto a las variables ya incluidas en la funcin
discriminante es muy pequea entonces la variable no se incluye en dicha etapa. As, se
evita la redundancia de informacin.
10
|B|
|W |
donde
|B| = determinante de la matriz de covarianzas entre grupos.
|W | = determinante de la suma de las matrices de covarianzas dentro de los grupos.
En general, el determinante de una matriz de covarianzas da una medida de la variabilidad total de un conjunto de variables.
A partir de este valor de F, se puede calcular la correspondiente de Wilks, ya que
nkp1
F =
k1
1
1
donde
n = nmero de observaciones
k = nmero de grupos
p = nmero de variables
La F y la de Wilks se interpretan del mismo modo que en el caso univariante.
Cuando se comparan covarianzas entre grupos, se hace en base a los centroides de los
grupos, es decir, a los vectores de medias de las variables en cada grupo.
11
F de salida (F to remove):
Expresa el incremento que se produce en la de Wilks, si se elimina de la funcin
discriminante una variable dada. Si el valor de la F de salida es pequeo, el incremento
no ser significativo y la variable se eliminar del anlisis.
Correlacin Cannica
Da una medida del grado de asociacin entre las puntuaciones discriminantes de cada
uno de los objetos y el grupo concreto de pertenencia:
2 =
SCENT RE
,
SCT OT AL
p+k
V = n1
ln()
2
de modo que V 2p(k1) aproximadamente. De este modo, si es pequeo V es grande
y se rechaza la hiptesis nula.
12
x1
..
.
y1
a11
..
.
...
ym
am1
..
.
xp
a1p
amp
Se pueden interpretar las magnitudes de los coeficientes como indicadores de la importancia relativa de las variables en cada funcin discriminante. As, si aij es grande en
valor absoluto, entonces hay una fuerte asociacin entre la variable xj y la funcin yi ,
en relacin al resto de variables. An as, al existir en general correlaciones significativas
entre las variables originales, se debe tener cuidado al hacer interpretaciones precipitadas.
Matriz de estructura
Otra forma de calcular la contribucin de cada variable a una funcin discriminante
es examinar las correlaciones entre los valores de la funcin y los valores de las variables.
Se calculan, dentro de cada grupo, las correlaciones entre las variables y las puntuaciones;
luego se combinan en una matriz pooled within-groups correlation matrix. Los valores
obtenidos dan una medida de las contribuciones.
13
Esto equivale al valor que se recoge en una ecuacin de regresin. As, si xij es el
valor que alcanza el objeto i-simo en la variable j-sima, entonces la puntuacin o valor
alcanzado en la funcin discriminante k ser:
yik = ak1 xi1 + + akp xip + ak0
Regla de Bayes
Se pueden usar las puntuaciones discriminantes para obtener una regla para clasificar
los casos en los grupos. En el SPSS se usa la regla de Bayes.
As, la probabilidad de que un objeto j, con una puntuacin discriminante D =
(yj1 , ..., yjm ), pertenezca al grupo i-simo se puede estimar mediante la regla de Bayes:
P (Gi |D) =
P (D|Gi ) P (Gi )
k
P
P (D|Gi ) P (Gi )
i=1
Ejemplos
Se consideran los datos recogidos sobre 32 crneos en el Tibet.
15
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
Longitud
190.50
172.50
167.00
169.50
175.00
177.50
179.50
179.50
173.50
162.50
178.50
171.50
180.50
183.00
169.50
172.00
170.00
182.50
179.50
191.00
184.50
181.00
173.50
188.50
175.00
196.00
200.00
185.00
174.50
195.50
197.00
182.50
Anchura
152.50
132.00
130.00
150.50
138.50
142.50
142.50
138.00
135.50
139.00
135.00
148.50
139.00
149.00
130.00
140.00
126.50
136.00
135.00
140.50
141.50
142.00
136.50
130.00
153.00
142.50
139.50
134.50
143.50
144.00
131.50
131.00
Altura
145.00
125.50
125.50
133.50
126.00
142.50
127.50
133.50
130.50
131.00
136.00
132.50
132.00
121.50
131.00
136.00
134.50
138.50
128.50
140.50
134.50
132.50
126.00
143.00
130.00
123.50
143.50
140.00
132.50
138.50
135.00
135.00
Altura.Cara
73.50
63.00
69.50
64.50
77.50
71.50
70.50
73.50
70.00
62.00
71.00
65.00
74.50
76.50
68.00
70.50
66.00
76.00
74.00
72.50
76.50
79.00
71.50
79.50
76.50
76.00
82.50
81.50
74.00
78.50
80.50
68.50
.Anchura.Cara
136.50
121.00
119.50
128.00
135.50
131.00
134.50
132.50
133.50
126.00
124.00
146.50
134.50
142.00
119.00
133.50
118.50
134.00
132.00
131.50
141.50
136.50
136.50
136.00
142.00
134.00
146.00
137.00
136.50
144.00
139.00
136.00
Tipo
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
Los datos corresponden a dos tipos raciales diferentes en los que se practicaron diferentes medidas antropomtricas de longitudes, anchuras de crneo y de cara. Se trata de
hacer un anlisis discriminante sobre los dos tipos raciales.
Se toma una muestra de 50 vehculos producidos en EE.UU, Japn y Europa. Se
consideran las siguientes variables: Consumo, Cilindrada, Potencia, Peso, Aceleracin,
Ao del modelo y Nmero de cilindros. Se trata de hacer un anlisis discriminante sobre
los tres tipos de vehculos, en funcin de su origen.
16
17
18
Media, desviacin tpica, nmero de casos vlidos (ponderado y no ponderado) para cada uno de
los grupos y para la muestra total:
Group Statistics
Country of
Origin
Mean
25
25,000
245,44
94,885
25
25,000
Horsepower
123,56
44,563
25
25,000
3368,28
799,303
25
25,000
14,85
2,311
25
25,000
75,16
3,496
25
25,000
6,24
1,763
25
25,000
28,92
6,345
9,000
105,56
21,190
9,000
76,56
18,882
9,000
2341,44
395,406
9,000
16,78
3,081
9,000
74,67
3,464
9,000
4,00
,000
9,000
30,64
6,966
16
16,000
106,50
30,124
16
16,000
83,81
22,489
16
16,000
2288,94
388,479
16
16,000
15,23
2,058
16
16,000
78,38
2,941
16
16,000
4,13
,806
16
16,000
24,97
8,572
50
50,000
175,80
98,537
50
50,000
Horsepower
102,38
40,616
50
50,000
2838,06
819,660
50
50,000
15,32
2,443
50
50,000
76,10
3,621
50
50,000
5,16
1,707
50
50,000
Number of Cylinders
Miles per Gallon
Engine Displacement (cu. inches)
Horsepower
Japanese
Number of Cylinders
Miles per Gallon
Total
Unweighted Weighted
7,236
Number of Cylinders
European
Valid N (listwise)
19,92
American
Std.
Deviation
Number of Cylinders
19
Tabla de ANOVA con estadsticos F que permiten contrastar la hiptesis de igualdad de medias
entre los grupos en cada variable independiente. La tabla de ANOVA incluye tambin el estadstico
lambda de Wilks univariante. La informacin de esta tabla suele utilizarse como prueba preliminar
para detectar si los grupos difieren en las variables de clasificacin seleccionadas; sin embargo,
debe tenerse en cuenta que una variable no significativa a nivel univariante podra aportar
informacin discriminativa a nivel multivariante.
Tests of Equality of Group Means
Wilks' Lambda
,641 13,186
47 ,000
,490 24,428
47 ,000
Horsepower
,719
9,195
47 ,000
,573 17,546
47 ,000
,915
2,180
47 ,124
,808
5,586
47 ,007
Number of Cylinders
,591 16,281
47 ,000
1,000
-,664
-,693
-,719
,421
,722
-,571
Engine
Displacement
(cu. inches)
-,664
1,000
,851
,788
-,520
-,442
,914
Horsepower
-,693
,851
1,000
,725
-,660
-,546
,740
-,719
,788
,725
1,000
-,302
-,363
,766
,421
-,520
-,660
-,302
1,000
,354
-,484
,722
-,442
-,546
-,363
,354
1,000
-,357
-,571
,914
,740
,766
-,484
-,357
1,000
Vehicle
Correlation Weight (lbs.)
Time to
Accelerate
from 0 to 60
mph (sec)
Model Year
(modulo 100)
Number of
Cylinders
20
Rank
Log Determinant
American
16,939
European
13,649
Japanese
14,181
Pooled within-groups
16,386
The ranks and natural logarithms of determinants printed are those of the group covariance matrices.
Test Results
41,689
Box's M
3,061
Approx.
F
df1
12
df2
3043,281
Sig.
,000
Stepwise Statistics
Variables Entered/Removed(a,b,c,d)
Wilks' Lambda
Step
Entered
Exact F
Df3
Statistic df1
df2
Sig.
,490
2 47,000
24,428
2 47,000 ,000
,406
2 47,000
13,083
4 92,000 ,000
Horsepower
,344
2 47,000
10,569
6 90,000 ,000
At each step, the variable that minimizes the overall Wilks' Lambda is entered.
a Maximum number of steps is 14.
b Minimum partial F to enter is 3.84.
c Maximum partial F to remove is 2.71.
d F level, tolerance, or VIN insufficient for further computation.
21
1,000
24,428
,804
22,737
,808
,804
4,756
,490
,275
14,713
,569
,701
5,981
,436
Horsepower
,240
4,063
,406
Tolerance
Min.
Tolerance
F to
Enter
Wilks'
Lambda
1,000
1,000
13,186
,641
1,000
1,000
24,428
,490
Horsepower
1,000
1,000
9,195
,719
1,000
1,000
17,546
,573
1,000
1,000
2,180
,915
1,000
1,000
5,586
,808
Number of Cylinders
1,000
1,000
16,281
,591
,559
,559
,419
,482
Horsepower
,275
,275
2,887
,436
,379
,379
,174
,487
,730
,730
3,246
,430
,804
,804
4,756
,406
Number of Cylinders
,165
,165
,796
,474
,331
,331
1,496
,381
Horsepower
,240
,240
4,063
,344
,379
,351
,154
,404
,711
,654
3,746
,348
Number of Cylinders
,162
,150
,810
,392
,325
,235
1,557
,321
,368
,214
,457
,337
,557
,188
1,101
,328
Number of Cylinders
,159
,097
1,142
,327
22
Wilks' Lambda
Exact F
Statistic df1
df2
Sig.
,490
47
24,428
2 47,000 ,000
,406
47
13,083
4 92,000 ,000
,344
47
10,569
6 90,000 ,000
1,263(a)
81,6
81,6
,747
,284(a)
18,4
100,0
,470
,344
49,067
6 ,000
,779
11,495
2 ,003
1,595
-,304
Horsepower
-,819
1,091
-,019
1,164
23
Structure Matrix
Function
1
,906(*)
,110
Number of Cylinders(a)
,858(*)
,114
,669(*)
,129
Horsepower
,549(*)
,197
-,505(*)
,286
-,294(*)
-,150
-,278
,703(*)
Pooled within-groups correlations between discriminating variables and standardized canonical discriminant
functions
Variables ordered by absolute size of correlation within function.
* Largest absolute correlation between each variable and any discriminant function
a This variable not used in the analysis.
Coeficientes de clasificacin de Fisher. Pueden utilizarse directamente para la clasificacin. Se
obtiene un conjunto de coeficientes para cada grupo, y se asigna un caso al grupo para el que tiene
una mayor puntuacin discriminante.
Canonical Discriminant Function Coefficients
Function
1
,023
-,004
Horsepower
-,023
,031
-,006
,350
-1,150 -29,070
(Constant)
Unstandardized coefficients
Country of Origin
1
American
1,088
,027
European
-,980
-1,000
Japanese
-1,149
,520
24
Classification Statistics
Prior Probabilities for Groups
Country of Origin Prior
American
,500
25
25,000
European
,180
9,000
Japanese
,320
16
16,000
1,000
50
50,000
Total
-,015
-,057
-,067
,668
,684
,735
10,521
10,173
10,707
-435,516
-404,685 -447,914
25
Validacin cruzada: para comprobar la capacidad predictiva de la funcin discriminante,. para ello
el SPSS genera tantas funciones discriminantes como casos vlidos tiene el anlisis; cada una de
esas funciones se obtiene eliminando un caso; despus, cada caso es clasificado utilizando la
funcin discriminante en la que no ha intervenido.
Classification Results(b,c)
Predicted Group Membership
Country of Origin
American
Count
Original
%
Count
Cross-validated(a)
%
Total
Japanese
European
American
17
25
European
Japanese
14
16
American
68,0
12,0
20,0
100,0
European
11,1
66,7
22,2
100,0
Japanese
,0
12,5
87,5
100,0
American
17
25
European
Japanese
14
16
American
68,0
12,0
20,0
100,0
European
11,1
66,7
22,2
100,0
,0
12,5
87,5
100,0
Japanese
a Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the
functions derived from all cases other than that case.
b 74,0% of original grouped cases correctly classified.
c 74,0% of cross-validated grouped cases correctly classified.
26
27
28
50
7
3
DF Total
DF Within Classes
DF Between Classes
49
47
2
origin
1
2
3
Variable
Name
_1
_2
_3
Frequency
Weight
Proportion
Prior
Probability
25
9
16
25.0000
9.0000
16.0000
0.500000
0.180000
0.320000
0.333333
0.333333
0.333333
29
DF = 24
Variable
mpg
engine
horse
weight
mpg
engine
horse
weight
accel
year
cylinder
52.3639
-603.5698
-245.8552
-4912.5463
6.9017
19.2432
-11.0957
-603.5698
9003.0900
3797.7017
60922.7050
-153.7553
-220.3650
155.9733
-245.8552
3797.7017
1985.8400
25744.2533
-73.8030
-102.8433
63.1933
-4912.5463
60922.7050
25744.2533
638885.6267
-707.9432
-1525.9217
1188.7633
origin = 1,
DF = 24
Variable
accel
year
cylinder
mpg
engine
horse
weight
accel
year
cylinder
6.9017
-153.7553
-73.8030
-707.9432
5.3401
2.3962
-2.6370
19.2432
-220.3650
-102.8433
-1525.9217
2.3962
12.2233
-3.7900
-11.0957
155.9733
63.1933
1188.7633
-2.6370
-3.7900
3.1067
-------------------------------------------------------------------------------origin = 2,
DF = 8
Variable
mpg
engine
horse
weight
mpg
engine
horse
weight
accel
year
cylinder
40.2544
-43.1389
-82.3764
-468.6861
12.8193
13.5333
0.0000
-43.1389
449.0278
117.5278
7327.8472
12.1764
24.7083
0.0000
-82.3764
117.5278
356.5278
2054.7222
-35.5861
-33.2917
0.0000
-468.6861
7327.8472
2054.7222
156345.7778
459.0486
625.2917
0.0000
origin = 2,
DF = 8
Variable
accel
year
cylinder
mpg
engine
horse
weight
accel
year
cylinder
12.8193
12.1764
-35.5861
459.0486
9.4919
7.6667
0.0000
13.5333
24.7083
-33.2917
625.2917
7.6667
12.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
30
-------------------------------------------------------------------------------origin = 3,
DF = 15
Variable
mpg
engine
horse
weight
mpg
engine
horse
weight
accel
year
cylinder
48.5200
-38.4300
-97.5446
-1883.6371
4.1705
14.6558
0.9608
-38.4300
907.4667
468.1667
8756.3667
-34.1833
14.9333
20.6000
-97.5446
468.1667
505.7625
8304.1208
-36.5471
-17.4583
8.0917
-1883.6371
8756.3667
8304.1208
150915.7958
-542.7379
-284.5083
132.8083
origin = 3,
DF = 15
Variable
accel
year
cylinder
mpg
engine
horse
weight
accel
year
cylinder
4.1705
-34.1833
-36.5471
-542.7379
4.2343
0.8742
-0.6308
14.6558
14.9333
-17.4583
-284.5083
0.8742
8.6500
1.0833
0.9608
20.6000
8.0917
132.8083
-0.6308
1.0833
0.6500
-------------------------------------------------------------------------------Simple Statistics
Total-Sample
Variable
Sum
Mean
Variance
Standard
Deviation
mpg
engine
horse
weight
accel
year
cylinder
50
50
50
50
50
50
50
1249
8790
5119
141903
765.90000
3805
258.00000
24.97000
175.80000
102.38000
2838
15.31800
76.10000
5.16000
73.48541
9710
1650
671843
5.96804
13.11224
2.91265
8.5724
98.5373
40.6156
819.6602
2.4430
3.6211
1.7066
--------------------------------------------------------------------------------
31
origin = 1
Variable
Sum
Mean
Variance
Standard
Deviation
mpg
engine
horse
weight
accel
year
cylinder
25
25
25
25
25
25
25
497.90000
6136
3089
84207
371.20000
1879
156.00000
19.91600
245.44000
123.56000
3368
14.84800
75.16000
6.24000
52.36390
9003
1986
638886
5.34010
12.22333
3.10667
7.2363
94.8846
44.5628
799.3032
2.3109
3.4962
1.7626
-------------------------------------------------------------------------------origin = 2
Variable
Sum
Mean
Variance
Standard
Deviation
mpg
engine
horse
weight
accel
year
cylinder
9
9
9
9
9
9
9
260.30000
950.00000
689.00000
21073
151.00000
672.00000
36.00000
28.92222
105.55556
76.55556
2341
16.77778
74.66667
4.00000
40.25444
449.02778
356.52778
156346
9.49194
12.00000
0
6.3446
21.1903
18.8819
395.4058
3.0809
3.4641
0
-------------------------------------------------------------------------------origin = 3
Variable
Sum
Mean
Variance
Standard
Deviation
mpg
engine
horse
weight
accel
year
cylinder
16
16
16
16
16
16
16
490.30000
1704
1341
36623
243.70000
1254
66.00000
30.64375
106.50000
83.81250
2289
15.23125
78.37500
4.12500
48.51996
907.46667
505.76250
150916
4.23429
8.65000
0.65000
6.9656
30.1242
22.4892
388.4788
2.0577
2.9411
0.8062
--------------------------------------------------------------------------------
origin
Covariance
Matrix Rank
1
2
3
Pooled
7
6
7
7
30.05306
8.92659
22.37342
30.35552
32
=
=
=
=
Number of Groups
Number of Variables
Total Number of Observations - Number of Groups
Number of Observations in the i'th Group - 1
__
N(i)/2
|| |Within SS Matrix(i)|
= ----------------------------------N/2
|Pooled SS Matrix|
_
|
1
= 1.0 - | SUM ----|_
N(i)
RHO
DF
_
2
1
| 2P + 3P - 1
--- | ------------N _| 6(P+1)(K-1)
= .5(K-1)P(P+1)
_
_
|
PN/2
|
|
N
V
|
-2 RHO ln | ------------------ |
|
__
PN(i)/2 |
|_ || N(i)
_|
Chi-Square
DF
Pr > ChiSq
220.637339
56
<.0001
Since the Chi-Square value is significant at the 0.1 level, the within
covariance matrices will be used in the discriminant function.
Reference: Morrison, D.F. (1976) Multivariate Statistical
Methods p252.
1
2
3
30.05306
35.53867
34.59605
291281292
8.92659
907076
67.84795
38.59525
22.37342
M=2
N=19.5
33
Statistic
Wilks' Lambda
Pillai's Trace
Hotelling-Lawley Trace
Roy's Greatest Root
Value
F Value
Num DF
Den DF
Pr > F
0.28802184
0.88078861
1.88585602
1.49339170
5.06
4.72
5.43
8.96
14
14
14
7
82
84
62.325
42
<.0001
<.0001
<.0001
<.0001
Total
18
72.00
7
28.00
0
0.00
25
100.00
0
0.00
9
100.00
0
0.00
9
100.00
0
0.00
9
56.25
7
43.75
16
100.00
Total
18
36.00
25
50.00
7
14.00
50
100.00
Priors
0.33333
0.33333
0.33333
Rate
Priors
Total
0.2800
0.3333
0.0000
0.3333
0.5625
0.3333
0.2808
34
Total
17
68.00
8
32.00
0
0.00
25
100.00
3
33.33
5
55.56
1
11.11
9
100.00
2
12.50
11
68.75
3
18.75
16
100.00
Total
22
44.00
24
48.00
4
8.00
50
100.00
Priors
0.33333
0.33333
0.33333
Rate
Priors
Total
0.3200
0.3333
0.4444
0.3333
0.8125
0.3333
0.5256
35
50
3
7
0
0.05
0.05
origin
1
2
3
Variable
Name
_1
_2
_3
Frequency
Weight
Proportion
25
9
16
25.0000
9.0000
16.0000
0.500000
0.180000
0.320000
R-Square
F Value
Pr > F
Tolerance
mpg
engine
horse
weight
accel
year
cylinder
0.3594
0.5097
0.2812
0.4275
0.0849
0.1920
0.4093
13.19
24.43
9.20
17.55
2.18
5.59
16.28
<.0001
<.0001
0.0004
<.0001
0.1244
0.0067
<.0001
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
Multivariate Statistics
Statistic
Wilks' Lambda
Pillai's Trace
Average Squared Canonical
Correlation
Value
F Value
Num DF
Den DF
Pr > F
0.490318
0.509682
0.254841
24.43
24.43
2
2
47
47
<.0001
<.0001
36
R-Square
F Value
Pr > F
0.5097
24.43
<.0001
engine
Variable
Partial
R-Square
F Value
Pr > F
Tolerance
mpg
horse
weight
accel
year
cylinder
0.0179
0.1115
0.0075
0.1237
0.1714
0.0335
0.42
2.89
0.17
3.25
4.76
0.80
0.6604
0.0659
0.8412
0.0480
0.0133
0.4571
0.3645
0.2227
0.2187
0.7623
0.7843
0.1009
Multivariate Statistics
Statistic
Wilks' Lambda
Pillai's Trace
Average Squared Canonical
Correlation
Value
F Value
Num DF
Den DF
Pr > F
0.406296
0.674371
0.337185
13.08
11.95
4
4
92
94
<.0001
<.0001
Variable
engine
year
Partial
R-Square
F Value
Pr > F
0.4971
0.1714
22.74
4.76
<.0001
0.0133
37
Variable
Partial
R-Square
F Value
Pr > F
Tolerance
mpg
horse
weight
accel
cylinder
0.0624
0.1530
0.0068
0.1427
0.0347
1.50
4.06
0.15
3.75
0.81
0.2349
0.0239
0.8576
0.0313
0.4514
0.2261
0.2034
0.2093
0.6454
0.0932
Multivariate Statistics
Statistic
Wilks' Lambda
Pillai's Trace
Average Squared Canonical
Correlation
Value
F Value
Num DF
Den DF
Pr > F
0.344148
0.779271
0.389636
10.57
9.79
6
6
90
92
<.0001
<.0001
Variable
Partial
R-Square
F Value
Pr > F
0.3954
0.1530
0.2100
14.71
4.06
5.98
<.0001
0.0239
0.0050
engine
horse
year
Variable
Partial
R-Square
F Value
Pr > F
Tolerance
mpg
weight
accel
cylinder
0.0661
0.0204
0.0477
0.0493
1.56
0.46
1.10
1.14
0.2222
0.6360
0.3416
0.3285
0.1779
0.1380
0.1435
0.0676
38
Step
Number
In
1
2
3
1
2
3
Entered
Removed
engine
year
horse
Step
Number
In
1
2
3
1
2
3
Entered
engine
year
horse
Partial
R-Square
F Value
Pr > F
Wilks'
Lambda
Pr <
Lambda
0.5097
0.1714
0.1530
24.43
4.76
4.06
<.0001
0.0133
0.0239
0.49031755
0.40629584
0.34414795
<.0001
<.0001
<.0001
Removed
Average
Squared
Canonical
Correlation
Pr >
ASCC
0.25484122
0.33718537
0.38963551
<.0001
<.0001
<.0001
39