Discriminante

ANÁLISIS DISCRIMINANTE
1.- Introducción..............................................................................................................2
2.- Supuestos del modelo...............................................................................................2
3.- Procedimiento...........................................................................................................2
4.- Aplicación práctica ..................................................................................................3
4.1.- Comprobación de los supuestos del modelo..........................................................4
4.1.1.- Normalidad ........................................................................................................5
4.1.2.- Medias diferentes ...............................................................................................7
4.1.3.- Igualdad de matrices de varianzas-covarianzas .................................................9
4.2.- Cálculo de las funciones discriminantes .............................................................10
4.3.- Clasificación .......................................................................................................13
Bibliografía .................................................................................................................16
1
ANÁLISIS DISCRIMINANTE
1.- Introducción
El análisis discriminante es una técnica que permite asignar a distintos grupos (definidos
previamente) a un conjunto de individuos en función de un conjunto de variables de estos
sujetos medidas cuantitativamente (se admiten dicotómicas con codificación dummy). Es
pues una técnica de clasificación. Por ejemplo, si disponemos de los resultados de una
cierta encuesta donde conocemos las personas que han votados al candidato A, B o C, nos
puede interesar conocer qué rasgos de estas personas ayudan a conocer los resultados en
su opción política. Tiene interés por cuanto una vez realizadas las relaciones y efectuada la
generalización correspondiente a nivel poblacional, podemos trabajar con muestras
distintas de sujetos (a los que no se les pasó la encuesta) para poder realizar los
pronósticos oportunos.
En términos puramente estadísticos tenemos una variable dependiente de agrupación, que

será cualitativa con dos o más categorías, y un conjunto de variables independientes o
explicativas, de carecer cuantitativo, que será aquellas variables, cuyos valores nos
permitan predecir a qué grupo será asignado el sujeto correspondiente.
El análisis discriminante persigue un doble objetivo. Por un lado, determinar aquellas

variables independientes que mejor discriminan a los sujetos a los distintos grupos. Y por
otro lado, en base a esta información clasificar a los sujetos en tales grupos.
2.- Supuestos del modelo
Como todo modelo estadístico se exige unos ciertos supuestos para su aplicación.
Destaquemos lo siguientes:
.- Las variables que definen los grupos han de ser categóricas, mientras que las
independientes (aquí discriminantes) han de ser medidas al menos en una escala de
intervalo (o categóricas codificadas en dummy).
.- Las variables han de seguir distribuciones normales y sus medias han de ser
estadísticamente diferentes para los distintos grupos.
.- Las matrices de varianzas-covarianzas de los distintos grupos han de ser

estadísticamente equivalentes.
2
3.- Procedimiento
En primer lugar comprobaremos los supuestos del modelo, para ello recurrimos como es
habitual, a la descripción estadística de las distintas variables. Se analizan el tema de la
normalidad de las distintas variables independientes junto a la igualdad de las matrices de
varianzas covarianzas. Igualmente se comprueba si los promedios entre los grupos para
las distintas variables difieren entre sí, lo que sería indicativo de que los valores en tales
variables son “discriminantes” en el sentido de permiten diferenciar unos grupos de otros.
El siguiente punto consiste en obtener las funciones discriminantes sobre la base de las
variables anteriores que mostraban un comportamiento diferente entre los distintos grupos.
Las funciones discriminantes tiene cierto parecido con el análisis factorial y consiste en
determinar un conjunto de variables latentes o factores, combinación lineal de las variables
independientes consideradas, que reflejan las dimensiones básicas subyacentes de
variabilidad de las variables originales. La idea es operar, no con el conjunto de variables
discriminantes, lo que sería bastante engorroso, sino con lo substancial de la misma.
Por último, y sobre la base de las funciones discriminantes se procede a clasificar al

conjunto de individuos en los distintos grupos especificados en la variable dependiente.
Para ello se determina la probabilidad de pertenencia que otorga la función discriminante,
y esta probabilidad será indicativo de la bondad de nuestro procedimiento de
clasificación.
4.- Aplicación práctica
Vamos a operar con el trabajo original de Fisher (1936), que supuso la introducción de este
tipo de técnicas. Se trata de distinguir tres tipos de lirios (Setosa, Versicolor y Virginica) a
partir de las medidas de diferentes partes de tales flores; en concreto, de la longitud y
anchura que presentan los pétalos y sépalos (en milímetros). Para ello disponemos de una
muestra de 150 flores distribuidas en partes iguales en los tres tipos de lirios.
Se trata, como se ha comentado, de comprobar inicialmente de la eficacia discriminante de

las variables estudiadas, para acto seguido, extraer de las mismas la dimensión relevante
(función discriminante) que permita diferenciar tales variables en los distintos grupos. Y
por último, proceder a clasificar los lirios según los valores de la función discriminante.
Tengamos para ello el fichero lirios.sav donde se contemplan las variables mencionadas:
3
4.1.- Comprobación de los supuestos del modelo
Como se recordará, tres son los supuestos básicos a considerar: normalidad de las
variables, las medias han de ser estadísticamente diferentes para los distintos grupos, e
igualdad de las matrices de varianzas covarianzas en dichos grupos. Para lo primero
disponemos de gráficos y la prueba de Kolmogorov, para lo segundo, del análisis de la
varianza, y en concreto de la Lambda de Wilks, y para lo último, de la prueba de Box. Hay
que decir que tales supuestos no son muy restrictivos en sentido de invalidar el análisis
discriminante, aunque si no se cumplen hay que tomar’ los resultados con cierta
precaución, especialmente en la clasificación de los casos, cuyos porcentajes no serían
muy exactos.
4.1.1.- Normalidad
Comencemos por la normalidad. Como la prueba de normalidad se refiere a cada una de

las muestras por separado, hemos de seleccionar uno por uno los distintos grupos. Por
ejemplo, para el primer grupo hemos de ir a Datos/Seleccionar casos y allí:
4
Luego vayamos a Analizar/Pruebas no parámetricas/K-S de 1 muestra:
Obtendremos para lirios=1, o sea setosa:
5
Prueba de Kolmogorov-Smirnov para una muestra
Longitud Anchura Longitud Anchura

del sépalo del sépalo del pétalo del pétalo
N 50 50 50 50
Parámetros
a,b
Media 5,0060 3,4280 1,4620 ,2460
normales Desviación típica
,35249 ,37906 ,17366 ,10539
Diferencias más Absoluta ,115 ,105 ,153 ,349
extremas Positiva ,115 ,105 ,153 ,349
Negativa -,093 -,091 -,141 -,231
Z de Kolmogorov-Smirnov
,812 ,740 1,085 2,466
Sig. asintót. (bilateral) ,524 ,644 ,190 ,000
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.
Para lirios=2 (Versicolor):

N 50 50 50 50
Parámetros
a,b
Media 5,9360 2,7700 4,2600 1,3260
,51617 ,31380 ,46991 ,19775
Negativa -,079 -,121 -,117 -,148
,681 ,853 ,828 1,044
Para lirio=3 (Virginica):

N 50 50 50 50
Parámetros
a,b
Media 6,5880 2,9740 5,5520 2,0260
,63588 ,32250 ,55189 ,27465
Negativa -,065 -,112 -,067 -,121
,813 ,904 ,803 ,854
6
Se observa que a excepción de la anchura del pétalo se cumple la condición de
normalidad. Podemos suponer que en términos generales se cumple tal supuesto.
4.1.2.- Medias diferentes
La exigencia de que las variables han de diferir en los grupos es razonable. Si se

comportase igual en todos lo grupos no habría nada en ellas que discriminara de un grupo
cualquiera respecto a otro. A este respecto recurrimos a Analizar/Comparar
medias/Anova de un factor:
Y obtendremos:
ANOVA
Suma de Media
cuadrados gl cuadrática F Sig.
Longitud del sépalo Inter-grupos 63,212 2 31,606 119,265 ,000
Intra-grupos 38,956 147 ,265
Total 102,168 149
Anchura del sépalo Inter-grupos 11,345 2 5,672 49,160 ,000
Intra-grupos 16,962 147 ,115
Total 28,307 149
Longitud del pétalo Inter-grupos 437,103 2 218,551 1180,161 ,000
Intra-grupos 27,223 147 ,185
Total 464,325 149
Anchura del pétalo Inter-grupos 80,413 2 40,207 960,007 ,000
Intra-grupos 6,157 147 ,042
Total 86,570 149
Si recurrimos a la Lambda de Wilks obtendremos los mismos resultados. Para ello hay que
entrar ya en el análisis discriminante propiamente dicho y marcar en Analizar/
Clasificar/Discriminante:
7
Y a continuación presionar Estadísticos y marcar lo siguiente:
Los resultados:
Pruebas de igualdad de las medias de los grupos
Lambda
de Wilks F gl1 gl2 Sig.
Longitud del sépalo ,381 119,265 2 147 ,000
Anchura del sépalo ,599 49,160 2 147 ,000
Longitud del pétalo ,059 1180,161 2 147 ,000
Anchura del pétalo ,071 960,007 2 147 ,000
Obsérvese que el valor de F es el mismo así como su probabilidad asociada. Todas las
medias son diferentes. La única diferencia radica en la Lambda de Wilks, que aquí se
interpreta como la proporción de variabilidad no explicada. Por ejemplo, para la Longitud
de sépalo, si recurrimos a la tabla del análisis de la varianza, su proporción explicada será
8
63.212/102.168=0.619, en consecuencia, la no explicada 1-0.619=0.381, valor coincidente
con la Lambda de Wilks.
Obviamente, también se nos ofrece tanto aquí como en el análisis de la varianza los
descriptivos por grupo de estas variables:
Descriptivos
Intervalo de confianza para

la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior
Longitud del sépalo Setosa 50 5,0060 ,35249 ,04985 4,9058 5,1062
Versicolor 50 5,9360 ,51617 ,07300 5,7893 6,0827
Virginica 50 6,5880 ,63588 ,08993 6,4073 6,7687
Total 150 5,8433 ,82807 ,06761 5,7097 5,9769
Anchura del sépalo Setosa 50 3,4280 ,37906 ,05361 3,3203 3,5357
Versicolor 50 2,7700 ,31380 ,04438 2,6808 2,8592
Virginica 50 2,9740 ,32250 ,04561 2,8823 3,0657
Total 150 3,0573 ,43587 ,03559 2,9870 3,1277
Longitud del pétalo Setosa 50 1,4620 ,17366 ,02456 1,4126 1,5114
Versicolor 50 4,2600 ,46991 ,06646 4,1265 4,3935
Virginica 50 5,5520 ,55189 ,07805 5,3952 5,7088
Total 150 3,7580 1,76530 ,14414 3,4732 4,0428
Anchura del pétalo Setosa 50 ,2460 ,10539 ,01490 ,2160 ,2760
Versicolor 50 1,3260 ,19775 ,02797 1,2698 1,3822
Virginica 50 2,0260 ,27465 ,03884 1,9479 2,1041
Total 150 1,1993 ,76224 ,06224 1,0764 1,3223
4.1.3.- Igualdad de matrices de varianzas-covarianzas
En relación a la igualdad de las matrices de varianzas covarianzas de las variables para las
distintas muestras, disponemos de la prueba M de Box, basada en los determinantes de las
distintas matrices. La distribución de este estadístico puede transformarse en la conocida
distribución F de Snedecor, con lo que la interpretación es sencilla. Para ello, dentro del
discriminante, marcamos Estadísticos y allí M de Box:
Los resultados:
9
Resultados de la prueba
M de Box 146,663
F Aprox. 7,045
gl1 20
gl2 77566,75
Sig. ,000
Contrasta la hipótesis nula de que las matrices
de covarianza poblacionales son iguales.
El valor de F es significativo, lo que tampoco ha de asustarnos demasiado dado lo sensible

que es esta prueba a lo tamaños muestrales y la ausencia de normalidad. Es una prueba
bastante criticada por ser excesivamente conservadora.
4.2.- Cálculo de las funciones discriminantes
Las funciones discriminantes pueden considerarse como nuevas variables generadas a

partir de las variables independientes, como combinación lineal de las mismas. Su
expresión es equivalente a la de la regresión múltiple:
Di  b0  b1 X 1  b2 X 2    bp X p
Los coeficientes b1 , b2  bp hacen referencia a las ponderaciones de las variables

independientes de tal forma que los grupos difieran lo más posible en D, o dicho en
términos matemáticos, que el cociente entre la suma de cuadrados intergrupo e intragrupo
sea máxima. En este sentido, obtendremos los siguientes resultados:
Autovalores
Correlación
Función Autovalor % de varianza % acumulado canónica
1 32,192a 99,1 99,1 ,985
2 ,285a ,9 100,0 ,471
a. Se han empleado las 2 primeras funciones discriminantes
canónicas en el análisis.
Hay dos funciones discriminantes que explican el 100% de la varianza. El primero mucho
más importante que el segundo. Por otro lado, las puntuaciones medias logradas al aplicar
estas funciones discriminantes en los distintos grupos son muy diferentes entre sí como
atestigua la Lambda de Wilks:
Lambda de Wilks
Contraste de Lambda
las funciones de Wilks Chi-cuadrado gl Sig.
1 a la 2 ,023 546,115 8 ,000
2 ,778 36,530 3 ,000
10
En relación a los coeficientes:
Coeficientes de las funciones canónicas discriminantes
Función
1 2
Longitud del sépalo -,829 ,024
Anchura del sépalo -1,534 2,165
Longitud del pétalo 2,201 -,932
Anchura del pétalo 2,810 2,839
(Constante) -2,105 -6,661
Coeficientes no tipificados
Si los deseamos en estandarizados y así los hacemos comparables:
Coeficientes estandarizados de las

funciones discriminantes canónicas
Función
1 2
Longitud del sépalo -,427 ,012
Anchura del sépalo -,521 ,735
Longitud del pétalo ,947 -,401
Anchura del pétalo ,575 ,581
Si queremos saber a qué puntuaciones medias nos lleva aplicar las funciones
discriminantes:
Funciones en los centroides de los grupos
Función
Tipo de lirio 1 2
Setosa -7,608 ,215
Versicolor 1,825 -,728
Virginica 5,783 ,513
Funciones discriminantes canónicas no tipificadas
evaluadas en las medias de los grupos
Valores medios muy diferentes, tal como ya quedó señalado en la Lambda de Wilks.
Si nos interesa conocer las funciones discriminantes para cada uno de las observaciones
podemos recurrir a la opción de guardar. Así:
11
Obteniendo los siguientes resultados:
Efectivamente, si realizáramos un análisis de la varianza con la primera función:
Descriptivos
Puntuaciones discriminantes de la función 1 para el análisis 1
Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior
Setosa 50 -7,60760 ,84746079 ,11984905 -7,8484456 -7,36675
Versicolor 50 1,825049 1,03617013 ,14653659 1,5305732 2,119526
Virginica 50 5,782550 1,09916408 ,15544527 5,4701715 6,094929
Total 150 ,0000000 5,72244702 ,46723584 -,9232642 ,9232642
12
Valores coincidentes con los obtenidos anteriormente.
Igualmente resulta esclarecedora la matriz de estructura donde se recoge las correlaciones

de las distintas variables con las funciones discriminantes:
Matriz de estructura
Función
1
2
Longitud del pétalo ,706* ,168
Anchura del sépalo -,119 ,864*
Anchura del pétalo ,633 ,737*
Longitud del sépalo ,223 ,311*
Correlaciones intra-grupo combinadas entre las
variables discriminantes y las funciones
discriminantes canónicas tipificadas
Variables ordenadas por el tamaño de la
correlación con la función.
*. Mayor correlación absoluta entre cada
variable y cualquier función discriminante.
Se observa que es la longitud del pétalo la variable que más contribuye en la

discriminación de la primera función discriminante (la más importante), mientras que es la
anchura del sépalo la que lo hace para la segunda función.
4.3.- Clasificación
Por último nos interesa saber cómo de bien lo han hecho las funciones discriminantes para
distinguir los distintos grupos. Nos ofrecen una información global gráfica, otra numérica,
y por último, individualizada para cada uno de los lirios. A tal respecto, marcamos
clasificar:
13
En relación a la gráfica, nos muestra la que ya hemos conocido previamente mediante el
gráfico de dispersión. Aquí tenemos también sus valores medio o centroides:
funciones discriminantes canónicas
3 Tipo de lirio
Setosa
2 Versicolor
Virginica
F u n c ió n 2
Centroide
1
de grupo
Virginica
Setosa
0
Versicolor
-1
-2
-3
-10 -5 0 5 10
Función 1
Se observa que los grupos están bastante discriminados. Tan sólo algunos lirios del tipo
versicolor (verde) se entremezclan con los lirios viginica (gris).
También, en términos generales, cuántos han sido clasificados correctamente:
Resultados de la clasificación a
Grupo de pertenencia pronosticado

Tipo de lirio Setosa Versicolor Virginica Total
Original Recuento Setosa 50 0 0 50
Versicolor 0 48 2 50
Virginica 0 1 49 50
% Setosa 100,0 ,0 ,0 100,0
Versicolor ,0 96,0 4,0 100,0
Virginica ,0 2,0 98,0 100,0
a. Clasificados correctamente el 98,0% de los casos agrupados originales.
Reobserva en la variedad setosa no ha habido ni un fallo, tan sólo 2 versicolores se han

diagnosticado erróneamente como virginica, y una virginica como versicolor.
Para ver qué tal lo ha hecho lirio por lirio:
14
Estadísticos por casos
Puntuaciones
Grupo mayor Segundo grupo mayor discriminantes
Gr Distancia
up de
o Distancia Mahalan
Nú pr de obis al
me on Mahalano cuadrad
ro os bis al o hasta
de Gru tic cuadrado el
cas po ad P(D>d | G=g) P(G=g | hasta el Gru P(G=g centroid
os real o p gl D=d) centroide po | D=d) e Función 1 Función 2
1 1 1 ,594 2 1,000 1,043 2 ,000 88,319 -7,572 -,805
2 1 1 ,271 2 1,000 2,610 2 ,000 70,401 -6,561 -1,015
3 1 1 ,522 2 1,000 1,301 2 ,000 76,724 -6,934 -,706
4 1 1 ,830 2 1,000 ,372 2 ,000 82,401 -7,241 -,273
5 1 1 ,015 2 1,000 8,406 2 ,000 57,510 -5,662 -1,934
6 1 1 ,493 2 1,000 1,416 2 ,000 74,623 -6,813 -,671
7 1 1 ,775 2 1,000 ,509 2 ,000 81,347 -7,187 -,361
8 1 1 ,916 2 1,000 ,176 2 ,000 82,854 -7,213 ,356
9 1 1 ,451 2 1,000 1,591 2 ,000 112,956 -8,681 ,878
10 1 1 ,885 2 1,000 ,245 2 ,000 86,981 -7,490 -,265
11 1 1 ,553 2 1,000 1,183 2 ,000 74,934 -6,829 -,545
12 1 1 ,419 2 1,000 1,738 2 ,000 83,875 -7,327 -1,073
13 1 1 ,541 2 1,000 1,229 2 ,000 73,833 -6,765 -,505
14 1 1 ,434 2 1,000 1,669 2 ,000 73,686 -6,759 -,759
15 1 1 ,880 2 1,000 ,256 2 ,000 82,182 -7,219 -,110
16 1 1 ,481 2 1,000 1,465 2 ,000 70,406 -6,559 -,389
17 1 1 ,540 2 1,000 1,233 2 ,000 80,173 -7,129 -,787
18 1 1 ,491 2 1,000 1,421 2 ,000 84,102 -7,343 -,947
19 1 1 ,586 2 1,000 1,069 2 ,000 78,984 -7,062 -,663
20 1 1 ,770 2 1,000 ,523 2 ,000 104,048 -8,330 ,228
21 1 1 ,349 2 1,000 2,105 2 ,000 73,958 -6,771 -,971
22 1 1 ,875 2 1,000 ,268 2 ,000 96,040 -7,959 -,165
23 1 1 ,939 2 1,000 ,127 2 ,000 90,545 -7,672 -,135
24 1 1 ,975 2 1,000 ,051 2 ,000 89,444 -7,605 -,012
25 1 1 ,713 2 1,000 ,677 2 ,000 76,208 -6,823 ,463
26 1 1 ,857 2 1,000 ,308 2 ,000 96,894 -7,918 ,675
27 1 1 ,288 2 1,000 2,489 2 ,000 71,791 -6,414 1,247
28 1 1 ,833 2 1,000 ,365 2 ,000 100,692 -8,132 ,514
29 1 1 ,389 2 1,000 1,890 2 ,000 66,592 -6,251 ,440
30 1 1 ,972 2 1,000 ,057 2 ,000 91,019 -7,688 -,009
31 1 1 ,899 2 1,000 ,214 2 ,000 98,807 -8,062 ,300
32 1 1 ,920 2 1,000 ,166 2 ,000 93,993 -7,781 ,584
33 1 1 ,611 2 1,000 ,986 2 ,000 92,325 -7,586 1,208
34 1 1 ,598 2 1,000 1,027 2 ,000 100,435 -8,021 1,141
35 1 1 ,769 2 1,000 ,526 2 ,000 100,372 -8,082 ,763
36 1 1 ,533 2 1,000 1,260 2 ,000 78,587 -6,859 1,052
37 1 1 ,921 2 1,000 ,164 2 ,000 97,024 -7,991 ,086
38 1 1 ,951 2 1,000 ,101 2 ,000 95,935 -7,925 ,210
39 1 1 ,190 2 1,000 3,325 2 ,000 123,745 -9,126 1,224
40 1 1 ,710 2 1,000 ,684 2 ,000 104,694 -8,314 ,645
41 1 1 ,915 2 1,000 ,177 2 ,000 86,314 -7,375 ,566
42 1 1 ,916 2 1,000 ,175 2 ,000 87,188 -7,497 -,188
43 1 1 ,667 2 1,000 ,811 2 ,000 106,390 -8,397 ,647
44 1 1 ,168 2 1,000 3,573 2 ,000 114,881 -8,582 1,834
45 1 1 ,458 2 1,000 1,563 2 ,000 95,558 -7,702 1,462
46 1 1 ,592 2 1,000 1,048 2 ,000 110,246 -8,614 ,403
47 1 1 ,049 2 1,000 6,052 2 ,000 134,044 -9,468 1,825
48 1 1 ,674 2 1,000 ,789 2 ,000 100,956 -8,078 ,969
49 1 1 ,012 2 1,000 8,767 2 ,000 132,642 -9,158 2,738
50 1 1 ,032 2 1,000 6,907 2 ,000 141,657 -9,850 1,586
51 2 2 ,192 2 1,000 3,302 3 ,000 35,312 ,223 -1,585
52 2 2 ,133 2 1,000 4,033 3 ,000 30,962 1,194 -2,634
53 2 2 ,174 2 1,000 3,493 3 ,000 35,476 ,293 -1,799
54 2 2 ,071 2 1,000 5,300 3 ,000 40,892 -,476 -,800
55 2 2 ,923 2 1,000 ,159 3 ,000 15,371 1,958 -,352
56 2 2 ,407 2 ,964 1,800 3 ,036 8,350 2,934 ,027
57 2 2 ,628 2 1,000 ,930 3 ,000 16,801 2,262 -1,587
58 2 2 ,227 2 1,000 2,964 3 ,000 32,832 ,606 -1,943
59 2 2 ,457 2 1,000 1,565 3 ,000 26,994 1,107 -1,752
60 2 2 ,905 2 1,000 ,199 3 ,000 17,425 1,956 -1,154
61 2 2 ,582 2 ,999 1,084 3 ,001 15,872 2,402 -1,595
62 2 2 ,510 2 1,000 1,347 3 ,000 26,593 1,090 -1,627
63 2 2 ,968 2 1,000 ,064 3 ,000 16,274 2,006 -,905
64 2 2 ,252 2 1,000 2,756 3 ,000 29,387 ,378 ,087
65 2 2 ,752 2 1,000 ,569 3 ,000 20,322 1,326 -,163
66 2 2 ,480 2 ,981 1,467 3 ,019 9,318 2,768 15
,032
67 2 2 ,086 2 1,000 4,897 3 ,000 40,443 -,307 -1,319
68 2 2 ,954 2 1,000 ,094 3 ,000 19,142 1,549 -,593
69 2 2 ,809 2 ,999 ,423 3 ,001 13,427 2,430 -,966
70 2 2 ,946 2 1,000 ,110 3 ,000 18,325 1,616 -,470
Se observa, hasta donde es visible, que el grupo real y pronosticado coinciden. Luego
entre los restantes valores destaca P(G=g | D=d) que indica la pertenencia a un
determinado grupo dada una cierta puntuación discriminante. La probabilidad en estos
casos es de 1 ya que no habido error posible. La distancia Mahalanobis puede considerarse
una distancia euclídea ponderada por sus varianzas-covarianzas, y tiene interés para saber
cuán lejos se encuentra de la media de su grupo de pertenencia. Precisamente sobre los
que están más lejos pueden estar incorrectamente clasificados.
16
BIBLIOGRAFÍA
A.A. And Clark, V. (1996) Computer-Aided Multivariate Analysis. Third Edition. Texts in
Statistical Science. Chapman and Hall.
Everitt, B. And Graham, D. (1991). Applied Multivariate Data Analysis. Arnold.
Ferran, M. (1997). SPSS para WINDOWS. Programación y Análisis Estadístico. Mc.Graw
Hill.
Gil Flores, J., García Jiménez, E., Rodríguez Gómez, G (2001). Análisis discriminante.
Madrid. La Muralla.
Hair, J., Anderson, R., Tatham, R. Y Black, W. (1999). Análisis Multivariante. 5ª Edición.
Prentice Hall.
Huberty, Carl J. (1994). Applied discriminant analysis . NY: Wiley-Interscience. (Wiley
Series in Probability and Statistics).
Jobson, J.D. (1992) Applied Multivariate Data Analysis. Volume II: Categorical and
Multivariate Methods. Springer-Verlag.
Klecka, William R. (1980). Discriminant analysis. Quantitative Applications in the Social
Sciences Series, No. 19. Thousand Oaks, CA: Sage Publications.
Lachenbruch, P. A. (1975). Discriminant analysis. NY: Hafner.
Mardia, K.V., Kent, J.T. Y Bibby, J.M. (1994). Multivariate Analysis. Academic Press.
McLachlan, Geoffrey J. (2004). Discriminant analysis and statistical pattern recognition.
NY: Wiley-Interscience. (Wiley Series in Probability and Statistics).
Sharma, S. (1998). Applied Multivariate Techiques. John Wiley and Sons.
SPSS (1999). SPSS Advanced Models 10.0. Chicago: SPSS Inc.
Uriel, E. (1995). Análisis de Datos: Series temporales y Análisis Multivariante. Colección
Plan Nuevo. Editorial AC.
Visauta, B. (1998) Análisis Estadístico con SPSS para WINDOWS (Vol II. Análisis
Multivariante). Mc-Graw Hill.
17

Discriminante

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Discriminante

Cargado por

Copyright:

Formatos disponibles

ANÁLISIS DISCRIMINANTE

En términos puramente estadísticos tenemos una variable dependiente de agrupación, que

El análisis discriminante persigue un doble objetivo. Por un lado, determinar aquellas

2.- Supuestos del modelo

.- Las matrices de varianzas-covarianzas de los distintos grupos han de ser

Por último, y sobre la base de las funciones discriminantes se procede a clasificar al

4.- Aplicación práctica

Se trata, como se ha comentado, de comprobar inicialmente de la eficacia discriminante de

Comencemos por la normalidad. Como la prueba de normalidad se refiere a cada una de

Obtendremos para lirios=1, o sea setosa:

Longitud Anchura Longitud Anchura

Para lirios=2 (Versicolor):

Prueba de Kolmogorov-Smirnov para una muestra

Longitud Anchura Longitud Anchura

Para lirio=3 (Virginica):

Prueba de Kolmogorov-Smirnov para una muestra

Longitud Anchura Longitud Anchura

4.1.2.- Medias diferentes

La exigencia de que las variables han de diferir en los grupos es razonable. Si se

Pruebas de igualdad de las medias de los grupos

Intervalo de confianza para

4.1.3.- Igualdad de matrices de varianzas-covarianzas

El valor de F es significativo, lo que tampoco ha de asustarnos demasiado dado lo sensible

4.2.- Cálculo de las funciones discriminantes

Las funciones discriminantes pueden considerarse como nuevas variables generadas a

Los coeficientes b1 , b2  bp hacen referencia a las ponderaciones de las variables

Coeficientes de las funciones canónicas discriminantes

Si los deseamos en estandarizados y así los hacemos comparables:

Coeficientes estandarizados de las

Funciones en los centroides de los grupos

Efectivamente, si realizáramos un análisis de la varianza con la primera función:

Igualmente resulta esclarecedora la matriz de estructura donde se recoge las correlaciones

Se observa que es la longitud del pétalo la variable que más contribuye en la

funciones discriminantes canónicas

También, en términos generales, cuántos han sido clasificados correctamente:

Grupo de pertenencia pronosticado

Reobserva en la variedad setosa no ha habido ni un fallo, tan sólo 2 versicolores se han

Para ver qué tal lo ha hecho lirio por lirio:

También podría gustarte