Está en la página 1de 18

ANÁLISIS DISCRIMINANTE

1.- Introducción ............................................................................................................. 2


2.- Supuestos del modelo ............................................................................................... 2
3.- Procedimiento .......................................................................................................... 2
4.- Aplicación práctica .................................................................................................. 3
4.1.- Comprobación de los supuestos del modelo ......................................................... 4
4.1.1.- Normalidad ........................................................................................................ 5
4.1.2.- Medias diferentes .............................................................................................. 7
4.1.3.- Igualdad de matrices de varianzas-covarianzas ................................................ 9
4.2.- Cálculo de las funciones discriminantes ............................................................ 10
4.3.- Clasificación ....................................................................................................... 13
Bibliografía ................................................................................................................. 16

Carlos Camacho
Universidad de Sevilla

1
ANÁLISIS DISCRIMINANTE

1.- Introducción

El análisis discriminante es una técnica que permite asignar a distintos grupos (definidos
previamente) a un conjunto de individuos en función de un conjunto de variables de estos
sujetos medidas cuantitativamente (se admiten dicotómicas con codificación dummy). Es
pues una técnica de clasificación. Por ejemplo, si disponemos de los resultados de una
cierta encuesta donde conocemos las personas que han votados al candidato A, B o C, nos
puede interesar conocer qué rasgos de estas personas ayudan a conocer los resultados en
su opción política. Tiene interés por cuanto una vez realizadas las relaciones y efectuada la
generalización correspondiente a nivel poblacional, podemos trabajar con muestras
distintas de sujetos (a los que no se les pasó la encuesta) para poder realizar los
pronósticos oportunos.

En términos puramente estadísticos tenemos una variable dependiente de agrupación, que


será cualitativa con dos o más categorías, y un conjunto de variables independientes o
explicativas, de carecer cuantitativo, que será aquellas variables, cuyos valores nos
permitan predecir a qué grupo será asignado el sujeto correspondiente.

El análisis discriminante persigue un doble objetivo. Por un lado, determinar aquellas


variables independientes que mejor discriminan a los sujetos a los distintos grupos. Y por
otro lado, en base a esta información clasificar a los sujetos en tales grupos.

2.- Supuestos del modelo

Como todo modelo estadístico se exige unos ciertos supuestos para su aplicación.
Destaquemos lo siguientes:

.- Las variables que definen los grupos han de ser categóricas, mientras que las
independientes (aquí discriminantes) han de ser medidas al menos en una escala de
intervalo (o categóricas codificadas en dummy).

.- Las variables han de seguir distribuciones normales y sus medias han de ser
estadísticamente diferentes para los distintos grupos.

.- Las matrices de varianzas-covarianzas de los distintos grupos han de ser


estadísticamente equivalentes.

2
3.- Procedimiento

En primer lugar comprobaremos los supuestos del modelo, para ello recurrimos como es
habitual, a la descripción estadística de las distintas variables. Se analizan el tema de la
normalidad de las distintas variables independientes junto a la igualdad de las matrices de
varianzas covarianzas. Igualmente se comprueba si los promedios entre los grupos para
las distintas variables difieren entre sí, lo que sería indicativo de que los valores en tales
variables son “discriminantes” en el sentido de permiten diferenciar unos grupos de otros.

El siguiente punto consiste en obtener las funciones discriminantes sobre la base de las
variables anteriores que mostraban un comportamiento diferente entre los distintos grupos.
Las funciones discriminantes tiene cierto parecido con el análisis factorial y consiste en
determinar un conjunto de variables latentes o factores, combinación lineal de las variables
independientes consideradas, que reflejan las dimensiones básicas subyacentes de
variabilidad de las variables originales. La idea es operar, no con el conjunto de variables
discriminantes, lo que sería bastante engorroso, sino con lo substancial de la misma.

Por último, y sobre la base de las funciones discriminantes se procede a clasificar al


conjunto de individuos en los distintos grupos especificados en la variable dependiente.
Para ello se determina la probabilidad de pertenencia que otorga la función discriminante,
y esta probabilidad será indicativo de la bondad de nuestro procedimiento de
clasificación.

4.- Aplicación práctica

Vamos a operar con el trabajo original de Fisher (1936), que supuso la introducción de
este tipo de técnicas. Se trata de distinguir tres tipos de lirios (Setosa, Versicolor y
Virginica) a partir de las medidas de diferentes partes de tales flores; en concreto, de la
longitud y anchura que presentan los pétalos y sépalos (en milímetros). Para ello
disponemos de una muestra de 150 flores distribuidas en partes iguales en los tres tipos de
lirios.

Se trata, como se ha comentado, de comprobar inicialmente de la eficacia discriminante de


las variables estudiadas, para acto seguido, extraer de las mismas la dimensión relevante
(función discriminante) que permita diferenciar tales variables en los distintos grupos. Y
por último, proceder a clasificar los lirios según los valores de la función discriminante.

Tengamos para ello el fichero lirios.sav donde se contemplan las variables mencionadas:

3
4.1.- Comprobación de los supuestos del modelo

Como se recordará, tres son los supuestos básicos a considerar: normalidad de las
variables, las medias han de ser estadísticamente diferentes para los distintos grupos, e
igualdad de las matrices de varianzas covarianzas en dichos grupos. Para lo primero
disponemos de gráficos y la prueba de Kolmogorov, para lo segundo, del análisis de la
varianza, y en concreto de la Lambda de Wilks, y para lo último, de la prueba de Box. Hay
que decir que tales supuestos no son muy restrictivos en sentido de invalidar el análisis
discriminante, aunque si no se cumplen hay que tomar los resultados con cierta
precaución, especialmente en la clasificación de los casos, cuyos porcentajes no serían
muy exactos.

4.1.1.- Normalidad

Comencemos por la normalidad. Como la prueba de normalidad se refiere a cada una de


las muestras por separado, hemos de seleccionar uno por uno los distintos grupos. Por
ejemplo, para el primer grupo hemos de ir a Datos/Seleccionar casos y allí:

4
Luego vayamos a Analizar/Pruebas no parámetricas/K-S de 1 muestra:

Obtendremos para lirios=1, o sea setosa:

5
Prueba de Kolmogorov-Smirnov para una muestra

Longitud Anchura Longitud Anchura


del sépalo del sépalo del pétalo del pétalo
N 50 50 50 50
Parámet ros
a,b
Media 5,0060 3,4280 1,4620 ,2460
normales Desv iación t ípica
,35249 ,37906 ,17366 ,10539
Dif erencias más Absoluta ,115 ,105 ,153 ,349
extremas Positiv a ,115 ,105 ,153 ,349
Negativ a -,093 -,091 -,141 -,231
Z de Kolmogorov -Smirnov
,812 ,740 1,085 2,466
Sig. asintót. (bilateral) ,524 ,644 ,190 ,000
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.

Para lirios=2 (Versicolor):

Prueba de Kolmogorov-Smirnov para una muestra

Longitud Anchura Longitud Anchura


del sépalo del sépalo del pétalo del pétalo
N 50 50 50 50
Parámet ros
a,b
Media 5,9360 2,7700 4,2600 1,3260
normales Desv iación t ípica
,51617 ,31380 ,46991 ,19775
Dif erencias más Absoluta ,096 ,121 ,117 ,148
extremas Positiv a ,096 ,072 ,055 ,112
Negativ a -,079 -,121 -,117 -,148
Z de Kolmogorov -Smirnov
,681 ,853 ,828 1,044
Sig. asintót. (bilateral) ,743 ,460 ,499 ,225
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.

Para lirio=3 (Virginica):

Prueba de Kolmogorov-Smirnov para una muestra

Longitud Anchura Longitud Anchura


del sépalo del sépalo del pétalo del pétalo
N 50 50 50 50
Parámet ros
a,b
Media 6,5880 2,9740 5,5520 2,0260
normales Desv iación t ípica
,63588 ,32250 ,55189 ,27465
Dif erencias más Absoluta ,115 ,128 ,114 ,121
extremas Positiv a ,115 ,128 ,114 ,115
Negativ a -,065 -,112 -,067 -,121
Z de Kolmogorov -Smirnov
,813 ,904 ,803 ,854
Sig. asintót. (bilateral) ,522 ,387 ,539 ,459
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.

6
Se observa que a excepción de la anchura del pétalo se cumple la condición de
normalidad. Podemos suponer que en términos generales se cumple tal supuesto.

4.1.2.- Medias diferentes

La exigencia de que las variables han de diferir en los grupos es razonable. Si se


comportase igual en todos lo grupos no habría nada en ellas que discriminara de un grupo
cualquiera respecto a otro. A este respecto recurrimos a Analizar/Comparar
medias/Anova de un factor:

Y obtendremos:

ANOVA

Suma de Media
cuadrados gl cuadrática F Sig.
Longitud del sépalo Inter-grupos 63,212 2 31,606 119,265 ,000
Intra-grupos 38,956 147 ,265
Total 102,168 149
Anchura del sépalo Inter-grupos 11,345 2 5,672 49,160 ,000
Intra-grupos 16,962 147 ,115
Total 28,307 149
Longitud del pétalo Inter-grupos 437,103 2 218,551 1180,161 ,000
Intra-grupos 27,223 147 ,185
Total 464,325 149
Anchura del pétalo Inter-grupos 80,413 2 40,207 960,007 ,000
Intra-grupos 6,157 147 ,042
Total 86,570 149

Si recurrimos a la Lambda de Wilks obtendremos los mismos resultados. Para ello hay que
entrar ya en el análisis discriminante propiamente dicho y marcar en Analizar/
Clasificar/Discriminante:

7
Y a continuación presionar Estadísticos y marcar lo siguiente:

Los resultados:

Pruebas de igualdad de las medias de los grupos

Lambda
de Wilks F gl1 gl2 Sig.
Longitud del sépalo ,381 119,265 2 147 ,000
Anchura del sépalo ,599 49,160 2 147 ,000
Longitud del pétalo ,059 1180,161 2 147 ,000
Anchura del pétalo ,071 960,007 2 147 ,000

Obsérvese que el valor de F es el mismo así como su probabilidad asociada. Todas las
medias son diferentes. La única diferencia radica en la Lambda de Wilks, que aquí se
interpreta como la proporción de variabilidad no explicada. Por ejemplo, para la Longitud
de sépalo, si recurrimos a la tabla del análisis de la varianza, su proporción explicada será

8
63.212/102.168=0.619, en consecuencia, la no explicada 1-0.619=0.381, valor coincidente
con la Lambda de Wilks.

Obviamente, también se nos ofrece tanto aquí como en el análisis de la varianza los
descriptivos por grupo de estas variables:

Descriptivos
Interv alo de conf ianza para
la media al 95%
Desv iación Límite
N Media típica Error típico Límite inf erior superior
Longitud del sépalo Setosa 50 5,0060 ,35249 ,04985 4,9058 5,1062
Versicolor 50 5,9360 ,51617 ,07300 5,7893 6,0827
Virginica 50 6,5880 ,63588 ,08993 6,4073 6,7687
Total 150 5,8433 ,82807 ,06761 5,7097 5,9769
Anchura del sépalo Setosa 50 3,4280 ,37906 ,05361 3,3203 3,5357
Versicolor 50 2,7700 ,31380 ,04438 2,6808 2,8592
Virginica 50 2,9740 ,32250 ,04561 2,8823 3,0657
Total 150 3,0573 ,43587 ,03559 2,9870 3,1277
Longitud del pétalo Setosa 50 1,4620 ,17366 ,02456 1,4126 1,5114
Versicolor 50 4,2600 ,46991 ,06646 4,1265 4,3935
Virginica 50 5,5520 ,55189 ,07805 5,3952 5,7088
Total 150 3,7580 1,76530 ,14414 3,4732 4,0428
Anchura del pétalo Setosa 50 ,2460 ,10539 ,01490 ,2160 ,2760
Versicolor 50 1,3260 ,19775 ,02797 1,2698 1,3822
Virginica 50 2,0260 ,27465 ,03884 1,9479 2,1041
Total 150 1,1993 ,76224 ,06224 1,0764 1,3223

4.1.3.- Igualdad de matrices de varianzas-covarianzas

En relación a la igualdad de las matrices de varianzas covarianzas de las variables para las
distintas muestras, disponemos de la prueba M de Box, basada en los determinantes de las
distintas matrices. La distribución de este estadístico puede transformarse en la conocida
distribución F de Snedecor, con lo que la interpretación es sencilla. Para ello, dentro del
discriminante, marcamos Estadísticos y allí M de Box:

Los resultados:

9
Resultados de la prueba
M de Box 146,663
F Aprox. 7,045
gl1 20
gl2 77566,75
Sig. ,000
Contrasta la hipótesis nula de que las mat rices
de cov arianza poblacionales son iguales.

El valor de F es significativo, lo que tampoco ha de asustarnos demasiado dado lo sensible


que es esta prueba a lo tamaños muestrales y la ausencia de normalidad. Es una prueba
bastante criticada por ser excesivamente conservadora.

4.2.- Cálculo de las funciones discriminantes

Las funciones discriminantes pueden considerarse como nuevas variables generadas a


partir de las variables independientes, como combinación lineal de las mismas. Su
expresión es equivalente a la de la regresión múltiple:

Di  b0  b1 X 1  b2 X 2    bp X p

Los coeficientes b1, b2 bp hacen referencia a las ponderaciones de las variables
independientes de tal forma que los grupos difieran lo más posible en D, o dicho en
términos matemáticos, que el cociente entre la suma de cuadrados intergrupo e intragrupo
sea máxima. En este sentido, obtendremos los siguientes resultados:

Autovalores

Correlación
Función Autov alor % de v arianza % acumulado canónica
1 32,192a 99,1 99,1 ,985
2 a
,285 ,9 100,0 ,471
a. Se han empleado las 2 primeras f unciones discriminantes
canónicas en el análisis.

Hay dos funciones discriminantes que explican el 100% de la varianza. El primero mucho
más importante que el segundo. Por otro lado, las puntuaciones medias logradas al aplicar
estas funciones discriminantes en los distintos grupos son muy diferentes entre sí como
atestigua la Lambda de Wilks:

10
Lambda de Wil ks

Contraste de Lambda
las f unciones de Wilks Chi-cuadrado gl Sig.
1 a la 2 ,023 546,115 8 ,000
2 ,778 36,530 3 ,000

En relación a los coeficientes:

Coefici entes de las funciones canóni cas discriminantes

Función
1 2
Longitud del sépalo -,829 ,024
Anchura del sépalo -1,534 2,165
Longitud del pétalo 2,201 -,932
Anchura del pét alo 2,810 2,839
(Constante) -2,105 -6,661
Coef icientes no tipif icados

Si los deseamos en estandarizados y así los hacemos comparables:

Coeficientes estandarizados de las


funciones discriminantes canónicas

Función
1 2
Longitud del sépalo -,427 ,012
Anchura del sépalo -,521 ,735
Longitud del pétalo ,947 -,401
Anchura del pétalo ,575 ,581

Si queremos saber a qué puntuaciones medias nos lleva aplicar las funciones
discriminantes:

Funciones en l os centroi des de los grupos

Función
Tipo de lirio 1 2
Setosa -7,608 ,215
Versicolor 1,825 -,728
Virginica 5,783 ,513
Funciones discriminant es canónicas no t ipif icadas
ev aluadas en las medias de los grupos

Valores medios muy diferentes, tal como ya quedó señalado en la Lambda de Wilks.

11
Si nos interesa conocer las funciones discriminantes para cada uno de las observaciones
podemos recurrir a la opción de guardar. Así:

Obteniendo los siguientes resultados:

Efectivamente, si realizáramos un análisis de la varianza con la primera función:

12
Descriptivos
Puntuaciones discriminant es de la f unción 1 para el análisis 1
Interv alo de conf ianza para
la media al 95%
Desv iación Límite
N Media típica Error típico Límite inf erior superior
Setosa 50 -7,60760 ,84746079 ,11984905 -7,8484456 -7,36675
Versicolor 50 1,825049 1,03617013 ,14653659 1,5305732 2,119526
Virginica 50 5,782550 1,09916408 ,15544527 5,4701715 6,094929
Total 150 ,0000000 5,72244702 ,46723584 -,9232642 ,9232642

Valores coincidentes con los obtenidos anteriormente.

Igualmente resulta esclarecedora la matriz de estructura donde se recoge las correlaciones


de las distintas variables con las funciones discriminantes:

Matri z de estr uctu ra

Función
1 2
Longitud del pétalo ,706* ,168
Anchura del sépalo -,119 ,864*
Anchura del pétalo ,633 ,737*
Longitud del sépalo ,223 ,311*
Correlaciones intra- grupo combinadas entr e las
v ariables discriminantes y las f unciones
discriminantes canónicas tipif icadas
Variables ordenadas por el tamaño de la
correlación con la f unción.
* . May or corr elación absoluta entre cada
v ariable y cualquier f unción discriminante.

Se observa que es la longitud del pétalo la variable que más contribuye en la


discriminación de la primera función discriminante (la más importante), mientras que es la
anchura del sépalo la que lo hace para la segunda función.

4.3.- Clasificación

Por último nos interesa saber cómo de bien lo han hecho las funciones discriminantes para
distinguir los distintos grupos. Nos ofrecen una información global gráfica, otra numérica,
y por último, individualizada para cada uno de los lirios. A tal respecto, marcamos
clasificar:

13
En relación a la gráfica, nos muestra la que ya hemos conocido previamente mediante el
gráfico de dispersión. Aquí tenemos también sus valores medio o centroides:

funciones discriminantes canónicas

3 Tipo de lirio
Setosa

2 Versicolor
Virginica
Centroide
1
de grupo
Función 2

Virginica
Setosa
0

Versicolor
-1

-2

-3

-10 -5 0 5 10

Función 1

Se observa que los grupos están bastante discriminados. Tan sólo algunos lirios del tipo
versicolor (verde) se entremezclan con los lirios viginica (gris).

También, en términos generales, cuántos han sido clasificados correctamente:

14
Resultados de la clasificaci ón a
Grupo de pertenencia pronosticado
Tipo de lirio Setosa Versicolor Virginica Total
Original Recuento Setosa 50 0 0 50
Versicolor 0 48 2 50
Virginica 0 1 49 50
% Setosa 100,0 ,0 ,0 100,0
Versicolor ,0 96,0 4,0 100,0
Virginica ,0 2,0 98,0 100,0
a. Clasif icados correctamente el 98,0% de los casos agrupados originales.

Se observa en la variedad setosa no ha habido ni un fallo, tan sólo 2 versicolores se han


diagnosticado erróneamente como virginica, y una virginica como versicolor.

Para ver qué tal lo ha hecho lirio por lirio:

15
16
Se observa, hasta donde es visible, que el grupo real y pronosticado coinciden. Luego
entre los restantes valores destaca P(G=g | D=d) que indica la pertenencia a un
determinado grupo dada una cierta puntuación discriminante. La probabilidad en estos
casos es de 1 ya que no habido error posible. La distancia Mahalanobis puede considerarse
una distancia euclídea ponderada por sus varianzas-covarianzas, y tiene interés para saber
cuán lejos se encuentra de la media de su grupo de pertenencia. Precisamente sobre los
que están más lejos pueden estar incorrectamente clasificados.

17
BIBLIOGRAFÍA

A.A. And Clark, V. (1996) Computer-Aided Multivariate Analysis. Third Edition. Texts in
Statistical Science. Chapman and Hall.
Everitt, B. And Graham, D. (1991). Applied Multivariate Data Analysis. Arnold.
Ferran, M. (1997). SPSS para WINDOWS. Programación y Análisis Estadístico. Mc.Graw
Hill.
Gil Flores, J., García Jiménez, E., Rodríguez Gómez, G (2001). Análisis discriminante.
Madrid. La Muralla.
Hair, J., Anderson, R., Tatham, R. Y Black, W. (1999). Análisis Multivariante. 5ª Edición.
Prentice Hall.
Huberty, Carl J. (1994). Applied discriminant analysis . NY: Wiley-Interscience. (Wiley
Series in Probability and Statistics).
Jobson, J.D. (1992) Applied Multivariate Data Analysis. Volume II: Categorical and
Multivariate Methods. Springer-Verlag.
Klecka, William R. (1980). Discriminant analysis. Quantitative Applications in the Social
Sciences Series, No. 19. Thousand Oaks, CA: Sage Publications.
Lachenbruch, P. A. (1975). Discriminant analysis. NY: Hafner.
Mardia, K.V., Kent, J.T. Y Bibby, J.M. (1994). Multivariate Analysis. Academic Press.
McLachlan, Geoffrey J. (2004). Discriminant analysis and statistical pattern recognition.
NY: Wiley-Interscience. (Wiley Series in Probability and Statistics).
Sharma, S. (1998). Applied Multivariate Techiques. John Wiley and Sons.
SPSS (1999). SPSS Advanced Models 10.0. Chicago: SPSS Inc.
Uriel, E. (1995). Análisis de Datos: Series temporales y Análisis Multivariante. Colección
Plan Nuevo. Editorial AC.
Visauta, B. (1998) Análisis Estadístico con SPSS para WINDOWS (Vol II. Análisis
Multivariante). Mc-Graw Hill.

18

También podría gustarte