Está en la página 1de 39

Tema 6: Anlisis Discriminante

Introduccin
Supongamos que un conjunto de objetos est ya clasicado en una serie de grupos, es decir, se sabe previamente a qu grupos pertenecen. El Anlisis Discriminante se puede considerar como un anlisis de regresin donde la variable dependiente es categrica y tiene como categoras la etiqueta de cada uno de los grupos, y.las variables independientes son continuas y determinan a qu grupos pertenecen los objetos. Se pretende encontrar relaciones lineales entre las variables continuas que mejor discriminen en los grupos dados a los objetos. Un segundo objetivo es construir una regla de decisin que asigne un objeto nuevo, que no sabemos clasicar previamente, a uno de los grupos prejados con un cierto grado de riesgo. Es necesario considerar una serie de restricciones o supuestos: Se tiene una variable categrica y el resto de variables son de intervalo o de razn y son independientes respecto de ella. Es necesario que existan al menos dos grupos, y para cada grupo se necesitan dos o ms casos. El nmero de variables discriminantes debe ser menor que el nmero de objetos menos 2: x1 , ..., xp , donde p < (n 2) y n es el nmero de objetos. Ninguna variable discriminante puede ser combinacin lineal de otras variables discriminantes. 1

El nmero mximo de funciones discriminantes es igual al mnimo entre el nmero de variables y el nmero de grupos menos 1 (con q grupos, (q 1) funciones discriminantes). Las matrices de covarianzas dentro de cada grupo deben ser aproximadamente iguales. Las variables continuas deben seguir una distribucin normal multivariante.

Modelo matemtico
A partir de q grupos donde se asignan a una serie de objetos y de p variables medidas sobre ellos (x1 , . . . , xp ), se trata de obtener para cada objeto una serie de puntuaciones que indican el grupo al que pertenecen (y1 , . . . , ym ), de modo que sean funciones lineales de x1 , . . . , xp y1 = a11 x1 + + a1p xp + a10 ym = am1 x1 + + amp xp + am0 donde m = m n(q 1, p), tales que discriminen o separen lo mximo posible a los q grupos. Estas combinaciones lineales de las p variables deben maximizar la varianza entre los grupos y minimizar la varianza dentro de los grupos.

Descomposicin de la varianza
Se puede descomponer la variabilidad total de la muestra en variabilidad dentro de los grupos y entre los grupos. Partimos de 1X (xij x j ) (xij 0 x j 0 ) Cov (xj , xj 0 ) = n i=1
n

Se puede considerar la media de la variable xj en cada uno de los grupos I1 , . . . , Iq , es

decir, x kj = para k = 1, . . . , q. 1 X xij nk iI


k

De este modo, la media total de la variable xj se puede expresar como funcin de las medias dentro de cada grupo. As, X
iIk

xij = nk x kj ,

entonces x j 1X 1 XX = xij = xij = n i=1 n k=1 iI


n
k

= As,

X nk 1X nk x kj = x kj . n k=1 n k=1
q

Si en cada uno de los trminos se pone:

1 XX (xij x j ) (xij 0 x j 0 ) Cov (xj , xj 0 ) = n k=1 iI


k

(xij x j ) = (xij x kj ) + ( xkj x j ) j 0 ) = (xij 0 x kj 0 ) + ( xkj 0 x j 0 ) (xij 0 x al simplicar se obtiene:


q q X nk 1 XX 0 0 (xij x kj ) (xij x kj ) + j )( xkj 0 x j 0 ) = ( xkj x Cov (xj , x ) = n k=1 iI n k=1 j0
k

= d(xj , xj 0 ) + e(xj , xj 0 ). Es decir, la covarianza total es igual a la covarianza dentro de grupos ms la covarianza entre grupos. Si denominamos como t(xj , xj 0 ) a la covarianza total entre xj y xj 0 (sin distinguir grupos), entonces lo anterior se puede expresar como t(xj , xj 0 ) = d(xj , xj 0 ) + e(xj , xj 0 ). 3

En notacin matricial esto es equivalente a T =E+D donde: T = matriz de covarianzas total E = matriz de covarianzas entre grupos D = matriz de covarianzas dentro de grupos.

Extraccin de las funciones discriminantes


La idea bsica del Anlisis Discriminante consiste en extraer a partir de x1 , . . . , xp variables observadas en k grupos, m funciones y1 , . . . , ym de forma yi = ai1 x1 + + aip xp + ai0 donde m = m n(q 1, p), tales que corr(yi , yj ) = 0 para todo i 6= j. Si las variables x1 , . . . , xp estn tipicadas, entonces las funciones yi = ai1 x1 + + aip xp para i = 1, . . . , m, se denominan funciones discriminantes cannicas. Las funciones y1 , . . . , ym se extraen de modo que (i ) y1 sea la combinacin lineal de x1 , . . . , xp que proporciona la mayor discriminacin posible entre los grupos. (ii ) y2 sea la combinacin lineal de x1 , . . . , xp que proporciona la mayor discriminacin posible entre los grupos, despus de y1 , tal que corr(yi , y2 ) = 0. En general, yi es la combinacin lineal de x1 , . . . , xp que proporciona la mayor discriminacin posible entre los grupos despus de yi1 y tal que corr(yi , yj ) = 0 para j = 1, . . . , (i 1). 4

Procedimiento matricial Se sigue un mtodo parecido al anlisis factorial, as se busca una funcin lineal de x1 , . . . , xp : y = a0 x, de modo que V ar(y ) = a0 T a = a0 Ea + a0 Da es decir, la variabilidad entre grupos ms la variabilidad dentro de grupos. Queremos maximizar la variabilidad entre los grupos para discriminarlos mejor y esto equivale a hacer a0 Ea , m ax a0 T a

es decir, maximizar la varianza entre grupos en relacin al total de la varianza. Si consideramos la funcin f (a) = a0 Ea a0 T a

Se observa que f es una funcin homognea, es decir, f (a) = f (a) para todo R. El hecho de que la funcin sea homognea implica que calcular m ax calcular m ax (a0 Ea) tal que a0 T a = 1 Como este es el esquema habitual de los multiplicadores de Lagrange, se dene

a0 Ea
a0 T a

equivale a

L = a0 Ea (a0 T a 1) y se calcula su derivada: L = 0. a 5

L = 2Ea 2T a = 0 a Ea = T a (T 1 E )a = a Por tanto, el autovector asociado a la primera funcin discriminante lo es de la matriz T 1 E (que no es simtrica en general). Como Ea = T a, a0 Ea = a0 T a = Luego si tomo el vector asociado al mximo autovalor, se obtendr la funcin que recoge el mximo poder discriminante. El autovalor asociado a la funcin discriminante indica la proporcin de varianza total explicada por las m funciones discriminantes que recoge la variable yi . Para obtener ms funciones discriminantes, se siguen sacando los autovectores de la matriz (T 1 E ) asociados a los autovalores elegidos en orden decreciente: a02 . . . a0m a02 x = y2 . . . a0m x = ym

donde m = m n(q 1, p) Estos vectores son linealmente independientes y dan lugar a funciones incorreladas entre s. La suma de todos los autovalores, Pm
i=1

i , es la proporcin de varianza total que

queda explicada, o se conserva, al considerar slo los ejes o funciones discriminantes. Como consecuencia, el porcentaje explicado por yi del total de varianza explicada por y1 , . . . , ym es Pm i
i=1

100 %

Anlisis Discriminante con SPSS


Cuando se utiliza SPSS se suelen considerar varias fases en el anlisis discriminante.

Comprobacin de los supuestos paramtricos del anlisis discriminante


En sentido estricto, la funcin discriminante minimiza la probabilidad de equivocarse al clasicar los individuos en cada grupo. Para ello, las variables originales se deben distribuir como una normal multivariante y las matrices de covarianzas deben ser iguales en todos los grupos. En la prctica es una tcnica robusta y funciona bien aunque las dos restricciones anteriores no se cumplan. Si un conjunto de variables se distribuye como una normal multivariante, entonces cualquier combinacin lineal de ellas se distribuye como una normal univariante. Por ello, si alguna de las variables originales no se distribuye como una normal, entonces es seguro que todas las variables conjuntamente no se distribuirn como una normal multivariante. La segunda restriccin se reere a la igualdad entre las matrices de covarianzas de los grupos. Para comprobar esto, se puede usar la prueba M de Box, que est incluida en el SPSS. Dicha prueba tiene como hiptesis nula que las matrices de covarianzas son iguales. Se basa en el clculo de los determinantes de las matrices de covarianzas de cada grupo. El valor obtenido se aproxima por una F de Snedecor. Si el p-valor es menor que 0,05 se rechaza la igualdad entre las matrices de covarianzas. El test M de Box es sensible a la falta de normalidad multivariante, es decir, matrices iguales pueden aparecer como signicativamente diferentes si no existe normalidad. Por otra parte, si las muestras son grandes, pierde efectividad (es ms fcil rechazar la hiptesis nula).

Seleccin de las variables discriminantes


Primero se puede realizar un anlisis descriptivo univariante calculando las medias y las desviaciones estndar de las variables originales para cada uno de los grupos por 7

separado. Si para alguna variable las medias de los grupos son diferentes y la variabilidad es pequea, se considera que dicha variable ser importante a la hora de discriminar a los grupos. A continuacin, se observan las relaciones entre las variables. Se calculan matrices de correlaciones en lugar de matrices de covarianzas por ser ms fcilmente interpretables. Adems de analizar la correlacin entre pares de variables sin distinguir grupos, se debe analizar las correlaciones dentro de cada grupo y luego considerar la media de las mismas Se calcula tambin la matriz Pooled within-groups correlation matrix. Dicha matriz se calcula como una matriz media de correlaciones calculadas por separado en cada grupo. A menudo no se parece a la matriz de correlaciones total. Veamos, por ejemplo, el siguiente grco de dos variables y tres grupos:

Si se considera cada grupo por separado (1, 2 y 3), el coeciente de correlacin entre x1 y x2 es 0 (el hecho de variar x1 no inuye en x2 : la pendiente de la recta de regresin es 0). Si hallamos la media de esos coecientes, su valor es tambin 0; sin embargo, el coeciente de correlacin calculado para todos los datos sin tener en cuenta a los grupos est prximo a 1, porque cuando aumenta el valor de x1 tambin lo hace el valor de x2 . 8

Estadsticos usados F de Snedecor Se compara para cada variable las desviaciones de las medias de cada uno de los grupos a la media total, entre las desviaciones a la media dentro de cada grupo. Si F es grande para cada variable, entonces las medias de cada grupo estn muy separadas y la variable discrimina bien. Si F es pequea, la variable discriminar poco, ya que habr poca homogeneidad en los grupos y stos estarn muy prximos. de Wilks Tambin se la denomina U -estadstico. Cuando se considera a las variables de modo individual, la es igual al cociente entre la suma de cuadrados dentro de los grupos y la suma de cuadrados total (sin distinguir grupos). Es decir, equivale a las desviaciones a la media dentro de cada grupo, entre las desviaciones a la media total sin distinguir grupos. Si su valor es pequeo, la variable discrimina mucho: la variabilidad total se debe a las diferencias entre grupos, no a las diferencias dentro de grupos.

Variables originales que se consideran


La idea del Anlisis discriminante es construir funciones lineales de las variables originales que discriminen entre los distintos grupos. Sin embargo, no todas las variables discriminan de la misma forma o tienen los mismos valores de la F de Snedecor o de la de Wilks. Por ello, a la hora de construir las funciones lineales, no es necesario incluir a todas las variables iniciales en la funcin. Como criterio general para seleccionar una variable se emplea la seleccin del valor de la de Wilks o, de modo equivalente, del valor de su F asociada. Se usan fundamentalmente dos mtodos de seleccin de variables: el mtodo directo y el mtodo stepwise. En el mtodo directo se consideran todas las variables originales que veriquen un criterio de seleccin. El mtodo stepwise es un mtodo que funciona con varios pasos:

(i ) Se incluye en el anlisis la variable que tenga el mayor valor aceptable para el criterio de seleccin o de entrada. (ii ) Se evala el criterio de seleccin para las variables no seleccionadas. La variable que presenta el valor ms alto para el criterio se selecciona (siempre que est dentro de un lmite). (iii ) Se examinan las variables seleccionadas segn un criterio de salida y se examinan tambin las variables no seleccionadas, para ver si cumplen el criterio de entrada. Se excluyen o se incluyen variables segn cumplan los criterios de entrada y de salida. (iv ) Se repite el paso (iii ) hasta que ninguna variable ms pueda ser seleccionada o eliminada. Adems de todo lo anterior, en el SPSS se considera un nmero mximo de pasos, dado que una variable puede ser incluida y eliminada en ms de una ocasin. Se toma el doble del nmero de variables originales como nmero mximo de pasos del mtodo stepwise. En el SPSS se considera tambin para cada variable la tolerancia asociada. Tolerancia Se dene para un conjunto de p variables, Ri , el coeciente de correlacin mltiple que expresa el porcentaje de variabilidad de la variable xi (i = 1, . . . , p) recogida por el resto
2 se obtiene el coeciente de determinacin. de (p 1) variables. Si se eleva al cuadrado Ri 2 . As, cuanto mayor sea la tolerancia de una Entonces, la tolerancia se dene como 1 Ri

variable, ms informacin independiente del resto de variables recoger. De este modo, si en una iteracin dada del procedimiento stepwise la variable seleccionada verica que su tolerancia con respecto a las variables ya incluidas en la funcin discriminante es muy pequea entonces la variable no se incluye en dicha etapa. As, se evita la redundancia de informacin. 10

Clculo de la F y de la de Wilks multivariantes para jar los criterios de entrada y salida


Para un conjunto de variables se dene la F como F = donde |B | = determinante de la matriz de covarianzas entre grupos. |W | = determinante de la suma de las matrices de covarianzas dentro de los grupos. En general, el determinante de una matriz de covarianzas da una medida de la variabilidad total de un conjunto de variables. A partir de este valor de F, se puede calcular la correspondiente de Wilks, ya que nkp1 F = k1 donde n = nmero de observaciones k = nmero de grupos p = nmero de variables La F y la de Wilks se interpretan del mismo modo que en el caso univariante. Cuando se comparan covarianzas entre grupos, se hace en base a los centroides de los grupos, es decir, a los vectores de medias de las variables en cada grupo. 1 1 |B | |W |

Estadsticos que se calculan en el procedimiento stepwise


F de entrada (F to enter): Expresa la disminucin en la de Wilks que se produce si se incluye una variable dada entre las que no estn dentro de la funcin discriminante. Si el valor es pequeo, la disminucin de la de Wilks ser inapreciable y la variable no entrar en la funcin.

11

F de salida (F to remove): Expresa el incremento que se produce en la de Wilks, si se elimina de la funcin discriminante una variable dada. Si el valor de la F de salida es pequeo, el incremento no ser signicativo y la variable se eliminar del anlisis. Correlacin Cannica Da una medida del grado de asociacin entre las puntuaciones discriminantes de cada uno de los objetos y el grupo concreto de pertenencia: 2 = SCENT RE , SCT OT AL

es decir, es la proporcin de la variabilidad total debida a la diferencia entre grupos para las funciones discriminantes. Cuando slo se tienen dos grupos, la correlacin cannica es igual al coeciente de correlacin entre la puntuacin discriminante y el grupo de pertenencia, que se representa por una variable codicada en 01 (en SPSS).

Signicacin y coecientes de las funciones discriminantes


Cuando no existen diferencias entre los grupos, las funciones discriminantes slo indican variabilidad aleatoria (ruido ). Se puede usar la de Wilks para realizar un test en el cual la hiptesis nula es que las medias de las funciones discriminantes en cada grupo son iguales. Cuando se tienen varios grupos y varias funciones, se calcula una de Wilks total mediante el producto de las de Wilks de cada funcin. sta se puede aproximar por una 2 , usando la siguiente transformacin: p+k V = n1 ln() 2 de modo que V 2 p(k1) aproximadamente. De este modo, si es pequeo V es grande y se rechaza la hiptesis nula. 12

Si la signicacin asociada al valor de la 2 es menor que 0,05 (o bien otro valor prejado) se rechaza la hiptesis nula (a dicho nivel de conanza). Interpretacin de los coecientes de la funcin discriminante Si usamos variables originales tipicadas, se obtienen los coecientes aij que relacionan las variables con las funciones discriminantes: y1 a11 . . . a1p ... ym am1 . . . amp

x1 . . . xp

Se pueden interpretar las magnitudes de los coecientes como indicadores de la importancia relativa de las variables en cada funcin discriminante. As, si aij es grande en valor absoluto, entonces hay una fuerte asociacin entre la variable xj y la funcin yi , en relacin al resto de variables. An as, al existir en general correlaciones signicativas entre las variables originales, se debe tener cuidado al hacer interpretaciones precipitadas. Matriz de estructura Otra forma de calcular la contribucin de cada variable a una funcin discriminante es examinar las correlaciones entre los valores de la funcin y los valores de las variables. Se calculan, dentro de cada grupo, las correlaciones entre las variables y las puntuaciones; luego se combinan en una matriz pooled within-groups correlation matrix. Los valores obtenidos dan una medida de las contribuciones.

Clasicacin de los objetos


Una vez calculadas las funciones discriminantes, es decir, las combinaciones lineales de las variables originales, a cada objeto se le puede asignar una puntuacin o valor dado en la funcin discriminante.

13

Esto equivale al valor que se recoge en una ecuacin de regresin. As, si xij es el valor que alcanza el objeto i-simo en la variable j -sima, entonces la puntuacin o valor alcanzado en la funcin discriminante k ser: yik = ak1 xi1 + + akp xip + ak0 Regla de Bayes Se pueden usar las puntuaciones discriminantes para obtener una regla para clasicar los casos en los grupos. En el SPSS se usa la regla de Bayes. As, la probabilidad de que un objeto j , con una puntuacin discriminante D = (yj 1 , ..., yjm ), pertenezca al grupo i-simo se puede estimar mediante la regla de Bayes: P (Gi |D) = P (D|Gi ) P (Gi ) P (D|Gi ) P (Gi )

i=1

P (Gi ) es la probabilidad a priori y es una estima de la conanza de que un objeto pertenezca a un grupo si no se tiene informacin previa. Por ejemplo, si 70 de 113 personas sobreviven en la muestra, la probabilidad de sobrevivir se aproxima por 70/113. Las probabilidades a priori se pueden determinar de distintos modos. Si la muestra se considera representativa de la poblacin, se pueden usar las proporciones de los casos en cada grupo como estimadores de dichas probabilidades. Cuando todos los grupos tienen el mismo nmero de objetos y no se tiene ningn tipo de informacin previa, se asignan probabilidades a priori iguales para todos los grupos. P (D|Gi ) es la probabilidad de obtener la puntuacin D estando en el grupo i-simo. Como las puntuaciones discriminantes se calculan a partir de combinaciones lineales de p variables, distribuidas segn una normal, se distribuyen a su vez como una normal, cuya media y varianza se estiman a partir de todas las puntuaciones que se recogen en el grupo i-simo. P (Gi |D) es la probabilidad a posteriori que se estima a travs de P (Gi ) y de P (D|Gi ). En realidad, mide lo mismo que la P (Gi ), pero rena la medida de incertidumbre al tener 14

k P

en cuenta la informacin que recogen las puntuaciones discriminantes D. Es decir, lo que interesa es calcular la probabilidad de que un objeto pertenezca al grupo Gi , dado que presenta la puntuacin D. Se asignar un objeto al grupo Gi cuya probabilidad a posteriori sea mxima, es decir, dado que presenta la puntuacin D. Matriz de confusin Da una idea de la tasa de clasicaciones incorrectas. Como se sabe el grupo al que pertenece cada objeto, se puede comprobar la efectividad del mtodo de clasicacin usando la mxima probabilidad a posteriori, cuando se observa el porcentaje de casos bien clasicados. No obstante, se tiene que tener en cuenta tambin la tasa de clasicaciones incorrectas esperadas segn las probabilidades a priori.

Ejemplos
Se consideran los datos recogidos sobre 32 crneos en el Tibet.

15

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

Longitud 190.50 172.50 167.00 169.50 175.00 177.50 179.50 179.50 173.50 162.50 178.50 171.50 180.50 183.00 169.50 172.00 170.00 182.50 179.50 191.00 184.50 181.00 173.50 188.50 175.00 196.00 200.00 185.00 174.50 195.50 197.00 182.50

Anchura 152.50 132.00 130.00 150.50 138.50 142.50 142.50 138.00 135.50 139.00 135.00 148.50 139.00 149.00 130.00 140.00 126.50 136.00 135.00 140.50 141.50 142.00 136.50 130.00 153.00 142.50 139.50 134.50 143.50 144.00 131.50 131.00

Altura 145.00 125.50 125.50 133.50 126.00 142.50 127.50 133.50 130.50 131.00 136.00 132.50 132.00 121.50 131.00 136.00 134.50 138.50 128.50 140.50 134.50 132.50 126.00 143.00 130.00 123.50 143.50 140.00 132.50 138.50 135.00 135.00

Altura.Cara 73.50 63.00 69.50 64.50 77.50 71.50 70.50 73.50 70.00 62.00 71.00 65.00 74.50 76.50 68.00 70.50 66.00 76.00 74.00 72.50 76.50 79.00 71.50 79.50 76.50 76.00 82.50 81.50 74.00 78.50 80.50 68.50

.Anchura.Cara 136.50 121.00 119.50 128.00 135.50 131.00 134.50 132.50 133.50 126.00 124.00 146.50 134.50 142.00 119.00 133.50 118.50 134.00 132.00 131.50 141.50 136.50 136.50 136.00 142.00 134.00 146.00 137.00 136.50 144.00 139.00 136.00

Tipo 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

Los datos corresponden a dos tipos raciales diferentes en los que se practicaron diferentes medidas antropomtricas de longitudes, anchuras de crneo y de cara. Se trata de hacer un anlisis discriminante sobre los dos tipos raciales. Se toma una muestra de 50 vehculos producidos en EE.UU, Japn y Europa. Se consideran las siguientes variables: Consumo, Cilindrada, Potencia, Peso, Aceleracin, Ao del modelo y Nmero de cilindros. Se trata de hacer un anlisis discriminante sobre los tres tipos de vehculos, en funcin de su origen.

16

Anlisis Discriminante (con SPSS)

17

18

Media, desviacin tpica, nmero de casos vlidos (ponderado y no ponderado) para cada uno de los grupos y para la muestra total: Group Statistics Country of Origin Miles per Gallon Engine Displacement (cu. inches) Horsepower American Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) Model Year (modulo 100) Number of Cylinders Miles per Gallon Engine Displacement (cu. inches) Horsepower European Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) Model Year (modulo 100) Number of Cylinders Miles per Gallon Engine Displacement (cu. inches) Horsepower Japanese Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) Model Year (modulo 100) Number of Cylinders Miles per Gallon Engine Displacement (cu. inches) Horsepower Total Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) Model Year (modulo 100) Number of Cylinders Mean 19,92 245,44 123,56 3368,28 14,85 75,16 6,24 28,92 105,56 76,56 2341,44 16,78 74,67 4,00 30,64 106,50 83,81 2288,94 15,23 78,38 4,13 24,97 175,80 102,38 2838,06 15,32 76,10 5,16 Std. Deviation 7,236 94,885 44,563 799,303 2,311 3,496 1,763 6,345 21,190 18,882 395,406 3,081 3,464 ,000 6,966 30,124 22,489 388,479 2,058 2,941 ,806 8,572 98,537 40,616 819,660 2,443 3,621 1,707 Valid N (listwise) Unweighted Weighted 25 25 25 25 25 25 25 9 9 9 9 9 9 9 16 16 16 16 16 16 16 50 50 50 50 50 50 50 25,000 25,000 25,000 25,000 25,000 25,000 25,000 9,000 9,000 9,000 9,000 9,000 9,000 9,000 16,000 16,000 16,000 16,000 16,000 16,000 16,000 50,000 50,000 50,000 50,000 50,000 50,000 50,000

19

Tabla de ANOVA con estadsticos F que permiten contrastar la hiptesis de igualdad de medias entre los grupos en cada variable independiente. La tabla de ANOVA incluye tambin el estadstico lambda de Wilks univariante. La informacin de esta tabla suele utilizarse como prueba preliminar para detectar si los grupos difieren en las variables de clasificacin seleccionadas; sin embargo, debe tenerse en cuenta que una variable no significativa a nivel univariante podra aportar informacin discriminativa a nivel multivariante. Tests of Equality of Group Means Wilks' Lambda Miles per Gallon Engine Displacement (cu. inches) Horsepower Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) Model Year (modulo 100) Number of Cylinders F Df1 df2 Sig. 2 2 2 2 2 2 2 47 ,000 47 ,000 47 ,000 47 ,000 47 ,124 47 ,007 47 ,000

,641 13,186 ,490 24,428 ,719 9,195

,573 17,546 ,915 ,808 2,180 5,586

,591 16,281

Correlacin intra-grupos. Muestra la matriz de correlaciones intra-grupo combinada, es decir la matriz de correlaciones entre las variables independientes estimada a partir de las correlaciones obtenidas dentro de cada grupo. Pooled Within-Groups Matrices Time to Model Number Miles Engine Vehicle Accelerate Year of per Displacement Horsepower Weight from 0 to (modulo Cylinders Gallon (cu. inches) (lbs.) 60 mph 100) (sec) Miles per Gallon Engine Displacement (cu. inches) Horsepower Vehicle Correlation Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) Model Year (modulo 100) Number of Cylinders 1,000 -,664 -,693 -,719 ,421 ,722 -,571

-,664 -,693 -,719

1,000 ,851 ,788

,851 1,000 ,725

,788 ,725 1,000

-,520 -,660 -,302

-,442 -,546 -,363

,914 ,740 ,766

,421

-,520

-,660

-,302

1,000

,354

-,484

,722 -,571

-,442 ,914

-,546 ,740

-,363 ,766

,354 -,484

1,000 -,357

-,357 1,000

20

Box's Test of Equality of Covariance Matrices


Log Determinants Country of Origin American European Japanese Pooled within-groups Rank 3 3 3 3 Log Determinant 16,939 13,649 14,181 16,386

The ranks and natural logarithms of determinants printed are those of the group covariance matrices. Test Results Box's M Approx. F df1 df2 Sig. 41,689 3,061 12 3043,281 ,000

Tests null hypothesis of equal population covariance matrices.

Stepwise Statistics
Variables Entered/Removed(a,b,c,d) Wilks' Lambda Step Entered Statistic df1 df2 ,490 ,406 ,344 1 2 3 Df3 24,428 13,083 10,569 Exact F Statistic df1 1 2 3 Engine Displacement (cu. inches) Model Year (modulo 100) Horsepower 2 47,000 2 47,000 2 47,000 df2 Sig.

2 47,000 ,000 4 92,000 ,000 6 90,000 ,000

At each step, the variable that minimizes the overall Wilks' Lambda is entered. a Maximum number of steps is 14. b Minimum partial F to enter is 3.84. c Maximum partial F to remove is 2.71. d F level, tolerance, or VIN insufficient for further computation.

21

Variables in the Analysis Step 1 2 Engine Displacement (cu. inches) Engine Displacement (cu. inches) Model Year (modulo 100) Engine Displacement (cu. inches) 3 Model Year (modulo 100) Horsepower Tolerance F to Remove Wilks' Lambda 1,000 ,804 ,804 ,275 ,701 ,240 Variables Not in the Analysis Step Miles per Gallon Engine Displacement (cu. inches) Horsepower 0 Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) Model Year (modulo 100) Number of Cylinders Miles per Gallon Horsepower Vehicle Weight (lbs.) 1 Time to Accelerate from 0 to 60 mph (sec) Model Year (modulo 100) Number of Cylinders Miles per Gallon Horsepower 2 Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) Number of Cylinders Miles per Gallon Vehicle Weight (lbs.) 3 Time to Accelerate from 0 to 60 mph (sec) Number of Cylinders Tolerance 1,000 1,000 1,000 1,000 1,000 1,000 1,000 ,559 ,275 ,379 ,730 ,804 ,165 ,331 ,240 ,379 ,711 ,162 ,325 ,368 ,557 ,159 Min. Tolerance 1,000 1,000 1,000 1,000 1,000 1,000 1,000 ,559 ,275 ,379 ,730 ,804 ,165 ,331 ,240 ,351 ,654 ,150 ,235 ,214 ,188 ,097 F to Enter 13,186 24,428 9,195 17,546 2,180 5,586 16,281 ,419 2,887 ,174 3,246 4,756 ,796 1,496 4,063 ,154 3,746 ,810 1,557 ,457 1,101 1,142 Wilks' Lambda ,641 ,490 ,719 ,573 ,915 ,808 ,591 ,482 ,436 ,487 ,430 ,406 ,474 ,381 ,344 ,404 ,348 ,392 ,321 ,337 ,328 ,327 24,428 22,737 4,756 14,713 5,981 4,063 ,808 ,490 ,569 ,436 ,406

22

Wilks' Lambda Step Number of Variables Lambda df1 df2 df3 1 2 3 1 2 3 ,490 ,406 ,344 1 2 3 2 2 2 47 47 47 24,428 13,083 10,569 Exact F Statistic df1 df2 Sig.

2 47,000 ,000 4 92,000 ,000 6 90,000 ,000

Summary of Canonical Discriminant Functions


Eigenvalues Function Eigenvalue % of Variance Cumulative % Canonical Correlation 1 2 1,263(a) ,284(a) 81,6 18,4 81,6 100,0 ,747 ,470

a First 2 canonical discriminant functions were used in the analysis. Wilks' Lambda Test of Function(s) Wilks' Lambda Chi-square df Sig. 1 through 2 2 ,344 ,779 49,067 11,495 6 ,000 2 ,003

Standardized Canonical Discriminant Function Coefficients Function 1 Engine Displacement (cu. inches) Horsepower Model Year (modulo 100) 1,595 -,819 -,019 2 -,304 1,091 1,164

23

Structure Matrix Function 1 Engine Displacement (cu. inches) Number of Cylinders(a) Vehicle Weight (lbs.)(a) Horsepower Miles per Gallon(a) Time to Accelerate from 0 to 60 mph (sec)(a) Model Year (modulo 100) ,906(*) ,858(*) ,669(*) ,549(*) -,505(*) -,294(*) -,278 2 ,110 ,114 ,129 ,197 ,286 -,150 ,703(*)

Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function. * Largest absolute correlation between each variable and any discriminant function a This variable not used in the analysis. Coeficientes de clasificacin de Fisher. Pueden utilizarse directamente para la clasificacin. Se obtiene un conjunto de coeficientes para cada grupo, y se asigna un caso al grupo para el que tiene una mayor puntuacin discriminante. Canonical Discriminant Function Coefficients Function 1 Engine Displacement (cu. inches) Horsepower Model Year (modulo 100) (Constant) Unstandardized coefficients Functions at Group Centroids Country of Origin 1 American European Japanese 1,088 -,980 -1,149 Function 2 ,027 -1,000 ,520 ,023 -,023 -,006 2 -,004 ,031 ,350

-1,150 -29,070

Unstandardized canonical discriminant functions evaluated at group means

24

Classification Statistics
Prior Probabilities for Groups Country of Origin Prior American European Japanese Total ,500 ,180 ,320 1,000 Cases Used in Analysis Unweighted Weighted 25 9 16 50 25,000 9,000 16,000 50,000

Classification Function Coefficients Country of Origin American European Japanese Engine Displacement (cu. Inches) Horsepower Model Year (modulo 100) (Constant) Fisher's linear discriminant functions -,015 ,668 10,521 -435,516 -,057 ,684 10,173 -,067 ,735 10,707

-404,685 -447,914

25

Validacin cruzada: para comprobar la capacidad predictiva de la funcin discriminante,. para ello el SPSS genera tantas funciones discriminantes como casos vlidos tiene el anlisis; cada una de esas funciones se obtiene eliminando un caso; despus, cada caso es clasificado utilizando la funcin discriminante en la que no ha intervenido. Classification Results(b,c) Predicted Group Membership Country of Origin American American Count Original % European Japanese American European Japanese American Count Cross-validated(a) % European Japanese American European Japanese 17 1 0 68,0 11,1 ,0 17 1 0 68,0 11,1 ,0 European 3 6 2 12,0 66,7 12,5 3 6 2 12,0 66,7 12,5 Japanese 5 2 14 20,0 22,2 87,5 5 2 14 20,0 22,2 87,5 Total 25 9 16 100,0 100,0 100,0 25 9 16 100,0 100,0 100,0

a Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case. b 74,0% of original grouped cases correctly classified. c 74,0% of cross-validated grouped cases correctly classified.

26

Anlisis Discriminante (con R)


# Se carga la librera MASS library(MASS) # Se hace un anlisis discriminante lineal dis <- lda(Tipo ~ Longitud + Anchura + Altura + Altura.Cara + Anchura.Cara, data=Tibet, prior=c(0.5,0.5)) dis Call: lda(Tipo ~ Longitud + Anchura + Altura + Altura.Cara + Anchura.Cara, data = Tibet, prior = c(0.5, 0.5)) Prior probabilities of groups: 1 2 0.5 0.5 Group means: Longitud Anchura Altura Altura.Cara Anchura.Cara 1 174.8235 139.3529 132.0000 69.82353 130.3529 2 185.7333 138.7333 134.7667 76.46667 137.5000 Coefficients of linear discriminants: LD1 Longitud 0.047726591 Anchura -0.083247929 Altura -0.002795841 Altura.Cara 0.094695000 Anchura.Cara 0.094809401

# Se consideran las medidas de dos nuevos craneos nuevosdatos <rbind(c(171,140.5,127.0,69.5,137.0),c(179.0,132.0,140.0,72.0,138.5)) # Asigno a los dos nuevos datos los nombres de las variables colnames(nuevosdatos) <- colnames(Tibet[,-6]) nuevosdatos <- data.frame(nuevosdatos) # Se predice el grupo de pertenencia de los nuevos datos predict(dis,newdata=nuevosdatos)$class [1] 1 2 Levels: 1 2 $posterior 1 2 1 0.7545066 0.2454934 2 0.1741016 0.8258984 $x LD1 1 -0.6000350 2 0.8319908

27

# Se predicen los datos originales en los grupos segun # la function discriminante grupo <- predict(dis,method="plug-in")$class # Se observa el numero de datos originales bien y mal clasificados table(grupo,Type) Type grupo 1 2 1 14 3 2 3 12

28

Anlisis Discriminante (con SAS)


/* Analisis Discriminante de los datos de coches con 3 grupos */ options ls=80 nodate nonumber; title 'Analisis Discriminante con 3 grupos de coches'; data coches; infile 'C:\...\ADSAS.txt'; input mpg engine horse weight accel year origin cylinder; run; /* Analisis Discriminante con todas las variables */ proc discrim data=coches pool=test simple manova wcov crossvalidate; class origin; var mpg engine horse weight accel year cylinder; run; /* Analisis Discriminante Stepwise con todas las variables */ proc stepdisc data=coches sle=0.05 sls=0.05; class origin; var mpg engine horse weight accel year cylinder; run;

Analisis Discriminante con 3 grupos de coches The DISCRIM Procedure Observations Variables Classes 50 7 3 DF Total DF Within Classes DF Between Classes 49 47 2

Class Level Information Variable Name _1 _2 _3 Prior Probability 0.333333 0.333333 0.333333

origin 1 2 3

Frequency 25 9 16

Weight 25.0000 9.0000 16.0000

Proportion 0.500000 0.180000 0.320000

29

Within-Class Covariance Matrices origin = 1, Variable mpg engine horse weight accel year cylinder mpg 52.3639 -603.5698 -245.8552 -4912.5463 6.9017 19.2432 -11.0957 DF = 24 horse -245.8552 3797.7017 1985.8400 25744.2533 -73.8030 -102.8433 63.1933 weight -4912.5463 60922.7050 25744.2533 638885.6267 -707.9432 -1525.9217 1188.7633

engine -603.5698 9003.0900 3797.7017 60922.7050 -153.7553 -220.3650 155.9733 origin = 1, DF = 24 year 19.2432 -220.3650 -102.8433 -1525.9217 2.3962 12.2233 -3.7900

Variable mpg engine horse weight accel year cylinder

accel 6.9017 -153.7553 -73.8030 -707.9432 5.3401 2.3962 -2.6370

cylinder -11.0957 155.9733 63.1933 1188.7633 -2.6370 -3.7900 3.1067

-------------------------------------------------------------------------------origin = 2, Variable mpg engine horse weight accel year cylinder mpg 40.2544 -43.1389 -82.3764 -468.6861 12.8193 13.5333 0.0000 engine -43.1389 449.0278 117.5278 7327.8472 12.1764 24.7083 0.0000 origin = 2, Variable mpg engine horse weight accel year cylinder accel 12.8193 12.1764 -35.5861 459.0486 9.4919 7.6667 0.0000 DF = 8 year 13.5333 24.7083 -33.2917 625.2917 7.6667 12.0000 0.0000 cylinder 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 DF = 8 horse -82.3764 117.5278 356.5278 2054.7222 -35.5861 -33.2917 0.0000 weight -468.6861 7327.8472 2054.7222 156345.7778 459.0486 625.2917 0.0000

30

-------------------------------------------------------------------------------origin = 3, Variable mpg engine horse weight accel year cylinder mpg 48.5200 -38.4300 -97.5446 -1883.6371 4.1705 14.6558 0.9608 DF = 15 horse -97.5446 468.1667 505.7625 8304.1208 -36.5471 -17.4583 8.0917 weight -1883.6371 8756.3667 8304.1208 150915.7958 -542.7379 -284.5083 132.8083

engine -38.4300 907.4667 468.1667 8756.3667 -34.1833 14.9333 20.6000 origin = 3, DF = 15 year 14.6558 14.9333 -17.4583 -284.5083 0.8742 8.6500 1.0833

Variable mpg engine horse weight accel year cylinder

accel 4.1705 -34.1833 -36.5471 -542.7379 4.2343 0.8742 -0.6308

cylinder 0.9608 20.6000 8.0917 132.8083 -0.6308 1.0833 0.6500

-------------------------------------------------------------------------------Simple Statistics Total-Sample Variable mpg engine horse weight accel year cylinder N 50 50 50 50 50 50 50 Sum 1249 8790 5119 141903 765.90000 3805 258.00000 Mean 24.97000 175.80000 102.38000 2838 15.31800 76.10000 5.16000 Variance 73.48541 9710 1650 671843 5.96804 13.11224 2.91265 Standard Deviation 8.5724 98.5373 40.6156 819.6602 2.4430 3.6211 1.7066

--------------------------------------------------------------------------------

31

origin = 1 Variable mpg engine horse weight accel year cylinder N 25 25 25 25 25 25 25 Sum 497.90000 6136 3089 84207 371.20000 1879 156.00000 Mean 19.91600 245.44000 123.56000 3368 14.84800 75.16000 6.24000 Variance 52.36390 9003 1986 638886 5.34010 12.22333 3.10667 Standard Deviation 7.2363 94.8846 44.5628 799.3032 2.3109 3.4962 1.7626

-------------------------------------------------------------------------------origin = 2 Variable mpg engine horse weight accel year cylinder N 9 9 9 9 9 9 9 Sum 260.30000 950.00000 689.00000 21073 151.00000 672.00000 36.00000 Mean 28.92222 105.55556 76.55556 2341 16.77778 74.66667 4.00000 Variance 40.25444 449.02778 356.52778 156346 9.49194 12.00000 0 Standard Deviation 6.3446 21.1903 18.8819 395.4058 3.0809 3.4641 0

-------------------------------------------------------------------------------origin = 3 Variable mpg engine horse weight accel year cylinder N 16 16 16 16 16 16 16 Sum 490.30000 1704 1341 36623 243.70000 1254 66.00000 Mean 30.64375 106.50000 83.81250 2289 15.23125 78.37500 4.12500 Variance 48.51996 907.46667 505.76250 150916 4.23429 8.65000 0.65000 Standard Deviation 6.9656 30.1242 22.4892 388.4788 2.0577 2.9411 0.8062

--------------------------------------------------------------------------------

Within Covariance Matrix Information Natural Log of the Determinant of the Covariance Matrix 30.05306 8.92659 22.37342 30.35552

origin 1 2 3 Pooled

Covariance Matrix Rank 7 6 7 7

32

Test of Homogeneity of Within Covariance Matrices Notation: K P N N(i) = = = = Number of Groups Number of Variables Total Number of Observations - Number of Groups Number of Observations in the i'th Group - 1

__ N(i)/2 || |Within SS Matrix(i)| = ----------------------------------N/2 |Pooled SS Matrix| _ | 1 = 1.0 - | SUM ----|_ N(i) = .5(K-1)P(P+1) _ _ | PN/2 | | N V | -2 RHO ln | ------------------ | | __ PN(i)/2 | |_ || N(i) _| _ 2 1 | 2P + 3P - 1 --- | ------------N _| 6(P+1)(K-1)

RHO

DF

Under the null hypothesis:

is distributed approximately as Chi-Square(DF).

Chi-Square 220.637339

DF 56

Pr > ChiSq <.0001

Since the Chi-Square value is significant at the 0.1 level, the within covariance matrices will be used in the discriminant function. Reference: Morrison, D.F. (1976) Multivariate Statistical Methods p252.

Pairwise Generalized Squared Distances Between Groups 2 _ _ -1 _ _ D (i|j) = (X - X )' COV (X - X ) + ln |COV | i j j i j j

Generalized Squared Distance to origin From origin 1 2 3 1 30.05306 35.53867 34.59605 2 291281292 8.92659 907076 3 67.84795 38.59525 22.37342

Multivariate Statistics and F Approximations S=2 M=2 N=19.5

33

Statistic Wilks' Lambda Pillai's Trace Hotelling-Lawley Trace Roy's Greatest Root

Value 0.28802184 0.88078861 1.88585602 1.49339170

F Value 5.06 4.72 5.43 8.96

Num DF 14 14 14 7

Den DF 82 84 62.325 42

Pr > F <.0001 <.0001 <.0001 <.0001

NOTE: F Statistic for Roy's Greatest Root is an upper bound. NOTE: F Statistic for Wilks' Lambda is exact. Classification Summary for Calibration Data: WORK.COCHES Resubstitution Summary using Quadratic Discriminant Function Generalized Squared Distance Function 2 _ -1 _ D (X) = (X-X )' COV (X-X ) + ln |COV | j j j j j Posterior Probability of Membership in Each origin 2 2 Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X)) j k k

Number of Observations and Percent Classified into origin From origin 1 1 18 72.00 0 0.00 0 0.00 18 36.00 0.33333 2 7 28.00 9 100.00 9 56.25 25 50.00 0.33333 3 0 0.00 0 0.00 7 43.75 7 14.00 0.33333 Total 25 100.00 9 100.00 16 100.00 50 100.00

Total

Priors

Error Count Estimates for origin 1 Rate Priors 0.2800 0.3333 2 0.0000 0.3333 3 0.5625 0.3333 Total 0.2808

Classification Summary for Calibration Data: WORK.COCHES Cross-validation Summary using Quadratic Discriminant Function Generalized Squared Distance Function 2 _ -1 _ D (X) = (X-X )' COV (X-X ) + ln |COV | j (X)j (X)j (X)j (X)j

34

Posterior Probability of Membership in Each origin 2 2 Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X)) j k k

Number of Observations and Percent Classified into origin From origin 1 1 17 68.00 3 33.33 2 12.50 22 44.00 0.33333 2 8 32.00 5 55.56 11 68.75 24 48.00 0.33333 3 0 0.00 1 11.11 3 18.75 4 8.00 0.33333 Total 25 100.00 9 100.00 16 100.00 50 100.00

Total

Priors

Error Count Estimates for origin 1 Rate Priors 0.3200 0.3333 2 0.4444 0.3333 3 0.8125 0.3333 Total 0.5256

35

The STEPDISC Procedure The Method for Selecting Variables is STEPWISE Observations Class Levels 50 3 Variable(s) in the Analysis Variable(s) will be Included Significance Level to Enter Significance Level to Stay 7 0 0.05 0.05

Class Level Information Variable Name _1 _2 _3

origin 1 2 3

Frequency 25 9 16

Weight 25.0000 9.0000 16.0000

Proportion 0.500000 0.180000 0.320000

The STEPDISC Procedure Stepwise Selection: Step 1 Statistics for Entry, DF = 2, 47 Variable mpg engine horse weight accel year cylinder R-Square 0.3594 0.5097 0.2812 0.4275 0.0849 0.1920 0.4093 F Value 13.19 24.43 9.20 17.55 2.18 5.59 16.28 Pr > F <.0001 <.0001 0.0004 <.0001 0.1244 0.0067 <.0001 Tolerance 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

Variable engine will be entered. Variable(s) that have been Entered engine

Multivariate Statistics Statistic Wilks' Lambda Pillai's Trace Average Squared Canonical Correlation Value 0.490318 0.509682 0.254841 F Value 24.43 24.43 Num DF 2 2 Den DF 47 47 Pr > F <.0001 <.0001

36

The STEPDISC Procedure Stepwise Selection: Step 2 Statistics for Removal, DF = 2, 47 Variable engine R-Square 0.5097 F Value 24.43 Pr > F <.0001

No variables can be removed.

Statistics for Entry, DF = 2, 46 Partial R-Square 0.0179 0.1115 0.0075 0.1237 0.1714 0.0335

Variable mpg horse weight accel year cylinder

F Value 0.42 2.89 0.17 3.25 4.76 0.80

Pr > F 0.6604 0.0659 0.8412 0.0480 0.0133 0.4571

Tolerance 0.3645 0.2227 0.2187 0.7623 0.7843 0.1009

Variable year will be entered. Variable(s) that have been Entered engine year

Multivariate Statistics Statistic Wilks' Lambda Pillai's Trace Average Squared Canonical Correlation Value 0.406296 0.674371 0.337185 F Value 13.08 11.95 Num DF 4 4 Den DF 92 94 Pr > F <.0001 <.0001

The STEPDISC Procedure Stepwise Selection: Step 3 Statistics for Removal, DF = 2, 46 Partial R-Square 0.4971 0.1714

Variable engine year

F Value 22.74 4.76

Pr > F <.0001 0.0133

No variables can be removed.

37

Statistics for Entry, DF = 2, 45 Partial R-Square 0.0624 0.1530 0.0068 0.1427 0.0347

Variable mpg horse weight accel cylinder

F Value 1.50 4.06 0.15 3.75 0.81

Pr > F 0.2349 0.0239 0.8576 0.0313 0.4514

Tolerance 0.2261 0.2034 0.2093 0.6454 0.0932

Variable horse will be entered. Variable(s) that have been Entered engine horse year

Multivariate Statistics Statistic Wilks' Lambda Pillai's Trace Average Squared Canonical Correlation Value 0.344148 0.779271 0.389636 F Value 10.57 9.79 Num DF 6 6 Den DF 90 92 Pr > F <.0001 <.0001

The STEPDISC Procedure Stepwise Selection: Step 4 Statistics for Removal, DF = 2, 45 Partial R-Square 0.3954 0.1530 0.2100

Variable engine horse year

F Value 14.71 4.06 5.98

Pr > F <.0001 0.0239 0.0050

No variables can be removed.

Statistics for Entry, DF = 2, 44 Partial R-Square 0.0661 0.0204 0.0477 0.0493

Variable mpg weight accel cylinder

F Value 1.56 0.46 1.10 1.14

Pr > F 0.2222 0.6360 0.3416 0.3285

Tolerance 0.1779 0.1380 0.1435 0.0676

No variables can be entered. No further steps are possible.

The STEPDISC Procedure Stepwise Selection Summary

38

Step 1 2 3

Number In 1 2 3

Entered engine year horse

Removed

Partial R-Square 0.5097 0.1714 0.1530

F Value 24.43 4.76 4.06

Pr > F <.0001 0.0133 0.0239

Wilks' Lambda 0.49031755 0.40629584 0.34414795

Pr < Lambda <.0001 <.0001 <.0001

Step 1 2 3

Number In 1 2 3

Entered engine year horse

Removed

Average Squared Canonical Correlation 0.25484122 0.33718537 0.38963551

Pr > ASCC <.0001 <.0001 <.0001

39

También podría gustarte