Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Anlisis discriminante:
El procedimiento Discriminante
Introduccin
Con independencia del rea de conocimiento en la que se est trabajando, es frecuente tener
que enfrentarse con la necesidad de identificar las caractersticas que permiten diferenciar a
dos o ms grupos de sujetos. Y, casi siempre, para poder clasificar nuevos casos como
pertenecien- tes a uno u otro grupo: se beneficiar este paciente del tratamiento, o no?
devolver este clien- te el crdito, o no?, se adaptar este candidato al puesto de trabajo, o
no?, etc.
A falta de otra informacin, cualquier profesional se limita a utilizar su propia
experiencia o la de otros, o su intuicin, para anticipar el comportamiento de un sujeto: el
paciente se bene- ficiar del tratamiento, el cliente devolver el crdito o el candidato se
adaptar a su puesto de trabajo en la medida en que se parezcan a los pacientes, clientes o
candidatos que se benefician del tratamiento, que devuelven el crdito o que se adaptan a su
puesto de trabajo. Pero a medi- da que los problemas se hacen ms complejos y las
consecuencias de una mala decisin ms graves, las impresiones subjetivas basadas en la
propia intuicin o experiencia deben ser sus- tituidas por argumentos ms consistentes. El
anlisis discriminante ayuda a identificar las carac- tersticas que diferencian (discriminan)
a dos o ms grupos y a crear una funcin capaz de dis- tinguir con la mayor precisin
posible a los miembros de uno u otro grupo.
Obviamente, para llegar a conocer en qu se diferencian los grupos necesitamos
disponer de la informacin (cuantificada en una serie de variables) en la que suponemos
que se diferen- cian. El anlisis discriminante es una tcnica estadstica capaz de decirnos
qu variables per- miten diferenciar a los grupos y cuntas de estas variables son necesarias
para alcanzar la mejor clasificacin posible. La pertenencia a los grupos, conocida de
antemano, se utiliza como varia- ble dependiente (una variable categrica con tantos
valores discretos como grupos). Las va- riables en las que suponemos que se diferencian los
Donde b1 y b2 son las ponderaciones de las variables independientes que consiguen hacer
que los sujetos de uno de los grupos obtengan puntuaciones mximas en D, y los sujetos del
otro grupo puntuaciones mnimas.
Una vez hallada la funcin discriminante D, carece de sentido intentar representar la
situa- cin de los grupos en el espacio definido por las variables X1 y X2. Conviene ms
bien centrar el inters en la representacin de la funcin discriminante, que es
unidimensional. La represen- tacin en p dimensiones resulta complicada cuando p es
mayor de 2 y aade poco o nada a la interpretacin de la funcin. En la figura 23.2 est
representa slo la funcin discriminante D extrada del espacio de las variables X1 y X2. Los
grupos aparecen representados por sus histo- gramas y las proyecciones de los centroides
aparecen marcadas por lneas de puntos.
Figura 23.2. Histogramas de cada grupo y centroides representados sobre la funcin discriminante.
Sustituyendo en la funcin discriminante el valor de las medias del grupo 1 en las variables
X1
y X2, obtenemos el centroide del grupo 1:
De igual modo, sustituyendo las medias del grupo 2, obtenemos el centroide del grupo 2:
La funcin D debe ser tal que la distancia d entre los dos centroides sea mxima,
consiguiendo de esta forma que los grupos estn lo ms distantes posible. Podemos
expresar esta distancia de la siguiente manera:
donde
| Seleccionar la opcin Clasificar > Discriminante... del men Analizar para acceder
al cuadro de dilogo Anlisis discriminante que muestra la figura 23.3.
Figura 23.3. Cuadro de dilogo Anlisis discriminante.
La lista de variables del archivo de datos contiene un listado con todas las variables del
archivo excepto las que tienen formato de cadena. Para obtener un Anlisis discriminante
con las especificaciones que el programa tiene establecidas por defecto:
| Establecer la condicin de filtrado (por ejemplo, origen < 3") y pulsar el botn
Con- tinuar.
Aceptando estas selecciones, el archivo de datos queda filtrado dejando disponibles 306
veh- culos de los 406 originales.
30
20
10
Pas de origen
Europa
EE.UU.
0
600
800
1000
1200
1400
1600
1800
400
Puesto que los casos de ambos grupos no se solapan por completo, el diagrama sugiere que
existen diferencias entre ambos grupos de vehculos. Por otro lado, se aprecia cierta relacin
entre las variables peso y aceleracin, dado que la nube de puntos adopta una forma
ligeramen- te elipsoidal inclinada (de hecho, la correlacin entre ambas variables vale
0,430, p < 0,001). Si efectuamos un contraste sobre medias para comparar ambos grupos,
podremos comprobar que los grupos difieren significativamente tanto en aceleracin como en peso. Sin
embargo, estos contrastes no tienen en cuenta la correlacin existente entre las variables ni
nos ayudan a clasificar los vehculos como pertenecientes a uno u otro grupo. Recordemos
que el anlisis discriminante no slo permite averiguar en qu variables se diferencian los
grupos sino, ade- ms, construir una funcin para clasificar los vehculos.
10
Para llevar a cabo el anlisis discriminante con las especificaciones que el programa tiene
esta- blecidas por defecto:
Aceptando las selecciones hechas, el Visor ofrece los resultados que muestran las tablas
23.1 a la 23.7.
La tabla 23.1 ofrece un resumen con el total de casos procesados, el nmero de casos
vli- dos para el anlisis y el nmero de casos excluidos. Dentro de los casos excluidos se
distingue entre los que son excluidos porque su cdigo en la variable de agrupacin no est
dentro del rango seleccionado (en ele ejemplo, 80 vehculos japoneses con el cdigo 3 en la
variable ori- gen), los que son excluidos porque tienen un valor perdido en al menos una
variable discrimi- nante, y los que cumplen las dos condiciones anteriores.
Tabla 23.1. Tabla resumen de los casos procesados.
Casos no ponderados
Vlidos
Excluidos
Por pertenecer a un grupo fuera de rango
Por tener valor perdido en al menos una variable discriminante
Por pertenecer a un grupo fuera de rango o por tener
valor perdido en al menos una variable discriminante
Total
Total
N
326
80
0
Porcentaje
80.3
19.7
.0
.0
80
406
19.7
100.0
1
1
La tabla 23.2 ofrece un resumen del nmero de casos vlidos en cada variable
discriminante. La informacin de esta tabla posee un inters especial, pues un nmero
desigual de casos en cada uno de los grupos puede afectar a la clasificacin. En nuestro
ejemplo, los vehculos europeos representan menos del 25% del total de vehculos
analizados.
Tabla 23.2. Estadsticos por grupo (n de casos vlidos en cada variable).
Pas de
origen
EE.UU.
Europa
Total
1
2
(unos y ceros) que recogen la pertenencia de los sujetos a los grupos. En el caso de dos
grupos, la co-
Autovalor
.294a
% de varianza
100.0
% acumulado
100.0
Correlacin
cannica
.477
Lambda
de Wilks
.773
Chicuadrado
83.202
gl
2
Sig.
.000
Aunque Schatzoff (1966) obtuvo los puntos crticos exactos de la distribucin de bajo
ciertas condiciones, es ms frecuente utilizar una transformacin de que posee
distribucin aproxi- mada conocida. Bartlett (1947) ha demostrado que el estadstico:
funciones discriminantes obtenidas con anterioridad al contraste (cunado slo existe una
fun- cin porque slo hay dos grupos, k = 0).
La gran ventaja diagnstica del estadstico lambda es que, puesto que se basa en las
matri- ces de varianzas-covarianzas, puede calcularse antes de obtener las funciones
discriminantes.
En nuestro ejemplo, el valor de lambda es moderadamente alto (0,773), lo cual
significa que existe bastante solapamiento entre los grupos. Sin embargo, el valor
transformado de lamb- da (Chi-cuadrado = 83,202) tiene asociado, con 2 grados de
libertad, un nivel crtico (Sig.) de 0,000, por lo que podemos rechazar la hiptesis nula de
que los grupos comparados tienen promedios iguales en las dos variables discriminantes.
Funcin
1
.919
-.184
Para interpretar los signos de las ponderaciones resulta til inspeccionar primero la
ubicacin de los centroides de cada grupo. Los centroides se muestran en la tabla 23.7.
Podemos compro- bar que el grupo de coches estadounidenses tiende a obtener
puntuaciones positivas en la fun- cin discriminante, mientras que el grupo de vehculos
europeos tiende a obtener puntuaciones negativas. Sabido esto, la funcin discriminante nos
indica que un incremento en el peso (por encima de la media) har ms probable que el
vehculo obtenga una puntuacin positiva y, con ello, que se ajuste al patrn de los
vehculos estadounidenses. Por el contrario, un peso por debajo de la media ser
caracterstico de un vehculo europeo. En cuanto a la variable acele- racin, un valor por
encima de la media (mayor nmero de segundos en alcanzar los 100 km/h) har disminuir
la puntuacin discriminante (dado que el signo es negativo) y ser ms carac- terstico de
los vehculos europeos, y viceversa, una puntuacin en aceleracin por debajo de la media
aumentar las posibilidades de que el vehculo sea clasificado como estadounidense.
Basndonos en estos resultados, podemos afirmar que los vehculos estadounidenses tienen
ma- yor peso y tardan menos en alcanzar los 100 km/h.
La matriz de estructura (tabla 23.6) contiene las correlaciones entre las variables
discriminan- tes y la funcin discriminante estandarizada. Mientras que los coeficientes
estandarizados muestran la contribucin neta de cada variable independiente a la funcin
discriminante (de manera similar a como lo hacen los coeficientes beta de un anlisis de
regresin mltiple), las correlaciones muestran la relacin bruta entre cada variable y la
funcin discriminante.
Cuando existe colinealidad entre las variables independientes puede ocurrir que alguna
de ellas quede fuera del anlisis por no aportar informacin nueva. Sin embargo, no por ello
carece de inters conocer cmo se relaciona cada variable independiente con la funcin
discri- minante. Conocer estas relaciones puede ayudar a interpretar mejor la funcin
discriminante. En la tabla 23.6 podemos apreciar que la aceleracin correlaciona alto con la
funcin dis- criminante, aunque sea una variable poco importante en la funcin.
Posiblemente, la poca importancia de esta variable en la funcin se deba a su relacin con
la variable peso, la cual ha capitalizado la informacin que comparte con la aceleracin y la
aporta de manera individual
a la funcin discriminante.
La matriz de estructura presenta las variables ordenadas por su grado de correlacin (de
mayor a menor) con la funcin discriminante. Este orden puede ser distinto del orden en el
que aparecen en otras tablas y del orden en que han sido incluidas en el anlisis.
Tabla 23.6. Matriz de estructura.
Funcin
1
.985
-.513
La tabla 23.7 contiene la ubicacin de los centroides en la funcin discriminante (bruta) tal
y como se muestran en la figura 23.2. Esta tabla es de gran utilidad para interpretar la
funcin discriminante. Podemos observar que el grupo de vehculos estadounidenses se
encuentra loca- lizado, en promedio, en las puntuaciones positivas de la funcin, mientras
que los vehculos europeos se encuentran ubicados en las puntuaciones negativas.
Si desconocemos la procedencia de un vehculo pero tenemos informacin sobre su
peso y aceleracin, podemos calcular su puntuacin discriminante y, a partir de ella,
asignarlo al grupo de cuyo centroide se encuentre ms prximo.
Tabla 23.7. Valores de los centroides en la funcin discriminante.
Pas de origen
EE.UU.
Europa
Funcin
1
.290
-1.006
Estadsticos
El subcuadro de dilogo Estadsticos permite obtener informacin adicional sobre algunos
aspectos del anlisis. Parte de esta informacin es descriptiva, pero tambin contiene
estadsti- cos que permiten comprobar algunos de los supuestos en los que se fundamenta la
tcnica. Para obtener esta informacin:
G Medias. Media, desviacin tpica, nmero de casos vlidos (ponderado y no ponderado) para cada uno de los grupos y para la muestra total (tabla 23.8).
Tabla 23.8. Estadsticos descriptivos.
Pas de origen
EE.UU.
Europa
Total
Media
1122.11
14.93
810.12
16.82
1052.25
15.35
Desv. tp.
262.87
2.80
163.62
3.01
276.55
2.95
Lambda
de Wilks
.778
.928
F
92.381
25.022
gl1
1
1
gl2
324
324
Sig.
.000
.000
20
Rango
2
2
2
Logaritmo del
determinante
12.963
12.379
12.954
39.135
Aprox.
gl1
gl2
Sig.
12.906
3
263888.2
.000
20
2
1
Matrices. Las opciones de este apartado permiten obtener las matrices de varianzas-covarianzas utilizadas en el anlisis.
Covarianza
Correlacin
Peso total
(kg)
59693.536
-248.818
1.000
-.357
Aceleracin
0 a 100 km/h
-248.818
8.117
-.357
1.000
Peso total
(kg)
69099.515
-340.100
26772.610
70.669
76477.740
-351.030
Aceleracin 0
a 100 km/h
-340.100
7.846
70.669
9.066
-351.030
8.717
Funcin
1
.004
-.065
-2.967
Coeficientes no tipificados
A modo de ejemplo, puede comprobarse que a partir de las medias de cada grupo
en las variables discriminantes (ver tabla 23.8) y este conjunto de coeficientes se
obtienen los centroides en la funcin discriminante (ver tabla 23.7):
Pas de origen
EE.UU.
Europa
.030
.025
2.769
2.853
-38.385
-35.003
Mtodo
Las variables independientes pueden incorporarse a la funcin discriminate utilizando dos
estrategias distintas. Por defecto, el SPSS utiliza una estrategia de inclusin forzosa de
varia- bles que permite construir la funcin discriminante incorporando todas las variables
indepen- dientes incluidas en el anlisis. Segn hemos visto en los ejemplos anteriores, los
nicos esta- dsticos que se obtienen con esta estrategia se refieren al ajuste global de la
funcin discrimi- nante; no se obtienen estadsticos referidos a la significacin individual de
cada coeficiente discriminante (como, por ejemplo, los estadsticos t del anlisis de
regresin mltiple).
Una manera de obtener informacin sobre la significacin individual de cada variable
en la funcin discriminante consiste en utilizar una estrategia de inclusin por pasos. Con
esta es- trategia, las variables se van incorporando a la funcin discriminante una a una y,
de esta mane- ra, es posible, por un lado, construir una funcin utilizando nicamente
aquellas variables que realmente son tiles para la clasificacin y, por otra, evaluar la
contribucin individual de cada variable al modelo discriminate. Para utilizar esta estrategia
de inclusin por pasos:
| Pulsar en el botn Mtodo... (inactivo hasta que se marca la opcin Usar mtodo
de inclusin por pasos) para acceder al subcuadro de dilogo Anlisis discriminante:
Mtodo de inclusin por pasos que muestra en la figura 23.7.
Figura 23.7. Subcuadro de dilogo Anlisis discriminante: Mtodo de inclusin por pasos.
Mtodo. En la estrategia de inclusin por pasos, las variables independientes van siendo incorporadas paso a paso a la funcin discriminate tras evaluar su grado de contribucin individual a la diferenciacin entre los grupos. Las opciones de este apartado permiten
seleccionar el estadstico que ser utilizado como mtodo de seleccin de variables:
F Menor razn F. Se incorpora en cada paso la variable que maximiza la menor razn
F para las parejas de grupos. El estadstico F utilizado es la distancia de
Mahalanobis ponderada por el tamao de los grupos:
Superado el criterio de significacin, una variable slo pasa a formar parte del modelo si su nivel de tolerancia es mayor
que el nivel establecido por defecto (este nivel es 0,001, pero puede cambiarse mediante sintaxis) y si, adems, su incorporacin al modelo no hace que alguna de las variables previamente seleccionadas pase a tener un nivel de tolerancia por
debajo del nivel establecido por defecto. La tolerancia de una variable independiente es la proporcin de varianza de esa
variable que no est asociada (que no depende) del resto de variables independientes incluidas en la ecuacin. Una variable
con una tole- rancia de, por ejemplo, 0,01 es una variable que comparte el 99 % de su varianza con el resto de variables
independientes, lo cual significa que se trata de una variable redundante casi por completo.
G F para distancias por parejas. Muestra una matriz de estadsticos F que contrasta
si cada pareja de grupos difieren en la funcin discriminante. Se comparan todas
las pa- rejas de grupos. Esta opcin es til en el caso de ms de dos grupos.
30
3
1
La tabla 23.16 indica que disponemos de 312 casos vlidos. Se han excluido 94 casos de la
muestra original de 406 casos. De estos 94 casos, 79 no pertenecen a ninguno de los grupos
se- leccionados (bien por que en la variable de agrupacin, origen, tienen el cdigo del pas
no se- leccionado Japn, bien porque tienen valor perdido en esa variable); 14 casos
pertenecen a uno de los dos grupos seleccionados (EE.UU. o Europa; cdigos 1 y 2 en la
variable origen) pero no disponen de informacin completa en todas las variables
independientes; y en 1 caso se dan ambas circunstancias.
Los casos excluidos por tener algn valor perdido en las variables independientes no se
utilizan para calcular la funcin discriminante, pero pueden ser utilizados ms tarde en la
fase de clasificacin (ver ms adelante).
En ocasiones puede resultar interesante realizar un anlisis pormenorizado de los
valores perdidos (por ejemplo, con el mdulo Valores perdidos). Si la muestra contiene
muchos casos con valor perdido en al menos una variable independiente, la funcin
discriminante se cons- truir a partir de un nmero muy reducido de casos. Esto representa
un serio inconveniente por dos razones. Por un lado, las estimaciones basadas en pocos
casos suelen ser poco eficientes (muy variables y, por tanto, inestables: cambian mucho al
utilizar muestras distintas). Por otro, si los casos con valores perdidos difieren de los casos
vlidos en alguna caracterstica concreta, las estimaciones estarn sesgadas. Si, por
ejemplo, los fabricantes de vehculos de ms cilindra- da tienen por costumbre no informar
de los consumos de sus vehculos, podemos encontrarnos con que los casos de los que se
dispone informacin son en su mayora vehculos de bajo con- sumo. Los resultados
obtenidos prescindiendo del consumo de los vehculos de gran cilindrada podran ser,
obviamente, muy distintos de los obtenidos si se contara con informacin sobre el consumo
de todos los vehculos.
Siempre es, por tanto, conveniente detenerse a revisar los valores perdidos para
averiguar si poseen alguna caracterstica comn. Podra ocurrir, por ejemplo, que la mayor
parte de los valores perdidos se concentraran en una o dos variables; excluir esa o esas
variables del anlisis permitira aumentar el nmero de casos vlidos y, con ello, obtener
estimaciones menos ses- gadas y ms eficientes.
Tabla 23.16. Resumen de los casos procesados.
Casos no ponderados
Vlidos
Excluidos
Por pertenecer a un grupo fuera de rango
Por tener valor perdido en al menos una variable discriminante
Por pertnecer a un grupo fuera de rango o por tener valor perdido
en al menos una variable discriminante
Total
Total
N
312
79
14
Porcentaje
76.8
19.5
3.4
.2
94
406
23.2
100.0
La tabla 23.17 informa del nmero de casos vlidos en cada grupo y en cada una de las
varia- bles independientes. Puesto que la exclusin de casos se realiza segn lista (es decir,
se exclu- yen del anlisis los casos con valor perdido en al menos una variable
independiente), el nmero de casos vlido de todas las variables es el mismo en cada grupo.
Tabla 23.17. Estadsticos por grupo (n de casos vlidos en cada variable).
Pas de origen
EE.UU.
Europa
Total
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100 km/h
Ao del modelo
Nmero de cilindros
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100 km/h
Ao del modelo
Nmero de cilindros
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100 km/h
Ao del modelo
Nmero de cilindros
33
Introducidas
Cilindrada en cc
Potencia (CV)
Ao del modelo
Peso total (kg)
Consumo (l/100Km)
Estadstico
.704
.660
.631
.620
.606
gl1
1
2
3
4
5
gl2
1
1
1
1
1
gl3
310.000
310.000
310.000
310.000
310.000
a,b,c,d
Estadstico
130.522
79.582
60.009
47.075
39.744
F exacta
gl1
gl2
1
310.000
2
309.000
3
308.000
4
307.000
5
306.000
Sig.
.000
.000
.000
.000
.000
34
La tabla 23.19 se encuentra dividida por cada uno de los pasos. En cada paso se mencionan
las variables incorporadas al modelo hasta ese momento y, para cada variable, el nivel de
toleran- cia, el valor del estadstico F que permite valorar si la variable debe o no ser
expulsada, (F pa- ra ser eliminar) y la lambda de Wilks global que obtendramos si se
eliminara la variable del modelo.
Esta tabla permite valorar (mediante F y lambda) el efecto de la exclusin de cada
variable y (mediante el nivel de tolerancia) el grado de colinealidad existente entre las
variables inde- pendientes. Puesto que las variables utilizadas en nuestro ejemplo se
encuentran muy relaciona- das entre s, la tolerancia disminuye sensiblemente en el
momento en que se incorpora una nue- va variable al modelo (recordemos que la tolerancia
es la proporcin de varianza de una va- riable independiente que no est explicada por el
resto de variables independientes). En el paso 0 todas las variables tiene una tolerancia
igual a 1, pues todava no existen variables en el mo- delo. En el paso 1 permanece en ese
valor de tolerancia para la primera variable pues, al estar sola, no existen variables que
puedan explicar nada de ella (vase la tolerancia de la variable cilindrada en el paso 1). En
el segundo paso, al incorporarse la variable potencia al modelo, la tolerancia baja a 0,212,
lo cual es sntoma de que existe una alta correlacin entre ambas variables (es fcil deducir
que la correlacin entre las dos variables es de 0,89). Sin embargo, la variable ao del
modelo no correlaciona tanto con la potencia y cilindrada: al incorporarse al modelo en el
tercer paso, su tolerancia slo baja hasta 0,799.
Tabla 23.19. Variables incluidas en el anlisis (variables seleccionadas en cada paso).
Paso
1
2
3
Cilindrada en cc
Cilindrada en cc
Potencia (CV)
Cilindrada en cc
Potencia (CV)
Ao del modelo
Cilindrada en cc
Potencia (CV)
Ao del modelo
Peso total (kg)
Cilindrada en cc
Potencia (CV)
Ao del modelo
Peso total (kg)
Consumo (l/100Km)
Tolerancia
1.000
.212
.212
.210
.208
.799
.114
.205
.767
.179
.114
.194
.509
.127
.157
F para
eliminar
130.522
84.720
20.452
88.464
14.658
14.110
71.727
12.097
17.124
5.591
71.054
15.813
24.242
11.612
6.839
Lambda
de Wilks
.841
.704
.812
.661
.660
.765
.644
.654
.631
.747
.638
.654
.629
.620
35
La tabla 23.20 ofrece una evaluacin de las variables candidatas a ser incluidas en el
modelo en cada uno de los pasos. La tabla muestra, en cada paso, las variables que todava
no han sido incorporadas al modelo.
Tabla 23.20. Variables no incluidas en el anlisis (variables no seleccionadas en cada paso)
Paso
0
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100 km/h
Ao del modelo
Nmero de cilindros
Consumo (l/100Km)
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100 km/h
Ao del modelo
Nmero de cilindros
Consumo (l/100Km)
Peso total (kg)
Aceleracin 0 a 100 km/h
Ao del modelo
Nmero de cilindros
Consumo (l/100Km)
Peso total (kg)
Aceleracin 0 a 100 km/h
Nmero de cilindros
Consumo (l/100Km)
Aceleracin 0 a 100 km/h
Nmero de cilindros
Aceleracin 0 a 100 km/h
Nmero de cilindros
Tolerancia
1.000
1.000
1.000
1.000
1.000
1.000
1.000
.302
.212
.188
.717
.814
.138
.277
.186
.506
.799
.137
.221
.179
.502
.137
.157
.382
.135
.380
.132
Tolerancia
mnima
1.000
1.000
1.000
1.000
1.000
1.000
1.000
.302
.212
.188
.717
.814
.138
.174
.119
.149
.208
.083
.172
.114
.149
.082
.114
.110
.067
.107
.066
F para
introducir
66.617
130.522
58.615
85.178
22.220
.016
107.273
4.448
20.452
4.257
1.809
19.892
.308
.672
2.648
1.637
14.110
1.033
.893
5.591
2.502
1.120
6.839
.235
.564
.460
1.285
Lambda
de Wilks
.823
.704
.841
.784
.933
1.000
.743
.694
.660
.694
.700
.661
.703
.659
.654
.657
.631
.658
.629
.620
.626
.629
.606
.619
.619
.605
.604
Antes de iniciar la construccin del modelo (paso 0) la tolerancia de todas las variables es la
mxima posible y, puesto que las variables estn siendo evaluadas individualmente, la F
para entrar en el modelo (F para introducir) coincide con el valor de la F univariante que se
obten- dra al marcar la opcin ANOVAs univariantes del cuadro de dilogo Anlisis
discriminante: Estadsticos (ver figura 23.6). Adems, para cada variable ya incorporada al
modelo, el valor de la F para salir en un determinado paso (F para eliminar de la tabla
23.19) coincide con el valor de la F para entrar en el paso anterior (F para introducir de la
tabla 23.20).
36
Paso
1
2
3
4
5
Nmero de
variables
1
2
3
4
5
Lambda
.704
.660
.631
.620
.606
gl1
1
2
3
4
5
gl2
1
1
1
1
1
gl3
310
310
310
310
310
Estadstico
130.522
79.582
60.009
47.075
39.744
F exacta
gl1
gl2
1 310.000
2 309.000
3 308.000
4 307.000
5 306.000
Sig.
6.569E-21
.000
.000
.000
.000
37
Paso
1
2
3
4
5
Europa
130.522
.000
79.582
.000
60.009
.000
47.075
.000
39.744
.000
F
Sig.
F
Sig.
F
Sig.
F
Sig.
F
Sig.
En la tabla 23.23 podemos apreciar que el autovalor ha aumentado respecto al caso de dos
variables (ver tabla 23.3). Tambin ha aumentado considerablemente la correlacin
cannica. Tcnicamente, el autovalor es proporcional a la dispersin obtenida en la
direccin del mayor autovector de la nube de puntos multivariante. Si el autovalor aumenta
es porque la nube de puntos multivariante aumenta su dispersin y es posible distinguir
mejor los grupos.
Tabla 23.23. Autovalores.
Funcin
1
Autovalor
.649
% de
varianza
100.0
%
Correlacin
acumulado cannica
100.0
.627
Lambda
de Wilks
.606
Chi-cuadrado
153.879
gl
5
Sig.
.000
3
8
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Ao del modelo
Funcin
1
.595
2.052
-.801
-.856
.605
Cilindrada en cc
Nmero de cilindrosa
Peso total (kg)
Consumo (l/100Km)
Potencia (CV)
Aceleracin 0 a 100 km/h a
Ao del modelo
Funcin
1
.805
.768
.650
.575
.540
-.294
-.009
Funcin
1
.424
-1.522
40
El problema de la clasificacin
En los apartados precedentes hemos estudiado, bsicamente, cmo construir o estimar la
fun- cin discriminante. Si nuestro objetivo consiste en averiguar en qu difieren dos
grupos, con lo visto hasta ahora es ms que suficiente. Sin embargo, la mayor utilidad de
una funcin discri- minante radica en su capacidad para clasificar nuevos casos. Ahora bien,
la clasificacin de casos es algo muy distinto de la estimacin de la funcin discriminante.
De hecho, una funcin perfectamente estimada puede no pasar de una pobre capacidad
clasificatoria.
Una vez obtenida la funcin discriminate podemos utilizarla, en primer lugar, para
efectuar una clasificacin de los mismos casos utilizados para obtener la funcin: esto
permitir com- probar el grado de eficacia la funcin desde el punto de vista de la
clasificacin. Si los resul- tados son satisfactorios, la funcin discriminante podr utilizarse,
en segundo lugar, para cla- sificar futuros casos de los que, conociendo su puntuacin en las
variables independientes, se desconozca el grupo al que pertenecen.
Una manera de clasificar los casos consiste en calcular la distancia existente entre los
cen- troides de ambos grupos y situar un punto de corte dc equidistante de ambos centroides
(ver fi- gura 23.8). A partir de ese momento, los casos cuyas puntuaciones discriminantes
sean mayores que el punto de corte dc sern asignados al grupo superior y los casos cuyas
puntuaciones dis- criminantes sean menores que el punto de corte dc sern asignados al
grupo inferior.
Figura 23.8. Utilizacin de un punto de corte equidistante de ambos centroides (n1 = n2).
40
Esta regla de clasificacin tiene un serio inconveniente: slo permite distinguir entre dos
grupos y es difcilmente aplicable al caso de ms de dos grupos. Adems, no tiene en cuenta
que los
4
1
grupos pueden tener distinto tamao. Si ambos grupos son de igual tamao, la situacin real
ser muy similar a la descrita en la figura 23.8. Pero si, por el contrario, los tamaos
muestrales son muy desiguales, la situacin real ser ms parecida a la que muestra la
figura 23.9. En esta figura puede verse con claridad que, si utilizamos el punto de corte dc
como punto de clasifica- cin, la proporcin de casos mal clasificados en el grupo de menor
tamao (zona rayada hori- zontalmente) ser mucho menor que en el grupo de mayor
tamao (zona rayada verticalmente). Por tanto, con tamaos desiguales es preferible utilizar
una regla de clasificacin que desplace el punto de corte hacia el centroide del grupo de
menor tamao buscando igualar los errores de clasificacin. Para calcular este punto de
corte podemos utilizar una distancia ponderada:
Figura 23.9. Utilizacin de un punto de corte equidistante de ambos centroides (n1 =/ n2).
Fukunaga y Kessell (1973) y Glick (1978) han propuesto una regla de clasificacin basada
en la teora bayesiana. Esta otra regla permite incorporar fcilmente la informacin relativa
al ta- mao de los grupos y, adems, es extensible al caso de ms de dos grupos.
Es frecuente que, aunque los tamaos de los grupos sean intrnsecamente diferentes, se
desee compensar estadsticamente esa desigualdad a la hora de clasificar a los sujetos. Esta
si- tuacin es muy frecuente en el mbito clnico cuando se comparan sujetos normales con
4
2
uno de los grupos, tendremos una probabilidad a priori: P(gk). Estas probabilidades a
priori pueden estimarse a partir de la muestra (si se ha realizado un muestreo aleatorio), o
recurriendo directamente a datos poblacionales previos (si se tienen).
Las probabilidades a priori ofrecen alguna informacin sobre la representatividad de
los casos, pero no ofrecen informacin concreta sobre un caso en particular. Adems, las
probabi- lidades a priori no tienen en cuenta que las probabilidades de aparicin de las
variables inde- pendientes en cada grupo pueden no ser simtricas. Por ejemplo, una
sintomatologa diagns- tica puede ser ms frecuente en un grupo patolgico que un grupo
normal.
Por supuesto, siempre es posible aprovechar la informacin adicional que proporciona
sa- ber a qu grupo pertenece cada caso. Si asumimos que las puntuaciones discriminantes
se dis- tribuyen normalmente, podemos calcular la probabilidad asociada a un caso (es
decir, la proba- bilidad que queda por encima o por debajo de ese caso) en cada uno de los
grupos utilizados en el anlisis. Esto es lo que se conoce como probabilidad condicional:
P(D > di | G = gk) o, simplemente, P(di | gk). La probabilidad condicional de una puntuacin
discriminante puede calcularse mediante tablas de probabilidad asinttica o a partir de los
cuantiles observados (ver figura 23.10).
Figura 23.10. Probabilidad condicional de la puntuacin discriminante di en el grupo 2.
ponden en cada uno de los grupos del anlisis. Por ello, para clasificar un caso nuevo, es
ms apropiado utilizar las probabilidades a posteriori, es decir, las probabilidades de
pertenecer a cada uno de los grupos, dado que a ese caso le corresponde una determinada
puntuacin dis- criminate, es decir: P(G = gk | D = di) o, simplemente, P(gk | di). Estas
probabilidades a poste- riori se obtienen utilizando el teorema de Bayes:
El sumatorio del denominador posee tantos trminos como grupos (no hay lmite en el
nmero de grupos). Con esta regla de clasificacin, los casos nuevos son clasificados en el
grupo al que corresponde mayor probabilidad a posteriori.
Aunque en la estimacin de las probabilidades a priori es habitual utilizar los tamaos
de los grupos, la aplicacin del teorema de Bayes permite manipular esas probabilidades y
asignarles un valor arbitrario (para reflejar mejor la composicin de la poblacin, para
compen- sar el coste de una clasificacin errnea, etc.). La manipulacin de las
probabilidades a priori hace que se desplace el punto de clasificacin. Si se asigna igual
probabilidad a priori a todos los grupos, el punto de corte para la clasificacin ser
equidistante de todos ellos; si se aumenta la probabilidad a priori de un grupo, el punto de
corte para la clasificacin se alejar de su centroide.
Una forma ms de determinar el punto de corte ptimo para la clasificacin consiste en
la curva COR (curva caracterstica del receptor ideal), disponible como procedimiento
adicional dentro del propio SPSS.
Ninguno de los procedimientos mencionados valora el coste de la clasificacin errnea
de los sujetos: todos ellos asumen igual coste para los aciertos y los errores en todos los
grupos. Si existen costes diferenciales para cada tipo de acierto y para cada tipo de error,
ser necesario establecer el punto de corte mediante otro tipo de procedimientos ms
caractersticos de la Teo- ra de la toma de decisiones.
Probabilidades previas. Las opciones de este apartado permiten controlar el valor que
adop- tarn las probabilidades previas o probabilidades a priori:
F Todos los grupos iguales. Se asigna la misma probabilidad a todos los grupos. Si el
anlisis discrimina entre k grupos, la probabilidad a priori asignada a cada grupo
vale 1/k. Con esta opcin el tamao de los grupos no influya en la clasificacin.
F
G Tabla de resumen. Muestra una tabla de clasificacin de tamao gxg con el grupo
nominal en las filas y el grupo pronosticado en las columnas. La tabla ofrece las
fre- cuencias absolutas, los porcentajes de fila y el porcentaje total de
clasificaciones co- rrectas. Esta tabla se denomina tambin matriz de confusin. En
la diagonal principal de la matriz se encuentran las clasificaciones correctas.
G Clasificacin dejando uno fuera. Ofrece una validacin cruzada para comprobar
la capacidad predictiva de la funcin discriminante. Para ello, el SPSS genera
tantas fun- ciones discriminantes como casos vlidos tiene el anlisis; cada una de
esas funciones se obtiene eliminando un caso; despus, cada caso es clasificado
utilizando la funcin discriminante en la que no ha intervenido. La tabla de
clasificacin incluye una segun- da matriz de confusin con el resultado de la
clasificacin siguiendo esta estrategia.
Grficos. Estas opciones permiten decidir cmo sern representados los casos en las
funciones discriminantes. El tipo de grfico ofrecido depende del nmero de funciones
estimadas:
G Grupos combinados. Muestra un diagrama de dispersin de todos los casos en el
pla- no definido por las dos primeras funciones discriminantes. Cuando slo existe
una funcin discriminante, este grfico se omite y aparece una advertencia
indicando tal circunstancia.
G Grupos separados. En el caso de dos grupos (una sola funcin discriminante), esta
opcin ofrece el histograma de cada grupo en la funcin discriminante (incluyendo
los casos con valor perdido en la variable de agrupacin). En el caso de ms de dos
gru- pos (ms de una funcin discriminante), ofrece un diagrama de dispersin de
cada grupo en el plano definido por las dos primeras funciones discriminantes.
G Reemplazar los valores perdidos con la media. Sustituye los valores perdidos de las
variables independientes por sus medias aritmticas. Estas medias se calculan a partir de los
casos vlidos en cada variable. Los casos cuyo valor perdido es sustituido intervienen en la
cla- sificacin.
50
P(G=g | D=d)
Distancia de Mahalanobis al cuadrado hasta el centroide
Original
1
2**
.625
1
.720
.239
Grupo P(G=g
| D=d)
Distancia de Mahalanobis al cuadrado hasta el centroide
1
.280
2.123
Puntuaciones discriminantes
Funcin 1
Grupo real
Grupo mayor
Grupo pronosticado
P(D>d | G=g)
p
gl
Validacin
a
cruzada
1
2**
.524
5
.733
4.180
1
.267
6.195
-1.033
Para los datos originales, la distancia de Mahalanobis al cuadrado se basa en las funciones cannicas.
Para los datos validados mediante validacin cruzada, la distancia de Mahalanobis al cuadrado se basa en las observaciones.
**. Caso mal clasificado
a. La validacin cruzada slo se aplica a los casos del anlisis. En la validacin cruzada, cada caso se clasifica mediante las
funciones derivadas a partir del resto de los casos.
5
1
Las figuras 23.12 y 23.13 muestran los histogramas de las puntuaciones discriminantes. El
pri- mero de ellos contiene los vehculos pertenecientes al grupo estadounidense. El
segundo, los pertenecientes al grupo europeo.
Figura 23.12. Histograma de las puntuaciones discriminantes. Vehculos estadounidenses.
35
30
25
20
15
10
N = 253.00
Media = .39
2
Desv. tp. = .64
Media = -1.53
0
N = 73.00
20
10
N = 80.00
En el histograma de la figura 23.15 estn representados los vehculos de todos los grupos.
El grfico incluye una lnea vertical sobre el punto de corte que se est utilizando para la
clasifica- cin (aproximadamente -0,55). Para conocer cul es el punto exacto se han
guardado dos va- riables en el archivo de datos (ver, ms abajo, el apartado Guardar): las
puntuaciones discrimi- nantes y el grupo pronosticado para cada caso. Despus se ha
ordenado el archivo tomando co- mo criterio de ordenacin las puntuaciones
discriminantes: el punto de corte corresponde al valor de la funcin discriminante en el
momento en que los casos dejan de ser clasificados en un grupo y pasan a ser clasificados
en el otro.
Figura 23.15. Histograma de las puntuaciones discriminantes. Todos los vehculos del archivo.
20
10
Frecuencia
Pas de origen
Japn
Europa
0
-2.00
-1.20
-.40
.40
1.20
2.00
EE.UU.
-2.80
Puntuaciones discriminantes
grupos apilados, el Visor emite una advertencia indicando que ya no se ofrece tal
histograma.
La tabla 23.29 muestra los resultados de la clasificacin (la matriz de confusin). Esta tabla
es en s misma un procedimiento de validacin de la funcin, pues resume la capacidad predictiva de la funcin discriminante. Los vehculos estadounidenses son correctamente
clasifica- dos en el 76,3 % de los casos y los vehculos europeos en el 94,5%. En total, la
funcin consi- gue clasificar correctamente al 80,4 % de los casos. Si no existen datos
previos acerca de la efi- cacia clasificatoria de otros mtodos, lo apropiado es comparar
estos porcentajes con la cla- sificacin correcta esperable por azar. En nuestro ejemplo,
puesto que slo hay dos grupos de vehculos, la expectativa de clasificacin correcta por
azar es del 50 %.
La tabla 23.29 tambin incluye informacin sobre los casos desagrupados (es decir, los
casos que no pertenecen a ninguno de los dos grupos utilizados en el anlisis). Los
resultados obtenidos indican que estos casos seran clasificados mayoritariamente (90,1 %)
como vehcu- los europeos.
La validacin cruzada (la clasificacin de cada caso tras dejarlo fuera del clculo de la
funcin discriminante) arroja resultados similares a los de la clasificacin original.
Tabla 23.29. Resultados de la clasificacin (sin tener en cuenta el tamao de los grupos).
Original
Recuento
Validacin cruzada c
Recuento
%
Pas de origen
EE.UU.
Europa
Casos desagrupados
EE.UU.
Europa
Casos desagrupados
EE.UU.
Europa
EE.UU.
Europa
Grupo de pertenencia
pronosticadoa,b
EE.UU.
Europa
193
60
4
69
7
73
76.3
23.7
5.5
94.5
8.8
91.3
192
61
4
69
75.9
24.1
5.5
94.5
Total
253
73
80
100.0
100.0
100.0
253
73
100.0
100.0
Pas de origen
EE.UU.
Europa
Total
Previas
.782
.218
1.000
Original
Recuento
Validacin cruzada c
Recuento
%
Pas de origen
EE.UU.
Europa
Casos desagrupados
EE.UU.
Europa
Casos desagrupados
EE.UU.
Europa
EE.UU.
Europa
Grupo de pertenencia
a,b
pronosticado
EE.UU.
Europa
241
12
27
46
44
36
95.3
4.7
37.0
63.0
55.0
45.0
239
14
28
45
94.5
5.5
38.4
61.6
Total
253
73
80
100.0
100.0
100.0
253
73
100.0
100.0
El histograma conjunto de la figura 23.16 muestra los dos puntos de corte utilizados. El
trazo discontinuo corresponde al punto de corte (-0,55) resultante de aplicar el criterio que
atribuye igual probabilidad previa a los dos grupos; y el trazo continuo corresponde al
punto de corte (-1,20) obtenido con el criterio que atribuye mayor probabilidad al grupo
ms grande. La figura muestra con claridad que el punto de corte correspondiente al
segundo criterio se ha desplazado hacia la izquierda, alejndose del centroide del grupo ms
grande e invadiendo el territorio del grupo ms pequeo. De hecho, el vehculo nmero 54,
que inicialmente haba sido clasificado en el grupo europeo (a pesar de ser un vehculo
estadounidense), con la regla de clasificacin basada en el segundo criterio ha sido
clasificado en el grupo estadounidense. (A pesar de este cambio en la clasificacin del
vehculo 54, conviene sealar que su puntuacin discriminante no ha cambiado; slo ha
cambiado el criterio de clasificacin).
Figura 23.16. Histograma de las puntuaciones discriminantes. Todos los vehculos del archivo.
20
10
Frecuencia
Pas de origen
Japn
Europa
0
-2.00
-1.20
-.40
.40
-2.80
Puntuaciones discriminantes
1.20
2.00
EE.UU.
Grupo real
Grupo mayor
Grupo pronosticado
P(D>d | G=g)
p
gl
P(G=g | D=d)
Distancia de Mahalanobis al cuadrado hasta el centroide
Segundo grupo mayor
Grupo
P(G=g | D=d)
Distancia de Mahalanobis al cuadrado hasta el centroide
Original
1
1
.145
1
.583
Validacin
cruzadaa
1
1
.288
5
.567
2.123
6.195
2
.417
2
.433
.239
4.180
-1.033
Para los datos originales, la distancia de Mahalanobis al cuadrado se basa en las funciones cannicas.
Para los datos validados mediante validacin cruzada, la distancia de Mahalanobis al cuadrado se basa en las observaciones.
a. La validacin cruzada slo se aplica a los casos del anlisis. En la validacin cruzada, cada caso se clasifica mediante las
funciones derivadas a partir del resto de los casos.
60
Guardar
Las opciones del cuadro de dilogo Guardar permiten guardar (crear) en el archivo de datos
variables nuevas con informacin sobre algunos aspectos del anlisis. Esta opcin es til
para distintos fines, como por ejemplo, para utilizarla en otros procedimientos (clculo de la
curva COR, etc.). Para crear estas nuevas variables:
G Grupo de pertenencia pronosticado. Crea una variable categrica con cdigos 1, 2, ...,
que indican el grupo en el que ha sido clasificado cada caso (grupo pronosticado). El
grupo pronosticado para cada caso depende de las selecciones hechas en el proceso de
clasi- ficacin.
6
1
Seleccionar
Un problema habitual de los modelos estadsticos es que el modelo estimado siempre se
ajusta lo ms perfectamente posible a los datos de la muestra concreta utilizada. Esto,
obviamente, constituye un pequeo inconveniente, pues la estructura de la muestra puede
presentar ligeras divergencias respecto de la estructura real de la poblacin. Para evitar este
efecto de sobreajus- te muestral puede llevarse a cabo una validacin cruzada, que consiste
en:
1) Seleccionar, de la muestra original, un subconjunto aleatorio de casos (muestra de
validacin);
2) Estimar la funcin discriminate con los casos restantes (muestra de entrenamiento);
3) Utilizar esa funcin para clasificar los casos de la muestra de validacin.
La validacin cruzada consiste, por tanto, en clasificar casos con una funcin que no
incluye informacin sobre ellos. La validacin cruzada puede llevarse a cabo una sola vez o
repetirse varias veces. Si la muestra original es grande, podra bastar un solo intento
utilizando una muestra de validacin del 10% al 20% de los casos. Con muestras pequeas,
puede dividirse la muestra total en 10 submuestras y repetir el proceso de validacin 10
veces, excluyendo cada vez una de las submuestras.
Para llevar a cabo una validacin cruzada debe crearse primero una variable (la variable de
seleccin) que distinga entre los casos que sern utilizados como muestra de entrenamiento
y los que sern utilizados como muestra de validacin. Para seleccionar los casos utilizados
en el anlisis:
| Marcar la opcin Todos los casos y pulsar el botn Aceptar para desactivar
cualquier filtro que se encuentre activo.
Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestra la tabla
23.33. Por supuesto, en la fase de estimacin del anlisis intervienen nicamente los casos con
valor uno en la variable de seleccin (es decir, aproximadamente el 50 % de los casos de la
muestra), mientras que la fase de clasificacin afecta tanto a los casos de la muestra de
entrena- miento como a los de la muestra de validacin.
Casos seleccionados
Original
Recuento
Casos no seleccionados
Original
Recuento
Pas de origen
EE.UU.
Europa
Casos desagrupados
EE.UU.
Europa
Casos desagrupados
EE.UU.
Europa
Casos desagrupados
EE.UU.
Europa
Casos desagrupados
Grupo de pertenencia
a,b
pronosticado
EE.UU.
Europa
113
7
9
24
32
21
94.2
5.8
27.3
72.7
60.4
39.6
119
5
15
20
11
16
96.0
4.0
42.9
57.1
40.7
59.3
Total
120
33
53
100.0
100.0
100.0
124
35
27
100.0
100.0
100.0
Podemos repetir el proceso de validacin cruzada ejecutando de nuevo el anlisis sobre los
ca- sos con cdigo cero en la variable de seleccin. Para ello, basta con cambiar el valor de
la va- riable de seleccin en el subcuadro de dilogo Anlisis discriminante: Establecer
valor (ver figura 23.19). Sin embargo, esto puede hacerse tambin con el proceso Ejecutar
casos no selec- cionados. Para ejecutar este proceso:
Por tanto, la tabla 23.34 contiene el resultado de clasificacin tras intercambiar las muestras
de entrenamiento y validacin del primer anlisis. Podemos comprobar que el porcentaje de
clasificacin correcta en la nueva muestra de entrenamiento es del 86,8 %, y del 87,6 % en
la nueva muestra de validacin. Basndonos en estos resultados, podemos concluir que, si
uti- lizamos cualquiera de las dos funciones obtenidas para clasificar nuevos casos,
podemos espe- rar que el porcentaje de clasificacin correcta se encuentre en torno al 87,5
%.
Tabla 23.34. Tabla de clasificacin (funcin obtenida con la muestra de validacin).
Casos seleccionados
Original
Recuento
Casos no seleccionados
Original
Recuento
Pas de origen
EE.UU.
Europa
Casos desagrupados
EE.UU.
Europa
Casos desagrupados
EE.UU.
Europa
Casos desagrupados
EE.UU.
Europa
Casos desagrupados
Grupo de pertenencia
a,b
pronosticado
EE.UU.
Europa
117
7
14
21
13
14
94.4
5.6
40.0
60.0
48.1
51.9
111
9
10
23
34
19
92.5
7.5
30.3
69.7
64.2
35.8
Total
124
35
27
100.0
100.0
100.0
120
33
53
100.0
100.0
100.0
70
7
1
Aceptando estas elecciones, el Visor ofrece, entre otros, los resultados que se muestran a
conti- nuacin (algunas tablas han sido modificadas para economizar espacio).
La tabla 23.35 muestra el nmero de casos vlidos de cada grupo. Puede observarse que,
ahora, el grupo de vehculos japoneses se incluye como un grupo ms.
Tabla 23.35. Tamaos muestrales de cada grupo.
N vlido (segn lista) No ponderados
Consumo Cilindrada
en cc
Pas de origen (l/100Km)
EE.UU.
244
244
Europa
68
68
Japn
79
79
Total
391
391
Potencia
(CV)
244
68
79
391
Ao del
modelo
244
68
79
391
Nmero de
cilindros
244
68
79
391
Cilindrada en cc
Potencia (CV)
Ao del modelo
Peso total (kg)
Consumo (l/100Km)
Tolerancia
.131
.204
.521
.134
.169
F para
eliminar
47.381
19.658
11.780
8.939
4.003
Lambda
de Wilks
.587
.519
.500
.493
.480
La tabla 23.37 muestra cmo, a medida que se van incorporando nuevas variables al
modelo en cada paso, los valores de la lambda de Wilks global y del estadstico F asociado
a ella van disminuyendo.
Tabla 23.37: Lambda de Wilks.
Paso
1
2
3
4
5
Nmero de
variables
1
2
3
4
5
Lambda
.570
.518
.500
.480
.471
gl1
1
2
3
4
5
gl2
2
2
2
2
2
gl3
388
388
388
388
388
Estadstico
146.218
75.407
53.292
42.610
35.149
F exacta
gl1
gl2
2
388.000
4
774.000
6
772.000
8
770.000
10 768.000
Sig.
.000
.000
.000
.000
.000
La tabla 23.38 ofrece las comparaciones entre pares de grupos. Los valores del estadstico
F no coinciden con los del estadstico F asociado a la lambda de Wilks global. La tabla
muestra todas las comparaciones posibles entre cada dos grupos y el estadstico F y su
significacin pa- ra esa comparacin. Vemos que en el primer paso (al incluir la variable
cilindrada en el mo- delo) se consigue distinguir significativamente a los vehculos
estadounidenses de los europeos y los japoneses, pero no se consigue discriminar a los
japoneses de los europeos. Hasta el paso 3 (momento en el que se incorpora al modelo la
variable ao del modelo), no se consigue dife- renciar a estos dos grupos.
Tabla 23.38. Comparaciones entre grupos por pares.
Pas de origen
EE.UU.
Europa
Japn
Europa
Japn
F
Sig.
F
Sig.
F
Sig.
1
2
160.560
97.082
.000
.000
198.782 124.100
.000
.000
.280
.381
.597
.684
Paso
3
69.993
.000
82.545
.000
3.517
.015
4
54.299
.000
62.926
.000
6.646
.000
5
45.756
.000
51.265
.000
5.541
.000
Los autovalores (tabla 23.39) de las dos funciones que componen el modelo son muy
desigua- les. La primera funcin explica el 93,2 % de la variabilidad disponible en los
datos, mientras que la segunda funcin slo explica el 6,8%. De manera similar, la
correlacin cannica de la primera funcin es alta (0,704), mientras que la de la segunda
funcin es ms bien baja (0,259).
Tabla 23.39. Autovalores.
Funcin
1
2
Autovalor
.982a
.072a
% de
varianza
93.2
6.8
%
Correlacin
acumulado cannica
93.2
.704
100.0
.259
Lambda de Wilks
.471
.933
Chi-cuadrado
290.917
26.886
gl
10
4
Sig.
.000
.000
La tabla 23.41 muestra la ubicacin de los centroides en cada una de las funciones
discriminan- tes. La primera funcin distingue fundamentalmente a los vehculos
estadounidenses (cuyo centroide est ubicado en la parte positiva) de los vehculos
europeos y japoneses (cuyos centroides se encuentran en la parte negativa).
En la segunda funcin, el centroide de los vehculos japoneses se sita en la parte
positiva, mientras que el de los vehculos europeos se sita en la parte negativa; el de los
vehculos estadounidenses queda en la parte central. Dado que la primera funcin ha
conseguido explicar el mximo de las diferencias existentes entre los vehculos
estadounidenses y el resto, es lgico que la segunda funcin discrimine precisamente entre
los dos grupos que han quedado ms prximos en la primera.
Tabla 23.41. Valor de los centroides en las funciones discriminantes.
Pas de origen
EE.UU.
Europa
Japn
Funcin
1
2
.766
.001
-1.265
-.472
-1.278
.403
La matriz de coeficientes estandarizados (tabla 23.42) contiene ahora dos columnas, una
para cada funcin discriminante. Las funciones se encuentran siempre ordenadas en
correspondencia con los autovalores de la tabla 23.39, siendo la primera funcin la de
mayor capacidad discri- minativa. Los coeficientes estandarizados de la primera funcin no
difieren sustancialmente de los obtenidos en la funcin estimada en el caso de dos grupos
(ver tabla 23.25). Esta primera funcin discrimina, fundamentalmente, entre vehculos de
gran cilindrada y vehculos ms optimizados en potencia. Puesto que el nico centroide
positivo en esta primera funcin (ver tabla 23.41) es el de los coches estadounidenses,
podemos interpretar que los vehculos de gran cilindrada y poca potencia tienden a ser
clasificados como estadounidenses. Y lo mismo vale decir de los vehculos que consumen
ms y que tienen menor peso y antigedad.
La segunda funcin atribuye la mayor ponderacin al peso del vehculo. Puesto que
ahora el centroide de los vehculos europeos es negativo y el de los japoneses positivo,
podemos interpretar que los coches con mayor peso tendern a ser clasificados como
europeos. Mientras que los vehculos con mayor cilindrada, los menos antiguos (ao del
modelo ms alto), los ms potentes y los que ms consumen tendern a ser clasificados
como vehculos japoneses.
Tabla 23.42. Coeficientes estandarizados de las funciones discriminantes cannicas.
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Ao del modelo
Funcin
1
2
.456
.511
1.697
1.134
-.925
.670
-.296
-2.070
.305
.983
La matriz de estructura (tabla 23.43) ofrece los coeficientes de correlacin entre las
variables independientes y las puntuaciones discriminantes de cada funcin. El coeficiente
ms alto de cada variable aparece marcado con un asterisco que indica cul es la funcin
con la que ms correlaciona esa variable (lo que no significa que sea sa la funcin en la
que ms discrimina la variable). Si existe alta colinealidad (alta relacin entre las variables
independientes), los coeficientes de esta tabla puede ser muy distintos de los coeficientes
estandarizados, como de hecho sucede. En nuestro ejemplo, la primera funcin correlaciona
con la cilindrada, el peso, el consumo y la potencia; la segunda funcin correlaciona con el
ao del modelo.
Tabla 23.43. Matriz de estructura.
Cilindrada en cc
Nmero de cilindrosa
Peso total (kg)
Consumo (l/100Km)
Potencia (CV)
Aceleracin 0 a 100 km/ha
Ao del modelo
Funcin
1
.876*
.834*
.762*
.669*
.565*
-.251*
-.138
2
-.087
-.104
-.348
-.308
-.016
-.242
.557*
Hasta aqu hemos discutido el proceso de construccin o estimacin del modelo. Para
valorar la capacidad predictiva del modelo estimado debemos prestar atencin a los
resultados de la clasificacin.
La tabla 23.44 ofrece las probabilidades previas o a priori. Estas probabilidades indican
que se ha dado la misma importancia relativa a todos los grupos: 0,333 (a pesar de que los
ve- hculos estadounidenses constituyen ms del 60% de la muestra). Enseguida veremos
qu ocu- rre si utilizamos probabilidades previas basadas en los tamaos de los grupos.
Tabla 23.44. Probabilidades previas (probabilidades a priori utilizadas en la clasificacin).
Pas de origen
EE.UU.
Europa
Japn
Total
Previas
.333
.333
.333
1.000
La figura 23.20 muestra el mapa territorial. Un mapa territorial representa el territorio (espacio) que corresponde a cada uno de los grupos en el plano definido por las dos funciones
dis- criminantes: la primera funcin en el eje de abscisas y la segunda funcin en el eje de
ordena- das.
Los centroides de cada grupo estn representados por asteriscos. Para representar los
cen- troides se utilizan las coordenadas de la tabla de centroides (ver tabla 23.41).
Observando la ubicacin de los centroides en la figura 23.20 se aprecia claramente que la
primera funcin po- see mayor capacidad discriminativa que la segunda, pues los centroides
se dispersan o alejan ms en la direccin horizontal que en la vertical.
Las secuencias de nmeros que aparecen dividiendo el plano en territorios son los
lmites o fronteras impuestos por la regla de clasificacin. Los nmeros (1, 2, ...) identifican
el grupo al que corresponde cada territorio. Conviene tener en cuenta que, puesto que la
regla de clasifi- cacin cambia al cambiar las probabilidades previas, si se cambian esas
probabilidades tambin cambiarn las fronteras de los territorios (el efecto concreto es que
las fronteras se alejan del centroide del grupo al que se le asigna mayor probabilidad).
Para conocer el grupo pronosticado de un caso cualquiera (es decir, el grupo en el que
ser clasificado), basta con representar en el mapa territorial el punto definido por sus
puntuaciones discriminantes en ambas funciones. El grupo pronosticado es aquel al que
corresponde el terri- torio en el que queda ubicado el punto.
Prestando atencin a la disposicin de los tres territorios sobre el mapa, resulta fcil
anti- cipar que los vehculos con puntuaciones altas en la primera funcin discriminante
sern clasifi- cados en el grupo estadounidense (grupo 1), mientras que los vehculos con
puntuaciones pr- ximas a cero o negativas en esa funcin sern clasificados en el grupo
europeo (grupo 2) o ja- pons (grupo 3). En este segundo caso, si la puntuacin del vehculo
en la segunda funcin dis- criminante es positiva ser clasificado en el grupo japons,
mientras que si la puntuacin en esa funcin es negativa ser clasificado en el grupo
europeo.
Figura 23.20. Mapa territorial definido por las dos funciones discriminantes.
Discriminante cannica
Funcin 2
-6.0
-4.0
-2.0
.0
2.0
4.0
6.0
+--------+--------+--------+--------+--------+--------+
6.0 +
31
+
I
31
I
I
31
I
I
31
I
I
31
I
I
31
I
4.0 +
+
+
+ 31
+
+
+
I
31
I
I
31
I
I
31
I
I
31
I
I
31
I
2.0 +
+
+
+31
+
+
+
I
31
I
I
31
I
I
31
I
I
31
I
I
*
31
I
.0 +3333333333333333333333333331
*
+
+
+
I222222222222222222222*222221
I
I
21
I
I
21
I
I
21
I
I
21
I
-2.0 +
+
+
+21
+
+
+
I
21
I
I
21
I
I
21
I
I
21
I
I
21
I
-4.0 +
+
+
+ 21
+
+
+
I
21
I
I
21
I
I
21
I
I
21
I
I
21
I
-6.0 +
21
+
+--------+--------+--------+--------+--------+--------+
-6.0
-4.0
-2.0
.0
2.0
4.0
6.0
Funcin de discriminante cannica 1
Smbolos usados en el mapa territorial
Smbolo
------1
2
3
*
Grupo
----1
2
3
Etiqueta
---------------------------EE.UU.
Europa
Japn
Indica un centroide de grupo
80
8
1
La tabla 23.45 ofrece los resultados de la clasificacin para el caso 54. Su grupo real o
nominal es el estadounidense (grupo 1), pero ha sido clasificado en el grupo europeo (grupo
2). Su pun- tuacin discriminante en la primera funcin (0,474) hace que sea clasificado
como vehculo no perteneciente al grupo 1, es decir como vehculo europeo o japons (ver
centroides en la ta- bla 23.41); y su puntuacin discriminante en la segunda funcin (
1,078) hace que sea clasi- ficado como vehculo europeo (recordemos que la primera
funcin permite discriminar entre vehculos estadounidenses yvehculos europeos-japones;
y la segunda entre vehculos europeos y japoneses).
La probabilidad condicional, P(D>d | G=g), del caso 54 vale 0,609, lo que permite
afir- mar que se trata de un vehculo bastante centrado en el grupo en el que ha sido
clasificado (grupo 2). Echando un vistazo a sus caractersticas podemos comprobar que se
trata, bsicamente, de un vehculo cuya cilindrada, peso, potencia y ao estn claramente
por debajo de la media (ver, ms arriba, el comentario de la tabla 23.42).
Tabla 23.45. Resultado de la clasificacin (caso nmero 54).
Nmero de caso: 54
Original
Grupo real
Grupo mayor
Grupo pronosticado
P(D>d | G=g)
p
gl
P(G=g | D=d)
Distancia de Mahalanobis al cuadrado hasta el centroide
Segundo grupo mayor
Grupo P(G=g
| D=d)
Distancia de Mahalanobis al cuadrado hasta el centroide
Puntuaciones discriminantes
Funcin 1
Funcin 2
1
2**
.609
2
.549
.993
1
.234
2.702
-.474
-1.078
Funcin discriminante 2
Pas de origen
Centroides de grupo
-2
Japn
Europa
EE.UU.
-4
-3
-2
-1
Funcin discriminante 1
En este ejemplo, el diagrama de dispersin tambin nos ofrece pistas sobre la conveniencia
de aumentar la probabilidad a priori del grupo estadounidense para mejorar la clasificacin,
pues la primera funcin discriminante (el eje horizontal) parece distinguir fcilmente a los
vehculos japoneses y europeos de los estadounidenses.
Por ltimo, la matriz de confusin de la tabla 23.46 ofrece los resultados de la clasificacin.
La tabla indica que se ha clasificado correctamente el 67,4 % de los vehculos, lo cual,
com- parado con el 33% esperable en una clasificacin completamente al azar, puede
interpretarse como una mejora considerable.
Los errores de clasificacin no se distribuyen de manera simtrica. En el grupo de
vehcu- los estadounidenses se consigue el porcentaje ms alto de clasificacin correcta,
68,8 %, frente a un porcentaje del 61,6% en el grupo europeo y del 68,4 % en el grupo
japons. (Esta circuns- tancia resulta especialmente llamativa pues, a pesar de que la regla
de clasificacin se basa en probabilidades a priori iguales para todos los grupos, el
porcentaje de clasificacin correcta ms alto se da precisamente en el grupo de mayor
tamao).
Basndonos en los porcentajes de clasificacin correcta de cada grupo podemos afirmar
que los vehculos estadounidenses se confunden, mayoritariamente, con los vehculos
japone- ses; y que los vehculos europeos y japoneses no se confunden con los
estadounidenses, sino entre s.
Tabla 23.46. Resultados de la clasificacin (probabilidades previas iguales).
Original
Recuento
Pas de origen
EE.UU.
Europa
Japn
EE.UU.
Europa
Japn
Grupo de pertenencia
pronosticadoa
EE.UU.
Europa
Japn
174
29
50
1
45
27
0
25
54
68.8
11.5
19.8
1.4
61.6
37.0
.0
31.6
68.4
Total
253
73
79
100.0
100.0
100.0
Vamos a repetir el anlisis con las probabilidades a priori calculadas a partir del tamao de
los grupos. Para ello,
Original
Recuento
Pas de origen
EE.UU.
Europa
Japn
EE.UU.
Europa
Japn
Grupo de pertenencia
a
pronosticado
EE.UU.
Europa
Japn
211
12
30
9
36
28
4
23
52
83.4
4.7
11.9
12.3
49.3
38.4
5.1
29.1
65.8
Total
253
73
79
100.0
100.0
100.0