Está en la página 1de 15

Estat list, misclassified classification(looclass) probabilities(loopr)

introduccin
El anlisis discriminante se utiliza para describir las diferencias entre grupos y
explotar las diferencias en la asignacin (clasificacin) observaciones de
pertenencia a un grupo desconocido para los grupos. El anlisis discriminante
tambin se llama clasificacin en muchas referencias. Sin embargo, varias
fuentes utilizan la palabra de clasificacin en el sentido de anlisis de
conglomerados. Algunas aplicaciones del anlisis discriminante incluyen el
diagnstico

mdico,

la

investigacin

de

mercado,

la

clasificacin

de

especmenes en la antropologa, la prediccin de fracaso empresa o el xito, la


colocacin de los estudiantes (los trabajadores)basado en la comparacin de
los resultados de las pruebas preliminares a las de antiguos alumnos
(trabajadores), la discriminacin de los recursos naturales frente a la actividad
por el hombre ssmico, anlisis de huellas dactilares, la imagen patrn de
reconocimiento, y el patrn de seal clasificacin.
La mayora de los textos de estadstica multivariante tienen captulos sobre
anlisis discriminante, incluyendo Rencher (1998),Rencher y Christensen
(2012), Johnson y Wichern (2007), Mardia, Kent y Bibby (1979),Anderson
(2003), Everitt y Dunn (2001), Tabachnick y Fidell (2007), y Albert y Harris
(1987).Libros dedicados al anlisis discriminante incluyen Lachenbruch (1975),
Klecka (1980), Mano (1981),Huberty (1994), McLachlan (2004), y Afifi, mayo y
Clark (2012). De estos, McLachlan (2004)ofrece la ms amplia cobertura,
incluyendo 60 pginas de referencias. Si usted carece de observaciones con la
pertenencia al grupo conocido, utilizar el anlisis de conglomerados para
descubrir lo natural agrupaciones en los datos; ver [MV] clster. Si tiene datos
con la pertenencia al grupo conocido, posiblemente con otros datos de
afiliacin desconocida para clasificarse, utilizar el anlisis discriminante para
examinar la diferencias entre los grupos, basados en datos de los que se sabe
de miembros, y para asignar grupo membresa para los casos en que se

desconoce la membresa. Algunos investigadores no estn interesados en la


clasificacin de las observaciones desconocidos y estn interesados slo en los
aspectos descriptivos de anlisis discriminante. Para otros, la clasificacin de
las observaciones desconocidos es la consideracin principal. Huberty (1994),
Rencher (1998), Rencher y Christensen (2012),y otros dividen su discusin de
la discriminacin en dos partes. Huberty etiquetas de las dos partes anlisis
discriminante descriptiva y anlisis predictivo discriminante. Rencher y
Christensen reserva anlisis discriminante para el anlisis discriminante
descriptivo y utiliza la clasificacin de etiqueta para predictivo anlisis
discriminante.
Hay muchos mtodos de discriminacin. discrim tiene tanto descriptiva y
predictiva LDA; ver [MV] lda discrim. Si su inters est en LDA descriptivo,
candisc calcula el mismo que discrim lda, pero con una salida ajustada a los
aspectos descriptivos de la discriminacin; ver [MV] candisc. Los subcomandos
DISCRIM restantes proporcionan alternativas a la LDA para la discriminacin
predictiva. [MV] QDA discrim proporciona un anlisis discriminante cuadrtica
(QDA). [MV] logstica discrim ofrece anlisis discriminante logstica. [MV]
discrim knn proporciona orden k-vecino ms cercano (KNN) discriminacin. La
literatura anlisis discriminante utiliza terminologa conflictiva para varias
caractersticas de discriminante anlisis. Por ejemplo, en descriptiva LDA, lo
que una fuente llama a una funcin de clasificacin otra fuente llama a una
funcin discriminante mientras llama algo ms de una funcin de clasificacin.
Compruebe Los mtodos y frmulas secciones para los subcomandos DISCRIM
de aclaracin.
Un ejemplo sencillo
Demostramos los aspectos predictivos y descriptivos del anlisis discriminante
con un simple
ejemplo. Johnson y Wichern (2007, 578) introducen los conceptos de anlisis
discriminante con un dos-grupo conjunto de datos. Una muestra de 12
propietarios de equitacin cortadora de csped y 12 no propietarios se tomaron
muestras de una ciudad y el ingresos en miles de dlares y el tamao del lote
en miles de pies cuadrados se registran. Un montar a-cortadora fabricante
quiere ver si estas dos variables se separan adecuadamente los propietarios de
los no propietarios, y si

por lo que entonces dirigir su comercializacin a partir de la separacin de los


propietarios de los no propietarios
Estas dos variables se separan adecuadamente propietarios de montar
segadoras de los no propietarios para que el fabricante de montar cortacsped
puede basar las predicciones de la propiedad de equitacin cortadora sobre la
renta y mucho tamao? El grfico muestra una cierta separacin de los
propietarios de los no propietarios, pero con solapamiento. Con predictivo LDA
podemos cuantificar nuestra capacidad de discriminar entre los propietarios de
equitacin del cortacsped y no propietarios.

La tabla presentada por lda discrim (y los otros subcomandos DISCRIM) se


denomina una clasificacin tabla o matriz de confusin. Se etiqueta como una
tabla de clasificacin resubstitution porque la misma observaciones utilizadas
en la estimacin del modelo discriminante se clasificaron mediante el modelo.
la diagonal elementos en el cuerpo principal de la tabla muestran el nmero y
porcentaje correctamente clasificado en cada grupo. Los elementos fuera de la
diagonal muestran el nmero y mal clasificados por ciento. Un propietario y dos
no propietarios fueron mal clasificados. La tabla de clasificacin resubstitution
proporciona una evaluacin demasiado optimista de lo bien que la funcin
discriminante lineal predecir el estado de la propiedad para las observaciones
que no eran parte de la muestra de entrenamiento. Una tabla de clasificacin
licencia-un-out proporciona una evaluacin ms realista para el futuro
prediccin. La clasificacin licencia-un-out es producido por la celebracin de
cada observacin a cabo, de una en un tiempo; la construccin de un modelo
LDA de las observaciones de formacin restantes; y luego clasificar la
celebrada observacin a cabo utilizando este modelo. La tabla de clasificacin
licencia-un-out es disponible en tiempo de la estimacin, en la reproduccin, o
mediante el comando postestimation classtable estat.
. estat classtable, loo nopriors

Key
Number
Percent
Classified
nonowner

True owner

owner

Total

nonowner

10
83.33

2
16.67

12
100.00

owner

1
8.33

11
91.67

12
100.00

Total

11
45.83

13
54.17

24
100.00

Priors

0.5000

0.5000

Con clasificacin dejar uno fuera vemos que 5, en lugar de slo el 3, de las 24
observaciones mal clasificados.El predicen y comandos estat ofrecen otras
herramientas de anlisis discriminante predictivo. predecirgenera las variables
que contienen la parte posterior probabilidades de pertenencia a un grupo o
genera un grupomembresa variable de clasificacin. estat muestra cuadros de
clasificacin, muestra las tablas de tasas de error, yenumera las clasificaciones
y las probabilidades para las observaciones.Ahora usamos lista estat para
mostrar

el

resubstitution

posteriorprobabilidades

para

dejar
aquellas

clasificados por nuestro modelo LDA.


estat list, class(loo) probabilities(loo) misclassified

fuera

de

una

observaciones

clasificacin

que

fueron

y
mal

Classification
Obs.
1
2
13
14
17

True
owner
owner
nonown
nonown
nonown

Class.

LOO Cl.

nonown *
owner
owner *
nonown
owner *

nonown
nonown
owner
owner
owner

Probabilities

LOO Probabilities

nonowner

owner

nonowner

owner

0.7820
0.4945
0.2372
0.5287
0.3776

0.2180
0.5055
0.7628
0.4713
0.6224

0.8460
0.6177
0.1761
0.4313
0.2791

0.1540
0.3823
0.8239
0.5687
0.7209

*
*
*
*
*

* indicates misclassified observations

Hemos utilizado lda discrim para ilustrar el anlisis predictivo discriminante. El


otro discrim subcomandos tambin podran utilizarse para la discriminacin
predictiva de estos datos. Comandos Postestimation despus lda DISCRIM
proporcionan

anlisis

discriminante

descriptivo;

ver

[MV]

discrim

lda

postestimation y [MV] candisc.


Ejemplo 2: El anlisis discriminante para la descripcin El fabricante de
equitacin cortadora del ejemplo anterior quiere entender cmo los ingresos y
tamao del

lote

afecta

la propiedad

de

montar

de

csped.

Anlisis

discriminante descriptiva proporciona herramientas para explorar cmo se


separan los grupos. (1936) funciones discriminantes lineales de Fisher
proporcionan la base para LDA descriptivo; ver [MV] lda discrim y [MV]
postestimation lda discrim. el postestimation cargas estat comando nos
permite ver los coeficientes de la funcin discriminante, que son tambin
llamados cargas.
estat loadings, standardized unstandardized
Canonical discriminant function coefficients
function1
lotsize
income
_cons

.3795228
.0484468
-11.96094

Standardized canonical discriminant function coefficients


function1
lotsize
income

.7845512
.8058419

Pedimos tanto los coeficientes no estandarizados y normalizados. Los


coeficientes no estandarizados aplicar a variables no estandarizados. Los
coeficientes estandarizados se aplican a variables estandarizadas utilizando la
covarianza intra-grupo. Coeficientes estandarizados son examinados para
evaluar la relacin importancia de las variables a la funcin discriminante. Los
coeficientes no estandarizados determinan la lnea de separacin entre los
propietarios de montar segadoras y no propietarios.
0 = 0.3795228 Tamao de terreno + 0.0484468 ingreso 11.96094
que puede ser reexpresado como
Tamao de terreno = -0.1276519 ingreso + 31. 51574
Ahora mostramos esta lnea superpuesta en el diagrama de dispersin de los
datos.

Otras estadsticas descriptivas y los resmenes estn disponibles; ver [MV]


postestimation lda discrim.

ANLISIS DE FUNCIN DISCRIMINANTE LINEAL


(es decir, anlisis discriminante) realiza una prueba multivariado de diferencias
entre los grupos. Adems, el anlisis discriminante se utiliza para determinar el
nmero mnimo de dimensiones necesarias para describir estas diferencias. A
veces se distingue entre el anlisis discriminante descriptiva y anlisis
predictivo discriminante. Estaremos ilustrando anlisis discriminante predictivo
en esta pgina.

Tenga en cuenta: El propsito de esta pgina es mostrar cmo utilizar varios


comandos de anlisis de datos. No cubre todos los aspectos del proceso de
investigacin que se espera que los investigadores de hacer. En particular, no
cubre la limpieza de datos y control, la verificacin de las hiptesis, el
diagnstico de modelos o posibles los anlisis de seguimiento.
Ejemplos de anlisis de funcin discriminante
Ejemplo 1. Una compaa area internacional general ha recopilado datos
sobre los empleados en tres diferentes clasificaciones de trabajo: 1) El personal
de servicio al cliente, 2) la mecnica y 3) los despachadores. El director de
Recursos Humanos quiere saber si estas tres clasificaciones de trabajo apelan a
diferentes tipos de personalidad. Cada empleado se administra una batera de
pruebas psicolgicas que incluyen medidas de inters en actividades al aire
libre, la sociabilidad y la prudencia.
Ejemplo 2. Hay (1936) ejemplo clsico de Fisher del anlisis discriminante que
incluye tres variedades de iris y cuatro variables predictoras (ancho ptalo,
ptalo de longitud, anchura spalo, y longitud spalo). Fisher no slo quera
determinar si las variedades difieren significativamente en las cuatro variables
continuas, pero l tambin estaba interesado en la prediccin de clasificacin
de variedades de plantas individuales desconocidos.
Descripcin de los datos
Vamos a perseguir Ejemplo 1 de arriba.
Tenemos un archivo de datos, discrim.dta, con 244 observaciones sobre cuatro
variables. Las variables psicolgicas son intereses exteriores, sociales y
conservadores. La variable categrica es el tipo de trabajo con tres niveles; 1)
servicio al cliente, 2) mecnico y 3) despachador.

Echemos un vistazo a los datos. Siempre es una buena idea empezar con
estadstica descriptiva.

summarize outdoor social conservative

Variable

Obs

Mean

outdoor
social
conservative

244
244
244

15.63934
20.67623
10.59016

Std. Dev.
4.839933
5.479262
3.726789

Min

Max

0
7
0

28
35
20

tabstat outdoor social conservative, by(job) stat(n mean sd min max) col(stat)
Summary for variables: outdoor social conservative
by categories of: job
job

mean

sd

min

max

customer service

85
85
85

12.51765
24.22353
9.023529

4.648635
4.335283
3.143309

0
12
2

22
35
17

mechanic

93
93
93

18.53763
21.13978
10.13978

3.564801
4.55066
3.242354

11
9
0

28
29
17

dispatch

66
66
66

15.57576
15.45455
13.24242

4.110252
3.766989
3.69224

4
7
4

25
26
20

Total

244
244
244

15.63934
20.67623
10.59016

4.839933
5.479262
3.726789

0
7
0

28
35
20

correlate outdoor social conservative


outdoor
outdoor
social
conservative

tabulate job

1.0000
-0.0713
0.0794

social conser~e

1.0000
-0.2359

1.0000

job

Freq.

Percent

Cum.

customer service
mechanic
dispatch

85
93
66

34.84
38.11
27.05

34.84
72.95
100.00

Total

244

100.00

Los mtodos de anlisis que podra considerar


A continuacin se muestra una lista de algunos de los mtodos de anlisis que
pueda haber encontrado. Algunos de los mtodos que se indican son bastante
razonables, mientras que otros han cado bien en desgracia o tienen
limitaciones.
Anlisis de funcin

discriminante - El enfoque de esta pgina.

Este

procedimiento es multivariante y tambin proporciona informacin sobre las


dimensiones individuales.
Regresin logstica multinomial o probit multinomial - Estos tambin son
opciones viables.
MANOVA - Las pruebas de significacin son los mismos que para el anlisis de
funcin discriminante, pero MANOVA no da ninguna informacin sobre las
dimensiones individuales. Sin embargo, las variables psicolgicas sern las
variables dependientes y el tipo de trabajo la variable independiente.
Unidireccional independiente ANOVAs - Usted podra analizar estos datos a
travs de un solo sentido ANOVAs separado para cada variable psicolgica. Los
ANOVAs separado no producir resultados multivariados y no reportar
informacin relativa dimensionalidad. Una vez ms, la designacin de las
variables independientes y dependientes se invierte como en MANOVA.
Anlisis de funcin discriminante
Vamos a ejecutar el anlisis discriminante utilizando el procedimiento candisc.
Tambin podramos haber ejecutar el comando lda discrim para obtener el
mismo anlisis con resultados ligeramente distintos. Hay una gran cantidad de

la produccin, por lo que vamos a comentar en varios lugares a lo largo del


camino.

El nmero de dimensiones discriminante es el nmero de grupos menos 1. Sin


embargo, algunas dimensiones discriminantes pueden no ser estadsticamente
significativa.
En este ejemplo, hay dos dimensiones discriminantes, ambos de los cuales son
estadsticamente significativas. Las primeras pruebas de F-relacin que ambas
correlaciones cannicas son cero; la segunda prueba de F-ratio que slo la
segunda correlacin cannica es cero. Dado que ambas de estas pruebas son
significativas, se deduce que ambas dimensiones son importantes y son
necesarios para describir las diferencias entre los tres grupos de empleados.
Las correlaciones cannicas para las dimensiones de uno y dos son 0,72 y 0,49,
respectivamente.
Canonical linear discriminant analysis

Fcn

Canon.
Corr.

Eigenvalue

1
2

0.7207
0.4927

1.08053
.320504

Variance
Prop.
Cumul.

Likelihood
Ratio

0.7712
0.2288

0.3640
0.7573

0.7712
1.0000

Ho: this and smaller canon. corr. are zero;

F
52.382
38.46

df1

df2

Prob>F

6
2

478
240

0.0000 e
0.0000 e

e = exact F

El nmero de dimensiones discriminante es el nmero de grupos menos 1. Sin


embargo, algunas dimensiones discriminantes pueden no ser estadsticamente
significativa.
En este ejemplo, hay dos dimensiones discriminantes, ambos de los cuales son
estadsticamente significativas. Las primeras pruebas de F-relacin que ambas
correlaciones cannicas son cero; la segunda prueba de F-ratio que slo la
segunda correlacin cannica es cero. Dado que ambas de estas pruebas son
significativas, se deduce que ambas dimensiones son importantes y son
necesarios para describir las diferencias entre los tres grupos de empleados.
Las correlaciones cannicas para las dimensiones de uno y dos son 0,72 y 0,49,
respectivamente.

Standardized canonical discriminant function coefficients

outdoor
social
conservative

function1

function2

.3785725
-.8306986
.5171682

.9261104
.2128593
-.2914406

function1

function2

.3230982
-.7653907
.467691

.9372155
.2660298
-.2587426

Canonical structure

outdoor
social
conservative

Los coeficientes discriminantes estandarizados funcionan de manera anloga a


los coeficientes de regresin estandarizados en regresin MCO. Por ejemplo, un
aumento de una desviacin estndar de uno en la variable al aire libre dar
lugar a un aumento de la desviacin estndar de 0,3786 en los valores
predichos en funcin discriminante 1.
La estructura cannica, tambin conocido como la carga cannico o cargas
discriminantes, representan correlaciones entre las variables observadas y las
funciones

discriminantes

no

observados

(dimensiones).

Las

funciones

discriminantes son un tipo de variable latente y las correlaciones son cargas


anlogas a cargas factoriales.
Group means on canonical variables
job
group1
group2
group3

customer service
mechanic
dispatch

group1
group2
group3

function1

function2

-1.2191
.1067246
1.419669

-.3890039
.7145704
-.5059049

Resubstitution classification summary

Key
Number
Percent
Classified
group1 group2

True

group3

Total

group1

70
82.35

11
12.94

4
4.71

85
100.00

group2

16
17.20

62
66.67

15
16.13

93
100.00

group3

3
4.55

12
18.18

51
77.27

66
100.00

Total

89
36.48

85
34.84

70
28.69

244
100.00

Priors

0.3333

0.3333

0.3333

La salida incluye los medios de las funciones discriminantes para cada uno de
los tres grupos y una tabla de clasificacin. Los valores en la diagonal de la
tabla de clasificacin reflejan la correcta clasificacin de los individuos en
grupos en funcin de sus puntuaciones en las dimensiones discriminantes.
Por defecto, Stata asume a priori un nmero igual de personas en cada puesto
de trabajo. Esto se represneted por los 0.3333 Priores en la tabla anterior. Si
usted tiene diferentes proporciones esperadas en mente, usted puede
especificar con la opcin priores.
A continuacin, vamos a trazar un grfico de las personas en las dimensiones
discriminantes. Debido a la gran cantidad de temas vamos a acortar las
etiquetas para los grupos de trabajo para hacer que el grfico sea ms legible.
Mientras no salvamos el conjunto de datos, estas nuevas etiquetas no se har
permanente.
label define job 1 "c" 2 "m" 3 "d", modify
scoreplot, msymbol(i)

Discriminant function scores

-2

discriminant score 2
0
2

Las

-4

m
m
m
c m
mc
m
mc
d
mcc m
md m m
c
mm
mm
m
m
m
m
m
m
mm mm
m
d
m
m
c cc c m
m
c mmm m d
m m
m
c m ccmc c m
m mm m m
m
md
m
c
m
c cm
m
d
m
d
mm mmmm
mc m
m mm
d dd
c cc
c cm
d
m
c
c
d
d
m
m
m
d
m
d
m
c c cc m mc c d
c cmdc m dm
m dd m
dd d d d d d d
m
cmdmd
c
d
c
c
d d
c
c
c c c cc
d
cc cd cm
cm
c d dm
mmm dd d
ccc c
d
d
d d dd d
d
m
m
c
d
c
c
d
c
m
c
m d
c
d
c
c
d
d c
c
d c cc c
dd
d
c c
c c
c c
c
c
d
c
d
d d
d
c
c
d
c
c
d

-4

-2

0
discriminant score 1

funciones discrimant son:


discriminant_score_1 = 0,517 * conservadora + 0,379 * al aire libre - 0,831 *
social.
discriminant_score_2 = 0.926 * al aire libre + 0,213 * sociales - 0.291 *
conservador.
Como se puede ver, los empleados de servicio al cliente tienden a ser al final
ms social (negativo) de la dimensin 1; los despachadores son en el extremo
opuesto; la mecnica estn en el medio. En la dimensin 2 los resultados no
son tan claros; Sin embargo, la mecnica tienden a ser mayores en la
dimensin y de servicio al cliente los empleados al aire libre y los
despachadores son ms bajos.
Tambin podemos trazar las cargas discriminantes para las variables sobre las
dimensiones discriminantes.
loadingplot

Standardized discriminant function loadings

Standardized discriminant function 2


0
.5

outdoor

social

-.5

conservative

-1

-.5
0
Standardized discriminant function 1

.5

No es ninguna sorpresa que la variable social es fuerte en la dimensin social,


es decir, que tiene una alta carga negativa, y la variable al aire libre es una
prioridad en la dimensin exterior.
Cosas a tener en cuenta
Multivariantes supuestos de distribucin normal se mantiene para las variables
de respuesta. Esto significa que cada una de las variables dependientes se
distribuye normalmente dentro de los grupos, que cualquier combinacin lineal
de las variables dependientes se distribuye normalmente, y que todos los
subconjuntos de las variables debe ser normal multivariante.
Cada grupo debe tener un nmero suficiente de casos.
Diferentes mtodos de clasificacin se pueden usar dependiendo de si las
matrices de varianza-covarianza son iguales (o muy similar) a travs de
grupos.

Anlisis de funcin discriminante no paramtrico, llamado vecino kth ms


cercano, tambin se puede realizar.

También podría gustarte