Analisis Discriminante Lineal - Stata13

Estat list, misclassified classification(looclass) probabilities(loopr)
introduccin
El anlisis discriminante se utiliza para describir las diferencias entre grupos y
explotar las diferencias en la asignacin (clasificacin) observaciones de
pertenencia a un grupo desconocido para los grupos. El anlisis discriminante
tambin se llama clasificacin en muchas referencias. Sin embargo, varias
fuentes utilizan la palabra de clasificacin en el sentido de anlisis de
conglomerados. Algunas aplicaciones del anlisis discriminante incluyen el
diagnstico
mdico,
la
investigacin
de
mercado,
la
clasificacin
de
especmenes en la antropologa, la prediccin de fracaso empresa o el xito, la

colocacin de los estudiantes (los trabajadores)basado en la comparacin de
los resultados de las pruebas preliminares a las de antiguos alumnos
(trabajadores), la discriminacin de los recursos naturales frente a la actividad
por el hombre ssmico, anlisis de huellas dactilares, la imagen patrn de
reconocimiento, y el patrn de seal clasificacin.
La mayora de los textos de estadstica multivariante tienen captulos sobre
anlisis discriminante, incluyendo Rencher (1998),Rencher y Christensen
(2012), Johnson y Wichern (2007), Mardia, Kent y Bibby (1979),Anderson
(2003), Everitt y Dunn (2001), Tabachnick y Fidell (2007), y Albert y Harris
(1987).Libros dedicados al anlisis discriminante incluyen Lachenbruch (1975),
Klecka (1980), Mano (1981),Huberty (1994), McLachlan (2004), y Afifi, mayo y
Clark (2012). De estos, McLachlan (2004)ofrece la ms amplia cobertura,
incluyendo 60 pginas de referencias. Si usted carece de observaciones con la
pertenencia al grupo conocido, utilizar el anlisis de conglomerados para
descubrir lo natural agrupaciones en los datos; ver [MV] clster. Si tiene datos
con la pertenencia al grupo conocido, posiblemente con otros datos de
afiliacin desconocida para clasificarse, utilizar el anlisis discriminante para
examinar la diferencias entre los grupos, basados en datos de los que se sabe
de miembros, y para asignar grupo membresa para los casos en que se
desconoce la membresa. Algunos investigadores no estn interesados en la

clasificacin de las observaciones desconocidos y estn interesados slo en los
aspectos descriptivos de anlisis discriminante. Para otros, la clasificacin de
las observaciones desconocidos es la consideracin principal. Huberty (1994),
Rencher (1998), Rencher y Christensen (2012),y otros dividen su discusin de
la discriminacin en dos partes. Huberty etiquetas de las dos partes anlisis
discriminante descriptiva y anlisis predictivo discriminante. Rencher y
Christensen reserva anlisis discriminante para el anlisis discriminante
descriptivo y utiliza la clasificacin de etiqueta para predictivo anlisis
discriminante.
Hay muchos mtodos de discriminacin. discrim tiene tanto descriptiva y
predictiva LDA; ver [MV] lda discrim. Si su inters est en LDA descriptivo,
candisc calcula el mismo que discrim lda, pero con una salida ajustada a los
aspectos descriptivos de la discriminacin; ver [MV] candisc. Los subcomandos
DISCRIM restantes proporcionan alternativas a la LDA para la discriminacin
predictiva. [MV] QDA discrim proporciona un anlisis discriminante cuadrtica
(QDA). [MV] logstica discrim ofrece anlisis discriminante logstica. [MV]
discrim knn proporciona orden k-vecino ms cercano (KNN) discriminacin. La
literatura anlisis discriminante utiliza terminologa conflictiva para varias
caractersticas de discriminante anlisis. Por ejemplo, en descriptiva LDA, lo
que una fuente llama a una funcin de clasificacin otra fuente llama a una
funcin discriminante mientras llama algo ms de una funcin de clasificacin.
Compruebe Los mtodos y frmulas secciones para los subcomandos DISCRIM
de aclaracin.
Un ejemplo sencillo
Demostramos los aspectos predictivos y descriptivos del anlisis discriminante
con un simple
ejemplo. Johnson y Wichern (2007, 578) introducen los conceptos de anlisis
discriminante con un dos-grupo conjunto de datos. Una muestra de 12
propietarios de equitacin cortadora de csped y 12 no propietarios se tomaron
muestras de una ciudad y el ingresos en miles de dlares y el tamao del lote
en miles de pies cuadrados se registran. Un montar a-cortadora fabricante
quiere ver si estas dos variables se separan adecuadamente los propietarios de
los no propietarios, y si
por lo que entonces dirigir su comercializacin a partir de la separacin de los

propietarios de los no propietarios
Estas dos variables se separan adecuadamente propietarios de montar
segadoras de los no propietarios para que el fabricante de montar cortacsped
puede basar las predicciones de la propiedad de equitacin cortadora sobre la
renta y mucho tamao? El grfico muestra una cierta separacin de los
propietarios de los no propietarios, pero con solapamiento. Con predictivo LDA
podemos cuantificar nuestra capacidad de discriminar entre los propietarios de
equitacin del cortacsped y no propietarios.
La tabla presentada por lda discrim (y los otros subcomandos DISCRIM) se

denomina una clasificacin tabla o matriz de confusin. Se etiqueta como una
tabla de clasificacin resubstitution porque la misma observaciones utilizadas
en la estimacin del modelo discriminante se clasificaron mediante el modelo.
la diagonal elementos en el cuerpo principal de la tabla muestran el nmero y
porcentaje correctamente clasificado en cada grupo. Los elementos fuera de la
diagonal muestran el nmero y mal clasificados por ciento. Un propietario y dos
no propietarios fueron mal clasificados. La tabla de clasificacin resubstitution
proporciona una evaluacin demasiado optimista de lo bien que la funcin
discriminante lineal predecir el estado de la propiedad para las observaciones
que no eran parte de la muestra de entrenamiento. Una tabla de clasificacin
licencia-un-out proporciona una evaluacin ms realista para el futuro
prediccin. La clasificacin licencia-un-out es producido por la celebracin de
cada observacin a cabo, de una en un tiempo; la construccin de un modelo
LDA de las observaciones de formacin restantes; y luego clasificar la
celebrada observacin a cabo utilizando este modelo. La tabla de clasificacin
licencia-un-out es disponible en tiempo de la estimacin, en la reproduccin, o
mediante el comando postestimation classtable estat.
. estat classtable, loo nopriors
Key
Number
Percent
Classified
nonowner
True owner
owner
Total
nonowner
10
83.33
2
16.67
12
100.00
owner
1
8.33
11
91.67
12
100.00
Total
11
45.83
13
54.17
24
100.00
Priors
0.5000
0.5000
Con clasificacin dejar uno fuera vemos que 5, en lugar de slo el 3, de las 24
observaciones mal clasificados.El predicen y comandos estat ofrecen otras
herramientas de anlisis discriminante predictivo. predecirgenera las variables
que contienen la parte posterior probabilidades de pertenencia a un grupo o
genera un grupomembresa variable de clasificacin. estat muestra cuadros de
clasificacin, muestra las tablas de tasas de error, yenumera las clasificaciones
y las probabilidades para las observaciones.Ahora usamos lista estat para
mostrar
el
resubstitution
posteriorprobabilidades
para
dejar
aquellas
clasificados por nuestro modelo LDA.

estat list, class(loo) probabilities(loo) misclassified
fuera
de
una
observaciones
clasificacin
que
fueron
y
mal
Classification
Obs.
1
2
13
14
17
True
owner
owner
nonown
nonown
nonown
Class.
LOO Cl.
nonown *
owner
owner *
nonown
owner *
nonown
nonown
owner
owner
owner
Probabilities
LOO Probabilities
nonowner
owner
nonowner
owner
0.7820
0.4945
0.2372
0.5287
0.3776
0.2180
0.5055
0.7628
0.4713
0.6224
0.8460
0.6177
0.1761
0.4313
0.2791
0.1540
0.3823
0.8239
0.5687
0.7209
*
*
*
*
*
* indicates misclassified observations
Hemos utilizado lda discrim para ilustrar el anlisis predictivo discriminante. El

otro discrim subcomandos tambin podran utilizarse para la discriminacin
predictiva de estos datos. Comandos Postestimation despus lda DISCRIM
proporcionan
anlisis
discriminante
descriptivo;
ver
[MV]
discrim
lda
postestimation y [MV] candisc.

Ejemplo 2: El anlisis discriminante para la descripcin El fabricante de
equitacin cortadora del ejemplo anterior quiere entender cmo los ingresos y
tamao del
lote
afecta
la propiedad
de
montar
de
csped.
Anlisis
discriminante descriptiva proporciona herramientas para explorar cmo se

separan los grupos. (1936) funciones discriminantes lineales de Fisher
proporcionan la base para LDA descriptivo; ver [MV] lda discrim y [MV]
postestimation lda discrim. el postestimation cargas estat comando nos
permite ver los coeficientes de la funcin discriminante, que son tambin
llamados cargas.
estat loadings, standardized unstandardized
Canonical discriminant function coefficients
function1
lotsize
income
_cons
.3795228
.0484468
-11.96094
Standardized canonical discriminant function coefficients

function1
lotsize
income
.7845512
.8058419
Pedimos tanto los coeficientes no estandarizados y normalizados. Los

coeficientes no estandarizados aplicar a variables no estandarizados. Los
coeficientes estandarizados se aplican a variables estandarizadas utilizando la
covarianza intra-grupo. Coeficientes estandarizados son examinados para
evaluar la relacin importancia de las variables a la funcin discriminante. Los
coeficientes no estandarizados determinan la lnea de separacin entre los
propietarios de montar segadoras y no propietarios.
0 = 0.3795228 Tamao de terreno + 0.0484468 ingreso 11.96094
que puede ser reexpresado como
Tamao de terreno = -0.1276519 ingreso + 31. 51574
Ahora mostramos esta lnea superpuesta en el diagrama de dispersin de los
datos.
Otras estadsticas descriptivas y los resmenes estn disponibles; ver [MV]

postestimation lda discrim.
ANLISIS DE FUNCIN DISCRIMINANTE LINEAL

(es decir, anlisis discriminante) realiza una prueba multivariado de diferencias
entre los grupos. Adems, el anlisis discriminante se utiliza para determinar el
nmero mnimo de dimensiones necesarias para describir estas diferencias. A
veces se distingue entre el anlisis discriminante descriptiva y anlisis
predictivo discriminante. Estaremos ilustrando anlisis discriminante predictivo
en esta pgina.
Tenga en cuenta: El propsito de esta pgina es mostrar cmo utilizar varios

comandos de anlisis de datos. No cubre todos los aspectos del proceso de
investigacin que se espera que los investigadores de hacer. En particular, no
cubre la limpieza de datos y control, la verificacin de las hiptesis, el
diagnstico de modelos o posibles los anlisis de seguimiento.
Ejemplos de anlisis de funcin discriminante
Ejemplo 1. Una compaa area internacional general ha recopilado datos
sobre los empleados en tres diferentes clasificaciones de trabajo: 1) El personal
de servicio al cliente, 2) la mecnica y 3) los despachadores. El director de
Recursos Humanos quiere saber si estas tres clasificaciones de trabajo apelan a
diferentes tipos de personalidad. Cada empleado se administra una batera de
pruebas psicolgicas que incluyen medidas de inters en actividades al aire
libre, la sociabilidad y la prudencia.
Ejemplo 2. Hay (1936) ejemplo clsico de Fisher del anlisis discriminante que
incluye tres variedades de iris y cuatro variables predictoras (ancho ptalo,
ptalo de longitud, anchura spalo, y longitud spalo). Fisher no slo quera
determinar si las variedades difieren significativamente en las cuatro variables
continuas, pero l tambin estaba interesado en la prediccin de clasificacin
de variedades de plantas individuales desconocidos.
Descripcin de los datos
Vamos a perseguir Ejemplo 1 de arriba.
Tenemos un archivo de datos, discrim.dta, con 244 observaciones sobre cuatro
variables. Las variables psicolgicas son intereses exteriores, sociales y
conservadores. La variable categrica es el tipo de trabajo con tres niveles; 1)
servicio al cliente, 2) mecnico y 3) despachador.
Echemos un vistazo a los datos. Siempre es una buena idea empezar con
estadstica descriptiva.
summarize outdoor social conservative
Variable
Obs
Mean
outdoor
social
conservative
244
244
244
15.63934
20.67623
10.59016
Std. Dev.
4.839933
5.479262
3.726789
Min
Max
0
7
0
28
35
20
tabstat outdoor social conservative, by(job) stat(n mean sd min max) col(stat)
Summary for variables: outdoor social conservative
by categories of: job
job
mean
sd
min
max
customer service
85
85
85
12.51765
24.22353
9.023529
4.648635
4.335283
3.143309
0
12
2
22
35
17
mechanic
93
93
93
18.53763
21.13978
10.13978
3.564801
4.55066
3.242354
11
9
0
28
29
17
dispatch
66
66
66
15.57576
15.45455
13.24242
4.110252
3.766989
3.69224
4
7
4
25
26
20
Total
244
244
244
15.63934
20.67623
10.59016
4.839933
5.479262
3.726789
0
7
0
28
35
20
correlate outdoor social conservative

outdoor
outdoor
social
conservative
tabulate job
1.0000
-0.0713
0.0794
social conser~e
1.0000
-0.2359
1.0000
job
Freq.
Percent
Cum.
customer service
mechanic
dispatch
85
93
66
34.84
38.11
27.05
34.84
72.95
100.00
Total
244
100.00
Los mtodos de anlisis que podra considerar

A continuacin se muestra una lista de algunos de los mtodos de anlisis que
pueda haber encontrado. Algunos de los mtodos que se indican son bastante
razonables, mientras que otros han cado bien en desgracia o tienen
limitaciones.
Anlisis de funcin
discriminante - El enfoque de esta pgina.
Este
procedimiento es multivariante y tambin proporciona informacin sobre las

dimensiones individuales.
Regresin logstica multinomial o probit multinomial - Estos tambin son
opciones viables.
MANOVA - Las pruebas de significacin son los mismos que para el anlisis de
funcin discriminante, pero MANOVA no da ninguna informacin sobre las
dimensiones individuales. Sin embargo, las variables psicolgicas sern las
variables dependientes y el tipo de trabajo la variable independiente.
Unidireccional independiente ANOVAs - Usted podra analizar estos datos a
travs de un solo sentido ANOVAs separado para cada variable psicolgica. Los
ANOVAs separado no producir resultados multivariados y no reportar
informacin relativa dimensionalidad. Una vez ms, la designacin de las
variables independientes y dependientes se invierte como en MANOVA.
Anlisis de funcin discriminante
Vamos a ejecutar el anlisis discriminante utilizando el procedimiento candisc.
Tambin podramos haber ejecutar el comando lda discrim para obtener el
mismo anlisis con resultados ligeramente distintos. Hay una gran cantidad de
la produccin, por lo que vamos a comentar en varios lugares a lo largo del

camino.
El nmero de dimensiones discriminante es el nmero de grupos menos 1. Sin

embargo, algunas dimensiones discriminantes pueden no ser estadsticamente
significativa.
En este ejemplo, hay dos dimensiones discriminantes, ambos de los cuales son
estadsticamente significativas. Las primeras pruebas de F-relacin que ambas
correlaciones cannicas son cero; la segunda prueba de F-ratio que slo la
segunda correlacin cannica es cero. Dado que ambas de estas pruebas son
significativas, se deduce que ambas dimensiones son importantes y son
necesarios para describir las diferencias entre los tres grupos de empleados.
Las correlaciones cannicas para las dimensiones de uno y dos son 0,72 y 0,49,
respectivamente.
Canonical linear discriminant analysis
Fcn
Canon.
Corr.
Eigenvalue
1
2
0.7207
0.4927
1.08053
.320504
Variance
Prop.
Cumul.
Likelihood
Ratio
0.7712
0.2288
0.3640
0.7573
0.7712
1.0000
Ho: this and smaller canon. corr. are zero;
F
52.382
38.46
df1
df2
Prob>F
6
2
478
240
0.0000 e
0.0000 e
e = exact F
El nmero de dimensiones discriminante es el nmero de grupos menos 1. Sin

embargo, algunas dimensiones discriminantes pueden no ser estadsticamente
significativa.
En este ejemplo, hay dos dimensiones discriminantes, ambos de los cuales son
estadsticamente significativas. Las primeras pruebas de F-relacin que ambas
correlaciones cannicas son cero; la segunda prueba de F-ratio que slo la
segunda correlacin cannica es cero. Dado que ambas de estas pruebas son
significativas, se deduce que ambas dimensiones son importantes y son
necesarios para describir las diferencias entre los tres grupos de empleados.
Las correlaciones cannicas para las dimensiones de uno y dos son 0,72 y 0,49,
respectivamente.
Standardized canonical discriminant function coefficients
outdoor
social
conservative
function1
function2
.3785725
-.8306986
.5171682
.9261104
.2128593
-.2914406
function1
function2
.3230982
-.7653907
.467691
.9372155
.2660298
-.2587426
Canonical structure
outdoor
social
conservative
Los coeficientes discriminantes estandarizados funcionan de manera anloga a

los coeficientes de regresin estandarizados en regresin MCO. Por ejemplo, un
aumento de una desviacin estndar de uno en la variable al aire libre dar
lugar a un aumento de la desviacin estndar de 0,3786 en los valores
predichos en funcin discriminante 1.
La estructura cannica, tambin conocido como la carga cannico o cargas
discriminantes, representan correlaciones entre las variables observadas y las
funciones
discriminantes
no
observados
(dimensiones).
Las
funciones
discriminantes son un tipo de variable latente y las correlaciones son cargas

anlogas a cargas factoriales.
Group means on canonical variables
job
group1
group2
group3
customer service
mechanic
dispatch
group1
group2
group3
function1
function2
-1.2191
.1067246
1.419669
-.3890039
.7145704
-.5059049
Resubstitution classification summary
Key
Number
Percent
Classified
group1 group2
True
group3
Total
group1
70
82.35
11
12.94
4
4.71
85
100.00
group2
16
17.20
62
66.67
15
16.13
93
100.00
group3
3
4.55
12
18.18
51
77.27
66
100.00
Total
89
36.48
85
34.84
70
28.69
244
100.00
Priors
0.3333
0.3333
0.3333
La salida incluye los medios de las funciones discriminantes para cada uno de
los tres grupos y una tabla de clasificacin. Los valores en la diagonal de la
tabla de clasificacin reflejan la correcta clasificacin de los individuos en
grupos en funcin de sus puntuaciones en las dimensiones discriminantes.
Por defecto, Stata asume a priori un nmero igual de personas en cada puesto
de trabajo. Esto se represneted por los 0.3333 Priores en la tabla anterior. Si
usted tiene diferentes proporciones esperadas en mente, usted puede
especificar con la opcin priores.
A continuacin, vamos a trazar un grfico de las personas en las dimensiones
discriminantes. Debido a la gran cantidad de temas vamos a acortar las
etiquetas para los grupos de trabajo para hacer que el grfico sea ms legible.
Mientras no salvamos el conjunto de datos, estas nuevas etiquetas no se har
permanente.
label define job 1 "c" 2 "m" 3 "d", modify
scoreplot, msymbol(i)
Discriminant function scores
-2
discriminant score 2
0
2
Las
-4
m
m
m
c m
mc
m
mc
d
mcc m
md m m
c
mm
mm
m
m
m
m
m
m
mm mm
m
d
m
m
c cc c m
m
c mmm m d
m m
m
c m ccmc c m
m mm m m
m
md
m
c
m
c cm
m
d
m
d
mm mmmm
mc m
m mm
d dd
c cc
c cm
d
m
c
c
d
d
m
m
m
d
m
d
m
c c cc m mc c d
c cmdc m dm
m dd m
dd d d d d d d
m
cmdmd
c
d
c
c
d d
c
c
c c c cc
d
cc cd cm
cm
c d dm
mmm dd d
ccc c
d
d
d d dd d
d
m
m
c
d
c
c
d
c
m
c
m d
c
d
c
c
d
d c
c
d c cc c
dd
d
c c
c c
c c
c
c
d
c
d
d d
d
c
c
d
c
c
d
-4
-2
0
discriminant score 1
funciones discrimant son:

discriminant_score_1 = 0,517 * conservadora + 0,379 * al aire libre - 0,831 *
social.
discriminant_score_2 = 0.926 * al aire libre + 0,213 * sociales - 0.291 *
conservador.
Como se puede ver, los empleados de servicio al cliente tienden a ser al final
ms social (negativo) de la dimensin 1; los despachadores son en el extremo
opuesto; la mecnica estn en el medio. En la dimensin 2 los resultados no
son tan claros; Sin embargo, la mecnica tienden a ser mayores en la
dimensin y de servicio al cliente los empleados al aire libre y los
despachadores son ms bajos.
Tambin podemos trazar las cargas discriminantes para las variables sobre las
dimensiones discriminantes.
loadingplot
Standardized discriminant function loadings
Standardized discriminant function 2

0
.5
outdoor
social
-.5
conservative
-1
-.5
0
Standardized discriminant function 1
.5
No es ninguna sorpresa que la variable social es fuerte en la dimensin social,

es decir, que tiene una alta carga negativa, y la variable al aire libre es una
prioridad en la dimensin exterior.
Cosas a tener en cuenta
Multivariantes supuestos de distribucin normal se mantiene para las variables
de respuesta. Esto significa que cada una de las variables dependientes se
distribuye normalmente dentro de los grupos, que cualquier combinacin lineal
de las variables dependientes se distribuye normalmente, y que todos los
subconjuntos de las variables debe ser normal multivariante.
Cada grupo debe tener un nmero suficiente de casos.
Diferentes mtodos de clasificacin se pueden usar dependiendo de si las
matrices de varianza-covarianza son iguales (o muy similar) a travs de
grupos.
Anlisis de funcin discriminante no paramtrico, llamado vecino kth ms

cercano, tambin se puede realizar.

Analisis Discriminante Lineal - Stata13

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis Discriminante Lineal - Stata13

Cargado por

Copyright:

Formatos disponibles

Estat list, misclassified classification(looclass) probabilities(loopr)

especmenes en la antropologa, la prediccin de fracaso empresa o el xito, la

desconoce la membresa. Algunos investigadores no estn interesados en la

por lo que entonces dirigir su comercializacin a partir de la separacin de los

La tabla presentada por lda discrim (y los otros subcomandos DISCRIM) se

clasificados por nuestro modelo LDA.

* indicates misclassified observations

Hemos utilizado lda discrim para ilustrar el anlisis predictivo discriminante. El

postestimation y [MV] candisc.

discriminante descriptiva proporciona herramientas para explorar cmo se

Standardized canonical discriminant function coefficients

Pedimos tanto los coeficientes no estandarizados y normalizados. Los

Otras estadsticas descriptivas y los resmenes estn disponibles; ver [MV]

ANLISIS DE FUNCIN DISCRIMINANTE LINEAL

Tenga en cuenta: El propsito de esta pgina es mostrar cmo utilizar varios

summarize outdoor social conservative

correlate outdoor social conservative

Los mtodos de anlisis que podra considerar

discriminante - El enfoque de esta pgina.

procedimiento es multivariante y tambin proporciona informacin sobre las

la produccin, por lo que vamos a comentar en varios lugares a lo largo del

El nmero de dimensiones discriminante es el nmero de grupos menos 1. Sin

Ho: this and smaller canon. corr. are zero;

El nmero de dimensiones discriminante es el nmero de grupos menos 1. Sin

Standardized canonical discriminant function coefficients

Los coeficientes discriminantes estandarizados funcionan de manera anloga a

discriminantes son un tipo de variable latente y las correlaciones son cargas

Resubstitution classification summary

Discriminant function scores

funciones discrimant son:

Standardized discriminant function loadings

Standardized discriminant function 2

No es ninguna sorpresa que la variable social es fuerte en la dimensin social,

Anlisis de funcin discriminante no paramtrico, llamado vecino kth ms

También podría gustarte