Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Anlisis Discriminante
A utor: Dr. Cs. Gustavo Ruiz Aranihar'
Resumen
La presente investigacin presenta los resultados preliminares y finales de la clasificacin, aplicada a la
minera, tenindose muestras analizadas, cuyos contenidos corresponden a 13 metales, tenindose tres
grupos de acuerdo al lugar de origen de cada muestra, y reagrupados hasta obtener los grupos con las
muestras correspondientes.
Palabras clave: anlisis discriminante, funcin discriminante, multivariante, distancia de Mahalanobis,
variables, matriz de varianza-covarianza, centroide.
1. Introduccin
El Anlisis Multivariante (AM) es el conjunto de mtodos estadsticos cuya finalidad es analizar
simultneamente conjuntos de datos multivariantes en el sentido de que hay varias variables medidas para
cada individuo objeto estudiado. Su razn de ser, radica en un mejor entendimiento del fenmeno objeto
de estudio, obteniendo informacin que con los mtodos estadsticos univariantes y bivariantes no se pueden
conseguir. El AM, estudia, analiza, representa e interpreta los datos que resulten de observar un nmero
p > 1 de variables estadsticas sobre una muestra de n individuos.
2. Conocimientos previos de matemticas y estadstica
X
1. Matriz de datos
= Xii =
X11
X21 -
---Xln
---X2n
.........
= Xi VP = i X ij
2. Suma de columnas
3. Matriz de suma de cuadrados y productos
4. Vector de promedios
z
X
= Zi,j =
x1.1
.
X
= = (EP
i=1' 1
J
n.
A=aii = SCEi
a=1
1
7/
1: )2
.1.
a=1
Se agradece a la UAGRM por la beca otorgada con fondos del IDH, para cursar y culminar exitosamente el Doctorado en Ciencias en Educacin Superior. Especializado
1
en Estadstica. Profesor de Estadistica, Matemticas y Computacin
En ingles: sums of squares and products of desviates. En francs: sommes des carrs et des produits des carts
2
openiena oms eq reno la `onp!mpui onanu un eowselo as odn12 nb ua JpapaJd X saiqe!Jen selsa ap Jnied e
u9TounJ run in-tnsuoa 'etualqoid la ua uanidu! syw anb sameyen se' .ICUOIODDIDS `J!q!Josop al!upod 'cly ii
- selopeu!wpos!p so-u:tupen sepop ap saioten
sol ap olua!wpouoa lap JnJed e onplAwut onanu une Jeng!seia ap mira u9pund eun Joualqo sa onnofqo la
apuop u9peawsep ap ea!ual eun so Sopezlleue sodnJ2 sol op oun ua oppouoasap uagyo ap sauo!ormasqo
senanu ap conytuals!s ucnorawseia ap soluo!unpaaold IBUOpiOdaid uup os oppuas nb ua Jealldxo
`uelspca anb ap OSE3 la ua `souslau sol pujos sempaw saicrepen ap olunfuoo une oloodsai solafqo ap sodnil
.iod (mandad and `ay
anua senneag!u2!s sepuaJapp ualspzo ts Juzlleue so peplleug eno `JacisH
sauopcia.uoa ap zweiAT .
(v)
(tH1v),WH)d
CHI
(ti tind
= (V)d
sacH ap eInw19,4 *Z I
leuo!nuoa
pep!Eqeqold
s (py
S :aluetuuualop ns .iod eiunfpe
sopoltu sol
zpiew el ap aluopoo a puma' o `saal..new op ucnanJed `oileD oluovy `urpJor-ssneg
"Ha anua opuelsa `z!.new eun ap esJamn el .1B.12U0OUD eled sopoltu solualapp ua1si[x3 -esJamn zI-401AI'0I
1 p) I f S1=11.4 =
dis - ta
tuzs
u/Tzv
u/ 'uzo --
otos
u/Iuv
IUUD
rus
= S z:SUZUTICA03 SUZUCIJUA ap zpleyy 'L
u/Tio_
yrs_
((l' I=11/ )(
i.-- U\ i I=2)
( pf x
1.3.ix
u _ finx
_
I=1.1
txyaoa
eZUBIJCAOD 9
I=10
i=27
fue
r,
- v(i)(1,X - p3X) ru< _- (-3d5 = `.1) = V
Anlisis Discriminante
en dicha funcin. Se ve a este procedimiento como un modelo de prediccin de una variable respuesta categrica
(variable grupo) a partir de p variables explicativas generalmente continuas (variables clasificatorias).
Los pasos a seguir para llevar a cabo un AD, comprenden:
Como cualquier otra tcnica estadstica, la aplicacin del AD ha de ir precedida de una comprobacin de los
supuestos asumidos por el modelo, el AD se apoya en los siguientes supuestos: a) Normalidad multivariante
b) Igualdad de matrices de varianza-covarianza c) Linealidad d) Ausencia de multicolinealidad y e)
Singularidad.
5. Anlisis discriminante lineal (ADL)
En el AD, el punto de partida es un conjunto de objetos clasificados en dos o ms grupos, de estos objetos,
se conocen sus variables atributo. Al reconocer de antemano la existencia de estos grupos, parece lgico
pensar que existen variables cuyo valor numrico determina la pertenencia a uno u otro grupo. Los objetivos
del AD son: a) La identificacin de variables atributo que mejor discriminen entre los grupos y la evaluacin
del poder discriminante de cada una de ellas. b) Asignar, con un cierto grado de riesgo, un objeto del que no
se conoce su clasificacin y del que se conocen las variables atributo.
Como tcnica de anlisis de dependencia, el ADL permite obtener un modelo lineal de causalidad en el
cual la variable dependiente puede ser mtrica o categrica, y las variables independientes son mtricas,
continuas y determinan a qu grupo pertenecen los objetos. Se trata de encontrar relaciones lineales entre
las variables que mejor discriminen a los grupos inciales de objetos. Adems, se trata de definir una regla
de decisin que asigne un nuevo objeto a uno de los grupos prefijados.
Entre las ventajas del ADL se tiene:
Las suposiciones de normalidad e igualdad de varianzas no siempre se cumplen en las variables del
modelo.
La clasificacin de nuevas observaciones no es muy eficiente a medida que se incrementa el nmero
de variables del modelo.
Seleccionar las variables antes de aplicar el ADL.
Requiere que se especifiquen los grupos del conjunto de entrenamiento del modelo con clases
prefijadas.
.?110.1.10
luatuassep :snunij ug
z/za
.uoleng!ssupsuu :sai2u! ug
< n) = d
.ucnonemsw elsa ap
ucnopiedai ap u9punj Li eul!sop 4 apuop `emonpai pmuou ucnonell.nsw ei ap mem ap epnr el uoo on2!s
owoa 'Temple .zas apond eati9.110 u9peowsep ap pupwqeqoid el epuonoosuoo u3 .z/(za) onpe2au
otpowoid op u9peigod el ap onp!mpw un alud rC ap onwsod Jaren un o zi(z a) onmsod o!powoid ap
upelqod el op oninmpw un alud Cap onpu2ou Jalen un Jemosqo op eilanbe ()loop ua so pepwqeqoid elsq
za
:jod epewpso JOS apand ezue!JeA el apuop Iewiou owowepeuaxoide w,nonell.nsw eun u9pelqod
epeo alud uoasod (t. ap saJoien sol onb Souompuon sews!tu ser ua aldwa!s `ansanwop as ved ano Jod
z a = Izx licl
:ansanw sop sel anuo `s!qouereqeyy
ap omuos p ua `awals!xo epemeiouo2 epuels113 el ap opaipeno lo anb 'olniosqe _mien uo ano so om
(ZX
Tx)
(Zx
i_1(zx T) =
z/(z_x
:CIOUDI1.00SUO0 uo uos si nsonw sop sel L sonpepi `(C oiquyeA el op owauJoid soJoien so-1
T _Z,Fz/(z_.y
xci
:apuop
xl =
Oq =
:ros `owunw
oau9no upeowselo ap o5so!..1 lo clame u9tounJ el onb Jansowop opond os sauo!o!puoo selso uj .sapue12
owatuawoptJns sansanw ap xpIed e sepewpsa .zas uapond o seppouoo uos souopeigod seso op sanawated
sol anb SCZUTICA00 sLzuML.zLA solen2.! ap `souo!suotwp d e satewuou sauopw.nslp uaosod souopelqod
sop ser anb opuowodns ezffeal as (a4) awanwposw u91ounj 1 op wype4sonw el IeJouo2 ZIOUPW eun aQ
.amsod euanbad sean
01 ros (u9peigod ano el ap anuop `w,naelqod eun e owopouavad onp!mpw un ap usnaen!sep) 4B01.19.1.1D
1.19InnISCIO ap aso!.1 10 SUJOIIMU semi ap `((' ap onmsod Joien un Jod onp!mput opol upeiqod C.120 Ll r
'(' op onge2au Jalen un iod opezymonir0 OTTIATUI opo2 SouTaelqod sop gel ap eun e Jepoje actuad
vd
dx dy
Od =
+
ti
id + oy =
:teaull wfflunj eun Salqepen d X souopemod sop wed `Jnigap o!dpwid Jod auop JaqsH 313 uy ii
031SVI3
ajtimmuniamp s!sllyuy .9
Anlisis Discriminante
La funcin y, que es as definida posee una cierto nmero de propiedades importantes. Ella es no solamente
aquella que minimiza el riesgo de clasificacin errnea, pero tambin, en relacin con la prueba T 2 de
Hotelling aquella que vuelve mximo la relacin de la varianza de y entre las poblaciones de la varianza de
y dentro las poblaciones. Dentro del espacio a p dimensiones correspondiente a las p variables observadas,
la ecuacin: bc, + bx = O
Es aquella de un hiperplano, donde todos los puntos son tales que las funciones de densidad de probabilidad
de dos poblaciones son iguales: f1(x) = f2(x).
Este hiperplano divide el espacio a p dimensiones en dos espacios, el uno engloba todos los puntos para los
cuales: f1(x) > f2 (x), y el otro todos los puntos para los cuales: f1(x) < f2 (x).
Entre el AD y la RM, existe una relacin simple, entre la distancia generalizada de Mahalanobis y el
coeficiente de correlacin mltiple (CCM), tenindose:
D2
4(n 1)R2
n(1 R 2)
Estas relaciones permiten calcular las probabilidades de clasificacin errnea a partir de los CCM.
7. Enfoque de Fisher del anlisis discriminante
Encuentra una buena FD que sea una combinacin lineal de las variables originales. Geomtricamente: Se
busca una buena direccin sobre la que se proyectar los datos de los grupos conocidos y de los que se desea
clasificar. Se clasifica en funcin de qu grupo est ms cerca en esa direccin.
(Direccin de mdtima variabilidad
(Direccin de tn4ma separacin
:sodni San sol ap e.nsonw upe mec aluanj u9!oeuulojut elso opuo!s `ea!tulnb
u9msodwoo ns e apuodsalloo onb Someyen j ap eisandwoo e.nsanw epej .u9!onadsoid ap ennonpoid
ou 'ennonpoid can :sodru5 sane opunuodsolloo eo!winb u9msodwoo ns iod sepumeue se.nsonw
ap son sol JeJap!suoo uos 21-1"1w ele 'Jay I013 ucnoende aun .seu!id!os!p solualapp ua sofaidwoo
sewalqad xemocie alud asopuennn Souopen!ide sesoiownu auan ay top eo!u092 nZ .u9peaudv
*-10100ISIDA su! apadSa C1 u apuodsonoo ro!up!A su! apadsa ul ap
t ensanw el X .10100ISIDA syt apadsa eje uapuodsolloo eolu!ann syt apodsa el ap .t l z sensanw sel !su
ou 'esolas syt apadso ej e uooauavad anb eog!ul!s anb 01 `sepoi ueogIselo os onb ennsaI esolos aselo el uq
*-10100TSIDA u COILliRnA ap 012p Un X `23TUTRITA SOpUUltSC OMS UBLI .10100ISJOA amo uj ap son sop :Sai0.1.1a
OTOS U21 opnamoo eq .lopeou!selo la `sopelinsai sol opuemascio C leuopeindwoo eweJlaid ja opuez!inn
'.10.100ISJOA ST.It a 20!UT1.11A sy!
`asolas sy! :uos sopodso san sel x ost zyjew aun asopug!ual 'so-Huyen t uoo sella op aun apeo SaJog ap
so!oodsa ap soteld sol .npaw ua 9ns!suoo anb
oue jap ,Jaqs!A iod sopez!inn smep sol eiap!suoo os !s
syw o san els!xo X mei) onanu un nog!sep casal) os anb la ua OSe3 lu opuonxo os Jogs!A op ellaa
- sodrul
!s
Anlisis Discriminante
Grp. 1 Tia Mnb Agc Baa Cod Cra Cuc Nia
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
7280
10300
6500
7000
5100
10600
14200
9700
2300
12100
3000
7500
7800
6900
11200
5200
5100
10500
11500
7100
1300
1200
700
1500
1000
2100
2000
900
1500
6300
1100
2400
1800
1500
3100
1400
1500
2900
3200
1800
30,0
0,7
1,0
0,7
0,5
0,3
0,2
0,2
0,2
0,1
0,2
0,7
4,0
1,0
1,5
0,8
0,9
0,4
0,7
0,9
4820
3040
890
2100
5060
1980
3220
3280
2020
4600
3100
3020
1860
2800
1040
4640
4990
2830
4500
2900
500
500
600
500
700
700
600
800
700
700
500
600
500
700
1600
800
900
800
700
600
0,1
0,2
0,1
0,1
0,3
0,1
0,2
0,2
0,1
0,3
0,2
0,2
0,1
0,1
0,1
0,3
0,3
0,2
0,2
0,1
160
150
50
100
140
80
160
90
80
160
100
90
70
110
20
220
190
120
140
80
20
20
10
15
20
15
20
15
15
20
15
15
10
15
5
15
20
15
20
15
Cod
70
30
10
30
50
20
30
10
20
60
30
10
20
20
10
20
40
20
30
10
50
50
70
40
50
30
50
30
20
30
30
10
30
10
40
20
40
30
20
10
73
25
48
70
39
25
25
38
50
24
15
31
24
25
20
42
67
21
15
8
150
160
200
160
140
50
70
70
110
30
30
30
40
50
40
50
60
20
30
50
30
20
20
30
20
30
30
35
5
30
5
30
55
30
50
35
25
25
30
75
720
1280
1070
760
740
980
690
680
710
1520
510
690
730
326
660
680
700
1640
710
490
Cra
Cu` Nia
30
82
61
77
154
63
45
40
104
48
65
69
63
58
37
121
59
40
82
99
10
10
10
10
20
20
20
30
20
10
10
0
0
10
0
20
20
10
20
0
Aue
190
50
170
250
130
110
180
250
12
190
50
280
90
70
90
150
90
200
180
100
0,02
0,02
0,01
0,01
0,02
0,01
0,01
0,01
0,01
0,02
0,02
0,03
0,01
0,04
0,01
0,01
0,01
0,01
0,01
0,02
70
70
100
110
80
70
60
70
70
80
30
100
20
90
50
50
80
30
20
30
Pba
0
20
0
0
0
0
10
20
0
20
20
30
10
20
10
20
30
20
10
0
60
90
210
240
50
150
160
90
80
320
240
210
90
70
140
30
40
320
260
80
70
50
50
40
60
160
70
110
30
160
30
40
320
200
280
150
190
90
270
180
Sra
Va
720
1580
340
650
1240
720
1100
1480
420
780
710
1310
480
730
140
1200
480
690
710
760
140
160
40
90
140
80
120
70
80
150
100
110
80
120
30
210
230
140
170
80
Zna Auc
200
70
50
80
80
110
60
40
70
50
40
30
50
80
80
160
120
60
70
90
0,01
0,01
0,02
0,02
0,01
0,00
0,01
0,00
0,00
0,02
0,01
0,02
0,00
0,01
0,01
0,00
0,02
0,00
0,00
0,01
.17S0`6SZ
I 9Z0`0
S.1700'0tOLOO`O
Z980'0.t7ZZOZ`0
L191'0
I S0'0
681Z1'0
n600`01000-YoLsoo`o
T so00`0190`91E alueuiumnsw u9pund
08t7L 1` S Z
6610'0
LS.170`0
08171 0`0
OLIS0'090`0
S60`0
L8 I SO`O
I 9.t70`0
1Z100`0Z6000'0
OZ000'09Z SLt/ S I z alueuwnsup uppund
OZZI'LZ
8LZ0`0
1. 7.17810`0
LS00`0
LZS90`0
0.17L0`0
Z80`0
S0610`0
S8.t.Z`0
17t7I0'0
(0750'000000'0
ES000`0918 I L'9 -
1 1cITJM
Z1 fflggInA
1I Ic1T-wA
0I I9g1-11A
6 DIcluPeA
8 aiciepeA
L 31geInA
9 3Icle!JBA
S 01q1!-IgA
t atclepeA
01(1TinA
Z 1(12InA
nIcIePPA
aweisuo
alueuwnsw Inpund
00'0 09 OZ OZ1
O
ZO`O 017 091 0011 01
00'0 08 0 091 OI
1.0'0 081 00Z 01Z 06
10'0 091 06 OZ OZ
ZO`O 08 OI I 0917 0
onv J-7
tem
0
8Z OI
0 OZ 1'0 00I7Z OZO I 9
OZ
09 0.17
SZ OL I Z'O 00S OZ8
0 ZOI OI
08 Z`O 0091 0801 17
017
6 08
SZ 09 S'I 00ZS 00ZZI
OS ZL Ot 0 08 S'O 00Z1 0059
0 8ZI 09
OZ 081 `0 008 09Z-17
IN
,n3
.c1-19
Anlisis Discriminante
Evaluacin de funciones de clasificacin para cada observacin
Grupo 1
N obs.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Grupo 2
N obs.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Funcin ms
Probabilidad asociada con la
grande
ms grande funcin discriminante
1,00000
1,00000
1,00000
0,99998
0,99992
1,00000
0,99550
1,00000
0,99889
0,99999
0,80447
1,00000
0,99999
0,99995
0,99922
0,99999
0,99999
1,00000
0,75983
1,00000
Funcin ms
Probabilidad asociada con la
grande
ms grande funcin discriminante
0,99975
1,00000
0,89424
0,98131
0,66340
0,99896
0,99694
0,99907
0,98893
0,99997
0,96769
0,99295
0,99993
0,99616
0,99687
0,98649
0,96505
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
'-'4VI3
"k1W
xeqruniy zpvH onmsno :2oig oq wonewV@onelsnlieq!ueiez!nJ ocuwoD itewloil@mqzinionels
SLL111L9 `103 Z91Z,'LLZU-165
0112011111301403
.mAgog- zed El `soop.yuuojw sewullaid ap eagguap upaulli -9onelsn9 argwely zpim .t7
- OSS
`L61
'3 SIAM E
`ULIOf
O I Z "dd `SL6 I `ellalei2u1 `saapuol "pn .00 25) ugpip saiiND .s!sXieur amiennIntu `aopneN .s IlePuoN
sauolsnpuog -01
6LSS`O
Of7666`0
6S666'0
I t7L66'0
1 S696'0
apue.12
awywwposw u9punj apurol syw
syw u9pund
el UO3 epepose prpmq-eciom
"sclo oN
E odru
nA