Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ANÁLISIS DISCRIMINANTE
Introducción
1
6. ANÁLISIS DISCRIMINANTE
2
6. ANÁLISIS DISCRIMINANTE
3
Introducción
ANÁLISIS DISCRIMINANTE 4
Regla discriminante lineal de Fisher
X1
Sea la variable X y dos poblaciones 1 y 2 .
X
p
Sean E1 ( X ) 1 y E 2 ( X ) 2
V1 ( X ) V 2 ( X ) .
Se busca una combinación lineal de la forma
Y l ' X l1 X 1 l2 X 2 l p X p
que sea óptima para clasificar una observación
en alguna de las dos poblaciones.
ANÁLISIS DISCRIMINANTE 5
Regla discriminante lineal de Fisher
Se tiene que
ANÁLISIS DISCRIMINANTE 6
Regla discriminante lineal de Fisher
ANÁLISIS DISCRIMINANTE 7
Regla discriminante lineal de Fisher
( Y 1 Y 2) 2 (l ' 1 l ' 2) 2
maxp maxp
l 2
Y
l Y2
Nota: Y2 es común.
ANÁLISIS DISCRIMINANTE 8
Regla discriminante lineal de Fisher
X1
En el caso en que X , se tiene:
X2
Y (mejor recta) π2
2
π1
Proyección de 2 1
Proyección de 1
ANÁLISIS DISCRIMINANTE 9
Regla discriminante lineal de Fisher
1
El punto medio es: m ( 1 2 )' 1
( 1 2 )
2
Y2
1 Asignar x0 a π1 si
x0
m
l’x0 ( 1 2 )' 1 x0 m 0
Y1
Asignar x0 a π2 si
( 1 2 )' 1 x0 m 0
ANÁLISIS DISCRIMINANTE 10
Regla discriminante lineal de Fisher
Proposición
E1 (Y ) m 0
E 2 (Y ) m 0
ANÁLISIS DISCRIMINANTE 11
Regla discriminante lineal de Fisher:
Versión muestral
Dadas dos poblaciones 1 y 2 , se tienen las
siguientes matrices de datos:
X 11(1) X 12(1) X 1(1p) X 11( 2 ) X 12( 2 ) X 1(p2 )
(1) ( 2)
X 21 (1)
X 22 X2p
(1)
X 21 ( 2)
X 22 X2p
( 2)
X (1) X ( 2)
X n(11) X n(11 )2 X n(11 )p X n( 21) X n(222) X n(22p)
1 2
y sean Nota: no es necesario n1=n2
X1 , X 2
(n1 1) S1 (n2 1) S 2
y Sp .
n1 n2 2
ANÁLISIS DISCRIMINANTE 12
Regla discriminante lineal de Fisher:
Versión muestral
La regla lineal es:
ˆ 1
Y l ' X ( X 1 X 2)' S p X
Función discriminante lineal muestral de Fisher
1 1
El punto medio es: ˆ
m ( X 1 X 2 )' S p ( X 1 X 2 ).
2
ANÁLISIS DISCRIMINANTE 13
Regla discriminante lineal de Fisher:
Versión muestral
X2
Y=l’X
X Y2
x0 X1
m
l’x0
X Y1
Ejemplo
3 7 6 9
X 1 2 4 X 2 5 7
4 7 4 8
3 5 1 1
x1 x2 Sp
6 8 1 2
(i) Calcular la función de discriminación lineal.
(ii) Clasificar la observación xo ' 2 7.
ANÁLISIS DISCRIMINANTE 15
El problema general de clasificación para dos
poblaciones
X1
Dada la variable X y dos poblaciones 1 y 2 ,
X
p
de densidad de 2 .
ANÁLISIS DISCRIMINANTE 16
El problema general de clasificación para dos
poblaciones
R1 R2 , R1 R2
En
1 f2
f1
R1 R2
ANÁLISIS DISCRIMINANTE 17
El problema general de clasificación para dos
poblaciones
ANÁLISIS DISCRIMINANTE 18
El problema general de clasificación para dos
poblaciones
ANÁLISIS DISCRIMINANTE 19
El problema general de clasificación para dos
poblaciones
1 0 C(1&2)
2 C(2&1) 0
ANÁLISIS DISCRIMINANTE 20
El problema general de clasificación para dos
poblaciones
ANÁLISIS DISCRIMINANTE 21
El problema general de clasificación para dos
poblaciones
Teorema
f1 ( x ) C (1 & 2) p2
R1 x p :
f2 ( x) C (2 & 1) p1
f1 ( x ) C (1 & 2) p2
R2 x p :
f2 ( x) C (2 & 1) p1
ANÁLISIS DISCRIMINANTE 22
El problema general de clasificación para dos
poblaciones
Corolario
f1 ( x ) C (1 & 2)
R1 x p :
f2 ( x) C (2 & 1)
p1 = p2
f1 ( x ) C (1 & 2)
R2 x p :
f2 ( x) C (2 & 1)
f1 ( x ) p2
R1 x p :
f2 ( x) p1
C(1&2) = C(2&1) f1 ( x ) p2
R2 x p :
f2 ( x) p1
ANÁLISIS DISCRIMINANTE 23
El problema general de clasificación para dos
poblaciones
f1 ( x )
R1 x p : 1
p1= p2 y C(1&2) = C(2&1) f2 ( x)
f1 ( x )
R2 x p : 1
f2 ( x)
ANÁLISIS DISCRIMINANTE 24
Clasificación para dos poblaciones normales
ANÁLISIS DISCRIMINANTE 25
Clasificación para dos poblaciones normales
Teorema
Las regiones R1 y R2 que minimizan el CEMC son:
1
x : x ' 1 2 x '1 1 '2 2 x k
p 1 1 1 1
2
R1
C (1&2) p
log 2
C (2&1) p1
1
x ; X ' 1 2 X '1 1 '2 2 X k
p 1 1 1 1
2
R2 ,
C (1&2) p2
log
C (2&1) p1
1 1
'1 11 1 '2 21 2 .
1
siendo k log
2 2 2
ANÁLISIS DISCRIMINANTE 26
Clasificación para dos poblaciones normales
Observación
C (1&2) p2
R1 x : 1 2 ' x k log
p 1
C (2&1) p1
C (1&2) p2
R2 x : 1 2 ' x k log
p 1
C (2&1) p1
ANÁLISIS DISCRIMINANTE 27
Clasificación para dos poblaciones normales
ANÁLISIS DISCRIMINANTE 28
Clasificación para dos poblaciones normales
Versión muestral
X 11
(1) (1)
X 12 X 1(1p) X 11
( 2) ( 2)
X 12 X 1(p2 )
(1) ( 2)
X 21 (1)
X 22 X2p
(1)
X 21 ( 2)
X 22 X2p
( 2)
X (1) X ( 2)
,
X n(11) X n(11 )2 X n(11 )p X n( 21) X n( 222) X n( 22p)
1 2
ANÁLISIS DISCRIMINANTE 29
Clasificación para dos poblaciones normales:
Versión muestral
fˆ1 ( x ) C (1 & 2) p2
R1 x p :
fˆ2 ( x ) C (2 & 1) p1
fˆ1 ( x ) C (1 & 2) p2
R2 x p :
fˆ2 ( x ) C (2 & 1) p1
ANÁLISIS DISCRIMINANTE 30
Clasificación general para g poblaciones
X1
Sea la variable X y las g poblaciones 1 , 2 , g
X
p
siendo f1 , , f g sus respectivas funciones de densidad
y p1 , , p g las probabilidades a priori.
ANÁLISIS DISCRIMINANTE 31
Clasificación general para g poblaciones
Ri x p : x se clasifica en i
ANÁLISIS DISCRIMINANTE 32
Clasificación general para g poblaciones
g
P(i | i) f i ( x)dx 1 P(k | i) ik
Ri
k 1
ANÁLISIS DISCRIMINANTE 33
Clasificación general para g poblaciones
1
1
0
2
C(1&2)
g
C(1&g)
CLASIFICAR EN
2 C(2&1) 0 C(2&g)
g C(g&1) C(g&2) 0
ANÁLISIS DISCRIMINANTE 34
Clasificación general para g poblaciones
ANÁLISIS DISCRIMINANTE 35
Clasificación general para g poblaciones
g g
CEMC C (k & i ) P (k | i ) pi
i 1 k 1
k i
ANÁLISIS DISCRIMINANTE 36
Clasificación general para g poblaciones
Teorema
El CEMC se minimiza asignando la observación x a la
población k para la cual
g
C (k & i ) p f ( x)
i 1
i i es mínima
Corolario
Si todos los costes de gclasificación son iguales, el CEMC
se minimiza cuando p f ( x)
i 1
i i es mínima, es decir,
cuando se clasifica x en la población donde pk f k ( x)
es máxima.
ANÁLISIS DISCRIMINANTE 37
Clasificación general para g poblaciones
ANÁLISIS DISCRIMINANTE 38
Clasificación para g poblaciones normales
X1
Dada la variable X y las g poblaciones 1 , 2 , , g
con X
p
X ~ N p ( 1 , 1 )
X ~ N p ( g , g ),
respectivamente, el objetivo es hallar las g regiones
R1,R2 ,...,Rg que minimizan el CEMC.
ANÁLISIS DISCRIMINANTE 39
Clasificación para g poblaciones normales
f i ( x)
1
exp 1
( x ) ' i ( x i ) ,
1
(2 ) p / 2 i
1/ 2 2 i
i 1, 2, ,g
ANÁLISIS DISCRIMINANTE 40
Clasificación para g poblaciones normales
ANÁLISIS DISCRIMINANTE 41
Clasificación para g poblaciones normales
Se clasifica x en k si d kQ ( x) max d iQ ( x)
i 1,... g
ANÁLISIS DISCRIMINANTE 42
Clasificación para g poblaciones normales
Versión muestral
X1
Sea X y sean g poblaciones conocidas 1 , 2 , , g
X
. p
ANÁLISIS DISCRIMINANTE 43
Clasificación para g poblaciones normales
Versión muestral
Sean X 1 , X 2 ,, X g
S1 , S 2 , , S g
p1 , p2 , , p g
ANÁLISIS DISCRIMINANTE 44
Clasificación para g poblaciones normales
Versión muestral
f i ( x)
1
exp 2
1
( x X ) ' S i ( x X i ) ,
1
(2 ) p / 2 Si
1/ 2 i
i 1, 2, ,g
El score cuadrático de clasificación es:
Se clasifica x en k si d kQ ( x) max d iQ ( x) , es
i 1,... g
decir, si pk fˆk ( x) pi fˆi ( x), i k
ANÁLISIS DISCRIMINANTE 45
Clasificación para g poblaciones normales con
matrices de covarianzas iguales
Score lineal de clasificación
Nota:
si las matrices de covarianzas son:
•Iguales: caso lineal
•Distintas: caso cuadrático
Sean X ~ N p ( i , ), i 1,, g
ANÁLISIS DISCRIMINANTE 46
Clasificación para g poblaciones normales con
matrices de covarianzas iguales:
Score lineal de clasificación
d i (xdi) log pi 12 log 12 x ' 1 x 12 x ' 1 i 12 'i 1 x 12 'i 1 i .
ANÁLISIS DISCRIMINANTE 47
Clasificación para g poblaciones normales con
matrices de covarianzas iguales
Score lineal de clasificación
1
di ( x) 'i x 'i 1 i lg pi .
1
2
Score lineal de clasificación
ANÁLISIS DISCRIMINANTE 48
Clasificación para g poblaciones normales con
matrices de covarianzas iguales
Versión muestral
X1
Sea la variable X y las g poblaciones 1 , 2 ,, g
con distribuciones X p
estimadas
X ~ N p ( X 1 , S1 )
X ~ N p ( X g , S g ),
2
Score lineal muestral de clasificación ANÁLISIS DISCRIMINANTE 49
Clasificación para g poblaciones normales con
matrices de covarianzas iguales
Versión muestral
ANÁLISIS DISCRIMINANTE 50