6 Analisis Discriminante

6.
ANÁLISIS DISCRIMINANTE
 Introducción
 Regla discriminante lineal de Fisher

 Versión poblacional
 Versión muestral
 El problema general de clasificación para

dos poblaciones
 Probabilidad a priori
 Costes de clasificación
 Coste esperado por mala clasificación
 Regiones óptimas
1
6. ANÁLISIS DISCRIMINANTE
 Clasificación para dos poblaciones normales

 Versión poblacional
 Clasificación general para g poblaciones

 Costes de clasificación
 Coste esperado por mala clasificación
 Regiones óptimas
2
6. ANÁLISIS DISCRIMINANTE
 Clasificación para g poblaciones normales

 Score cuadrático de clasificación
 Clasificación para g poblaciones normales con

matrices de covarianzas iguales
 Score lineal de clasificación
3
Introducción
Supervisada: Análisis discriminante

Clasificación
No supervisada: Análisis de conglo-
merados (clustering)
El análisis discriminante es una técnica de

clasificación para asignar nuevas observaciones
a grupos ya conocidos.
ANÁLISIS DISCRIMINANTE 4
Regla discriminante lineal de Fisher
 X1 
 
Sea la variable X     y dos poblaciones 1 y  2 .
X 
 p
Sean E1 ( X )  1 y E 2 ( X )   2
V1 ( X )  V 2 ( X )   .
Se busca una combinación lineal de la forma
Y  l ' X  l1 X 1  l2 X 2    l p X p
que sea óptima para clasificar una observación
en alguna de las dos poblaciones.
Se tiene que
E1 (Y )  E1 (l ' X )  l '  1  Y 1

E 2 (Y )  E 2 (l ' X )  l '  2   Y 2
V1 (Y )  V1 (l ' X )  l '  l   Y2  V 2 (l ' X )  V 2 (Y )
Hay que buscar l que optimice la separación entre las

dos poblaciones: se maximiza la separación entre
las medias:
maxp ( Y 1  Y 2) 2  maxp (l '  1 l '  2) 2
l l
Si se maximiza sin restricciones, el máximo puede

no ser finito: se maximiza dividiendo por la
varianza
(  Y 1  Y 2) 2 (l '  1 l '  2) 2
maxp  maxp
l  2
Y
l  Y2
Nota:  Y2 es común.
La solución que se obtiene es:

Y  ( 1  2)'  X 1 Función discriminante
lineal de Fisher
 X1 
En el caso en que X    , se tiene:
 X2 
Y (mejor recta) π2
2
π1
Proyección de 2 1
Proyección de 1
Y  l ' X  l1 X1  l2 X 2 l1 y l2 determinan la recta
1
El punto medio es: m  (  1   2 )'  1
(  1  2 )
2
Y=l’X 2 Dada una nueva observación x0:
Y2
1  Asignar x0 a π1 si
x0
m
l’x0 (  1  2 )'  1 x0  m  0
Y1
 Asignar x0 a π2 si
(  1  2 )'  1 x0  m  0
Proposición
 E1 (Y )  m  0

E 2 (Y )  m  0
Regla discriminante lineal de Fisher:
Versión muestral
Dadas dos poblaciones 1 y  2 , se tienen las
siguientes matrices de datos:
 X 11(1) X 12(1)  X 1(1p)   X 11( 2 ) X 12( 2 )  X 1(p2 ) 
 (1)   ( 2) 
 X 21 (1)
X 22  X2p 
(1)
 X 21 ( 2)
X 22  X2p 
( 2)
X (1)  X ( 2) 
           
 X n(11) X n(11 )2  X n(11 )p   X n( 21) X n(222)  X n(22p) 
 1  2
y sean Nota: no es necesario n1=n2
X1 , X 2
(n1  1) S1  (n2  1) S 2
y Sp  .
n1  n2  2
Versión muestral
La regla lineal es:
ˆ 1
Y  l ' X  ( X 1  X 2)' S p X
Función discriminante lineal muestral de Fisher
que es óptima para clasificar entre las dos poblaciones.
1 1
El punto medio es: ˆ
m  ( X 1  X 2 )' S p ( X 1 X 2 ).
2
Versión muestral
X2
Y=l’X
X Y2
x0 X1
m
l’x0
X Y1
Dada una nueva observación x0 , la regla de clasificación

sería:
1
 Asignar x0 a π1 si ( X 1 X 2 )' S p x0  m  0
ˆ
1
 Asignar x0 a π2 si ( X 1 X 2 )' S p x0  mˆ  0
Clasificación
Ejemplo
3 7  6 9 
X 1  2 4 X 2  5 7
4 7 4 8
 3 5 1 1
x1    x2    Sp   
6  8 1 2 
(i) Calcular la función de discriminación lineal.
(ii) Clasificar la observación xo ' 2 7.
El problema general de clasificación para dos
poblaciones
 X1 
 
Dada la variable X     y dos poblaciones 1 y  2 ,
X 
 p
siendo f1 la función de densidad de 1 y f2 la función
de densidad de  2 .
poblaciones
El problema es separar el espacio muestral  en

dos regiones R1 y R2 disjuntas tales que:
  R1  R2 , R1  R2  
En 
1 f2
f1
R1 R2
poblaciones
 Probabilidad de clasificar en 1 si viene de 1

P(1 | 1)   f1 ( x)dx
R1
 Probabilidad de clasificar en 1 si viene de  2

P(1 | 2)   f 2 ( x)dx
R1
 Probabilidad de clasificar en  2 si viene de 1

P(2 | 1)   f1 ( x)dx
R2
 Probabilidad de clasificar en  2 si viene de  2

P(2 | 2)   f 2 ( x)dx
R2
poblaciones
 p1 : probabilidad de que venga de 1

 p2 : probabilidad de que venga de  2
 P(clasificar correctamente en 1 ) = P(1 | 1)  p1
 P(clasificar incorrectamente en 1 ) = P(1 | 2)  p2
 P(clasificar correctamente en  2 ) = P(2 | 2)  p2
 P(clasificar incorrectamente en  2 ) = P(2 | 1)  p1
poblaciones
El objetivo es encontrar la mejor regla de clasificación,

que proporcionará las regiones que minimicen
el coste esperado por mala clasificación.
VIENE DE
1 2
CLASIFICAR EN
1 0 C(1&2)
2 C(2&1) 0
poblaciones
El coste esperado por mala clasificación para

dos regiones es:
CEMC  C(1& 2)  P(1 | 2)  p2  C(2 &1)  P(2 | 1)  p1
El objetivo es hallar dos regiones que minimicen el CEMC.
poblaciones
Teorema
Las regiones R1 y R2 que minimizan el coste esperado por

mala clasificación son:
 f1 ( x ) C (1 & 2) p2 
R1   x   p :   
 f2 ( x) C (2 & 1) p1 
 f1 ( x ) C (1 & 2) p2 
R2   x   p :   
 f2 ( x) C (2 & 1) p1 
poblaciones
Corolario
 f1 ( x ) C (1 & 2) 
 R1   x   p :  
 f2 ( x) C (2 & 1) 
p1 = p2 
 f1 ( x ) C (1 & 2) 
R2   x   p :  
 f2 ( x) C (2 & 1) 
 f1 ( x ) p2 
R1   x   p :  
  f2 ( x) p1 
C(1&2) = C(2&1)   f1 ( x ) p2 
R2   x   p :  
 f2 ( x) p1 
poblaciones
 f1 ( x ) 
R1   x   p :  1
 p1= p2 y C(1&2) = C(2&1)   f2 ( x) 
 f1 ( x ) 
R2   x   p :  1
 f2 ( x) 
Clasificación para dos poblaciones normales
En este caso se conoce la función de densidad para

1 y  2 .
 X1 
 
Dada la variable X     y las dos poblaciones 1 y  2
con X 
 p
X ~ N p ( 1 , 1 )
X ~ N p (2 ,  2 ) ,
respectivamente, el objetivo es hallar

las dos regiones R1 y R2 que minimizan el CEMC.
Teorema
Las regiones R1 y R2 que minimizan el CEMC son:
 1 
 x   :  x '  1   2  x    '1 1   '2  2  x  k  
p 1 1 1 1
 2 
R1   
  C (1&2) p  
 log   2

  C (2&1) p1  

 1 
 x   ;  X '  1   2  X    '1 1   '2  2  X  k  
p 1 1 1 1
 2 
R2   ,
  C (1&2) p2  
 log   

  C (2&1) p1  

1 1
   '1 11 1   '2  21 2  .
1
siendo k  log
2 2 2
Observación
 Si 1  2 la regla de clasificación es cuadrática.

 Si 1  2 se obtienen las regiones:
  C (1&2) p2  
R1   x  :  1  2  '  x  k  log 
p 1
 
  C (2&1) p1  
  C (1&2) p2  
R2   x  :  1  2  '  x  k  log 
p 1
 
  C (2&1) p1  
Si se considera C (1 & 2)  p2  1 , entonces se

C (2 & 1) p1
llega a la regla discriminante lineal de Fisher.
( 1  2 ) '  x    '1 11 1   '2  21 2   0

1 1
2
Versión muestral
Dadas dos poblaciones 1 y  2 y las matrices de datos
Nota: no es necesario n1= n2
 X 11
(1) (1)
X 12  X 1(1p)   X 11
( 2) ( 2)
X 12  X 1(p2 ) 
 (1)   ( 2) 
 X 21 (1)
X 22  X2p 
(1)
 X 21 ( 2)
X 22  X2p 
( 2)
X (1)  X ( 2) 
   ,
         
 X n(11) X n(11 )2  X n(11 )p   X n( 21) X n( 222)  X n( 22p) 
 1  2
Clasificación para dos poblaciones normales:
Versión muestral
estimando fˆ1 ( x) y fˆ2 ( x) , se tiene:

 fˆ1 ( x ) C (1 & 2) p2 

R1   x   p :   

 fˆ2 ( x ) C (2 & 1) p1 


 fˆ1 ( x ) C (1 & 2) p2 

R2   x   p :   

 fˆ2 ( x ) C (2 & 1) p1 

Clasificación general para g poblaciones
 X1 
 
Sea la variable X     y las g poblaciones  1 ,  2 , g
X 
 p
siendo f1 ,  , f g sus respectivas funciones de densidad
y p1 ,  , p g las probabilidades a priori.
El coste de clasificar en  i viniendo de  k es

C(i&k), siendo C(i&i) = 0, i  1,..., g.
Las g regiones en las se puede clasificar vienen

dadas por:
Ri   x  p : x se clasifica en  i 
La probabilidad de clasificar en  k si viene de  i es
P(k | i )   f i ( x)dx ik

Rk
La probabilidad de clasificar en  i si viene de  i es
g
P(i | i)   f i ( x)dx  1   P(k | i) ik
Ri
k 1
El objetivo es encontrar la mejor regla de clasificación,

que dará lugar a las regiones que hacen mínimo
el coste por mala clasificación.
VIENE DE
1
1
0
2
C(1&2)


g
C(1&g)

CLASIFICAR EN
 2 C(2&1) 0 C(2&g)
   
 g C(g&1) C(g&2)  0
El coste esperado por mala clasificación dado que la

observación viene de  i es:
g
CEMC (i)   C (k & i ) p(k | i )
k 1
k i
En general, el coste esperado por mala clasificación

es:
g g
CEMC   C (k & i ) pi  f i ( x)dx
Rk
i 1 k 1
k i
El CEMC también se puede escribir como:
g g
CEMC   C (k & i ) P (k | i ) pi
i 1 k 1
k i
Teorema
El CEMC se minimiza asignando la observación x a la
población  k para la cual
g
 C (k & i ) p f ( x)
i 1
i i es mínima
Corolario
Si todos los costes de gclasificación son iguales, el CEMC
se minimiza cuando  p f ( x)
i 1
i i es mínima, es decir,
cuando se clasifica x en la población donde pk f k ( x)
es máxima.
La región de puntos que se clasifican en la población i es
Clasificación para g poblaciones normales
En este caso se conoce la función de densidad para

1,  2 , ,  g .
 X1 
 
Dada la variable X     y las g poblaciones  1 ,  2 , ,  g
con X 
 p
X ~ N p ( 1 , 1 )

X ~ N p (  g ,  g ),
respectivamente, el objetivo es hallar las g regiones
R1,R2 ,...,Rg que minimizan el CEMC.
La función de densidad en el caso normal para las

poblaciones  1 ,  2 , ,  g es:
f i ( x) 
1
exp  1
( x   ) '  i ( x  i ) ,
1
(2 ) p / 2 i
1/ 2 2 i
i  1, 2, ,g
Si los costes son iguales, hay que maximizar pi f i (x) .
Se clasifica x en  k si pk f k ( X )  max log pi f i ( x) ,

i 1,..., g
es decir, si:
log pk  2p log 2  12 log k  12 ( x  k ) '  k1 ( x  k ) 

 max pi fi ( x)
i 1,... g
Como las matrices de covarianzas son distintas, se

tiene una expresión cuadrática:
1 1
d ( x)  log pi  log  i  ( x   i )' i ( x   i )
Q 1
i
2 2
Score cuadrático de clasificación
Se clasifica x en  k si d kQ ( x)  max d iQ ( x)
i 1,... g
Nota: Si no hay probabilidades a priori, log pi = 0.
Versión muestral
 X1 
 
Sea X   y sean g poblaciones conocidas  1 ,  2 , ,  g
X 
.  p
g matrices de datos, de tamaños n1, n2,...,ng, no

necesariamente iguales:
 X 11
(1) (1)
X 12  X 1(1p)   X 11
(g) (g)
X 12  X 1(pg ) 
 (1)   (g) 
 X 21 (1)
X 22  X2p 
(1)
 X 21 (g)
X 22  X2p 
(g)
(1)
 ,, X (g)

  
X
         
 X n(11) X n(11 )2  X n(11 )p   X n( g1) X n( gg 2)  X n( ggp) 
 1  g
Versión muestral
Sean X 1 , X 2 ,, X g
S1 , S 2 ,  , S g
p1 , p2 ,  , p g
Versión muestral
La función de densidad estimada es:
f i ( x) 
1
exp  2
 1
( x  X ) ' S i ( x  X i ) ,
1
(2 ) p / 2 Si
1/ 2 i
i  1, 2, ,g
El score cuadrático de clasificación es:
dîQ ( x)  log pi  12 log Si  12 ( x  X i ) ' Si1 ( x  X i ).
Se clasifica x en  k si d kQ ( x)  max d iQ ( x) , es
i 1,... g
decir, si pk fˆk ( x)  pi fî ( x), i  k
Clasificación para g poblaciones normales con
Score lineal de clasificación
Nota:
si las matrices de covarianzas son:
•Iguales: caso lineal
•Distintas: caso cuadrático
Sean X ~ N p ( i , ), i  1,, g
Si todas las poblaciones tienen distribución normal, el

score cuadrático sería:
diQ  log pi  12 log   12 ( x  i )' 1 ( x  i )
matrices de covarianzas iguales:
Si  i  , desarrollando la forma cuadrática se

llega al score lineal de clasificación.
d i (xdi)  log pi  12 log   12 x ' 1 x  12 x ' 1 i  12  'i 1 x  12  'i 1 i .
Para clasificar, hay que maximizar
1
di ( x)   'i  x   'i  1 i  lg pi .
1
2
La regla de clasificación por tanto, es clasificar x en  k

si d k ( x)  max d i ( x)
i 1,... g
Versión muestral
 X1 
 
Sea la variable X     y las g poblaciones  1 ,  2 ,,  g
con distribuciones  X p 
estimadas
X ~ N p ( X 1 , S1 )

X ~ N p ( X g , S g ),
respectivamente. Si se estima con Si=S, el score lineal

de clasificación queda
ˆ 1
d i ( x)  x 'i S x  x 'i S 1 xi  log pi
1
2
Score lineal muestral de clasificación ANÁLISIS DISCRIMINANTE 49
Versión muestral
La regla de clasificación es asignar x a  k si

dˆk ( x)  max dî ( x)
i 1,..., g
X i es el estimador de la media y S es el estimador

de :
(n1  1) S1  (n2  1) S 2    (ng  1) S g
S
n1  n2    ng  g

6 Analisis Discriminante

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

6 Analisis Discriminante

Cargado por

Copyright:

Formatos disponibles

6.

 Regla discriminante lineal de Fisher

 El problema general de clasificación para

 Clasificación para dos poblaciones normales

 Clasificación general para g poblaciones

 Clasificación para g poblaciones normales

 Clasificación para g poblaciones normales con

Supervisada: Análisis discriminante

El análisis discriminante es una técnica de

E1 (Y )  E1 (l ' X )  l '  1  Y 1

Hay que buscar l que optimice la separación entre las

Si se maximiza sin restricciones, el máximo puede

La solución que se obtiene es:

Y  l ' X  l1 X1  l2 X 2 l1 y l2 determinan la recta

Y=l’X 2 Dada una nueva observación x0:

que es óptima para clasificar entre las dos poblaciones.

Dada una nueva observación x0 , la regla de clasificación

siendo f1 la función de densidad de 1 y f2 la función

El problema es separar el espacio muestral  en

 Probabilidad de clasificar en 1 si viene de 1

 Probabilidad de clasificar en 1 si viene de  2

 Probabilidad de clasificar en  2 si viene de 1

 Probabilidad de clasificar en  2 si viene de  2

 p1 : probabilidad de que venga de 1

 P(clasificar correctamente en 1 ) = P(1 | 1)  p1

 P(clasificar incorrectamente en 1 ) = P(1 | 2)  p2

 P(clasificar correctamente en  2 ) = P(2 | 2)  p2

 P(clasificar incorrectamente en  2 ) = P(2 | 1)  p1

El objetivo es encontrar la mejor regla de clasificación,

El coste esperado por mala clasificación para

CEMC  C(1& 2)  P(1 | 2)  p2  C(2 &1)  P(2 | 1)  p1

El objetivo es hallar dos regiones que minimicen el CEMC.

Las regiones R1 y R2 que minimizan el coste esperado por

En este caso se conoce la función de densidad para

respectivamente, el objetivo es hallar

 Si 1  2 la regla de clasificación es cuadrática.

Si se considera C (1 & 2)  p2  1 , entonces se

llega a la regla discriminante lineal de Fisher.

( 1  2 ) '  x    '1 11 1   '2  21 2   0

Dadas dos poblaciones 1 y  2 y las matrices de datos

Nota: no es necesario n1= n2

estimando fˆ1 ( x) y fˆ2 ( x) , se tiene:

El coste de clasificar en  i viniendo de  k es

Las g regiones en las se puede clasificar vienen

La probabilidad de clasificar en  k si viene de  i es

P(k | i )   f i ( x)dx ik

La probabilidad de clasificar en  i si viene de  i es

El objetivo es encontrar la mejor regla de clasificación,

El coste esperado por mala clasificación dado que la

En general, el coste esperado por mala clasificación

El CEMC también se puede escribir como:

La región de puntos que se clasifican en la población i es

En este caso se conoce la función de densidad para

La función de densidad en el caso normal para las

Si los costes son iguales, hay que maximizar pi f i (x) .

Se clasifica x en  k si pk f k ( X )  max log pi f i ( x) ,

log pk  2p log 2  12 log k  12 ( x  k ) '  k1 ( x  k ) 

Como las matrices de covarianzas son distintas, se

Nota: Si no hay probabilidades a priori, log pi = 0.

g matrices de datos, de tamaños n1, n2,...,ng, no

La función de densidad estimada es:

dˆiQ ( x)  log pi  12 log Si  12 ( x  X i ) ' Si1 ( x  X i ).

Si todas las poblaciones tienen distribución normal, el