Está en la página 1de 50

6.

ANÁLISIS DISCRIMINANTE

 Introducción

 Regla discriminante lineal de Fisher


 Versión poblacional
 Versión muestral

 El problema general de clasificación para


dos poblaciones
 Probabilidad a priori
 Costes de clasificación
 Coste esperado por mala clasificación
 Regiones óptimas

1
6. ANÁLISIS DISCRIMINANTE

 Clasificación para dos poblaciones normales


 Versión poblacional
 Versión muestral

 Clasificación general para g poblaciones


 Costes de clasificación
 Coste esperado por mala clasificación
 Regiones óptimas

2
6. ANÁLISIS DISCRIMINANTE

 Clasificación para g poblaciones normales


 Score cuadrático de clasificación
 Versión muestral

 Clasificación para g poblaciones normales con


matrices de covarianzas iguales
 Score lineal de clasificación
 Versión muestral

3
Introducción

Supervisada: Análisis discriminante


Clasificación
No supervisada: Análisis de conglo-
merados (clustering)

El análisis discriminante es una técnica de


clasificación para asignar nuevas observaciones
a grupos ya conocidos.

ANÁLISIS DISCRIMINANTE 4
Regla discriminante lineal de Fisher

 X1 
 
Sea la variable X     y dos poblaciones 1 y  2 .
X 
 p

Sean E1 ( X )  1 y E 2 ( X )   2
V1 ( X )  V 2 ( X )   .
Se busca una combinación lineal de la forma
Y  l ' X  l1 X 1  l2 X 2    l p X p
que sea óptima para clasificar una observación
en alguna de las dos poblaciones.
ANÁLISIS DISCRIMINANTE 5
Regla discriminante lineal de Fisher

Se tiene que

E1 (Y )  E1 (l ' X )  l '  1  Y 1


E 2 (Y )  E 2 (l ' X )  l '  2   Y 2
V1 (Y )  V1 (l ' X )  l '  l   Y2  V 2 (l ' X )  V 2 (Y )

ANÁLISIS DISCRIMINANTE 6
Regla discriminante lineal de Fisher

Hay que buscar l que optimice la separación entre las


dos poblaciones: se maximiza la separación entre
las medias:
maxp ( Y 1  Y 2) 2  maxp (l '  1 l '  2) 2
l l

ANÁLISIS DISCRIMINANTE 7
Regla discriminante lineal de Fisher

Si se maximiza sin restricciones, el máximo puede


no ser finito: se maximiza dividiendo por la
varianza

(  Y 1  Y 2) 2 (l '  1 l '  2) 2
maxp  maxp
l  2
Y
l  Y2
Nota:  Y2 es común.

La solución que se obtiene es:


Y  ( 1  2)'  X 1 Función discriminante
lineal de Fisher

ANÁLISIS DISCRIMINANTE 8
Regla discriminante lineal de Fisher
 X1 
En el caso en que X    , se tiene:
 X2 

Y (mejor recta) π2
2
π1
Proyección de 2 1

Proyección de 1

Y  l ' X  l1 X1  l2 X 2 l1 y l2 determinan la recta

ANÁLISIS DISCRIMINANTE 9
Regla discriminante lineal de Fisher

1
El punto medio es: m  (  1   2 )'  1
(  1  2 )
2

Y=l’X 2 Dada una nueva observación x0:

Y2
1  Asignar x0 a π1 si
x0
m
l’x0 (  1  2 )'  1 x0  m  0
Y1
 Asignar x0 a π2 si
(  1  2 )'  1 x0  m  0

ANÁLISIS DISCRIMINANTE 10
Regla discriminante lineal de Fisher

Proposición
 E1 (Y )  m  0

E 2 (Y )  m  0

ANÁLISIS DISCRIMINANTE 11
Regla discriminante lineal de Fisher:
Versión muestral
Dadas dos poblaciones 1 y  2 , se tienen las
siguientes matrices de datos:
 X 11(1) X 12(1)  X 1(1p)   X 11( 2 ) X 12( 2 )  X 1(p2 ) 
 (1)   ( 2) 
 X 21 (1)
X 22  X2p 
(1)
 X 21 ( 2)
X 22  X2p 
( 2)

X (1)  X ( 2) 
           
 X n(11) X n(11 )2  X n(11 )p   X n( 21) X n(222)  X n(22p) 
 1  2
y sean Nota: no es necesario n1=n2

X1 , X 2
(n1  1) S1  (n2  1) S 2
y Sp  .
n1  n2  2
ANÁLISIS DISCRIMINANTE 12
Regla discriminante lineal de Fisher:
Versión muestral
La regla lineal es:

ˆ 1
Y  l ' X  ( X 1  X 2)' S p X
Función discriminante lineal muestral de Fisher

que es óptima para clasificar entre las dos poblaciones.

1 1
El punto medio es: ˆ
m  ( X 1  X 2 )' S p ( X 1 X 2 ).
2

ANÁLISIS DISCRIMINANTE 13
Regla discriminante lineal de Fisher:
Versión muestral

X2
Y=l’X

X Y2
x0 X1
m
l’x0
X Y1

Dada una nueva observación x0 , la regla de clasificación


sería:
1
 Asignar x0 a π1 si ( X 1 X 2 )' S p x0  m  0
ˆ
1
 Asignar x0 a π2 si ( X 1 X 2 )' S p x0  mˆ  0
ANÁLISIS DISCRIMINANTE 14
Clasificación

Ejemplo
3 7  6 9 
X 1  2 4 X 2  5 7
4 7 4 8

 3 5 1 1
x1    x2    Sp   
6  8 1 2 
(i) Calcular la función de discriminación lineal.
(ii) Clasificar la observación xo ' 2 7.

ANÁLISIS DISCRIMINANTE 15
El problema general de clasificación para dos
poblaciones

 X1 
 
Dada la variable X     y dos poblaciones 1 y  2 ,
X 
 p

siendo f1 la función de densidad de 1 y f2 la función

de densidad de  2 .

ANÁLISIS DISCRIMINANTE 16
El problema general de clasificación para dos
poblaciones

El problema es separar el espacio muestral  en


dos regiones R1 y R2 disjuntas tales que:

  R1  R2 , R1  R2  

En 
1 f2
f1

R1 R2

ANÁLISIS DISCRIMINANTE 17
El problema general de clasificación para dos
poblaciones

 Probabilidad de clasificar en 1 si viene de 1


P(1 | 1)   f1 ( x)dx
R1

 Probabilidad de clasificar en 1 si viene de  2


P(1 | 2)   f 2 ( x)dx
R1

 Probabilidad de clasificar en  2 si viene de 1


P(2 | 1)   f1 ( x)dx
R2

 Probabilidad de clasificar en  2 si viene de  2


P(2 | 2)   f 2 ( x)dx
R2

ANÁLISIS DISCRIMINANTE 18
El problema general de clasificación para dos
poblaciones

 p1 : probabilidad de que venga de 1


 p2 : probabilidad de que venga de  2

 P(clasificar correctamente en 1 ) = P(1 | 1)  p1

 P(clasificar incorrectamente en 1 ) = P(1 | 2)  p2

 P(clasificar correctamente en  2 ) = P(2 | 2)  p2

 P(clasificar incorrectamente en  2 ) = P(2 | 1)  p1

ANÁLISIS DISCRIMINANTE 19
El problema general de clasificación para dos
poblaciones

El objetivo es encontrar la mejor regla de clasificación,


que proporcionará las regiones que minimicen
el coste esperado por mala clasificación.
VIENE DE
1 2
CLASIFICAR EN

1 0 C(1&2)

2 C(2&1) 0

ANÁLISIS DISCRIMINANTE 20
El problema general de clasificación para dos
poblaciones

El coste esperado por mala clasificación para


dos regiones es:

CEMC  C(1& 2)  P(1 | 2)  p2  C(2 &1)  P(2 | 1)  p1

El objetivo es hallar dos regiones que minimicen el CEMC.

ANÁLISIS DISCRIMINANTE 21
El problema general de clasificación para dos
poblaciones
Teorema

Las regiones R1 y R2 que minimizan el coste esperado por


mala clasificación son:

 f1 ( x ) C (1 & 2) p2 
R1   x   p :   
 f2 ( x) C (2 & 1) p1 

 f1 ( x ) C (1 & 2) p2 
R2   x   p :   
 f2 ( x) C (2 & 1) p1 

ANÁLISIS DISCRIMINANTE 22
El problema general de clasificación para dos
poblaciones
Corolario

 f1 ( x ) C (1 & 2) 
 R1   x   p :  
 f2 ( x) C (2 & 1) 
p1 = p2 
 f1 ( x ) C (1 & 2) 
R2   x   p :  
 f2 ( x) C (2 & 1) 

 f1 ( x ) p2 
R1   x   p :  
  f2 ( x) p1 
C(1&2) = C(2&1)   f1 ( x ) p2 
R2   x   p :  
 f2 ( x) p1 

ANÁLISIS DISCRIMINANTE 23
El problema general de clasificación para dos
poblaciones

 f1 ( x ) 
R1   x   p :  1
 p1= p2 y C(1&2) = C(2&1)   f2 ( x) 
 f1 ( x ) 
R2   x   p :  1
 f2 ( x) 

ANÁLISIS DISCRIMINANTE 24
Clasificación para dos poblaciones normales

En este caso se conoce la función de densidad para


1 y  2 .
 X1 
 
Dada la variable X     y las dos poblaciones 1 y  2
con X 
 p
X ~ N p ( 1 , 1 )
X ~ N p (2 ,  2 ) ,

respectivamente, el objetivo es hallar


las dos regiones R1 y R2 que minimizan el CEMC.

ANÁLISIS DISCRIMINANTE 25
Clasificación para dos poblaciones normales

Teorema
Las regiones R1 y R2 que minimizan el CEMC son:
 1 
 x   :  x '  1   2  x    '1 1   '2  2  x  k  
p 1 1 1 1

 2 
R1   
  C (1&2) p  
 log   2

  C (2&1) p1  

 1 
 x   ;  X '  1   2  X    '1 1   '2  2  X  k  
p 1 1 1 1

 2 
R2   ,
  C (1&2) p2  
 log   

  C (2&1) p1  

1 1
   '1 11 1   '2  21 2  .
1
siendo k  log
2 2 2
ANÁLISIS DISCRIMINANTE 26
Clasificación para dos poblaciones normales

Observación

 Si 1  2 la regla de clasificación es cuadrática.


 Si 1  2 se obtienen las regiones:

  C (1&2) p2  
R1   x  :  1  2  '  x  k  log 
p 1
 
  C (2&1) p1  
  C (1&2) p2  
R2   x  :  1  2  '  x  k  log 
p 1
 
  C (2&1) p1  

ANÁLISIS DISCRIMINANTE 27
Clasificación para dos poblaciones normales

Si se considera C (1 & 2)  p2  1 , entonces se


C (2 & 1) p1

llega a la regla discriminante lineal de Fisher.

( 1  2 ) '  x    '1 11 1   '2  21 2   0


1 1
2

ANÁLISIS DISCRIMINANTE 28
Clasificación para dos poblaciones normales
Versión muestral

Dadas dos poblaciones 1 y  2 y las matrices de datos

Nota: no es necesario n1= n2

 X 11
(1) (1)
X 12  X 1(1p)   X 11
( 2) ( 2)
X 12  X 1(p2 ) 
 (1)   ( 2) 
 X 21 (1)
X 22  X2p 
(1)
 X 21 ( 2)
X 22  X2p 
( 2)

X (1)  X ( 2) 
   ,
         
 X n(11) X n(11 )2  X n(11 )p   X n( 21) X n( 222)  X n( 22p) 
 1  2

ANÁLISIS DISCRIMINANTE 29
Clasificación para dos poblaciones normales:
Versión muestral

estimando fˆ1 ( x) y fˆ2 ( x) , se tiene:


 fˆ1 ( x ) C (1 & 2) p2 

R1   x   p :   

 fˆ2 ( x ) C (2 & 1) p1 


 fˆ1 ( x ) C (1 & 2) p2 

R2   x   p :   

 fˆ2 ( x ) C (2 & 1) p1 

ANÁLISIS DISCRIMINANTE 30
Clasificación general para g poblaciones

 X1 
 
Sea la variable X     y las g poblaciones  1 ,  2 , g
X 
 p
siendo f1 ,  , f g sus respectivas funciones de densidad
y p1 ,  , p g las probabilidades a priori.

ANÁLISIS DISCRIMINANTE 31
Clasificación general para g poblaciones

El coste de clasificar en  i viniendo de  k es


C(i&k), siendo C(i&i) = 0, i  1,..., g.

Las g regiones en las se puede clasificar vienen


dadas por:

Ri   x  p : x se clasifica en  i 

ANÁLISIS DISCRIMINANTE 32
Clasificación general para g poblaciones

La probabilidad de clasificar en  k si viene de  i es

P(k | i )   f i ( x)dx ik


Rk

La probabilidad de clasificar en  i si viene de  i es

g
P(i | i)   f i ( x)dx  1   P(k | i) ik
Ri
k 1

ANÁLISIS DISCRIMINANTE 33
Clasificación general para g poblaciones

El objetivo es encontrar la mejor regla de clasificación,


que dará lugar a las regiones que hacen mínimo
el coste por mala clasificación.
VIENE DE

1
1
0
2
C(1&2)


g
C(1&g)


CLASIFICAR EN

 2 C(2&1) 0 C(2&g)

   
 g C(g&1) C(g&2)  0

ANÁLISIS DISCRIMINANTE 34
Clasificación general para g poblaciones

El coste esperado por mala clasificación dado que la


observación viene de  i es:
g
CEMC (i)   C (k & i ) p(k | i )
k 1
k i

En general, el coste esperado por mala clasificación


es:
g g
CEMC   C (k & i ) pi  f i ( x)dx
Rk
i 1 k 1
k i

ANÁLISIS DISCRIMINANTE 35
Clasificación general para g poblaciones

El CEMC también se puede escribir como:

g g
CEMC   C (k & i ) P (k | i ) pi
i 1 k 1
k i

ANÁLISIS DISCRIMINANTE 36
Clasificación general para g poblaciones

Teorema
El CEMC se minimiza asignando la observación x a la
población  k para la cual
g

 C (k & i ) p f ( x)
i 1
i i es mínima

Corolario
Si todos los costes de gclasificación son iguales, el CEMC
se minimiza cuando  p f ( x)
i 1
i i es mínima, es decir,
cuando se clasifica x en la población donde pk f k ( x)
es máxima.
ANÁLISIS DISCRIMINANTE 37
Clasificación general para g poblaciones

La región de puntos que se clasifican en la población i es

ANÁLISIS DISCRIMINANTE 38
Clasificación para g poblaciones normales

En este caso se conoce la función de densidad para


1,  2 , ,  g .

 X1 
 
Dada la variable X     y las g poblaciones  1 ,  2 , ,  g
con X 
 p
X ~ N p ( 1 , 1 )

X ~ N p (  g ,  g ),
respectivamente, el objetivo es hallar las g regiones
R1,R2 ,...,Rg que minimizan el CEMC.
ANÁLISIS DISCRIMINANTE 39
Clasificación para g poblaciones normales

La función de densidad en el caso normal para las


poblaciones  1 ,  2 , ,  g es:

f i ( x) 
1
exp  1
( x   ) '  i ( x  i ) ,
1

(2 ) p / 2 i
1/ 2 2 i

i  1, 2, ,g

Si los costes son iguales, hay que maximizar pi f i (x) .

ANÁLISIS DISCRIMINANTE 40
Clasificación para g poblaciones normales

Se clasifica x en  k si pk f k ( X )  max log pi f i ( x) ,


i 1,..., g
es decir, si:

log pk  2p log 2  12 log k  12 ( x  k ) '  k1 ( x  k ) 


 max pi fi ( x)
i 1,... g

ANÁLISIS DISCRIMINANTE 41
Clasificación para g poblaciones normales

Como las matrices de covarianzas son distintas, se


tiene una expresión cuadrática:
1 1
d ( x)  log pi  log  i  ( x   i )' i ( x   i )
Q 1
i
2 2
Score cuadrático de clasificación

Se clasifica x en  k si d kQ ( x)  max d iQ ( x)
i 1,... g

Nota: Si no hay probabilidades a priori, log pi = 0.

ANÁLISIS DISCRIMINANTE 42
Clasificación para g poblaciones normales
Versión muestral
 X1 
 
Sea X   y sean g poblaciones conocidas  1 ,  2 , ,  g
X 
.  p

g matrices de datos, de tamaños n1, n2,...,ng, no


necesariamente iguales:
 X 11
(1) (1)
X 12  X 1(1p)   X 11
(g) (g)
X 12  X 1(pg ) 
 (1)   (g) 
 X 21 (1)
X 22  X2p 
(1)
 X 21 (g)
X 22  X2p 
(g)
(1)
 ,, X (g)

  
X
         
 X n(11) X n(11 )2  X n(11 )p   X n( g1) X n( gg 2)  X n( ggp) 
 1  g

ANÁLISIS DISCRIMINANTE 43
Clasificación para g poblaciones normales
Versión muestral

Sean X 1 , X 2 ,, X g
S1 , S 2 ,  , S g
p1 , p2 ,  , p g

ANÁLISIS DISCRIMINANTE 44
Clasificación para g poblaciones normales
Versión muestral

La función de densidad estimada es:

f i ( x) 
1
exp  2
 1
( x  X ) ' S i ( x  X i ) ,
1

(2 ) p / 2 Si
1/ 2 i

i  1, 2, ,g
El score cuadrático de clasificación es:

dˆiQ ( x)  log pi  12 log Si  12 ( x  X i ) ' Si1 ( x  X i ).

Se clasifica x en  k si d kQ ( x)  max d iQ ( x) , es
i 1,... g
decir, si pk fˆk ( x)  pi fˆi ( x), i  k
ANÁLISIS DISCRIMINANTE 45
Clasificación para g poblaciones normales con
matrices de covarianzas iguales
Score lineal de clasificación
Nota:
si las matrices de covarianzas son:
•Iguales: caso lineal
•Distintas: caso cuadrático
Sean X ~ N p ( i , ), i  1,, g

Si todas las poblaciones tienen distribución normal, el


score cuadrático sería:

diQ  log pi  12 log   12 ( x  i )' 1 ( x  i )

ANÁLISIS DISCRIMINANTE 46
Clasificación para g poblaciones normales con
matrices de covarianzas iguales:
Score lineal de clasificación

Si  i  , desarrollando la forma cuadrática se


llega al score lineal de clasificación.

d i (xdi)  log pi  12 log   12 x ' 1 x  12 x ' 1 i  12  'i 1 x  12  'i 1 i .

ANÁLISIS DISCRIMINANTE 47
Clasificación para g poblaciones normales con
matrices de covarianzas iguales
Score lineal de clasificación

Para clasificar, hay que maximizar

1
di ( x)   'i  x   'i  1 i  lg pi .
1

2
Score lineal de clasificación

La regla de clasificación por tanto, es clasificar x en  k


si d k ( x)  max d i ( x)
i 1,... g

ANÁLISIS DISCRIMINANTE 48
Clasificación para g poblaciones normales con
matrices de covarianzas iguales
Versión muestral
 X1 
 
Sea la variable X     y las g poblaciones  1 ,  2 ,,  g
con distribuciones  X p 
estimadas
X ~ N p ( X 1 , S1 )

X ~ N p ( X g , S g ),

respectivamente. Si se estima con Si=S, el score lineal


de clasificación queda
ˆ 1
d i ( x)  x 'i S x  x 'i S 1 xi  log pi
1

2
Score lineal muestral de clasificación ANÁLISIS DISCRIMINANTE 49
Clasificación para g poblaciones normales con
matrices de covarianzas iguales
Versión muestral

La regla de clasificación es asignar x a  k si


dˆk ( x)  max dˆi ( x)
i 1,..., g

X i es el estimador de la media y S es el estimador


de :
(n1  1) S1  (n2  1) S 2    (ng  1) S g
S
n1  n2    ng  g

ANÁLISIS DISCRIMINANTE 50

También podría gustarte