Está en la página 1de 68

2

P
Problema de clasificacin: Tnemos observaciones que
corresponden a 2 grupos P_1, P_2. Si nos dan uno nuevo
x_0 a que grupo pertenece?
1
P
Tema 2: Anlisis Discriminante
Guin
1. Motivacin
2. Clasificacin con la distancia de Mahalanobis
3. Clasificacin con la funcin discriminante de Fisher
4. Evaluacin de la clasificacin
5. Clasificacin usando informacin previa (teora de la decisin)
6. Clasificacin penalizando errores
Ejemplos de Problemas de clasificacin
Ingenieria: (Pattern Recognition) Reconocer sonidos, clasificar
Billetes o monedas, clasificar cartas segn cdigo postal
Biologia:
P1 Setosa
P2 Versicolor
P3 Virginica
P1 Larva Nauplius
P2 Larva Metanauplius
P1 Tortugas Hembra
P2 Tortugas Macho
Medicina:
P1 Paciente sano
P2 Paciente Enfermo
Mas ejemplos
Asignar un texto de Procedencia desconocida a un
autor
Cuadro falso/autntico
Persona votante de un partido u otro
Clasificar SPAM en el correo electrnico
Enfoque 1: Clasificacin via
Mahalanobis
Contexto: 2 Poblaciones P1 y P2 con sus respetivos vectores
de medias que llamamos m1 y m2 y
sus respectivas matrices de varianzas covarianzas S1 y S2
1
2 1
0 1 0 1 1 0 1
( , ) ( ) ( )
M
d x m x m S x m

=
2
2 1
0 2 0 2 2 0 2
( , ) ( ) ( )
M
d x m x m S x m

=
Regla de clasificacin
1 2
2 2
0 1 0 2
( , ) ( , )
M M
d x m d x m <
0 1
se clasifica en P x
0 1
x P e
Caso sencillo
1 2
S S S = =
1 1
0 1 0 1 0 2 0 2
( )' ( ) ( )' ( ) x m S x m x m S x m

<
1 2
0
' ' ( )
2
m m
w x w
+
- < -
1
2 1
( ) w S m m

=
Vector Discriminante
Regla de clasificacin es lineal . La regin lmite forma
un hiperplano en un espacio de P dimensiones
Distribucin normal multivariantes
Ejemplo con datos normales
' w x - =
La proyeccin de x en la direccin dada por
w
La regin limite no es lineal!
Nota sobre muestra y poblaciones
, son los valores que corresponden a toda la poblacin E
m y S son los valores que calculamos dependientes de la
muestra
w
S S
n
n
S
n
n
=

= E
2
2
1
1
2
1
2
1

Estimador de
La varianza=
Matriz
Intragrupos
Combinada
2 1
hipotesis la aceptamos Si E = E
En la practica
) ( ) (

1 2
1
1 2
1
x x S m m S w
w w
= =

Estimacin del vector discriminante
=Sano
=Enfermo
Y Finalmente la estimacin para el
vector discriminante!
Enfoque de Fisher
Idea de Fisher: Busca la direccin que separe lo mas posible
la distancia de las dos poblaciones. La mejor proyeccin de los
Datos. El mejor vector a
Maximizamos la variabilidad entre los grupos
y a la vez minimizamos la variabilidad comn.
a a
x a x a
E
'
- -
2 1
Derivando
cte m m a E =

) (
1 2
1
El SPSS elige una constante dando lugar a lo que se llama el
vector discriminante cannico
e e ) (

1 2
x x w - =
Constante de centralizacin
0
e
Mas notacin
Puntuacin Discriminante cannica
0
e e+ - x
Centroides
e e - -
2 1
, x x
Intuitivamente x pertenece a la poblacin 1 si est mas cerca
del centroide 1. Es decir si su puntuacin discriminante es ms
cercana a la del centroide 1 que la del centroide
2
| | | |
2 1
x x x x - - < - - e e e e
Funcin discriminante
Ventajas del enfoque de Fisher
El vector discriminante nos da una indicacin de
que variables tienen mas poder Discriminante, pero
cuidado esto tiene sentido si las variables estn tipificadas!
EVALUAMOS EL ERROR
Tasa de error aparente
Idea: Usar la regla de clasificacin para evaluar los datos que ya sabemos a
que grupo pertenecen y ver cuanto acertamos
Muestra de Entrenamineto
Total de mal clasificados
100
n
TEA=
Problema. Este mtodo subestima el error real ya que los datos que son clasi
ficados intervienen en la regla de clasificacin . Se les usa dos veces
Notacin
Tipos de Errores
(1| 2) e
Individuo que pertenece
a P2 seclasifica en P1
(2 | 1) e
Individuo que pertenece
a P1 seclasifica en P2
Una solucin: Tasa de Validacin cruzada
Se deja una observacin fuera de las n y se clasifica con la regla que tiene en
Cuenta los otros datos. Por pasos
1. Omitimos un dato y generamos una regla de clasificacion con los n
restantes (Ejemplo vector discriminante de Fisher)
2. Clasificamos la observacin apartada
3. Repetimos (1) y (2) con cada uno de los datos
Total de mal clasificados
100
n
TEA=
Tasa de error valoracin cruzada
1 2
Sobre la hiptesis E = E
Cundo decidimos si es cierta?
Test M-Box Contraste de hiptesis
0 1 2
1 1 2
:
:
H
H
E = E
E = E
SPSS
p-valor
Si el p-valor es pequeo se acepta H1
El p-valor en este test SPSS lo llama Sig
Qu hacer si no son iguales?
Opcin 1: Usar la distancia de Mahalanobis (Poblaciones
Normales Ok)
Opcin 2: Proyectar en la misma direccin discriminante
Pero hallar la distancia estandarizada por las varianzas
Distintas de los grupos
Nota: SPSS no hace validacin cruzada en este caso
Clasificacin incorporando informacin previa
Contexto: Consideramos 2 poblaciones P1 y P2 pero una es mucho
Mas frecuente que otra (mas probable que otra) .
1 1 2 2
1 2
( ) , ( )
1
P P P P t t
t t
= =
+ =
Ejemplo: La primera poblacin es mucho mas grande que la segunda.
Cmo se hace cuantitativo?
Criterio de mxima verosimilitud
1 0 2 0
( | ) se compara con ( | ) P P x P P x
Depende de la distribucin de P1 y de P2. Por la regla de Bayes se
se reduce a
1 1 0 2 2 0
( ) ( ) f x f x t t >
Funcin de
Densidad en
P1
Funcin de
Densidad en
P2
1 2 2
0
1
( ) ( )
2
x x
w x w Ln
t
t
+
- < -
Nueva regla de clasificacin
Distribuciones normales con
Varianzas Covarianzas iguales
Tipos de Probabilidad previa
1 2
1 0.5 Caso t t = =
1 2
1 2
1 2 1 2
2 ,
n n
Caso
n n n n
t t = =
+ +
Distintos tamaos
poblacionales
Consecuencias
Motivacin : No todos los errores son iguales!
Solucin : Introducir costes
Ejemplos : Medicina, Maquina expendedora
(1| 2), (2 | 1) c c
Coste de clasificar en
P1 un elemento de P2
Coste de clasificar en
P2 un elemento de P1
Nota: El coste puede ser algo artificial. Porque unos errores los queremos
Cometer menos que otros
Minimizamos costes
Regla: Clasificamos el nuevo dato x de manera
que minimizemos el Coste esperado
1 1 0 2 2 0
(2 | 1) ( ) (1| 2) ( ) c f x c f x t t >
Distribuciones normales con matrices de varianzas covarianzas
iguales
Nueva regla de clasificacin
1 2 2
0
1
(1| 2)
( ) ( )
2 (2 | 1)
x x c
w x w Ln
c
t
t
+
- < -
Nota: SPSS no sabe incluir costes ni otra informacion previa
Importante: !Este calculo se hace con el vector discriminante w
no con el que da el SPSS!
Mas de dos poblaciones
Enfoque de Mahalanobis
Enfoque de Fisher
Enfoque de Mahalanobis
Dado un nuevo dato, se le asigna a la poblacin cuyo vector de medias
Este mas cercano. i.e
M
d
1 2
2 2
0 1 0 2
( , ) ( , )
M M
d x m d x m <
1 3
2 2
0 1 0 3
( , ) ( , )
M M
d x m d x m <
Y
0 1
x P e
Enfoque de Fisher
Si tenemos tres poblaciones buscamos la
mejor proyeccin en
Dos variables de manera que tenemos
2 puntuaciones discriminantes,
2 funciones discriminantes cannicas
Centroides con dos coordenadas
Si tenemos n variables tenemos n-1 de
todo lo dems!
Si elegimos 2 variables al azar las variables no estan muy bien separadas
Las puntuaciones discriminantes si estan muy
bien separadas
Regla de clasificacin: Se calcula la puntuacion discriminante del nuevo
Dato y se verifica de que centroide esta mas cerca
Enfoque de Fisher
Dado un nuevo dato, se le asigna a la poblacin cuyo centroide
Este mas cercano. i
M
d
0 1 0 2
| ( ) ( ) | | ( ) ( ) | P x P x P x P x <
Y
0 1
x P e
0 1 0 3
| ( ) ( ) | | ( ) ( ) | P x P x P x P x <

También podría gustarte