Está en la página 1de 24

Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U.

de Cádiz

Análisis Discriminante R Fisher (1936)


R.

El análisis discriminante tiene como objetivo fundamental encontrar una


regla de clasificación de individuos u objetos en una serie de grupos
previamente establecidos y en base a unas características o variables
observadas sobre tales individuos

El análisis parte de una tabla de datos de n individuos para los que se ha


medido p variables cuantitativas independientes o “explicativas”. Se cuenta
además con una variable cualitativa qque asigna
g cada individuo a un grupo.
g p
Se trata de encontrar un criterio matemático para poder asignar un nuevo
individuo (del que se desconoce el valor de la variable cualitativa) al grupo
cuya pertenencia es más probable.
A
?
A, B, C B

C
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

A
B

Distancia de individuo a Población = Distancia de individuo a centroide de la población


Distancia entre Poblaciones = Distancia entre centroides de las Poblaciones

La clasificación puede hacerse desde distintas perspectivas que


que, en algunos
casos, dan lugar a la misma regla de decisión. La asunción de la normalidad
de las variables da lugar a una regla de decisión más “refinada”. Para la
interpretación intuitiva del modelo consideraremos el criterio geométrico y
solo dos grupos, si bien el modelo puede ser extendido con carácter más
general (utilizaremos software estadístico)
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Discriminante

Justificación intuitiva: caso de n = 2


P1 P2
Admitimos matriz de
covarianzas C común

M1= vector de medias M2= vector de medias


“centroide” de P1 “centroide” de P2

Dado un nuevo individuo w para el que hemos observado las p variables


( 1, w2,,…,, wp) decidiremos:
w=(w

• w es de P1 si D2(w, M1)< D2 (w,M2)


• w es de P2 si D2(w, M1)> D2(w, M2)

siendo D la distancia de Mahalanobis


Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Discriminante

Justificación intuitiva: caso de n = 2


Función discriminante de Fisher

Fisher propone transformar la observación multivariante w en una observación


univariante z, tal que los valores de z en cada una de las 2 poblaciones estén
l más
lo á separadosd posible
ibl para una mejorj discriminación.
di i i ió Para
P ello
ll sugiere
i
tomar la combinación lineal de las variables observadas:
F(w)  z  d1x1  d2 x2  .... d p xp
de tal forma que las medias de los valores de z obtenidos para valores de una
y otra población estén lo más separadas posibles
Regla de asignación
a) Si F(M1)<F(M)
M1  M 2 • w es de P1 si F(w)< F(M)
M • w es de P2 si
s F(w)>
( ) F(M)
( )
2
F (M1 )  F (M 2 ) b) Si F(M1)>F(M)
F (M )  • w es de P1 si F(w)> F(M)
2 • w es de P2 si F(w)< F(M)
Tanto el uso de la función discriminante de Fisher como el de la distancia
de Mahalanobis conducen al mismo criterio de decisión en la asignación
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Discriminante

j p caso n =2 y p =2
Ejemplo:
Consideremos individuos pertenecientes a dos poblaciones (rojos y azules)
para los que están medidos 2 variables. De acuerdo con lo anteriormente
explicado la función discriminante lineal dividirá al plano en dos semiplanos.
semiplanos
Se construye con los criterios ya señalados, de tal forma que la probabilidad
de asignar un nuevo individuo a la población correcta tenga la máxima
probabilidad

F ( w)  z  d1 x1  d 2 x2
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Ejemplo: caso n =2 y p =2
F ( w)  z  d1 x1  d 2 x2

w es de P si F(w)> F(M)
w es de P1 si F(w)< F(M)
P
2
M  M2 ? 2
M 1
2 P
1
M
2 M
M
1

z  d1 x1  d 2 x2
F(M)

La recta z se determina de forma que las proyecciones de los puntos queden


l más
lo á separadas
d posible
ibl
Todos los puntos cuyas proyecciones queden a la derecha de F(M) quedarían
asignados a la población 1
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Discriminante

Caso n=2 y p variables

Cuando consideremos p variables y 2 poblaciones, los datos corresponderán


a un espacio de dimensión p
p. En este caso
caso, la función discriminante

F ( w)  z  d1 x1  d 2 x2  ....  d p x p

Caso más general: n poblaciones

En este caso,, el número de funciones discriminantes que


q se necesitan es
K=mín (n-1, p) y el criterio de asignación es más complejo. El software
estadístico suministra procedimientos y algoritmos de discriminación y
g
asignación de un nuevo individuo a una población
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Podemos considerar 2 poblaciones: Europeo SI/NO

¿C las
¿Con l 10 variables
i bl consideradas
id d podríamos
dí clasificar
l ifi un país
í en Europeo
E SI/NO?
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Diagrama de Dispersión

40 EUROPEO SI/NO
0
1
30

Tasa Suicidios
20

10

0
0 2 4 6 8 10
Renta (X 10000,0)

Diagrama de Dispersión

15 EUROPEO SI/NO
0
1
12

asto Social Mayores


9

Ga 6

0
0 3 6 9 12 15
Camas Hospitalarias
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Función discriminante

Datos estandarizados Datos no estandarizados

Hay 1 función discriminante


porque hay 2 grupos

Ce t o des
Centroides
F (M ) = 2,33842 M = centroide grupo
0 0
países no europeos

F (M ) = -0.974342 M = centroide grupo


1 1
países europeos
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Discriminante

p
Capacidad predictiva
p de las variables

Hemos supuesto hasta ahora que las variables que deben intervenir en el
modelo del Análisis Discriminante están determinadas de antemano. En la
práctica
á seleccionaremos el menor número
ú posible de variables que tengan
la mayor capacidad de discriminación.

P
Procedimientos:
di i t

• Todas las variables: el análisis discriminante se lleva a cabo utilizando toda


la información disponible,
disponible es decir,
decir todas las variables
• Incorporación progresiva: se parte de una variable y se van incorporando
secuencialmente nuevas variables. Se para cuando incorporar una nueva
variable no aporta capacidad discriminante
• Eliminación progresiva: proceso inverso al anterior, eliminando en cada
paso a la variable que menos aporta a la discriminación
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Fichero OCDE Sólo utiliza 3 variables para discriminar:


*Gasto social mayores
Incorporación progresiva *Consumo de petróleo
*Emisión CO2

Estos serían los coeficientes de la función discriminante


en el caso de que los datos hubieran estado estandarizados.
Cuando los datos están estandarizados la función discriminante
no tiene término independiente (constante)
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Diagrama de Dispersión

18 EUROPEO SI/NO
0
1
15

Consumo Petrolleo
12

0
0 3 6 9 12 15
Gasto Social Mayores

Diagrama de Dispersión

EUROPEO SI/NO
0
1
(X 1000,0)
6
5
n CO2
Emision 4
3
2
1
18
0 15
12
9
0 3 6
6 3
9 12 15 0Consumo Petroleo
Gasto Social Mayores
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Discriminante

Estimación de la p
probabilidad de asignación
g correcta

Si consideramos los individuos wi de partida, de los que conocemos a qué


población pertenecen, el Análisis Discriminante permite hacer una auto-
evaluación
ó del procedimiento de la siguiente forma:
Se elimina un individuo wi del conjunto de datos y se le aplica el criterio
de asignación a una de las poblaciones. El proceso de repite con todos los
i di id
individuos wi y se contabiliza
t bili ell número
ú de
d aciertos
i t en lasl asignación
i ió de
d
población. La proporción de aciertos es una estimación de la probabilidad
de asignación correcta.

Extraer
x

Reasignar
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Predicción de clasificación de un nuevo individuo

Añadiríamos en la base de datos una nueva fila con los valores de las 10
Variables p
para un nuevo individuo (país),
(p ), dejando
j en blanco la variable
Europeo Si/No. Ejecutaríamos de nuevo el análisis discriminante y el
modelo predeciría si un país es europeo o no
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Discriminante

Ejemplo 1: Fichero Medifis


Análisis Discriminante
Variable de Clasificación: Sexo
Variables independientes: Diagrama de dispersión Diagrama de dispersión
Estatura
Peso 93 Sexo 46 Sexo
Pie 0 0
Lbrazo 83 1 44 1
Aespalda
Dcraneo 42
Drt Peso
73

Pie
40
63
38
Diagrama de dispersión 53
Sexo
36
0
1
43 34
46 150 160 170 180 190
44 150 160 170 180 190
42 Estatura Estatura
Pie

40
38
36 93
83
34 73
63
150160170 53
18019043 Peso
Estatura
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Discriminante

j p 1: Fichero Medifis
Ejemplo
La función de discriminación F es
Coeficientes de Función
-0,0881421*Estatura - 0,00587257*Peso + 0,650276*Pie
Discriminante para Sexo +0,134223*Lbrazo
+0 134223*Lbrazo + 0,123645*Aespalda
0 123645*Aespalda - 0,202388*Dcraneo
0 202388*Dcraneo +
0,101001*Drt -18,3945
Coeficientes No Estandarizados
-------------------------------
1 Grupos de Centroides para Sexo F(M0)=-1,58073
Estatura -0,0881421 F(M1)=1,97591
Peso -0,00587257 -------------------------------
Pie 0,650276 1
Lbrazo 0,134223 0 -1,58073
1 1,97591
Aespalda 0,123645 F (M 0 )  F (M 1 )
Dcraneo -0,202388 ------------------------------- F (M )   0,19759
Drt 0,101001 2
CONSTANTE -18,3945
------------------------------- Tabla de Clasificación
Actual Grupo Pronosticados Sexo
Sexo Tamaño 0 1
Asignación de nuevo individuo w: --------------------------------------------------------
Sustitución de los valores observados en 0 15 15
(100,00%)
0
( 0,00%)
la función discriminante.
discriminante 1 12 0 12
( 0,00%) (100,00%)
w es varón (1) si F(w)> 0,19759 --------------------------------------------------------
w es mujer (0) si F(w)< 0,19759 Porcentaje de casos correctamente clasificados: 100,00%
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Discriminante

Ejemplo 1: Fichero Medifis (Opción: incorporación progresiva/ selección hacia atrás)

La variable con mayor capacidad de discriminación es la variable pie.


pie
El resto de variables no aportan capacidad de discriminación significativa

En este caso, al considerar solo una


variable, hemos perdido ligeramente
capacidad de discriminación (96,30%)
(96 30%)
pero hemos ganado simplicidad en el
modelo
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Discriminante

j p 2: Fichero Flores Iris


Ejemplo
Diagrama de dispersión
Variable de Clasificación:
Especie 8 Especie
setosa
Variables independientes:

Long petalo
o
versicolor
6
Long sepalo virginica
Anch sepalo
4
Long petalo
Anch petalo 2

Número de casos completos: 95 0


Número de grupos: 3 4,3 5,3 6,3 7,3 8,3
Long sepalo

Diagrama de dispersión Diagrama de dispersión


Especie 4,4 Especie
setosa setosa
4

Anch sepalo
versicolor versicolor
8
ong petalo

virginica 3,6 virginica


6
3,2
4
2,8
2
4 4,4
44
A
Lo

0 3,6
3,2 2,4
2,8
4,3 5,3 6,3 7,3 2 2,4 2
8,3 Anch sepalo
Long sepalo 4,3 5,3 6,3 7,3 8,3
Long sepalo
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Discriminante

j p 2: Fichero Flores Iris


Ejemplo
Coeficientes de Función Discriminante Grupos de Centroides para Especie
para Especie -----------------------------------------------
Coeficientes No Estandarizados 1 2
----------------------------------------------- setosa -5
5,48198
48198 0
0,0776773
0776773
1 2 versicolor 5,16828 -0,436495
Long sepalo 0,519861 -1,70488 virginica 8,94343 0,996087
Anch sepalo -2,20416 1,80645
Long petalo 2,0736 -1,16575
Anch petalo 3
3,19269
19269 4
4,83554
83554
CONSTANTE -4,34553 2,93459
-----------------------------------------------
Gráfico de Funciones Discriminantes
4,8 Especie
setosa
versicolor
2,8
ción 2
virginica
Centroides
0,8
,
Func

-1,2

-3,2
32
-8 -4 0 4 8 12
Función 1
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Discriminante

j p 2: Fichero Flores Iris


Ejemplo
Tabla de Clasificación
Pronosticados
Especie Tamaño setosa versicolor virginica
------------------------------------------------------------------------
setosa 50 50 0 0
(100,00%) ( 0,00%) ( 0,00%)
versicolor 34 0 32 2
( 0,00%) ( 94,12%) ( 5,88%)
virginica
i i i 11 0 0 11
( 0,00%) ( 0,00%) (100,00%)
------------------------------------------------------------------------
Porcentaje de casos correctamente clasificados: 97,89%

Puede predecir observaciones adicionales agregando


nuevas filas al actual fichero de datos, rellenando los valores
para cada una de las variables independientes pero dejando
la celda para Especie en blanco.
Métodos Estadísticos Multivariantes Facultad de CC. Sociales y Comunicación U. de Cádiz

Análisis Discriminante

Ejemplo 2: Fichero Flores Iris (Opción: eliminación progresiva/ selección hacia atrás)

Se ha eliminado la información de la variable longitud del sépalo


por no aportar capacidad de discriminación significativa

En este caso el % de clasificados


correctamente es el mismo

También podría gustarte