Está en la página 1de 48

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

Universidad del Perú, DECANA DE AMERICA

FACULTAD DE CIENCIAS MATEMÁTICAS

11

ESCUELA PROFESIONAL DE ESTADÍSTICA


ANÁLISIS MULTIVARIANTE
Mg. María Estela Ponce Aruneri
mponcea@unmsm.edu.pe

SEMESTRE 2017 – II
Sesión 22 y 23
ANÁLISIS
DISCRIMINANTE
LINEAL DE FISHER
PARA DOS
POBLACIONES
INTRODUCCIÓN
Fisher en 1936 realizo un estudio para el esclarecimiento
de la taxonomía tradicional en la biología y antropología
física (clasificación de flores).

Tatsuoka y Tiedman en 1954, realizaron aplicaciones en


Pedagogía y Psicología, para averiguar que variables
caracterizan y discriminan a los estudiantes exitosos de
aquellos que fracasan al postular a un programa
educativo.

Klecka en 1973, aplica al estudio de intención de voto,


para determinar las variables que más inciden en la
decisión de a que partido político darle el voto.
3
OBJETIVOS

4
5
APLICACIONES

6
7
8
FASES DEL ESTUDIO

9
10
11
12
13
14
15
16
Para dos poblaciones bivariadas, se tiene:

17
18
19
20
21
22
23
Λ̂

24
25
26
27
ANÁLISIS
DISCRIMINANTE:
CASO DOS
POBLACIONES CON
DISTRIBUCIONES
CONOCIDAS
28
CLASIFICACIÓN GENERAL EN DOS
POBLACIONES CON DISTRIBUCIÓN CONOCIDA
 X1 
 . 
 
Dado el vector X . 
 
y dos poblaciones 1, 2
 . 
 X P 

Con: f1 la función de densidad de la primera población


y f2 la función de densidad de la segunda población
El objetivo es separar el espacio muestral  en dos
regiones R1 y R2 disjuntas tales que:

29
P(1 | 2)   f 2 ( x)dx
R1

P(2 | 1)   f1 ( x)dx P(2 | 2)   f 2 ( x)dx


R2 R2

30
30
▪ p1 : probabilidad de que pertenezca a 1
▪ p2 : probabilidad de que pertenezca a 2

▪ P(clasificar correctamente en 1 ) = P(1/1).p(1)


▪ P(clasificar incorrectamente en 1) = P(1/2).p(2)
▪ P(clasificar correctamente en 2) =P(2/2).p(2)
▪ P(clasificar incorrectamente en 2) = P(2/1).p(1)

Objetivo: encontrar la mejor regla de clasificación, que


proporcionará las regiones que minimicen el costo
esperado por mala clasificación.

31
31
Error de clasificación
(1 variable predictora / 2 grupos)

Grupo A
Grupo B
x

Valor de Corte

x
Valor de Corte

Valor de Corte

x 32
32
El coste esperado por mala clasificación para este caso
es:
CLASIFICAR EN:
1 2
La POBLACIÓN ES
1 0 C(2/1)

2 C(1/2) 0

CEMC  C (1/ 2)  P(1| 2)  p2  C (2 /1)  P(2 |1)  p1


33
33
REGLA DE CLASIFICACIÓN ÓPTIMA PARA
DOS POBLACIONES

Teorema

Las regiones R1 y R2 que minimizan el coste esperado


por mala clasificación son:

 f1 ( x) C (1/ 2) p2 
R1   x  p :  
 f 2 ( x) C (2 / 1) p1 
 f1 ( x) C (1/ 2) p2 
R2   x  p :  
 f 2 ( x) C (2 / 1) p1 

34
34
Corolario
1 Si p1 = p2 
 f1 ( x ) C (1 / 2) 
R1   x   p :  
 f 2 ( x) C (2 / 1) 
 f1 ( x ) C (1 / 2) 
R2   x   p :  
 f 2 ( x) C (2 / 1) 

2Si C (1 / 2)= C (2 / 1) 
 f1 ( x ) p2 
R1   x   p :  
 f 2 ( x) p1 
 f1 ( x ) p2 
R2   x   p :  
 f 2 ( x) p1 

Conocida como la regla de discriminación de Bayes o


discriminación con información a priori. 35
35
Cuando p1= p2 = ½ , el discriminador es óptimo.

3Si C (1 / 2)= C (2 / 1) y p1  p2 
 f1 ( x ) 
R1   x   p :  1
 f 2 ( x) 
 f1 ( x ) 
R2   x   p :  1
 f 2 ( x) 

Regla de discriminación máximo verosímil

36
36
CLASIFICACIÓN PARA DOS POBLACIONES NORMALES

Además de los supuestos mencionados se requiere las


siguientes condiciones:

1°Variables predictoras con distribución normal


multivariada; medidas en escala métrica.
2° Observaciones independientes.
3°La variable de grupo, debe ser verdaderamente
categórica.
4° Las medias de los grupos deben ser diferentes.

37
37
 X1 
 . 
 
Se tiene el vector X . 
 
 . 
 X P 

y se obtiene una matriz de datos X(1) de una población


que tiene Np(1,)
además se tiene otra matriz de datos X(2) de una
población que tiene Np(2,)

Objetivo: hallar dos regiones R1 y R2 que minimizan el CEMC.

38
38
Recordar que:

1
1   x-μ ' Σ-1  x-μ 
f ( x)  1/ 2
e 2

(2 ) p/2
Σ

 1    12  12 . . 1 p 
   
 2  21  22 . . 2p 
E ( x)  μ   .  y Cov( x)  Σ   . . . . . 
   
 .   . . . . . 
 p    p2 . .  p2 
   p1

39
39
Teorema:
Las regiones R1 y R2 que minimizan el CEMC son:

40
1 Σ1 1
k   ln    '1 11 1   '2  21 2  .
2 Σ2 2

Denominada regla de clasificación cuadrática.

41
Corolario

1º Si  1 = 2 se obtienen las regiones:

  C (1/ 2) p2  
R1   x  :  1  2  '  x  k  ln 
p 1
 
  C (2/1) p1  
  C (1/ 2) p2  
R2   x   :  1  2  '  x  k  ln 
p 1
 
 1 2
 C (2/1) p1  

k     '1  1 1   '2  1  2  .
1
2
42
42
2° Sí se cumple condición 1º y

C (1/ 2) p2
 1
C (2 /1) p1

( 1   2 ) '  x    '1  1 1   '2  1  2   0


1 1
2

Coincide con la regla discriminante lineal de Fisher.

43

43
CLASIFICACIÓN PARA DOS POBLACIONES
NORMALES : ESTIMACIONES

Dadas dos poblaciones 1 y 2 y las matrices de datos

Se estiman los vectores de las medias poblacionales y las


matrices de covarianzas poblacionales.

44
44
EJEMPLO

De una muestra de pacientes, se tiene las siguientes


variables: edad, peso, talla, atenuación de densidad ósea,
menarquia, edad de actividad laboral previa, según la
OMS las pacientes fueron clasificadas:

Determine las variables que tienen mayor influencia


en la presencia de osteopenia.
45
Ejercicio:

46
BIBLIOGRAFÍA

[1] MARDIA, KENT AND BIBBY. 1982. Multivariate


Analysis. Academic Press. London.

[2] MARTIN BILODAEU, DAVID BRENNER. 1999.


Theory of Multivariate Statistics. Springer Texts in
Statistics. Montreal. Canada.

[3]DANIEL PEÑA, 2002. Análisis de Datos


Multivariados. McGRAW-HILL/ Interamericana de
España.

[[4]JOHNSON, R.; WICHERN, D. 2014. Applied


Multivariate Statistical Analysis. Sixth Edition. Pearson
New International Edition.
[5]ALVIN C. RENCHER. 2012. Methods of Multivariate
Analysis. John Wiley & Sons, Inc. United States of
America.

[6]CHARLES M. CUADRAS, 2014. Nuevos Métodos de


Análisis Multivariante . CMC EDITIONS. España

También podría gustarte