12° Semana Analisis Multivariante

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
Universidad del Perú, DECANA DE AMERICA
FACULTAD DE CIENCIAS MATEMÁTICAS
11
ESCUELA PROFESIONAL DE ESTADÍSTICA

ANÁLISIS MULTIVARIANTE
Mg. María Estela Ponce Aruneri
mponcea@unmsm.edu.pe
SEMESTRE 2017 – II
Sesión 22 y 23
ANÁLISIS
DISCRIMINANTE
LINEAL DE FISHER
PARA DOS
POBLACIONES
INTRODUCCIÓN
Fisher en 1936 realizo un estudio para el esclarecimiento
de la taxonomía tradicional en la biología y antropología
física (clasificación de flores).
Tatsuoka y Tiedman en 1954, realizaron aplicaciones en

Pedagogía y Psicología, para averiguar que variables
caracterizan y discriminan a los estudiantes exitosos de
aquellos que fracasan al postular a un programa
educativo.
Klecka en 1973, aplica al estudio de intención de voto,

para determinar las variables que más inciden en la
decisión de a que partido político darle el voto.
3
OBJETIVOS
4
5
APLICACIONES
6
7
8
FASES DEL ESTUDIO
9
10
11
12
13
14
15
16
Para dos poblaciones bivariadas, se tiene:
17
18
19
20
21
22
23
Λ̂
24
25
26
27
ANÁLISIS
DISCRIMINANTE:
CASO DOS
POBLACIONES CON
DISTRIBUCIONES
CONOCIDAS
28
CLASIFICACIÓN GENERAL EN DOS
POBLACIONES CON DISTRIBUCIÓN CONOCIDA
 X1 
 . 
 
Dado el vector X . 
 
y dos poblaciones 1, 2
 . 
 X P 
Con: f1 la función de densidad de la primera población

y f2 la función de densidad de la segunda población
El objetivo es separar el espacio muestral  en dos
regiones R1 y R2 disjuntas tales que:
29
P(1 | 2)   f 2 ( x)dx
R1
P(2 | 1)   f1 ( x)dx P(2 | 2)   f 2 ( x)dx

R2 R2
30
30
▪ p1 : probabilidad de que pertenezca a 1
▪ p2 : probabilidad de que pertenezca a 2
▪ P(clasificar correctamente en 1 ) = P(1/1).p(1)

▪ P(clasificar incorrectamente en 1) = P(1/2).p(2)
▪ P(clasificar correctamente en 2) =P(2/2).p(2)
▪ P(clasificar incorrectamente en 2) = P(2/1).p(1)
Objetivo: encontrar la mejor regla de clasificación, que

proporcionará las regiones que minimicen el costo
esperado por mala clasificación.
31
31
Error de clasificación
(1 variable predictora / 2 grupos)
Grupo A
Grupo B
x
Valor de Corte
x
Valor de Corte
Valor de Corte
x 32
32
El coste esperado por mala clasificación para este caso
es:
CLASIFICAR EN:
1 2
La POBLACIÓN ES
1 0 C(2/1)
2 C(1/2) 0
CEMC  C (1/ 2)  P(1| 2)  p2  C (2 /1)  P(2 |1)  p1

33
33
REGLA DE CLASIFICACIÓN ÓPTIMA PARA
DOS POBLACIONES
Teorema
Las regiones R1 y R2 que minimizan el coste esperado

por mala clasificación son:
 f1 ( x) C (1/ 2) p2 
R1   x  p :  
 f 2 ( x) C (2 / 1) p1 
 f1 ( x) C (1/ 2) p2 
R2   x  p :  
 f 2 ( x) C (2 / 1) p1 
34
34
Corolario
1 Si p1 = p2 
 f1 ( x ) C (1 / 2) 
R1   x   p :  
 f 2 ( x) C (2 / 1) 
 f1 ( x ) C (1 / 2) 
R2   x   p :  
 f 2 ( x) C (2 / 1) 
2Si C (1 / 2)= C (2 / 1) 
 f1 ( x ) p2 
R1   x   p :  
 f 2 ( x) p1 
 f1 ( x ) p2 
R2   x   p :  
 f 2 ( x) p1 
Conocida como la regla de discriminación de Bayes o

discriminación con información a priori. 35
35
Cuando p1= p2 = ½ , el discriminador es óptimo.
3Si C (1 / 2)= C (2 / 1) y p1  p2 
 f1 ( x ) 
R1   x   p :  1
 f 2 ( x) 
 f1 ( x ) 
R2   x   p :  1
 f 2 ( x) 
Regla de discriminación máximo verosímil
36
36
CLASIFICACIÓN PARA DOS POBLACIONES NORMALES
Además de los supuestos mencionados se requiere las

siguientes condiciones:
1°Variables predictoras con distribución normal

multivariada; medidas en escala métrica.
2° Observaciones independientes.
3°La variable de grupo, debe ser verdaderamente
categórica.
4° Las medias de los grupos deben ser diferentes.
37
37
 X1 
 . 
 
Se tiene el vector X . 
 
 . 
 X P 
y se obtiene una matriz de datos X(1) de una población

que tiene Np(1,)
además se tiene otra matriz de datos X(2) de una
población que tiene Np(2,)
Objetivo: hallar dos regiones R1 y R2 que minimizan el CEMC.
38
38
Recordar que:
1
1   x-μ ' Σ-1  x-μ 
f ( x)  1/ 2
e 2
(2 ) p/2
Σ
 1    12  12 . . 1 p 
   
 2  21  22 . . 2p 
E ( x)  μ   .  y Cov( x)  Σ   . . . . . 
   
 .   . . . . . 
 p    p2 . .  p2 
   p1
39
39
Teorema:
Las regiones R1 y R2 que minimizan el CEMC son:
40
1 Σ1 1
k   ln    '1 11 1   '2  21 2  .
2 Σ2 2
Denominada regla de clasificación cuadrática.
41
Corolario
1º Si  1 = 2 se obtienen las regiones:
  C (1/ 2) p2  
R1   x  :  1  2  '  x  k  ln 
p 1
 
  C (2/1) p1  
  C (1/ 2) p2  
R2   x   :  1  2  '  x  k  ln 
p 1
 
 1 2
 C (2/1) p1  
k     '1  1 1   '2  1  2  .
1
2
42
42
2° Sí se cumple condición 1º y
C (1/ 2) p2
 1
C (2 /1) p1
( 1   2 ) '  x    '1  1 1   '2  1  2   0

1 1
2
Coincide con la regla discriminante lineal de Fisher.
43
43
CLASIFICACIÓN PARA DOS POBLACIONES
NORMALES : ESTIMACIONES
Dadas dos poblaciones 1 y 2 y las matrices de datos
Se estiman los vectores de las medias poblacionales y las

matrices de covarianzas poblacionales.
44
44
EJEMPLO
De una muestra de pacientes, se tiene las siguientes

variables: edad, peso, talla, atenuación de densidad ósea,
menarquia, edad de actividad laboral previa, según la
OMS las pacientes fueron clasificadas:
Determine las variables que tienen mayor influencia

en la presencia de osteopenia.
45
Ejercicio:
46
BIBLIOGRAFÍA
[1] MARDIA, KENT AND BIBBY. 1982. Multivariate

Analysis. Academic Press. London.
[2] MARTIN BILODAEU, DAVID BRENNER. 1999.

Theory of Multivariate Statistics. Springer Texts in
Statistics. Montreal. Canada.
[3]DANIEL PEÑA, 2002. Análisis de Datos

Multivariados. McGRAW-HILL/ Interamericana de
España.
[[4]JOHNSON, R.; WICHERN, D. 2014. Applied

Multivariate Statistical Analysis. Sixth Edition. Pearson
New International Edition.
[5]ALVIN C. RENCHER. 2012. Methods of Multivariate
Analysis. John Wiley & Sons, Inc. United States of
America.
[6]CHARLES M. CUADRAS, 2014. Nuevos Métodos de

Análisis Multivariante . CMC EDITIONS. España

12° Semana Analisis Multivariante

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

12° Semana Analisis Multivariante

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

Universidad del Perú, DECANA DE AMERICA

FACULTAD DE CIENCIAS MATEMÁTICAS

ESCUELA PROFESIONAL DE ESTADÍSTICA

Tatsuoka y Tiedman en 1954, realizaron aplicaciones en

Klecka en 1973, aplica al estudio de intención de voto,

Con: f1 la función de densidad de la primera población

P(2 | 1)   f1 ( x)dx P(2 | 2)   f 2 ( x)dx

▪ P(clasificar correctamente en 1 ) = P(1/1).p(1)

Objetivo: encontrar la mejor regla de clasificación, que

CEMC  C (1/ 2)  P(1| 2)  p2  C (2 /1)  P(2 |1)  p1

Las regiones R1 y R2 que minimizan el coste esperado

Conocida como la regla de discriminación de Bayes o

Regla de discriminación máximo verosímil

Además de los supuestos mencionados se requiere las

1°Variables predictoras con distribución normal

y se obtiene una matriz de datos X(1) de una población

Objetivo: hallar dos regiones R1 y R2 que minimizan el CEMC.

Denominada regla de clasificación cuadrática.

1º Si  1 = 2 se obtienen las regiones:

( 1   2 ) '  x    '1  1 1   '2  1  2   0

Coincide con la regla discriminante lineal de Fisher.

Dadas dos poblaciones 1 y 2 y las matrices de datos

Se estiman los vectores de las medias poblacionales y las

De una muestra de pacientes, se tiene las siguientes

Determine las variables que tienen mayor influencia

[1] MARDIA, KENT AND BIBBY. 1982. Multivariate

[2] MARTIN BILODAEU, DAVID BRENNER. 1999.

[3]DANIEL PEÑA, 2002. Análisis de Datos

[[4]JOHNSON, R.; WICHERN, D. 2014. Applied

[6]CHARLES M. CUADRAS, 2014. Nuevos Métodos de

También podría gustarte