Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Módulo 4 Análisis Discriminante y Componentes Principales
Módulo 4 Análisis Discriminante y Componentes Principales
Análisis de
Componente Principales
3
Identificar relaciones entre variables
numéricas
4
Análisis de Componente Principales
Es un método estadístico que permite simplificar la complejidad de espacios muestrales
con muchas dimensiones a la vez que conserva su información. Supóngase que existe una
muestra con ”n” individuos cada uno con ”p” variables (X1, X2, …, Xp), es decir, el
espacio muestral tiene ”p” dimensiones.
5
Análisis de Componente Principales
Pertenece a la familia de técnicas conocida como “unsupervised learning”.
Los métodos de “supervised learning” tienen el objetivo de predecir una variable respuesta Y
a partir de una serie de predictores.
6
Matriz de correlación
7
De 3 variables a 2 Componentes
Principales
8
De 5 variables a 2 Componentes
Principales
9
Número óptimo de componentes
principales
Por lo general, dada una matriz de datos de dimensiones n x p,
el número de componentes principales que se pueden calcular
es como máximo de n-1 o p (el menor de los dos valores es el
limitante). Sin embargo, siendo el objetivo del PCA reducir la
dimensionalidad, suelen ser de interés utilizar el número
mínimo de componentes que resultan suficientes para explicar
los datos.
11
Análisis Discriminante (LDA)
12
Análisis Discriminante (LDA)
13
Regla discriminante lineal de Fisher
Se trata de una función discriminante que sea una combinación lineal de las variables.
Con la finalidad de aplicar la función a un dato nuevo para saber a que clase pertenece.
l1 y l2 determinan la recta
14
El nuevo dato se clasifica dentro del grupo con la media más próxima en la proyección.
Por lo tanto:
El punto medio es:
μ2
Y=l’X Dada una nueva observación x0:
μY2 • Asignar x0 a π1 si
μ1
x0
m
l’x0
μY1
• Asignar x0 a π2 si
15
Regla de Fisher para 2 grupos con matriz de
covarianza iguales (∑1 =∑2)
El objetivo es encontrar una función lineal de las variables originales sobre la cual proyectar los
datos:
Dadas dos poblaciones y , se tienen las siguientes matrices de datos:
y sean:
16
Se desea:
• Maximizar la variabilidad entre grupos.
• Minimizar la variabilidad dentro de los grupos.
17
Análisis de componentes principales VS
Análisis discriminante lineal
PCA LDA
19
¡Gracias!