Módulo 4 Análisis Discriminante y Componentes Principales

Módulo 4
Análisis de
Componente Principales
3
Identificar relaciones entre variables
numéricas
4
Análisis de Componente Principales
Es un método estadístico que permite simplificar la complejidad de espacios muestrales
con muchas dimensiones a la vez que conserva su información. Supóngase que existe una
muestra con ”n” individuos cada uno con ”p” variables (X1, X2, …, Xp), es decir, el
espacio muestral tiene ”p” dimensiones.
PCA permite encontrar un número de factores subyacentes (z<p) que explican

aproximadamente lo mismo que las ”p” variables originales. Donde antes se
necesitaban ”p” valores para caracterizar a cada individuo, ahora bastan ”z” valores.
Cada una de estas ”z” nuevas variables recibe el nombre de componente principal.
5
Análisis de Componente Principales
Pertenece a la familia de técnicas conocida como “unsupervised learning”.
Los métodos de “supervised learning” tienen el objetivo de predecir una variable respuesta Y
a partir de una serie de predictores.
Para ello, se dispone de p características (X1, X2 … Xp) y de la variable respuesta Y medidas

en n observaciones.
En el caso de “unsupervised learning”, la variable respuesta Y no se tiene en cuenta ya que el

objetivo no es predecir Y sino extraer información empleando los predictores, por ejemplo,
para identificar subgrupos. El principal problema al que se enfrentan los métodos de
“unsupervised learning” es la dificultad para validar los resultados dado que no se dispone de
una variable respuesta que permita contrastarlos
6
Matriz de correlación
7
De 3 variables a 2 Componentes
Principales
8
De 5 variables a 2 Componentes
Principales
9
Número óptimo de componentes
principales
Por lo general, dada una matriz de datos de dimensiones n x p,
el número de componentes principales que se pueden calcular
es como máximo de n-1 o p (el menor de los dos valores es el
limitante). Sin embargo, siendo el objetivo del PCA reducir la
dimensionalidad, suelen ser de interés utilizar el número
mínimo de componentes que resultan suficientes para explicar
los datos.
No existe una respuesta o método único que permita

identificar cual es el número óptimo de componentes
principales a utilizar. Una forma de proceder muy extendida
consiste en evaluar la proporción de varianza explicada
acumulada y seleccionar el número de componentes mínimo a
partir del cual el incremento deja de ser sustancial.
10
Análisis Discriminante
Lineal
11
Análisis Discriminante (LDA)
Técnica estadística donde deseamos

pronosticar el grupo que pertenece
una observación, a partir de
características propias, que definen
el perfil de los datos que contamos.
12
Análisis Discriminante (LDA)
El objetivo es encontrar la función

que segmente a las grupos o ayuda
a discriminarlos, lo cual podría ser
una función lineal.
13
Regla discriminante lineal de Fisher
Se trata de una función discriminante que sea una combinación lineal de las variables.
Con la finalidad de aplicar la función a un dato nuevo para saber a que clase pertenece.
En el caso en que , se tiene:
Se busca una dirección correcta sobre

la cual proyectar los datos de los
grupos conocidos y de los que
queremos clasificar
l1 y l2 determinan la recta
14
El nuevo dato se clasifica dentro del grupo con la media más próxima en la proyección.
Por lo tanto:
El punto medio es:
μ2
Y=l’X Dada una nueva observación x0:
μY2 • Asignar x0 a π1 si
μ1
x0
m
l’x0
μY1
• Asignar x0 a π2 si
15
Regla de Fisher para 2 grupos con matriz de
covarianza iguales (∑1 =∑2)
El objetivo es encontrar una función lineal de las variables originales sobre la cual proyectar los
datos:
Dadas dos poblaciones y , se tienen las siguientes matrices de datos:
y sean:
16
Se desea:
• Maximizar la variabilidad entre grupos.
• Minimizar la variabilidad dentro de los grupos.
La regla lineal es:
Función discriminante lineal muestral de Fisher
que es óptima para clasificar entre las dos poblaciones.
El punto medio es:
17
Análisis de componentes principales VS
Análisis discriminante lineal
PCA LDA
Técnica no supervisada Técnica supervisada

Encuentra los componentes Aumenta la distancia entre clases y
Reduce dimensionalidad minimiza la distancia intraclase
18
Aplicaciones del Análisis Discriminante
(LDA)
• Clasificación de clientes de un banco según su nivel de riesgo en Alto, Medio y Bajo de
acuerdo a: ingreso, edad, nivel de educación, antigüedad en el trabajo y estado civil.
• Clasificación de restos óseos en una de dos especies similares ya descubiertas

anteriormente.
• Investigador deseas clasificar textos a varios escritores posibles teniendo como

variables la longitud de oraciones, frecuencia de palabras usadas.
19
¡Gracias!

Módulo 4 Análisis Discriminante y Componentes Principales

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Módulo 4 Análisis Discriminante y Componentes Principales

Cargado por

Copyright:

Formatos disponibles

Módulo 4

PCA permite encontrar un número de factores subyacentes (z<p) que explican

Para ello, se dispone de p características (X1, X2 … Xp) y de la variable respuesta Y medidas

En el caso de “unsupervised learning”, la variable respuesta Y no se tiene en cuenta ya que el

No existe una respuesta o método único que permita

Técnica estadística donde deseamos

El objetivo es encontrar la función

En el caso en que , se tiene:

Se busca una dirección correcta sobre

La regla lineal es:

Función discriminante lineal muestral de Fisher

que es óptima para clasificar entre las dos poblaciones.

El punto medio es:

Técnica no supervisada Técnica supervisada

• Clasificación de restos óseos en una de dos especies similares ya descubiertas

• Investigador deseas clasificar textos a varios escritores posibles teniendo como

También podría gustarte