Está en la página 1de 20

Módulo 4

Análisis de
Componente Principales

3
Identificar relaciones entre variables
numéricas

4
Análisis de Componente Principales
Es un método estadístico que permite simplificar la complejidad de espacios muestrales
con muchas dimensiones a la vez que conserva su información. Supóngase que existe una
muestra con ”n” individuos cada uno con ”p” variables (X1, X2, …, Xp), es decir, el
espacio muestral tiene ”p” dimensiones. 

PCA permite encontrar un número de factores subyacentes (z<p) que explican


aproximadamente lo mismo que las ”p” variables originales. Donde antes se
necesitaban ”p” valores para caracterizar a cada individuo, ahora bastan ”z” valores.
Cada una de estas ”z” nuevas variables recibe el nombre de componente principal.

5
Análisis de Componente Principales
Pertenece a la familia de técnicas conocida como “unsupervised learning”.

Los métodos de “supervised learning” tienen el objetivo de predecir una variable respuesta Y
a partir de una serie de predictores.

Para ello, se dispone de p características (X1, X2 … Xp) y de la variable respuesta Y medidas


en n observaciones.

En el caso de “unsupervised learning”, la variable respuesta Y no se tiene en cuenta ya que el


objetivo no es predecir Y sino extraer información empleando los predictores, por ejemplo,
para identificar subgrupos. El principal problema al que se enfrentan los métodos de
“unsupervised learning” es la dificultad para validar los resultados dado que no se dispone de
una variable respuesta que permita contrastarlos

6
Matriz de correlación

7
De 3 variables a 2 Componentes
Principales

8
De 5 variables a 2 Componentes
Principales

9
Número óptimo de componentes
principales
Por lo general, dada una matriz de datos de dimensiones n x p,
el número de componentes principales que se pueden calcular
es como máximo de n-1 o p (el menor de los dos valores es el
limitante). Sin embargo, siendo el objetivo del PCA reducir la
dimensionalidad, suelen ser de interés utilizar el número
mínimo de componentes que resultan suficientes para explicar
los datos.

No existe una respuesta o método único que permita


identificar cual es el número óptimo de componentes
principales a utilizar. Una forma de proceder muy extendida
consiste en evaluar la proporción de varianza explicada
acumulada y seleccionar el número de componentes mínimo a
partir del cual el incremento deja de ser sustancial.
10
Análisis Discriminante
Lineal

11
Análisis Discriminante (LDA)

Técnica estadística donde deseamos


pronosticar el grupo que pertenece
una observación, a partir de
características propias, que definen
el perfil de los datos que contamos.

12
Análisis Discriminante (LDA)

El objetivo es encontrar la función


que segmente a las grupos o ayuda
a discriminarlos, lo cual podría ser
una función lineal.

13
Regla discriminante lineal de Fisher
Se trata de una función discriminante que sea una combinación lineal de las variables.
Con la finalidad de aplicar la función a un dato nuevo para saber a que clase pertenece.

En el caso en que , se tiene:

Se busca una dirección correcta sobre


la cual proyectar los datos de los
grupos conocidos y de los que
queremos clasificar

l1 y l2 determinan la recta

14
El nuevo dato se clasifica dentro del grupo con la media más próxima en la proyección.

Por lo tanto:
El punto medio es:

μ2
Y=l’X Dada una nueva observación x0:

μY2 • Asignar x0 a π1 si
μ1
x0
m
l’x0
μY1
• Asignar x0 a π2 si

15
Regla de Fisher para 2 grupos con matriz de
covarianza iguales (∑1 =∑2)
El objetivo es encontrar una función lineal de las variables originales sobre la cual proyectar los
datos:
Dadas dos poblaciones y , se tienen las siguientes matrices de datos:

y sean:

16
Se desea:
• Maximizar la variabilidad entre grupos.
• Minimizar la variabilidad dentro de los grupos.

La regla lineal es:

Función discriminante lineal muestral de Fisher

que es óptima para clasificar entre las dos poblaciones.

El punto medio es:

17
Análisis de componentes principales VS
Análisis discriminante lineal
PCA LDA

Técnica no supervisada Técnica supervisada


Encuentra los componentes Aumenta la distancia entre clases y
Reduce dimensionalidad minimiza la distancia intraclase
18
Aplicaciones del Análisis Discriminante
(LDA)
• Clasificación de clientes de un banco según su nivel de riesgo en Alto, Medio y Bajo de
acuerdo a: ingreso, edad, nivel de educación, antigüedad en el trabajo y estado civil.

• Clasificación de restos óseos en una de dos especies similares ya descubiertas


anteriormente.

• Investigador deseas clasificar textos a varios escritores posibles teniendo como


variables la longitud de oraciones, frecuencia de palabras usadas.

19
¡Gracias!

También podría gustarte