Está en la página 1de 76

Universidad Andrés Bello

Facultad de Ingenierı́a

TDFI105 - Minerı́a de Datos


Unidad 2 parte IV - Semana 5
Análisis de Componentes Principales (PCA)

Jean Paul Maidana, PhD

Viña del Mar, 3 de abril de 2024

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 1 / 51


Contenido

1 Unidad 2 - Preparación de la Información


Exploración de datos en muchas dimensiones (Motivación)
Reducción de Dimensionalidad
Hands on in Python
Hands on in R
Referencias

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 2 / 51


Contenido

1 Unidad 2 - Preparación de la Información


Exploración de datos en muchas dimensiones (Motivación)
Reducción de Dimensionalidad
Hands on in Python
Hands on in R
Referencias

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 3 / 51


Exploración de datos en muchas dimensiones
variamos:

Y=[0,1,2,1,1,0,2,0,...]
Supongamos que hacen un
experimento. observamos:

Varı́an una cantidad de variables X =


y luego miden diferentes [[ 5.1 3.5 1.4 0.2]
variables de salida. [ 4.9 3. 1.4 0.2]
[ 4.7 3.2 1.3 0.2]
En este ejemplo, cambiamos una [ 4.6 3.1 1.5 0.2]
variable, pero medimos cuatro. [ 5. 3.6 1.4 0.2]
[ 5.4 3.9 1.7 0.4]
[ 4.6 3.4 1.4 0.3]
[ 5. 3.4 1.5 0.2]
[ 4.4 2.9 1.4 0.2]
...
[ 4.8 3.4 1.6 0.2]
[ 4.8 3. 1.4 0.1]
[ 4.3 3. 1.1 0.1]]

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 4 / 51


Exploración de datos en muchas dimensiones
variamos:

Y=[0,1,2,1,1,0,2,0,...]
Supongamos que hacen un
experimento. observamos:

Varı́an una cantidad de variables X =


y luego miden diferentes [[ 5.1 3.5 1.4 0.2]
variables de salida. [ 4.9 3. 1.4 0.2]
[ 4.7 3.2 1.3 0.2]
En este ejemplo, cambiamos una [ 4.6 3.1 1.5 0.2]
variable, pero medimos cuatro. [ 5. 3.6 1.4 0.2]
[ 5.4 3.9 1.7 0.4]
Podrı́an suspechar que hay una [ 4.6 3.4 1.4 0.3]
estructura escondida en una [ 5. 3.4 1.5 0.2]
dimensión más pequeña que en [ 4.4 2.9 1.4 0.2]
estas cuatro dimensiones. ...
[ 4.8 3.4 1.6 0.2]
[ 4.8 3. 1.4 0.1]
[ 4.3 3. 1.1 0.1]]

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 4 / 51


Graficas los datos

X = [[ 5.1 3.5 1.4 0.2] [ 4.9 3. 1.4


Mirar solamente números es 0.2] [ 4.7 3.2 1.3 0.2] [ 4.6 3.1 1.5
aburrido. 0.2] [ 5. 3.6 1.4 0.2] [ 5.4 3.9 1.7 0.4]
[ 4.6 3.4 1.4 0.3] [ 5. 3.4 1.5 0.2] [
4.4 2.9 1.4 0.2] ... [ 4.8 3.4 1.6 0.2] [
4.8 3. 1.4 0.1] [ 4.3 3. 1.1 0.1]]

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 5 / 51


Graficas los datos
X

Mirar solamente números es


aburrido.
Las 4 dimensiones pueden ser
proyectadas, mostramos los 16
pares

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 5 / 51


X
Graficas los datos
X

1 ¿Cuál de estas proyecciónes es


buena?

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 7 / 51


Graficas los datos
X

1 ¿Cuál de estas proyecciónes es


buena?
2 ¿hay otras?, ¿posiblemente
mejores projecciones?

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 7 / 51


Graficas los datos
X

1 ¿Cuál de estas proyecciónes es


buena?
2 ¿hay otras?, ¿posiblemente
mejores projecciones?
3 ¿Qué variables están
involucradas en las mejores
proyecciones?

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 7 / 51


Análisis de Componentes Principales (PCA)

En la imagen de la derecha,
¿cuál es el eje más 6
importante?
4

44 2 0 2 4 6

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 8 / 51


Análisis de Componentes Principales (PCA)

En la imagen de la derecha,
¿cuál es el eje más 6
importante?
4
PCA modela los datos como un
elipsoide (elipse en dimensiones 2
mayor a 2)
0

44 2 0 2 4 6

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 8 / 51


Análisis de Componentes Principales (PCA)

En la imagen de la derecha,
¿cuál es el eje más 6
importante?
4
PCA modela los datos como un
elipsoide (elipse en dimensiones 2
mayor a 2)
PCA encuentra la dirección con 0
la mayor varianza (diámetro)
2

44 2 0 2 4 6

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 8 / 51


Análisis de Componentes Principales (PCA)

En la imagen de la derecha,
¿cuál es el eje más 6
importante?
4
PCA modela los datos como un
elipsoide (elipse en dimensiones 2
mayor a 2)
PCA encuentra la dirección con 0
la mayor varianza (diámetro)
La primera coordenada
2
corresponde se encuentra esta
44 2 0 2 4 6
dirección

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 8 / 51


Análisis de Componentes Principales (PCA)

En la imagen de la derecha,
¿cuál es el eje más 6
importante?
PCA modela los datos como un 4
elipsoide (elipse en dimensiones
mayor a 2) 2
PCA encuentra la dirección con
0
la mayor varianza (diámetro)
La primera coordenada 2
corresponde se encuentra esta
dirección 44 2 0 2 4 6
Continua la segunda, en el eje
ortogonal. . .

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 8 / 51


Análisis de Componentes Principales (PCA)

1 Encontrar la media
6

44 2 0 2 4 6

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 9 / 51


Análisis de Componentes Principales (PCA)

1 Encontrar la media
2 Restar la media 4

4 2 0 2 4

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 9 / 51


Análisis de Componentes Principales (PCA)

1 Encontrar la media
2 Restar la media 4
3 Modelar los datos como una 2
elipse
0

4 2 0 2 4

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 9 / 51


Análisis de Componentes Principales (PCA)

1 Encontrar la media
2 Restar la media 4
3 Modelar los datos como una 2
elipse
4 Rotar para alinear a los ejes 0
principales
2

4 2 0 2 4

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 9 / 51


Análisis de Componentes Principales (PCA)

1 Encontrar la media
2 Restar la media 4
3 Modelar los datos como una 2
elipse
4 Rotar para alinear a los ejes 0
principales
5 Proyectar los datos al primer eje 2
Notar los errores (pequeños)!
4

4 2 0 2 4

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 9 / 51


Análisis de Componentes Principales (PCA)

1 Encontrar la media
2 Restar la media 4
3 Modelar los datos como una
elipse 2
4 Rotar para alinear a los ejes
0
principales
5 Proyectar los datos al primer eje 2
Notar los errores (pequeños)!
6 Proyectar los datos en el 4
segundo eje
Notar el error (es mucho más 4 2 0 2 4
grande)!

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 9 / 51


Análisis de Componentes Principales (PCA)

1 Encontrar la media
2 Restar la media
3 Modelar los datos como una
elipse
4 Rotar para alinear a los ejes
principales
5 Proyectar los datos al primer eje
Notar los errores (pequeños)!
6 Proyectar los datos en el
segundo eje
Notar el error (es mucho más
grande)!
7 ...

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 9 / 51


PCA - Resumen
PCA proyecta los datos a los ejes con mayor varianza
Usualmente nos entregan una primera idea de nuestro conjunto de
datos
X

X̄ ← X − mean(X) X̄ ∈ Rn×N
W ← PCA(X̄, 2) W ∈ RN ×M
XPCA ← X̄ · W XPCA ∈ Rn×M

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 10 / 51


PCA - Resumen
PCA proyecta los datos a los ejes con mayor varianza
Usualmente nos entregan una primera idea de nuestro conjunto de
datos
XPCA
1.5
1.0
0.5
X̄ ← X − mean(X) X̄ ∈ Rn×N 0.0
W ← PCA(X̄, 2) W ∈ RN ×M 0.5
XPCA ← X̄ · W XPCA ∈ Rn×M 1.0
1.5
2.0 4 3 2 1 0 1 2 3 4 5

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 10 / 51


PCA - Resumen
PCA proyecta los datos a los ejes con mayor varianza
Usualmente nos entregan una primera idea de nuestro conjunto de
datos
XPCA
1.5
1.0
0.5
X̄ ← X − mean(X) X̄ ∈ Rn×N 0.0
W ← PCA(X̄, 2) W ∈ RN ×M 0.5
XPCA ← X̄ · W XPCA ∈ Rn×M 1.0
1.5
2.0 4 3 2 1 0 1 2 3 4 5
Identificar las variables más importantes en la matriz de proyección
W:
W = [[ 0.36 -0.08 0.85 0.35]
[-0.65 -0.72 0.17 0.07]]
Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 10 / 51
PCA - Resumen
PCA proyecta los datos a los ejes con mayor varianza
Usualmente nos entregan una primera idea de nuestro conjunto de
datos
XPCA
1.5
1.0
0.5
X̄ ← X − mean(X) X̄ ∈ Rn×N 0.0
W ← PCA(X̄, 2) W ∈ RN ×M 0.5
XPCA ← X̄ · W XPCA ∈ Rn×M 1.0
1.5
2.0 4 3 2 1 0 1 2 3 4 5
Identificar las variables más importantes en la matriz de proyección
W:
W = [[ 0.36 -0.08 0.85 0.35]
[-0.65 -0.72 0.17 0.07]]
Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 10 / 51
Reducción del ruido
Por lo general podemos explicar un alto
porcentaje de nuestros datos con el(los)
primer(os) eje(s)
Los ejes que explican un poco Xclean ← XPCA · W T + mean(X)
porcentaje de la varianza se eliminan
Proyectamos de vuelta en el espacio
original reduce el ruido.
X Xclean

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 11 / 51


Conjunto de datos IRIS

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 12 / 51


Conjunto de datos IRIS

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 13 / 51


Reducción de Dimensionalidad

¿Cómo visualizarı́a este conjunto de datos?

Sepal length Sepal width Petal length Petal width Class


5.1 3.5 1.4 0.2 Setosa
4.9 3.0 1.4 0.2 Setosa
7.0 3.2 4.7 1.4 Versicolor
6.4 3.2 4.5 1.5 Versicolor
6.3 2.9 5.6 1.8 Virginica
5.9 3.0 5.1 1.8 Virginica

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 14 / 51


Reducción de Dimensionalidad

Figura: Pair plot del conjunto de datos iris dataset

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 15 / 51


Reducción de Dimensionalidad

El número de este tipo de visualización de datos de n variables es


O(n2 )
La forma más sencilla de reducir la dimensionalidad es tomar
proyecciones aleatorias de los datos.
Aún cuando la proyección aleatoria permite cierto grado de
visualización de la estructura de datos, es probable que pierdan la
estructura más interesante dentro de los datos.

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 16 / 51


Reducción de Dimensionalidad

Figura: PCA del conjunto de datos IRIS, source: scikit-learn.org

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 17 / 51


Reducción de dimensionalidad

El procesamiento, con el reciente volumen de datos y más dimensiones, se


hace difı́cil y algunas dimensiones (variables, caracterı́sticas) pueden no ser
relevantes para todos los estudios de caso. La reducción de dimensiones
tiene los siguientes beneficios [Bhatia & Chiu, 2017]:
La reducción de funciones puede aumentar la eficiencia del procesa-
miento de datos, permitiendo un cálculo rápido.
Los datos se comprimirán, por lo que se requiere menor capacidad de
almacenamiento.
Mejora el rendimiento del modelo al eliminar los datos redundantes.
Desempeña un papel importante en la eliminación de ruido, mejorando
el rendimiento del modelo.
Mejora la visualización de los datos.

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 18 / 51


Reducción de dimensionalidad
La reducción de datos puede ser en número de columnas o en el número de
filas, para facilitar el análisis. Existen diferentes tipos de reducción de datos
[Aggarwal, 2015],
Muestreo de datos: los registros de los datos subyacentes se mues-
trean para crear una base de datos mucho más pequeña.

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 19 / 51


Reducción de dimensionalidad
La reducción de datos puede ser en número de columnas o en el número de
filas, para facilitar el análisis. Existen diferentes tipos de reducción de datos
[Aggarwal, 2015],
Muestreo de datos: los registros de los datos subyacentes se mues-
trean para crear una base de datos mucho más pequeña.
Selección de caracterı́sticas: solo un subconjunto de caracterı́sticas
de los datos subyacentes se utiliza en el proceso analı́tico (no supervi-
sado o supervisado).

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 19 / 51


Reducción de dimensionalidad
La reducción de datos puede ser en número de columnas o en el número de
filas, para facilitar el análisis. Existen diferentes tipos de reducción de datos
[Aggarwal, 2015],
Muestreo de datos: los registros de los datos subyacentes se mues-
trean para crear una base de datos mucho más pequeña.
Selección de caracterı́sticas: solo un subconjunto de caracterı́sticas
de los datos subyacentes se utiliza en el proceso analı́tico (no supervi-
sado o supervisado).
Reducción de datos con rotación del eje: Las correlaciones en los
datos se aprovechan para representarlos en un número menor de dimen-
siones. Ej: análisis de componentes principales (PCA), descomposición
de valor singular (SVD), análisis semántico latente (LSA).

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 19 / 51


Reducción de dimensionalidad
La reducción de datos puede ser en número de columnas o en el número de
filas, para facilitar el análisis. Existen diferentes tipos de reducción de datos
[Aggarwal, 2015],
Muestreo de datos: los registros de los datos subyacentes se mues-
trean para crear una base de datos mucho más pequeña.
Selección de caracterı́sticas: solo un subconjunto de caracterı́sticas
de los datos subyacentes se utiliza en el proceso analı́tico (no supervi-
sado o supervisado).
Reducción de datos con rotación del eje: Las correlaciones en los
datos se aprovechan para representarlos en un número menor de dimen-
siones. Ej: análisis de componentes principales (PCA), descomposición
de valor singular (SVD), análisis semántico latente (LSA).
Reducción de datos con transformación de tipos: esta forma de
reducción de datos está estrechamente relacionada con la portabili-
dad del tipo de datos. Ej: las series de tiempo se convierten en datos
multidimensionales de menor tamaño y menor complejidad mediante
transformaciones de ondı́culas discretas.
Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 19 / 51
Reducción de dimensionalidad
Algunos métodos utilizados [Bhatia & Chiu, 2017]:
Métodos lineales

Métodos no lineales

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 20 / 51


Reducción de dimensionalidad
Algunos métodos utilizados [Bhatia & Chiu, 2017]:
Métodos lineales
▶ Análisis de componentes principales (PCA): maximiza la varianza de
los datos en una representación de dimensión baja.

Métodos no lineales

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 20 / 51


Reducción de dimensionalidad
Algunos métodos utilizados [Bhatia & Chiu, 2017]:
Métodos lineales
▶ Análisis de componentes principales (PCA): maximiza la varianza de
los datos en una representación de dimensión baja.
▶ Escalado multidimensional (MDS): permite visualizar qué tan cerca
(proximidades de patrón) están los objetos entre sı́ y produce una repre-
sentación de los datos con un espacio de dimensión inferior.

Métodos no lineales

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 20 / 51


Reducción de dimensionalidad
Algunos métodos utilizados [Bhatia & Chiu, 2017]:
Métodos lineales
▶ Análisis de componentes principales (PCA): maximiza la varianza de
los datos en una representación de dimensión baja.
▶ Escalado multidimensional (MDS): permite visualizar qué tan cerca
(proximidades de patrón) están los objetos entre sı́ y produce una repre-
sentación de los datos con un espacio de dimensión inferior.
▶ Descomposición de valores singulares (SVD): elimina las caracterı́sti-
cas redundantes que están correlacionadas linealmente desde la perspec-
tiva del álgebra lineal.
Métodos no lineales

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 20 / 51


Reducción de dimensionalidad
Algunos métodos utilizados [Bhatia & Chiu, 2017]:
Métodos lineales
▶ Análisis de componentes principales (PCA): maximiza la varianza de
los datos en una representación de dimensión baja.
▶ Escalado multidimensional (MDS): permite visualizar qué tan cerca
(proximidades de patrón) están los objetos entre sı́ y produce una repre-
sentación de los datos con un espacio de dimensión inferior.
▶ Descomposición de valores singulares (SVD): elimina las caracterı́sti-
cas redundantes que están correlacionadas linealmente desde la perspec-
tiva del álgebra lineal.
Métodos no lineales
▶ ISOMAP: extensión de MDS que utiliza la métrica de distancia de las
distancias geodésicas.

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 20 / 51


Reducción de dimensionalidad
Algunos métodos utilizados [Bhatia & Chiu, 2017]:
Métodos lineales
▶ Análisis de componentes principales (PCA): maximiza la varianza de
los datos en una representación de dimensión baja.
▶ Escalado multidimensional (MDS): permite visualizar qué tan cerca
(proximidades de patrón) están los objetos entre sı́ y produce una repre-
sentación de los datos con un espacio de dimensión inferior.
▶ Descomposición de valores singulares (SVD): elimina las caracterı́sti-
cas redundantes que están correlacionadas linealmente desde la perspec-
tiva del álgebra lineal.
Métodos no lineales
▶ ISOMAP: extensión de MDS que utiliza la métrica de distancia de las
distancias geodésicas.
▶ Incrustación localmente lineal (LLE) realiza PCA local y descompo-
sición global propia; que implica seleccionar caracterı́sticas para cada
categorı́a de la caracterı́stica de clase.

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 20 / 51


Algunos conceptos estadı́sticos

Given a dataset X ∈ RN ×D
Media: X̄j = N1 N
P
i=1 Xij
Varianza: V ar(Xj ) = N1 N 2
P
i=1 (Xij − X̄i )
Covarianza: PN
1
Cov(Xi , Xk ) = Cov(Xk , Xi ) = N j=1 (Xij − X̄i )(Xkj − X̄k )

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 21 / 51


Covarianza

Figura: Covarianza positiva, negativa y cero

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 22 / 51


Matriz de Covarianza

La matriz de covarianza de X ∈ RN ×D
 
V ar(X1 ) Cov(X1 , X2 ) . . . Cov(X1 , XD )
 Cov(X2 , X1 ) V ar(X2 ) . . . Cov(X1 , XD )
Σ= .. .. .. (1)
 

 . . . ... 
Cov(XD , X1 ) Cov(XD , X2 ) . . . V ar(XD )

Para datos centrados: Σ = N1 XX T Donde X se reconstruye al


sustraer cada columna por su propia media Xi = Xi − X̄i .

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 23 / 51


Análisis de Componentes Principales (PCA)

Figura: Muestra de datos en 2D

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 24 / 51


Análisis de Componentes Principales (PCA)

Figura: Muestra de datos en 2D

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 25 / 51


Análisis de Componentes Principales (PCA)

Figura: Muestra de datos en 2D

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 26 / 51


Análisis de Componentes Principales (PCA)

Figura: Muestra de datos en 2D

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 27 / 51


Análisis de componentes principales

Requisitos:
los datos deben ser valores numéricos;
cualquier valor que falte en los datos debe eliminarse o imputarse; y
los datos numéricos deben estar estandarizados para que las carac-
terı́sticas sean comparables.

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 28 / 51


Análisis de componentes principales
Fortalezas y debilidades del PCA [Rhys, 2020]:

Fortalezas Debilidades

PCA crea nuevos ejes que El mapeo de dimensiones al-


son directamente interpreta- tas a dimensiones bajas no
bles en términos de las varia- puede ser no lineal.
bles originales. No puede manejar variables
Se pueden proyectar nuevos categóricas de forma nativa.
datos sobre los ejes principa- Debemos decidir el número
les. final de componentes princi-
PCA es realmente una trans- pales a retener para la apli-
formación matemática y, por cación en cuestión.
lo tanto, es computacional-
mente económico.

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 29 / 51


Análisis de Componentes Principales (PCA)

Desde el punto de vista algebraico, las componentes principales son


una forma particular de combinación lineal de D variables aleatorias
X1 , X2 , ..., XD .
Desde el punto de vista geométrico, estas combinaciones lineales
representan la selección de un nuevo sistema de coordenadas, que se
obtienen al rotar el sistema original.

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 30 / 51


Análisis de Componentes Principales (PCA)

Sea X ∈ RN ×D la matriz de datos original con N muestras y D


mediciones.
Considere las combinaciones lineales:

Y1 = w1T X = w11 X1 + w12 X2 + ... + w1D XD


Y2 = w2T X = w21 X1 + w22 X2 + ... + w2D XD
.. (2)
.
T
YD = wD X = wD1 X1 + wD2 X2 + ... + wDD XD

donde w ∈ RD×D

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 31 / 51


Análisis de Componentes Principales (PCA)

Un punto importante que hay que tener en cuenta es que la varianza de


cualquier combinación lineal puede ser estimada a partir de la matriz de
covarianza de los datos:
1 X
V ar(Yi ) = (Xj wi )2
N
j
1
= (Xwi )T (Xwi )
N
1 (3)
= wiT X T Xwi
N
XT X
= wiT wi
N
= wiT Σwi

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 32 / 51


Análisis de Componentes Principales (PCA)

Las componentes principales son las combinaciones lineales


Y1 , Y2 , ..., YD cuya varianza es lo más grande posible.
La primera componente principal: Combinación lineal w1T X que
maximiza V ar(w1T X) sujeta a la restricción ∥w1 ∥22 = 1
La segunda componente principal: Combinación lineal w2T X que
maximiza V ar(w2T X) sujeta a la restricción ∥w2 ∥22 = 1 yw2T w1 = 0
i-ésima componente principal: Combinación lineal wiT X que maximiza
V ar(wiT X) sujeto a la restricción ∥wi ∥22 = 1 y wiT wk = 0 para k < i

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 33 / 51


Primera Componente Principal (PC1)

Para la primera componente principal, debemos maximizar:

V ar(Y1 ) = w1T Σw1 (4)

sujeto a:
w1T w1 = 1 (5)

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 34 / 51


Primera Componente Principal (PC1)

Usando el funciónal de Lagrange:

L = w1T Σw1 + λ1 (1 − w1T w1 ) (6)

Tomando la derivada parcial de L con respecto a w1 , λ1 :



L(w1 , λ1 ) = 2Σw1 − 2λ1 w1 = 0 (7)
∂w1

L(w1 , λ1 ) = 1 − w1T w1 = 0 (8)
∂λ1

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 35 / 51


Primera Componente Principal (PC1)

De (7), se tiene que:


Σw1 = λw1 (9)
Lo cual implica que w1 es un vector propio de Σ y λ1 es el correspondiente
valor propio
Al multipicar cada lado de (9) por w1T , se obtiene:

w1T Σw1 = V ar(w1T X) = λ1 w1T w1 = λ1 (10)

Por lo tanto V ar(w1T X) se maximiza cuando λ1 es el valor propio más


grande de Σ.

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 36 / 51


Segunda Componente Principal (PC2)

Para la segunda componente principal, debemos maximizar:

V ar(Y2 ) = w2T Σw2 (11)

sujeto a:
w2T w2 = 1 (12)
w1T w2 = 0 (13)

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 37 / 51


Segunda Componente Principal (PC2)

El Lagrangiano del problema (11):

L = w2T Σw2 + λ2 (1 − w2T w2 ) + βw1T w2 (14)

Al tomar las derivadas parciales de L con respecto a w1 , λ1 , β:



L(w2 , λ2 , β) = 2Σw2 − 2λ2 w2 + βw1 = 0 (15)
∂w2

L(w2 , λ2 , β) = 1 − w2T w2 = 0 (16)
∂λ2

L(w2 , λ2 , β) = w1T w2 = 0 (17)
∂β

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 38 / 51


Segunda Componente Principal (PC2)

Al multiplicar cada lado de (15) con w1T :

2w1T Σw2 + β = 0
⇔ 2w1T Σw2 + β = 0
⇔ 2(Σw1 )T w2 + β = 0
⇔ 2λ1 w1T w2 + β = 0
⇒β=0

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 39 / 51


Segunda Componente Principal (PC2)

La ecuación (15) ahora es:

Σw2 = λ2 w2 (18)

Esto implica que w2 es un vector propio de Σ y λ2 es el


correspondiente valor propio.
Multiplicar cada lado de (9) con w2T , se obtiene:

w2T Σw2 = V ar(w2T X) = λ2 w2T w2 = λ2 (19)

Por lo tanto, V ar(w2T X) se maximiza cuando λ2 es el segundo valor


propio más grande de Σ.
La i-ésima componente principal se obtiene entonces del i-ésimo valor
propio más grande de Σ.

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 40 / 51


PCA paso a paso
1 Calcular la media de cada columna:
N
1 X
X̄i = Xij (20)
N
j=1

2 Sustraer la media:
Xi = Xi − X̄i (21)
3 Estimar la matriz de covarianza:
1
Σ= XX T (22)
N
4 Calcular los valor y vectores propios de Σ: (λ1 , w1 ), . . . , (λD , wD ),
λ1 > λ2 > . . . > λD
5 Tomar los K vectores propios asociados a los K valores propios más
grandes como una matriz: UK
6 Proyectar los datos originales con los vectores propios seleccionados:
T
X̃ = UK X (23)
Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 41 / 51
PCA paso a paso
Análisis de Componentes Principales (PCA)
1. Calcular el vector de medias 2. Substraer la media 3. Estimar la matriz de
e2
covarianza:
S = N1 X̂X̂T

e1 4. Calcular valores y
vectores propios de S:
(λ1 , u1 ), . . . , (λD , uD )
X X̂ Recordar la ortogonalidad
de ui .

7. Obtener los datos 6. Proyectar los datos en 5. Tomar K vectores pro-


proyectados (rojo) en una los vectores propios selec- pios (K valor propios ms
dimensin menor. cionados. grandes)
e2 e2
u1 u1

e2

u1
e1 e1

Z e1

Figura: Procedimiento PCA, Adaptado de machinelearningcoban.com

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 42 / 51


PCA paso a paso
Análisis de Componentes Principales (PCA)
1. Calcular el vector de medias 2. Substraer la media 3. Estimar la matriz de
e2
covarianza:
S = N1 X̂X̂T

e1 4. Calcular valores y
vectores propios de S:
(λ1 , u1 ), . . . , (λD , uD )
X X̂ Recordar la ortogonalidad
de ui .

7. Obtener los datos 6. Proyectar los datos en 5. Tomar K vectores pro-


proyectados (rojo) en una los vectores propios selec- pios (K valor propios ms
dimensin menor. cionados. grandes)
e2 e2
u1 u1

e2

u1
e1 e1

Z e1

Figura: Procedimiento PCA, Adaptado de machinelearningcoban.com

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 43 / 51


Autovectores y autovalores

Los autovectores y autovalores de una matriz de covarianza (o correla-


ción) representan el ”núcleo”de un PCA.
Los vectores propios (componentes principales) determinan las direccio-
nes del nuevo espacio de caracterı́sticas y los valores propios determinan
su magnitud.
Los valores propios explican la varianza de los datos a lo largo de los
nuevos ejes de caracterı́sticas.

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 44 / 51


Autovectores y autovalores

Autovalores y autovectores
Denotamos los autovalores de la matriz de varianza-covarianza como λj
con (j = 1, . . . , d) y λ1 ≥ λ2 ≥ · · · ≥ λd , los correspondientes autovectores
denotados por ϕ1 , ϕ2 , . . . , ϕd . La varianza del j-ésimo componente principal
es igual al j-ésimo valor propio:

V ar(P Cj ) = V ar(ϕj1 X1 + ϕj2 X2 + . . . + ϕjd Xd ) = λj (24)

Dada la matriz de covarianza C los autovalores se pueden obtener,

|C − λ⊮| = 0 (25)

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 45 / 51


Selección del número de PC

Proporción de varianza explicada


Identifica el número óptimo de PC a mantener en función de la
variabilidad total que nos gustarı́a tener en cuenta, y se calcula como
[Boehmke & Greenwell, 2020] para los m-ésimos PC:
Pn Pd 2
i=1 ( j=1 ϕjm xij )
PV E = Pd Pn (26)
2
j=1 i=1 xij

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 46 / 51


Hands on in Python

Revisar los siguientes Jupyter Notebooks:


01 Estadistica Multivariada.ipynb
02 Transformaciones Lineales.ipynb
03 Distribucion Normal Multivariada.ipynb
04 Componentes Principales.ipynb
05 Ejemplo PCA Diapositiva.ipynb

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 47 / 51


Hands on in R

Dentro del archivo:

PCA.R

podrán encontrar un script con un análisis similar al revisado en Python

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 48 / 51


Referencias

Aggarwal, C. (2015) Data Mining: The Textbook, Springer Interna-


tional Publishing Switzerland.
Boehmke, B. & Greenwell, B. (2020) Hands-On Machine Learning
with R, Taylor & Francis Group, LLC.
Bhatia, A. & Chiu, D. (2017) Machine learning with R cookbook:
analyze data and build predictive models, Second edition, Packt
Publishing Ltd., UK.
EMC Education Services (2015). Data Science and Big Data analy-
tics: Discovering, Analyzing, Visualizing and Presenting Data, 1st
Edition, John Wiley & Sons.

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 49 / 51


Referencias

Hernández, J., Ramı́rez, M. J., Ferri, C. (2004) Introducción a la


minerı́a de datos, Pearson Educación, Madrid. ISBN 84-205-4091-9
Johnson, R. A. (2012) Probabilidad y estadı́stica para ingenieros.
Octava Ed. México: Pearson, 557 p.
Montgomery, D. C., Peck, E. A. & Vining, G. G. (2006) Introducción
al análisis de regresión lineal. Tercera Reimpresión, México.
Rodrı́guez, D. E. & González, G. J. (2017) Principios de econometrı́a,
Fondo Editorial ITM.
Rhys, H. I. (2020) Machine Learning with R, the tidyverse, and
mlr, Manning Publications Co.

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 50 / 51


Agradecimientos

Propiedad intelectual
Algunos elementos sobre PCA presentados en esta diapositiva es de
propiedad de la Dra. Mailiu Dı́az Peña, coordinadora de la asignatura.

Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 51 / 51

También podría gustarte