Está en la página 1de 17

Dimensionality

Reduction
Representación de los Datos
• Aprender la mejor representación de los datos.
• Una representación que preserve la mayor cantidad
de información como sea posible.
• Una representación más simple que la original.

Dimensionality Reduction
Formas de Representar los Datos
Existen diferentes formas de representar los datos de
una manera mucho más simple:
• Low-dimensional representation
• Sparse representation
• Independent representation

Dimensionality Reduction
Reducción de Dimensionalidad
• Comprimir la información eliminando información
redundante.
• Permite la visualización de la distribución de datos
cuando la dimensionalidad es mayor a 3.

Dimensionality Reduction
Principal Component Analysis (PCA)
• Aprende una representación de menor dimensión y
que no posee correlación lineal entre sus elementos.
• Comprime la información eliminando información
redundante.
• Permite la visualización de la distribución de datos
cuando la dimensionalidad es mayor a 3.
Principal Component Analysis
• Aprende una transformación lineal y ortogonal de los
datos, en donde la entrada 𝐗 es proyectada como
una nueva representación 𝐳 de menor dimensión.

Images are CC0 public domain

Principal Component Analysis


PCA Algorithm
Considerando que los datos son representados como una
m×n
matriz 𝐗 ∈ ℝ y asumiendo que los datos fueron
normalizados, es decir 𝔼 𝐱 = 0.
1 T
1. 𝚺= 𝐗 𝐗 Matriz de Covarianza
n
2. 𝐔, 𝐒, 𝐕 = svd(𝚺) Eigenvectores 𝐔, Decomposición de valores singulares

3. ෡
𝐳=𝐔 𝐗 T
Proyección de dimensión reducida m × k

෡ T esta formada por la primeras k columnas de la matriz 𝐔.


En donde, 𝐔
Principal Component Analysis
Preprocesamiento

𝐱𝟏
1 (𝑖)
𝐗 ∈ ℝ3×n , 𝐗 = 𝐱 𝟐 , 𝛍𝑗 = σn𝑖=1 𝐱𝑗
Principal Component Analysis 𝐱𝟑
n
Normalización

𝐱𝟏
𝐗 ∈ ℝ3×n , 𝐗 = 𝐱 𝟐 , 𝐱𝑗 = 𝐱𝑗 − 𝛍𝑗
Principal Component Analysis 𝐱𝟑
Matriz de Covarianza

1 T 0.68 −0.04 1.27


𝚺 = 𝐗 𝐗 = −0.04 0.19 −0.32
Principal Component Analysis n
1.27 −0.32 3.09
Descomposición de Valores Singulares

−0.39 −0.64 −0.66


𝐔, 𝐒, 𝐕 = svd 𝚺 , 𝐔 = 0.09 −0.74 0.66
Principal Component Analysis −0.92 0.20 0.35
Descomposición de Valores Singulares

−0.39 −0.64
෡ = 0.09 −0.74
k = 2 dimensiones, 𝐔
Principal Component Analysis −0.92 0.20
Proyección ortogonal

෡ T𝐗
𝐳=𝐔
Principal Component Analysis
Proyección ortogonal

Principal Component Analysis


Principal Componen Analysis (PCA)
• Para reconstruir los datos a partir de una
representación de menor dimensión

෩=𝐔
𝐗 ෡𝒛

• Múltiples técnicas disponibles en scikit-learn 0.22.

Principal Component Analysis

También podría gustarte