Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Facultad de Ingenierı́a
Y=[0,1,2,1,1,0,2,0,...]
Supongamos que hacen un
experimento. observamos:
Y=[0,1,2,1,1,0,2,0,...]
Supongamos que hacen un
experimento. observamos:
En la imagen de la derecha,
¿cuál es el eje más 6
importante?
4
44 2 0 2 4 6
En la imagen de la derecha,
¿cuál es el eje más 6
importante?
4
PCA modela los datos como un
elipsoide (elipse en dimensiones 2
mayor a 2)
0
44 2 0 2 4 6
En la imagen de la derecha,
¿cuál es el eje más 6
importante?
4
PCA modela los datos como un
elipsoide (elipse en dimensiones 2
mayor a 2)
PCA encuentra la dirección con 0
la mayor varianza (diámetro)
2
44 2 0 2 4 6
En la imagen de la derecha,
¿cuál es el eje más 6
importante?
4
PCA modela los datos como un
elipsoide (elipse en dimensiones 2
mayor a 2)
PCA encuentra la dirección con 0
la mayor varianza (diámetro)
La primera coordenada
2
corresponde se encuentra esta
44 2 0 2 4 6
dirección
En la imagen de la derecha,
¿cuál es el eje más 6
importante?
PCA modela los datos como un 4
elipsoide (elipse en dimensiones
mayor a 2) 2
PCA encuentra la dirección con
0
la mayor varianza (diámetro)
La primera coordenada 2
corresponde se encuentra esta
dirección 44 2 0 2 4 6
Continua la segunda, en el eje
ortogonal. . .
1 Encontrar la media
6
44 2 0 2 4 6
1 Encontrar la media
2 Restar la media 4
4 2 0 2 4
1 Encontrar la media
2 Restar la media 4
3 Modelar los datos como una 2
elipse
0
4 2 0 2 4
1 Encontrar la media
2 Restar la media 4
3 Modelar los datos como una 2
elipse
4 Rotar para alinear a los ejes 0
principales
2
4 2 0 2 4
1 Encontrar la media
2 Restar la media 4
3 Modelar los datos como una 2
elipse
4 Rotar para alinear a los ejes 0
principales
5 Proyectar los datos al primer eje 2
Notar los errores (pequeños)!
4
4 2 0 2 4
1 Encontrar la media
2 Restar la media 4
3 Modelar los datos como una
elipse 2
4 Rotar para alinear a los ejes
0
principales
5 Proyectar los datos al primer eje 2
Notar los errores (pequeños)!
6 Proyectar los datos en el 4
segundo eje
Notar el error (es mucho más 4 2 0 2 4
grande)!
1 Encontrar la media
2 Restar la media
3 Modelar los datos como una
elipse
4 Rotar para alinear a los ejes
principales
5 Proyectar los datos al primer eje
Notar los errores (pequeños)!
6 Proyectar los datos en el
segundo eje
Notar el error (es mucho más
grande)!
7 ...
X̄ ← X − mean(X) X̄ ∈ Rn×N
W ← PCA(X̄, 2) W ∈ RN ×M
XPCA ← X̄ · W XPCA ∈ Rn×M
Métodos no lineales
Métodos no lineales
Métodos no lineales
Given a dataset X ∈ RN ×D
Media: X̄j = N1 N
P
i=1 Xij
Varianza: V ar(Xj ) = N1 N 2
P
i=1 (Xij − X̄i )
Covarianza: PN
1
Cov(Xi , Xk ) = Cov(Xk , Xi ) = N j=1 (Xij − X̄i )(Xkj − X̄k )
La matriz de covarianza de X ∈ RN ×D
V ar(X1 ) Cov(X1 , X2 ) . . . Cov(X1 , XD )
Cov(X2 , X1 ) V ar(X2 ) . . . Cov(X1 , XD )
Σ= .. .. .. (1)
. . . ...
Cov(XD , X1 ) Cov(XD , X2 ) . . . V ar(XD )
Requisitos:
los datos deben ser valores numéricos;
cualquier valor que falte en los datos debe eliminarse o imputarse; y
los datos numéricos deben estar estandarizados para que las carac-
terı́sticas sean comparables.
Fortalezas Debilidades
donde w ∈ RD×D
sujeto a:
w1T w1 = 1 (5)
sujeto a:
w2T w2 = 1 (12)
w1T w2 = 0 (13)
2w1T Σw2 + β = 0
⇔ 2w1T Σw2 + β = 0
⇔ 2(Σw1 )T w2 + β = 0
⇔ 2λ1 w1T w2 + β = 0
⇒β=0
Σw2 = λ2 w2 (18)
2 Sustraer la media:
Xi = Xi − X̄i (21)
3 Estimar la matriz de covarianza:
1
Σ= XX T (22)
N
4 Calcular los valor y vectores propios de Σ: (λ1 , w1 ), . . . , (λD , wD ),
λ1 > λ2 > . . . > λD
5 Tomar los K vectores propios asociados a los K valores propios más
grandes como una matriz: UK
6 Proyectar los datos originales con los vectores propios seleccionados:
T
X̃ = UK X (23)
Jean Paul Maidana (UNAB) Minerı́a de Datos TDFI105 / 2024-1 41 / 51
PCA paso a paso
Análisis de Componentes Principales (PCA)
1. Calcular el vector de medias 2. Substraer la media 3. Estimar la matriz de
e2
covarianza:
S = N1 X̂X̂T
e1 4. Calcular valores y
vectores propios de S:
(λ1 , u1 ), . . . , (λD , uD )
X X̂ Recordar la ortogonalidad
de ui .
e2
u1
e1 e1
Z e1
e1 4. Calcular valores y
vectores propios de S:
(λ1 , u1 ), . . . , (λD , uD )
X X̂ Recordar la ortogonalidad
de ui .
e2
u1
e1 e1
Z e1
Autovalores y autovectores
Denotamos los autovalores de la matriz de varianza-covarianza como λj
con (j = 1, . . . , d) y λ1 ≥ λ2 ≥ · · · ≥ λd , los correspondientes autovectores
denotados por ϕ1 , ϕ2 , . . . , ϕd . La varianza del j-ésimo componente principal
es igual al j-ésimo valor propio:
|C − λ⊮| = 0 (25)
PCA.R
Propiedad intelectual
Algunos elementos sobre PCA presentados en esta diapositiva es de
propiedad de la Dra. Mailiu Dı́az Peña, coordinadora de la asignatura.