Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ACPDetallado
ACPDetallado
15 de julio de 2009
ii
This is page iii
Printer: Opaque this
Contents
1. Análisis en Componentes Principales (ACP) V
1. Los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi
2. El problema . . . . . . . . . . . . . . . . . . . . . . . . . . . vii
3. Cálculo de los factores y de las componentes principales . . viii
3.1. En el espacio de los individuos . . . . . . . . . . . . viii
4. En el espacio de las variables . . . . . . . . . . . . . . . . . xi
5. Equivalencia de los dos análisis – Relaciones de dualidad . . xii
6. Varianza explicada por cada eje . . . . . . . . . . . . . . . . xiv
7. Gráficos y su interpretación . . . . . . . . . . . . . . . . . . xvi
7.1. Representación de los individuos . . . . . . . . . . . xvi
7.2. Calidad de la representación de un individuo . . . . xvii
7.3. Las contribuciones de los individuos a la varianza totalxvii
7.4. Representación de las variables . . . . . . . . . . . . xviii
8. El Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . xx
8.1. Interpretación de la dualidad en los gráficos . . . . . xxii
iv
This is page v
Printer: Opaque this
Análisis en Componentes
Principales (ACP)
El Análisis de Componentes Principales (ACP) es una técnica proveniente
del análisis exploratorio de datos cuyo objetivo es la sı́ntesis de la informa-
ción, o reducción de la dimensión (número de variables). Es decir, ante una
tabla de datos con muchas variables, el objetivo será reducirlas a un menor
número perdiendo la menor cantidad de información posible. El ACP es
uno de los métodos más utilizados en Minerı́a de Datos en paı́ses como
Francia. Fue primeramente introducido por Pearson en 1901 y desarrolla-
do independientemente en 1933 por Hotelling y la primera implementación
computacional se dı́o en los años 60. Fue aplicado para analizar encuestas
de opinión pública por Jean Pages. Como ya se mencionó el objetivo es con-
struir un pequeño número de nuevas variables (componentes) en las cuales
se concentre la mayor cantidad posible de información, como se ilustra en
la Figura 1.
Los n individuos de una tabla de datos se pueden ver como una nube de
puntos en Rp , como se ilustra en la Figura 2-a, con su centro de gravedad
localizado en el origen, y lo que se busca es un subespacio q−dimensional L
de Rp , usualmente un plano (ver Figura 2-b), tal que la proyección ortogonal
de los n puntos sobre L (ver Figura 2-c) tienen varianza máxima, lo cual
permitirá el estudio de relaciones, clases, etc. entre los individuos (filas) de
vi 1. Análisis en Componentes Principales (ACP)
la tabla de datos.
1. Los datos
Se parte de una tabla de datos:
x11 ··· x1j ··· x1m
.. .. .. .. ..
.
. . . .
xi1
X= ··· xij ··· xim ←- individuo i
. .. .. .. ..
.. . . . .
xn1 ··· xnj ··· xnm
d11 ··· d1j ··· d1n
.. .. .. .. ..
.
. . . .
di1
D= ··· dij ··· xin
. .. .. .. ..
.. . . . .
dn1 ··· dnj ··· dnn
1. Análisis en Componentes Principales (ACP) vii
2. El problema
Se trata de sintetizar los datos contenidos en una tabla de datos X
en un conjunto más pequeño de nuevas variables C 1 , C 2 , . . . llamadas
componentes principales, manteniendo la información escencial de X.
C k = Xak ,
donde:
ak1
..
.
k
akj .
a =
.
..
akm
m
X
(akj )2 = 1.
j=1
cov(X i , X j )
vij = cov(X i , X j ) = = R(X i , X j ).
σX i σX j
max y t By
sujeto a y t Ay = 1
es el vector propio a1 de A−1 B de norma 1 asociado al valor propio más
grande β 1 .
Nota: Una matriz A es definida si para todo u ∈ Rm se tiene que ut Au > 0.
hi, a1 i 1
P (i, D1 ) = a ,
ka1 k
donde a1 = (a11 , a12 , . . . , a1m ) (es vector director de norma 1 del eje D1 ).
Entonces las coordenadas de la proyección del individuo i sobre el eje D1
son:
hi, a1 i
Ci1 =
ka1 k
= a11 xi1 + · · · + a12 xij , + · · · +, a1m xim
= Xa1 .
Del siguiente gráfico:
i
>
d(i, 0)
d(i, D1 )
- - D1
1
0| a{z }
Ci1
n
1X 1 2 1 1
(C ) = (C 1 )t C 1 = (a1 )t X t Xa1 .
n i=1 i n n
1
t
máx n a2 X t Xa2
( t
a2 a2 = 1
sujeto t
a2 a2 = 0
1
t
máx n ak X t Xak
( t
ak ak = 1
sujeto t
ak ak = 0 para r = 1, 2, . . . , k − 1
cuya solución es el vector propio asociado al k−ésimo valor propio más
grande de la matriz de V de varianzas–covarianzas.
Prueba.
1 j t 1 1
cov(C 1 , X j ) = (X ) C = (C 1 )t X j ,
n n
lo cual implica que:
1
cov2 (C 1 , X j ) = (C 1 )t X j (X j )t C 1 ,
n2
1
como var(C 1 ) = 1 t 1
n (C ) C y var(X j ) = 1, se tiene que:
cov2 (C 1 , X j ) (C 1 )t X j (X j )t C 1
R2 (C 1 , X j ) = 1 j
= ,
var(C )var(X ) n(C 1 )t C 1
entonces:
m Pm
X
2 1 j
(C 1 )t j
j=1 X (X ) C
j t 1
R (C , X ) = ,
j=1
n(C 1 )t C 1
Pm
como j=1 X j (X j )t = XX t , se tiene que:
m
X (C 1 )t XX t C 1
R2 (C 1 , X j ) = .
j=1
n(C 1 )t C 1
Pm
De modo que maximizar j=1 R2 (C 1 , X j ) es equivalente a maximizar la
siguiente expresión:
xii 1. Análisis en Componentes Principales (ACP)
(C 1 )t XX t C 1
,
n(C 1 )t C 1
entonces, aplicando el lema anterior, C 1 es el vector propio asociado al
valor propio más geande λ1 de la matriz n1 XX t .
Teorema 5 En la etapa k de un ACP se calcula una variable sintética
(eje) C k que resuma lo mejor posible las variables originales y que no
esté correlacionada las primeras k − 1 componentes principales (variables
sintéticas) ya calculadas, es decir, de tal manera que:
m
X
máx R2 (C k , X j )
j=1
sujeto R2 (C k , C r ) = 0 para r = 1, 2, . . . , k − 1
Entonces: C k es el vector propio de n1 XX t asociado al k−ésimo valor propio
más grande.
X t vk
uk = √ ,
nλk
es el k−ésimo vector propio de norma 1 asociado a λk de la matriz
1 t
n X X.
Xuk
vk = √ ,
nλk
1. Análisis en Componentes Principales (ACP) xiii
Prueba.
1 t
1. Sea vk el vector propio de norma 1 asociado λk de la matriz n XX ,
entonces por definición se tiene que:
1
XX t vk = λk vk ,
n
multiplicando por X t a ambos lados por la izquierda se tiene que:
1 t
X XX t vk = λk X t vk ,
n
lo cual es equivalente a:
1 t
(X X)(X t vk ) = λk (X t vk ),
n
aplicando de nuevo la definición de valor propio se tiene que:
1 t
λk es un valor propio de la matriz n X X.
X t vk es el vector propio de la matriz n1 X t X asociado al valor
propio λk .
entonces:
p
kX t vk k = nλk ,
por lo que:
X t vk
uk = √ ,
nλk
1 t
es un vector propio de norma 1 de la matriz nX X asociado al valor
propio λk .
2. Tarea.
xiv 1. Análisis en Componentes Principales (ACP)
Prueba.
1 t
1. Sea λk el k-ésimo valor propio de la matriz n X X, entonces por
definición se tiene que:
1 t
X Xvk = λk vk ,
n
multiplicando por X a ambos lados se tiene que:
1
XX t Xvk = λk Xvk ,
n
como se sabe que Xvk = C k (la componente k-ésima), entonces:
1
XX t C k = λk C k ,
n
1 t
lo cual implica que λk el k-ésimo valor propio de la matriz n XX ,
asociado al vector propio C k .
2. Tarea.
Prueba. Del álgebra lineal se sabe que la suma de valores propios de una
matriz es igual a la suma de los elementos de la diagonal de dicha matriz,
es decir, es igual a la traza de la matriz. Además, como X está centrada y
reducida n1 X t X = R, de donde:
m
X 1 t
λk = Tr X X = Tr(R),
n
k=1
entonces:
1. Análisis en Componentes Principales (ACP) xv
1 0 ··· 0
Xm 0 1 ··· 0
λk = Tr = m.
..
k=1
0 0 . 0
0 0 ··· 1 m×m
n
1X k 2
(C ) ,
n i=1 i
como:
n
1X k 2 1
(C ) = (ak )t X t Xak = (ak )t λk ak = λk .
n i=1 i n
Como:
m
X
λk = m,
k=1
se tiene que:
λk
= % de la varianza explicada por el eje C k = % de INERCIA.
m
λ1 + λ 2
.
m
xvi 1. Análisis en Componentes Principales (ACP)
7. Gráficos y su interpretación
7.1. Representación de los individuos
Recordemos que para calcular las coordenadas de un individuos se tiene
que (La matriz X se supone centrada y reducida):
1
C s = Xas donde as es el vector propio de R = t
nX X asociado a λs .
De donde:
m
X
Cis = Xij asj
j=1
Análogamente:
1
C r = Xar donde ar es el vector propio de R = t
nX X asociado a λr .
De donde:
m
X
Cir = Xij arj
j=1
s1 − X̄ 1 sm − X̄ m
s̃ = ,..., ,
σ1 σm
donde X̄ j es la media de la columna j−ésima de la matriz X. En-
tonces las coordenadas se calculan como sigue:
m
X
Cis = s̃j asj
j=1
1. Análisis en Componentes Principales (ACP) xvii
(Cir )2
m = % del individuo i representado en el eje r.
X
(Xij )2
j=1
n
1X r 2
(C ) = λr .
n i=1 i
1 r 2
(C )
n i
xviii 1. Análisis en Componentes Principales (ACP)
(Cir )2
= % de contribución del individuo i a la formación del eje r.
nλr
R(X j , C r ),
m
X
R2 (X j , C k ) = 1
k=1
R2 (X j , C s ) + R2 (X j , C r ) 6 1.
1
donde ar es el r−ésimo vector propio de R = t
nX X asociado a λr .
1. Análisis en Componentes Principales (ACP) xix
cov(X j , C r )
R(X j , C r ) = ,
σX j σC r
Como la tabla X está reducida σ X j = √ 1. Además se sabe que la
varianza del eje C r es λr , es decir, σ C r = λr , entonces se tiene que:
cov(X j , C r ) cov(X j , C r )
R(X j , C r ) = = √ .
σX j σC r λr
Entonces:
R(X 1 , C r )
..
.
R(X j , C r ) = √1 X t C r = √1 X t Xar = √1 λr ar = λr ar .
p
n λ n λr λr
.. r
.
R(X m , C r )
es decir:
n
X
Ris = Zij asj
j=1
R2 (X 1 , C 1 ) · · · R2 (X 1 , C r ) R2 (X 1 , C m )
···
.. .. .. ..
2 .j 1
. ··· . .
S=
R (X , C ) · · · R2 (X j , C r ) ··· 2 j
R (X , C ) m
.. .. .. .. ..
. . . . .
R2 (X m , C 1 ) · · · R2 (X m , C r ) · · · R2 (X m , C m )
y1 −ȳ
σy
y2 −ȳ
c
σy
y =
..
.
yn −ȳ
σy
8. El Algoritmo
V = [υ 1 |υ 2 | · · · |υ m ]
C =X ·V
(Ci,r )2
Qir = m para i = 1, 2, . . . , n; r = 1, 2, . . . , m.
X
(Xij )2
j=1
√ √ √
λ1 v1,1 ··· λr v1,r ··· λm v1,m
.. .. .. ..
√ . . √··· . √ .
=
λ1 vj,1 ··· λr vj,r ··· λm vj,m
.. .. .. .. ..
.
√ . . √ . √ .
λ1 vm,1 ··· λr vm,r ··· λm vm,m
xxii 1. Análisis en Componentes Principales (ACP)
λ1 λ2 λm
I = (100 · , 100 · , . . . , 100 · )
m m m
INTERPRETACIÓN