Documentos de Académico
Documentos de Profesional
Documentos de Cultura
C
1 urso 2010/2011
1 / 52
C
2 urso 2010/2011
2 / 52
Esquema
1
Introduccin
PCA dentro del anlisis multivariante
Objetivo del PCA
Introduccin
Tcnicas multivariantes
Consideremos un conjunto de objetos sobre los que se mide una serie de propiedades diferentes. Estudio ptimo? Uso de tcnicas multivariantes, las cuales permiten realizar un anlisis
simultneo de todos los objetos y sus propiedades (ver Tema 6).
Qu hacer?
8
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
<
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
:
objeto #1
objeto #2
.
.
.
objeto #n
propiedad #1
y11
y21
.
.
.
yn1
propiedad #2
y12
y22
.
.
.
yn2
...
...
...
.
.
.
...
...
...
...
.
.
.
...
propiedad #p
y1p
y2p
.
.
.
ynp
Introduccin
C
3 urso 2010/2011
4 / 52
Tradicionalmente los astrnomos tienden a representar los parmetros medidos uno frente a otro,
tratando de inferir conclusiones a partir de las correlaciones observadas. Esta tcnica es inviable
cuando el nmero de parmetros representados es superior a 4 5.
Tema 9: Anlisis de componentes principales
Anlisis
(PCA)
de ()
datos y Estadstica Avanzada
C
4 urso 2010/2011
6 / 52
Introduccin
C
5 urso 2010/2011
8 / 52
Aproximacin geomtrica
Como ya vimos en su da, en el trabajo dentro del rea del anlisis multivariante resulta
extremadamente til utilizar lgebra matricial.
objeto #1
objeto #2
.
..
objeto #i
.
.
.
objeto #n
medias
propiedad #1
y11
y21
.
..
yi1
.
.
.
yn1
y1
propiedad #2
y12
y22
.
..
yi2
.
.
.
yn2
y2
...
...
...
.
..
...
.
.
.
...
...
...
...
...
.
..
...
.
.
.
...
...
propiedad #p
y1p
y2p
.
..
yip
.
.
.
ynp
yp
Curso
6
2010/2011
10 / 52
Aproximacin geomtrica
A travs del PCA vamos a determinar los ejes naturales de la distribucin de puntos (i.e.,
los ejes del elipsoide), cuyo origen se encuentra en y, el vector medio de y1 , y2 , . . . , yn .
Esto se realiza restando y y calculando la rotacin que minimice la suma de distancias a
los ejes (maximice la proyeccin de los datos sobre los mismos ejes).
Tema 9: Anlisis de componentes principales
Anlisis
(PCA)
de ()
datos y Estadstica Avanzada
Curso
7
2010/2011
11 / 52
Aproximacin geomtrica
B
C,
Sz = ASA = B .
.
.
.
. C
@ ..
.
. A
2
0
0
. . . szp
donde S es la matriz muestral de covarianzas de y.
(Puede demostrarse que una matriz simtrica S puede ser diagonalizada empleando una matriz ortogonal que contenga los autovectores normalizados de S, y la matriz diagonal resultante
contiene los autovalores asociados.)
Tema 9: Anlisis de componentes principales
Anlisis
(PCA)
de ()
datos y Estadstica Avanzada
Curso
8
2010/2011
12 / 52
Aproximacin geomtrica
Curso
9
2010/2011
13 / 52
Aproximacin geomtrica
Reduccin de la dimensionalidad
Como los autovalores son varianzas de las componentes principales,
podemos definir la proporcin de varianza explicada por las primeras k
componentes mediante
Proporcin de varianza =
1 + 2 + . . . + k
1 + 2 + . . . + k
p
=
1 + 2 + . . . + p
j=1 sjj
Curso
10 2010/2011
14 / 52
Aproximacin algebraica
Sa = a
Curso
11 2010/2011
16 / 52
Aproximacin algebraica
Curso
12 2010/2011
17 / 52
Un ejemplo sencillo
191
155
195
149
181
148
183
153
176
144
208
157
189
150
197
159
188
152
192
150
179
158
183
147
y1
y2
190
159
188
151
163
137
195
155
186
153
181
145
175
140
192
154
174
143
176
139
197
167
190
163
174
150
load datos.dat
y1=datos(:,1);
y2=datos(:,2);
plot(y1,y2,ro);
xlabel(y1);
ylabel(y2);
ymean=mean(datos);
185.7200
y=
151.1200
S=cov(datos);
95.2933
S=
52.8683
52.8683
54.3600
S es la matriz a diagonalizar.
Curso
13 2010/2011
20 / 52
Un ejemplo sencillo
[A,score,lambda,tsquare]=princomp(datos);
0.8249
0.5652
131.5183
A=
=
0.5652
0.8249
18.1350
y los autovectores son
0.8249
a1 =
0.5652
0.5652
0.8249
p
Las elipses tienen semiejes proporcionales a
1 = 11.47 y
p
p
p
2 = 4.26 (calculadas como y1 1 cos t, y2 2 sin t, con
t [0, 2], rotadas por A y con origen en y).
y
a2 =
1
1 + 2
= 0.879 88%
Curso
14 2010/2011
21 / 52
Un ejemplo sencillo
191
155
195
149
181
148
183
153
176
144
208
157
189
150
197
159
188
152
192
150
179
158
183
147
y1
y2
190
159
188
151
163
137
195
155
186
153
181
145
175
140
192
154
174
143
176
139
197
167
190
163
80
100
120
modelo
60
Rotation:
PC1
PC2
V1 -0.8249295 -0.5652357
V2 -0.5652357 +0.8249295
> summary(modelo)
Importance of components:
20
40
Variances
174
150
PC1
PC2
Principal Components
Standard deviation
Proportion of Variance
Cumulative Proportion
PC1
PC2
11.4681 4.2585
0.8788 0.1212
0.8788 1.0000
Curso
15 2010/2011
23 / 52
1
donde R = D1
s SDs , con Ds = diag( s11 , s22 , . . . , spp ).
Curso
16 2010/2011
25 / 52
Reduccin de la dimensionalidad
Curso
17 2010/2011
27 / 52
Curso
18 2010/2011
28 / 52
Reduccin de la dimensionalidad
Reduccin de la dimensionalidad
Curso
19 2010/2011
29 / 52
Reduccin de la dimensionalidad
Deteccin de agrupaciones
Curso
20 2010/2011
30 / 52
Indicaciones generales
1
Retener aquellas
P componentes cuyos autovalores superen el promedio de todos los
autovalores, pi=1 i /p. Para la matriz de correlacin este promedio es 1.0.
Curso
21 2010/2011
32 / 52
1
(2p + 5)] ln(u),
6
|S|
= |R|,
s11 s22 . . . spp
Curso
22 2010/2011
33 / 52
i=pk+1
y se calcula el estadstico
u=
2p + 11
n
6
i
,
k
@k ln()
p
X
i=pk+1
ln(i )A ,
Curso
23 2010/2011
34 / 52
Curso
24 2010/2011
36 / 52
lnea K de Ca II
banda CN4200
Mgb
el triplete de Ca I61026162)
Curso
25 2010/2011
38 / 52
1 , 2 , 3 y 4 son significativamente mayores que las varianzas esperadas por los errores (Qi ). Pero 3 y 4 son significativos slo si los colores
de M31, M32 y NGC205 se incluyen. Como estos ltimos son inciertos,
entonces slo parecen significativas las 2 primeras componentes.
Slo hacen falta dos parmetros para especificar completamente los
colores de las galaxias elpticas estudiadas.
Curso
26 2010/2011
39 / 52
Anlisis
de ()
datos y Estadstica Avanzada
Tema 9: Anlisis de componentes principales
(PCA)
Curso
27 2010/2011
40 / 52
Estudio de 1850 espectros simulados con PEGASE, considerando brotes instantneos que
ocurren a t = 0 y con edades comprendidas entre 0.01 y 18.5 Gaos.
Ejemplos de espectros simulados para diferentes edades.
Curso
28 2010/2011
41 / 52
Curso
29 2010/2011
42 / 52
Curso
30 2010/2011
43 / 52
Curso
31 2010/2011
44 / 52
Curso
32 2010/2011
45 / 52
Curso
33 2010/2011
46 / 52
El efecto de la metalicidad
La proyeccin de PC1 frente a la edad para diferentes metalicidades (Z = 0.1, 0.05, 0.02, 0.008
y 0.004, de arriba a abajo). Como PC1 contiene
un continuo azul, su valor disminuye (galaxias ms
rojas) a medidad que la edad aumenta. Sin embargo, en los modelos ms metlicos se hacen
ms azules de nuevo a partir de t = 14 Gaos.
Esto se explica asumiendo que en este caso las
estrellas esquivan la fase AGB y se mueven rpidamente a la rama horizonal azul debido a la existencia de unos fuertes vientos estelares.
Curso
34 2010/2011
47 / 52
Anlisis
de ()
datos y Estadstica Avanzada
Tema 9: Anlisis de componentes principales
(PCA)
Curso
35 2010/2011
48 / 52
Curso
36 2010/2011
49 / 52
Anlisis
de ()
datos y Estadstica Avanzada
Tema 9: Anlisis de componentes principales
(PCA)
Anlisis
de ()
datos y Estadstica Avanzada
Tema 9: Anlisis de componentes principales
(PCA)
Curso
37 2010/2011
50 / 52
Curso
38 2010/2011
51 / 52
Anlisis
de ()
datos y Estadstica Avanzada
Tema 9: Anlisis de componentes principales
(PCA)
Referencias
Babu G.J., Feigelson E.D., 1996, Astrostatistics, Chapman & Hall, London
Brosche P., Lentes F.-T., 1984, The manifold of globular clusters, A&A, 139, 474
Deeming T.J., 1964, Stellar spectral classification, MNRAS, 127, 493
Faber S.M., 1973, Variations in spectral-energy distributions and absorption-line strengths
among elliptical galaxies, ApJ, 179, 731
Francis P.J., Wills B.J., 1999, Introduction to Principal Components Analysis, ASP
Conference Series, 162, 363
Rencher A.C., 2002, Methods of multivariate analysis, 2nd edition, John Wiley & Sons
Ronen S., Aragn-Salamanca A., Lahav O., 1999, Principal component analysis of
synthetic galaxy spectra, MNRAS, 303, 284
Wall J.V., Jenkins C.R., 2003, Practical statistics for astronomers, Cambridge University
Press
Pgina WEB de VOStat: http://vo.iucaa.ernet.in/~voi/VOStat.html
Curso
39 2010/2011
52 / 52