Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Curso 2010/2011 1
1 / 52
Esquema
1
Introduccin PCA dentro del anlisis multivariante Objetivo del PCA Clculo de componentes principales Aproximacin geomtrica Aproximacin algebraica Un ejemplo sencillo El problema del cambio de escala Aplicacin del PCA Reduccin de la dimensionalidad Cuntas componentes retener? Signicado de las componentes principales Algunos ejemplos astrofsicos
Curso 2010/2011 2 2 / 52
Introduccin
Tcnicas multivariantes
Consideremos un conjunto de objetos sobre los que se mide una serie de propiedades diferentes. Estudio ptimo? Uso de tcnicas multivariantes, las cuales permiten realizar un anlisis simultneo de todos los objetos y sus propiedades (ver Tema 6).
objeto #1 objeto #2 . . . objeto #n propiedad #1 y11 y21 . . . yn1 propiedad #2 y12 y22 . . . yn2 ... ... ... . . . ... ... ... ... . . . ... propiedad #p y1p y2p . . . ynp
Qu hacer?
8 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > < > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > :
Contrastes de hiptesis sobre la matriz de covarianza: testear correlacin entre propiedades. Anlisis de componentes principales: bucar un conjunto reducido de combinaciones lineales de las variables que resuman la variacin de los datos. Anlisis de factores: expresar las variables originales como un conjunto de funciones lineales de factores. Anlisis de agrupacin: determinar agrupaciones entre datos (nmero de grupos inicialmente desconocido). Anlisis de clasicacin: ubicacin de nuevos objetos en distintos grupos predenidos. Regresin lineal mltiple: determinar un modelo que prediga un conjunto de propiedades (variables dependientes) a partir de otro conjunto de propiedades (variables independientes). Anlisis discriminante: buscar la combinacin lineal de las variables que mejor discrimine entre diferentes muestras de objetos. ...
Curso 2010/2011 3
4 / 52
Introduccin
Tradicionalmente los astrnomos tienden a representar los parmetros medidos uno frente a otro, tratando de inferir conclusiones a partir de las correlaciones observadas. Esta tcnica es inviable cuando el nmero de parmetros representados es superior a 4 5.
Tema 9: Anlisis de componentes principales (PCA) () y Estadstica Avanzada Anlisis de datos Curso 2010/2011 4 6 / 52
Introduccin
R permite, de forma trivial, representar todas los posibles diagramas de dispersin de un conjunto de datos multivariante con la ejecucin de un nico comando:
> plot(airquality) los datos estn en el paquete base, cargado por defecto
Curso 2010/2011 5
8 / 52
Aproximacin geomtrica
Como ya vimos en su da, en el trabajo dentro del rea del anlisis multivariante resulta extremadamente til utilizar lgebra matricial.
objeto #1 objeto #2 . . . objeto #i . . . objeto #n medias propiedad #1 y11 y21 . . . yi1 . . . yn1 y1 propiedad #2 y12 y22 . . . yi2 . . . yn2 y2 ... ... ... . . . ... . . . ... ... ... ... ... . . . ... . . . ... ... propiedad #p y1p y2p . . . yip . . . ynp yp
Podemos denir y como un vector aleatorio con p variables (propiedades) medidas en cada objeto. Si tenemos n objetos en la muestra, las observaciones pueden escribirse como y1 , y2 ,. . . ,yn , donde 0 1 0 1 0 1 y11 y12 . . . . . . y1p yi1 y1 B yi2 C B y C B y21 y22 . . . . . . y2p C C B C B 2 C B yi = B . C , Y=B . C=B . . . . . C. . . . . A @ . A @ . A @ . . . . . . . . yip yn1 yn2 . . . . . . ynp yn
Tema 9: Anlisis de componentes principales (PCA) () y Estadstica Avanzada Anlisis de datos Curso 2010/2011 6 10 / 52
Aproximacin geomtrica
(Francis & Wills 1999) Consideremos un conjunto de n observaciones y1 , y2 , . . . , yi , . . . , yn , que forman una nube de puntos en un espacio p-dimensional (como simplicacin, podemos visualizarlo como un elipsoide de puntos). Cada vector yi es un vector columna con p elementos. Si las p propiedades Y1 , Y2 , . . . , Yp estn correlacionadas, la distribucin de puntos no estar orientada paralelamente a los ejes denidos por Y1 , Y2 , . . . , Yp .
A travs del PCA vamos a determinar los ejes naturales de la distribucin de puntos (i.e., los ejes del elipsoide), cuyo origen se encuentra en y, el vector medio de y1 , y2 , . . . , yn . Esto se realiza restando y y calculando la rotacin que minimice la suma de distancias a los ejes (maximice la proyeccin de los datos sobre los mismos ejes).
Tema 9: Anlisis de componentes principales (PCA) () y Estadstica Avanzada Anlisis de datos Curso 2010/2011 7 11 / 52
Aproximacin geomtrica
Aproximacin geomtrica al problema Podemos rotar los ejes multiplicando cada vector p-dimensional yi por una matriz ortogonal A zi = Ayi . Como A es ortogonal, A A = I, la distancia al origen no cambia z zi = (Ayi ) (Ayi ) = y A Ayi = y yi , i i i y por ello zi = Ayi es realmente una rotacin. Buscamos la matriz ortogonal A que nos proporcione unos nuevos parmetros (componentes principales) Z1 , Z2 , . . . , Zp que no estn correlacionadas. Para ello necesitamos que la matriz muestral de covarianzas de z, Sz , sea diagonal 0 2 1 sz1 0 ... 0 B 0 s22 . . . 0 C z B C B . Sz = ASA = B . . C, . . C @ . . . . A 2 0 0 . . . szp donde S es la matriz muestral de covarianzas de y.
(Puede demostrarse que una matriz simtrica S puede ser diagonalizada empleando una matriz ortogonal que contenga los autovectores normalizados de S, y la matriz diagonal resultante contiene los autovalores asociados.)
Tema 9: Anlisis de componentes principales (PCA) () y Estadstica Avanzada Anlisis de datos Curso 2010/2011 8 12 / 52
Aproximacin geomtrica
Aproximacin geomtrica al problema La matriz ortogonal A que diagonaliza S puede escribirse como 0 1 a1 B a C B 2 C A = B . C, @ . A . a p
donde ai son los autovectores de S que verican a aj = ij (estn normalizados y son i ortogonales). Las componentes principales son las nuevas variables Zi = a y, por ejemplo i Los autovalores de S sern las varianzas muestrales de las componentes principales 1 0 1 0 s2 0 ... 0 1 0 ... 0 z1 s22 . . . 0 C B 0 2 . . . 0 C B 0 z C B C B B . . . C=B . . . C, B . . . A @ . . C @ . . . . . . . A 2 0 0 . . . p 0 0 . . . szp siendo habitual ordenar las variables de forma que 1 > 2 > . . . > p . Z1 = a11 Y1 + a12 Y2 + . . . + a1p Yp .
Curso 2010/2011 9
13 / 52
Aproximacin geomtrica
Reduccin de la dimensionalidad
Como los autovalores son varianzas de las componentes principales, podemos denir la proporcin de varianza explicada por las primeras k componentes mediante Proporcin de varianza = 1 + 2 + . . . + k 1 + 2 + . . . + k p = 1 + 2 + . . . + p j=1 sjj
Si los parmetros estn muy correlacionados, la dimensionalidad efectiva es mucho menor que p. En este caso los primeros autovalores son grandes y la proporcin de varianza ser prxima a 1 para valores de k pequeos. Si las correlaciones entre los parmetros originales son pequeas, la dimensionalidad efectiva ser prxima a p y los autovalores sern parecidos. En este caso las componentes principales esencialmente duplicarn los parmetros originales y no se conseguir reducir la dimensionalidad.
Tema 9: Anlisis de componentes principales (PCA) () y Estadstica Avanzada Anlisis de datos Curso 2010/2011 10 14 / 52
Aproximacin algebraica
Aproximacin algebraica al problema Otra forma de interpretar el PCA es como un mtodo que permita encontrar combinaciones lineales de variables con una varianza mxima. Por ejemplo, dado un conjunto de p parmetros Y1 , Y2 , . . . , Yp , podemos buscar la direccin denida por el vector p-dimensional a en la que un nuevo parmetro denido como presenta una varianza mxima. Z = a1 Y1 + a2 Y2 + . . . + ap Yp = a y,
Si tenemos un conjunto de n objetos, la varianza muestral de Zi = a yi , con i = 1, . . . , n, puede calcularse en funcin de S, la matriz muestral de covarianzas de y1 , y2 , . . . , yn , como s2 = a Sa. z No es posible calcular un mximo para la expresin anterior porque su valor crece de forma indenida para vectores a sucientemente grandes. Una forma de hacerlo es restringir arbitrariamente (pero de forma razonable) el tamao (norma) de a. Por ejemplo, suponiendo que es un vector unitario, i.e., a a = 1. Podemos entonces buscar el mximo de s2 con la condicin a a = 1. Esto se hace usando z la tcnica de los multiplicadores de Lagrange a imponiendo que la derivada de a Sa (a a 1) sea igual a cero, lo que conduce a (S I)a = 0 Sa = a
Curso 2010/2011 11
16 / 52
Aproximacin algebraica
Aproximacin algebraica al problema El valor ptimo de a (que llamaremos a1 ) es la solucin de Sa = a. Es decir, a1 es el autovector asociado al autovalor 1 de mayor tamao. El segundo eje que maximiza la varianza debe ser perpendicular al primero ya calculado, por lo que tenemos una nueva restriccin a a1 = 0, por lo que la expresin a minimizar es ahora a Sa 2 (a a 1) 2 (a a1 ), donde 2 y 2 son dos nuevos multiplicadores de Lagrange. Tomando derivadas es fcil mostrar que 2 = 0, por lo que la ecuacin a resolver vuelve a ser Sa = a, siendo 2 el segundo autovalor ms grande y a2 su autovector asociado. De forma similar se razona para el resto de los ejes a3 , . . . , ap . Es decir, se obtiene el mismo resultado que ya vimos antes en la aproximacin geomtrica.
Curso 2010/2011 12
17 / 52
Un ejemplo sencillo
load datos.dat y1=datos(:,1); y2=datos(:,2); plot(y1,y2,ro); xlabel(y1); ylabel(y2); ymean=mean(datos); 185.7200 y= 151.1200 52.8683 54.3600
Curso 2010/2011 13
20 / 52
Un ejemplo sencillo
[A,score,lambda,tsquare]=princomp(datos); 0.8249 0.5652 131.5183 A= = 0.5652 0.8249 18.1350 y los autovectores son 0.8249 a1 = 0.5652 0.5652 0.8249 p Las elipses tienen semiejes proporcionales a 1 = 11.47 y p p p 2 = 4.26 (calculadas como y1 1 cos t, y2 2 sin t, con t [0, 2], rotadas por A y con origen en y). y a2 =
La proporcin de varianza explicada por la primera componente ser Proporcin de varianza = 1 1 + 2 = 0.879 88%
Signicado de la primera componente? Al ser el PCA una rotacin de ejes, la primera componente principal minimiza la suma cuadrtica de distancias entre los puntos y la direccin principal (distancia perpendicular). Es, por tanto, equivalente a la regresin ortogonal (ver Tema 4). De hecho, la direccin de la primera componente principal se encuentra ubicada entre la regresin ordinaria de y1 sobre y2 y la regresin ordinaria de y2 sobre y1 .
Curso 2010/2011 14
21 / 52
Un ejemplo sencillo
modelo
120
Variances
80
> datos <- read.table(datos.dat,header=FALSE) > modelo <- prcomp(datos) > barplot(modelo$sdev2,names.arg=c("PC1","PC2"), + xlab="Principal Components", + ylab="Variances",main="modelo") > print(modelo) Standard deviations: [1] 11.468144 4.258521 Rotation: PC1 PC2 V1 -0.8249295 -0.5652357 V2 -0.5652357 +0.8249295 > summary(modelo) Importance of components: Standard deviation Proportion of Variance Cumulative Proportion PC1 PC2 11.4681 4.2585 0.8788 0.1212 0.8788 1.0000
20
40
60
100
PC2
Curso 2010/2011 15
23 / 52
Curso 2010/2011 16
25 / 52
Reduccin de la dimensionalidad
Reduccin de la dimensionalidad
Curso 2010/2011 18
28 / 52
Reduccin de la dimensionalidad
Curso 2010/2011 19
29 / 52
Reduccin de la dimensionalidad
Deteccin de agrupaciones
Deteccin de 4 grupos en el estudio de 19 propiedades en 40 objetos. En este ejemplo la proporcin de varianza explicada por las dos primeras componentes es del 85%, por lo que la representacin grca de z1 y z2 muestra la informacin existente en los datos con poca distorsin.
Tema 9: Anlisis de componentes principales (PCA) () y Estadstica Avanzada Anlisis de datos Curso 2010/2011 20 30 / 52
Indicaciones generales
1 2
Retener sucientes componentes para garantizar un porcentaje predenido de la varianza total, por ejemplo el 80%. Retener aquellas componentes cuyos autovalores superen el promedio de todos los P autovalores, p i /p. Para la matriz de correlacin este promedio es 1.0. i=1
Utilizar una representacin grca de i frente a i, y determinar el codo en el que se produce la transicin entre los autovalores grandes y los pequeos.
Curso 2010/2011 21
32 / 52
Utilizar tests de signicacin. Un test preliminar que resulta til es testear la completa independencia de las variables, por ejemplo en la matriz poblacional de covarianzas H0 : = diag(11 , 22 , . . . , pp ), o lo que es equivalente, en la matriz poblacional de correlacin H0 : P = I. En este caso, el estadstico denido por u = [(n 1) donde u= 1 (2p + 5)] ln(u), 6
sigue aproximadamente una distribucin 2 , con f = 1 p(p 1). f 2 Se rechaza H0 si u > 2 . ,f Si el test indica que las variables son independientes, no tiene sentido realizar un anlisis de componentes principales.
Tema 9: Anlisis de componentes principales (PCA) () y Estadstica Avanzada Anlisis de datos Curso 2010/2011 22 33 / 52
Utilizar tests de signicacin. Para testear la signicacin de las componentes principales, se realiza la hiptesis nula de que los ltimos k autovalores son pequeos e iguales, H0k : pk+1 = pk+2 = . . . = p , donde 1 , 2 , . . . , p son los autovalores poblacionales, es decir, los autovalores de . Para testear H0k se calcula el promedio de los ltimos k autovalores = y se calcula el estadstico u= 2p + 11 n 6
p X
i=pk+1
i , k 1
@k ln()
i=pk+1
p X
ln(i )A ,
Normalmente se empieza con H02 : p1 = p . Si se acepta, se sigue con H03 : p2 = p1 = p , y se sigue testeando hasta que H0k se rechaza para algn valor de k.
Tema 9: Anlisis de componentes principales (PCA) () y Estadstica Avanzada Anlisis de datos Curso 2010/2011 23 34 / 52
Curso 2010/2011 24
36 / 52
Se obtiene que 1 es claramente mayor que 2 , 3 , 4 y 5 . Como las estrellas se restringen a un intervalo en magnitud absoluta, es razonable interpretar la primera componente (K1 ) como un parmetro indicativo del tipo espectral.
Curso 2010/2011 25
38 / 52
Variations in spectral-energy distributions and absorption-line strengths among elliptical galaxies, S.M. Faber (1973).
1 , 2 , 3 y 4 son signicativamente mayores que las varianzas esperadas por los errores (Qi ). Pero 3 y 4 son signicativos slo si los colores de M31, M32 y NGC205 se incluyen. Como estos ltimos son inciertos, entonces slo parecen signicativas las 2 primeras componentes. Slo hacen falta dos parmetros para especicar completamente los colores de las galaxias elpticas estudiadas.
Curso 2010/2011 26
39 / 52
El nmero de parmetros signicativos es p = 2 (el tercer autovalor es slo marginalmente signicativo). No se detectan agrupaciones en el plano PC1, PC2.
Curso 2010/2011 27
40 / 52
Estudio de 1850 espectros simulados con PEGASE, considerando brotes instantneos que ocurren a t = 0 y con edades comprendidas entre 0.01 y 18.5 Gaos. Ejemplos de espectros simulados para diferentes edades.
Curso 2010/2011 28
41 / 52
PC1: explica el 98.5% de la variacin en los espectros. Correlaciona el continuo azul con las absorciones de Balmer. PC2: slo explica el 0.9% de la variacin, por lo que las caractersticas espectrales reconocibles (como la lnea K del Ca) tan slo aaden informacin de segundo orden con respecto a PC1. PC3: explica el 0.5% de la variacin. Correlaciona las lneas de Balmer con las absorciones por debajo de 4000 .
Curso 2010/2011 29
42 / 52
La proyeccin de PC1 frente a la edad muestra el claro enrojecimiento de las galaxias al hacerse stas ms viejas.
Curso 2010/2011 30
43 / 52
PC1: explica el 99.5% de la variacin en los espectros. La informacin que contiene es bsicamente las lneas de emisin. PC2: slo explica el 0.7% de la variacin, y se reduce de forma casi exclusiva a un continuo azul. PC3: explica el 0.05% de la variacin. Muestra la correlacin entre lneas de absorcin y la disminucin en el continuo por debajo de 4000 .
Curso 2010/2011 31
44 / 52
Brote joven: espectros simulados con edades comprendidas entre 0 y 14 Maos La proyeccin de PC1 y PC2 frente a la edad muestra que las lneas de emisin dominan slo para edades muy jvenes, disminuyendo drsticamente por encima de t = 6 Maos. PC2 indica que sin embargo el continuo tiene un mximo entre 3 y 5 Maos despus del brote, para caer bruscamente en t = 8 Maos.
Curso 2010/2011 32
45 / 52
Curso 2010/2011 33
46 / 52
El efecto de la metalicidad La proyeccin de PC1 frente a la edad para diferentes metalicidades (Z = 0.1, 0.05, 0.02, 0.008 y 0.004, de arriba a abajo). Como PC1 contiene un continuo azul, su valor disminuye (galaxias ms rojas) a medidad que la edad aumenta. Sin embargo, en los modelos ms metlicos se hacen ms azules de nuevo a partir de t = 14 Gaos. Esto se explica asumiendo que en este caso las estrellas esquivan la fase AGB y se mueven rpidamente a la rama horizonal azul debido a la existencia de unos fuertes vientos estelares.
Curso 2010/2011 34
47 / 52
Curso 2010/2011 35
48 / 52
Curso 2010/2011 36
49 / 52
Curso 2010/2011 37
50 / 52
Curso 2010/2011 38
51 / 52
Referencias
Babu G.J., Feigelson E.D., 1996, Astrostatistics, Chapman & Hall, London Brosche P., Lentes F.-T., 1984, The manifold of globular clusters, A&A, 139, 474 Deeming T.J., 1964, Stellar spectral classication, MNRAS, 127, 493 Faber S.M., 1973, Variations in spectral-energy distributions and absorption-line strengths among elliptical galaxies, ApJ, 179, 731 Francis P.J., Wills B.J., 1999, Introduction to Principal Components Analysis, ASP Conference Series, 162, 363 Rencher A.C., 2002, Methods of multivariate analysis, 2nd edition, John Wiley & Sons Ronen S., Aragn-Salamanca A., Lahav O., 1999, Principal component analysis of synthetic galaxy spectra, MNRAS, 303, 284 Wall J.V., Jenkins C.R., 2003, Practical statistics for astronomers, Cambridge University Press Pgina WEB de VOStat: http://vo.iucaa.ernet.in/~voi/VOStat.html
Curso 2010/2011 39
52 / 52