Está en la página 1de 28

Analisis Estadístico de Datos

Climáticos

Análisis de componentes principales


Analisis de componentes
principales

 Se usa para encontrar un numero relativamente


pequeño de variables nuevas que contengan la
mayor cantidad de info posible del conjunto de
datos original sin redundancia.
 Puede ser usado para explorar la estructura de
la variabilidad de un conjunto de datos en
forma objetiva y analizar relaciones entre
variables diferentes.
¿Que hace el ACP?
 En forma suscinta, el ACP encuentra un conjunto de
funciones ortogonales empiricas para representar
una serie de datos X(x,y,t) como

M
X  x , y , t =∑m=1 PC m t . EOF m  x , y 

 los EOF(x,y) son los autovectores de la matriz de


covarianza y son estructuras espaciales. Los EOF
son ortogonales en el espacio.
 los PC(t) son los componentes principales que
muestran como ha variado cada estructura
espacial en el tiempo. Los PC son ortogonales en el
tiempo.
¿Como se obtienen los
componentes principales?
 Los PC(t) se obtienen proyectando la
matriz original de datos X sobre las
funciones empiricas ortogonales

PC m = X EOF m m=1. .. M

 El autovalor asociado m es proporcional a


la varianza “explicada” por ese
componente principal.
Esquema del Analisis de
Componentes principales
aplicado a datos de TSM.
Ejemplo: ACP de
precipitacion en Sudamerica
 Sea ANOM la matriz de anomalias de precip sobre
Sudamerica desde enero de 1979 hasta diciembre
de 2006.
ANOM (336x28x24)
 ANOM=ANOM(:,:); (336x672) (matriz de
anomalias)
 C=cov(ANOM); %Matriz de covarianza (672x672)
 [E,L]=eig(C); %Calcula autovectores y autovalores
son 672.
 varianza=diag(L)/trace(L); % dims: 672x1
 PC=anom*E; % Componentes ppales
Dimensiones: PC (336 x 672), E (672 x 672)
 plot(varianza,'*') 11%

8%

6%
(PC,EOF) más importantes
 PC1=PC(:,end); EOF1=E(:,end);
 PC2=PC(:,end-1); EOF2=E(:,end-1);
 PC3=PC(:,end-2); EOF3=E(:,end-2);

Se verifica ortogonalidad en tiempo para


las PC y espacio para EOF:
PC1'*PC2 =0 EOF1'*EOF2=0
PC1'*PC3 =0 EOF1'*EOF3=0
PC2'*PC3 =0 EOF2'*EOF3=0
 Se verifica que autovectores tienen
modulo =1:
EOF1'*EOF1=1
EOF2'*EOF2=1
EOF3'*EOF3=1
 La varianza de los PC es el autovalor
asociado a cada EOF.
var(PC1)= L(end,end)
var(PC2)= L(end-1,end-1)
var(PC3)= L(end-2,end-2)
PC1 11% de la varianza total

EOF1
PC2 8% de la varianza total

EOF2
PC3 6% de la varianza total

EOF3
Interpretación
 Guarda con las interpretaciones!
 Los (PC,EOF) son calculados para
maximizar varianza manteniendo
ortogonalidad entre ellos y no para tener
sentido físico.
 Muchas veces se denomina a los EOFs
como “modos de variabilidad” dándoles
un significado físico.
 Los (PC,EOFs) dependen de la región
considerada.
ACP sobre la matriz de correlación

 A veces se realiza el ACP sobre la matriz de


correlacion.
 Los (PC, EOF) obtenidos son diferentes que
usando la matriz de covarianza.
 La decision de usar la matriz de correlacion o de
covarianza depende de cómo queremos pesar las
diferentes variables
 la matriz de covarianza da mas peso a
aquellas variables que tienen mayor varianza
 en la matriz de correlacion todas las variables
tienen igual peso, y solo la estructura importa.
 La matriz de correlación debe usarse en
los siguientes casos:
 la matriz de datos contiene variables con
diferentes unidades.
 Por ejemplo: datos de temperatura, presion,
humedad medidos en una estación.
 la diferencia entre varianza para distintas
variables es muy grande y distorciona los
EOFs encontrados.
Forma de presentar los (PC,EOF)
 La forma mas simple es graficar los EOFs tal cual
fueron calculados. Este método no dice nada sobre
que representa la amplitud
 Mapas de regresión: Normalizar el PC de tal forma
que tenga desviacion estandard =1 y luego hacer
la regresión lineal de los datos originales
(anomalias) con respecto al PC.
El mapa resultante tendra la estructura del EOF
asociado al PC y la amplitud tendrá unidades de
los datos originales.
También podemos hacer la regresión de otras
variables con respecto al PC, lo cual dará el
patrón de anomalias asociado al (EOF,PC)
Ej. Usar PC1 de SST y hacer mapas de SST, PSM.
 Mapas de correlacion
 Hacer la correlacion entre la variable original
y su PC en cada punto.
 El mapa resultante muestra el EOF como
mapa de correlacion, el cual se puede usar
para calcular significancias estadisticas.
 Este mapa no tiene unidades.

 La mejor forma es combinar los mapas de


regresion con correlacion.
Truncamiento
 Recordemos que usando los (PC,EOF) es
posible reconstruir la matrix de anomalias
original.
M
X  x , y , t =∑m=1 PC m t . EOF m  x , y 
 Si consideramos sólo P<M (PC,EOFs)
reconstruimos parcialmente la matrix
original
P
X  x , y , t ≈ ∑m=1 PC m t  . EOF m  x , y 

 En clima sólo unos (PC,EOF) dan mucha


informacion. Pero cuantos tomamos?
¿Cómo truncamos?
 No existe una forma única.
 La forma mas sencilla es tomar un numero de
(PC,EOF) de tal forma que juntos represente un
% de varianza a elección (>70% ?)
 Métodos gráficos
Separación cualitativa entre
partes del plot (P=3)
 Regla de North et al
El error de muestreo de un autovalor es 
(2/N)1/2. Si este error es comparable o mayor
que el espacio entre y su vecino, entonces
el error de muestreo del EOF asociado a es
comparable al EOF vecino. Por lo tanto los
dos EOFs no se pueden separar y estos EOFs
son combinacion lineal de los EOFs
verdaderos.

N es el número de grados de libertad.


De acuerdo a North et al sólo
el 1er EOF está bien definido.
Rotación de EOFs
 Es deseable interpretar fisicamente los
EOFs. No obstante la condicion de
ortogonalidad de los EOFs lo hace
problemático.
 A su vez, la ortogonalidad tambien induce
a que los EOFs tengan amplitud diferente
de cero en casi todo el dominio.
 La rotacion de EOFs “relaja” la condicion
de ortogonalidad y permite tener
estructuras mas localizadas en el espacio
que son mas fáciles de interpretar.
 Para hacer la rotación de EOFs es
necesario primero calcular los EOFs.
Luego:
 nos quedamos con algunos EOFs (P<M)
 rotamos estos EOFs para formar nuevos
REOFs basados en algún criterio.
 el criterio para hacer la rotación se basa
usualmente en medir la “simplicidad” de la
estructura del nuevo REOF.
 una estructura es “simple” cuando es
localizada, es decir cuando el REOF esta
fromado por +-1s y 0s.
 La rotación se escribe matemáticamente como
la multiplicacion de un subconjunto de EOFs
originales por una matriz T:
[REOFs]KxP =[EOFs] KxP [T ]PxP
 La matriz [T] se elije de acuerdo al criterio de
“simplicidad”.
 La rotación mas común es la varimax, en la cual
[T] está determinada eligiendo sus elementos
para maximizar la suma de las varianzas de los
elementos e  al cuadrado del vector rotado
Ejemplo:
Variabilidad de
TSM en el
Atlantico tropical
Análisis de componentes
principales de varios campos

 Es posible construir una matriz de datos X


que incluya mas de 1 campo. Por ej:
temperatura y presión en una grilla.
 Si tenemos L variables, la matriz de datos
será de (nxKL).
 Dado que las variables tienen unidades
diferentes se debe usar la matriz de
correlación.
 En este caso queda:
Usando descomposicion en valores
singulares

 Si X' es la matriz de anomalías nxK,


entonces

1 t
X '=L R
n−1
Las columnas de
Las columnas de R son
L son propocionales
los elementos los autovectores de la
a los PC
cumplen matriz de covarianza=EOFs
2
 k =k

En Matlab: [L,O,R]=svd(X/(n-1));

También podría gustarte