Está en la página 1de 28

Analisis Estadístico de

Datos Climáticos

Estadística Univariada

Distribuciones empíricas y análisis exploratorio de datos

Robustez y Resistencia

Medidas numéricas de localizacion, dispersión y simetría

Técnicas gráficas: boxplots, histogramas, distribución de 
frecuencia acumulada

Transformaciones

Finalidad: aprender algo sobre la naturaleza de los datos.


Transformaciones

A veces es útil transformar matemáticamente el 
conjunto inicial de datos

puede revelar características escondidas de los datos.

ayuda a hacer que los datos cumplan con ciertas hipótesis 
sobre la naturaleza de los datos. 

Por ej. que tengan distribución guassiana.

ayuda la comparación entre diferentes variables .
Anomalías

¿Cómo se definen usualmente las anomalías en 
estudios del clima?

Las anomalías se definen con respecto al ciclo anual.

Por ejemplo, para datos medios mensuales, el ciclo 
annual se define como el promedio de todos los 
eneros, febreros, etc, del período del registro.
Código de Matlab

% Cargar los datos

pre=nv_varget('precl1949­2006.nc','rain')*0.1;  %lluvias en mm/dia

lon=nc_varget('precl1949­2006.nc','longitude');  

lat=nc_varget('precl1949­2006.nc','latitude');

size(pre)  ­ Matriz de 696x72x144 – tiempo x latitud x longitud

size(lon) – Vector (matriz) 144 x 1 

size(lat) – Vector (matriz) 72 x 1

% Crear Climatología y Anomalías

[clim,anom]=climatology(pre(1:120,:,:),lon,lat,0);
% Plotear

subplot(3,2,1:4)   %crea 3 x 2 cuadros donde plotear y usa los 4 primeros

plot(linspace(1949,1958,120),pre(1:120,23,122),'linewidth',2)

hold   %la siguiente línea dibuja encima de lo que ya está

plot(linspace(1949,1958,120),clim(1:120,23,122),'r','linewidth',2)

grid    %pone grilla

title('Precipitacion en (56W,34S) PREC­L periodo (1949­1958)')

legend('Precip','Climatol')    %leyenda

subplot(3,2,5:6)

plot(linspace(1949,1958,120),anom(:,23,122),'linewidth',2)

grid

axis tight   %arregla ejes

legend('Anom')
Anomalías estandarizadas

Las anomalías estandarizadas z se calculan restando 
la media y dividiendo por la desviación estandard.

Como las anomalías tienen ya media nula, basta con 
dividir por la desviación estandard.
z=anom(:,23,122)/std(anom(:,23,122)); %Define z
plot(linspace(1949,1958,120),anom(1:120,23,122),'linewidth',2)
hold
plot(linspace(1949,1958,120),z,'g','linewidth',2)
grid
Notar que:

Las anomalias estandarizadas no tienen unidades 

Todas las variables estandarizadas tienen media nula 
y desviación estandard = 1.


Esto permite comparar diferentes variables mas 
facilmente.

Comparemos desviacion estandard de las lluvias en 
56W,34S de acuerdo al mes

pp=anom(1:120,23,122);

%STD para c/mes


for j=1:12
pps(j)=std(pp(j:12:end));
end

bar(pps)

La desviación estandard
en enero es 3 veces mayor
que en diciembre.

O sea que una anomalia de


1 mm/día en diciembre es
mucho más inusual que
en enero.
subplot(2,2,1)
plot((1949:1958),pp(1:12:end),'r','linewidth',2)
hold
plot((1949:1958),pp(12:12:end),'linewidth',2)
title('Anomalias')

subplot(2,2,2)
plot((1949:1958),pp(1:12:end)/std(pp(1:12:end)),'r','linewidth',2)
end
plot((1949:1958),pp(12:12:end)/std(pp(12:12:end)),'linewidth',2)
title('Anomalias estandarizadas')
Técnicas para datos
apareados

Datos apareados: conjunto de datos con dos valores 
para el mismo tiempo. 


Scatterplots


Coeficiente de correlación de Pearson


Coeficiente de correlación de Spearman (rango)
Scatterplots

Gráfico donde la variable y se plotea en funcion de 
la variable x. 

(x,y) son datos para c/tiempo. 

Permite a simple vista “tener idea” de la relacion 
entre datos apareados
Relación entre Anomalias de Precip y Temp en
(56W,34S) durante mayo (1949-1958)

De acuerdo a este gráfico


tiende a llover mas
cuanto mas cálido está
el mes.

El cálculo de la correlación
permite asignar un valor
a esta relación.

temp=nc_varget(../ncep_ncar_Jan1949-Aug2007/sfctemp.nc','temp');
X=nc_varget(../ncep_ncar_Jan1949-Aug2007/sfctemp.nc','X');
Y=nc_varget(../ncep_ncar_Jan1949-Aug2007/sfctemp.nc','Y');

[clim,anom]=climatology(temp(1:120,:,:),X,Y,0);
tt=anom(:,23,122);
scatter(tt(5:12:end),pp(5:12:end),30,'filled'); grid
Coef. de correlación de
Pearson

Cociente entre la covarianza entre dos variables y el 
producto de sus desviaciones estandard.
Si las desviaciones estandards se meten dentro de la
sumatoria la correlación también se puede escribir
como

o sea, el promedio del producto de las anomalías


estandarizadas.

Propiedades

Cumple  −1 r xy 1

 r xy ²
           especifica la proporción de la variabilidad de una de 
las dos variables que está descrita linealmente por la otra.


No es ni robusta (sólo caracteriza relaciones lineales) ni 
resistente (muy sensible a outliers).
Precip=f(Temp) (56W,34S)
Poca resistencia a outliers

Correlación con punto rojo

r=0.34

Correlacion sin dato rojo

r=0.61

%Correlación

corr(tt(5:12:end),pp(5:12:end),'type','Pearson')
Coef. de correlación de
Spearman

Alternativa robusta y resistente

Consiste en aplicar la misma fórmula que el coef. de 
Pearson pero a los rangos de los datos. 
Como se usan rangos, los valores son siempre enteros del 1 a n 
(número de datos) y 
(promedio de 1...n) = (n+1)/2
(varianza de 1...n) = n(n2­1)/[12(n­1)]
Entonces

D i =rango  x i −rango y i 
Ejemplo 1
Rango xi Rango yi Di

1 1 0
2 2 0
3 3 0
4 4 0
5 5 0 r_Pearson=0.877
6 6 0
7 7 0
8 8 0
9 9.5 -0.5
10 9.5 0.5
r_rank=1- 6*0.5/(10*99)=0.997

Así como r_Pearson captura la relación lineal,


r_rank captura una relación monotónica
Ejemplo 2
Rango(xi) Rango(yi) Di

1 8 -7
2 4 -2
3 9 -6
4 2 2
5 5 0 r_Pearson=0.61
6 6 0
7 3 4
8 1 7
9 7 2
10 10 0
r_rank=1 - 6(49+4+36+4+16+49+4)/(10*99)=0.018

En lengua Matlab: corr(x,y,'type','Spearman')


Autocorrelacion

Es la correlación de una variable con sus propios valores 
pasados y futuros.
 Si se tiene una serie temporal Xi, i=1...n, la autocorrelación 
con lag=1 se hace
    X1 X2 X3 X4... Xn­2 Xn­1 Xn

         X1 X2 X3 X4...  Xn­2 Xn­1 Xn                                        

Y se calcula

Para un lag k cualquiera se tiene


Notar que:

a medida que k aumenta los segmentos de serie 
comparados son cada vez mas chicos.

en general se calcula las autocorrelaciones para k<n/3.
Función de autocorrelación

Es el conjunto de autocorrelaciones calculadas para diferentes 
lags.
 La función de autocorrelación siempre comienza con r0=1 pues 
es la correlación de una serie consigo misma.


Típicamente, la función decrese a 
medida que k aumenta. Esta 
disminución es muchas veces 
exponencial y se define un 
tiempo de persistencia como el 
lag para el cual rk=e­1.
Persistencia de temperatura media en invierno de
1975en Las Brujas

En Julio la escala de
persistencia de
temperatura fue
bastante mayor que
en agosto, pero
es siempre del órden
de días.

Julio fue mas


“predecible”.

días
temp=nc_varget('TempMedia_LasBrujas_INIA_1Jan1975-31Dec1995.cdf','tempavg');
[rr,lag]=xcov(temp(6*30+1:7*31),temp(6*30+1:7*31),'coeff');
[rr2,lag2]=xcov(temp(7*30+1:8*31),temp(7*30+1:8*31),'coeff');
plot(lag,rr); hold; plot(lag,rr,'*');
plot(lag2,rr2,'r'); plot(lag2,rr2,'r*');
axis([0 12 -0.5 1])
¿Por que una escala de 4-5 días?
Por el pasaje de frentes y masas de aire.
Autocorrelación TSM lengua fria del Pacífico

6 meses!

La persistencia de las anomalías de temperatura de superficie de mar


es del órden de 3 meses dependiendo de la región. Eso permite
pronosticar el estado del océano con cierta antelación.
TSM globales últimos 3 meses

Predicción de TSM:
- dinamica/estadísticamente en
los trópicos
- persistencia en los extratrópicos

También podría gustarte