Está en la página 1de 30

Datos univariados

Anlisis exploratorio de datos

Datos climticos
Observaciones (datos medidos; datos interpolados) Salidas de modelos numricos: Simulaciones o pronsticos (posibilidad de variar condiciones iniciales o de borde)

Anlisis exploratorio de datos univariados


Robustez y resistencia uantiles (percentiles)

!edidas numricas de resumen "cnicas #r$icas de resumen

Robustez y resistencia
%s deseable &ue un mtodo de anlisis de datos sea poco sensible a suposiciones sobre la naturaleza de los datos' (' e)'* &ue los resultados no dependan esencialmente de &ue los datos si#an una distribucin #aussiana' +n mtodo es robusto cuando sus resultados no dependen esencialmente de cul sea la distribucin de los datos' +n mtodo es resistente si no es in$luido considerablemente por unos pocos datos at,picos (-outliers.)

Ejemplo: dados los conjuntos {11 12 13 14 15 16 1 1! 1"# $ {11 12 13 14 15 16 1 1! "1# Distintas medidas de %tendencia central&: En ambos casos' el valor central es 15' pero los promedios son 15 $ 23 respectivamente(

Estad)sticos de orden de una muestra aleatoria


Sea { x1' x2' (((' xn # una muestra aleatoria de datos
Se ordenan en $orma ascendente: { x*1+' x*2+ ' (((' x*n+ # son los estad,sticos de orden ( cumplindose &ue x*1+ , x*2+ , -, x*n+ )

Ej:

.2 1

.3 4 /# #

{.3 .2 / 1 4

uantiles de una muestra aleatoria


(percentiles)
%)': /) Sea la muestra aleatoria { .2 2 .3 4 /#

0 mo podemos estimar un valor central &ue* en sentido amplio* de)e probabilidad 1 a ambos lados2 {.3 .2 / 2 4 #

(arece natural tomar un valor &ue de)e la misma cantidad de datos a cada lado* en este caso el 3: {.3 .2 / 2 4 3' #( Se dice &ue la mediana de la muestra es 0/(5 1 2 %percentil 5/&

uantiles4
%)' 3) Sea a5ora la muestra { 0 ul ser la mediana2 1 .3 4 /#

{.3 / 1 4

Convencionalmente* se suele tomar el promedio entre los dos valores centrales* o sea (/ 6 7) 83 9 3':' (ero* si no se tiene ms in$ormacin* podr,a ele#irse cual&uier valor en ese intervalo (/*7)

;eneralizando* sea p tal &ue < = p = /' >os p.0uantiles (&p) ( o percentiles) son valores &ue de)an*en cierto sentido* probabilidad p a su iz&uierda* y probabilidad /?p a su derec5a'

0p


1. p

2*3 , 0p+ 1 p

2*3 4 0p+ 1 1 . p

%stimacin de los cuantiles


En 5eneral' los percentiles no son 6nicos $ por lo tanto' no 7a$ una 6nica 8orma de estimarlos( 9na 8orma posible para una muestra aleatoria de tama:o n es:

/)tomar los estad,sticos de orden como los cuantiles (<':8n)* (/':8n)* '''* (@n?<':A8n) respectivamente 3) para los cuantiles con probabilidades entre (<':8n) y (@n?<':A8n)* se interpola linealmente' B) los valores m,nimo o mCimo de la muestra se asi#nan a los cuantiles para probabilidades $uera de ese ran#o'

2rincipales medidas num;ricas de resumen de un conjunto de datos


1+ <ocali=aci>n: valor de %tendencia central& del conjunto

2+ Dispersi>n: alrededor del valor central

3+ ?imetr)a: c>mo estn distribuidos los datos respecto del valor central 4+-

<ocali=aci>n
_

@edia @ediana

x =
0/(5/

x
i =1

<a media est comprendida entre el m)nimo $ el mximo de la muestra(

<a mediana %divide el conjunto de datos en dos subconjuntos ordenados con i5ual cantidad de datos& ( Amportante: la mediana permite trabajar con estimaciones de probabilidades

<ocali=aci>n Ejemplo: *con mu$ pocos datosBB+

2 2

4 4

" "

11 11

14 //4
*outlier+ CC

x = 8

x = 1406

<a media no es robusta ni resistente ?e puede estimar 0ue 2 *3 4 "+ D /(5 D 2*3 , "+

<ocali=aci>n
>os cuantiles ms usados4 @ediana 0/(5 Ferciles' 0/(33 ' 0/(66 Euartiles' 0/(25 ' 0/( Guintiles' deciles' 0/(/5 0/("5
5

Frimedia =

0/(25 + 20/(5 + 0/(

Robustez vs' %$iciencia


0(or &u se usa ms la media &ue la mediana2 (or&ue en el caso (-muy $recuente.) de una distribucin #aussiana es un estimador ms e$iciente &ue la mediana: es decir &ue tiene menos dispersin alrededor del valor a estimar* o de otra $orma* con menos valores (una muestra ms pe&ueDa) se obtiene la misma dispersin' Edems* la media es ms $cil de tratar matemticamente* y es Fnica para una muestra dada'

@atlab
Hariable media cuantil percentil mediana Eomando mean &uantile prctile median

Dispersi>n
Antervalo intercuartil AGI 1 0/(
5

*Iobusto $ resistente+

. 0/(25

%Jo usa& el 25K superior e in8erior de los datos

Dispersi>n
Desviaci>n estndar muestral
*Ji robusta ni resistente+

s=

1 N 1

2 (x i x ) i =1

*L2 1 varian=a de la poblaci>n+

Desviaci>n absoluta de la mediana @AD 1 median Mxi N 0/(5M

?imetr)a
Eoe8iciente de asimetr)a de la muestra

Andice de Rule.Sendall

Ambos son adimensionados

OQ/ OP/

F;cnicas 5r8icas de resumen GoCplots Histo#ramas Distribuciones de $recuencia acumulada

GoCplots (-barritas.)

Toxplots *%barritas&+
Min = 3.20 q0.50 = 60.345 q0.25 = 43.645 q0.75 = 84.96 Max = 124.27

. .

0 10 20 30 40 50 60 70 80 90 100 110 120 130

Femperatura diaria mxima en @elbourne

?e destacan valores extremos inusuales

Histo#ramas
Adems de la locali=aci>n' la dispersi>n' $ la simetr)a' tambi;n muestran si los datos son multimodales

Uisto5ramas
2recipitaci>n Iivera a5osto 1"14.1""

Precipitacin Rivera agosto 1914-1997 25

20

mediana1 !(5 mm media 1 " (" mm


0 50 100 150 200 250 300

No. de ocurrencias

15

10

Uisto5ramas
2recipitaci>n Iivera abril 1"14.1""

mediana111/(5 mm media 1 141( mm

Uisto5ramas

Distribuciones emp)ricas de 8recuencia acumulada

11/(5 mm

mediana111/(5 mm 2*3,11/(5+ 1 /(5


2 *3 , x+

Distribuciones emp)ricas de 8recuencia acumulada

@atlab
%Hariable& Desviacin estndar* varianza Intervalo intercuartil Desv' abs' de la mediana 5isto#rama Distr' de $recuencia acumulada Eomando std var i&r mad

5ist ecd$