Está en la página 1de 34

02 - Estudio Exploratorio

de Datos: Univariable y
Multivariable

Despliegue de datos
Tablas de frecuencia e histogramas
Estadsticas bsicas
Distribucin normal y lognormal
Grfico de dispersin
Q-q plot
Coeficiente de correlacin
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Objetivos del Estudio


Exploratorio De Datos

Desplegar los datos en diferentes formas


Entender los datos: poblaciones estadsticas vs.
poblaciones geolgicas
Seleccionar poblaciones geolgicas
Decisin de estacionaridad
Identificar deriva en los datos
Asegurar la calidad de los datos
Resumir parte de la informacin contenida en los
datos
Familiarizarse con los datos y la geologa
Desagrupar datos para modelamiento
geoestadstico
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Despliegue de Datos

Anlisis utilizando plantas y secciones

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Despliegue de Datos

Visualizacin en 3-D
interpretacin

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Despliegue de Datos

Otras formas de desplegar los datos:

Mapas codificados con color


Mapas de indicadores (Deteccin de deriva
en la variable
media mvil)

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Histogramas
Histograma

180
160
140

Frecuencia

Histograma: despliegue
de frecuencia de
ocurrencia de datos en
clases
Histograma acumulado:
despliegue de la
frecuencia acumulada
bajo un valor de corte
(que define una clase)

120
100
80
60
40
20
0
0

0,2 0,4 0,6 0,8

1,2 1,4 1,6 1,8

2,2 2,4 2,6 2,8

3,2 3,4 3,6 3,8

4,2 4,4 4,6 4,8

4,2 4,4 4,6 4,8

Clase

Histograma acumulado
100%

Frecuencia acumulada

200

80%

60%

40%

20%

0%
0

0,2 0,4 0,6 0,8

1,2 1,4 1,6 1,8

2,2 2,4 2,6 2,8

Clase

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

3,2 3,4 3,6 3,8

Histogramas:

Frecuencia

Histogramas

Computa el nmero de muestras en cada clase.


Ancho de clase suele ser constante
la altura de cada barra
del histograma es proporcional a la frecuencia de la clase
Entrega estadsticas de las muestras (no de la poblacin)
Escala logartmica puede ser til
Media y varianza son muy sensibles a valores extremos
Mediana y rango intercuartil son medidas ms robustas

Cmo construirlo?

Dependiendo del nmero de muestras, escoger un nmero de


clases
Desplegar el rango importante de los datos (colas no se ven bien)
Desplegar estadsticas con un nmero razonable de decimales

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Frecuencia Acumulada

Histogramas

Histograma Acumulado:

Puede servir para distinguir poblaciones estadsticas


Puede utilizarse para comparar la distribucin de
datos con modelos paramtricos (normal /
lognormal)
Se utiliza para transformar la distribucin de
muestras a cualquier otra distribucin deseada
Puede utilizarse para ver el efecto de compositar a
un determinado largo

Cuntas muestras vamos a cortar?

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Histogramas
El histograma de frecuencias acumuladas no requiere definir
un ancho de clase; pueden crearse a la resolucin de los datos
Una valiosa herramienta descriptiva y usada para inferencia

G(z)1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0

10

12

14

16

Un cuantil es el valor de la variable que corresponde a una


frecuencia acumulada dada

primer cuartil = cuantil 0.25


segundo cuartil = mediana = cuantil 0.5
tercer cuartil = cuantil 0.75

se puede leer cualquier cuantil del grfico de frecuencia


acumulativa
Se puede tambin leer los intervalos de probabilidad desde el
grafico de frecuencia acumulativa
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Histogramas
G(z)1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0

10

12

14

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

16

Estadsticas Bsicas

Medidas de posicin:

1 n
m z (u )
n 1

Media
Mediana

z (u( n1) / 2 )
( z (u n / 2 ) z (u( n / 2)1 ))
2

1
z (u )du
D D

si n es par
si n es impar

Moda, mnimo y mximo


Rango
Cuartil inferior y superior
Deciles, percentiles y cuantiles: el cuantil p
de la distr. es el valor zp tal que p% de los
datos estaFbajo
( z p ) zProb
{Z z p } p [0,1]
p
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Estadsticas Bsicas

Medidas de dispersin:
1
1 n
2 2
( z (u ) ) 2 du
s ( z (u ) m)

DD
n 1

Varianza

Desviacin estndar

s s2

Rango intercuartil
IQR Q 3 Q 1

Coeficiente de variacin
CVexp .

s
m

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

CVpobl.

Estadsticas Bsicas
Yacimiento tipo prfido
cuprfero
CV = 0.7
Yacimiento de cobre de
mediana var.
CV = 1.5
Yacimiento de oro de alta
variabilidad
CV = 4.5

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Estadsticas Bsicas
Medidas

de forma:

Coeficiente de asimetra (skewness)


1
( z (u ) m)

n
n

Coeficiente de asimetra

Positivo

Mm

s3

Cercano a 0
Frec.

Frec.

Negativo
Frec.

z(x)
z(x)
m
MI54A EVALUACIN DE YACIMIENTOS
UNIVERSIDAD DE CHILE

mM

z(x)

Estadsticas Bsicas
Coeficiente

de aplanamiento (Kurtosis)

1 n
4
(
z
(
u
)

m
)

n 1
Coeficiente de aplanamiento
s4

Da una idea del aplanamiento de la


distribucin (relacin entre altura y ancho
de la campana). Su valor es 3 para
distribuciones normales (Gaussianas)

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

g(z)
0.40
0.35
0.30
0.25

Distribucin Normal
0.20
0.15

0.10

0.05

0.00

10

12

14

16

Propiedades:

Completamente definida por su media y


varianza
Tiene una descripcin matemtica
concisa
Favorable para enfoques tericos de
estimacin

Funcin

de densidad de probabilidad:
g( z )

1
2

1 z

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

g(z)
0.40
0.35
0.30
0.25

Distribucin Normal
0.20
0.15

0.10

0.05

0.00

Estandarizacin:
Distribucin

10

12

14

16

z
y

normal estndar N(0,1)

g( y )

Funcin

1
2

de distribucin acumulada:
y

G( y )

g( y ) dy

corresponde al rea bajo la curva


MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

g(z)
0.40
0.35
0.30
0.25

Distribucin Normal
0.20
0.15

0.10

0.05

0.00

Funcin de
densidad de
probabilidad

g(z)

10

12

14

16

Distribucion de
probabilidad
acumulada

G(z)1.0

0.40

0.9

0.35

0.8

0.30

0.7

0.25

0.6

0.20

0.5
0.4

0.15

0.3

0.10

0.2

0.05
0.00

0.1

10

12

14

16

0.0
0

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

10

12

14

16

g(z)
0.40
0.35
0.30
0.25

Distribucin Normal
0.20
0.15

0.10

0.05

0.00

Intervalos

10

12

14

16

de confianza

68%

95%

g(z)

g(z)

0.40

0.40

0.35

0.35

0.30

0.30

0.25

0.25

0.20

0.20

68%

0.15

95 %

0.15

0.10

0.10

0.05
0.00
0

16%
2

0.05

16%
6

10

12

14

16

0.00
0

2.5%

2.5%
2

z
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

10

12

14

16

g(z)
0.40
0.35
0.30
0.25

Distribucin Normal
0.20
0.15

0.10

0.05

0.00

10

12

14

16

g(y)
0.40
0.35
0.30
0.25
0.20

90 %

0.15
0.10
0.05
0

-4

-3

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

-2

-1

g(z)

0.35

0.30
0.25

Distribucin Lognormal
0.20

0.15

0.10

0.05

0.00

g( z )

10

Una poblacin es lognormal si los logaritmos de


los datos estn distribudos como una normal
Propiedades:

En Ciencias de la Tierra es comn encontrar variables


cuya distribucin es cercana a una lognormal
Relacin con la distribucin normal la hace fcil de
utilizar
Tambin es favorable para enfoques tericos de
estimacin

Funcin de densidad de probabilidad:

2 ln( z )

1
e
z

1 ln( z )

2 ln( z )

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

g(z)

0.35

0.30
0.25

Distribucin Lognormal
0.20

0.15

0.10

0.05

0.00

g(z)

G(z)

0.35

10

1.0

0.9

0.30

0.8
0.25

0.7
0.6

0.20

0.5
0.15

0.4
0.3

0.10

0.2
0.05
0.00

0.1
0

10

0.0

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

10

Grficos de Probabilidad

Q-q plot de una distribucin normal o


lognormal con la distribucin de las
muestras

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Grficos de Probabilidad

Son tiles para chequear la presencia


de dos poblaciones

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Grficos de Probabilidad

Son tiles para chequear la presencia


de dos poblaciones
Debe confirmarse con informacin
geolgica

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Grfico de Dispersin

Anlisis bivariable
Pares deben corresponder a la misma
ubicacin en el espacio (co-localizados)
Grfico de Dispersin
3

2,5

Variable 2

1,5

0,5

0
0

0,5

1,5
Variable 1

2,5

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Correlacin

El coeficiente de correlacin es una medida de


la dependencia lineal entre las dos variables
1 n
( z 1 m Z1 )( z 2 m Z 2 )
n 1

Z1 Z 2

Una correlacin de XY = 1 implica que X e Y


estn perfectamente correlacionadas.
Independencia entre dos variables implica que
el coeficiente de correlacin es cero: XY = 0.
Sin embargo, la inversa no es siempre cierta.
Correlacin cero no implica necesariamente
independencia entre las dos variables.
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Correlacin

Muy sensible a valores aberrantes


El coeficiente de correlacin cambia
incluso de signo

Correlacin con valor aberrante

Correlacin sin valor aberrante


Y

= 0,73
= -0,68
X

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Caso 1

Correlacin

Caso 2

Y
= 1

= 0,68

Diferentes

ejemplos de
coeficiente
de
correlacin

Caso 3

Caso 4
Y

=0

=0

Caso 6

Caso 5
Y

Y
= -0,87
= -1

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Grficos de dispersin

Despliegue bivariable, estimado -verdadero, dos


variables, o la misma variable separada por algn
vector distancia (h-scatterplot)
El coeficiente de correlacin lineal vara entre -1 y +1 y
es sensible a valores extremos (puntos fuera de la
nube principal)
El coeficiente de correlacin de posicin es un
complemento til:

si rank > entonces unos pocos outliers daan la que en otro


caso seria una buena correlacin
si rank < entonces unos pocos outliers mejoran la que en otro
caso seria una pobre correlacin
si rank = 1 entonces una transformacin no lineal de una
variable puede hacer = 1

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Q-q Plot

Grfico Q-Q: para comparar


dos distribuciones F1 y F2
cuantil a cuantil.

No se utiliza para comparar


la relacin par a par que
hay entre las variables.

Escoger una serie de


valores de probabilidad
pk, k = 1, 2, , K

Graficar q1(pk) versus q2(pk),


k = 1, 2, , K

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Q-q Plot

Si todos los puntos caen en una lnea de 45o,


las dos distribuciones son exactamente iguales
Si la lnea esta desplazada de los 45o, las dos
distribuciones tienen la misma forma pero
diferentes medias
Si la inclinacin de la lnea no es 45o, las dos
distribuciones tienen diferentes varianzas
Si hay un carcter no lineal en el grafico Q-Q,
las distribuciones tienen diferentes formas en
el histograma

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Q-q Plot

Frecuencia
Frecuencia Acumulada

Frecuencia

Histogramas de ley DDH y ley por RC


Muestreo preferencial explica la diferencia. No son
muestras pareadas por lo que no podemos detectar
sesgo en las muestras

Frecuencia acumulada

Ley DDH

Ley RC

MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

Ley DDH

Q-q Plot

Ley RC

Leer los cuantiles correspondientes de los


grficos de distribucin de frecuencia
acumulada en la pgina anterior.
Trazar esos cuantiles en el grfico
MI54A EVALUACIN DE YACIMIENTOS UNIVERSIDAD DE CHILE

También podría gustarte