Está en la página 1de 34

02 - Estudio Exploratorio de

Datos: Univariable y
Multivariable
 Despliegue de datos
 Tablas de frecuencia e histogramas
 Estadísticas básicas
 Distribución normal y lognormal
 Gráfico de dispersión
 Q-q plot
 Coeficiente de correlación

MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE


Objetivos del Estudio
Exploratorio De Datos
 Desplegar los datos en diferentes formas
 Entender los datos: poblaciones estadísticas vs.
poblaciones geológicas
 Seleccionar poblaciones geológicas
 Decisión de estacionaridad
 Identificar deriva en los datos
 Asegurar la calidad de los datos
 Resumir parte de la información contenida en los
datos
 Familiarizarse con los datos y la geología
 Desagrupar datos para modelamiento geoestadístico

MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE


Despliegue de Datos
 Análisis utilizando plantas y secciones

MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE


Despliegue de Datos
 Visualización en 3-D interpretación

MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE


Despliegue de Datos
 Otras formas de desplegar los datos:
 Mapas codificados con color
 Mapas de indicadores (Detección de deriva en la
variable media móvil)

MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE


Histogramas
Histograma

Histograma: despliegue de
200

 180

frecuencia de ocurrencia de
160

140

Frecuencia
datos en clases
120

100

80

 Histograma acumulado: 60

40

despliegue de la frecuencia
20

0
0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2 2,2 2,4 2,6 2,8 3 3,2 3,4 3,6 3,8 4 4,2 4,4 4,6 4,8 5

acumulada bajo un valor Clase

de corte (que define una 100%


Histograma acumulado

clase)
Frecuencia acumulada

80%

60%

40%

20%

0%
0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2 2,2 2,4 2,6 2,8 3 3,2 3,4 3,6 3,8 4 4,2 4,4 4,6 4,8 5

Clase
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Frecuencia
Histogramas
 Histogramas
 Computa el número de muestras en cada clase.
 “Ancho” de clase suele ser constante la altura de cada barra
del histograma es proporcional a la frecuencia de la clase
 Entrega estadísticas de las muestras (no de la población)
 Escala logarítmica puede ser útil
 Media y varianza son muy sensibles a valores extremos
 Mediana y rango intercuartil son medidas más robustas
 ¿Cómo construirlo?
 Dependiendo del número de muestras, escoger un número de clases
 Desplegar el rango importante de los datos (colas no se ven bien)
 Desplegar estadísticas con un número razonable de decimales

MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE


Frecuencia Acumulada
1

Histogramas
0

 Histograma Acumulado
 Puede servir para distinguir poblaciones estadísticas
 Puede utilizarse para comparar la distribución de datos con
modelos paramétricos (normal / lognormal)
 Se utiliza para transformar la distribución de muestras a
cualquier otra distribución deseada
 Puede utilizarse para ver el efecto de compositar a un
determinado largo
 ¿Cuántas muestras vamos a cortar?

MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE


Histogramas
 El histograma de frecuencias acumuladas no requiere definir un ancho
de clase; pueden crearse a la resolución de los datos
 Una valiosa herramienta descriptiva y usada para inferencia
G(z)1.0

0.9

0.8
0.7

0.6

0.5
0.4

0.3

0.2
0.1

0.0
0 2 4 6 8 10 12 14 16
z

 Un cuantil es el valor de la variable que corresponde a una frecuencia


acumulada dada
 primer cuartil = cuantil 0.25
 segundo cuartil = mediana = cuantil 0.5
 tercer cuartil = cuantil 0.75
se puede leer cualquier cuantil del gráfico de frecuencia acumulativa
 Se puede también leer los intervalos de probabilidad desde el grafico
de frecuencia acumulativa

MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE


Histogramas
G(z)1.0

0.9

0.8

0.7

0.6

0.5
0.4

0.3

0.2

0.1
0.0
0 2 4 6 8 10 12 14 16
z

MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE


Estadísticas Básicas
 Medidas de posición:
1 n 1
D D
m   z (u )  z (u )du
 Media n  1

 z (u( n1) / 2 ) si n es par



 Mediana M   ( z (u n / 2 )  z (u( n / 2)1 ))
si n es impar
 2
 Moda, mínimo y máximo
 Rango
 Cuartil inferior y superior
 Deciles, percentiles y cuantiles: el cuantil p de la
distr. es el valor zp tal que p% de los datos está
bajo zp F ( z p )  Prob{Z  z p }  p  [0,1]
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Estadísticas Básicas
 Medidas de dispersión:
1 n 1
s   ( z (u )  m)
2 2 2 
 ( z (u )   ) 2 du
 Varianza n  1 DD

 Desviación estándar s  s2   2

 Rango intercuartil IQR  Q 3  Q 1

s 
 Coeficiente de variación CVexp . 
m
CVpobl. 

MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE


Estadísticas Básicas
Yacimiento tipo pórfido
cuprífero CV = 0.7
Yacimiento de cobre de
mediana var. CV = 1.5
Yacimiento de oro de alta
variabilidad CV = 4.5

MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE


Estadísticas Básicas
 Medidas de forma:
 Coeficiente de asimetría (skewness)
1 n

n
 ( z (u )  m)
 1

3

Coeficiente de asimetría 
s3
Positivo Cercano a 0 Negativo
Frec. Frec.
Frec.

Mm z(x)
M
z(x) mM
m z(x)
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Estadísticas Básicas
Coeficiente de aplanamiento (Kurtosis)
1 n
 
n  1
( z (u )  m ) 4

Coeficiente de aplanamiento 
s4

Da una idea del aplanamiento de la


distribución (relación entre altura y ancho de
la campana). Su valor es 3 para
distribuciones normales (Gaussianas)

MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE


g(z)
0.40

0.35

0.30

0.25

Distribución Normal
0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10 12 14 16
z

 Propiedades:
 Completamente definida por su media y
varianza
 Tiene una descripción matemática concisa

 Favorable para enfoques teóricos de


estimación
 Función de densidad de probabilidad:
2
1  z  
1  
2  

g( z )  e
2  
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
g(z)
0.40

0.35

0.30

0.25

Distribución Normal
0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10 12 14 16
z

z
 Estandarización: y

 Distribución normal estándar N(0,1)
2
y
1 
g( y )  e 2

2
 Función de distribución acumulada:
y

G( y )   g( y ) dy


corresponde al área bajo la curva


MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
g(z)
0.40

0.35

0.30

0.25

Distribución Normal
0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10 12 14 16
z

 Función de densidad  Distribución de


de probabilidad probabilidad
acumulada
g(z) G(z)1.0
0.40
0.9
0.35
0.8
0.30 0.7

0.25 0.6

0.20 0.5

0.4
0.15
0.3
0.10
0.2
0.05 0.1

0.00 0.0
0 2 4 6 8 10 12 14 16 0 2 4 6 8 10 12 14 16
z z
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
g(z)
0.40

0.35

0.30

0.25

Distribución Normal
0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10 12 14 16
z

 Intervalos de confianza
68% 95%

g(z) g(z)
0.40 0.40

0.35 0.35

0.30 0.30

0.25 0.25

0.20 0.20 95 %
0.15 68% 0.15

0.10 0.10

0.05
16% 16%
0.05 2.5% 2.5%
0.00 0.00
0 2 4 6 8 10 12 14 16 0 2 4 6 8 10 12 14 16
z
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
z
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
g(z)
0.40

0.35

0.30

0.25

Distribución Normal
0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10 12 14 16
z

g(y)
0.40

0.35

0.30

0.25

0.20

0.15 90 %
0.10

0.05

0
-4 -3 -2 -1 0 1 2 3 4 y
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
g(z)
0.35

0.30

0.25

Distribución Lognormal
0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10
z

 Una población es lognormal si los logaritmos de los


datos están distribuidos como una normal
 Propiedades:
 En Ciencias de la Tierra es común encontrar variables cuya
distribución es cercana a una lognormal
 Relación con la distribución normal la hace fácil de utilizar
 También es favorable para enfoques teóricos de estimación
 Función de densidad de probabilidad:
2
1  ln( z   )   
 
1 1 2  ln( z   ) 
g( z )   e
2   ln( z  ) z

MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE


g(z)
0.35

0.30

0.25

Distribución Lognormal
0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10
z

g(z) G(z)
0.35 1.0

0.9
0.30
0.8
0.25 0.7

0.6
0.20
0.5
0.15
0.4

0.10 0.3

0.2
0.05
0.1

0.00 0.0
0 2 4 6 8 10 0 2 4 6 8 10 z
z
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Gráficos de Probabilidad
 Q-q plot de una distribución normal o
lognormal con la distribución de las muestras

MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE


Gráficos de Probabilidad
 Son útiles para chequear la presencia de dos
poblaciones

MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE


Gráficos de Probabilidad
 Son útiles para chequear la presencia de dos
poblaciones
 Debe confirmarse con información geológica

MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE


Gráfico de Dispersión
 Análisis bivariable
 Pares deben corresponder a la misma
ubicación en el espacio (co-localizados)
Gráfico de Dispersión

2,5

2
Variable 2

1,5

0,5

0
0 0,5 1 1,5 2 2,5 3
Variable 1
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Correlación
 El coeficiente de correlación es una medida de la
dependencia lineal entre las dos variables
1 n
  ( z 1  m Z1 )(z 2   m Z 2 )
n  1 

 Z1   Z 2

 Una correlación de XY = 1 implica que X e Y están


perfectamente correlacionadas.
 Independencia entre dos variables implica que el
coeficiente de correlación es cero: XY = 0. Sin
embargo, la inversa no es siempre cierta. Correlación
cero no implica necesariamente independencia entre
las dos variables.
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Correlación
 Muy sensible a valores aberrantes
 El coeficiente de correlación cambia incluso
de signo

Correlación con valor aberrante Correlación sin valor aberrante

Y Y

= 0,73
 = -0,68

X X

MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE


Caso 1 Caso 2
Y Y

Correlación =1  = 0,68

X X

 Diferentes
ejemplos de Caso 3
Y
Caso 4
Y

coeficiente de =0 =0

correlación X X

Caso 5 Caso 6
Y Y

 = -0,87

 = -1

X X

MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE


Gráficos de dispersión
 Despliegue bivariable, estimado-verdadero, dos variables, o la
misma variable separada por algún vector distancia (h-
scatterplot)
 El coeficiente de correlación lineal varía entre -1 y +1 y es
sensible a valores extremos (puntos fuera de la nube principal)
 El coeficiente de correlación de posición es un complemento
útil:
 si rank >  entonces unos pocos outliers dañan la que en otro caso
sería una buena correlación
 si rank <  entonces unos pocos outliers mejoran la que en otro caso
sería una pobre correlación
 si rank = 1 entonces una transformación no lineal de una variable
puede hacer  = 1

MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE


Q-q Plot
 Gráfico Q-Q: para comparar dos
distribuciones F1 y F2 cuantil a
cuantil.

 No se utiliza para comparar la


relación par a par que hay entre
las variables.

 Escoger una serie de valores de


probabilidad
pk, k = 1, 2, …, K

 Graficar q1(pk) versus q2(pk), k


= 1, 2, …, K

MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE


Q-q Plot
 Si todos los puntos caen en una línea de 45o, las dos
distribuciones son exactamente iguales
 Si la línea está desplazada de los 45o, las dos
distribuciones tienen la misma forma pero diferentes
medias
 Si la inclinación de la línea no es 45o, las dos
distribuciones tienen diferentes varianzas
 Si hay un carácter no lineal en el grafico Q-Q, las
distribuciones tienen diferentes formas en el
histograma

MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE


Q-q Plot
 Histogramas de ley DDH y ley por RC
 Muestreo preferencial explica la diferencia. No son muestras
“pareadas” por lo que no podemos detectar sesgo en las
muestras

Frecuencia
Frecuencia

Frecuencia Acumulada
Frecuencia acumulada

Ley DDH Ley RC


MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Q-q Plot

Ley DDH

Ley RC

 Leer los cuantiles correspondientes de los gráficos de


distribución de frecuencia acumulada en la página
anterior.
 Trazar esos cuantiles en el gráfico
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE

También podría gustarte