Está en la página 1de 34

02 - Estudio Exploratorio de

Datos: Univariable y
Multivariable
◼ Despliegue de datos
◼ Tablas de frecuencia e histogramas
◼ Estadísticas básicas
◼ Distribución normal y lognormal
◼ Gráfico de dispersión
◼ Q-q plot
◼ Coeficiente de correlación
Objetivos del Estudio
Exploratorio De Datos
◼ Desplegar los datos en diferentes formas
◼ Entender los datos: poblaciones estadísticas vs.
poblaciones geológicas
◼ Seleccionar poblaciones geológicas
◼ Decisión de estacionaridad
◼ Identificar deriva en los datos
◼ Asegurar la calidad de los datos
◼ Resumir parte de la información contenida en los
datos
◼ Familiarizarse con los datos y la geología
◼ Desagrupar datos para modelamiento geoestadístico
Despliegue de Datos
◼ Análisis utilizando plantas y secciones
Despliegue de Datos
◼ Visualización en 3-D interpretación
Despliegue de Datos
◼ Otras formas de desplegar los datos:
◼ Mapas codificados con color
◼ Mapas de indicadores (Detección de deriva en la
variable media móvil)
Histogramas
Histograma

Histograma: despliegue de
200

◼ 180

frecuencia de ocurrencia de
160

140

Frecuencia
datos en clases
120

100

80

◼ Histograma acumulado:
60

40

despliegue de la frecuencia 20

acumulada bajo un valor de


0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2 2,2 2,4 2,6 2,8 3 3,2 3,4 3,6 3,8 4 4,2 4,4 4,6 4,8 5

Clase

corte (que define una Histograma acumulado

clase)
100%
Frecuencia acumulada

80%

60%

40%

20%

0%
0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2 2,2 2,4 2,6 2,8 3 3,2 3,4 3,6 3,8 4 4,2 4,4 4,6 4,8 5

Clase
Frecuencia
Histogramas
◼ Histogramas
◼ Computa el número de muestras en cada clase.
◼ “Ancho” de clase suele ser constante la altura de cada
barra del histograma es proporcional a la frecuencia de la clase
◼ Entrega estadísticas de las muestras (no de la población)
◼ Escala logarítmica puede ser útil
◼ Media y varianza son muy sensibles a valores extremos
◼ Mediana y rango intercuartil son medidas más robustas
◼ ¿Cómo construirlo?
◼ Dependiendo del número de muestras, escoger un número de
clases
◼ Desplegar el rango importante de los datos (colas no se ven bien)
◼ Desplegar estadísticas con un número razonable de decimales
Frecuencia Acumulada
1

Histogramas
0

◼ Histograma Acumulado
◼ Puede servir para distinguir poblaciones estadísticas
◼ Puede utilizarse para comparar la distribución de datos con
modelos paramétricos (normal / lognormal)
◼ Se utiliza para transformar la distribución de muestras a
cualquier otra distribución deseada
◼ Puede utilizarse para ver el efecto de compositar a un
determinado largo
◼ ¿Cuántas muestras vamos a cortar?
Histogramas
◼ El histograma de frecuencias acumuladas no requiere definir un ancho
de clase; pueden crearse a la resolución de los datos
◼ Una valiosa herramienta descriptiva y usada para inferencia
G(z)
1.0
0.9

0.8
0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0
0 2 4 6 8 10 12 14 16
z

◼ Un cuantil es el valor de la variable que corresponde a una frecuencia


acumulada dada
◼ primer cuartil = cuantil 0.25
◼ segundo cuartil = mediana = cuantil 0.5
◼ tercer cuartil = cuantil 0.75
se puede leer cualquier cuantil del gráfico de frecuencia acumulativa
◼ Se puede también leer los intervalos de probabilidad desde el grafico
de frecuencia acumulativa
Histogramas
G(z)
1.0
0.9

0.8
0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0
0 2 4 6 8 10 12 14 16
z
Estadísticas Básicas
◼ Medidas de posición:
1 n 1
D D
m =  z (u ) =
◼ Media n  =1
z (u )du

 z (u( n+1) / 2 ) si n es par


◼ Mediana 
M =  ( z (u n / 2 ) + z (u( n / 2 )+1 ))
 si n es impar
2
◼ Moda, mínimo y máximo
◼ Rango
◼ Cuartil inferior y superior
◼ Deciles, percentiles y cuantiles: el cuantil p de la
distr. es el valor zp tal que p% de los datos está
bajo zp F ( z ) = Prob{Z  z } = p  [0,1]
p p
Estadísticas Básicas
◼ Medidas de dispersión:
1 n 1
◼ Varianza s =  ( z (u ) − m)
2 2 2 =
DD ( z (u ) −  ) 2 du
n  =1

◼ Desviación estándar
s = s2  = 2

◼ Rango intercuartil IQR = Q 3 − Q1

◼ Coeficiente de variación CVexp . =


s
CVpobl . =

m 
Estadísticas Básicas
Yacimiento tipo pórfido
cuprífero CV = 0.7
Yacimiento de cobre de
mediana var. CV = 1.5
Yacimiento de oro de alta
variabilidad CV = 4.5
Estadísticas Básicas
◼ Medidas de forma:
◼ Coeficiente de asimetría (skewness)
1 n
n
 ( z (u ) − m) 3
Coeficiente de asimetría =  =1
s3
Positivo Cercano a 0 Negativo
Frec. Frec.
Frec.

Mm z(x)
M
z(x) mM
m z(x)
Estadísticas Básicas
◼ Coeficiente de aplanamiento (Kurtosis)
1 n
 
n  =1
( z (u ) − m ) 4

Coeficiente de aplanamiento =
s4

Da una idea del aplanamiento de la


distribución (relación entre altura y ancho
de la campana). Su valor es 3 para
distribuciones normales (Gaussianas)
g(z)
0.40

0.35

0.30

Distribución Normal
0.25

0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10 12 14 16
z

◼ Propiedades:
◼ Completamente definida por su media y
varianza
◼ Tiene una descripción matemática concisa

◼ Favorable para enfoques teóricos de


estimación
◼ Función de densidad de probabilidad:
2
1  z − 
1 −  
2  
g( z ) = e
2  
g(z)
0.40

0.35

0.30

Distribución Normal
0.25

0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10 12 14 16
z

z−
◼ Estandarización: y=

◼ Distribución normal estándar N(0,1)
2
y
1 −
g( y ) = e 2

2
◼ Función de distribución acumulada:
y

G( y ) =  g( y) dy
−

corresponde al área bajo la curva


g(z)
0.40

0.35

0.30

Distribución Normal
0.25

0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10 12 14 16
z

◼ Función de densidad ◼ Distribución de


de probabilidad probabilidad
acumulada
g(z) G(z)
1.0
0.40
0.9
0.35
0.8
0.30 0.7

0.25 0.6

0.20 0.5

0.4
0.15
0.3
0.10
0.2
0.05 0.1

0.00 0.0
0 2 4 6 8 10 12 14 16 0 2 4 6 8 10 12 14 16
z z
g(z)
0.40

0.35

0.30

Distribución Normal
0.25

0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10 12 14 16
z

◼ Intervalos de confianza
68% 95%

g(z) g(z)
0.40 0.40

0.35 0.35

0.30 0.30

0.25 0.25

0.20 0.20 95 %
0.15 68% 0.15

0.10 0.10

0.05
16% 16%
0.05 2.5% 2.5%
0.00 0.00
0 2 4 6 8 10 12 14 16 0 2 4 6 8 10 12 14 16
z z
g(z)
0.40

0.35

0.30

Distribución Normal
0.25

0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10 12 14 16
z

g(y)
0.40

0.35

0.30

0.25

0.20

0.15 90 %
0.10

0.05

0
-4 -3 -2 -1 0 1 2 3 4 y
g(z)
0.35

0.30

0.25

Distribución Lognormal
0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10
z

◼ Una población es lognormal si los logaritmos de los


datos están distribuidos como una normal
◼ Propiedades:
◼ En Ciencias de la Tierra es común encontrar variables cuya
distribución es cercana a una lognormal
◼ Relación con la distribución normal la hace fácil de utilizar
◼ También es favorable para enfoques teóricos de estimación
◼ Función de densidad de probabilidad:
2
1  ln(z +  ) −  
− 
1 1 2  ln( z +  ) 
g( z) =  e
2   ln(z + ) z+
g(z)
0.35

0.30

0.25

Distribución Lognormal
0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10
z

g(z) G(z)
0.35 1.0

0.9
0.30
0.8
0.25 0.7

0.6
0.20
0.5
0.15
0.4

0.10 0.3

0.2
0.05
0.1

0.00 0.0
0 2 4 6 8 10 0 2 4 6 8 10 z
z
Gráficos de Probabilidad
◼ Q-q plot de una distribución normal o
lognormal con la distribución de las muestras
Gráficos de Probabilidad
◼ Son útiles para chequear la presencia de dos
poblaciones
Gráficos de Probabilidad
◼ Son útiles para chequear la presencia de dos
poblaciones
◼ Debe confirmarse con información geológica
Gráfico de Dispersión
◼ Análisis bivariable
◼ Pares deben corresponder a la misma
ubicación en el espacio (co-localizados)
Gráfico de Dispersión

2,5

2
Variable 2

1,5

0,5

0
0 0,5 1 1,5 2 2,5 3
Variable 1
Correlación
◼ El coeficiente de correlación es una medida de la
dependencia lineal entre las dos variables
1 n
  ( z 1 − m Z1 )(z 2  − m Z 2 )
n  =1 
=
 Z1   Z 2

◼ Una correlación de XY = 1 implica que X e Y están


perfectamente correlacionadas.
◼ Independencia entre dos variables implica que el
coeficiente de correlación es cero: XY = 0. Sin
embargo, la inversa no es siempre cierta. Correlación
cero no implica necesariamente independencia entre
las dos variables.
Correlación
◼ Muy sensible a valores aberrantes
◼ El coeficiente de correlación cambia incluso
de signo

Correlación con valor aberrante Correlación sin valor aberrante

Y Y

 = 0,73
 = -0,68

X X
Caso 1 Caso 2
Y Y

Correlación = 1  = 0,68

X X

◼ Diferentes
ejemplos de Caso 3
Y
Caso 4
Y

coeficiente de =0 =0

correlación X X

Caso 5 Caso 6
Y Y

 = -0,87

 = -1

X X
Gráficos de dispersión
◼ Despliegue bivariable, estimado-verdadero, dos
variables, o la misma variable separada por algún
vector distancia (h-scatterplot)
◼ El coeficiente de correlación lineal varía entre -1 y +1
y es sensible a valores extremos (puntos fuera de la
nube principal)
◼ El coeficiente de correlación de posición es un
complemento útil:
◼ si rank >  entonces unos pocos outliers dañan la que en
otro caso sería una buena correlación
◼ si rank <  entonces unos pocos outliers mejoran la que en
otro caso sería una pobre correlación
◼ si rank = 1 entonces una transformación no lineal de una
variable puede hacer  = 1
Q-q Plot
◼ Gráfico Q-Q: para comparar
dos distribuciones F1 y F2
cuantil a cuantil.

◼ No se utiliza para comparar la


relación par a par que hay
entre las variables.

◼ Escoger una serie de valores de


probabilidad
pk, k = 1, 2, …, K

◼ Graficar q1(pk) versus q2(pk), k


= 1, 2, …, K
Q-q Plot
◼ Si todos los puntos caen en una línea de 45o, las dos
distribuciones son exactamente iguales
◼ Si la línea está desplazada de los 45o, las dos
distribuciones tienen la misma forma pero diferentes
medias
◼ Si la inclinación de la línea no es 45o, las dos
distribuciones tienen diferentes varianzas
◼ Si hay un carácter no lineal en el grafico Q-Q, las
distribuciones tienen diferentes formas en el
histograma
Q-q Plot
◼ Histogramas de ley DDH y ley por RC
◼ Muestreo preferencial explica la diferencia. No son muestras
“pareadas” por lo que no podemos detectar sesgo en las
muestras

Frecuencia
Frecuencia

Frecuencia Acumulada
Frecuencia acumulada

Ley DDH Ley RC


Q-q Plot

Ley DDH

Ley RC

◼ Leer los cuantiles correspondientes de los gráficos de


distribución de frecuencia acumulada en la página
anterior.
◼ Trazar esos cuantiles en el gráfico

También podría gustarte