007 Eda

02 - Estudio Exploratorio de
Datos: Univariable y
Multivariable
◼ Despliegue de datos
◼ Tablas de frecuencia e histogramas
◼ Estadísticas básicas
◼ Distribución normal y lognormal
◼ Gráfico de dispersión
◼ Q-q plot
◼ Coeficiente de correlación
Objetivos del Estudio
Exploratorio De Datos
◼ Desplegar los datos en diferentes formas
◼ Entender los datos: poblaciones estadísticas vs.
poblaciones geológicas
◼ Seleccionar poblaciones geológicas
◼ Decisión de estacionaridad
◼ Identificar deriva en los datos
◼ Asegurar la calidad de los datos
◼ Resumir parte de la información contenida en los
datos
◼ Familiarizarse con los datos y la geología
◼ Desagrupar datos para modelamiento geoestadístico
Despliegue de Datos
◼ Análisis utilizando plantas y secciones
Despliegue de Datos
◼ Visualización en 3-D interpretación
Despliegue de Datos
◼ Otras formas de desplegar los datos:
◼ Mapas codificados con color
◼ Mapas de indicadores (Detección de deriva en la
variable media móvil)
Histogramas
Histograma
Histograma: despliegue de
200
◼ 180
frecuencia de ocurrencia de
160
140
Frecuencia
datos en clases
120
100
80
◼ Histograma acumulado:
60
40
despliegue de la frecuencia 20
acumulada bajo un valor de

0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2 2,2 2,4 2,6 2,8 3 3,2 3,4 3,6 3,8 4 4,2 4,4 4,6 4,8 5
Clase
corte (que define una Histograma acumulado
clase)
100%
Frecuencia acumulada
80%
60%
40%
20%
0%
0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2 2,2 2,4 2,6 2,8 3 3,2 3,4 3,6 3,8 4 4,2 4,4 4,6 4,8 5
Clase
Frecuencia
Histogramas
◼ Histogramas
◼ Computa el número de muestras en cada clase.
◼ “Ancho” de clase suele ser constante la altura de cada
barra del histograma es proporcional a la frecuencia de la clase
◼ Entrega estadísticas de las muestras (no de la población)
◼ Escala logarítmica puede ser útil
◼ Media y varianza son muy sensibles a valores extremos
◼ Mediana y rango intercuartil son medidas más robustas
◼ ¿Cómo construirlo?
◼ Dependiendo del número de muestras, escoger un número de
clases
◼ Desplegar el rango importante de los datos (colas no se ven bien)
◼ Desplegar estadísticas con un número razonable de decimales
Frecuencia Acumulada
1
Histogramas
0
◼ Histograma Acumulado
◼ Puede servir para distinguir poblaciones estadísticas
◼ Puede utilizarse para comparar la distribución de datos con
modelos paramétricos (normal / lognormal)
◼ Se utiliza para transformar la distribución de muestras a
cualquier otra distribución deseada
◼ Puede utilizarse para ver el efecto de compositar a un
determinado largo
◼ ¿Cuántas muestras vamos a cortar?
Histogramas
◼ El histograma de frecuencias acumuladas no requiere definir un ancho
de clase; pueden crearse a la resolución de los datos
◼ Una valiosa herramienta descriptiva y usada para inferencia
G(z)
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0 2 4 6 8 10 12 14 16
z
◼ Un cuantil es el valor de la variable que corresponde a una frecuencia

acumulada dada
◼ primer cuartil = cuantil 0.25
◼ segundo cuartil = mediana = cuantil 0.5
◼ tercer cuartil = cuantil 0.75
se puede leer cualquier cuantil del gráfico de frecuencia acumulativa
◼ Se puede también leer los intervalos de probabilidad desde el grafico
de frecuencia acumulativa
Histogramas
G(z)
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0 2 4 6 8 10 12 14 16
z
Estadísticas Básicas
◼ Medidas de posición:
1 n 1
D D
m =  z (u ) =
◼ Media n  =1
z (u )du
 z (u( n+1) / 2 ) si n es par

◼ Mediana 
M =  ( z (u n / 2 ) + z (u( n / 2 )+1 ))
 si n es impar
2
◼ Moda, mínimo y máximo
◼ Rango
◼ Cuartil inferior y superior
◼ Deciles, percentiles y cuantiles: el cuantil p de la
distr. es el valor zp tal que p% de los datos está
bajo zp F ( z ) = Prob{Z  z } = p  [0,1]
p p
◼ Medidas de dispersión:
1 n 1
◼ Varianza s =  ( z (u ) − m)
2 2 2 =
DD ( z (u ) −  ) 2 du
n  =1
◼ Desviación estándar
s = s2  = 2
◼ Rango intercuartil IQR = Q 3 − Q1
◼ Coeficiente de variación CVexp . =

s
CVpobl . =

m 
Yacimiento tipo pórfido
cuprífero CV = 0.7
Yacimiento de cobre de
mediana var. CV = 1.5
Yacimiento de oro de alta
variabilidad CV = 4.5
◼ Medidas de forma:
◼ Coeficiente de asimetría (skewness)
1 n
n
 ( z (u ) − m) 3
Coeficiente de asimetría =  =1
s3
Positivo Cercano a 0 Negativo
Frec. Frec.
Frec.
Mm z(x)
M
z(x) mM
m z(x)
◼ Coeficiente de aplanamiento (Kurtosis)
1 n
 
n  =1
( z (u ) − m ) 4
Coeficiente de aplanamiento =
s4
Da una idea del aplanamiento de la

distribución (relación entre altura y ancho
de la campana). Su valor es 3 para
distribuciones normales (Gaussianas)
g(z)
0.40
0.35
0.30
Distribución Normal
0.25
0.20
0.15
0.10
0.05
0.00
0 2 4 6 8 10 12 14 16
z
◼ Propiedades:
◼ Completamente definida por su media y
varianza
◼ Tiene una descripción matemática concisa
◼ Favorable para enfoques teóricos de

estimación
◼ Función de densidad de probabilidad:
2
1  z − 
1 −  
2  
g( z ) = e
2  
g(z)
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
0 2 4 6 8 10 12 14 16
z
z−
◼ Estandarización: y=

◼ Distribución normal estándar N(0,1)
2
y
1 −
g( y ) = e 2
2
◼ Función de distribución acumulada:
y
G( y ) =  g( y) dy
−
corresponde al área bajo la curva

g(z)
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
0 2 4 6 8 10 12 14 16
z
◼ Función de densidad ◼ Distribución de

de probabilidad probabilidad
acumulada
g(z) G(z)
1.0
0.40
0.9
0.35
0.8
0.30 0.7
0.25 0.6
0.20 0.5
0.4
0.15
0.3
0.10
0.2
0.05 0.1
0.00 0.0
0 2 4 6 8 10 12 14 16 0 2 4 6 8 10 12 14 16
z z
g(z)
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
0 2 4 6 8 10 12 14 16
z
◼ Intervalos de confianza
68% 95%
g(z) g(z)
0.40 0.40
0.35 0.35
0.30 0.30
0.25 0.25
0.20 0.20 95 %
0.15 68% 0.15
0.10 0.10
0.05
16% 16%
0.05 2.5% 2.5%
0.00 0.00
0 2 4 6 8 10 12 14 16 0 2 4 6 8 10 12 14 16
z z
g(z)
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
0 2 4 6 8 10 12 14 16
z
g(y)
0.40
0.35
0.30
0.25
0.20
0.15 90 %
0.10
0.05
0
-4 -3 -2 -1 0 1 2 3 4 y
g(z)
0.35
0.30
0.25
Distribución Lognormal
0.20
0.15
0.10
0.05
0.00
0 2 4 6 8 10
z
◼ Una población es lognormal si los logaritmos de los

datos están distribuidos como una normal
◼ Propiedades:
◼ En Ciencias de la Tierra es común encontrar variables cuya
distribución es cercana a una lognormal
◼ Relación con la distribución normal la hace fácil de utilizar
◼ También es favorable para enfoques teóricos de estimación
◼ Función de densidad de probabilidad:
2
1  ln(z +  ) −  
− 
1 1 2  ln( z +  ) 
g( z) =  e
2   ln(z + ) z+
g(z)
0.35
0.30
0.25
Distribución Lognormal
0.20
0.15
0.10
0.05
0.00
0 2 4 6 8 10
z
g(z) G(z)
0.35 1.0
0.9
0.30
0.8
0.25 0.7
0.6
0.20
0.5
0.15
0.4
0.10 0.3
0.2
0.05
0.1
0.00 0.0
0 2 4 6 8 10 0 2 4 6 8 10 z
z
Gráficos de Probabilidad
◼ Q-q plot de una distribución normal o
lognormal con la distribución de las muestras
◼ Son útiles para chequear la presencia de dos
poblaciones
◼ Son útiles para chequear la presencia de dos
poblaciones
◼ Debe confirmarse con información geológica
Gráfico de Dispersión
◼ Análisis bivariable
◼ Pares deben corresponder a la misma
ubicación en el espacio (co-localizados)
Gráfico de Dispersión
2,5
2
Variable 2
1,5
0,5
0
0 0,5 1 1,5 2 2,5 3
Variable 1
Correlación
◼ El coeficiente de correlación es una medida de la
dependencia lineal entre las dos variables
1 n
  ( z 1 − m Z1 )(z 2  − m Z 2 )
n  =1 
=
 Z1   Z 2
◼ Una correlación de XY = 1 implica que X e Y están

perfectamente correlacionadas.
◼ Independencia entre dos variables implica que el
coeficiente de correlación es cero: XY = 0. Sin
embargo, la inversa no es siempre cierta. Correlación
cero no implica necesariamente independencia entre
las dos variables.
Correlación
◼ Muy sensible a valores aberrantes
◼ El coeficiente de correlación cambia incluso
de signo
Correlación con valor aberrante Correlación sin valor aberrante
Y Y
 = 0,73
 = -0,68
X X
Caso 1 Caso 2
Y Y
Correlación = 1  = 0,68
X X
◼ Diferentes
ejemplos de Caso 3
Y
Caso 4
Y
coeficiente de =0 =0
correlación X X
Caso 5 Caso 6
Y Y
 = -0,87
 = -1
X X
Gráficos de dispersión
◼ Despliegue bivariable, estimado-verdadero, dos
variables, o la misma variable separada por algún
vector distancia (h-scatterplot)
◼ El coeficiente de correlación lineal varía entre -1 y +1
y es sensible a valores extremos (puntos fuera de la
nube principal)
◼ El coeficiente de correlación de posición es un
complemento útil:
◼ si rank >  entonces unos pocos outliers dañan la que en
otro caso sería una buena correlación
◼ si rank <  entonces unos pocos outliers mejoran la que en
otro caso sería una pobre correlación
◼ si rank = 1 entonces una transformación no lineal de una
variable puede hacer  = 1
Q-q Plot
◼ Gráfico Q-Q: para comparar
dos distribuciones F1 y F2
cuantil a cuantil.
◼ No se utiliza para comparar la

relación par a par que hay
entre las variables.
◼ Escoger una serie de valores de

probabilidad
pk, k = 1, 2, …, K
◼ Graficar q1(pk) versus q2(pk), k

= 1, 2, …, K
Q-q Plot
◼ Si todos los puntos caen en una línea de 45o, las dos
distribuciones son exactamente iguales
◼ Si la línea está desplazada de los 45o, las dos
distribuciones tienen la misma forma pero diferentes
medias
◼ Si la inclinación de la línea no es 45o, las dos
distribuciones tienen diferentes varianzas
◼ Si hay un carácter no lineal en el grafico Q-Q, las
distribuciones tienen diferentes formas en el
histograma
Q-q Plot
◼ Histogramas de ley DDH y ley por RC
◼ Muestreo preferencial explica la diferencia. No son muestras
“pareadas” por lo que no podemos detectar sesgo en las
muestras
Frecuencia
Frecuencia
Frecuencia Acumulada
Frecuencia acumulada
Ley DDH Ley RC

Q-q Plot
Ley DDH
Ley RC
◼ Leer los cuantiles correspondientes de los gráficos de

distribución de frecuencia acumulada en la página
anterior.
◼ Trazar esos cuantiles en el gráfico

007 Eda

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

007 Eda

Cargado por

Copyright:

Formatos disponibles

02 - Estudio Exploratorio de

acumulada bajo un valor de

corte (que define una Histograma acumulado

◼ Un cuantil es el valor de la variable que corresponde a una frecuencia

 z (u( n+1) / 2 ) si n es par

◼ Rango intercuartil IQR = Q 3 − Q1

◼ Coeficiente de variación CVexp . =

Da una idea del aplanamiento de la

◼ Favorable para enfoques teóricos de

corresponde al área bajo la curva

◼ Función de densidad ◼ Distribución de

◼ Una población es lognormal si los logaritmos de los

◼ Una correlación de XY = 1 implica que X e Y están

Correlación con valor aberrante Correlación sin valor aberrante

coeficiente de =0 =0

◼ No se utiliza para comparar la

◼ Escoger una serie de valores de

◼ Graficar q1(pk) versus q2(pk), k

Ley DDH Ley RC

◼ Leer los cuantiles correspondientes de los gráficos de

También podría gustarte