Documentos de Académico
Documentos de Profesional
Documentos de Cultura
007 Eda
007 Eda
Datos: Univariable y
Multivariable
◼ Despliegue de datos
◼ Tablas de frecuencia e histogramas
◼ Estadísticas básicas
◼ Distribución normal y lognormal
◼ Gráfico de dispersión
◼ Q-q plot
◼ Coeficiente de correlación
Objetivos del Estudio
Exploratorio De Datos
◼ Desplegar los datos en diferentes formas
◼ Entender los datos: poblaciones estadísticas vs.
poblaciones geológicas
◼ Seleccionar poblaciones geológicas
◼ Decisión de estacionaridad
◼ Identificar deriva en los datos
◼ Asegurar la calidad de los datos
◼ Resumir parte de la información contenida en los
datos
◼ Familiarizarse con los datos y la geología
◼ Desagrupar datos para modelamiento geoestadístico
Despliegue de Datos
◼ Análisis utilizando plantas y secciones
Despliegue de Datos
◼ Visualización en 3-D interpretación
Despliegue de Datos
◼ Otras formas de desplegar los datos:
◼ Mapas codificados con color
◼ Mapas de indicadores (Detección de deriva en la
variable media móvil)
Histogramas
Histograma
Histograma: despliegue de
200
◼ 180
frecuencia de ocurrencia de
160
140
Frecuencia
datos en clases
120
100
80
◼ Histograma acumulado:
60
40
despliegue de la frecuencia 20
Clase
clase)
100%
Frecuencia acumulada
80%
60%
40%
20%
0%
0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2 2,2 2,4 2,6 2,8 3 3,2 3,4 3,6 3,8 4 4,2 4,4 4,6 4,8 5
Clase
Frecuencia
Histogramas
◼ Histogramas
◼ Computa el número de muestras en cada clase.
◼ “Ancho” de clase suele ser constante la altura de cada
barra del histograma es proporcional a la frecuencia de la clase
◼ Entrega estadísticas de las muestras (no de la población)
◼ Escala logarítmica puede ser útil
◼ Media y varianza son muy sensibles a valores extremos
◼ Mediana y rango intercuartil son medidas más robustas
◼ ¿Cómo construirlo?
◼ Dependiendo del número de muestras, escoger un número de
clases
◼ Desplegar el rango importante de los datos (colas no se ven bien)
◼ Desplegar estadísticas con un número razonable de decimales
Frecuencia Acumulada
1
Histogramas
0
◼ Histograma Acumulado
◼ Puede servir para distinguir poblaciones estadísticas
◼ Puede utilizarse para comparar la distribución de datos con
modelos paramétricos (normal / lognormal)
◼ Se utiliza para transformar la distribución de muestras a
cualquier otra distribución deseada
◼ Puede utilizarse para ver el efecto de compositar a un
determinado largo
◼ ¿Cuántas muestras vamos a cortar?
Histogramas
◼ El histograma de frecuencias acumuladas no requiere definir un ancho
de clase; pueden crearse a la resolución de los datos
◼ Una valiosa herramienta descriptiva y usada para inferencia
G(z)
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0 2 4 6 8 10 12 14 16
z
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0 2 4 6 8 10 12 14 16
z
Estadísticas Básicas
◼ Medidas de posición:
1 n 1
D D
m = z (u ) =
◼ Media n =1
z (u )du
◼ Desviación estándar
s = s2 = 2
Mm z(x)
M
z(x) mM
m z(x)
Estadísticas Básicas
◼ Coeficiente de aplanamiento (Kurtosis)
1 n
n =1
( z (u ) − m ) 4
Coeficiente de aplanamiento =
s4
0.35
0.30
Distribución Normal
0.25
0.20
0.15
0.10
0.05
0.00
0 2 4 6 8 10 12 14 16
z
◼ Propiedades:
◼ Completamente definida por su media y
varianza
◼ Tiene una descripción matemática concisa
0.35
0.30
Distribución Normal
0.25
0.20
0.15
0.10
0.05
0.00
0 2 4 6 8 10 12 14 16
z
z−
◼ Estandarización: y=
◼ Distribución normal estándar N(0,1)
2
y
1 −
g( y ) = e 2
2
◼ Función de distribución acumulada:
y
G( y ) = g( y) dy
−
0.35
0.30
Distribución Normal
0.25
0.20
0.15
0.10
0.05
0.00
0 2 4 6 8 10 12 14 16
z
0.25 0.6
0.20 0.5
0.4
0.15
0.3
0.10
0.2
0.05 0.1
0.00 0.0
0 2 4 6 8 10 12 14 16 0 2 4 6 8 10 12 14 16
z z
g(z)
0.40
0.35
0.30
Distribución Normal
0.25
0.20
0.15
0.10
0.05
0.00
0 2 4 6 8 10 12 14 16
z
◼ Intervalos de confianza
68% 95%
g(z) g(z)
0.40 0.40
0.35 0.35
0.30 0.30
0.25 0.25
0.20 0.20 95 %
0.15 68% 0.15
0.10 0.10
0.05
16% 16%
0.05 2.5% 2.5%
0.00 0.00
0 2 4 6 8 10 12 14 16 0 2 4 6 8 10 12 14 16
z z
g(z)
0.40
0.35
0.30
Distribución Normal
0.25
0.20
0.15
0.10
0.05
0.00
0 2 4 6 8 10 12 14 16
z
g(y)
0.40
0.35
0.30
0.25
0.20
0.15 90 %
0.10
0.05
0
-4 -3 -2 -1 0 1 2 3 4 y
g(z)
0.35
0.30
0.25
Distribución Lognormal
0.20
0.15
0.10
0.05
0.00
0 2 4 6 8 10
z
0.30
0.25
Distribución Lognormal
0.20
0.15
0.10
0.05
0.00
0 2 4 6 8 10
z
g(z) G(z)
0.35 1.0
0.9
0.30
0.8
0.25 0.7
0.6
0.20
0.5
0.15
0.4
0.10 0.3
0.2
0.05
0.1
0.00 0.0
0 2 4 6 8 10 0 2 4 6 8 10 z
z
Gráficos de Probabilidad
◼ Q-q plot de una distribución normal o
lognormal con la distribución de las muestras
Gráficos de Probabilidad
◼ Son útiles para chequear la presencia de dos
poblaciones
Gráficos de Probabilidad
◼ Son útiles para chequear la presencia de dos
poblaciones
◼ Debe confirmarse con información geológica
Gráfico de Dispersión
◼ Análisis bivariable
◼ Pares deben corresponder a la misma
ubicación en el espacio (co-localizados)
Gráfico de Dispersión
2,5
2
Variable 2
1,5
0,5
0
0 0,5 1 1,5 2 2,5 3
Variable 1
Correlación
◼ El coeficiente de correlación es una medida de la
dependencia lineal entre las dos variables
1 n
( z 1 − m Z1 )(z 2 − m Z 2 )
n =1
=
Z1 Z 2
Y Y
= 0,73
= -0,68
X X
Caso 1 Caso 2
Y Y
Correlación = 1 = 0,68
X X
◼ Diferentes
ejemplos de Caso 3
Y
Caso 4
Y
correlación X X
Caso 5 Caso 6
Y Y
= -0,87
= -1
X X
Gráficos de dispersión
◼ Despliegue bivariable, estimado-verdadero, dos
variables, o la misma variable separada por algún
vector distancia (h-scatterplot)
◼ El coeficiente de correlación lineal varía entre -1 y +1
y es sensible a valores extremos (puntos fuera de la
nube principal)
◼ El coeficiente de correlación de posición es un
complemento útil:
◼ si rank > entonces unos pocos outliers dañan la que en
otro caso sería una buena correlación
◼ si rank < entonces unos pocos outliers mejoran la que en
otro caso sería una pobre correlación
◼ si rank = 1 entonces una transformación no lineal de una
variable puede hacer = 1
Q-q Plot
◼ Gráfico Q-Q: para comparar
dos distribuciones F1 y F2
cuantil a cuantil.
Frecuencia
Frecuencia
Frecuencia Acumulada
Frecuencia acumulada
Ley DDH
Ley RC