Está en la página 1de 38

Ayudanta/Laboratorio 2

EDA y Variograma
MIN 235 Geoestadstica
Rodrigo Estay Huidobro
rodrigo.estayh@usm.cl
Distribucin Normal
Propiedades:
Completamente definida por su media y varianza
Tiene una descripcin matemtica concisa
Favorable para enfoques tericos de estimacin
Funcin de densidad de probabilidad:
Distribucin Normal
Intervalos de confianza

P[z1 z z2] = 1 -


= /2

Distribucin Normal
Distribucin Lognormal
Una poblacin es lognormal si los logaritmos de los datos
estn distribuidos como una normal
Propiedades:
En Ciencias de la Tierra es comn encontrar variables cuya distribucin
es cercana a una lognormal
Relacin con la distribucin normal la hace fcil de utilizar
Tambin es favorable para enfoques tericos de estimacin
Valores muy altos pueden ser comparables con valores muy chicos
Funcin de densidad de probabilidad:
Distribucin Lognormal
Ejemplo (nmero de muestras)
Se quiere saber el valor promedio de la concentracin de un
cierto mineral en una sector escondido de la cordillera, para lo
cual se. Se requiere saber cuantas muestras deben ser tomadas
en terreno, para que la estimacin tenga un error mximo de 5
gramos/ton, y la desviacin tpica observada en esa rea en la
cordillera en estudio es de 12 gramos/ton. Calculara para un
nivel de confianza de 90%, 95% y 99%
Ejemplo (solucin)
2
2
2
144
= 2 = 1,645 x = 15,58 16
25
100 x (1-) = 90 , con = 0,1 con probabilidad /2 = 0,05

2 144
2 2
= 2 = 1,96 x 22,13 22
25
100 x (1-) = 95 , con = 0,05 con probabilidad /2 = 0,025

2 144
2 2
= 2 = 2,58 x 38,34 38
25
100 x (1-) = 99 , con = 0,01 con probabilidad /2 = 0,005
Ejemplo (continuacin)
Supongamos que trabajando con el error de 3
gramos/tonelada, al 90% de confianza se hacen
44 muestras, se va a terreno y se obtiene una
media 325 gramos/tonelada, con una desviacin
tpica muestral de 14.2 gramos/tonelada. Cul
es el error de la estimacin?
Ejemplo (solucin)
14,2
= = 1,645 x = 3,52 /
44

La desviacin tpica muestral ha resultado superior a la poblacional,


(12 gramos/tonelada). Entonces nos quedamos con la muestral

2 2
14,2
= 2 2 = 1,6452 x 2
= 61
3

Para obtener una medicin la cual tenga un error real de 3 g/ton,


se necesita un nmero de 61 muestras > a las 44 muestras antes
calculadas.
ltimo de muestreo
Lo anterior se realiz considerando una poblacin infinita (o el
muestreo es muy pequeo, pero significativa, comparado con la
poblacin)

El mismo anlisis se puede realizar considerando una poblacin


finita


=
1

2 2
=
1 2 + 2 2
Estudio exploratorio de datos (EDA)
Presentacin de los datos
Estudiar (mediante herramientas estadsticas simples) la cantidad, calidad y
ubicacin de los datos disponibles para analizar una variable regionalizada

Definir la(s) zona(s) de estudio

Anticipar dificultades o problemas que puedan surgir en la fase de estimacin


local o de simulacin.
Estudio exploratorio de datos (EDA)
Tabla de frecuencia e histograma
Dan una representacin de la distribucin experimental de los datos:
tabla de frecuencia histograma
frecuencia acumulada histograma acumulado o funcin de distribucin
curvas de tonelaje ley, ley promedio ley...

Utilidad
ver la distribucin de valores (rango, forma, asimetra)
detectar valores atpicos (outliers)
detectar bi o multi-modalidades (mezcla de varias poblaciones?)

Recordar que los histogramas y las curvas de tonelaje ley dependen


del soporte (es, decir, el volumen) de la medicin.
Histograma Histograma acumulado

Curva tonelaje - ley Curva ley promedio - ley


Estudio exploratorio de datos (EDA)
Estadsticas bsicas
medidas de posicin
media
cuantiles / percentiles: mediana, cuartiles, quintiles, deciles
mnimo, mximo
moda

medidas de dispersin
varianza, desviacin estndar
coeficiente de variacin
rango
rango intercuartil

medidas de forma
coeficiente de asimetra (skewness), coeficiente de aplanamiento (kurtosis)
Estudio exploratorio de datos (EDA)
Valores atpicos

Suelen plantear problemas en el estudio estadstico / geoestadstico


introducen variabilidad y complican el estudio variogrfico

conducen a zonas amplias con valores estimados muy altos

Nunca se debe eliminar un valor atpico sin razn (falla en el protocolo de


medicin, en la transcripcin del dato, valor ausente codificado como -99, etc.).
Adems, ningn test estadstico puede probar si un valor es aberrante o no

A menudo, los valores atpicos son aquellos de mayor inters (evaluacin de


recurso, concentracin de contaminantes)
Estudio exploratorio de datos (EDA)
Desagrupamiento
Consiste en ponderar los datos al momento de calcular su histograma,
tomando en cuenta el grado de aislamiento de cada dato.

Mtodo de los polgonos de influencia

Se pondera cada dato proporcionalmente a su volumen de influencia


en el campo.
Estudio exploratorio de datos (EDA)
Desagrupamiento
Mtodo de las celdas

Se divide la zona muestreada en celdas de mismo volumen. Cada celda


tiene el mismo ponderador, el cual se reparte entre las muestras
contenidas en esta celda.
Comentarios

Los algoritmos de desagrupamiento presentados son tiles cuando la


malla de muestreo no es regular (en especial, cuando se tiene un
muestreo preferencial)

Pro: consideran criterios geomtricos al ponderar los datos en funcin


de su grado de aislamiento: mientras ms aislado, mayor ponderacin

Contra: no toman en cuenta la continuidad espacial de los valores, aunque


idealmente este factor tambin debera ser tomado en consideracin.
Estudio exploratorio de datos (EDA)
Scatterplot
Visualiza los valores de una variable en funcin de otra
ver la relacin par a par de ambas variables o correlacin
detectar valores aberrantes
Estudio exploratorio de datos (EDA)
Coeficiente de correlacin
El coeficiente de correlacin lineal es un ndice entre 1 y 1 de la similitud
entre dos variables. Es sensible a la presencia de valores aberrantes y no
detecta relaciones no lineales.
Cuando existen ms de dos variables, se puede construir una matriz de
correlacin: en la interseccin de la fila i con la columna j, se coloca el valor
del coeficiente de correlacin entre las variables ni y nj.

--------------------------------------------------------------------
| VARIABLE | Cd | Co | Cr | Cu | Ni | Pb | Zn |
--------------------------------------------------------------------
| Cd | 1.00| 0.26| 0.58| 0.15| 0.49| 0.22| 0.62|
| Co | 0.26| 1.00| 0.48| 0.19| 0.74| 0.16| 0.44|
| Cr | 0.58| 0.48| 1.00| 0.21| 0.71| 0.26| 0.61|
| Cu | 0.15| 0.19| 0.21| 1.00| 0.22| 0.82| 0.66|
| Ni | 0.49| 0.74| 0.71| 0.22| 1.00| 0.27| 0.59|
| Pb | 0.22| 0.16| 0.26| 0.82| 0.27| 1.00| 0.67|
| Zn | 0.62| 0.44| 0.61| 0.66| 0.59| 0.67| 1.00|
--------------------------------------------------------------------
Estudio exploratorio de datos (EDA)
Coeficiente de correlacin

Muy sensible a valores aberrantes


El coeficiente de correlacin cambia incluso de signo

Correlacin con valor aberrante Correlacin sin valor aberrante

Y Y

= 0,73
= -0,68

X X
Estudio exploratorio de datos (EDA)
Q-q plot

Grfico Q-Q: para comparar dos


distribuciones F1 y F2 cuantil a
cuantil.

No se utiliza para comparar la


relacin par a par que hay entre
las variables.

Escoger una serie de valores de


probabilidad
pk, k = 1, 2, , K

Graficar q1(pk) versus q2(pk), k = 1,


2, , K
Estudio exploratorio de datos (EDA)
Q-q plot

Si todos los puntos caen en una lnea de 45o, las dos


distribuciones son exactamente iguales
Si la lnea est desplazada de los 45o, las dos distribuciones
tienen la misma forma pero diferentes medias
Si la inclinacin de la lnea no es 45o, las dos distribuciones
tienen diferentes varianzas
Si hay un carcter no lineal en el grafico Q-Q, las
distribuciones tienen diferentes formas en el histograma
Estudio exploratorio de datos (EDA)
Q-q plot

Q-q plot de una distribucin normal o lognormal con la


distribucin de las muestras
Estudio exploratorio de datos (EDA)
Q-q plot

Son tiles para chequear la presencia de dos poblaciones que debe


confirmarse con informacin geolgica
Estudio exploratorio de datos (EDA)
Q-q plot

Son tiles para chequear la presencia de dos poblaciones que debe


confirmarse con informacin geolgica
Variograma experimental

El variograma terico para una distancia vectorial h se define como:

1 1
(h) = var[ Z(x h) - Z(x)] = E{[ Z(x h) - Z(x)]2 }
2 2

Denotemos como {xa, a= 1... n} los sitios con datos. El variograma


experimental se escribe, reemplazando la esperanza matemtica por la
media experimental correspondiente:

1
(h) =
2 | N(h) |
[z( x
N (h )
a ) - z(x b )]2

con N(h) = { (a,b) tal que xa-xb = h }


| N(h) | = cardinal de N(h)
Ejemplo

Sabemos que para una combinacin lineal de datos, la varianza


podemos escribirla en funcin de la correlacin como:

( ) = ( )

Demostrar que si = 0 entonces

( ) = ( )

Variogramas
Tolerancias

Cuando la malla de muestreo es irregular, se suele definir parmetros de


tolerancia, tanto en la longitud del vector h como en su orientacin:
Variogramas
Tolerancias

Parmetros a especificar para calcular un variograma experimental

direccin de inters: acimut, inclinacin

distancias de inters: paso, nmero de pasos

tolerancia en la direccin: tolerancia angular, anchos de banda

tolerancia en las distancias


Variogramas
Clculo de variogramas experimentales

Especificacin de direccin (irregular):

Y axis (North)

Bandwidth

Azimuth

Azimuth
tolerance
X axis (East)
Variogramas
Clculo de variogramas experimentales

Ejemplo: Comienzo con una separacin (#4)

...
Variogramas
Clculo de variogramas experimentales

...
Variogramas
Clculo de variogramas experimentales

Sin correlacin
Variograma (h)

Variabilidad
En aumento
...

Distancia de separacin (h)


Variogramas
Influencia del paso
Variogramas
Influencia de la tolerancia en la distancia
Variogramas
Influencia en tolerancia angular