Está en la página 1de 45

Introducción a la Geoestadística

Ing. Marco A. Hernández García.


GEOMATICA - CESAVEG
Contenido

¿Qué es la geoestadística?

¿Por utilizar geoestadística?

Aplicación de la geoestadística

Un poco de historia ...

Pasos de un estudio geoestadístico


¿Qué es la geoestadística ?

Tradicionalmente:
“GEO” = geología (minería)
Ahora:
“GEO” = geográfico (SIG)

Definición:
”Estudio estadístico de fenómenos naturales que se
distribuyen de forma continua en el espacio y/o el tiempo”

Definiciones alternativas:

“Estadística aplicada a datos geográficos”

“Estadística espacial”

“Gestión, tratamiento e interpretación de datos espaciales”

“Descripción cuantitativa de variables naturales que se distribuyen


en el espacio o en el espacio y el tiempo”
(Chilès y Delfiner, 1999)
¿ Por utilizar geoestadística ?
Un agricultor quiere que se le
determine la distribución de la
fertilidad del suelo de su rancho. No
quiere el valor promedios de cada
parcela, sino información más
detallada, de modo que pueda
fertilizar solamente donde el suelo
resulta deficiente.

Contenido NPK en todos los


puntos de muestreo

El agricultor quiere información continua,


en todos los puntos de sus rancho.
• ¿Cómo obtener información en puntos no
muestreados?

• ¿Cómo se relacionan los pequeños volúmenes


de suelo de las muestras con la superficie total
que maneja el agricultor.

• ¿Cuántas muestras de suelo hay que tomar,


y dónde, para que esta información sea

?
confiable.

• Costo para obtener esta información


(muestreo de suelo + análisis)

• Argumentos agronómicos y ambientales

Beneficio económico de la aplicación


localizada de NPK (Agricultura de Precisión)

Usar datos dispersos para estimar, o predecir,


el contenido medio en NPK en bloques de
suelo muestreado.
Un agricultor (tecnológicamente avanzado)
puede actualmente:

• Posicionar su maquinaria en el
campo con una precisión de < 2 m

• Puede medir y registrar la


producción de los cultivos
continuamente durante la cosecha

• Puede regular la cantidad de


fertilizante suministrada según la
cantidad requerida

¿Pero cómo puede obtener la


información sobre el estado
nutricional del suelo, distribución de
plagas y enfermedades a un precio
razonable?
Campos de aplicación

• La geoestadística ha sido ampliamente aplicada en diversas ramas de


las ciencias y en las ingenierías, entre otras tenemos:

• petróleo, minería, pesca,


agricultura, ciencias del mar,
hidrogeología, medio ambiente,
estudios forestales, salud pública,
ingeniería civil, procesamiento de
imágenes, cartografía, finanzas,
meteorología, edafología, etc.
PROPÓSITO DE LA GEOESTADÍSTICA

A partir de escasa
información conocida
estimar o predecir el
valor de una variable
en localidades donde no
se conoce

Geoestadística:
Estimar, o predecir espacialmente,
sin sesgo y con un error mínimo.
La Geoestadística es la aplicación de la teoría de las variables regionalizadas
De manera general, diremos que un fenómeno es regionalizado cuando se
desplaza en el espacio, manifestando una cierta estructura.

Un aspecto aleatorio
(alta irregularidad, y variaciones de un punto a otro)

Un aspecto estructurado
(la V.R. debe reflejar a su manera las características estructurales de un
fenómeno regionalizado)

La teoría de las V.R. se propone entonces dos objetivos principales:

• en el plano teórico, expresar estas características estructurales


en una forma matemática adecuada

• en el plano práctico, resolver el problema de la estimación de una


V.R. a partir de un muestreo fragmentario.
Un poco de historia

En los años 60, Matheron acuñó el término de Geoestadística.

• Matheron formalizó y generalizó matemáticamente un


conjunto de técnicas desarrolladas por D. G. Krige (1941) que
explotaban la correlación espacial para hacer predicciones en la
evaluación de reservas de las minas de oro en Sudáfrica.

Matheron definió a la Geoestadística como

"la aplicación del formalismo de las funciones aleatorias al


reconocimiento y estimación de fenómenos naturales"

(Matheron, 1962).
Programas informáticos
Geo-EAS, GSLIB, GSTAT, VARIOWIN, VESPER, R+, SADA, WINGSLIB,
GS+, S+, MATLAB, IDRISI, SURFER, ARCGIS GEOSTATISTICAL
ANALIST
Pasos de un estudio geoestadístico.

1. Análisis exploratorio de los datos

2. Análisis estructural contracción del variograma

3. Interpolación o estimación espacial – kriging

4. Validación del modelo geoestadístico


¿Qué es el Análisis Exploratorio de Datos (AED)?

• Es un conjunto de técnicas estadísticas y gráficas que


permiten establecer un buen entendimiento básico del
comportamiento de los datos y de las relaciones
existentes entre las variables que se estudian.

El AED es un paso previo e indispensable para la


aplicación exitosa
de cualquier método estadístico.

• En particular permite la detección de fallos en el


diseño y toma de datos, el tratamiento y/o la
evaluación de datos ausentes, la identificación de
valores atípicos y la comprobación de los supuestos
requeridos por parte de las técnicas geoestadísticas.
Etapas de un AED

• Realizar un examen gráfico de la naturaleza de las variables individuales y un


análisis descriptivo numérico que permita cuantificar algunos aspectos gráficos de
los datos.

• Realizar un examen gráfico de las relaciones entre las variables y un análisis


descriptivo numérico que cuantifique el grado de interrelación existente entre ellas.

• Evaluar algunos supuestos básicos subyacentes a muchas técnicas estadísticas, por


ejemplo, normalidad, linealidad y homocedasticidad.

• Identificar los posibles valores atípicos (outliers) y evaluar el impacto potencial


que puedan ejercer en análisis estadísticos posteriores.

• Evaluar, el impacto potencial que pueden tener los datos ausentes (missing) sobre
la representatividad de los datos analizados.

Herramientas del AED


• Estadística univariada
• Estadística multivariada
• Regresión lineal y mínimos cuadrados
Análisis exploratorio

• Primer paso de cualquier análisis (geoestadístico o no).

• “Go beyond the data” o familiarización con el conjunto de datos.

• Representar los datos en figuras y diagramas en vez de analizar


directamente listados en formato tabular

• Identificar observaciones “sospechosas”

• Calcular los estadísticos descriptivos: resumir los datos

• Datos geográficos: controlar la posición

• Identificar las poblaciones

• Caracterizar la función de distribución y proponer alguna


transformación de los datos si no es normal.
Variable Aleatoria (V.A.):

Es una variable Z que puede tomar


una serie de valores o realizaciones (zi) cada
una de las cuales tienen asociadas una
probabilidad de ocurrencia (pi).

• Ejemplo: Al lanzar un dado puede resultar {1,


2,3, 4, 5 o 6} con una probabilidad de
ocurrencia igual a 1/6.

Variable Aleatoria Discreta: cuando el número de ocurrencias es finito o contable, se


conoce como variable aleatoria discreta. Ejemplo: tipos de facies en un yacimiento.

• Variable Aleatoria Continua: si el número de ocurrencias posibles es infinito.


• Ejemplo: el valor de la porosidad de un medio se encuentra en el intervalo
[0,100%].
¿Para qué sirve el histograma?

• Estimación de la función de densidad


• Tipo de distribución (Normal, log-normal, ...)
• Distribución uni-modal, multi-modal
• Aparición de valores extremos y outliers
• Variabilidad del fenómeno
Función de Distribución de Probabilidad Función de Densidad de Probabilidad
(FDP) (fdp).
caracteriza completamente a la VA.

Su gráfica es el histograma acumulativo Su gráfica es el histograma.

Tratar datos con una distribución sesgada:


transformación logarítmica
Percentiles o cuantiles de una distribución

• El percentil de una distribución F(z) es


el valor zp de la V.A. que corresponde a
un valor p de probabilidad acumulada,
es decir:

Algunos cuantiles de interés:


• Mediana, p=0.5
• Cuartiles
• (primer cuartil o inferior) p=0.25
• (tercer cuartil o superior) p=0.75
• Rango o intervalo intercuartil (IR)
Varianza de una VA
• caracteriza la dispersión de la distribución alrededor de la media.

Distribución Normal o Gaussiana.

• Esta distribución está completamente


caracterizada por sus dos parámetros:
media y varianza

Distribución LogNormal

• Una VA positiva Y se dice que tiene una


distribución lognormal si su logaritmo
ln(Y) esta normalmente distribuido.
Desviación Estándar
• Coeficiente de variación (dispersión relativa)
• Coeficiente de simetría (medida de la simetría)
• Coeficiente de curtosis (medida del achatamiento)

Simetría y Curtosis de una distribución


Medidas de dispersión

• La varianza: cuantifica la dispersión entorno a la


media
en unidades de medición al cuadrado
aditivo
muy sensible para valores extremos
raíz cuadrada: la desviación típica, s

Hay que corregir la fórmula anterior porque no podemos muestrear la población


entera, solamente disponemos de una muestra que consiste de un limitado numero
de observaciones
Medidas de dispersión ...

Expresa la dispersión en términos relativos

P.ej.: cuando una propiedad ha sido medida en dos zonas


diferentes con valores similares de s, pero diferentes de m.

Medida de la asimetría de distribuciones positivamente sesgadas

Indicador preliminar de posibles problemas para la estimación local

<100 % → sin problemas


100-200 % → dificultades con valores extremos
>200 % → grandes dificultades con valores extremos
El coeficiente de sesgo (CS):

Mide la asimetría de la distribución


CS = 0 → distribución simétrica
CS > 0 → sesgo positivo
(la función de densidad
muestra una cola larga por la derecha)
CS < 0 → sesgo negativo
(la función de densidad
muestra una cola larga por la
izquierda)
Análisis estructural o variografía

• Cuantificación de la correlación espacial y su estructura


• Cálculo del semivariograma muestral o experimental
• Analizarlo e interpretarlo
• Ajustar un modelo teórico

Hipótesis de Estacionariedad:

• Suponer estacionariedad para poder tratar los datos en diferentes puntos


como si fueran diferentes realizaciones de la propiedad.

• Estacionariedad significa que la función de distribución del proceso aleatorio


tiene característicos que son iguales en todos los puntos (primer y segundo
momento).
¿Cómo calcular el variograma?

• (semi)variograma experimental =
(semi)variograma muestral

• se calcula mediante un algoritmo que


depende de la configuración
espacial de los datos (1D, regular e
irregular o 2D, regular e irregular).

• N(h): número de pares de


observaciones separadas por el vector h

• h: vector de separación, determina la


distancia entre dos observaciones en
una cierta dirección
¿Cómo calcular el variograma?

Muestreo regular en una dimensión:


Muestreo irregular en una dimensión:

Elegir h con cuidado:


demasiado grande
(variograma demasiado suavizado)
demasiado pequeño
(variograma errático porque no hay bastante
pares de puntos en cada clase de h)

Variabilidad anisotrópica:

1. Isotropía: La variación espacial de


la variable bajo estudio es igual en
todas la direcciones

2. Anisotropía: la semivarianza no
depende solamente de h, pero
también de la dirección
Algunas reglas generales:

N >100 en el caso de isotropía y N > 250 en el caso de anisotropía

“Cuanto más puntos mejor” (el número de observaciones es en muchas


ocasiones restrictivo para la aplicación de geoestadística)

El número total de pares de observaciones = N(N-1)/2

El número de pares en el que se basa el cálculo de cada punto del


variograma debería ser por lo menos 30 – 50.

El paso h máximo del variograma experimental deberia ser inferior a


la mitad de la dimensión máxima de la zona de estudio: hmax ≤ L/2

efecto pepita = variabilidad inexplicada. Se debería de incorporar en


cada diseño de muestreo algunas observaciones a pequeñas distancias
de otros para obtener información sobre el comportamiento del
variograma en la cercanía el origen.

Esto permitirá una descripción completa de la variabilidad espacial e


incrementará la precisión de la interpolación espacial.
Modelar el variograma
El ajuste a una función permite extraer
una serie de parámetros que son los que
van a ser usados para la interpolación
geostadística (kriging) y que definen el
grado y escala de variación espacial.

El rango, El nugget y El sill

El rango: es la distancia a la que la semivarianza deja de aumentar, indica la


distancia a partir de la cual las muestras son espacialmente independientes unas de
otras y representa el tamaño de grano o mancha que representa la variable

El nugget: es la varianza no explicada por el modelo, y se calcula como la


intercepción con el eje Y. Se conoce también como varianza error

El sill: es la máxima semivarianza encontrada entre pares de puntos y debe


coincidir con la varianza de la población y nos representa el grado de variación
espacial, y por tanto el grado de incertidumbre a la hora de interpolar puntos en el
espacio.
Modelar el variograma

Ajustar un variograma teórico al


variograma experimental que se ha
calculado a partir de los datos

Variograma teórico = función que


representa el variograma real del
fenómeno.
¿Cómo ajustar un modelo al variograma experimental?
Uno de los temas más controvertidos de la geoestadística

¿Por qué?

1. La mayoría de los modelos son no-lineales en uno o más parámetros.


2. La fiabilidad de los valores de semivarianza no es igual para todos los h
3. La dispersión en el variograma experimental puede hacer el ajuste
automatizado numéricamente inestable

“ajuste a ojo” ajuste por mínimos cuadrados

programa VARIOWIN : combinación de ambos

Ponderar los valores experimentales del variograma según el número de


pares de observaciones que se han empleado para su cálculo
Interpolación o estimación espacial

1. Polígonos de Thiessen (Voronoi, Dirichlet)

2. Triangulación
cada predicción se basa en solamente tres observaciones

3. Inverso de la distancia IDW


4. Regresión polinómica
5. Krigeado Ordinario
El Kriging es un término que ha sido acuñado para designar al “mejor
estimador lineal insesgado”.

• Este nombre apareció alrededor de 1960 para nombrar una técnica creada
en Francia por Matheron a partir de los trabajos de D. G. Krige quién fue
probablemente el primero que hizo uso de la correlación espacial.

El estimador Kriging se considera óptimo ya que es

1. Insesgado, es decir, el valor esperado del error es cero


2. minimiza la varianza de la estimación, reduce al mínimo la varianza del error.

Tipos de Kriging lineales más usados

• Kriging Simple

• Kriging Ordinario

• Kriging Universal

• Kriging Residual
Kriging

• Estimación en puntos donde no se dispone de observaciones


(nodos de una retícula regular)

• Tener en cuenta la correlación espacial


(el semivariograma)

• Estimación puntual o en bloques (2, 3 D)

• Krigeado simple, krigeado ordinario, krigeado universal, ...

• Incorporar toda la información disponible: variables


secundarias, imágenes de satélite, MDE´s

• Estimación basada en el conocimiento


de las covarianzas (semivariograma), direccion y distancia entre
los VA en los puntos de observación.
Aspectos prácticos del Kriging

1.- Definir una malla de estimación:


Si bien no hay restricciones para la malla de estimación usualmente se eligen mallas
regulares debido a que su geometría facilita la representación gráfica de los
resultados en forma de mapas de contornos, relieves, etc.

Una recomendación práctica respecto al tamaño de la celda de la malla es que debe


ser de un orden aproximadamente igual a la distancia mínima de separación de los
datos, puesto que ésta es la resolución de la información que se dispone.
2.- Definir una vecindad de vecindad de búsqueda:
La vecindad de búsqueda se define con respecto al punto a estimar y determina
cuales puntos vecinos potencialmente serán tomados en la estimación.
• Caso isotrópico: tomar una circunferencia con centro en el punto a estimar y radio
igual o menor al alcance del variograma.
• Caso anisotrópico: tomar una elipse con centro en el punto a estimar y semiejes
iguales o menores a los alcances del variograma anisotrópico.
3.- Definir cantidad de punto de la estimación:
Una vez definida la vecindad de búsqueda hay que especificar cuantos puntos
intervendrán en la estimación. Esto determina el tamaño de la matriz del
Kriging.

Para toda la vecindad se pueden tomar como valores prácticos:

• Mínimo de puntos: entre 4 y 6 puntos.


• Máximo de puntos: entre 10 y 25 puntos.
También se pueden establecer cantidades min. y máx. por cuadrante, octante,
etc.
Validación del modelo geoestadístico

• Validación cruzada y “Jack-knifing”


• Validar el modelo teórico del semivariograma
• Validar los parámetros del algoritmo de interpolación
• Comparar y evaluar diferentes procedimientos de interpolación

• Existen varios parámetros en el Krigeado que se pueden optimizar antes de


interpolar y elaborar el mapa

1. Los parámetros del semivariograma teórico: efecto pepita, alcance y


meseta.

2. Importancia de considerar anisotropía o no


3. El mínimo número de puntos vecinos que van a participaren el krigeado
4. El máximo número de puntos vecinos que van a participaren el krigeado
5. El radio del área de búsqueda alrededor del punto u
6. El grado del polinomio en KD (K)
Existen dos maneras:

1. Retirar cada dato a su vez del conjunto y estimar su valor con los datos que
quedan comparar los valores estimados con los observados

Evalúa el modelo solamente en los puntos donde disponemos de datos

No disponemos de información sobre la exactitud de la interpolación en otros


puntos

2. Eliminar ± 25 % de los datos y calcular el semivariograma y interpolar con el


75 % restante compara los valores estimados con los observados

Despilfarro de información

Solamente apto para trabajos de investigación


CUADRADO MEDIO DEL
ERROR DE KRIGING

CUADRADO MEDIO DEL


ERROR DE IDW

CUADRADO MEDIO DEL


ERROR DE SPLINE

También podría gustarte