d2 p2 Marco A HDZ PDF

Introducción a la Geoestadística
Ing. Marco A. Hernández García.

GEOMATICA - CESAVEG
Contenido
¿Qué es la geoestadística?
¿Por utilizar geoestadística?
Aplicación de la geoestadística
Un poco de historia ...
Pasos de un estudio geoestadístico

¿Qué es la geoestadística ?
Tradicionalmente:
“GEO” = geología (minería)
Ahora:
“GEO” = geográfico (SIG)
Definición:
”Estudio estadístico de fenómenos naturales que se
distribuyen de forma continua en el espacio y/o el tiempo”
Definiciones alternativas:
“Estadística aplicada a datos geográficos”
“Estadística espacial”
“Gestión, tratamiento e interpretación de datos espaciales”
“Descripción cuantitativa de variables naturales que se distribuyen

en el espacio o en el espacio y el tiempo”
(Chilès y Delfiner, 1999)
¿ Por utilizar geoestadística ?
Un agricultor quiere que se le
determine la distribución de la
fertilidad del suelo de su rancho. No
quiere el valor promedios de cada
parcela, sino información más
detallada, de modo que pueda
fertilizar solamente donde el suelo
resulta deficiente.
Contenido NPK en todos los

puntos de muestreo
El agricultor quiere información continua,

en todos los puntos de sus rancho.
• ¿Cómo obtener información en puntos no
muestreados?
• ¿Cómo se relacionan los pequeños volúmenes

de suelo de las muestras con la superficie total
que maneja el agricultor.
• ¿Cuántas muestras de suelo hay que tomar,

y dónde, para que esta información sea
?
confiable.
• Costo para obtener esta información

(muestreo de suelo + análisis)
• Argumentos agronómicos y ambientales
Beneficio económico de la aplicación

localizada de NPK (Agricultura de Precisión)
Usar datos dispersos para estimar, o predecir,

el contenido medio en NPK en bloques de
suelo muestreado.
Un agricultor (tecnológicamente avanzado)
puede actualmente:
• Posicionar su maquinaria en el
campo con una precisión de < 2 m
• Puede medir y registrar la

producción de los cultivos
continuamente durante la cosecha
• Puede regular la cantidad de

fertilizante suministrada según la
cantidad requerida
¿Pero cómo puede obtener la

información sobre el estado
nutricional del suelo, distribución de
plagas y enfermedades a un precio
razonable?
Campos de aplicación
• La geoestadística ha sido ampliamente aplicada en diversas ramas de

las ciencias y en las ingenierías, entre otras tenemos:
• petróleo, minería, pesca,

agricultura, ciencias del mar,
hidrogeología, medio ambiente,
estudios forestales, salud pública,
ingeniería civil, procesamiento de
imágenes, cartografía, finanzas,
meteorología, edafología, etc.
PROPÓSITO DE LA GEOESTADÍSTICA
A partir de escasa
información conocida
estimar o predecir el
valor de una variable
en localidades donde no
se conoce
Geoestadística:
Estimar, o predecir espacialmente,
sin sesgo y con un error mínimo.
La Geoestadística es la aplicación de la teoría de las variables regionalizadas
De manera general, diremos que un fenómeno es regionalizado cuando se
desplaza en el espacio, manifestando una cierta estructura.
Un aspecto aleatorio
(alta irregularidad, y variaciones de un punto a otro)
Un aspecto estructurado
(la V.R. debe reflejar a su manera las características estructurales de un
fenómeno regionalizado)
La teoría de las V.R. se propone entonces dos objetivos principales:
• en el plano teórico, expresar estas características estructurales

en una forma matemática adecuada
• en el plano práctico, resolver el problema de la estimación de una

V.R. a partir de un muestreo fragmentario.
Un poco de historia
En los años 60, Matheron acuñó el término de Geoestadística.
• Matheron formalizó y generalizó matemáticamente un

conjunto de técnicas desarrolladas por D. G. Krige (1941) que
explotaban la correlación espacial para hacer predicciones en la
evaluación de reservas de las minas de oro en Sudáfrica.
Matheron definió a la Geoestadística como
"la aplicación del formalismo de las funciones aleatorias al

reconocimiento y estimación de fenómenos naturales"
(Matheron, 1962).
Programas informáticos
Geo-EAS, GSLIB, GSTAT, VARIOWIN, VESPER, R+, SADA, WINGSLIB,
GS+, S+, MATLAB, IDRISI, SURFER, ARCGIS GEOSTATISTICAL
ANALIST
Pasos de un estudio geoestadístico.
1. Análisis exploratorio de los datos
2. Análisis estructural contracción del variograma
3. Interpolación o estimación espacial – kriging
4. Validación del modelo geoestadístico

¿Qué es el Análisis Exploratorio de Datos (AED)?
• Es un conjunto de técnicas estadísticas y gráficas que

permiten establecer un buen entendimiento básico del
comportamiento de los datos y de las relaciones
existentes entre las variables que se estudian.
El AED es un paso previo e indispensable para la

aplicación exitosa
de cualquier método estadístico.
• En particular permite la detección de fallos en el

diseño y toma de datos, el tratamiento y/o la
evaluación de datos ausentes, la identificación de
valores atípicos y la comprobación de los supuestos
requeridos por parte de las técnicas geoestadísticas.
Etapas de un AED
• Realizar un examen gráfico de la naturaleza de las variables individuales y un

análisis descriptivo numérico que permita cuantificar algunos aspectos gráficos de
los datos.
• Realizar un examen gráfico de las relaciones entre las variables y un análisis

descriptivo numérico que cuantifique el grado de interrelación existente entre ellas.
• Evaluar algunos supuestos básicos subyacentes a muchas técnicas estadísticas, por

ejemplo, normalidad, linealidad y homocedasticidad.
• Identificar los posibles valores atípicos (outliers) y evaluar el impacto potencial

que puedan ejercer en análisis estadísticos posteriores.
• Evaluar, el impacto potencial que pueden tener los datos ausentes (missing) sobre
la representatividad de los datos analizados.
Herramientas del AED

• Estadística univariada
• Estadística multivariada
• Regresión lineal y mínimos cuadrados
Análisis exploratorio
• Primer paso de cualquier análisis (geoestadístico o no).
• “Go beyond the data” o familiarización con el conjunto de datos.
• Representar los datos en figuras y diagramas en vez de analizar

directamente listados en formato tabular
• Identificar observaciones “sospechosas”
• Calcular los estadísticos descriptivos: resumir los datos
• Datos geográficos: controlar la posición
• Identificar las poblaciones
• Caracterizar la función de distribución y proponer alguna

transformación de los datos si no es normal.
Variable Aleatoria (V.A.):
Es una variable Z que puede tomar

una serie de valores o realizaciones (zi) cada
una de las cuales tienen asociadas una
probabilidad de ocurrencia (pi).
• Ejemplo: Al lanzar un dado puede resultar {1,

2,3, 4, 5 o 6} con una probabilidad de
ocurrencia igual a 1/6.
Variable Aleatoria Discreta: cuando el número de ocurrencias es finito o contable, se

conoce como variable aleatoria discreta. Ejemplo: tipos de facies en un yacimiento.
• Variable Aleatoria Continua: si el número de ocurrencias posibles es infinito.

• Ejemplo: el valor de la porosidad de un medio se encuentra en el intervalo
[0,100%].
¿Para qué sirve el histograma?
• Estimación de la función de densidad

• Tipo de distribución (Normal, log-normal, ...)
• Distribución uni-modal, multi-modal
• Aparición de valores extremos y outliers
• Variabilidad del fenómeno
Función de Distribución de Probabilidad Función de Densidad de Probabilidad
(FDP) (fdp).
caracteriza completamente a la VA.
Su gráfica es el histograma acumulativo Su gráfica es el histograma.
Tratar datos con una distribución sesgada:

transformación logarítmica
Percentiles o cuantiles de una distribución
• El percentil de una distribución F(z) es

el valor zp de la V.A. que corresponde a
un valor p de probabilidad acumulada,
es decir:
Algunos cuantiles de interés:

• Mediana, p=0.5
• Cuartiles
• (primer cuartil o inferior) p=0.25
• (tercer cuartil o superior) p=0.75
• Rango o intervalo intercuartil (IR)
Varianza de una VA
• caracteriza la dispersión de la distribución alrededor de la media.
Distribución Normal o Gaussiana.
• Esta distribución está completamente

caracterizada por sus dos parámetros:
media y varianza
Distribución LogNormal
• Una VA positiva Y se dice que tiene una

distribución lognormal si su logaritmo
ln(Y) esta normalmente distribuido.
Desviación Estándar
• Coeficiente de variación (dispersión relativa)
• Coeficiente de simetría (medida de la simetría)
• Coeficiente de curtosis (medida del achatamiento)
Simetría y Curtosis de una distribución

Medidas de dispersión
• La varianza: cuantifica la dispersión entorno a la

media
en unidades de medición al cuadrado
aditivo
muy sensible para valores extremos
raíz cuadrada: la desviación típica, s
Hay que corregir la fórmula anterior porque no podemos muestrear la población

entera, solamente disponemos de una muestra que consiste de un limitado numero
de observaciones
Medidas de dispersión ...
Expresa la dispersión en términos relativos
P.ej.: cuando una propiedad ha sido medida en dos zonas

diferentes con valores similares de s, pero diferentes de m.
Medida de la asimetría de distribuciones positivamente sesgadas
Indicador preliminar de posibles problemas para la estimación local
<100 % → sin problemas

100-200 % → dificultades con valores extremos
>200 % → grandes dificultades con valores extremos
El coeficiente de sesgo (CS):
Mide la asimetría de la distribución

CS = 0 → distribución simétrica
CS > 0 → sesgo positivo
(la función de densidad
muestra una cola larga por la derecha)
CS < 0 → sesgo negativo
(la función de densidad
muestra una cola larga por la
izquierda)
Análisis estructural o variografía
• Cuantificación de la correlación espacial y su estructura

• Cálculo del semivariograma muestral o experimental
• Analizarlo e interpretarlo
• Ajustar un modelo teórico
Hipótesis de Estacionariedad:
• Suponer estacionariedad para poder tratar los datos en diferentes puntos

como si fueran diferentes realizaciones de la propiedad.
• Estacionariedad significa que la función de distribución del proceso aleatorio

tiene característicos que son iguales en todos los puntos (primer y segundo
momento).
¿Cómo calcular el variograma?
• (semi)variograma experimental =
(semi)variograma muestral
• se calcula mediante un algoritmo que

depende de la configuración
espacial de los datos (1D, regular e
irregular o 2D, regular e irregular).
• N(h): número de pares de

observaciones separadas por el vector h
• h: vector de separación, determina la

distancia entre dos observaciones en
una cierta dirección
¿Cómo calcular el variograma?
Muestreo regular en una dimensión:

Muestreo irregular en una dimensión:
Elegir h con cuidado:

demasiado grande
(variograma demasiado suavizado)
demasiado pequeño
(variograma errático porque no hay bastante
pares de puntos en cada clase de h)
Variabilidad anisotrópica:
1. Isotropía: La variación espacial de

la variable bajo estudio es igual en
todas la direcciones
2. Anisotropía: la semivarianza no
depende solamente de h, pero
también de la dirección
Algunas reglas generales:
N >100 en el caso de isotropía y N > 250 en el caso de anisotropía
“Cuanto más puntos mejor” (el número de observaciones es en muchas

ocasiones restrictivo para la aplicación de geoestadística)
El número total de pares de observaciones = N(N-1)/2
El número de pares en el que se basa el cálculo de cada punto del

variograma debería ser por lo menos 30 – 50.
El paso h máximo del variograma experimental deberia ser inferior a

la mitad de la dimensión máxima de la zona de estudio: hmax ≤ L/2
efecto pepita = variabilidad inexplicada. Se debería de incorporar en

cada diseño de muestreo algunas observaciones a pequeñas distancias
de otros para obtener información sobre el comportamiento del
variograma en la cercanía el origen.
Esto permitirá una descripción completa de la variabilidad espacial e

incrementará la precisión de la interpolación espacial.
Modelar el variograma
El ajuste a una función permite extraer
una serie de parámetros que son los que
van a ser usados para la interpolación
geostadística (kriging) y que definen el
grado y escala de variación espacial.
El rango, El nugget y El sill
El rango: es la distancia a la que la semivarianza deja de aumentar, indica la

distancia a partir de la cual las muestras son espacialmente independientes unas de
otras y representa el tamaño de grano o mancha que representa la variable
El nugget: es la varianza no explicada por el modelo, y se calcula como la

intercepción con el eje Y. Se conoce también como varianza error
El sill: es la máxima semivarianza encontrada entre pares de puntos y debe

coincidir con la varianza de la población y nos representa el grado de variación
espacial, y por tanto el grado de incertidumbre a la hora de interpolar puntos en el
espacio.
Modelar el variograma
Ajustar un variograma teórico al

variograma experimental que se ha
calculado a partir de los datos
Variograma teórico = función que

representa el variograma real del
fenómeno.
¿Cómo ajustar un modelo al variograma experimental?
Uno de los temas más controvertidos de la geoestadística
¿Por qué?
1. La mayoría de los modelos son no-lineales en uno o más parámetros.

2. La fiabilidad de los valores de semivarianza no es igual para todos los h
3. La dispersión en el variograma experimental puede hacer el ajuste
automatizado numéricamente inestable
“ajuste a ojo” ajuste por mínimos cuadrados
programa VARIOWIN : combinación de ambos
Ponderar los valores experimentales del variograma según el número de

pares de observaciones que se han empleado para su cálculo
Interpolación o estimación espacial
1. Polígonos de Thiessen (Voronoi, Dirichlet)
2. Triangulación
cada predicción se basa en solamente tres observaciones
3. Inverso de la distancia IDW

4. Regresión polinómica
5. Krigeado Ordinario
El Kriging es un término que ha sido acuñado para designar al “mejor
estimador lineal insesgado”.
• Este nombre apareció alrededor de 1960 para nombrar una técnica creada
en Francia por Matheron a partir de los trabajos de D. G. Krige quién fue
probablemente el primero que hizo uso de la correlación espacial.
El estimador Kriging se considera óptimo ya que es
1. Insesgado, es decir, el valor esperado del error es cero

2. minimiza la varianza de la estimación, reduce al mínimo la varianza del error.
Tipos de Kriging lineales más usados
• Kriging Simple
• Kriging Ordinario
• Kriging Universal
• Kriging Residual
Kriging
• Estimación en puntos donde no se dispone de observaciones

(nodos de una retícula regular)
• Tener en cuenta la correlación espacial

(el semivariograma)
• Estimación puntual o en bloques (2, 3 D)
• Krigeado simple, krigeado ordinario, krigeado universal, ...
• Incorporar toda la información disponible: variables

secundarias, imágenes de satélite, MDE´s
• Estimación basada en el conocimiento

de las covarianzas (semivariograma), direccion y distancia entre
los VA en los puntos de observación.
Aspectos prácticos del Kriging
1.- Definir una malla de estimación:

Si bien no hay restricciones para la malla de estimación usualmente se eligen mallas
regulares debido a que su geometría facilita la representación gráfica de los
resultados en forma de mapas de contornos, relieves, etc.
Una recomendación práctica respecto al tamaño de la celda de la malla es que debe

ser de un orden aproximadamente igual a la distancia mínima de separación de los
datos, puesto que ésta es la resolución de la información que se dispone.
2.- Definir una vecindad de vecindad de búsqueda:
La vecindad de búsqueda se define con respecto al punto a estimar y determina
cuales puntos vecinos potencialmente serán tomados en la estimación.
• Caso isotrópico: tomar una circunferencia con centro en el punto a estimar y radio
igual o menor al alcance del variograma.
• Caso anisotrópico: tomar una elipse con centro en el punto a estimar y semiejes
iguales o menores a los alcances del variograma anisotrópico.
3.- Definir cantidad de punto de la estimación:
Una vez definida la vecindad de búsqueda hay que especificar cuantos puntos
intervendrán en la estimación. Esto determina el tamaño de la matriz del
Kriging.
Para toda la vecindad se pueden tomar como valores prácticos:
• Mínimo de puntos: entre 4 y 6 puntos.

• Máximo de puntos: entre 10 y 25 puntos.
También se pueden establecer cantidades min. y máx. por cuadrante, octante,
etc.
Validación del modelo geoestadístico
• Validación cruzada y “Jack-knifing”

• Validar el modelo teórico del semivariograma
• Validar los parámetros del algoritmo de interpolación
• Comparar y evaluar diferentes procedimientos de interpolación
• Existen varios parámetros en el Krigeado que se pueden optimizar antes de

interpolar y elaborar el mapa
1. Los parámetros del semivariograma teórico: efecto pepita, alcance y

meseta.
2. Importancia de considerar anisotropía o no

3. El mínimo número de puntos vecinos que van a participaren el krigeado
4. El máximo número de puntos vecinos que van a participaren el krigeado
5. El radio del área de búsqueda alrededor del punto u
6. El grado del polinomio en KD (K)
Existen dos maneras:
1. Retirar cada dato a su vez del conjunto y estimar su valor con los datos que
quedan comparar los valores estimados con los observados
Evalúa el modelo solamente en los puntos donde disponemos de datos
No disponemos de información sobre la exactitud de la interpolación en otros

puntos
2. Eliminar ± 25 % de los datos y calcular el semivariograma y interpolar con el

75 % restante compara los valores estimados con los observados
Despilfarro de información
Solamente apto para trabajos de investigación

CUADRADO MEDIO DEL
ERROR DE KRIGING
CUADRADO MEDIO DEL

ERROR DE IDW
CUADRADO MEDIO DEL

ERROR DE SPLINE

d2 p2 Marco A HDZ PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

d2 p2 Marco A HDZ PDF

Cargado por

Copyright:

Formatos disponibles

Introducción a la Geoestadística

Ing. Marco A. Hernández García.

¿Por utilizar geoestadística?

Un poco de historia ...

Pasos de un estudio geoestadístico

“Estadística aplicada a datos geográficos”

“Gestión, tratamiento e interpretación de datos espaciales”

“Descripción cuantitativa de variables naturales que se distribuyen

Contenido NPK en todos los

El agricultor quiere información continua,

• ¿Cómo se relacionan los pequeños volúmenes

• ¿Cuántas muestras de suelo hay que tomar,

• Costo para obtener esta información

• Argumentos agronómicos y ambientales

Beneficio económico de la aplicación

Usar datos dispersos para estimar, o predecir,

• Puede medir y registrar la

• Puede regular la cantidad de

¿Pero cómo puede obtener la

• La geoestadística ha sido ampliamente aplicada en diversas ramas de

• petróleo, minería, pesca,

La teoría de las V.R. se propone entonces dos objetivos principales:

• en el plano teórico, expresar estas características estructurales

• en el plano práctico, resolver el problema de la estimación de una

En los años 60, Matheron acuñó el término de Geoestadística.

• Matheron formalizó y generalizó matemáticamente un

Matheron definió a la Geoestadística como

"la aplicación del formalismo de las funciones aleatorias al

1. Análisis exploratorio de los datos

2. Análisis estructural contracción del variograma

3. Interpolación o estimación espacial – kriging

4. Validación del modelo geoestadístico

• Es un conjunto de técnicas estadísticas y gráficas que

El AED es un paso previo e indispensable para la

• En particular permite la detección de fallos en el

• Realizar un examen gráfico de la naturaleza de las variables individuales y un

• Realizar un examen gráfico de las relaciones entre las variables y un análisis

• Evaluar algunos supuestos básicos subyacentes a muchas técnicas estadísticas, por

• Identificar los posibles valores atípicos (outliers) y evaluar el impacto potencial

Herramientas del AED

• Primer paso de cualquier análisis (geoestadístico o no).

• “Go beyond the data” o familiarización con el conjunto de datos.

• Representar los datos en figuras y diagramas en vez de analizar

• Identificar observaciones “sospechosas”

• Calcular los estadísticos descriptivos: resumir los datos

• Datos geográficos: controlar la posición

• Identificar las poblaciones

• Caracterizar la función de distribución y proponer alguna

Es una variable Z que puede tomar

• Ejemplo: Al lanzar un dado puede resultar {1,

Variable Aleatoria Discreta: cuando el número de ocurrencias es finito o contable, se

• Variable Aleatoria Continua: si el número de ocurrencias posibles es infinito.

• Estimación de la función de densidad

Su gráfica es el histograma acumulativo Su gráfica es el histograma.

Tratar datos con una distribución sesgada:

• El percentil de una distribución F(z) es

Algunos cuantiles de interés:

Distribución Normal o Gaussiana.

• Esta distribución está completamente

• Una VA positiva Y se dice que tiene una

Simetría y Curtosis de una distribución

• La varianza: cuantifica la dispersión entorno a la

Hay que corregir la fórmula anterior porque no podemos muestrear la población