Está en la página 1de 45

ANÁLISIS GEOESTADÍSTICO

¾Origen de la “Geoestadística”
¾Geoestadística: definición y objeto
¾Datos geográficos y análisis estadístico
¾Conceptos básicos de Estadística
¾Técnicas básicas de Estadística
para el Análisis
á Exploratorio de Datos

Concepción González García (2008)

Imagen de la NASA
Origen de la “Geoestadística”

Geoestadística (i)
ƒ La Geoestadística tiene su origen en la búsqueda,
exploración y evaluación de yacimientos minerales útiles.

ƒSe ha consolidado y desarrollado en los últimos 30 años


como ciencia aplicada casi exclusivamente en el campo
minero.

ƒ La gran diversidad de formas en que se presentan los


datos ha llevado a la utilización de técnicas matemáticas
y estadísticas para resolver un único problema: estimar
valores desconocidos a partir de los conocidos, para
l estimación
la ti ió y caracterización
t i ió de
d llos recursos y
reservas.
Origen de la “Geoestadística”

Geoestadística (ii)

ƒ Las investigaciones han buscado los métodos más


eficientes que proporcionen la mayor información posible
d llos d
de datos di
disponibles.
ibl
ƒMediante el mejor estimador que minimice la varianza
del error de estimación (error cuadrático medio) surge
la Geoestadística por los trabajos de G. Matheron en la
Escuela Superior de Minas de París (1949)

Entre los métodos más recientes se pueden citar los


ƒEntre
“geomatemáticos”: El Inverso de la Distancia,
g
Triangulación, Splines,
p etc.
Origen de la “Geoestadística”

Geoestadística (antecedentes)
ƒSichel (1947),
(1947) 1949) observó la naturaleza asimétrica de
la distribución del contenido de oro en las minas
surafricanas,
f , la equiparó
q p a una distribución de
probabilidad lognormal y desarrolló las fórmulas básicas
para esta distribución.

D.G. Krige (1951) desarrolló la aplicación del análisis de


g
regresión entre muestras
m y bloques
q de mena
m (Mineral
metalífero, principalmente el de hierro, tal como se extrae del criadero y antes de limpiarlo).

De la minería,, las técnicas geoestadísticas,


g , se han
exportado a más campos como la hidrología, física del
suelo, ciencias de la tierra y más recientemente a la
gestión
ió ambiental
bi l y all procesado
d dde iimágenes
á d
de satélite.
éli
Geoestadística :
D fi i ió y Obj
Definición Objeto
t (i)

9La geoestadística es una rama de la estadística que trata


f ó
fenómenos espaciales
i l (J
(Journell & H
Huijbregts,
ijb t 1978)
1978).

9Su interés primordial es la estimación,


estimación predicción y
simulación de dichos fenómenos (Myers, 1987).

ƒSe reconoce como una rama de la estadística tradicional,


que parte de la observación de que la variabilidad o
continuidad
i id d espacial
i ld
de llas variables
i bl didistribuidas
ib id en ell
espacio tienen una estructura particular que se estudia
mediante las depencias entre ellas
ellas.
Geoestadística :
D fi i ió y Obj
Definición Objeto
t (ii)

> Matheron (1970) denominó a estas variables


dependientes
p entre si, variables regionalizadas, además
de elaborar su teoría. [Journel y Huijbregts (1978), David
(1977) y de Fouquet (1996)].

ƒEn resumen, la aplicación de la teoría de los procesos


estocásticos a los problemas de evaluación de reservas de
distintos tipos de materias primas minerales y en general
a las ciencias naturales en el análisis de datos distribuidos
espacial y temporalmente dio origen a lo que hoy se
conoce como Geoestadística.
D t s geográficos
Datos áfi s y análisis
álisis estadístico
st dísti

Los SIG actuales incluyen


y posibilidades
p de exploración
p
y análisis de datos.

Las técnicas
L é i más
á elementales
l l son ded Estadística
E dí i
descriptiva (Análisis Exploratorio de Datos, EDA).

La Estadística Descriptiva: para una, dos y hasta 3


variables,
i bl permite
i resumiri conjuntos
j d
de valores
l y
visualizar estructuras de distribuciones de probabilidad.
D t s geográficos
Datos áfi s y análisis
álisis estadístico
st dísti

Características de los datos geográficos:


en un punto,
t además
d á de d sus coordenadas,
d d se di
dispone d
de
información “multivariante” (altitud, precipitación,
profundidad del suelo
suelo, tipo de vegetación
vegetación,…))

El denominado Análisis exploratorio espacial de datos


(ESDA), es una ampliación y desarrollo del EDA.
El ESDA incluye, junto a técnicas exploratorias, muchas
ideas tomadas del Análisis espacial o Estadística
espacial.
Datos geográficos y análisis estadístico

•Existen algunas dificultades fundamentales para que las


técnicas estadísticas convencionales manejen
correctamente datos geográficos:

•El empleo de las Técnicas clásicas de Inferencia


Estadística, suponen, en los datos de partida :
> la
l independencia
d d d llas observaciones
de b
> la distribución en curva de Gauss
(distribución Normal)

lo cual a menudo no se cumple


p en datos geográficos.
g g f
Conceptos
p básicos de Estadística

Revisión de Técnicas estadísticas

¾M t
¾Muestreo y análisis
áli i Exploratorio
E l t i d de datos
d t
¾Conceptos de Inferencia Estadística paramétrica:
Una variable: Estimador, propiedades,
intervalos de confianza y tests de hipótesis.
Dos ó más variables: modelos lineales
(regresión, Análisis de la varianza)

¾Conceptos de procesos estocásticos (variables


dependientes, medidas de dependencia espacial)
Conceptos
p básicos de Estadística

Muestreo y análisis Exploratorio de datos

¾Población (Universo) y Muestra.


¾Muestreo (Obtención de datos)
¾Variables y tipos

ƒAntes de comenzar un estudio geoestadístico se deben


discutir todos los elementos que aporten conocimientos
del problema a resolver, fenómeno en estudio,
estud o,
organización y verificación de la información disponible y
finalmente realizar el análisis exploratorio de los datos.
Conceptos
p básicos de Estadística

¾Población estadística o universo es el conjunto de


referencia sobre el cual van a recaer las observaciones.

¾Muestra: es el subconjunto de la población en el que se


mide una o más variables de interés.
interés
-a partir de este subconjunto se obtienen conclusiones
sobre las características de la población.
p
- la muestra debe ser representativa, en el sentido de que
las conclusiones obtenidas deben servir para el total de la
población.
bl ió
Unidad muestral: elementos de la población, no solapados en los que
se mide. Cada elemento de la población
ó pertenecerá
á a una y sólo
ó una
unidad muestral.
Estadística básica

Tipos de muestras

¾Muestra probabilística: se elige mediante ciertas


reglas de manera que la probabilidad de selección de
reglas,
cada unidad es conocida de antemano.

¾Muestra no probabilística: no se rige por las reglas


matemáticas de la probabilidad.

™ en las muestras probabilísticas es posible calcular la


magnitud del error muestral,
muestral
™no es factible hacerlo en el caso de las muestras no
probabilísticas (puntos
p p de fácil acceso, estaciones de
medición de la calidad del aire en una ciudad)
Estadística básica

Métodos de muestreo

¾ Muestreo aleatorio simple: todos los componentes o


unidades de la p
población tienen la misma
m m probabilidad
p
de ser seleccionados. Es la modalidad más elemental de m.
probabilistico.

Representación gráfica del muestreo aleatorio simple


Estadística básica

Métodos de muestreo

¾ Muestreo sistemático:
Se selecciona al azar un punto de partida y un intervalo muestral.
muestral
Así si el punto de partida fuera el 11 y el intervalo el 6 se elegirían
el 11, 16, 21, 16 hasta recorrer toda la población.

Representación gráfica del muestreo sistemático


Estadística básica

Métodos de muestreo

¾ Muestreo estratificado (i):


-la
l población
bl ió en estudio
t di se sub-
b divide
di id en estratos
t t o
subpoblaciones que tienen cierta homogeneidad en el
terreno y en cada estrato se realiza un muestreo
aleatorio simple (o sistemático).
-requisito
requisito principal para aplicar este método de
muestreo: conocimiento previo de información que
permita subdividir la población,

Por ejemplo: división que se puede realizar con base en la topografía, los
horizontes del suelo,
suelo la mancha del contaminante
contaminante, los cambios de color en
el suelo, el crecimiento irregular de las plantas, etc.
Estadística básica

Métodos de muestreo

¾ Muestreo estratificado (ii):


- garantiza
ti que llos puntos
t d de muestreo
t se encuentren
t
repartidos más uniformemente en toda la zona en
función del tamaño del estrato;

- permite conocer de forma independiente las


características
t í ti particulares
ti l d
de cada
d estrato
t t

-recomendable
recomendable para áreas mayores de diez hectáreas y cuando el
terreno no es homogéneo (Mason 1992, Valencia y Hernández
2002).
Estadística básica

Métodos de muestreo

Esquemas de tipos de muestreo:


a)) aleatorio simple;
mp ;
b) aleatorio estratificado;
c) sistemático rejilla rectangular;
d) sistemático rejilla polar
Estadística básica

Otros Métodos de muestreo

Muestreo por conglomerados


En poblaciones
E bl i muy extensas,
t d d la
donde l localización
l li ió y
medición de la muestra seleccionada supone grandes
desplazamientos se suelen agrupar las unidades
elementales en conglomerados o unidades primarias
C
Características
t í ti del
d l conglomerado
l d :
> Conjunto de unidades muestrales elementales.
> Heterogeneidad de la variable a medir
> El número total de conglomerados en la población es
conocido
Estadística básica

Muestreo por conglomerados


C
Características:
t í ti
División previa de la población en conglomerados o “áreas
convenientes”, de las cuales se selecciona un cierto número
convenientes
para la muestra
Ventajas:
Ahorro de costes y tiempo al efectuar visitas a las
unidades seleccionadas.
Disminución de necesidad de desplazamientos al
concentrar unidades elementales.
elementales
Inconvenientes:
Menor precisión
M i ió en llas estimaciones,
ti i sobre
b ttodo
d con
conglomerados de gran tamaño
Conceptos de Estadística básica

Diferencias entre tipos de muestreo

ALEATORIO ESTRATIFICADO CONGLOMERADOS

(Adaptado de Peña, 2001)


Estadística básica

Variables y Tipos de variables

¾ Variable: cada una de las características de los


elementos de una población y que varían de una unidad a
otra.

9Variables cualitativas (o categóricas): aquellas que no


tienen medida numérica; se representan
p por
p categorías
o atributos (tipo de suelo, de vegetación, textura,…).

9Variables cuantitativas: las que pueden expresarse


numéricamente (temperatura, precipitación,
profundidad suelo, altitud, pendiente,
p p ….)
Estadística básica

Variables cuantitativas

™Variables discretas: son el resultado de contar y


sólo toman valores enteros (número de puntos, de
cuadrículas, de píxeles).

™ Variables continuas: son el resultado de medir, y


pueden contener decimales (temperatura,
(temperatura
profundidad, altura). Se pueden subdividir a voluntad.
Pueden tomar,
tomar entonces,
entonces cualquier valor de un
determinado intervalo
Estadística básica

Estadística Descriptiva

Objetivo: conocer la información disponible.

Cálculos
Cál l estadísticos
dí i o estadística
dí i descriptiva.
d i i
Permiten determinar si la distribución de los datos es
normal lognormal,
normal, lognormal o si no se ajustan a una distribución
estadística conocida. Implica tener conocimiento de:

ƒ Número de casos: representado por “n”, es el


número de valores muestreados del fenómeno en
estudio los datos representados por xi
estudio, xi, i = 11, . . . , n
n.

Frecuencia de cada xi nº de veces que aparece el


mismo valor medido.
Estadística básica

Distribuciones de frecuencias

Los valores de cada xi medidos y su frecuencia de


aparición
p en los n datos se conoce como
m la
distribución de la variable estudiada.

Valores resumen: Medidas de posición

ƒ Media: Es la media aritmética de la distribución,

1 n
xn = n ∑
i =1
xi
Estadística básica

Valores resumen: Medidas de posición

ƒ Moda: Es el valor más frecuente de la distribución

ƒ Mediana: Es el valor para el cual la mitad de los


d t son menores y la
datos l otra
t mitad
it d están
tá por encima
i de
d
este valor.
La mediana es también llamada percentil 50

Ordenando los datos en orden ascendente podemos calcular la


mediana
di como.
 X(n+1)/2 si n es impar.
M = 
 (Xn/2 + Xn/2+1)/2 si n es par.
Estadística básica

V l
Valores resumen: Medidas
M did ded posición
i ió

ƒ Cuartiles, donde Q1 = percentil 25, Q2 = Mediana y


Q3 = percentil 75.

ƒ Deciles si los datos se dividen en 10.


De forma general estas medidas se pueden calcular
por: [p(n+1)/100] ésima observación de los datos
ordenados ascendentemente,, donde p es el p percentil
que se desea calcular.
Valores resumen: Medidas de posición

Interpretación de los Cuartiles


Se forman cuatro g
grupos
p con igual
g cantidad de datos
Un cuarto de los La mitad de los datos (dos Tres cuartos de los datos
datos toman cuartos) toman valores toman valores iguales o
valores iguales o iguales o inferiores a 3,6
3 6 inferiores a 7,6
inferiores a 2,2
Q2= Me=3,6 Q3=7,6
Q1=2,2
=2 2 Rango Intercuartil
RI=Q3-Q1
xmin=1,1 xmax=9,9

0 1 2 3 4 5 6 7 8 9 10
Escala graduada de la variable en estudio
Estadística básica

Valores resumen: Dispersión


ƒ Rango de la distribución: Es la diferencia entre el valor
máximo y el mínimo observados.

ƒ Varianza: Describe la variabilidad de la distribución. Es la


medida de la desviación o dispersión de la distribución.

σ 2
n −1 =
1 n

n − 1 i=1
=1
(xi −x n )
2

Se divide por (n-1) y no por n y se representa por S2 cuando se


calcula con una muestra observada porque proporciona mejor
estimación
i ió de
d la
l varianza
i de
d la
l población.
bl ió (estimación
( i ió iinsesgada)
d )
Esto significa que si un experimento fuera repetido muchas veces
se podría esperar que el promedio de los valores así obtenidos
para S2 (valor muestral) igualaría a σ2.
Estadística básica

Valores resumen

ƒDesviación estándar: También describe dispersión


de la distribución.
distribución Es la raíz de la medida de
desviación alrededor de la media,
σ 2n − 1
En las mismas unidades de medida que la variable estudiada.

Normal con σn-1 pequeña

Normal con σn-1


n 1 grande
Estadística básica

Valores resumen

ƒ Error estándar: que se comete al estimar la media


de la variable medida con los “n”
n observaciones de la
muestra. A mayor tamaño muestral menor error,

ε = σ 2n − 1
n

ƒ Coeficiente de variación: Es una medida de la


variación relativa de los datos en porcentaje,
porcentaje
σ n −1
CV % = 100
Xn
Estadística básica

Valores resumen: De forma

ƒCoeficiente de asimetría (de Fisher):

Describe
D ib lla simetría
i t í d de lla di
distribución
t ib ió relativa
l ti a lla
distribución normal.

α3 = ∑(xi − Xn ) σ3
1 n 3

n i=1
Estadística básica

Valores resumen: De forma

ƒ Coeficiente de asimetría (cont):

α3 = 0 α3 < 0 α3 > 0
Asimetría
A i t í negativa
ti = mayor concentración
t ió de
d valores
l a la
l
izquierda de la media.
Asimetría positiva = mayor concentración de valores a la derecha
de la media.
Estadística básica

Valores resumen: De forma

ƒ Curtosis (o apuntamiento): Describe el grado de


esbeltez de la distribución,, en relación a una
distribución normal,
α 4 = ∑ (x i − X n ) σ 4
1 n 4

n i=1

Eje de
simetría

α 4 > 3 α 4 = 3 α 4 < 3
Estadística básica

Gráficos estadísticos

Permiten ilustrar y entender las distribuciones de los datos,


identificar datos errados, valores extremos, tendencias en la
variación de los datos, relaciones entre variables,…

Plot of Diámetro vs Copa 1


30
25

Gráfico de dispersión
Diámetro
20

(scatterplot X
X-Y)
Y) 15
10
5
0
0 2 4 6 8
Copa 1
Exploración
p de datos
Gráficos estadísticos

Gráficos descriptivos para una variable (i)


Histogram
12
10

•Histogramas

equency
8
6
4

fre
2
0
0 2 4 6 8
Copa 1

•Gráficos de cuantiles:
Quantile Plot
1
Percentiles for Copa 1
0,8
proportion
n
1,0% = 1,2 0,6
5,0% = 1,4 0,4
10,0% = 1,6
25,0% = 2,4 0,2

50 0% = 3,2
50,0% 3 2 0
75,0% = 4,3 0 2 4 6 8
90,0% = 5,1 Copa 1
Exploración
p de datos
Gráficos estadísticos

Gráficos descriptivos para una variable (ii)

•Gráfico de cuantiles para verificar el ajuste de los


datos a la distribución Normal: (Q-Q Normal)
Eje vertical:
Ej ti l: valores
l de
d lla función
f n ión de
d di
distribución
t ib ión dde lla N
Normal.
m l
Recta: gráfico de los valores de la variable con los valores de
probabilidad acumulada de ocurrencia según la distribución Normal.
N
Normal
lPProbability
b bilit Pl
Plott

La proximidad de los valores


99,9
99

observados a la recta indica q


que 95

age
80

los datos se pueden considerar percenta 50


20
con distribución Normal 5
1
0,1
0 2 4 6 8
Copa 1
Exploración
p de datos
Gráficos estadísticos

Gráficos descriptivos para una variable (iii)

Gráficos de cajas (box-plot)


(box plot)

2º cuartil 50%
2
Box-and-Whisker Plot
Media (mediana)

Anómalo
(outlier)

0 2 4 6 8

mín Copa 1
Máx.
1er cuartil 25%
3er cuartil 75%
Exploración
p de datos
Gráficos estadísticos

Comparación gráfica de la variable silt (sedimento) en


los distintos puntos de muestreo (1 a 4):

Box-and-Whisker Plot

1
on

2
Locatio

15 25 35 45 55
Silt
T
Transformaciones
f i

Para modelos de interpolación del tipo regresión, las


hipótesis
p requieren,
q , entre otras condiciones:

Normalidad de los datos


Homogeneidad en la varianza
Si en el análisis exploratorio no se observa simetría en el
histograma y con un contraste de bondad de ajuste
(prueba chi-cuadrado o Kolmogorov-Smirnov)
(p g ) se confirma
la falta de normalidad, se tendrá que recurrir a algún
tipo de transformación “normalizante” de los datos.
Transformaciones Box-Cox
o de potencia

 X λ −1
 λ ≠ 0
T(X ) = Y =  λ
 ln X λ =0
• λ=2, Y=X2
• λ
λ=1/2
1/2, Y=X
Y X1/2
• Se busca que la variable transformada se
parezca a una distribución normal

Y ≡ X (λ ) ~ N (µ ,σ 2 )
Ejemplo: X ~ Exp(3)
• Rango: [0, 10] pasos de 0.05.
• j fue λ = 3.05
La mejor
Exponencial( 3 ) Tran. Box-Cox con SD min. QQPlot norm.
QQPlot normalizado. Desv. Tipica = 0.364 (lambda = 3.05 , Desv. Tip. = 0.221 )
1.5

1.5
1.0

1.0
X

Y
0.5

0.5
0.0

0.0
-2 -1 0 1 2 -2 -1 0 1 2
Quantiles of Standard Normal Quantiles of Standard Normal

Exponencial( 3 ) Lambda vs. Desv. Tipica.


Histograma (lambda = 3.05 , Desv. Tip. = 0.221 )
40

1.0
0.7
30
3

0
log(SD)

0.5
20
10

0.3
0

0.0 0.5 1.0 1.5 0 2 4 6 8 10

X Lambda
Ejemplo: X ~ Beta(5, 2.5)

• Rango: [-10, 10] pasos de 1.


• j fue λ >= 10
La mejor

Beta( 5 , 2.5 ) Tran. Box-Cox con SD min. QQPlot norm.


QQPlot normalizado. Desv. Tipica = 0.165 (lambda = 10 , Desv. Tip. = 0.0138 )
1.0

1.0
0.8

0.8
0.6

0.6
X

Y
0.4

0.4
0.2
2

0.2
2
0.0

0.0
-2 -1 0 1 2 -2 -1 0 1 2

Quantiles
Qua t es oof Sta
Standard
da d Normal
o a Quantiles
Qua t es oof Sta
Standard
da d Normal
o a

Beta( 5 , 2.5 ) Lambda vs. Desv. Tipica.


Histograma (lambda = 10 , Desv. Tip. = 0.0138 )

10^7
25

0^5
20

10
2

10^3
15

log(SD)
10

10^1
5

10^-2
0

0.2 0.4 0.6 0.8 1.0 -10 -5 0 5 10


X Lambda
Ejemplo:
j p X ~ U(0.01,
( , 1))

• Rango: [-10, 10] pasos de 0.5.


• j ffue λ >=
L mejor
La > 10

Uniforme( 0.01 , 1 ) Tran. Box-Cox con SD min. QQPlot norm.


QQPlot normalizado. Desv. Tipica = 0.286 (lambda = 10 , Desv. Tip. = 0.0222 )
1.0
0

1.0
0
0.8

0.8
0.6

0.6
X

Y
0.4

0.4
0.2

0.2
0.0

0.0
-2 -1 0 1 2 -2 -1 0 1 2

Quantiles of Standard Normal Quantiles of Standard Normal

Uniforme( 0.01 , 1 ) Lambda vs. Desv. Tipica.


Histograma (lambda = 10 , Desv. Tip. = 0.0222 )
10 12 14

10^7 10^10
log(SD)
8

10^4
6
4

10^1
1
2

10^-2
0

0.0 0.2 0.4 0.6 0.8 1.0 -10 -5 0 5 10

X Lambda
REFERENCIAS - ENLACES WEB

http://descargas.cervantesvirtual.com/servlet/SirveObras/4686017510402683
9600080/006458_8.pdf
_ p
Cap.7: Sistemas de Información Geográfica: Pasado, presente y futuro (tesis
doctoral)

www.geogra.uah.es/~joaquin/curso-quito/SIG-OdelT.pdf
h / j i / it /SIG Od lT df

http://ares.unimet.edu.ve/postgrado/mpi002/Estadistica%20Descriptiva/256,1,
Estadística Descriptiva

ttp://www.elagrimensor.net/elearning/lecturas/sig-capitulo%206.pdf
Interpolación
p a partir
p de mapas
p e isolíneas ((aplicaciones
p estadísticas a datos
geográficos, diseños de muestreo.,…en región de Murcia)

http://www.ine.gob.mx/ueajei/publicaciones/libros/459/cap3.html
D ñ d
Diseños de muestreo para suelos.
l Ejemplo
E l de
d sistemático
á en contaminación
ó de
d
suelos.

www.monografías
www monografías .com.
com Elementos de Geoestadística.
Geoestadística CUADOR GIL,
GIL J.Q.
JQ
Universidad de Pinar del Río (Cuba).

También podría gustarte