Está en la página 1de 45

ANLISIS GEOESTADSTICO

Origen de la Geoestadstica
Geoestadstica: definicin y objeto
Datos geogrficos y anlisis estadstico
Conceptos bsicos de Estadstica
Tcnicas bsicas de Estadstica
para el Anlisis

Exploratorio de Datos

Concepcin Gonzlez Garca (2008)


Imagen de la NASA

Origen de la Geoestadstica
Geoestadstica (i)
La Geoestadstica tiene su origen en la bsqueda,
exploracin y evaluacin de yacimientos minerales tiles.
Se ha consolidado y desarrollado en los ltimos 30 aos
como ciencia aplicada casi exclusivamente en el campo
minero.
La gran diversidad de formas en que se presentan los
datos ha llevado a la utilizacin de tcnicas matemticas
y estadsticas para resolver un nico problema: estimar

valores desconocidos a partir de los conocidos, para


l estimacin
la
ti
i y caracterizacin
t i
i de
d llos recursos y
reservas.

Origen de la Geoestadstica
Geoestadstica (ii)
Las investigaciones han buscado los mtodos ms
eficientes que proporcionen la mayor informacin posible
d llos d
de
datos di
disponibles.
ibl
Mediante el mejor estimador que minimice la varianza
del error de estimacin (error cuadrtico medio) surge
la Geoestadstica por los trabajos de G. Matheron en la
Escuela Superior de Minas de Pars (1949)
Entre
Entre los mtodos ms recientes se pueden citar los
geomatemticos: El Inverso de la Distancia,
g
Splines,
p
etc.
Triangulacin,

Origen de la Geoestadstica
Geoestadstica (antecedentes)
Sichel (1947),
(1947) 1949) observ la naturaleza asimtrica de
la distribucin del contenido de oro en las minas
surafricanas,
f
, la equipar
q p
a una distribucin de
probabilidad lognormal y desarroll las frmulas bsicas
para esta distribucin.
D.G. Krige (1951) desarroll la aplicacin del anlisis de
g
entre muestras
m
y bloques
q
de mena
m
(Mineral
regresin

metalfero, principalmente el de hierro, tal como se extrae del criadero y antes de limpiarlo).

De la minera,, las tcnicas geoestadsticas,


g
, se han
exportado a ms campos como la hidrologa, fsica del
suelo, ciencias de la tierra y ms recientemente a la
gestin
i ambiental
bi
l y all procesado
d d
de iimgenes

d
de satlite.
li

Geoestadstica :
D fi i i y Obj
Definicin
Objeto
t (i)

9La geoestadstica es una rama de la estadstica que trata


f
fenmenos
espaciales
i l (J
(Journell & H
Huijbregts,
ijb
t 1978)
1978).
9Su inters primordial es la estimacin,
estimacin prediccin y
simulacin de dichos fenmenos (Myers, 1987).
Se reconoce como una rama de la estadstica tradicional,
que parte de la observacin de que la variabilidad o
continuidad
i id d espacial
i ld
de llas variables
i bl di
distribuidas
ib id en ell
espacio tienen una estructura particular que se estudia
mediante las depencias entre ellas
ellas.

Geoestadstica :
D fi i i y Obj
Definicin
Objeto
t (ii)
> Matheron (1970) denomin a estas variables
dependientes
p
entre si, variables regionalizadas, adems
de elaborar su teora. [Journel y Huijbregts (1978), David
(1977) y de Fouquet (1996)].
En resumen, la aplicacin de la teora de los procesos
estocsticos a los problemas de evaluacin de reservas de
distintos tipos de materias primas minerales y en general
a las ciencias naturales en el anlisis de datos distribuidos
espacial y temporalmente dio origen a lo que hoy se
conoce como Geoestadstica.

D t s geogrficos
Datos
fi s y anlisis
lisis estadstico
st dsti

Los SIG actuales incluyen


y posibilidades
p
de exploracin
p
y anlisis de datos.
Las tcnicas
L
i
ms
elementales
l
l son de
d Estadstica
E d i
descriptiva (Anlisis Exploratorio de Datos, EDA).
La Estadstica Descriptiva: para una, dos y hasta 3
variables,
i bl
permite
i resumir
i conjuntos
j
d
de valores
l
y
visualizar estructuras de distribuciones de probabilidad.

D t s geogrficos
Datos
fi s y anlisis
lisis estadstico
st dsti

Caractersticas de los datos geogrficos:


en un punto,
t adems
d de
d sus coordenadas,
d
d
se di
dispone d
de
informacin multivariante (altitud, precipitacin,
profundidad del suelo
suelo, tipo de vegetacin
vegetacin,))
El denominado Anlisis exploratorio espacial de datos
(ESDA), es una ampliacin y desarrollo del EDA.
El ESDA incluye, junto a tcnicas exploratorias, muchas
ideas tomadas del Anlisis espacial o Estadstica
espacial.

Datos geogrficos y anlisis estadstico

Existen algunas dificultades fundamentales para que las


tcnicas estadsticas convencionales manejen
correctamente datos geogrficos:
El empleo de las Tcnicas clsicas de Inferencia
Estadstica, suponen, en los datos de partida :
> la
l independencia
d
d
d llas observaciones
de
b
> la distribucin en curva de Gauss
(distribucin Normal)
lo cual a menudo no se cumple
p en datos geogrficos.
g g f

Conceptos
p
bsicos de Estadstica
Revisin de Tcnicas estadsticas
M
Muestreo
t
y anlisis
li i Exploratorio
E l
t i d
de datos
d t
Conceptos de Inferencia Estadstica paramtrica:
Una variable: Estimador, propiedades,
intervalos de confianza y tests de hiptesis.
Dos ms variables: modelos lineales
(regresin, Anlisis de la varianza)
Conceptos de procesos estocsticos (variables
dependientes, medidas de dependencia espacial)

Conceptos
p
bsicos de Estadstica
Muestreo y anlisis Exploratorio de datos
Poblacin (Universo) y Muestra.
Muestreo (Obtencin de datos)
Variables y tipos
Antes de comenzar un estudio geoestadstico se deben
discutir todos los elementos que aporten conocimientos
del problema a resolver, fenmeno en estudio,
estud o,
organizacin y verificacin de la informacin disponible y
finalmente realizar el anlisis exploratorio de los datos.

Conceptos
p
bsicos de Estadstica

Poblacin estadstica o universo es el conjunto de


referencia sobre el cual van a recaer las observaciones.
Muestra: es el subconjunto de la poblacin en el que se
mide una o ms variables de inters.
inters
-a partir de este subconjunto se obtienen conclusiones
sobre las caractersticas de la poblacin.
p
- la muestra debe ser representativa, en el sentido de que
las conclusiones obtenidas deben servir para el total de la
poblacin.
bl i
Unidad muestral: elementos de la poblacin, no solapados en los que
se mide. Cada elemento de la poblacin
pertenecer
a una y slo
una
unidad muestral.

Estadstica bsica
Tipos de muestras
Muestra probabilstica: se elige mediante ciertas
reglas de manera que la probabilidad de seleccin de
reglas,
cada unidad es conocida de antemano.
Muestra no probabilstica: no se rige por las reglas
matemticas de la probabilidad.
en las muestras probabilsticas es posible calcular la
magnitud del error muestral,
muestral
no es factible hacerlo en el caso de las muestras no
probabilsticas (puntos
p
p
de fcil acceso, estaciones de
medicin de la calidad del aire en una ciudad)

Estadstica bsica
Mtodos de muestreo
Muestreo aleatorio simple: todos los componentes o
unidades de la p
poblacin tienen la misma
m m probabilidad
p
de ser seleccionados. Es la modalidad ms elemental de m.
probabilistico.

Representacin grfica del muestreo aleatorio simple

Estadstica bsica
Mtodos de muestreo
Muestreo sistemtico:
Se selecciona al azar un punto de partida y un intervalo muestral.
muestral
As si el punto de partida fuera el 11 y el intervalo el 6 se elegiran
el 11, 16, 21, 16 hasta recorrer toda la poblacin.

Representacin grfica del muestreo sistemtico

Estadstica bsica
Mtodos de muestreo
Muestreo estratificado (i):
-la
l poblacin
bl i en estudio
t di se subb divide
di id en estratos
t t o
subpoblaciones que tienen cierta homogeneidad en el
terreno y en cada estrato se realiza un muestreo
aleatorio simple (o sistemtico).
-requisito
requisito principal para aplicar este mtodo de
muestreo: conocimiento previo de informacin que
permita subdividir la poblacin,
Por ejemplo: divisin que se puede realizar con base en la topografa, los
horizontes del suelo,
suelo la mancha del contaminante
contaminante, los cambios de color en
el suelo, el crecimiento irregular de las plantas, etc.

Estadstica bsica
Mtodos de muestreo
Muestreo estratificado (ii):
- garantiza
ti que llos puntos
t d
de muestreo
t
se encuentren
t
repartidos ms uniformemente en toda la zona en
funcin del tamao del estrato;
- permite conocer de forma independiente las
caractersticas
t ti
particulares
ti l
d
de cada
d estrato
t t
-recomendable
recomendable para reas mayores de diez hectreas y cuando el
terreno no es homogneo (Mason 1992, Valencia y Hernndez
2002).

Estadstica bsica
Mtodos de muestreo

Esquemas de tipos de muestreo:


a)) aleatorio simple;
mp ;
b) aleatorio estratificado;
c) sistemtico rejilla rectangular;
d) sistemtico rejilla polar

Estadstica bsica
Otros Mtodos de muestreo

Muestreo por conglomerados


En poblaciones
E
bl i
muy extensas,
t
d d la
donde
l localizacin
l
li
i y
medicin de la muestra seleccionada supone grandes
desplazamientos se suelen agrupar las unidades
elementales en conglomerados o unidades primarias
C
Caractersticas
t ti
del
d l conglomerado
l
d :

> Conjunto de unidades muestrales elementales.


> Heterogeneidad de la variable a medir
> El nmero total de conglomerados en la poblacin es
conocido

Estadstica bsica
Muestreo por conglomerados
C
Caractersticas:
t ti
Divisin previa de la poblacin en conglomerados o reas
convenientes, de las cuales se selecciona un cierto nmero
convenientes
para la muestra

Ventajas:
Ahorro de costes y tiempo al efectuar visitas a las
unidades seleccionadas.
Disminucin de necesidad de desplazamientos al
concentrar unidades elementales.
elementales
Inconvenientes:
Menor precisin
M
i i en llas estimaciones,
ti
i
sobre
b ttodo
d con
conglomerados de gran tamao

Conceptos de Estadstica bsica


Diferencias entre tipos de muestreo
ALEATORIO

ESTRATIFICADO

CONGLOMERADOS

(Adaptado de Pea, 2001)

Estadstica bsica
Variables y Tipos de variables
Variable: cada una de las caractersticas de los
elementos de una poblacin y que varan de una unidad a
otra.
9Variables cualitativas (o categricas): aquellas que no
tienen medida numrica; se representan
p
por
p categoras
o atributos (tipo de suelo, de vegetacin, textura,).
9Variables cuantitativas: las que pueden expresarse
numricamente (temperatura, precipitacin,
profundidad suelo, altitud, pendiente,
p
p
.)

Estadstica bsica
Variables cuantitativas
Variables discretas: son el resultado de contar y
slo toman valores enteros (nmero de puntos, de
cuadrculas, de pxeles).
Variables continuas: son el resultado de medir, y
pueden contener decimales (temperatura,
(temperatura
profundidad, altura). Se pueden subdividir a voluntad.
Pueden tomar,
tomar entonces,
entonces cualquier valor de un
determinado intervalo

Estadstica bsica
Estadstica Descriptiva
Objetivo: conocer la informacin disponible.
Clculos
Cl
l estadsticos
d i
o estadstica
d i descriptiva.
d
i i
Permiten determinar si la distribucin de los datos es
normal lognormal,
normal,
lognormal o si no se ajustan a una distribucin
estadstica conocida. Implica tener conocimiento de:
Nmero de casos: representado por n, es el
nmero de valores muestreados del fenmeno en
estudio los datos representados por xi
estudio,
xi, i = 11, . . . , n
n.
Frecuencia de cada xi n de veces que aparece el
mismo valor medido.

Estadstica bsica
Distribuciones de frecuencias
Los valores de cada xi medidos y su frecuencia de
aparicin
p
en los n datos se conoce como
m la
distribucin de la variable estudiada.
Valores resumen: Medidas de posicin
Media: Es la media aritmtica de la distribucin,

1 n
xi
xn = n
i =1

Estadstica bsica
Valores resumen: Medidas de posicin
Moda: Es el valor ms frecuente de la distribucin
Mediana: Es el valor para el cual la mitad de los
d t son menores y la
datos
l otra
t mitad
it d estn
t por encima
i
de
d
este valor.
La mediana es tambin llamada percentil 50
Ordenando los datos en orden ascendente podemos calcular la
mediana
di
como.
X(n+1)/2
si n es impar.
M =

(Xn/2 + Xn/2+1)/2
si n es par.

Estadstica bsica
V l
Valores
resumen: Medidas
M did de
d posicin
i i
Cuartiles, donde Q1 = percentil 25, Q2 = Mediana y
Q3 = percentil 75.
Deciles si los datos se dividen en 10.
De forma general estas medidas se pueden calcular
por: [p(n+1)/100] sima observacin de los datos
ordenados ascendentemente,, donde p es el p
percentil
que se desea calcular.

Valores resumen: Medidas de posicin

Interpretacin de los Cuartiles


Se forman cuatro g
grupos
p con igual
g
cantidad de datos
Un cuarto de los
datos toman
valores iguales o
inferiores a 2,2

La mitad de los datos (dos


cuartos) toman valores
iguales o inferiores a 3,6
3 6

Q2= Me=3,6
Q1=2,2
=2 2

Q3=7,6
Rango Intercuartil
RI=Q3-Q1

xmin=1,1

Tres cuartos de los datos


toman valores iguales o
inferiores a 7,6

xmax=9,9

Escala graduada de la variable en estudio

10

Estadstica bsica
Valores resumen: Dispersin
Rango de la distribucin: Es la diferencia entre el valor
mximo y el mnimo observados.

Varianza: Describe la variabilidad de la distribucin. Es la


medida de la desviacin o dispersin de la distribucin.

2
n 1

1 n
=

n 1 i=1
=1

(xi x n )

Se divide por (n-1) y no por n y se representa por S2 cuando se


calcula con una muestra observada porque proporciona mejor
estimacin
i
i de
d la
l varianza
i
de
d la
l poblacin.
bl i (estimacin
(
i
i iinsesgada)
d )
Esto significa que si un experimento fuera repetido muchas veces
se podra esperar que el promedio de los valores as obtenidos
para S2 (valor muestral) igualara a 2.

Estadstica bsica
Valores resumen
Desviacin estndar: Tambin describe dispersin
de la distribucin.
distribucin Es la raz de la medida de
desviacin alrededor de la media,
2n 1
En las mismas unidades de medida que la variable estudiada.

Normal con n-1 pequea

Normal con n-1


n 1 grande

Estadstica bsica
Valores resumen
Error estndar: que se comete al estimar la media
de la variable medida con los n
n observaciones de la
muestra. A mayor tamao muestral menor error,

2n 1

Coeficiente de variacin: Es una medida de la


variacin relativa de los datos en porcentaje,
porcentaje

n 1
CV % =
100
Xn

Estadstica bsica
Valores resumen: De forma

Coeficiente de asimetra (de Fisher):


Describe
D
ib lla simetra
i t d
de lla di
distribucin
t ib i relativa
l ti a lla
distribucin normal.

1 n
3
3 = (xi Xn ) 3
n i=1

Estadstica bsica
Valores resumen: De forma
Coeficiente de asimetra (cont):

3 = 0

3 < 0

3 > 0

Asimetra
A
i t negativa
ti = mayor concentracin
t
i de
d valores
l
a la
l
izquierda de la media.
Asimetra positiva = mayor concentracin de valores a la derecha
de la media.

Estadstica bsica
Valores resumen: De forma
Curtosis (o apuntamiento): Describe el grado de
esbeltez de la distribucin,, en relacin a una
distribucin normal,
1 n
4
4 = (x i X n ) 4
n i=1
Eje de
simetra

> 3

= 3

< 3

Estadstica bsica
Grficos estadsticos
Permiten ilustrar y entender las distribuciones de los datos,
identificar datos errados, valores extremos, tendencias en la
variacin de los datos, relaciones entre variables,
Plot of Dimetro vs Copa 1
30

Grfico de dispersin
(scatterplot X
X-Y)
Y)

Dimetro

25
20
15
10
5
0
0

Copa 1

Exploracin
p
de datos
Grficos estadsticos
Grficos descriptivos para una variable (i)
Histogram
12

fre
equency

Histogramas

10
8
6
4
2
0
0

Copa 1

Grficos de cuantiles:

Quantile Plot
1

Percentiles for Copa 1


proportion
n

1,0% = 1,2
5,0% = 1,4
10,0% = 1,6
25,0% = 2,4
50 0% = 3,2
50,0%
3 2
75,0% = 4,3
90,0% = 5,1

0,8
0,6
0,4
0,2
0
0

Copa 1

Exploracin
p
de datos
Grficos estadsticos
Grficos descriptivos para una variable (ii)
Grfico de cuantiles para verificar el ajuste de los
datos a la distribucin Normal: (Q-Q Normal)
Eje vertical:
Ej
ti l: valores
l
de
d lla funcin
f n in de
d di
distribucin
t ib in d
de lla N
Normal.
m l
Recta: grfico de los valores de la variable con los valores de
probabilidad acumulada de ocurrencia segn la distribucin Normal.

La proximidad de los valores


observados a la recta indica q
que
los datos se pueden considerar
con distribucin Normal

percenta
age

N
Normal
lP
Probability
b bilit Pl
Plott
99,9
99
95
80
50
20
5
1
0,1
0

Copa 1

Exploracin
p
de datos
Grficos estadsticos
Grficos descriptivos para una variable (iii)
Grficos de cajas (box-plot)
(box plot)
2 cuartil 50%
2

Box-and-Whisker Plot

Media

(mediana)

Anmalo
(outlier)

mn

Copa 1

1er cuartil 25%

Mx.
3er cuartil 75%

Exploracin
p
de datos
Grficos estadsticos
Comparacin grfica de la variable silt (sedimento) en
los distintos puntos de muestreo (1 a 4):
Box-and-Whisker Plot

Locatio
on

1
2
3
4
15

25

35

Silt

45

55

T
Transformaciones
f
i
Para modelos de interpolacin del tipo regresin, las
hiptesis
p
requieren,
q
, entre otras condiciones:
Normalidad de los datos
Homogeneidad en la varianza
Si en el anlisis exploratorio no se observa simetra en el
histograma y con un contraste de bondad de ajuste
(prueba chi-cuadrado o Kolmogorov-Smirnov)
(p
g
) se confirma
la falta de normalidad, se tendr que recurrir a algn
tipo de transformacin normalizante de los datos.

Transformaciones Box-Cox
o de potencia

X 1

0
T(X ) = Y =
ln X
=0
=2, Y=X2

=1/2
1/2, Y=X
Y X1/2
Se busca que la variable transformada se
parezca a una distribucin normal

Y X ( ) ~ N ( , 2 )

Ejemplo: X ~ Exp(3)

Rango: [0, 10] pasos de 0.05.

j fue = 3.05
La mejor

1.0
0.0

0.5

0.5
0.0

-2

-1

-2

-1

Quantiles of Standard Normal

Quantiles of Standard Normal

Lambda vs. Desv. Tipica.


(lambda = 3.05 , Desv. Tip. = 0.221 )

0.7
0
0.5
0.3

10

20

log(SD)

30
3

1.0

40

Exponencial( 3 )
Histograma

1.0

1.5

Tran. Box-Cox con SD min. QQPlot norm.


(lambda = 3.05 , Desv. Tip. = 0.221 )

1.5

Exponencial( 3 )
QQPlot normalizado. Desv. Tipica = 0.364

0.0

0.5

1.0
X

1.5

6
Lambda

10

Ejemplo: X ~ Beta(5, 2.5)

Rango: [-10, 10] pasos de 1.

j fue >= 10
La mejor

0.8
0.6
0.0

0.2
2

0.4

0.4
0.2
2
0.0

-2

-1

-2

Quantiles
Qua
t es o
of Sta
Standard
da d Normal
o a

-1

Quantiles
Qua
t es o
of Sta
Standard
da d Normal
o a

Lambda vs. Desv. Tipica.


(lambda = 10 , Desv. Tip. = 0.0138 )

10^3
10^1
10^-2

10

log(SD)

15

20
2

10
0^5

25

10^7

Beta( 5 , 2.5 )
Histograma

0.6

0.8

1.0

Tran. Box-Cox con SD min. QQPlot norm.


(lambda = 10 , Desv. Tip. = 0.0138 )

1.0

Beta( 5 , 2.5 )
QQPlot normalizado. Desv. Tipica = 0.165

0.2

0.4

0.6
X

0.8

1.0

-10

-5

0
Lambda

10

Ejemplo:
j p X ~ U(0.01,
(
, 1))

Rango: [-10, 10] pasos de 0.5.

L mejor
La
j ffue >=
> 10

0.8
0.6
0.0

0.2

0.4

0.4
0.2
0.0

-2

-1

-2

Quantiles of Standard Normal

-1

Quantiles of Standard Normal

Lambda vs. Desv. Tipica.


(lambda = 10 , Desv. Tip. = 0.0222 )

10^4
10^-2

10^1
1

log(SD)

10^7 10^10

10 12 14

Uniforme( 0.01 , 1 )
Histograma

0.6

0.8

1.0
0

Tran. Box-Cox con SD min. QQPlot norm.


(lambda = 10 , Desv. Tip. = 0.0222 )

1.0
0

Uniforme( 0.01 , 1 )
QQPlot normalizado. Desv. Tipica = 0.286

0.0

0.2

0.4

0.6
X

0.8

1.0

-10

-5

0
Lambda

10

REFERENCIAS - ENLACES WEB


http://descargas.cervantesvirtual.com/servlet/SirveObras/4686017510402683
9600080/006458_8.pdf
_ p
Cap.7: Sistemas de Informacin Geogrfica: Pasado, presente y futuro (tesis
doctoral)
www.geogra.uah.es/~joaquin/curso-quito/SIG-OdelT.pdf
h / j
i /
it /SIG Od lT df
http://ares.unimet.edu.ve/postgrado/mpi002/Estadistica%20Descriptiva/256,1,
Estadstica Descriptiva
ttp://www.elagrimensor.net/elearning/lecturas/sig-capitulo%206.pdf
Interpolacin
p
a partir
p
de mapas
p e isolneas ((aplicaciones
p
estadsticas a datos
geogrficos, diseos de muestreo.,en regin de Murcia)
http://www.ine.gob.mx/ueajei/publicaciones/libros/459/cap3.html
D d
Diseos
de muestreo para suelos.
l
Ejemplo
E
l de
d sistemtico

en contaminacin
de
d
suelos.
www.monografas
www
monografas .com.
com Elementos de Geoestadstica.
Geoestadstica CUADOR GIL,
GIL J.Q.
JQ
Universidad de Pinar del Ro (Cuba).

También podría gustarte