Está en la página 1de 45

ANLISIS GEOESTADSTICO

Origen de la Geoestadstica Geoestadstica: definicin y objeto Datos geogrficos y anlisis estadstico Conceptos bsicos de Estadstica Tcnicas bsicas de Estadstica para el Anlisis Exploratorio de Datos

Concepcin Gonzlez Garca (2008)


Imagen de la NASA

Origen de la Geoestadstica Geoestadstica (i) La Geoestadstica tiene su origen en la bsqueda, exploracin y evaluacin de yacimientos minerales tiles. Se ha consolidado y desarrollado en los ltimos 30 aos como ciencia aplicada casi exclusivamente en el campo minero. La gran diversidad de formas en que se presentan los datos ha llevado a la utilizacin de tcnicas matemticas y estadsticas para resolver un nico problema: estimar

valores desconocidos a partir de los conocidos, para la ti l estimacin y caracterizacin de l recursos y i t i i d los reservas.

Origen de la Geoestadstica Geoestadstica (ii) Las investigaciones han buscado los mtodos ms eficientes que proporcionen la mayor informacin posible de los datos di d l d disponibles. ibl Mediante el mejor estimador que minimice la varianza del error de estimacin (error cuadrtico medio) surge la Geoestadstica por los trabajos de G. Matheron en la Escuela Superior de Minas de Pars (1949) Entre los mtodos ms recientes se pueden citar los geomatemticos: El Inverso de la Distancia, g p Triangulacin, Splines, etc.

Origen de la Geoestadstica Geoestadstica (antecedentes) Sichel (1947), 1949) observ la naturaleza asimtrica de (1947) la distribucin del contenido de oro en las minas surafricanas, la equipar a una distribucin de f , q p probabilidad lognormal y desarroll las frmulas bsicas para esta distribucin. D.G. Krige (1951) desarroll la aplicacin del anlisis de g m q m regresin entre muestras y bloques de mena (Mineral

metalfero, principalmente el de hierro, tal como se extrae del criadero y antes de limpiarlo).

De la minera, las tcnicas geoestadsticas, se han , g , exportado a ms campos como la hidrologa, fsica del suelo, ciencias de la tierra y ms recientemente a la gestin ambiental y al procesado d i i bi l l d de imgenes d satlite. de li

Geoestadstica : Definicin Objeto D fi i i y Obj t (i)

La geoestadstica es una rama de la estadstica que trata fenmenos espaciales (J f i l (Journel & H ijb l Huijbregts, 1978) t 1978). Su inters primordial es la estimacin, prediccin y estimacin simulacin de dichos fenmenos (Myers, 1987). Se reconoce como una rama de la estadstica tradicional, que parte de la observacin de que la variabilidad o continuidad espacial d l variables di ib id en el i id d i l de las i bl distribuidas l espacio tienen una estructura particular que se estudia mediante las depencias entre ellas ellas.

Geoestadstica : Definicin Objeto D fi i i y Obj t (ii) > Matheron (1970) denomin a estas variables dependientes entre si, variables regionalizadas, adems p de elaborar su teora. [Journel y Huijbregts (1978), David (1977) y de Fouquet (1996)]. En resumen, la aplicacin de la teora de los procesos estocsticos a los problemas de evaluacin de reservas de distintos tipos de materias primas minerales y en general a las ciencias naturales en el anlisis de datos distribuidos espacial y temporalmente dio origen a lo que hoy se conoce como Geoestadstica.

Datos D t s geogrficos y anlisis estadstico fi s lisis st dsti

Los SIG actuales incluyen posibilidades de exploracin y p p y anlisis de datos. Las i L tcnicas ms elementales son de E d i l l d Estadstica descriptiva (Anlisis Exploratorio de Datos, EDA). La Estadstica Descriptiva: para una, dos y hasta 3 variables, permite resumir conjuntos d valores y i bl i i j de l visualizar estructuras de distribuciones de probabilidad.

Datos D t s geogrficos y anlisis estadstico fi s lisis st dsti

Caractersticas de los datos geogrficos: en un punto, adems de sus coordenadas, se di t d d d d dispone d de informacin multivariante (altitud, precipitacin, profundidad del suelo tipo de vegetacin ) suelo, vegetacin,) El denominado Anlisis exploratorio espacial de datos (ESDA), es una ampliacin y desarrollo del EDA. El ESDA incluye, junto a tcnicas exploratorias, muchas ideas tomadas del Anlisis espacial o Estadstica espacial.

Datos geogrficos y anlisis estadstico

Existen algunas dificultades fundamentales para que las tcnicas estadsticas convencionales manejen correctamente datos geogrficos: El empleo de las Tcnicas clsicas de Inferencia Estadstica, suponen, en los datos de partida : > la independencia d l observaciones l d d de las b > la distribucin en curva de Gauss (distribucin Normal) lo cual a menudo no se cumple en datos geogrficos. p g g f

Conceptos bsicos de Estadstica p Revisin de Tcnicas estadsticas Muestreo y anlisis Exploratorio d datos M t li i E l t i de d t Conceptos de Inferencia Estadstica paramtrica: Una variable: Estimador, propiedades, intervalos de confianza y tests de hiptesis. Dos ms variables: modelos lineales (regresin, Anlisis de la varianza) Conceptos de procesos estocsticos (variables dependientes, medidas de dependencia espacial)

Conceptos bsicos de Estadstica p Muestreo y anlisis Exploratorio de datos Poblacin (Universo) y Muestra. Muestreo (Obtencin de datos) Variables y tipos Antes de comenzar un estudio geoestadstico se deben discutir todos los elementos que aporten conocimientos del problema a resolver, fenmeno en estudio, estud o, organizacin y verificacin de la informacin disponible y finalmente realizar el anlisis exploratorio de los datos.

Conceptos bsicos de Estadstica p

Poblacin estadstica o universo es el conjunto de referencia sobre el cual van a recaer las observaciones. Muestra: es el subconjunto de la poblacin en el que se mide una o ms variables de inters inters. -a partir de este subconjunto se obtienen conclusiones sobre las caractersticas de la poblacin. p - la muestra debe ser representativa, en el sentido de que las conclusiones obtenidas deben servir para el total de la poblacin. bl i Unidad muestral: elementos de la poblacin, no solapados en los que
se mide. Cada elemento de la poblacin pertenecer a una y slo una unidad muestral.

Estadstica bsica Tipos de muestras Muestra probabilstica: se elige mediante ciertas reglas, reglas de manera que la probabilidad de seleccin de cada unidad es conocida de antemano. Muestra no probabilstica: no se rige por las reglas matemticas de la probabilidad. en las muestras probabilsticas es posible calcular la magnitud del error muestral muestral, no es factible hacerlo en el caso de las muestras no p probabilsticas (puntos de fcil acceso, estaciones de p medicin de la calidad del aire en una ciudad)

Estadstica bsica Mtodos de muestreo Muestreo aleatorio simple: todos los componentes o unidades de la poblacin tienen la misma probabilidad p m m p de ser seleccionados. Es la modalidad ms elemental de m.
probabilistico.

Representacin grfica del muestreo aleatorio simple

Estadstica bsica Mtodos de muestreo Muestreo sistemtico:


Se selecciona al azar un punto de partida y un intervalo muestral muestral. As si el punto de partida fuera el 11 y el intervalo el 6 se elegiran el 11, 16, 21, 16 hasta recorrer toda la poblacin.

Representacin grfica del muestreo sistemtico

Estadstica bsica Mtodos de muestreo Muestreo estratificado (i): -la poblacin en estudio se sub- di id en estratos o l bl i t di b divide t t subpoblaciones que tienen cierta homogeneidad en el terreno y en cada estrato se realiza un muestreo aleatorio simple (o sistemtico). -requisito principal para aplicar este mtodo de requisito muestreo: conocimiento previo de informacin que permita subdividir la poblacin,
Por ejemplo: divisin que se puede realizar con base en la topografa, los horizontes del suelo, la mancha del contaminante los cambios de color en suelo contaminante, el suelo, el crecimiento irregular de las plantas, etc.

Estadstica bsica Mtodos de muestreo Muestreo estratificado (ii): - garantiza que l puntos d muestreo se encuentren ti los t de t t repartidos ms uniformemente en toda la zona en funcin del tamao del estrato; - permite conocer de forma independiente las caractersticas particulares d cada estrato t ti ti l de d t t
-recomendable para reas mayores de diez hectreas y cuando el recomendable terreno no es homogneo (Mason 1992, Valencia y Hernndez 2002).

Estadstica bsica Mtodos de muestreo

Esquemas de tipos de muestreo:


a) aleatorio simple; ) mp ; b) aleatorio estratificado; c) sistemtico rejilla rectangular; d) sistemtico rejilla polar

Estadstica bsica Otros Mtodos de muestreo

Muestreo por conglomerados


En E poblaciones muy extensas, d d l l bl i t donde la localizacin y li i medicin de la muestra seleccionada supone grandes desplazamientos se suelen agrupar las unidades elementales en conglomerados o unidades primarias
Caractersticas del conglomerado: C t ti d l l d

> Conjunto de unidades muestrales elementales. > Heterogeneidad de la variable a medir > El nmero total de conglomerados en la poblacin es conocido

Estadstica bsica Muestreo por conglomerados Caractersticas: C t ti


Divisin previa de la poblacin en conglomerados o reas convenientes convenientes, de las cuales se selecciona un cierto nmero para la muestra

Ventajas: Ahorro de costes y tiempo al efectuar visitas a las unidades seleccionadas. Disminucin de necesidad de desplazamientos al concentrar unidades elementales elementales. Inconvenientes: Menor precisin en l estimaciones, sobre t d con M i i las ti i b todo conglomerados de gran tamao

Conceptos de Estadstica bsica Diferencias entre tipos de muestreo


ALEATORIO ESTRATIFICADO CONGLOMERADOS

(Adaptado de Pea, 2001

Estadstica bsica Variables y Tipos de variables Variable: cada una de las caractersticas de los elementos de una poblacin y que varan de una unidad a otra. Variables cualitativas (o categricas): aquellas que no tienen medida numrica; se representan por categoras p p o atributos (tipo de suelo, de vegetacin, textura,). Variables cuantitativas: las que pueden expresarse numricamente (temperatura, precipitacin, p profundidad suelo, altitud, pendiente, .) p

Estadstica bsica Variables cuantitativas Variables discretas: son el resultado de contar y slo toman valores enteros (nmero de puntos, de cuadrculas, de pxeles). Variables continuas: son el resultado de medir, y pueden contener decimales (temperatura (temperatura, profundidad, altura). Se pueden subdividir a voluntad. Pueden tomar entonces, cualquier valor de un tomar, entonces determinado intervalo

Estadstica bsica Estadstica Descriptiva Objetivo: conocer la informacin disponible. Clculos Cl l estadsticos o estadstica descriptiva. d i d i d i i Permiten determinar si la distribucin de los datos es normal, lognormal, normal lognormal o si no se ajustan a una distribucin estadstica conocida. Implica tener conocimiento de: Nmero de casos: representado por n, es el nmero de valores muestreados del fenmeno en estudio, estudio los datos representados por xi i = 1 . . . , n xi, 1, n. Frecuencia de cada xi n de veces que aparece el mismo valor medido.

Estadstica bsica Distribuciones de frecuencias Los valores de cada xi medidos y su frecuencia de aparicin en los n datos se conoce como la p m distribucin de la variable estudiada. Valores resumen: Medidas de posicin Media: Es la media aritmtica de la distribucin,

1 n x n = n xi i =1

Estadstica bsica Valores resumen: Medidas de posicin Moda: Es el valor ms frecuente de la distribucin Mediana: Es el valor para el cual la mitad de los datos d t son menores y la otra mitad estn por encima de l t it d t i d este valor. La mediana es tambin llamada percentil 50
Ordenando los datos en orden ascendente podemos calcular la mediana como. di X(n+1)/2 si n es impar. M = (Xn/2 + Xn/2+1)/2 si n es par.

Estadstica bsica Valores resumen: Medidas de posicin V l M did d i i Cuartiles, donde Q1 = percentil 25, Q2 = Mediana y Q3 = percentil 75. Deciles si los datos se dividen en 10. De forma general estas medidas se pueden calcular por: [p(n+1)/100] sima observacin de los datos ordenados ascendentemente, donde p es el percentil , p que se desea calcular.

Valores resumen: Medidas de posicin

Interpretacin de los Cuartiles


Se forman cuatro grupos con igual cantidad de datos g p g
Un cuarto de los datos toman valores iguales o inferiores a 2,2 La mitad de los datos (dos cuartos) toman valores iguales o inferiores a 3 6 3,6 Tres cuartos de los datos toman valores iguales o inferiores a 7,6

Q2= Me=3,6 Q1=2 2 =2,2 xmin=1,1

Q3=7,6 Rango Intercuartil RI=Q3-Q1

xmax=9,9

Escala graduada de la variable en estudio

10

Estadstica bsica Valores resumen: Dispersin


mximo y el mnimo observados.

Rango de la distribucin: Es la diferencia entre el valor Varianza: Describe la variabilidad de la distribucin. Es la

medida de la desviacin o dispersin de la distribucin.

2 n 1

1 n = n 1 i=1 =1

(xi x n )

Se divide por (n-1) y no por n y se representa por S2 cuando se calcula con una muestra observada porque proporciona mejor estimacin de la varianza de la poblacin. (estimacin i i i d l i d l bl i ( i i insesgada) d ) Esto significa que si un experimento fuera repetido muchas veces se podra esperar que el promedio de los valores as obtenidos para S2 (valor muestral) igualara a 2.

Estadstica bsica Valores resumen Desviacin estndar: Tambin describe dispersin de la distribucin Es la raz de la medida de distribucin. desviacin alrededor de la media, 2 1 n
En las mismas unidades de medida que la variable estudiada.

Normal con n-1 pequea

Normal con n 1 grande n-1

Estadstica bsica Valores resumen Error estndar: que se comete al estimar la media de la variable medida con los n observaciones de la n muestra. A mayor tamao muestral menor error,

2 1 n

Coeficiente de variacin: Es una medida de la variacin relativa de los datos en porcentaje porcentaje,

n 1 CV % = 100 Xn

Estadstica bsica Valores resumen: De forma

Coeficiente de asimetra (de Fisher): Describe l simetra d l di t ib i relativa a l D ib la i t de la distribucin l ti la distribucin normal.

1 n 3 3 = (xi Xn ) 3 n i=1

Estadstica bsica Valores resumen: De forma Coeficiente de asimetra (cont):

3 = 0

3 < 0

3 > 0

Asimetra A i t negativa = mayor concentracin de valores a la ti t i d l l izquierda de la media. Asimetra positiva = mayor concentracin de valores a la derecha de la media.

Estadstica bsica Valores resumen: De forma Curtosis (o apuntamiento): Describe el grado de esbeltez de la distribucin, en relacin a una , distribucin normal, 1 n 4 4 = (x i X n ) 4 n i=1
Eje de simetra

> 3

= 3

< 3

Estadstica bsica Grficos estadsticos


Permiten ilustrar y entender las distribuciones de los datos, identificar datos errados, valores extremos, tendencias en la variacin de los datos, relaciones entre variables,
Plot of Dimetro vs Copa 1
30 25

Dimetro

Grfico de dispersin
(scatterplot X-Y) X Y)

20 15 10 5 0 0 2 4 6 8

Copa 1

Exploracin de datos p
Grficos estadsticos Grficos descriptivos para una variable (i)
Histogram
12

fre equency

Histogramas

10 8 6 4 2 0 0 2 4 6 8

Copa 1

Grficos de cuantiles:
Percentiles for Copa 1 1,0% = 1,2 5,0% = 1,4 10,0% = 1,6 25,0% = 2,4 50,0% 50 0% = 3,2 3 2 75,0% = 4,3 90,0% = 5,1
proportion n

Quantile Plot
1 0,8 0,6 0,4 0,2 0 0 2 4 6 8

Copa 1

Exploracin de datos p
Grficos estadsticos Grficos descriptivos para una variable (ii) Grfico de cuantiles para verificar el ajuste de los datos a la distribucin Normal: (Q-Q Normal)
Eje Ej vertical: valores de l funcin de di t ib in d l N m l ti l: l d la f n in d distribucin de la Normal. Recta: grfico de los valores de la variable con los valores de probabilidad acumulada de ocurrencia segn la distribucin Normal.
Normal P b bilit Pl t N l Probability Plot

La proximidad de los valores observados a la recta indica que q los datos se pueden considerar con distribucin Normal

99,9 99 95 80 50 20 5 1 0,1 0 2 4 6 8

percenta age

Copa 1

Exploracin de datos p
Grficos estadsticos Grficos descriptivos para una variable (iii) Grficos de cajas (box plot) (box-plot)
Box-and-Whisker Plot

Media

2 2 cuartil 50%

(mediana)

Anmalo (outlier)

mn

Copa 1

Mx.
3er cuartil 75%

1er cuartil 25%

Exploracin de datos p
Grficos estadsticos Comparacin grfica de la variable silt (sedimento) en los distintos puntos de muestreo (1 a 4):
Box-and-Whisker Plot
1

Locatio on

2 3 4 15 25 35 45 55

Silt

Transformaciones T f i
Para modelos de interpolacin del tipo regresin, las hiptesis requieren, entre otras condiciones: p q , Normalidad de los datos Homogeneidad en la varianza Si en el anlisis exploratorio no se observa simetra en el histograma y con un contraste de bondad de ajuste (p (prueba chi-cuadrado o Kolmogorov-Smirnov) se confirma g ) la falta de normalidad, se tendr que recurrir a algn tipo de transformacin normalizante de los datos.

Transformaciones Box-Cox o de potencia

X 1 0 T(X ) = Y = ln X =0
=2, Y=X2 =1/2 Y=X1/2 1/2, Y X Se busca que la variable transformada se parezca a una distribucin normal

YX

( )

~ N ( , )
2

Ejemplo: X ~ Exp(3)
Rango: [0, 10] pasos de 0.05. j La mejor fue = 3.05
Exponencial( 3 ) QQPlot normalizado. Desv. Tipica = 0.364
1.5

Tran. Box-Cox con SD min. QQPlot norm. (lambda = 3.05 , Desv. Tip. = 0.221 )
1.5 Y

1.0

0.5

0.0

-2

-1

0.0

0.5

1.0

-2

-1

Quantiles of Standard Normal

Quantiles of Standard Normal

Exponencial( 3 ) Histograma
40 1.0 log(SD) 0.0 0.5 X 1.0 1.5 0.3 0.5 0 0.7

Lambda vs. Desv. Tipica. (lambda = 3.05 , Desv. Tip. = 0.221 )

10

20

3 30

4 Lambda

10

Ejemplo: X ~ Beta(5, 2.5)


Rango: [-10, 10] pasos de 1. j La mejor fue >= 10
Beta( 5 , 2.5 ) QQPlot normalizado. Desv. Tipica = 0.165 Tran. Box-Cox con SD min. QQPlot norm. (lambda = 10 , Desv. Tip. = 0.0138 )

1.0

0.8

0.6

0.4

Y -2 -1 0 1 2

0.2 2

0.0

0.0

0.2 2

0.4

0.6

0.8

1.0

-2

-1

Qua t es of Standard o a Quantiles o Sta da d Normal

Qua t es of Standard o a Quantiles o Sta da d Normal

25

10

log(SD)

0.2

0.4 X

0.6

0.8

1.0

10^-2 -10

10^1

10^3

15

10 0^5

2 20

10^7

Beta( 5 , 2.5 ) Histograma

Lambda vs. Desv. Tipica. (lambda = 10 , Desv. Tip. = 0.0138 )

-5

0 Lambda

10

Ejemplo: X ~ U(0.01, 1) j p ( , )
Rango: [-10, 10] pasos de 0.5. La L mejor f > 10 j fue >=
Uniforme( 0.01 , 1 ) QQPlot normalizado. Desv. Tipica = 0.286
1.0 0 0.8

Tran. Box-Cox con SD min. QQPlot norm. (lambda = 10 , Desv. Tip. = 0.0222 )
0.8 Y 1.0 0

0.6

0.4

0.2

0.0

-2

-1

0.0

0.2

0.4

0.6

-2

-1

Quantiles of Standard Normal

Quantiles of Standard Normal

Uniforme( 0.01 , 1 ) Histograma


10 12 14 10^7 10^10 log(SD) 0.0 0.2 0.4 X 0.6 0.8 1.0 10^-2 1 10^1 10^4

Lambda vs. Desv. Tipica. (lambda = 10 , Desv. Tip. = 0.0222 )

-10

-5

0 Lambda

10

REFERENCIAS - ENLACES WEB


http://descargas.cervantesvirtual.com/servlet/SirveObras/4686017510402683 9600080/006458_8.pdf _ p Cap.7: Sistemas de Informacin Geogrfica: Pasado, presente y futuro (tesis doctoral) www.geogra.uah.es/~joaquin/curso-quito/SIG-OdelT.pdf h / j i / it /SIG Od lT df http://ares.unimet.edu.ve/postgrado/mpi002/Estadistica%20Descriptiva/256,1, Estadstica Descriptiva ttp://www.elagrimensor.net/elearning/lecturas/sig-capitulo%206.pdf Interpolacin a partir de mapas e isolneas (aplicaciones estadsticas a datos p p p ( p geogrficos, diseos de muestreo.,en regin de Murcia) http://www.ine.gob.mx/ueajei/publicaciones/libros/459/cap3.html Diseos de D d muestreo para suelos. Ejemplo de sistemtico en contaminacin de l E l d d suelos. www.monografas com www monografas .com. Elementos de Geoestadstica CUADOR GIL J.Q. Geoestadstica. GIL, J Q Universidad de Pinar del Ro (Cuba).