Documentos de Académico
Documentos de Profesional
Documentos de Cultura
07exploracion de Datos PDF
07exploracion de Datos PDF
Origen de la Geoestadstica
Geoestadstica: definicin y objeto
Datos geogrficos y anlisis estadstico
Conceptos bsicos de Estadstica
Tcnicas bsicas de Estadstica
para el Anlisis
Exploratorio de Datos
Origen de la Geoestadstica
Geoestadstica (i)
La Geoestadstica tiene su origen en la bsqueda,
exploracin y evaluacin de yacimientos minerales tiles.
Se ha consolidado y desarrollado en los ltimos 30 aos
como ciencia aplicada casi exclusivamente en el campo
minero.
La gran diversidad de formas en que se presentan los
datos ha llevado a la utilizacin de tcnicas matemticas
y estadsticas para resolver un nico problema: estimar
Origen de la Geoestadstica
Geoestadstica (ii)
Las investigaciones han buscado los mtodos ms
eficientes que proporcionen la mayor informacin posible
d llos d
de
datos di
disponibles.
ibl
Mediante el mejor estimador que minimice la varianza
del error de estimacin (error cuadrtico medio) surge
la Geoestadstica por los trabajos de G. Matheron en la
Escuela Superior de Minas de Pars (1949)
Entre
Entre los mtodos ms recientes se pueden citar los
geomatemticos: El Inverso de la Distancia,
g
Splines,
p
etc.
Triangulacin,
Origen de la Geoestadstica
Geoestadstica (antecedentes)
Sichel (1947),
(1947) 1949) observ la naturaleza asimtrica de
la distribucin del contenido de oro en las minas
surafricanas,
f
, la equipar
q p
a una distribucin de
probabilidad lognormal y desarroll las frmulas bsicas
para esta distribucin.
D.G. Krige (1951) desarroll la aplicacin del anlisis de
g
entre muestras
m
y bloques
q
de mena
m
(Mineral
regresin
metalfero, principalmente el de hierro, tal como se extrae del criadero y antes de limpiarlo).
d
de satlite.
li
Geoestadstica :
D fi i i y Obj
Definicin
Objeto
t (i)
Geoestadstica :
D fi i i y Obj
Definicin
Objeto
t (ii)
> Matheron (1970) denomin a estas variables
dependientes
p
entre si, variables regionalizadas, adems
de elaborar su teora. [Journel y Huijbregts (1978), David
(1977) y de Fouquet (1996)].
En resumen, la aplicacin de la teora de los procesos
estocsticos a los problemas de evaluacin de reservas de
distintos tipos de materias primas minerales y en general
a las ciencias naturales en el anlisis de datos distribuidos
espacial y temporalmente dio origen a lo que hoy se
conoce como Geoestadstica.
D t s geogrficos
Datos
fi s y anlisis
lisis estadstico
st dsti
D t s geogrficos
Datos
fi s y anlisis
lisis estadstico
st dsti
Conceptos
p
bsicos de Estadstica
Revisin de Tcnicas estadsticas
M
Muestreo
t
y anlisis
li i Exploratorio
E l
t i d
de datos
d t
Conceptos de Inferencia Estadstica paramtrica:
Una variable: Estimador, propiedades,
intervalos de confianza y tests de hiptesis.
Dos ms variables: modelos lineales
(regresin, Anlisis de la varianza)
Conceptos de procesos estocsticos (variables
dependientes, medidas de dependencia espacial)
Conceptos
p
bsicos de Estadstica
Muestreo y anlisis Exploratorio de datos
Poblacin (Universo) y Muestra.
Muestreo (Obtencin de datos)
Variables y tipos
Antes de comenzar un estudio geoestadstico se deben
discutir todos los elementos que aporten conocimientos
del problema a resolver, fenmeno en estudio,
estud o,
organizacin y verificacin de la informacin disponible y
finalmente realizar el anlisis exploratorio de los datos.
Conceptos
p
bsicos de Estadstica
Estadstica bsica
Tipos de muestras
Muestra probabilstica: se elige mediante ciertas
reglas de manera que la probabilidad de seleccin de
reglas,
cada unidad es conocida de antemano.
Muestra no probabilstica: no se rige por las reglas
matemticas de la probabilidad.
en las muestras probabilsticas es posible calcular la
magnitud del error muestral,
muestral
no es factible hacerlo en el caso de las muestras no
probabilsticas (puntos
p
p
de fcil acceso, estaciones de
medicin de la calidad del aire en una ciudad)
Estadstica bsica
Mtodos de muestreo
Muestreo aleatorio simple: todos los componentes o
unidades de la p
poblacin tienen la misma
m m probabilidad
p
de ser seleccionados. Es la modalidad ms elemental de m.
probabilistico.
Estadstica bsica
Mtodos de muestreo
Muestreo sistemtico:
Se selecciona al azar un punto de partida y un intervalo muestral.
muestral
As si el punto de partida fuera el 11 y el intervalo el 6 se elegiran
el 11, 16, 21, 16 hasta recorrer toda la poblacin.
Estadstica bsica
Mtodos de muestreo
Muestreo estratificado (i):
-la
l poblacin
bl i en estudio
t di se subb divide
di id en estratos
t t o
subpoblaciones que tienen cierta homogeneidad en el
terreno y en cada estrato se realiza un muestreo
aleatorio simple (o sistemtico).
-requisito
requisito principal para aplicar este mtodo de
muestreo: conocimiento previo de informacin que
permita subdividir la poblacin,
Por ejemplo: divisin que se puede realizar con base en la topografa, los
horizontes del suelo,
suelo la mancha del contaminante
contaminante, los cambios de color en
el suelo, el crecimiento irregular de las plantas, etc.
Estadstica bsica
Mtodos de muestreo
Muestreo estratificado (ii):
- garantiza
ti que llos puntos
t d
de muestreo
t
se encuentren
t
repartidos ms uniformemente en toda la zona en
funcin del tamao del estrato;
- permite conocer de forma independiente las
caractersticas
t ti
particulares
ti l
d
de cada
d estrato
t t
-recomendable
recomendable para reas mayores de diez hectreas y cuando el
terreno no es homogneo (Mason 1992, Valencia y Hernndez
2002).
Estadstica bsica
Mtodos de muestreo
Estadstica bsica
Otros Mtodos de muestreo
Estadstica bsica
Muestreo por conglomerados
C
Caractersticas:
t ti
Divisin previa de la poblacin en conglomerados o reas
convenientes, de las cuales se selecciona un cierto nmero
convenientes
para la muestra
Ventajas:
Ahorro de costes y tiempo al efectuar visitas a las
unidades seleccionadas.
Disminucin de necesidad de desplazamientos al
concentrar unidades elementales.
elementales
Inconvenientes:
Menor precisin
M
i i en llas estimaciones,
ti
i
sobre
b ttodo
d con
conglomerados de gran tamao
ESTRATIFICADO
CONGLOMERADOS
Estadstica bsica
Variables y Tipos de variables
Variable: cada una de las caractersticas de los
elementos de una poblacin y que varan de una unidad a
otra.
9Variables cualitativas (o categricas): aquellas que no
tienen medida numrica; se representan
p
por
p categoras
o atributos (tipo de suelo, de vegetacin, textura,).
9Variables cuantitativas: las que pueden expresarse
numricamente (temperatura, precipitacin,
profundidad suelo, altitud, pendiente,
p
p
.)
Estadstica bsica
Variables cuantitativas
Variables discretas: son el resultado de contar y
slo toman valores enteros (nmero de puntos, de
cuadrculas, de pxeles).
Variables continuas: son el resultado de medir, y
pueden contener decimales (temperatura,
(temperatura
profundidad, altura). Se pueden subdividir a voluntad.
Pueden tomar,
tomar entonces,
entonces cualquier valor de un
determinado intervalo
Estadstica bsica
Estadstica Descriptiva
Objetivo: conocer la informacin disponible.
Clculos
Cl
l estadsticos
d i
o estadstica
d i descriptiva.
d
i i
Permiten determinar si la distribucin de los datos es
normal lognormal,
normal,
lognormal o si no se ajustan a una distribucin
estadstica conocida. Implica tener conocimiento de:
Nmero de casos: representado por n, es el
nmero de valores muestreados del fenmeno en
estudio los datos representados por xi
estudio,
xi, i = 11, . . . , n
n.
Frecuencia de cada xi n de veces que aparece el
mismo valor medido.
Estadstica bsica
Distribuciones de frecuencias
Los valores de cada xi medidos y su frecuencia de
aparicin
p
en los n datos se conoce como
m la
distribucin de la variable estudiada.
Valores resumen: Medidas de posicin
Media: Es la media aritmtica de la distribucin,
1 n
xi
xn = n
i =1
Estadstica bsica
Valores resumen: Medidas de posicin
Moda: Es el valor ms frecuente de la distribucin
Mediana: Es el valor para el cual la mitad de los
d t son menores y la
datos
l otra
t mitad
it d estn
t por encima
i
de
d
este valor.
La mediana es tambin llamada percentil 50
Ordenando los datos en orden ascendente podemos calcular la
mediana
di
como.
X(n+1)/2
si n es impar.
M =
(Xn/2 + Xn/2+1)/2
si n es par.
Estadstica bsica
V l
Valores
resumen: Medidas
M did de
d posicin
i i
Cuartiles, donde Q1 = percentil 25, Q2 = Mediana y
Q3 = percentil 75.
Deciles si los datos se dividen en 10.
De forma general estas medidas se pueden calcular
por: [p(n+1)/100] sima observacin de los datos
ordenados ascendentemente,, donde p es el p
percentil
que se desea calcular.
Q2= Me=3,6
Q1=2,2
=2 2
Q3=7,6
Rango Intercuartil
RI=Q3-Q1
xmin=1,1
xmax=9,9
10
Estadstica bsica
Valores resumen: Dispersin
Rango de la distribucin: Es la diferencia entre el valor
mximo y el mnimo observados.
2
n 1
1 n
=
n 1 i=1
=1
(xi x n )
Estadstica bsica
Valores resumen
Desviacin estndar: Tambin describe dispersin
de la distribucin.
distribucin Es la raz de la medida de
desviacin alrededor de la media,
2n 1
En las mismas unidades de medida que la variable estudiada.
Estadstica bsica
Valores resumen
Error estndar: que se comete al estimar la media
de la variable medida con los n
n observaciones de la
muestra. A mayor tamao muestral menor error,
2n 1
n 1
CV % =
100
Xn
Estadstica bsica
Valores resumen: De forma
1 n
3
3 = (xi Xn ) 3
n i=1
Estadstica bsica
Valores resumen: De forma
Coeficiente de asimetra (cont):
3 = 0
3 < 0
3 > 0
Asimetra
A
i t negativa
ti = mayor concentracin
t
i de
d valores
l
a la
l
izquierda de la media.
Asimetra positiva = mayor concentracin de valores a la derecha
de la media.
Estadstica bsica
Valores resumen: De forma
Curtosis (o apuntamiento): Describe el grado de
esbeltez de la distribucin,, en relacin a una
distribucin normal,
1 n
4
4 = (x i X n ) 4
n i=1
Eje de
simetra
> 3
= 3
< 3
Estadstica bsica
Grficos estadsticos
Permiten ilustrar y entender las distribuciones de los datos,
identificar datos errados, valores extremos, tendencias en la
variacin de los datos, relaciones entre variables,
Plot of Dimetro vs Copa 1
30
Grfico de dispersin
(scatterplot X
X-Y)
Y)
Dimetro
25
20
15
10
5
0
0
Copa 1
Exploracin
p
de datos
Grficos estadsticos
Grficos descriptivos para una variable (i)
Histogram
12
fre
equency
Histogramas
10
8
6
4
2
0
0
Copa 1
Grficos de cuantiles:
Quantile Plot
1
1,0% = 1,2
5,0% = 1,4
10,0% = 1,6
25,0% = 2,4
50 0% = 3,2
50,0%
3 2
75,0% = 4,3
90,0% = 5,1
0,8
0,6
0,4
0,2
0
0
Copa 1
Exploracin
p
de datos
Grficos estadsticos
Grficos descriptivos para una variable (ii)
Grfico de cuantiles para verificar el ajuste de los
datos a la distribucin Normal: (Q-Q Normal)
Eje vertical:
Ej
ti l: valores
l
de
d lla funcin
f n in de
d di
distribucin
t ib in d
de lla N
Normal.
m l
Recta: grfico de los valores de la variable con los valores de
probabilidad acumulada de ocurrencia segn la distribucin Normal.
percenta
age
N
Normal
lP
Probability
b bilit Pl
Plott
99,9
99
95
80
50
20
5
1
0,1
0
Copa 1
Exploracin
p
de datos
Grficos estadsticos
Grficos descriptivos para una variable (iii)
Grficos de cajas (box-plot)
(box plot)
2 cuartil 50%
2
Box-and-Whisker Plot
Media
(mediana)
Anmalo
(outlier)
mn
Copa 1
Mx.
3er cuartil 75%
Exploracin
p
de datos
Grficos estadsticos
Comparacin grfica de la variable silt (sedimento) en
los distintos puntos de muestreo (1 a 4):
Box-and-Whisker Plot
Locatio
on
1
2
3
4
15
25
35
Silt
45
55
T
Transformaciones
f
i
Para modelos de interpolacin del tipo regresin, las
hiptesis
p
requieren,
q
, entre otras condiciones:
Normalidad de los datos
Homogeneidad en la varianza
Si en el anlisis exploratorio no se observa simetra en el
histograma y con un contraste de bondad de ajuste
(prueba chi-cuadrado o Kolmogorov-Smirnov)
(p
g
) se confirma
la falta de normalidad, se tendr que recurrir a algn
tipo de transformacin normalizante de los datos.
Transformaciones Box-Cox
o de potencia
X 1
0
T(X ) = Y =
ln X
=0
=2, Y=X2
=1/2
1/2, Y=X
Y X1/2
Se busca que la variable transformada se
parezca a una distribucin normal
Y X ( ) ~ N ( , 2 )
Ejemplo: X ~ Exp(3)
j fue = 3.05
La mejor
1.0
0.0
0.5
0.5
0.0
-2
-1
-2
-1
0.7
0
0.5
0.3
10
20
log(SD)
30
3
1.0
40
Exponencial( 3 )
Histograma
1.0
1.5
1.5
Exponencial( 3 )
QQPlot normalizado. Desv. Tipica = 0.364
0.0
0.5
1.0
X
1.5
6
Lambda
10
j fue >= 10
La mejor
0.8
0.6
0.0
0.2
2
0.4
0.4
0.2
2
0.0
-2
-1
-2
Quantiles
Qua
t es o
of Sta
Standard
da d Normal
o a
-1
Quantiles
Qua
t es o
of Sta
Standard
da d Normal
o a
10^3
10^1
10^-2
10
log(SD)
15
20
2
10
0^5
25
10^7
Beta( 5 , 2.5 )
Histograma
0.6
0.8
1.0
1.0
Beta( 5 , 2.5 )
QQPlot normalizado. Desv. Tipica = 0.165
0.2
0.4
0.6
X
0.8
1.0
-10
-5
0
Lambda
10
Ejemplo:
j p X ~ U(0.01,
(
, 1))
L mejor
La
j ffue >=
> 10
0.8
0.6
0.0
0.2
0.4
0.4
0.2
0.0
-2
-1
-2
-1
10^4
10^-2
10^1
1
log(SD)
10^7 10^10
10 12 14
Uniforme( 0.01 , 1 )
Histograma
0.6
0.8
1.0
0
1.0
0
Uniforme( 0.01 , 1 )
QQPlot normalizado. Desv. Tipica = 0.286
0.0
0.2
0.4
0.6
X
0.8
1.0
-10
-5
0
Lambda
10
en contaminacin
de
d
suelos.
www.monografas
www
monografas .com.
com Elementos de Geoestadstica.
Geoestadstica CUADOR GIL,
GIL J.Q.
JQ
Universidad de Pinar del Ro (Cuba).