Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ÍNDICE
0. INTRODUCCIÓN ................................
................................................................................................................................
.................................. 4
1. OBJETIVOS ................................
................................................................................................................................
.......................................... 5
2. ESTUDIO UNIVARIABLE ................................
................................................................................................
....................................................... 6
2.1. HISTOGRAMAS ................................
................................................................................................................................
..................................... 6
2.1.1. Histogramas de frecuencias (estándar) ................................................................
...................................................... 6
2.1.2. Histograma acumulado ................................................................................................
.............................................. 7
2.2. ESTADÍSTICAS BÁSICAS ................................
...........................................................................................................................
........................... 7
2.2.1. Medidas de Posición ................................................................................................
................................................... 7
2.2.2. Medidas de Dispersión ................................................................................................
................................................ 8
2.2.3. Medidas de Forma ................................
................................................................................................
...................................................... 9
2.3. DIAGRAMA DE CAJA (BOX PLOT) ................................................................................................
........................................... 10
2.4. CURVAS TONELAJE-LEY................................
........................................................................................................................
........................ 11
2.5. GRÁFICOS DE PROBABILIDAD DAD NORMAL Y LOG-NORMAL................................................................
.............................................. 12
3. ESTUDIO BIVARIABLE ................................
........................................................................................................................
........................ 14
3.1. GRÁFICO DE CUANTILES CONT
CONTRA CUANTILES (Q-Q PLOT) ................................................................
........................................... 14
3.2. GRÁFICO DE DISPERSIÓN O NUBE DE CORRELACIÓ
CORRELACIÓN (SCATTERPLOT) ..............................................................
.............................. 16
3.3. COEFICIENTE DE CORRELACIÓN
ACIÓN LINEAL (DE PEARSON) ................................................................
................................................ 17
3.4. COEFICIENTE DE CORRELACIÓN
ACIÓN DE RANGOS (DE SPEARMAN) ................................................................
....................................... 18
3.5. REGRESIÓN LINEAL ................................
.............................................................................................................................
............................. 19
3.6. REGRESIÓN POLINOMIAL ................................
................................................................................................
...................................................... 20
3.7. GRÁFICOS O CURVAS DE PROPORCIÓN................................................................................................
..................................... 21
4. ESTUDIO MULTIVARIABLE................................
................................................................................................
................................................. 22
4.1. MATRIZ DE CORRELACIÓN ................................
................................................................................................
.................................................... 22
4.2. REGRESIÓN MULTILINEAL................................
................................................................................................
..................................................... 23
4.3. ANÁLISIS EN COMPONENTES PRINCIPALES (ACP)................................................................
...................................................... 23
4.4. ANÁLISIS DISCRIMINANTE ................................
................................................................................................
.................................................... 24
4.5. OTRAS TÉCNICAS DE ANÁLISIS
LISIS MULTIVARIABLE DE DATOS ................................................................
............................................ 25
4.5.1. Análisis canónico ................................
................................................................................................
...................................................... 25
4.5.2. Análisis de correspondencias ................................................................................................
.................................... 25
4.5.3. Análisis de correspondencias múltiples ................................................................
.................................................... 26
4.5.4. Técnicas de agrupamiento ................................................................................................
........................................ 26
5. ESTUDIO ESPACIAL................................
............................................................................................................................
............................ 27
5.1. MAPAS................................
................................................................................................................................
............................................. 27
5.2. TIPOS DE MUESTREO ................................
...........................................................................................................................
........................... 29
5.3. NUBES DIRECCIONALES ................................
........................................................................................................................
........................ 30
5.4. GRÁFICO DE DERIVA ................................
............................................................................................................................
............................ 30
5.5. GRÁFICO DE MEDIA VS. DESVIACIÓN ESTÁNDAR ........................................................................................
........................ 31
5.6. NUBE DE CORRELACIÓN DIFERIDA IFERIDA ................................................................................................
.......................................... 32
5.7. ANÁLISIS DE CONTACTO ................................
.......................................................................................................................
....................... 33
5.8. MATRIZ DE TRANSICIONES ................................
................................................................................................
.................................................... 34
6. CALIDAD DE LOS DATOS................................
................................................................................................
.................................................... 35
0. Introducción
El estudio exploratorio se enfoca en analizar los datos desde todos sus ángulos, desde la
estadística, pasando por el comportamiento espacial, hasta las dependencias entre variables.
Esta disciplina es la base de cualquier
ualquier estudio geoestadístico o relativo a la evaluación de
yacimientos, puesto que permite familiarizarse con la base de datos con la cual modelar un
yacimiento,, validar esta base de datos y decidir qué datos, variables y dominios considerar.
considerar
El estudio exploratorio puede ser muy versátil
versátil. See puede usar bajo el prisma del número de
variables (univariable, bivariable, multivariable), de los objetivos a los cuales apunta (por
(
ejemplo, definir zonas de estudio, analizar naturaleza de los datos con sus estadísticas,
estad etc.)
o de las mismas herramientas que se pued
pueden ocupar.
Este informe presenta las principales herramientas del estudio exploratorio de datos.
datos Para
dar un orden a la presentación se definirán
irán conceptos y herramientas basado en la cantidad
de variables
bles de estudio: univariable, bivariable y multivariable
multivariable;; luego se presentarán
herramientas de análisis espacial y herramientas para estudiar la calidad y representatividad
de los datos.
1. Objetivos
i. Estudiar la cantidad, calidad y ubicación de los datos disponibles para analizar una o
varias variables regionalizadas
regionalizadas. En particular, se puede examinar los tipos de datos,
fuentes de información, soportes volumétricos, naturaleza de las variables
disponibles, malla de muestreo, estadísticas univ
univariables
ariables y multivariables.
2. Estudio Univariable
2.1. Histogramas
Los histogramas son útiles para detectar valores atípicos (outliers),), buscar comportamiento
bimodal o multimodal (indicando
indicando una posible mezcla de dos o más poblaciones de datos)
dat y
ver la distribución de los valores (rango, forma, simetría, etc
etc.), entre otros.
2.2.1.1. Media
Es la suma simplee de los datos de la variable dividida por el número de sumandos.
sumandos
See debe tener consideración que la media es sensible a valores extremos,
extremos hecho que
puede hacerla poco robusta
robusta.
2.2.1.2. Cuantiles
Los cuantiles se definen al ordenar los datos según sus valores, luego particionarlos
particiona
en grupos con el mismo número de datos. Los cuantiles generalmente usados son la
mediana, los cuartiles, quintiles y deciles, que dividen a la muestra en dos, cuatro,
cinco y diez partes,, respectivamente
respectivamente.
2.2.1.3. Mínimo/Máximo
Son los valores extremos
xtremos que toma la variable en la muestra. Son eesenciales
senciales para
determinar (en conjunto con otras medidas de dispersión y posición) datos atípicos.
at
2.2.1.4. Moda
Es el valor que posee más frecuencia (se repite más veces) de la variable.
variable En caso de
que haya más de un valor con la misma frecuencia se habla de distribuciones
multimodales. Si todos los datos tienen la misma frecuencia se dice que la
distribución no tiene moda.
2.2.2.3. Rango
Es la restaa entre el valor máximo y el mínimo de la variable.
• Distribución mesocúrtica
mesocúrtica:: presenta un grado de concentración medio
alrededor de los valores centrales de la variable (el mismo que presenta una
distribución normal).
• Distribución leptocúrtica
leptocúrtica:: presenta un elevado grado de concentración
alrededor de los valores centrales de la variable.
• Distribución platicúrtica
platicúrtica:: presenta un reducido grado de concentración
alrededor de los valores centrales de la variable.
Una aplicación del diagrama dde caja es estudiar una misma variable en diferentes
diferente
categorías, para comparar sus distribuciones según las categorías,, por ejemplo leyes de
cobre entre pozos de tronadura, sondajes de aire reverso y de diamantina óó, como en el
siguiente gráfico, leyes de sílice
ílice en diferentes unidades geológicas:
50
40
20
10
UG1 UG2 UG3
Unidades Geológicas
Figura 6,, Ejemplo de gráfico de Box Plot para leyes de SiO2 en diferentes unidades geológicas.
geológicas
Eventuales quiebres en la pendiente del gráfico pueden significar dos o más poblaciones
representativas de la variable.
Figura 10,, Gráficos de probabilidad lognormal para la ley de cobre, según el tipo de roca
(granodiorita GDT, brecha de turmalina BXT, otras brechas OBX)
3. Estudio Bivariable
El estudio bivariable posee herramientas con las cuales se puede estudiar el grado de
dependencia entre dos variables y comparar sus distribuciones.
El gráfico
áfico no dibuja una recta: Las distribuciones no tienen semejanza en la forma.
forma
N
6∑ Di2
i =1
ρ = 1− 2
N ( N − 1)
Donde:
Di = diferencia
iferencia numérica de orden entre las variables para el i-ésimo
ésimo dato
N = número de datos.
a = corr ( X , Y ) σ Y / σ X
Yˆ = a X + b con
b = mY − a m X
0.180 0.180
0.170 0.170
Variable 2
Variable 2
0.160 0.160
0.150 0.150
0.140 0.140
0.130 0.130
0.120 0.120
0.025 0.027 0.029 0.031 0.033 0.035 0.037 0.025 0.027 0.029 0.031 0.033 0.035 0.037
Variable 1 Variable 1
0.180 0.180
0.170 0.170
Variable 2
Variable 2
0.160 0.160
0.150 0.150
0.140 0.140
0.130 0.130
0.120 0.120
0.025 0.027 0.029 0.031 0.033 0.035 0.037 0.025 0.027 0.029 0.031 0.033 0.035 0.037
Variable 1 Variable 1
Para una variable categórica, se puede visualizar las proporciones de cada categoría en
función de otra variable dependiente
dependiente.. Dado que las proporciones suman 1, es conveniente
visualizar las proporciones acumuladas.
70%
MXL6
60%
50% MXL5
40% MXL4
30% MXL3
20% MXL2
10% MXL1
0%
DOM1 DOM2 DOM3
Dominio Geológico
4. Estudio Multivariable
4.1. Matriz de Correlación
En el capítulo bivariable, se ha mencionado el concepto de correlación entre dos variables
usando un coeficiente de correlación
correlación. En la generalización
ción del caso bivariable,
bivariable se construye
una matriz de correlación, la cual entrega información sobre la correlación de dos variables
en la intersección de la variable columna con la variable fila
fila.
Yˆ = a1 X 1 + a2 X 2 + ...aM X M
Notar que si M = 1 (o sea el estudio consta de ssólo dos variables X1 e Y)) se recupera la
definición de regresión lineal vist
vista en el capítulo bivariable.
La calidad de la regresión se puede cuantificar con el coeficiente de determinación múltiple
(R2): este coeficiente, comprendido entre 0 y 1, mide cuánto se explica la variable Y al
utilizar el modelo de regresión con las vari
variables X1, … XM. Se utiliza también el coeficiente
de determinación múltiple ajustado que introduce un castigo por el número M de variables
(nivel de la regresión). Este coeficiente ajustado no siempre aumenta al incluir variables
explicativas. De hecho, si variables innecesarias están consideradas, es muy probable que
baje.
Figura 21,, Análisis discriminante con dos variables. En los ejes de las variables
no se observa una separación clara, no así en el eje discriminante.
5. Estudio Espacial
5.1. Mapas
Permiten visualizar la ubicación de los datos en el espacio y darse una idea de la malla de
muestreo. Al representar
presentar los datos con símbolos o con colores, se puede también apreciar la
continuidad espacial de la variable en estudio. A continuación se presenta algunos ejemplos
de despliegue de datos.
- Despliegues 2D
- Proyecciones
- Mapas de indicadores
- Despliegues 3D
Figura 28, Gráficos dee deriva vertical para la ley de cobre, según tipo de roca (brecha de turmalina BXT u otro)
Figura 30,, Nubes de correlación diferida para la variable ley de cobre, a diferentes
distancias de separación
separación: 0, 2, 10, 20, 50 y 100 metros
5.8. Matriz
atriz de transiciones
Por ejemplo es muy posible encontrar una ley de 30 ppm de oro en un testigo de 10 cm de
largo por 4 cm de diámetro. Sin embargo dicha ley sería improbable en el caso de
encontrarse en un banco de una mina a cielo abierto (bloque de 20 × 20 × 20 metros). En
consecuencia, la distribución univariable de leyes de oro presenta una menor frecuencia de
valores extremos en el soporte de bloque que en el sop
soporte
orte de testigo, una mayor frecuencia
de valores intermedios,, y una menor dispersión o varianza, aunque la ley media de oro es la
misma en ambos soportes.. Respecto a la distribución espacial, al aumentar el soporte,
disminuye la variabilidad espacial (efec
(efecto de suavizamiento).
6.2. Desagrupamiento
La representatividad de la muestra debería cuestionarse siempre que los datos no están
dispersos regularmente o uniformemente sobre el área o volumen de estudio,, lo cual es a
menudo el caso en aplicaciones de ciencias de la tierra. El muestreo puede ser preferencial
y producir un sesgo en las distribuciones y estadísticas experimentales si la ubicación de los
datos depende de los valores tomados por la variable, por ejemplo, cuando los sectores de
valores altos están más
ás densamente muestreados que los sectores de valores bajos.
El desagrupamiento consiste en ponderar los datos al momento de calcular su histograma o
estadísticas (tanto univariables como multivariables)
multivariables): los datos ubicados en loos sectores
más densamente muestreados
uestreados reciben una menor ponderación que llos datos ubicados en
sectores menos densamente muestreados. La ponderación afecta las contribuciones de los
datos al cálculo de las frecuencias, pero no afecta a lo
los valores de los datos:
Figura 33, Desagrupamiento de histograma experimental de datos (el valor de cada dato se mantiene)
La asignación de ponderadores a cada uno de los datos se realiza usualmente mediante una
división del espacio, atribuyéndole un área de influencia. Es
Estas
tas áreas se pueden definir de
varias maneras, siendo dos las principales:
Figura 34,, Ejemplo de distribución de área por dato, mediante polígonos de influencia.
La posición de cada dato queda representada por una cruz
Para lograr una implementación y ejecución óptima de este método se debe tener en
cuenta algunas consideraciones:
• origen de la red de celdas, el cual puede elegirse aleatoriamente
• orientación de llas
as celdas, a menudo, según los ejes de coordenada
• tamaño de las celdas: celdas muy pequeñas o muy grandes llevan a la misma
ponderación para todos los datos.
Por ejemplo, cambiando la longitud de una celda cuadrada, se puede observar cómo
varía la media desagrupada de una variable (suma de los valores de los datos
multiplicados por sus ponderadores).
El desagrupamiento
pamiento es relevante cuando no se tiene una malla de muestreo regular, sobre
todo si existe muestreo preferencial. Cabe destacar que los
os métodos presentados consideran
criterios geométricos al ponderar los datos en función de su grado de aislamiento, pero no
toman en cuenta la continuidad espacial de los valores, aunque idealmente este factor
también debería ser usado para determinar las “redundancias” entre datos
datos.
Si bien la detección suele ser simple, ésta no debe inducir a una apresurada eliminación de
los datos atípicos,, ya que estos valores ssuelen no ser errados y presentar el mayor interés.
Por ejemplo, en la evaluación de yacimientos auríferos, el valor económico del yacimiento
depende fuertemente de la presencia de pepitas de muy alta ley; en contaminación
ambiental, la ocurrencia de concen
concentraciones
traciones extremas de elementos tóxicos requiere
medidas de remediación o mitigación.
Dado estos antecedentes, se debe tener un adecuado manejo de los datos atípicos.
atípicos Algunas
opciones son transformar los datos ((por ejemplo, por paso a logaritmos o a indicadores),
indic
realizar “capping” para aminorar los valores extremos, o aumentar el soporte de los datos
(compositando o acumulandondo a lo largo de sondajes
sondajes)) para disminuir la frecuencia de
ocurrencia de valores extremos.
7. Bibliografía
Chilès J.P., Delfiner P., 1999. Geostatistics: Modeling Spatial Uncertainty. Wiley, New
York, 695 p.
Cooley, W.W., Lohnes, P.R., 1971. Multivariate Data Analysis. John Wiley & Sons, Inc.,
New York.
Davis, J.C., 2002. Statistics and Data Analysis in Geology
Geology.. John Wiley & Sons, Inc., New
York.
Deutsch C.V., Journel A.G., 1998. GSLIB: Geostatistical Software Library and User’s
Guide,, Oxford University Press, New York, 369 pp.
Goovaerts P., 1997. Geostatistics for Natural Resources Evaluation,, Oxford University
Press, New York, 480 p.
Hagen D., 1982. The application of principal components analysis to seismic data sets.
sets
Geoexploration 20, 93-111
111.
Hill, M.O., 1974. Correspondence analysis: a neglected multivariate method.
method Applied
Statistics 23 (3), 340-354..
Isaaks E.H., Srivastava R.M., 1989. An Introduction to Applied Geostatistics,
Geostatistics Oxford
University Press, New York, 561 pp.
Johnson R.A., Wichern D.W., 2002. Applied Multivariate Statistical Analysis.
Analysis Prentice
Hall.
Ravenne C., Galli A., Doligez B., Beucher H., Eschard R., 2002. Quantification of facies
curves.. In: Armstrong M., Bettini C., Champigny N.,
relationships via proportion curves
Galli A., Remacre A. (Eds), Geostatistics Rio 2000. Kluwer Academic, Dordrecht, pp.
19-40.
Wackernagel H., 2003. Multivariate Geostatistics: An Introduction with Applications.
Applications
Springer, Berlin.