Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Anàlisis Exploratorio de Datos (EDA) - VARIOGRAFIA - Jorge Sànchez PDF
Anàlisis Exploratorio de Datos (EDA) - VARIOGRAFIA - Jorge Sànchez PDF
El EDA proporciona métodos sencillos para organizar y preparar los datos, detectar fallos en el
diseño y recogida de datos, tratamiento y evaluación de datos ausentes, identificación de altos
erráticos.
El EDA deberá ser completado en los datos crudos (ensayes) y en los datos tanto capeados
como compositado, mediante los histogramas detectamos los altos erráticos. Para un primer
análisis en los datos de ensayes se deberá hacer por medio de boxplots para evaluar el
comportamiento del metal en las diferentes litologías presentes esto será en función de una
codificación numérica asignada a las litologías para facilitar su análisis. De los resultados se
puede apreciar si la distribución del metal es diferente en cada una de las litologías.
De lo observado en los boxplots por litología u otro control ya sea estructural o de alteración, se
podrá definir si esa es o no uno de los controles en la mineralización, esto significa que la litología
debe ser modelada obligatoriamente para optimizar la estimación de recursos. Se deben agrupar
aquellas litologías donde la distribución estadística muestra similares características y donde se
tiene poca cantidad de datos, estas deben ser incluidas en las litologías mayores de acuerdo a
la ubicación espacial. Hay casos en donde la litología no puede ser usado debido a que no fue
interpretada lo que hace imposible su incorporación en la base de datos de los compositos y su
aplicación como control de los dominios de estimación.
1. Base de Datos
El primer paso en un EDA es hacer accesible los datos a cualquier técnica estadística. Ello
conlleva la selección del método de entrada, que sería archivos drivers como csv, txt, etc. Los
cuales son obtenidos de nuestra base de datos (SIOM), y codificación de los datos que será en
función de los sólidos litológicos, de alteración, mineralógicos o estructurales (Ver tabla N° 1) así
como la de un software estadístico adecuado para procesarlos, en nuestro caso será el programa
SGeMS. (Ver Figura 1).
El archivo delimitado por comas deberá ser nombrado según la nomenclatura siguiente:
NOMBRE DE LA VETA-UNIDAD-EDA.csv
1
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
Asimismo realizar un análisis estadístico gráfico y numérico de las variables del problema con el
fin de tener una idea inicial de la información contenida en el conjunto de datos así como detectar
2
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
Para esto se utilizó el programa SGeMS, en donde se importó la base de datos proporcionada
del SIOM en formato delimitado por comas y posteriormente se aplicó un batch (que es un archivo
de aplicación en formato delimitado por comas) el cual contiene la información sobre la forma,
datos de generación y graficado del histograma.
3
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
Una vez iniciada la aplicación del SGeMS dentro del conjunto de algoritmos A_Utilities se
selecciona el algoritmo Data Load and Filter, en donde aparece un ventana de selección Data
en donde debemos direccionar el archivo en formato delimitado por comas e identificar las
columnas correspondientes a las coordenadas (los demás campos se dejan como esta por
defecto) una vez hecho esto se hace click sobre el comando Run Algorithm ubicado en la parte
inferior a manera de un botón, una vez hecho esto al lado derecho sobre la ventana Objects
aparecerá la información cargada donde podrá ser visualizada activando las casillas según la
información que se desee visualizar; esto nos permite importar la base de datos codificada al
programa para su posterior análisis y generación de gráficos.
Después dentro del conjunto de algoritmos A_Utilities se selecciona el algoritmo Run a Batch
Mode Parameter File, el cual nos permite cargar mediante un archivo csv toda la configuración
para la creación de los histogramas, este archivo será considerado como un batch.
4
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
Únicamente se deberá ubicar el archivo batch de donde se tuviese guardado y hacer click sobre
el comando Run Algorithm, con esto se generaran los histogramas en la ruta indicada en el
batch.
En la figura N°6 se describe los campos necesarios utilizados para el correcto llenado de una
batch para su correcto uso y posterior generación de histogramas.
Los archivos de salida que son en formato PostScript (.ps) deberán ser nombrados de la siguiente
forma:
5
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
Asimismo dentro del gráfico los títulos y subtítulos del histograma deberán ser contemplados de
la siguiente forma:
6
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
Una vez generado los histogramas se realiza un examen gráfico y un análisis descriptivo
numérico que cuantifique las variables analizadas que para nuestro caso son los elementos a
estimar. Con esto se determina las poblaciones presentes así como los altos erráticos.
Los altos erráticos son observaciones con características diferentes de las demás., estos no
pueden ser caracterizados categóricamente como benéficos o problemáticos sino que deben ser
contemplados en el contexto del análisis y debe evaluarse el tipo de información que pueden
proporcionar. Su principal problema radica en que son elementos que pueden no ser
representativos de la población pudiendo distorsionar seriamente el comportamiento de los
contrastes estadísticos. Por otra parte, aunque diferentes a la mayor parte de la muestra, pueden
ser indicativos de las características de un segmento válido de la población y, por consiguiente,
una señal de la falta de representatividad de la muestra.
La tercera clase contiene las observaciones cuyos valores caen dentro del rango
de las variables observadas pero que son únicas en la combinación de los valores
de dichas variables. Estas observaciones deberían ser retenidas en el análisis
pero estudiando qué influencia ejercen en los procesos de estimación de los
modelos considerados.
Además se debe evaluar, si fuera necesario, el impacto potencial que pueden tener los datos
ausentes (missing) sobre la representatividad de los datos analizados. El primer paso en el
7
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
tratamiento de datos ausentes consiste en evaluar la magnitud del problema. Para ello se
comienza analizando el porcentaje de datos ausentes por variables y por casos.
Si existen casos con un alto porcentaje de datos ausentes se deberían excluir del problema.
Asimismo si existe una variable con un alto porcentaje de este tipo de casos su exclusión
dependerá de la importancia teórica de la misma y la posibilidad de ser reemplazada por variables
con un contenido informativo similar.
Como regla general, sin embargo, si dicha variable es dependiente debería ser eliminada ya que
cualquier proceso de imputación de valores puede distorsionar la significación estadística y
práctica de los modelos estimados para ella.
b) Métodos de sustitución, que estiman valores de reemplazo para los datos ausentes,
sobre la base de otra información existente en la muestra. Así se podría sustituir observaciones
con datos ausentes por observaciones no maestrales o sustituir dichos datos por la media de los
valores observados o mediante regresión sobre otras variables muy relacionadas con aquella a
la que le faltan observaciones.
3.1 Capping
Una vez determinados los altos erráticos y haciendo el análisis respectivo se procede al capeo
de los mismos los cuales son aplicados a una columna gemela del elemento original (para no
perder la data original) esta será llamada usando el nombre original del elemento pero
agregándole el sufijo “Cap” sobre la cual se continuaran con los demás procesos de
compositación y estimación. Para nuestro caso analizando las gráficas se determinó valores
corte en el límite superior de las curvas de probabilidad de los ensayes los cuales fueron
reemplazados en las columnas gemelas por los valores que superen este límite.
8
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
El archivo delimitado por comas deberá ser nombrado según la nomenclatura siguiente:
NOMBRE DE LA VETA-UNIDAD-EDA-CAP.csv
9
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
Además se generó una serie de boxplot por dominios para evaluar la relación entre cada una de
las zonas y corroborar que las zonas definidas anteriormente necesitan ser reagrupadas o no
considerando las variables geológicas (litología, alteración u otros) para el proceso de
estimación, estas variables permitirán controlar mejor el coeficiente de variación observado en
los dominios previos.
10
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
Estos gráficos fueron generados en el SGeMS, la forma de cargado de datos es la misma que
para los histogramas pero con la variante que el batch de generación de boxplot difiere en su
estructura con el anterior batch para generación de histogramas (mencionado en el punto 2
Histogramas y Curvas de Probabilidad).
Los archivos de salida que son en formato PostScript (.ps) deberán ser nombrados de la siguiente
forma:
11
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
Figura 10: Descripción de un batch para generar boxplot para los datos compositados
12
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
Se realizaron gráficos de contact plot entre dominios los cuales nos permitieron ver el grado de
influencia de las leyes entre ambos dominios examinados, estos muestran el valor promedio de
las leyes de los elementos analizados y el número de compósitos, desde el contacto a distancias
de intervalos de 10 metros.
Tipo de Contacto Suave (“Soft”), indica que en la interpolación del modelo de bloques
todos los compósitos intervienen en el proceso, no tienen ninguna restricción entre
dominios.
Tipo de Contacto firme (“Firm”), este tipo de contacto tiene influencia con el dominio
vecino, los compósitos del dominio tiene una influencia de 10 metros o más con respecto
al otro. En el proceso de interpolación solo intervienen aquellos compósitos que están
dentro del dominio más aquellos compósitos que están a 10 metros o más fuera del
dominio.
Tipo de Contacto Duro (“Hard”), este tipo de contacto indica que en el proceso de
interpolación solo intervienen los compósitos del dominio, los compósitos de los vecinos
adyacentes no tiene ninguna intervención en el proceso de interpolación.
Estos gráficos también fueron generados por el programa SGeMS, la forma de cargado de datos
es la misma que para los histogramas de los ensayes o datos crudos pero con la variante que el
batch de generación del contact plot difiere en su estructura con el anterior batch para generación
de histogramas (mencionado en el punto 2 Histogramas y Curvas de Probabilidad).
Los archivos de salida que son en formato PostScript (.ps) deberán ser nombrados de la siguiente
forma:
13
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
Figura 11: Descripción de un batch para generar contactplot para los datos
compositados.
14
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
7. Variografía
Los variogramas para los metales, fueron evaluados en cada uno de los dominios, se ha usado
el método del correlograma por que éste normaliza la covarianza por la varianza de los datos
usados en cada salto (distanciamiento entre muestras). A pesar que el término variograma es
usado en el resto de documento, el método real en todos los casos es el correlograma. Los
variogramas experimentales en varias direcciones fueron generados y modelados con la ayuda
del software Studio 3D.
15
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
En la segunda pestaña Fields del comando VGRAM se coloca las columnas correspondientes a
las coordenadas así como los elementos a calcular la variografía. Ver detalle tabla N° 2.
Nombre Descripción
X Coordenada X de los datos de muestras. El nombre por defecto es X.
Y Coordenada Y de los datos de muestras. El nombre por defecto es Y.
Z Coordenada Z de los datos de muestras. El nombre por defecto es Z.
F1 Primer elemento para cálculo de variografía.
F2 2do elemento para cálculo de variografía.
F3 3ro elemento para cálculo de variografía.
F4 4to elemento para cálculo de variografía.
F5 5to elemento para cálculo de variografía.
F6 6to elemento para cálculo de variografía.
F7 7mo elemento para cálculo de variografía.
F8 8vo elemento para cálculo de variografía.
F9 9no elemento para cálculo de variografía.
F10 10mo elemento para cálculo de variografía.
F11 11mo elemento para cálculo de variografía.
F12 12mo elemento para cálculo de variografía.
F13 13ro elemento para cálculo de variografía.
F14 14to elemento para cálculo de variografía.
F15 15to elemento para cálculo de variografía.
F16 16to elemento para cálculo de variografía.
F17 17mo elemento para cálculo de variografía.
F18 18vo elemento para cálculo de variografía.
F19 19no elemento para cálculo de variografía.
F20 20mo elemento para cálculo de variografía.
F21 21ro elemento para cálculo de variografía.
F22 22do elemento para cálculo de variografía.
F23 23ro elemento para cálculo de variografía.
16
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
Figura 13: Selección de columnas para hacer los cálculos en el comando VGRAM.
Finalmente en la tabla N°3 podemos ver la pestaña Parameters donde se configuran los campos
de generación del variograma; algunos campos son: LAG (que es dos veces la distancia de
muestreo), LAG TOL (o tolerancia, que es la mitad del LAG), NLAGS (cantidad de lags), AZI (el
azimuth del inicio de variograma), HORANG (la tolerancia angular), entre otros; para mayor
detalle ver la Tabla N° 3.
17
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
Nombre Descripción
LAG Distancia para un lag.
LAGTOL Tolerancia a ser usada cuando se selecciona los pares de muestras, puede ser entre 0 y la mitad de un lag.
NLAGS Numero de lag.
NSUBLAG Es la división del lag entre la cantidad de sublag.
NLAGS1 cantidad de lag a ser divididos entre sublags
AZI Azimuth del primer variograma
HORANG Angulo de regularización del azimuth
DIP Dirección del Dip del primer variograma
VERANG Angulo de regularización del dip
CYLRAD Radio de búsqueda cilíndrica, se pone 0 si no aplica
NUMHOR Numero de azimuth, el máximo número de variogramas individuales es este valor.
HORINC Incremento en el ángulo del azimuth.
NUMVER Numero de dips
VERINC Incremento en el ángulo del dip.
ALLKEYS Este parámetro controla si los variogramas individuales son calculados en si o el promedio de ellos
KEYMETH Controla si los variogramas respetan los dominios para los cálculos.
CROSSVAR Controla si los variogramas y/o variogramas cruzados son calculados
INDSTEP Paso entre sucesivos indicadores de corte, dejar en 0 a menos que se tenga un archivo de corte
INDMIN El menor indicador del valor de corte, dejar en 0
INDNUM El número de indicadores a usar, dejar en 0
NESTED Método de cálculo de indicadores, dejar en 0
PRINT Alarma para controlar la salida de los gráficos
ANGLE1 Primer ángulo de rotación
AXIS1 Primer eje de rotación, 1=X, 2=Y, 3=Z. 0 significa que no hay rotación
ANGLE2 Segundo ángulo de rotación
AXIS2 Segundo eje de rotación, 1=X, 2=Y, 3=Z. 0 significa que no hay rotación
ANGLE3 Tercer ángulo de rotación
AXIS3 Tercer eje de rotación, 1=X, 2=Y, 3=Z. 0 significa que no hay rotación
LOGCON Si el valor de la muestra es menor que LOGCON, este se reemplaza por 0.001
ADDCON Constante agregada al campo a calcular antes del cálculo en si
LAYMETH Método de capas, para depósitos estratificados conviene calcular por capa y en total.
SPACING Las muestras son asignadas a un número de capa relativo a la rotación del plano XY.
PAUSE Retraso en segundos entre la salida de cada variograma
PROMPT Numero de líneas a ver en la pantalla cuando los resultados van saliendo.
18
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
19
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
En la parte de Input File se agrega el archivo variograma creado anteriormente donde después
de activar la opción Draw Perpendicular Variograms y seleccionar el elemento a trabajar en
Value Field se selecciona el mejor variograma según las direcciones calculadas. (Ver figura 17).
Si el variograma fue hecho según dominios estos deberán verse reflejado en la ventana Key
Fields y en Key Values.
En la ventana Format se gradúa los ejes para una mejor visualización, asimismo se normaliza el
variograma, se muestran los pares y las coordenadas en proyección UTM haciendo check en las
casillas correspondientes. (Ver Figura 18)
20
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
21
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
Una vez terminado se nombra el modelo en Current Model File para finalmente grabarlo. Si se
hiciese para varios elementos se mantiene el nombre en el Current Model File pero se enumera
en el número de referencia una vez que sale la ventana de Save Model As poniéndole una
pequeña descripción. (Ver Figura 21)
Una vez terminado el modelamiento variográfico el archivo deberá ser grabado de la forma:
VARIO-NOMBRE DE LA VETA-UNIDAD.dm
Finalmente grabado el archivo variograma este será el que se use en el proceso de estimación.
22
Procedimiento de Estimación de Recursos
Febrero 2014
ANALISIS EXPLORATORIO DE DATOS EDA - VARIOGRAFIA
Por Jorge Sànchez Espinoza – Geòlogo Senior de Modelamiento y Recursos Minerales
23
Procedimiento de Estimación de Recursos
Febrero 2014