Está en la página 1de 32

Predicción de las Concentraciones de

Cobre en el Drenaje de Aguas Acidas


de Mina
Comparación con el Análisis de cinco técnicas de aprendizaje automático

2020
AGENDA
■ Introducción
■ Técnicas de aprendizaje
– Red neural artificial (ANN)
– Soporte de maquina de vectores con núcleos polinomiales (SVM-Poly)
– Soporte de maquina vectores con función de base radial (SVM-RBF)
– Modelo de arboles (M5P)
– K- vecinos mas cercanos (K-NN)
■ Selección de variables
■ Metodología de validación de modelo
■ Resultado
■ Conclusiones
INTRODUCCIÓN
INTRODUCCION
Evaluar los riesgos ambientales
■ Predecir la futura química del drenaje  potenciales de DAM e implementar
medidas de mitigación apropiadas
■ Se utiliza:
– Pruebas de laboratorio Se llevan a cabo durante corto periodo de tiempo con respecto al
periodo de persistencia potencial de DAM, por lo que puede
– Pruebas de campo imitar de manera INADECUADA la naturaleza del proceso.
– Variedad de enfoques de modelo
■ Modelos predictivos
Describen el comportamiento dependiendo del tiempo de variables del
– Modelos empíricos  sistema geoquímico en términos de comportamiento observadas, por ello
dependen en gran medida de la calidad de datos disponibles.

Describen el sistema en términos de procesos químicos y/o físicos


Requieren de estudios y datos específicos intensivos, por lo que
– Modelos deterministas 
recopilar datos con suficiente precisión suele ser difícil y costoso.
En este Estudio:
■ Se desarrollo un Modelo Empírico de Drenaje y Química (EDCM) utilizando datos
históricos de los sitios mineros, denominadas Técnicas de Aprendizaje Automático para
desarrollar modelos predictivos
■ El EDCM implica la definición de ecuaciones de correlación.
■ Comparación de la precisión predictiva y la incertidumbre de 5 técnicas de aprendizaje
automático seleccionadas mediante rigurosas pruebas estadísticos

Red neural artificial (ANN)


Soporte de maquina de vectores con núcleos polinomiales (SVM-Poly
Técnicas de
aprendizaje Soporte de maquina vectores con función de base radial (SVM-RBF
automático
Modelo de arboles (M5P)

K- vecinos mas cercanos (K-NN)


Las variables de entrada(parámetros fisicoquímicos) que influyen
en el proceso de generación de AMD se utilizan para desarrollar
modelos

Enfoque empírico

La calidad
Datos de técnicas de Desarrollar del drenaje
monitoreo aprendizaje modelos de agua de
histórico de los automático predictivos mina
sitios mineros (DAM)

Implica le definición de ecuaciones de


Para estas técnicas la
correlación lineales entre las variables
precisión predictiva y la
de entrada y salida.
incertidumbre se evaluaran
en función de diferentes
Las variables son pH, conductividad,
medias estadísticas.
acidez y cobre disuelto.
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
■ El aprendizaje automático es un algoritmo que estima una dependencia entre las
entradas del sistema geoquímico y sus salidas a partir de datos disponibles.
■ Consta de:
– Variables de entrada X (sistema geoquímico de residuos mineros)
Para cada variable de entrada un algoritmo de aprendizaje automático que
selecciona funciones de mapeo, es decir:

- Que describe como se comporta el sistema geoquímico de residuos mineros


- Los datos geoquímicos de residuos mineros se representan como un
par
■ Objetivo  Seleccionar la mejor función que minimice el error entre la salida del
sistema y la salida pronosticada basada en datos de ejemplo (conjunto de datos
de capacitación)

■ Construcción de un modelo de aprendizaje automático


Seleccionar la Construir
Recopilar Probar el
Estudiar el problema estructura del
datos el modelo modelo e
modelo
iterar
TÉCNICAS DE
APRENDIZAJE
Red neuronal artificial (ANN)

■ Es Una Técnica de aprendizaje automático, consiste en neuronas con conexiones


Ponderadas masivamente.
■ La mínima unidad del sistema es la neurona.

Redes Neuronales
Soporte de maquina de vectores (SVM)

■ Desarrolada principalmente por Vapnik 1998, cherkassky y muller 2007)


■ Su principio se basa en la minimización de riesgos estructurales, bajo datos de
capacitación limitados
■ Dado un conjunto de datos de entrenamiento (Xi, Yi),
■ El algoritmo SVM se desarrolló primero para problemas de clasificación y luego se
adaptó para abordar problemas de regresión.

𝐷𝑜𝑛𝑑𝑒𝛾,𝜏
  𝑦𝑑𝑠𝑜𝑛𝑙𝑜𝑠 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑜𝑠𝑑𝑒𝑘𝑒𝑟𝑛𝑒𝑙
Modelo de árboles (M5P)
■ Técnica de aprendizaje basado en árboles de decisión, para tratar problemas de clases
continuas con funciones lineales.
■ Dado un conjunto de entrenamiento T, éste conjunto está asociado a una hoja o se elige
una prueba que divide T en subconjuntos.
■ Para un nuevo vector de entrada, se clasifica en uno de los subconjuntos y se ejecuta el
modelo correspondiente.

Esquema del modelo del árbol


Pasos para construir un modelo de árbol M5P
■ Construir el árbol inicial.
■ Podar
■ Suavizar

Esquema del modelo del árbol


K-vecinos más cercanos (K-NN)
■ Aprendizaje basado en instancias, donde se almacenan ejemplos de entrenamiento y la
generalización se pospone hasta q se haga una predicción.
■ K-NN clasifica un vector de entrada desconocido eligiendo la clase del ejemplo más
cercano medido por una distancia euclidiana.
K-vecinos más cercanos (K-NN)
■ Es un método lento para un conjunto de pruebas muy grande.
■ Se empleo el algoritmo K-NN ponderado por la distancia:

Donde el peso wi es una función de la distancia entre xq y xi


SELECCIÓN DE
VARIABLES Y
METODOLOGIA DE
VALIDACIÓN DE
MODELO
VARIABLES DE CONTROL
I. Las tasas de producción geoquímica se refieren a las tasas de
producción de elementos, acidez y alcalinidad en condiciones
ácidas y de pH neutro en roca.
II. Una vez producidos, estos productos de reacción son enjuagados
por el flujo de agua o se acumulan en las rocas. La calidad del
drenaje puede cambiar si los productos se eliminan de las rocas
de desecho.
III. La infiltración de agua controla la cantidad de productos de
reacción a lavar.
IV. La importancia del tiempo transcurrido entre los eventos de
infiltración es que brinda la oportunidad de que los productos de
reacción se acumulen en el canal de flujo.
V. Vale la pena señalar que tanto el volumen de agua infiltrante
como el tiempo transcurrido entre los eventos de infiltración
afectan las concentraciones y las cargas observadas en la
filtración basal.
VI. El tiempo de residencia del agua dentro de las rocas residuales se
refiere al tiempo requerido para que el agua infiltrada pase a
través de las rocas.
VII. Así, el tiempo de residencia determina el tiempo de reacción de
los productos en la filtración basal.
VIII. Las temperaturas internas y las concentraciones de oxígeno y
dióxido de carbono en los poros pueden afectar las tasas de
oxidación de pirita y la generación de ácido, y la cantidad de
productos de reacción.
Monitoreados durante más de 25 años a partir de rocas
residuales se obtuvieron de Island Copper Mine, British
Columbia, Canada (Morin et al. 1995).
 La cantidad de precipitación infiltrada en rocas de desecho se estimó
a partir de datos climáticos.
 Los datos climáticos como la precipitación, la temperatura mínima y
máxima se obtuvieron de Environment Canada (2011).
 La evapotranspiración del sitio se calculó utilizando el método
Hargreaves (Hargreaves y Riley 1985).
 El método Hargreaves usa temperatura mínima y máxima, y
radiación solar para estimar la evapotranspiración

MÉTODO HARGREAVES
LAS VARIABLES DE ENTRADA
Las variables de entrada para las técnicas de aprendizaje automático deben consistir en todas las variables relevantes que influyen en el proceso de
generación de AMD. Sin embargo, la información superpuesta de las variables de entrada debe evitarse para simplificar la tarea de los algoritmos de
entrenamiento.
 Para hacer una selección parsimoniosa de entradas, se examinaron las correlaciones lineales entre las variables de
entrada y salida.
CORRELACIÓN ENTRE LAS CONCENTRACIONES DE
COBRE Y LAS OTRAS VARIABLES CON SUS

RETARDOS DE TIEMPO
Muestra que la concentración de cobre actual está
altamente correlacionada con las concentraciones de
cobre en el tiempo anterior (es decir, t-1 a t-5) y otras
variables, excepto las precipitación efectiva Mientras
que el pH se correlaciona negativamente con la
concentración actual de cobre, la conductividad y la
acidez se correlacionan positivamente con él.
 Además, La tabla muestra que la concentración de
tiempo actual tiene fuertes correlaciones con el pH,
la conductividad y la acidez en el estado de tiempo
anterior. Por lo tanto, el pH, la conductividad, la
acidez y el tiempo anterior se utilizaron las
concentraciones de cobre como variables de control
y el tiempo actual se utilizaron las concentraciones
de cobre como salida.
El resumen estadístico de las variables de
entrada y salida
 Estas variables son pH, conductividad, acidez y cobre disuelto.
 Las estadísticas de los datos incluyen mínimo, máximo, media, desviación estándar y coeficiente de variación.
 Esta tabla muestra que la distribución del conjunto de datos de pH tiene la variabilidad más baja, seguida de la
conductividad, la acidez y el cobre.
 Además, la variabilidad de las variables independientes (es decir, pH, acidez, conductividad y precipitación
efectiva) y la variable dependiente (cobre) tienen un rango razonable.
DESARROLLO DE MODELOS Y VALIDACIÓN
Método de validación cruzada k-fold (Mitchell 1997).

 En el método de validación cruzada k-fold,


el conjunto de datos se subdivide en k
subconjuntos preferiblemente de igual
tamaño. A continuación, los subconjuntos
k-1 se usan para entrenar los modelos de
aprendizaje automático y el subconjunto
restante se usa para probar los modelos.
En este estudio, cada subconjunto tiene el
tamaño de 128 valores y la validación
cruzada de diez veces con estratificación se
repitió 10 veces. Este ejercicio proporcionó
un total de 100 errores de modelos
independientes para cada técnica de
aprendizaje automático.

 Este método es computacionalmente muy


intensivo; sin embargo, los autores creen
firmemente que proporcionó resultados
confiables.
EVALUACIÓN MODELO
 La precisión de la predicción ayuda a evaluar la coincidencia general entre los valores observados y los
pronosticados para cada técnica de aprendizaje automático.
 La precisión predictiva de cada técnica de aprendizaje automático se evaluó utilizando el error cuadrático medio
(RMSE), el error absoluto medio (MAE), el error cuadrático relativo (RRSE), el error absoluto relativo (RAE),
donde el valor más pequeño indica una mejor técnica .
 Además, se utilizó una prueba t pareada para determinar si la media de las estimaciones de error de una técnica de
aprendizaje automático es significativamente diferente de otra técnica. Las ecuaciones de las estimaciones de error
se dan en la ecuación 5-8.

El error cuadrático medio (RMSE) mide la cantidad


de error que hay entre dos conjuntos de datos. En otras
palabras, compara un valor predicho y un valor observado
o conocido. También se lo conoce como Raíz de la
Desviación Cuadrática Media y es una de las
estadísticas más utilizadas en SIG.

Error absoluto medio (MAE) es una medida de la


diferencia entre dos variables continuas.

Errores relativos
 
Dónde:
 Yo y Yp = representar los resultados observados y
pronosticados.
 = representa la media de lo previsto output.
 n = representa el número de ejemplos presentados a los
algoritmos de aprendizaje.

 La incertidumbre predictiva se refiere a la variabilidad del error general en torno al error medio.
 La incertidumbre predictiva de cada técnica de aprendizaje automático se evaluó utilizando los residuos de
error promedio de los modelos.
 A continuación, se supone que los residuos promediados de las cinco técnicas son variables aleatorias y se
ajustaron 18 distribuciones de probabilidad utilizando el software @Risk (Palisade Corporation, 2005).
RESULTADOS Y
DISCUSIONES
Desempeño de las técnicas de machine learning

 Resumen muestra el desempeño mínimo, medio y máximo de las cinco técnicas seleccionadas
 La comparación de los rendimientos medios indica que SVM-Poly es la mejor técnica, seguida de
las técnicas SVM-RBF, ANN, M5P y K-NN en todos los métodos de evaluación

Desempeño de los modelo sobre conjuntos de prueba


Diagramas de dispersión de las
concentraciones de cobre observadas y
pronosticadas

 SVM-Poly se ajustan mejor a la


línea ideal seguido de SVM-RBF,
ANA, M5P y K-NN.

 Las técnicas ANN y M5P y el K-


NN no pudieron predecir los valores
más altos en absoluto. Esto sugiere
que KNN no debe usarse para la
toma de decisiones en las que el
riesgo asociado es alto
Prueba T - pareada

 t pareada para determinar si la media de las estimaciones de error de una técnica de aprendizaje
automático es significativamente diferente de otra técnica.

 Esta prueba t es importante para garantizar que los resultados obtenidos no se deban a un
conjunto de datos particular utilizado

 Los resultados de la prueba muestran que los resultados obtenidos son estadísticamente
significativos, excepto las predicciones de las técnicas SVM-Poly y SVM-RBF.
La distribución de probabilidad de los
residuales de error de cinco técnicas.

 Para cada técnica de aprendizaje automático, se


calcularon y promediaron los residuos de 100
modelos independiente.

 La distribución de probabilidad lognormal fue la


que mejor se ajustó a los residuos de las cinco
técnicas

 La mejor técnica es la que tiene residuos


representados por la distribución de probabilidad
más estrecha, simétrica y más alta.
CONCLUSIONE
S
 Los parámetros fisicoquímicos y el desfase temporal que influyen en la química del drenaje se
identificaron como parámetros importantes y se utilizaron como entradas en las cinco técnicas.

 Los resultados experimentales mostraron que la máquina de vectores de soporte con núcleo
polinomial (SVM - Poly) funcionó mejor

 Los resultados pronosticados probablemente mejoren si se consideran más parámetros (por


ejemplo, velocidad de flujo, concentraciones internas de gases y temperatura) a medida que se
disponga de más datos en el futuro.

 Este estudio muestra que las técnicas de aprendizaje automático son herramientas prometedoras
para predecir la química de AMD.
GRACIAS

También podría gustarte