Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2020
AGENDA
■ Introducción
■ Técnicas de aprendizaje
– Red neural artificial (ANN)
– Soporte de maquina de vectores con núcleos polinomiales (SVM-Poly)
– Soporte de maquina vectores con función de base radial (SVM-RBF)
– Modelo de arboles (M5P)
– K- vecinos mas cercanos (K-NN)
■ Selección de variables
■ Metodología de validación de modelo
■ Resultado
■ Conclusiones
INTRODUCCIÓN
INTRODUCCION
Evaluar los riesgos ambientales
■ Predecir la futura química del drenaje potenciales de DAM e implementar
medidas de mitigación apropiadas
■ Se utiliza:
– Pruebas de laboratorio Se llevan a cabo durante corto periodo de tiempo con respecto al
periodo de persistencia potencial de DAM, por lo que puede
– Pruebas de campo imitar de manera INADECUADA la naturaleza del proceso.
– Variedad de enfoques de modelo
■ Modelos predictivos
Describen el comportamiento dependiendo del tiempo de variables del
– Modelos empíricos sistema geoquímico en términos de comportamiento observadas, por ello
dependen en gran medida de la calidad de datos disponibles.
Enfoque empírico
La calidad
Datos de técnicas de Desarrollar del drenaje
monitoreo aprendizaje modelos de agua de
histórico de los automático predictivos mina
sitios mineros (DAM)
Redes Neuronales
Soporte de maquina de vectores (SVM)
𝐷𝑜𝑛𝑑𝑒𝛾,𝜏
𝑦𝑑𝑠𝑜𝑛𝑙𝑜𝑠 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑜𝑠𝑑𝑒𝑘𝑒𝑟𝑛𝑒𝑙
Modelo de árboles (M5P)
■ Técnica de aprendizaje basado en árboles de decisión, para tratar problemas de clases
continuas con funciones lineales.
■ Dado un conjunto de entrenamiento T, éste conjunto está asociado a una hoja o se elige
una prueba que divide T en subconjuntos.
■ Para un nuevo vector de entrada, se clasifica en uno de los subconjuntos y se ejecuta el
modelo correspondiente.
MÉTODO HARGREAVES
LAS VARIABLES DE ENTRADA
Las variables de entrada para las técnicas de aprendizaje automático deben consistir en todas las variables relevantes que influyen en el proceso de
generación de AMD. Sin embargo, la información superpuesta de las variables de entrada debe evitarse para simplificar la tarea de los algoritmos de
entrenamiento.
Para hacer una selección parsimoniosa de entradas, se examinaron las correlaciones lineales entre las variables de
entrada y salida.
CORRELACIÓN ENTRE LAS CONCENTRACIONES DE
COBRE Y LAS OTRAS VARIABLES CON SUS
RETARDOS DE TIEMPO
Muestra que la concentración de cobre actual está
altamente correlacionada con las concentraciones de
cobre en el tiempo anterior (es decir, t-1 a t-5) y otras
variables, excepto las precipitación efectiva Mientras
que el pH se correlaciona negativamente con la
concentración actual de cobre, la conductividad y la
acidez se correlacionan positivamente con él.
Además, La tabla muestra que la concentración de
tiempo actual tiene fuertes correlaciones con el pH,
la conductividad y la acidez en el estado de tiempo
anterior. Por lo tanto, el pH, la conductividad, la
acidez y el tiempo anterior se utilizaron las
concentraciones de cobre como variables de control
y el tiempo actual se utilizaron las concentraciones
de cobre como salida.
El resumen estadístico de las variables de
entrada y salida
Estas variables son pH, conductividad, acidez y cobre disuelto.
Las estadísticas de los datos incluyen mínimo, máximo, media, desviación estándar y coeficiente de variación.
Esta tabla muestra que la distribución del conjunto de datos de pH tiene la variabilidad más baja, seguida de la
conductividad, la acidez y el cobre.
Además, la variabilidad de las variables independientes (es decir, pH, acidez, conductividad y precipitación
efectiva) y la variable dependiente (cobre) tienen un rango razonable.
DESARROLLO DE MODELOS Y VALIDACIÓN
Método de validación cruzada k-fold (Mitchell 1997).
Errores relativos
Dónde:
Yo y Yp = representar los resultados observados y
pronosticados.
= representa la media de lo previsto output.
n = representa el número de ejemplos presentados a los
algoritmos de aprendizaje.
La incertidumbre predictiva se refiere a la variabilidad del error general en torno al error medio.
La incertidumbre predictiva de cada técnica de aprendizaje automático se evaluó utilizando los residuos de
error promedio de los modelos.
A continuación, se supone que los residuos promediados de las cinco técnicas son variables aleatorias y se
ajustaron 18 distribuciones de probabilidad utilizando el software @Risk (Palisade Corporation, 2005).
RESULTADOS Y
DISCUSIONES
Desempeño de las técnicas de machine learning
Resumen muestra el desempeño mínimo, medio y máximo de las cinco técnicas seleccionadas
La comparación de los rendimientos medios indica que SVM-Poly es la mejor técnica, seguida de
las técnicas SVM-RBF, ANN, M5P y K-NN en todos los métodos de evaluación
t pareada para determinar si la media de las estimaciones de error de una técnica de aprendizaje
automático es significativamente diferente de otra técnica.
Esta prueba t es importante para garantizar que los resultados obtenidos no se deban a un
conjunto de datos particular utilizado
Los resultados de la prueba muestran que los resultados obtenidos son estadísticamente
significativos, excepto las predicciones de las técnicas SVM-Poly y SVM-RBF.
La distribución de probabilidad de los
residuales de error de cinco técnicas.
Los resultados experimentales mostraron que la máquina de vectores de soporte con núcleo
polinomial (SVM - Poly) funcionó mejor
Este estudio muestra que las técnicas de aprendizaje automático son herramientas prometedoras
para predecir la química de AMD.
GRACIAS