Ticlia Vásquez

UNIVERSIDAD NACIONAL DE TRUJILLO
FACULTAD DE INGENIERÍA
ESCUELA PROFESIONAL DE INGENIERÍA DE MINAS
Modelo matemático para pronosticar los costos diarios de operación mina en Unidad
Minera Huinchos - Apurímac - 2023
TESIS
PARA OBTENER EL TÍTULO PROFESIONAL DE
INGENIERO DE MINAS
AUTOR: Br. Ticlia Vásquez, Himber Palermo
ASESOR: Mg. Siccha Ruiz, Orlando Alex
TRUJILLO – PERÚ
2023
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación
i
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Jurado evaluador
____________________________________
PRESIDENTE
Mg. Gonzales Torres Jorge Omar
CIP: 161335
____________________________________
SECRETARIO
Mg. Ayala Orihuela Ghercy Gustavo
CIP: 76469
____________________________________
VOCAL
Mg. Siccha Ruiz Orlando Alex
CIP: 68633
ii
Comunicación
Dedicatoria
Este trabajo de investigación esta dedicado a:
A Dios, por ser mi guía, mi fortaleza, mi soporte ante cualquier adversidad y orientarme
con sabiduría para poder salir adelante.
A mi madre Filomena por ser el pilar más importante de mi vida, quien con esfuerzo,
dedicación, motivación y amor ha podido incentivar a lograr una de mis metas.
A mi padre Cipriano por su amor, tiempo y por enseñar a luchar por cada sueño para
hacerlo realidad.
A mis hermanos Cristina, Guadalupe, Juana, Paula, Martín y Valentín por su apoyo
incondicional y motivación para ser un profesional de éxito y tener un futuro prometedor.
A mis hermanos Francisco, Salomé y Silverio que me guían desde el cielo por el buen
camino.
A mi novia Joela por su apoyo en mis proyectos de vida y alienta mi crecimiento
profesional.
A mis 15 sobrinos que siempre me impulsan y me motivan a luchar en mi camino
profesional para ser la inspiración de nuevas generaciones.
Himber Palermo Ticlia Vásquez
iii
Agradecimiento
Agradezco principalmente a Dios, por protegerme y llevarme por el camino correcto para
cumplir este anhelado sueño.
A mis padres, hermanos por apoyarme, motivarme, acompañarme e impulsarse a lograr
mis metas.
A los docentes y autoridades de la prestigiosa Universidad Nacional de Trujillo, en
especial a la escuela de ingeniería de minas, por brindarme sabiduría, orientación, enseñanza y
dedicación para seguir creciendo profesionalmente y ser exitoso.
A mi querido y estimado jurado, mi más sincero agradecimiento por tomarse el tiempo de
guiarme en esta investigación.
Himber Palermo Ticlia Vásquez
iv
Comunicación
Índice de contenido
Jurado evaluador...............................................................................................................................ii
Dedicatoria ......................................................................................................................................iii
Agradecimiento ............................................................................................................................... iv
Índice de contenido .......................................................................................................................... v
Índice de tablas ...............................................................................................................................xii
Índice de ecuaciones ...................................................................................................................... xiv
Resumen ......................................................................................................................................... xv
Abstract ......................................................................................................................................... xvi
Capítulo I: Introducción ................................................................................................................... 1
1.1. Situación problemática, justificación y propósito ............................................................ 1
1.1.1. Situación problemática ................................................................................................. 1
1.1.2. Justificación .................................................................................................................. 2
1.1.3. Propósito ....................................................................................................................... 2
1.2. Enunciado del problema ................................................................................................... 3
1.2.1. Problema general .......................................................................................................... 3
1.2.2. Problemas específicos .................................................................................................. 3
1.3. Objetivos .......................................................................................................................... 3
1.3.1. General ......................................................................................................................... 3
1.3.2. Específicos.................................................................................................................... 3
1.4. Hipótesis ........................................................................................................................... 4
v
1.4.1. General ......................................................................................................................... 4
1.4.2. Específicas .................................................................................................................... 4
1.5. Marco conceptual y teórico .............................................................................................. 4
1.5.1. Análisis exploratorio de datos (EDA) .......................................................................... 4
1.5.2. Inteligencia artificial (IA) ............................................................................................. 7
1.5.3. Inteligencia Artificial en minería ............................................................................... 24
1.5.4. Geología de la Unidad Minera Huinchos ................................................................... 25
1.5.5. Ciclo de minado de la Unidad Minera Huinchos ....................................................... 26
1.5.6. Costos diarios de operación mina ............................................................................... 28
1.5.7. Stripping ratio ............................................................................................................. 30
1.5.8. Producción .................................................................................................................. 30
1.5.9. Humedad .................................................................................................................... 31
1.6. Marco Empírico .............................................................................................................. 31
1.6.1. Antecedentes nacionales............................................................................................. 31
1.6.2. Antecedentes internacionales ..................................................................................... 32
Capítulo II: Materiales y métodos .................................................................................................. 36
2.1. Tipo de estudio ............................................................................................................... 36
2.2. Unidad de análisis .......................................................................................................... 36
2.3. Población ........................................................................................................................ 36
2.4. Muestra ........................................................................................................................... 36
2.5. Instrumentos ................................................................................................................... 37
2.6. Control de calidad de los datos: prueba de validez y confiabilidad ............................... 37
vi
Comunicación
2.7. Procedimiento ................................................................................................................. 37
2.7.1. Etapa preliminar ......................................................................................................... 37
2.7.2. Etapa de campo .......................................................................................................... 38
2.7.3. Etapa de gabinete........................................................................................................ 38
2.8. Procesamiento de datos .................................................................................................. 39
2.8.1. Entendimiento y exploración de los datos .................................................................. 39
2.8.2. Entrenamiento y evaluación de modelos de regresión ............................................... 40
2.8.3. Comparación entre modelos y conclusiones generales .............................................. 41
2.8.4. Paso 1: Comparación de métricas mediante gráfico de barras. .................................. 41
2.8.5. Paso 2: Elaboración de conclusiones.......................................................................... 41
2.9. Consideraciones éticas y de rigor ................................................................................... 41
2.10. Definición de variables de estudio ................................................................................. 41
Capítulo III: Resultados.................................................................................................................. 43
3.1. Análisis exploratorio de datos ........................................................................................ 43
3.1.1. Cargar los datos .......................................................................................................... 43
3.1.2. Identificación de inputs y outputs .............................................................................. 44
3.1.3. Limpieza de datos ....................................................................................................... 45
3.1.4. Análisis estadístico ..................................................................................................... 46
3.2. Determinación de la variable independiente más relevante ........................................... 58
3.3. Entrenamiento y testeo del modelo ................................................................................ 60
3.3.1. Regresión Lineal......................................................................................................... 62
3.3.2. Árbol de decisión........................................................................................................ 64
vii
3.3.3. Random Forest ........................................................................................................... 65
3.3.4. Máquinas de Vector Soporte (SVR) ........................................................................... 67
3.3.5. Gradient Boosting....................................................................................................... 69
3.3.6. Red neuronal perceptrón ............................................................................................ 71
3.4. Validación del modelo.................................................................................................... 74
Capítulo IV: Análisis y discusión ................................................................................................... 81
Capítulo V: Conclusiones ............................................................................................................... 83
Capítulo VI: Recomendaciones ...................................................................................................... 84
Capítulo VII: Referencias bibliográficas ........................................................................................ 85
Capítulo VIII: Anexos .................................................................................................................... 89
viii
Comunicación
Índice de figuras
Figura 1 Diagrama de caja y bigotes 5
Figura 2 Diagrama de dispersión 6
Figura 3 Tipos de correlación de variables 6
Figura 4 Fuerza de correlación 7
Figura 5 Histograma de frecuencia 7
Figura 6 Tipos de aprendizaje automático 8
Figura 7 Árbol de decisión 11
Figura 8 Random Forest 12
Figura 9 Máquinas de Vector Soporte 13
Figura 10 Función sigmoide 16
Figura 11 Función Rectified Linear Unit 17
Figura 12 Función tangente hiperbólica 18
Figura 13 Gradiente descendente 19
Figura 14 Perceptrón simple 20
Figura 15 Red neuronal multicapa 20
Figura 16 Redes neuronales recurrentes 21
Figura 17 Ciclo de minado de la Unidad Minera Huinchos 27
Figura 18 Equipo de perforación modelo SWDH102S 27
Figura 19 Zaranda mecánica móvil de 85 a 150 tn /hr 28
Figura 20 Estructura de los costos de la Unidad Minera Huinchos 29
Figura 21 Flujograma del proceso de investigación 39
Figura 22 Valores nulos 45
ix
Figura 23 Box Plot de los datos antes de ser tratados los outliers 48
Figura 24 Frecuencia de los valores atípicos 51
Figura 25 Box plot posterior a la eliminación de los valores atípicos 51
Figura 26 Distribución de frecuencia de las variables 53
Figura 27 Gráfica Q-Q Plot 55
Figura 28 Gráfica de dispersión de los datos 57
Figura 29 Matriz de correlación entre variables 58
Figura 30 Representación gráfica luego de aplicar el modelo de regresión lineal 63
Figura 31: Representación gráfica luego de aplicar el modelo del Árbol de Decisión 65
Figura 32 Representación gráfica luego de aplicar el modelo de Random Forest 67
Figura 33 Representación gráfica luego de aplicar el modelo del SVR 69
Figura 34 Representación gráfica luego de aplicar el modelo de la Gradient Boosting 71
Figura 35 Representación gráfica de la Red Neuronal Perceptrón 73
Figura 36 Perdida durante el entrenamiento de la Red neuronal perceptrón 73
Figura 37 Comparación del valor de la métrica de R2 de todos los modelos 77
Figura 38 Comparación del valor de la métrica de MSE de todos los modelos 77
Figura 39 Comparación del valor de la métrica de RMSE de todos los modelos 78
Figura 40 Comparación del valor de la métrica de Varianza Explicada de todos los modelos 78
Figura 41 Comparación del valor de la métrica de Error Máximo de todos los modelos 79
Figura 42 Comparación del valor de la métrica de MAE de todos los modelos 79
Figura 43 Carta de autorización 91
Figura 44 Matriz de consistencia 97
Figura 45 Operacionalización de variables 98
Figura 46 Ficha de validación de instrumentos juicio de experto 100
x
Comunicación
Figura 47 Plano de ubicación de la UMH 102
Figura 48 Plano geológico de la UMH 103
xi
Índice de tablas
Tabla 1 Expertos validadores 37
Tabla 2 Base de datos que se utilizará para el desarrollo del modelo 44
Tabla 3 Características de las variables de estudio 44
Tabla 4 Descripción estadística antes de eliminar el error 46
Tabla 5 Descripción estadística después de eliminar el error 47
Tabla 6 Valores atípicos 50
Tabla 7 Descripción estadística posterior al tratamiento de valores atípicos 50
Tabla 8 Importancia de las variables independientes en el estudio 60
Tabla 9 Hiperparámetros designados para Regresión Lineal 62
Tabla 10 Hiperparámetros elegidos por GridSearchCV para Regresión Lineal 62
Tabla 11 Resultados luego de aplicar el modelo de Regresión Lineal 62
Tabla 12 Hiperparámetros designados para Árbol de Decisión 64
Tabla 13 Hiperparámetros elegidos por GridSearchCV para Árbol de Decisión 64
Tabla 14 Resultados luego de aplicar el modelo del Árbol de Decisión 65
Tabla 15 Hiperparámetros designados para Random Forest 66
Tabla 16 Hiperparámetros elegidos por GridSearchCV para Random Forest 66
Tabla 17 Resultados luego de aplicar el modelo de Random Forest 67
Tabla 18 Hiperparámetros designados para Máquinas de Vector Soporte 68
Tabla 19 Hiperparámetros elegidos por GridSearchCV para Máquinas de Vector Soporte 68
Tabla 20 Resultados luego de aplicar el modelo del SVR 69
Tabla 21 Hiperparámetros designados para Gradient Boosting 70
Tabla 22 Hiperparámetros elegidos por GridSearchCV para Gradient Boosting 70
xii
Comunicación
Tabla 23 Resultados luego de aplicar el modelo de la Gradient Boosting 71
Tabla 24 Resultados luego de aplicar el modelo de una Red neuronal perceptrón 72
Tabla 25 Resultados de las métricas del modelo de Regresión Lineal 75
Tabla 26 Resultados de las métricas del modelo de Árbol de Decisión 75
Tabla 27 Resultados de las métricas del modelo de Random Forest 75
Tabla 28 Resultados de las métricas del modelo de SVR 76
Tabla 29 Resultados de las métricas del modelo de Gradient Boosting 76
Tabla 30 Resultados de las métricas del modelo de Red Neuronal Perceptrón 76
Tabla 31 Resultados del valor real vs valor estimado 80
Tabla 32 Plantilla del reporte de costos operativos diarios 93
Tabla 33 Plantilla de observación de las reuniones y reparto de guardia 93
Tabla 34 Plantilla para el reconocimiento de variables 94
Tabla 35 Plantilla de correlación de variables 94
Tabla 36 Plantilla para recolectar los resultados 94
Tabla 37 Métricas de validación del modelo 95
xiii
Índice de ecuaciones
Ecuación 1 Regresión lineal 9
Ecuación 2 Residual Sum of Squares 11
Ecuación 3 SVR 13
Ecuación 4 Gradient Boosting 14
Ecuación 5 Función de entrada 15
Ecuación 6 Función sigmoide 16
Ecuación 7 Función Rectified Linear Unit 16
Ecuación 8 Función tangente hiperbólica 17
Ecuación 9 Error cuadrático medio 22
Ecuación 10 Raíz del error cuadrático medio 22
Ecuación 11 Error absoluto medio 23
Ecuación 12 R2 23
Ecuación 13 Stripping ratio 30
xiv
Comunicación
Resumen
Esta investigación tuvo como objetivo principal desarrollar un modelo matemático que
permita pronosticar los costos diarios de operación mina en la Unidad Minera Huinchos. La
metodología empleada en la investigación fue de tipo aplicada, nivel explicativo y de diseño
cuasi-experimental. Para realizar el entrenamiento se usó un 80 % de la muestra se emplearon los
modelos de regresión lineal, random forest, árbol de decisión, máquina de vector soporte,
gradient boosting y una red neuronal perceptrón, luego se validó el modelo con el 20% restante
de los datos mediante métricas. La muestra utilizada para desarrollar esta investigación fue un
conjunto de datos de humedad, stripping ratio, producción diaria y costos diarios de operación
mina con un total de 462 días reportados. Los resultados de la importancia de la variable
producción diaria según el modelo de gradient boosting se obtuvo un valor de 92% de aporte al
pronóstico de los costos diarios de operación mina, el modelo de mejores predicciones fue el de
gradient boosting con un coeficiente de determinación mayor al 92% y un RMSE de 0.67, se
concluyó que a medida que la producción aumente también aumentan los costos diarios de
operación mina pero en menor medida y el mejor modelo para realizar esta predicción es el
gradient boosting, este modelo predictivo permitirá tomar medidas correctivas operativas cuando
se pronostique un costo diario de operación mina con un valor menor a un 90% de exactitud
frente al real.
Palabras claves: inteligencia artificial, modelo matemàtico, costos diarios de operaciòn
mina, gradient boosting.
xv
Abstract
The main objective of this research was to develop a mathematical model that allows
forecasting the daily costs of mine operation at the Huinchos Mining Unit. The methodology used
in the research was applied, explanatory level and quasi-experimental design. To carry out the
training, 80% of the sample was used, linear regression models, random forest, decision tree,
support vector machine, gradient boosting and a perceptron neural network were used, then the
model was validated with the remaining 20%. of data using metrics. The sample used to develop
this research was a set of data on humidity, stripping ratio, daily production and daily mine
operating costs with a total of 462 days reported. The results of the importance of the daily
production variable according to the gradient boosting model, a value of 92% contribution to the
forecast of daily mine operation costs was obtained, the model with the best predictions was the
gradient boosting model with a coefficient of determination greater than 92% and an RMSE of
0.67, it is concluded that as production increases, the daily costs of mine operation also increase
and the best model to make this prediction is gradient boosting, this predictive model will allow
operational corrective measures to be taken when forecast a daily cost of mine operation with a
value less than 90% accurate compared to the actual cost.
Keywords: artificial intelligence, mathematical model, daily mine operation costs,
gradient boostin
xvi
Comunicación
Capítulo I: Introducción
1.1. Situación problemática, justificación y propósito
1.1.1. Situación problemática
En la actualidad la minería a través del área de planeamiento proyecta o planea la
actividad de operación mina adjunto con los costos operativos que a estos involucra, sin embargo,
existe un bajo interés por pronosticar la ocurrencia de este plan relacionado a una probabilidad de
éxito o falla. Esto genera un escenario de incertidumbre frente a los costos venideros respecto a
cómo se está llevando la operación minera. Tener un pronóstico que se acerque a mejorar los
resultados obtenidos puede brindar un escenario de toma de decisiones mucho más adecuado y
flexible al proceso operativo.
Reaccionar con proactividad en la toma de decisiones, representan a corto plazo de la
operación minera, una optimización del proceso que permite un ahorro significativo en términos
de costos operativos. Realizar estimaciones de costos operativos basados en una media aritmética
ha demostrado no ser fiable cuando se trata de pronosticar estos, es entonces que debemos buscar
nuevas herramientas que permitan realizar mejores pronósticos. Donde toma relevancia el uso del
Machine Learning, y todo el potencial de este, a través de modelos de pronóstico de regresión.
Actualmente en la Unidad Minera Huinchos, no se realizan estimaciones ni pronósticos
correctos cercanos del real de estos costos diarios de operación, por lo cual la toma de decisiones
es reactiva y no proactiva, en consecuencia, esto genera un lento actuar a eventos que puedan
exponer la rentabilidad de la mina. Ante estos factores de deficiencia en los controles y
proyecciones muy erráticas de los costos operativos diarios en la Unidad Minera Huinchos, nace
esta propuesta de implementar un modelo matemático que permita pronosticar los costos diarios
de operación mina en la Unidad Minera Huinchos mediante el uso de seis algoritmos de regresión
1
de Machine Learning con programación en Python.
1.1.2. Justificación
Las características más importantes de esta investigación ayudarán generalmente al área
operativa a corregir a tiempo el proceso productivo minero. Gracias a estas correcciones se
podrán ir optimizando y minimizando los costos operativos directos.
1.1.2.1.Práctica.
Selecciono este tema de investigación a razón de minimizar la incertidumbre existente en
el pronóstico de los costos operativos diarios de mina, para tomar acciones proactivas, cuando
estas se alejen del objetivo trazado.
1.1.2.2.Económica
Existen diferentes aplicaciones de la inteligencia artificial, en el caso de esta investigación
se optó por el Machine Learning supervisado por regresión, para aplicarse en pronosticar los
costos diarios de operación, debido a la importancia de estos en el proceso productivo minero.
Gracias a la inteligencia artificial, se evitará predecir aritméticamente que conlleva al error y no
ayuda a tomar medidas proactivas. Este planteamiento permitirá mejorar la proyección de los
costos, y posteriormente optimizar el proceso productivo.
1.1.2.3.Metodológica
Realizo esta investigación para generar conocimiento productivo sobre Machine Learning
aplicado a la minería y sirva de fuente para inspirar nuevos estudios.
1.1.3. Propósito
El propósito de la presente investigación es poder desarrollar un modelo predictivo de los
costos diarios de operación mina, que permita alcanzar una confiabilidad de éxito alta, acorde a
las exigencias de la operación.
2
Comunicación
1.2. Enunciado del problema
La variabilidad operativa diaria de los costos operativos corresponde a diferentes aspectos
técnicos, ambientales y sociales propios de la operación. En la Unidad Minera Huinchos
actualmente existe deficiente control operativo de todas las operaciones unitarias. Por ende, hay
la necesidad de plantear un modelo predictivo con la finalidad de asegurar el cumplimiento y
mejorar el pronóstico de los costos.
1.2.1. Problema general
¿De qué manera el planteamiento de un modelo matemático influye en el pronóstico de
los costos diarios de operación mina en Unidad Minera Huinchos – Apurímac - 2023?
1.2.2. Problemas específicos
• ¿Con el análisis exploratorio de datos se pueden encontrar anomalías y relaciones
posibles?
• ¿Cuál es el porcentaje y el tipo de relación que existe entre las variables de
estudio.
• ¿Qué modelo matemático de Machine Learning permitirá realizar un pronóstico
aceptable de los costos diarios de operación mina con un coeficiente de
determinación superior al 70%?
1.3. Objetivos
1.3.1. General
Desarrollar un modelo matemático que permita pronosticar los costos diarios de operación
mina en Unidad Minera Huinchos – Apurímac – 2023.
1.3.2. Específicos
• Analizar la base de datos que es alimentada por el reporte de costos operativos
3
diarios mediante un análisis exploratorio de datos (EDA).
• Determinar el porcentaje y tipo de relación que existe entre las variables de
estudio.
• Estimar y validar los modelos matemáticos para encontrar un nivel de confianza
mayor al 70% en la predicción de los costos operativos diarios en Unidad Minera
Huinchos.
1.4. Hipótesis
1.4.1. General
Un modelo matemático permite pronosticar los costos diarios de operación mina en la
Unidad Minera Huinchos – Apurímac – 2023.
1.4.2. Específicas
• El análisis exploratorio de datos (EDA) permite hallar anomalías, patrones o
relaciones posibles existentes en la base de datos.
• La variable de producción guarda mayor relación con los costos operativos diarios
a comparación de las demás.
• El modelo matemático de predicción de los costos diarios de operación mina
encontrado tiene un valor superior al 70% como coeficiente de determinación.
1.5. Marco conceptual y teórico
1.5.1. Análisis exploratorio de datos (EDA)
Para Parra (2002), es una forma de analizar un conjunto de datos que emplea el resumen
numérico y visual para buscar patrones no anticipados. El EDA es un diagrama de análisis que
fortalece las probabilidades del experto para encontrar nuevas respuestas a las interrogantes
planteadas (Horber & Ladiray, 1995).
4
Comunicación
Existen diferentes técnicas estadísticas preferencialmente con carga visual con el
propósito de revelar información relevante de los datos analizados. A continuación se muestran
las más utilizadas:
1.5.1.1.Diagrama de caja y bigotes (Box Plot)
Muestra gráficamente la distribución de los datos numéricos, asimetría mediante cuartiles
o percentiles y el promedio. Su principal uso de este diagrama es para visualizar aquellos datos
que están muy alejados conocidos como valores atípicos. El resumen representativo de la
estadística descriptiva de los datos que muestra este diagrama son: valor mínimo, primer cuartil,
mediana, tercer cuartil y valor máximo (Mcleod, 2023).
Figura 1
Diagrama de caja y bigotes
Fuente: https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd51
1.5.1.2.Diagramas de dispersión (Scatter plot)
Diagrama que muestra la relación que guardan dos variables de estudio entre sí. Se
5
representa en un plano cartesiano para representar los datos y observar el tipo de relación que
guardan si la hubiera (Betancourt, 2023). Existen tipos de correlación que guardan las variables;
positivo cuando son directamente proporcionales, negativo cuando son inversamente
proporcionales y nulo cuando no tienen relación alguna como se muestra en la
Figura 3. También es muy importante la intensidad de correlación como lo podemos
observar en la
Figura 4.
Figura 2
Diagrama de dispersión
Fuente: https://datavizcatalogue.com/ES/metodos/images/anatomy/SVG/diagrama_de_dispersion.svg
Figura 3
Tipos de correlación de variables
6
Comunicación
Figura 4
Fuerza de correlación
1.5.1.3.Histogramas de frecuencia
Es un gráfico que indica la distribución de los datos de una muestra o una población, solo
correspondería a una sola variable. En los histogramas se usan barras, cuya altura dependerá de la
frecuencia de los datos en ciertos intervalos (Westreicher, 2020). La importancia del histograma
es encontrar la tendencia en los datos, es decir cuál de ellos se encuentra más presente.
Figura 5
Histograma de frecuencia
Fuente: https://www.plandemejora.com/wp-content/uploads/Partes-del-histograma.png
1.5.2. Inteligencia artificial (IA)
7
El término de IA se acuñó desde el siglo anterior generando gran perspectiva al avance de
la ciencia. Las preguntas que pueden representar y resaltar el concepto de la inteligencia artificial
son: “¿pueden pensar las máquinas?”, “juego de imitación” y “¿vale la pena investigar la
pregunta?” (Turing, 1950).
Existen dos tipos de IA que se definen a continuación cada una de ellas: IA débil seria “la
ciencia e ingeniería que permite diseñar y programar ordenadores de forma que realicen tareas
que requieran inteligencia” y IA fuerte como “la ciencia e ingeniería que permitiría replicar la
inteligencia humana mediante máquinas” (López, 2020, citado por Ciudad, 2022).
1.5.2.1.Aprendizaje automático (Machine Learning)
El Machine Learning se encuentra dentro de la IA, que a partir de una base de datos
encuentra patrones para posteriormente realizar predicciones. Su objetivo principal es que un
sistema computacional pueda aprender a partir de una base de datos, imitando de esta forma las
capacidades humanas. (Bobadilla, 2020).
Figura 6
Tipos de aprendizaje automático
Machine Learning
Supervisado No Supervisado Reforzado
Regresión Clasificación Agrupación Asociación
Nota. Adaptado de Modelos de Machine Learning para AAPP y donde aplicarlos, por S. Jiménez, 2021,
(https://sergiojimenez.net/wp-content/uploads/2021/03/ML-1.jpg).
1.5.2.1.1. Supervisado
Este enfoque principalmente necesita de un conjunto de variables de predicción y una
8
Comunicación
variable objetiva. Las dificultades del modelo supervisado son: el tipo de pregunta que deseamos
resolver, la disponibilidad de datos y la correlación que exista entré las variables de predicción y
la variable objetiva (Morgado et al., 2022). Al principio se entrena la máquina, proporcionando
inputs o feature relacionados a resultados a outputs o label nombrados por humanos expertos
(Jenni & Chris, 2019). El aprendizaje supervisado es en donde las computadoras ganan
experiencia con innumerables datos, aprende los patrones para luego ingresar y poner a prueba la
predicción del modelo (Álvarez et al., 2020).
Existen subclases de aprendizaje supervisado dentro del Machine Learning como
regresión es cuando la variable objetiva es un valor real por ejemplo la predicción de los costos
operativos y clasificación es cuando la variable objetiva es categoría por ejemplo la predicción
del tipo de roca (Alonso, 2021).
Los algoritmos supervisados de regresión más representativos que se utilizaran en este
proyecto de investigación se describen a continuación:
A. Regresión lineal.
Es un método estadístico que modela la relación entre una variable dependiente o
respuesta y múltiples variables independientes como predictoras. La implementación de la
librería en Python es Scikit-learn utilizada para predecir (Joaquín, 2020a). La definición
estadística más utilizada es:
Ecuación 1
Regresión lineal
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + ⋯ + 𝛽𝑛 𝑥𝑖𝑛 + 𝜀𝑖
Donde:
- 𝛽0 : es el origen, e iguala con el valor promedio de la variable respuesta 𝑦𝑖 cuando
9
todos los predictores tienen valor cero.
- 𝛽𝑗 : es el resultado promedio que tiene sobre la variable dependiente el aumento en
una unidad de la variable independiente 𝑥𝑗 , manteniéndose constantes el resto de
variables. Se conocen como coeficientes parciales de regresión.
- 𝜀𝑖 : es el error, resultado de la diferencia entre el valor observado y el estimado por
el modelo. Recoge el efecto de todas aquellas variables que influyen en 𝑦𝑖 , pero
que no se incluyen en el modelo como predictores.
En muchos de los casos, los valores 𝛽0 y 𝛽𝑗 poblacionales son desconocidos, por lo que, a
partir de una muestra, se obtienen sus estimaciones 𝛽^0 y 𝛽^𝑗 . Ajustar el modelo consiste en
estimar, a partir de los datos disponibles, los valores de los coeficientes de regresión que
maximizan la verosimilitud (likelihood), es decir, los que dan origen al modelo que con mayor
posibilidad puede haber generado los datos observados (Joaquín, 2020b).
B. Árbol de decisión
Son modelos conformados por reglas binarias(si/no) con las que se consiguen dividir las
observaciones en función de sus atributos para predecir el valor de la variable objetiva como se
visualiza en la Figura 7. No requiere mucha limpieza de datos, no se influencian por los outliers,
no requiere de escalamiento de datos y permiten identificar rápidamente las variables predictoras
más influyentes.
Las principales implementaciones de árboles de decisión en Python se encuentra
disponibles desde la librería scikit-learn a través de las clases Decision Tree Classifier y Decision
Tree Regressor. En el proceso de entrenamiento se divide en dos etapas la primera es la
generación de nodos terminales (divisiones sucesivas) y la segunda predecir la variable objetiva
en cada región. El criterio con mayor uso para identificar las divisiones es el Residual Sum of
10
Comunicación
Squares (RSS) (Joaquín, 2020c).
Ecuación 2
Residual Sum of Squares

𝐽
𝑅𝑆𝑆 = ∑ ∑(𝑦𝑖 − 𝑦̂𝑅𝑗 )2

𝑗=1 𝑖𝜖𝑅𝑗
Donde:
- 𝑦̂𝑅𝑗 : media de la variable respuesta en la región 𝑅𝑗 .
Figura 7
Árbol de decisión
Fuente: Tomado de Árboles de decisión con Python: regresión y clasificación (p, 3) por R. Joaquín, 2020, Ciencia de
datos.
C. Bosques aleatorios (Random Forest)
Formado por múltiples árboles de decisión individuales, cada árbol es entrenado con una
muestra diferente a los datos de entrenamiento mediante una técnica conocida como
11
bootstrapping. Al momento de realizar predicciones sobre nuevas observaciones se mezclan todas
de los árboles que integran el modelo. No necesita una limpieza a detalle de los datos, poco
susceptible a la influencia de valores outliers, no requiere escalamiento de variables, permite
predecir de forma eficiente las variables independientes más importantes. (Joaquín, 2023a).
Figura 8
Random Forest
Fuente: Tomado de Random Forest con Python (p, 6) por R.Joaquín, 2023, Ciencia de datos.
El modelo óptimo es aquel el que logra encontrar un equilibrio entre el sesgo(desviación
promedio de las predicciones) y la varianza (cambio del modelo).
D. Máquinas de Vector Soporte (SVR)
Es un algoritmo de clasificación y regresión que se fundamenta en el Maximal Margin
Classifie este término difiere del concepto del hiperplano. El hiperplano en un espacio p-
dimensional, se define como con un subespacio plano (p-1) si pasar por el origen. Como ejemplo
en el caso de un espacio tridimensional el hiperplano es un subespacio de dos dimensiones
(Joaquín, 2020d).
12
Comunicación
Ecuación 3
SVR
𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑝 𝑥𝑝 < o
𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑝 𝑥𝑝 > o
Donde:
- 𝛽0 , 𝛽p son los parámetros, todos los pares de valores 𝑥 = (𝑥1 , 𝑥p ) que cumplen la
igualdad son puntos del hiperplano.
- El punto x cae a un lado o al otro del hiperplano, es decir divide un espacio p-
dimensiones en dos mitades, para poder determinar el lado de hiperplano al que
pertenece un punto x, simplemente calcular el signo.
Figura 9
Máquinas de Vector Soporte
Fuente: Tomado de Aprendizaje Automático (p, 1) por K.Rojas, 2022, Ciencia de Datos para Ciencias Naturales.
E. Gradiente Bosting
Está conformado por un conjunto de árboles de decisión individual, cada árbol nuevo
generado trata de corregir los errores de los anteriores, comúnmente es utilizado para analizar
datos tabulares. Generalmente no necesitan en intensidad la limpieza de datos, tampoco necesitan
13
ser escalados los datos, son muy poco susceptibles a la influencia de los datos atípicos. En
Python los más utilizados son Gradient Boosting Classifier y Gradient Boosting Regressor estos
no realizan binning, utilizan un core, permiten trabajar sobre métricas sparse. El método de
ensamble se relaciona con los términos de sesgo y varianza (Joaquín, 2023b).
Ecuación 4
Gradient Boosting
𝑓1 (𝑥) ≈ 𝑦
𝑓2 (𝑥) ≈ 𝑦 − 𝜆𝑓1 (𝑥)
𝑓3 (𝑥) ≈ 𝑦 − 𝜆𝑓1 (𝑥) − 𝜆𝑓2 (𝑥)
𝑦 ≈ 𝜆𝑓1 (𝑥) + 𝜆𝑓2 (𝑥) + 𝜆𝑓3 (𝑥) + ⋯ + 𝜆𝑓𝑚 (𝑥)
Donde:
- 𝑓1 , 𝑓𝑚 árbol con nudos (weak learner), cada error cometido se va corrigiendo con
un siguiente weak learner.
- 𝑦 variable objetiva o respuesta, producto de la predicción.
- 𝜆 valor de regulación (learning rate), limita cada modelo en un conjunto de
ensambles.
1.5.2.2.Aprendizaje profundo (Deep Learning)
El aprendizaje profundo, es el subcampo más prometedor del aprendizaje automático, no
es necesario que un humano intervenga para procesar un conjunto de datos; los modernos avances
tecnológicos en sistemas de reconocimiento facial, conducción automática, características de los
videojuegos, etc. son generados por la aplicación de esta inteligencia (Bobadilla, 2020).
1.5.2.2.1. Redes neuronales
Las redes neuronales artificiales (ANN) son un tipo de algoritmo de aprendizaje
14
Comunicación
automático inspirado en el sistema nervioso biológico por la forma en la de procesar la
información (Callejas et al., 2013). Las ANN tienen la capacidad de solucionar funciones no
lineales de manera eficiente, puesto que aprenden de los inputs que se les establece en su
arquitectura.
Las ANN son el resultado de una programación, cuyo funcionamiento es semejante al de
las neuronas biológicas (Raissi et al., 2019). Las ANN tienen una organización jerárquica en sus
elementos, la cual permite realizar múltiples interacciones para dar una respuesta ante un
estímulo externo.
1.5.2.2.2. Tipos de funciones
A. Función de entrada
Permite ingresar los diferentes datos de entrada como una global.
Ecuación 5
Función de entrada
𝑖𝑛𝑝𝑢𝑡𝑖 = (𝑖𝑛𝑖1 #𝑤𝑖1) ∗ … ∗ (𝑖𝑛𝑖𝑛 #𝑤𝑖𝑛 )
Donde:
- #: es el operador (producto, suma, entre otros)
- n: cantidad de inputs
- in, wi: son el peso asignado
B. Función de activación
Está registra la actividad de una neurona; convirtiendo el input en un valor activo, en
donde el rango para este valor va de 0 a 1 o de -1 a 1. Cuando la neurona esta inactiva toma
valores de 0 o -1, en cambio al estar activada será 1. Las funciones para la activación que más se
utilizan son:
15
Ecuación 6
Función sigmoide
𝟏
𝒇(𝒙) =
(𝟏 + 𝒆−𝒙 )
Donde:
- Salida de 0 ha 1, tiene forma de S.
- Útil para problemas de clasificación categórica.
Figura 10
Función sigmoide
Fuente: Tomado de Explicación de las funciones de activación en Redes Neuronales y práctica con Python (p, 1) por
A. Rubiales, 2020, Medium.
Ecuación 7
Función Rectified Linear Unit
𝑓(𝑥) = max(0, 𝑥)
Donde:
- Va desde 0 a 1, brinda un valor cero cuando ingresan datos negativos.
16
Comunicación
- Trabaja con valores positivos similar a una linear.
Figura 11
Función Rectified Linear Unit
Fuente: Tomado de La función de activación (p, 1) por M. Sotaquirá, 2018, Codificando Bits.
Ecuación 8
Función tangente hiperbólica
(𝐞𝐱 − 𝐞−𝐱 )
𝐟(𝐱) =
(𝐞𝐱 + 𝐞−𝐱 )
Donde:
- El rango va desde -1 a 1, útil para problemas de clasificación categórica.
- En regresión las salidas toman valores negativos.
17
Figura 12
Función tangente hiperbólica
Fuente: Tomado de La función de activación (p, 1) por M. Sotaquirá, 2018, Codificando Bits.
C. Función de salidas
Determina el valor para las nueronas que se encuentran vinculadas, cuando la función
está por debajo de un determinado valor, no existirá salida en las neuronas predecesoras.
1.5.2.2.3. Hiperparámetros
Son los parámetros que se modifican de manera manual en el ANN. Estos son importantes
para conseguir el buen desempeño, por ellos se debe utilizar los que mejor se adapten a la
necesidad o problema, los más importantes son:
- Función perdida: Dependerá mucho de los resultados obtenido posterior a la
predicción.
- Tasa de aprendizaje: Esto dependerá del tamaño de los pesos.
- Cantidad de datos: Es importante para que actualice los pesos.
18
Comunicación
- Ciclo (epoch): Cantidad de iteraciones que ejecutara el algoritmo de entrenamiento
y optimización.
- Optimizador: Lo primero es utilizar el backpropagation (evaluador de pesos) y lo
segundo se emplea el optimizador, encargado de cambiar los pesos al ritmo de los
ciclos; los más utilizados y conocidos son la gradiente estocástica y gradiente
descendente (Adam).
- Aprendizaje supervisado y no supervisado: Forma de cambiar sus pesos de
acuerdo a la información de entrada.
- Validación: Se emplea un porcentaje de datos, que mayormente es el 20% de total
para poder testear y validar la ANN.
- Arquitectura: Forma de distribución de las neuronas.
Figura 13
Gradiente descendente
Fuente: Tomado de Gradiente descendente (p, 1) por IMB, 2023.
1.5.2.2.4. Tipos de ANN según el número de capas
19
A. Monocapa
Son la forma más sencilla de ANN. Tiene una sola capa, cuyo objetivo es buscar una capa
de salida en donde se realizarán los cálculos, para los inputs de la capa de entrada.
Figura 14
Perceptrón simple
Fuente: Adaptado de Redes neuronales artificiales aplicadas al reconocimiento de patrones (p, 19) por W. Rivas y B.
Mazón y E. Mejía, 2018, UTMACH.
B. Multicapa
En esta existe un conjunto de capas ocultas. En este tipo de ANN la conectividad puede
ser total o parcial.
Figura 15
Red neuronal multicapa
Fuente: Adaptado de Qué son las redes neuronales y sus aplicaciones, por P. Huet, 2023, OpenWebinars
(https://openwebinars.net).
1.5.2.2.5. Tipo de ANN según la conexión
20
Comunicación
A. Recurrentes
Esta ANN permiten realizar una retroalimentación empleando lazos, los cuales pueden ser
las neuronas de una misma capa o de otra distinta, por ello permite que el output de una neurona
se pueda utilizar como input para otra neurona. Para este tipo se utilizan algoritmos de
aprendizaje como el de retroprogramación a través del tiempo para mejorar el resultado de salida.
Figura 16
Redes neuronales recurrentes
Fuente: Adaptado de Qué son las redes neuronales y sus aplicaciones, por P. Huet, 2023, OpenWebinars
(https://openwebinars.net).
B. Feedforward
Este tipo de ANN se mueve hacia adelante, por lo que no existe una retroalimentación.
Este tipo de red se emplea para la clasificación, como la identificación de imágenes o detectar
fraudes. Además, puede entrenarse utilizando el tipo de aprendizaje supervisado.
1.5.2.3.Evaluación del error del modelo
Cuando se predice mediante un modelo de regresión el resultado de una variable
desconocida, producto de unos parámetros y características brindados. La diferencia entre el valor
21
estimado y valor real es el error. Existen técnicas para determinar el rendimiento y evaluar el
ajuste a continuación se muestran las más representativas:
1.5.2.3.1. Error cuadrático medio (MSE)
Es el indicador más empleado y el más básico, se define como el valor medio de los
cuadrados de la resta entre los valores estimados y reales.
Ecuación 9
Error cuadrático medio

𝑛
1 2
𝑀𝑆𝐸 = ∑(𝑦𝑛 − 𝑦̂)
𝑖
𝑛
𝑖=1
Donde:
- n, cantidad de datos
- 𝑦𝑖, valor real
- 𝑦̂𝑖, valor estimado
Existe una forma de entender mejor el cálculo del error es la raíz del error cuadrático
medio (RMSE), genera una media interpretable del promedio de error de estimación en la misma
unidad que la variable objetiva; muy empleado porque penaliza más los errores mayores que los
menores.
Ecuación 10
Raíz del error cuadrático medio
𝑛
1 2
𝑅𝑀𝑆𝐸 = √ ∑(𝑦𝑛 − 𝑦̂)
𝑖
𝑛
𝑖=1
1.5.2.3.2. Error absoluto medio (MAE)
22
Comunicación
Es el resultado de la media absoluta de los valores reales y estimados, sensible a los
valores extremos porque no incluye el error cuadrado, proporciona una media lineal del error de
predicción promedio.
Ecuación 11
Error absoluto medio

𝒏
𝟏
𝑴𝑨𝑬 = ∑|𝒚𝒏 − 𝒚̂𝒊 |
𝒏
𝒊=𝟏
Donde:
1.5.2.3.3. Coeficiente de determinación (R2)
También conocido como coeficiente de determinación que mide la proporción de la
variación de la variable dependiente explicada por el modelo, tiene un rango desde 0 (no hay
relación lineal) a 1 (ajuste completo).
Ecuación 12
R2
2
∑𝒏𝒊=𝟏(𝒚𝒏 − 𝒚̂𝒊 )2
𝑅 = 1−
∑𝒏𝒊=𝟏(𝒚𝒏 − 𝒚𝒂𝒗𝒈 )
Donde:
- 𝒚𝒂𝒗𝒈 , valor promedio de los valores reales.
23
1.5.3. Inteligencia Artificial en minería
Las características cambiantes en el proceso de extracción del mineral hacen que el costo
operativo aumente; también mucho depende del precio de los metales en donde hay la
intervención de la oferta y la demanda, ante todo ello hay la obligación de implementar la IA que
ayude en la optimización del proceso productivo y así se logre la gran anhelada reducción de
costos. Las técnicas de inteligencia artificial aplicable a este proceso son: redes neuronales,
algoritmos genéticos, algoritmos de enjambre, etc. Algunos ejemplos destacables de las
dimensiones en donde se pueden aplicar la IA pueden ser la predicción de esfuerzos, perforación
robótica, voladura electrónica, iluminación inteligente, optimización de carguío y acarreo y
muchas otras más aplicaciones (Schwarz, 2018).
Ambar ( 2023) menciona, los 10 usos de la inteligencia artificial, estos sistemas de
digitalización pueden solucionar grandes cantidades de datos y generar soluciones, es por ello que
las grandes empresas mineras han optado por aplicarlas en su proceso productivo.
Predecir interrupciones en cadena de suministros permite encontrar fallas futuras,
pronóstico de la demanda específica, a través de esta valiosa información se puede llegar a
optimizar el proceso mediante:
• Optimización energética: Pueden identificar oportunidades de ahorro de energía,
para tener una mejora en la eficiencia.
• Datos medioambientales: Puede darse uso para identificar áreas que ayuden a
optimizar las operaciones y proyectar su impacto ambiental.
• Exploraciones: Sirve para el análisis de innumerables cantidades de datos para
identificar objetivos y generar información relevante del cuerpo, genera una gran
eficiencia en costo y tiempo.
24
Comunicación
• Mantenimiento preventivo: Realizan predicciones en tendencias de uso e informar
con anticipación la falla posible de un equipo, mejorando así la planificación.
• Evaluaciones de seguridad y riesgos: Genera una evaluación y puede alertar sobre
posibles riesgos en las operaciones mineras, para tener una fuerza laboral muy
segura.
• Robótica: Diseñada para reemplazar a los humanos en lugares en donde no es
posible su ingreso, brinda funciones inteligentes semejantes a la de un ser
pensante.
• Clasificación de minerales: Pueden identificar minerales que tenga un valor en el
desmonte, para poder mejorar la recuperación y generar reducción de los costos de
procesamiento.
• Sistemas de apoyo de decisión: Trae grandes beneficios, como la seguridad del
trabajador, optimización del proceso y reducción de costos, esto ayuda a tomar la
mejor decisión, producto que al mismo tiempo considera los factores claves.
• Vehículos autónomos: Ayudan a que los trabajos en las operaciones sean más
seguros y así evitar el ingreso a áreas muy peligrosas.
1.5.4. Geología de la Unidad Minera Huinchos
Según Paull (2014) la mineralización de hierro está compuesta principalmente de
magnetita masiva y en pequeños cuerpos de brecha, localizadas zonas de hematita y en menor
proporción limonita y goethita.
Según la ubicación de los afloramientos de mineral de hierro, se delimitaron tres áreas
importantes denominadas:
• Área Central o Huinchos de 1.5 km x 0.4 km, la cual contiene una zona con mayor
25
concentración de hematita.
• Área Sur o Huancabamba de 0.6 km x 0.5 km, aproximadamente a 1 km al Este
del pueblo de Huancabamba, donde se ha localizado dos zonas con hematita.
• Área Norte de 1.4 km x 0.4 km de ancho, ubicada a 200 m al Norte del Área
Central, donde se ha ubicado una zona con mayor concentración de hematita y en
menor proporción limonita y goethita.
Este depósito es del tipo Skarn, yacimiento de reemplazo metasomático de contacto en las
calizas de la formación Ferrobamba, las cuales fueron instruidas por stocks de composición
diorítico-cuarzo diorítico del macizo sintectónico de Abancay considerado como la fuente de la
mineralización y que a su vez dio lugar a extensas zonas de metamorfismo de contacto en la
región.
Según estudios anteriores, el depósito de Huancabamba, tendría un recurso geológico de
mineral de hierro del orden de 200 Mt a 500 Mt, que lo ubica como un importante depósito de
hierro, considerando el nuevo mercado generado en Asia, particularmente en China e India; la
aplicación de tecnologías modernas de bajo costo utilizando gas natural en el procesamiento y la
construcción de una planta concentradora ubicada estratégicamente, procesaría la producción de
mineral de hierro de la región. Su mapa geológico se puede visualizar en la Figura 45.
1.5.5. Ciclo de minado de la Unidad Minera Huinchos
La unidad minera emplea un método de explotación en tiras superficiales por el momento,
debido a la existencia de un campaneo de mineral. Las actividades se desarrollan de acuerdo a las
características geológicas del yacimiento para poder cumplir con las metas establecidas. Las
operaciones son convencionales por el momento. El ciclo de minado se encuentra distribuido,
como se muestra en el siguiente diagrama:
26
Comunicación
Figura 17
Ciclo de minado de la Unidad Minera Huinchos
Perforación y
Clasificación
voladura
Carguío y acarreo
1.5.5.1.Perforación y voladura
En esta etapa del proceso se empieza con la perforación y voladura para conseguir una
granulometría óptima para el siguiente proceso del ciclo productivo. Se realizan bancos de 6
metros de alto, ángulo del talud de 78º y ancho de bancos de 5 metros. Se usa una perforadora de
superficie SWDH102S, sola para casos puntuales donde hay presencia de masivo, hay zonas en
donde no se necesita perforaciones.
Figura 18
Equipo de perforación modelo SWDH102S
27
1.5.5.2.Carguío y acarreo
Etapa que consiste en el traslado del material hacia una zaranda mecánica oh fija y a una
desmontera si no contiene leyes rentables. Los equipos que se utilizan para esta operación son dos
cargadores frontales (CAT 950G, VOLVO L120C), seis excavadoras (VOLVO EC340DL2, CAT
329D, Hyundai 330LC), 10 camiones volquetes de 15 m3 y un camión cisterna de agua no
potable. El movimiento de material va desde los 1500 a las 3000 tn/día.
1.5.5.3.Clasificación
Etapa del tratamiento del material que contiene concentraciones altas del mineral de hierro
mediante zarandas mecánicas móviles y fijas. Se obtienen productos con un P75 mayor a ¼” en
verano y en invierno un P60 mayor a un ½ pulgadas para mineral brechoso y masivo. Se cuenta
con una zaranda mecánica móvil que produce 150 a 300 tn/hr y una de 85 a 150 tn/hr, aparte de
ello se cuenta con cribas fija de 6 X 3 metros con un ángulo de inclinación del 45º con varillas de
2 pulgadas de diámetro.
Figura 19
Zaranda mecánica móvil de 85 a 150 tn /hr
Fuente: Adaptado de Unidad Minera Huinchos, por G. Lopez, 2022.
1.5.6. Costos diarios de operación mina
28
Comunicación
Son los que están presentes directamente en las operaciones mineras, estos costos son
variables de acuerdo a cada operación unitaria que permite la explotación del recurso minero. La
optimización de cada operación unitaria es desarrollada con la finalidad de aumentar la
producción, de este modo se pueden reducir los costos operativos de mina.
Figura 20
Estructura de los costos de la Unidad Minera Huinchos
Costos operativos de
perforación y voladura
Costos diarios de Costos operativos de
operación mina carguío y acarreo
Costos operativos de
clasificación
Fuente: Adaptado de Unidad Minera Huinchos, por J. Jiménez, 2022.
Los costos diarios operativos de mina en Unidad Minera Huinchos se clasifican de
acuerdo con cada operación unitaria que a continuación se detallan:
1.5.6.1.Costos operativos de perforación y voladura
Estos costos representan las actividades de perforación y voladura si el proceso lo amerita,
esto dependerá mucho de la geología de la zona.
1.5.6.2.Costos operativos de clasificación
Son aquellos que permiten la separación de mineral de hierro a través de una zaranda
mecánica cuando el material es procedente de la operación unitaria de extracción. La humedad es
un factor muy importante a tomar en cuenta en el cálculo de este costo.
1.5.6.3.Costos operativos de carguío y acarreo.
Este costo involucra al movimiento del material a la zaranda mecánica móvil o a la
desmontera mediante el uso de excavadoras, cargadores frontales, camiones volquetes de 15 m3.
1.5.6.4.Costo operativo global
29
Es el costo total de operación en donde va a depender mucho de la granulometría del
material va desde ¼” a 2”, este costo tiene variables controlables y no controlables. En las
controlables un ejemplo son el uso adecuado y óptimo de las horas máquina, las no controlables
destaca la geología, por ejemplo, el material con presencia de brecha disminuirá notablemente el
costo; a comparación del material con presencia de masivo de hierro.
Para poder encontrar un modelo que ayude a predecir el costo diario de operación mina, a
la base de datos se le sumó todos los costos operativos antes mencionados pero con un indicador
común (US$/tn) con la finalidad de tenerlos en la misma escala.
1.5.7. Stripping ratio
Es una medida importante en el proceso de mina a cielo abierto, representa a la cantidad
de desmonte que se desea mover para extraer determinada cantidad de mineral. La gran mayoría
de empresas mineras consideran su string ratio antes de empezar una operación, esto mucho
difiere de la ley del mineral (Pistilli, 2023).
Ecuación 13
Stripping ratio
𝑤𝑎𝑠𝑡𝑒(𝑡𝑛)
𝑆𝑅 =
𝑜𝑟𝑒 (𝑡𝑛)
1.5.8. Producción
Actividad encargada de extraer el mineral de acuerdo las metas establecidas por el
empleador, a fin de generar una rentabilidad económica. Cada objetivo de la empresa debe
llevarse a cabo secuencialmente de acuerdo al tiempo establecido. Por ejemplo me solicitaron
producir 3000 tn de mineral de hierro, es ahí donde se deben aplicar métodos adecuados para
llegar a lo solicitado.
30
Comunicación
1.5.9. Humedad
La humedad es un indicador muy importante en la operación de clasificación mediante
zarandas mecánicas, su principal enemigo de este proceso es la arcilla porque al entrar en
contacto con el agua, se generara un lodo y dificulta la clasificación del mineral, es por ello que si
se desea producir adecuadamente es necesario tener este control de humedad del mineral, con la
finalidad de tomar medidas proactivas ante problemas inusuales.
1.6. Marco Empírico
1.6.1. Antecedentes nacionales
A nivel nacional han realizado pocos trabajos de investigación sobre modelos predictivos
aplicados a la predicción de costos y se consideraron antecedentes en donde aplican IA a minería:
Castillo (2022), en su proyecto de investigación “Desarrollo de modelos predictivos de
regresión en la industria minera mediante el uso de algoritmo de Machine Learning” para obtener
el título de ingeniero de minas en la Universidad Nacional Mayor de San Marcos. Su objetivo
principal fue desarrollar modelos predictivos de regresión usando Machine Learning para casos
en la industria minería, su metodología de investigación es de tipo exploratorio, enfoque
cuantitativo y diseño transversal. Los resultados que obtuvo para el caso 1 que era estimar el
precio del oro, utilizando “SVR” las métricas fueron “R2 = 0.94, MAE=4.63 y RMSE=5.29”; en
el caso 2 del concentrado de hierro estimo el contenido se sílice, sus métricas fueron “R2 = 0.51,
MAE=0.81 y RMSE=0.81” esto se obtuvo haciendo uso de “Gradient Boosting Regressor” y para
el caso 3 uso el algoritmo de “Random Forest Regressor” para predecir el consumo de
combustible para el cual obtuvo que “R2=0.98, MAE= 0.87, RMSE=0.91”. Finalmente concluyo
que el uso del algoritmo para el caso 1 puede identificar que variables inciden en la variación del
precio del oro, realizar análisis cuando el precio baja; en el caso 2 el autor recalca para que haya
un mejor desempeño del algoritmo hacía falta datos con por ejemplo algunos parámetros de
31
molienda, leyes del relave, la cantidad del concentrado producido y datos que inciden en el
proceso de flotación; para el caso 3 el algoritmo proporción resultados excelentes porque este
podía identificar los parámetros que más inciden en el consumo, predecir el consumo de
combustible en relación al real pudiendo así reconocer qué equipo consume más y poder tomar
medidas.
Cueva (2022), en su proyecto de investigación “Control de tiempos improductivos
mediante el modelo de regresión lineal para mejorar la productividad en el proceso de acarreo en
la empresa OPEMIP S.A.C. – U.M. San Rafael” para optar el título de ingeniero de minas en la
Universidad Tecnológica del Perú. Su objetivo principal fue utilizar un modelo de regresión
lineal para controlar tiempos improductivos con la finalidad de optimizar la productividad en el
acarreo, su metodología de investigación fue de enfoque cuantitativo, diseño experimental, tipo
aplicada y descriptiva. Los resultados mostraron que la producción incremento en 539. 695 tn
acarreadas, ya que se consideró que las horas efectividad incrementan en una 1 hora. Finalmente
concluyó que los tiempos improductivos se controlaron mediante “Prod/Guardia = 244.740 +
539.695 (ℎ𝑜𝑟𝑎𝑠 𝑒𝑓𝑒𝑐𝑡𝑖𝑣𝑎𝑠)” logrando así optimizar la producción de 5,560.64 a 7,000.00
toneladas por día en el proceso de acarreo de la unidad minera.
1.6.2. Antecedentes internacionales
Autores internacionales si aplican modelos predictivos mediante inteligencia artificial
para solucionar problemas operativos mineros e incluimos aquellos estudios donde apliquen la IA
a la minería, se citan autores acontinuación:
Carvajal (2021), en su proyecto de investigación “Implementación de un modelo de costos
operacionales para Minera Centinela” para obtener el título de ingeniero civil de minas en la
Universidad de Chile. Su objetivo fue desarrollar un modelo que estime los costos operacionales
como perforación, transporte y carguío para proyectos a futuro, su metodología de investigación
32
Comunicación
es de tipo aplicada y de diseño experimental. Los resultados que obtuvo de la implantación del
modelo es una precisión de costos en un 5%, también recalco que el modelo tuvo deficiencias
para calcular el ciclo y el rendimiento de los equipos. Finalmente concluyo que el modelo le
entrego a la Unidad Minera Centinela ya este aportaba a las operaciones una estimación
razonable y servía como una herramienta de planeamiento pudiendo así tomar decisiones
referentes a los costos.
Aghajani et al. (2019), en su artículo de investigación “Application of simulated annealing
for optimization of blasting costs due to air overpressure constraints in open-pit mines” de la
Universidad de Teherán, Irán. Su objetivo fue proponer un modelo matemático para tener costos
mínimos en las operaciones de voladura en una mina de yeso dado por el fenómeno de
sobrepresión de aire, su metodología de su investigación fue experimental y enfoque cuantitativo.
Los resultados que obtuvo del modelo no lineal en relación con las restricciones que optimizó
mediante recocido simulado, determinó que las variables de decisión en este caso el costo fue
igual a 2259$ por 7700 tn esto indica que es menor a comparación de los costos de la voladura de
la mina de yeso y el costo de los parámetros de voladura referente a los bloques de la mina fue de
2974 $ por 7700 tn. Finalmente concluyo que la implementación del modelo mejoraba el costo de
voladura en un 24%.
Nuerali & Osanloo (2018), en su artículo titulado “A regression-tree-based model for
mining capital cost estimation” tuvo como finalidad desarrollar un modelo de estimación para
predecir los costos de capital minero mediante árboles de regresión. La metodología empleada
fue descriptiva y tipo correlacional con un enfoque cuantitativo. Los resultados que obtuvieron al
validar el modelo del árbol de regresión fueron un MAE de 178.5 y un RMSE de 219.36.
Finalmente se concluyen que el modelo es aceptable para predecir los costo de capital mineros y
puede aplicarse en cualquier parte del mundo.
33
Navia et al. (2017), en su artículo de investigación “Análisis del VPN en función de la
tasa de descuento y el costo de remanejo implementando SIMSCHED DBS para una explotación
minera a cielo abierto” de la Universidad Nacional de Colombia, Medellín. Su objetivo fue
desarrollar un análisis de un deposito de cobre y oro e identificar cambios en VPN según la tasa
de descuento y costo de remanejo, su metodología de investigación fue de diseño experimental y
de tipo aplicada. Como resultados obtuvo que la tasa de descuento del proyecto incremento 0.5 es
decir del 5% a15%; para el costo de remanejo obtuvo un valor máximo de 0.5 $/tn y un mínimo
de 0.025, posteriormente obtuvo un valor más rentable para la tasa descuento de 10%
considerando el costo de remanejo siendo así el VPN $1230.026. Finalmente concluyó que la tasa
de descuento óptima es de 10% y el costo de remanejo puede variar ya que este no afecta al flujo
de caja.
Vergara (2015), en su tesis “Modelo de costo basado en actividades para la gestión de
operaciones de una mina subterránea explotada por block caving” para obtener el grado de
magíster en ciencias de la ingeniería de la Pontifica Universidad Católica de Chile. Su objetivo
fue diseñar e implementar un modelo que pueda determinar el costo específico en relación a todas
las actividades operacionales de una faena subterránea, su metodología de investigación fue de
tipo aplicada, diseño experimental y enfoque cuantitativo. Los resultados que obtuvo al implantar
la metodología Activity Based Costing (ABC) es que logro estimar los costos de la operación y
reducir el margen de error a 3,7% referente al costo real, además brinda información de cómo se
construye los costos de cada actividad minera. Finalmente concluyó que el modelo ayuda a tener
una mejor gestión y análisis de las operaciones.
Parra (2011), en su tesis “Construcción de una función de costos operacionales para
producción de cobre” para obtener el grado de magíster en gestión de operaciones de la
Universidad de Chile. Su objetivo fue predecir los costos de operación a través de una función de
34
Comunicación
predicción en la cual se pueda incorporar elementos relevantes en una mina de cobre. Su
metodología fue de diseño experimental, los resultados de la implementación de la función
identificó que las características más sobresalientes en los costos son el % de mineral, el
indicador de dureza, la ley del mineral; recalco que para la extracción a tajo abierto es necesario
considera la cantidad del mineral que se extrajo y la distancia que será transportado y para los
insumos los costos sobresalientes son el acero, consumo de combustible, explosivos, neumáticos,
mano de obra, energía, mantenimiento, reactivos. Finalmente concluyó que la ventaja de la
construcción de la función de costos es que se puede aplicar en cualquier mina de cobre.
35
Capítulo II: Materiales y métodos
2.1.Tipo de estudio
El estudio utilizado en esta investigación es de tipo aplicada, porque utiliza conocimientos
de investigaciones referentes a este estudio, su nivel es explicativo porque busca encontrar la
relación entre las variables de estudio y de diseño cuasi-experimental porque se manipulan
deliberadamente alguna de las variables independientes.
2.2.Unidad de análisis
La Unidad Minera Hinchos se encuentra ubicado en el departamento de Apurímac,
provincia de Andahuaylas, distrito del mismo nombre y centro poblado Huinchos. Presenta una
geología donde sobresale un gran depósito de mineral de hierro como se puede visualizar en la
Figura 48.
Sus coordenadas según WGS84 que se encuentran en la zona 18S son las siguientes:
• Este:679024
• Norte:8484114
El mapa de ubicación se puede visualizar en la Figura 47.
2.3. Población
La población finita son la base de datos de los costos diarios de operación, producción
diaria, la humedad del material y el stripping ratio de la empresa Unidad Minera Huinchos de
todos los años de trabajo.
2.4. Muestra
La muestra es de tipo probabilística con muestreo estratigráfico y está compuesta de la
base de datos de los costos diarios de operación, producción diaria, la humedad del material y el
36
Comunicación
stripping ratio de la empresa Unidad Minera Huinchos desde el 17 de enero del 2022 hasta el 18
de mayo del 2023, son un total de 462 días reportados.
2.5. Instrumentos
• Laptop para el procesamiento de datos.
• Celular para recolección de evidencias.
• Software Excel para almacenamiento de los datos.
• Libreta de apuntes
• Lenguaje de programación Python
• Guías de observación
• Formatos de recolección de datos
• Formatos de validación del modelo
2.6. Control de calidad de los datos: prueba de validez y confiabilidad
Validación de instrumentos: es importante validar los instrumentos de la investigación por
expertos en el área de estudio.
Tabla 1
Expertos validadores
Experto CIP Profesión Dictamen
Gavilan Huaire, Steven Alexander 154397 Ingeniero de minas Validó
2.7. Procedimiento
2.7.1. Etapa preliminar
• Investigación bibliográfica: Buscar las investigaciones referentes al tema para
tener en consideración aquellos puntos resaltantes e importantes.
37
• Descripción de objetivos y metodología: Constitución de objetivos y la
metodología a ser utilizada.
• Estructuración de instrumentos: Análisis documental como técnica y como
instrumento formatos de recolección de datos de los costos operativos diarios.
2.7.2. Etapa de campo
• Recopilación de los datos mediante los formatos y las observaciones del
comportamiento de ellos día a día.
• Monitoreo constante del comportamiento entre las variables de estudio.
• Evaluación con técnicas aritméticas de la proyección de los costos operativos.
2.7.3. Etapa de gabinete
• Revisión de datos: Se realiza el EDA en Python haciendo uso de la librería Pandas,
Numpy, Matplotlib para tener una interpretación visual y funcional del
comportamiento de las variables de estudio.
• Desarrollo de estrategias: Propuesta de un algoritmo de inteligencia artificial,
mediante regresión para determinar los costos operativos diarios.
• Redacción del informe: Organización del informe del estudio final, incluyendo el
modelo encontrado y validarlo con las métricas correctas, los resultados,
conclusiones y recomendaciones.
38
Comunicación
Figura 21
Flujograma del proceso de investigación
Fuente: Adaptado de Metodología en Inteligencia Artificial, por H. Domínguez, 2020.
2.8. Procesamiento de datos
2.8.1. Entendimiento y exploración de los datos
2.8.1.1.Paso 1: Obtención, carga y revisión inicial de datos
Se realiza el cargado de la base de datos en formato CSV UTF-8 (delimitado por comas),
posteriormente se realiza una revisión de estructura de los datos para finalmente realizar una
descripción estadística.
2.8.1.2.Paso 2: Limpieza y preparación de datos
39
En primer lugar se identifican los datos faltantes por columna lo cual están expresadas por
las variables, después de generar un diagrama de Box Plot para visualizar los Outliers para poder
ser tratados mediante criterios técnicos referente al valor de la muestra.
2.8.1.3.Paso 3: Análisis detallado
Después del paso anterior se realiza un estudio de distribución de los datos mediante
gráficas de frecuencia para determinar que tipo de función forma. A continuación se realizan
gráficas de dispersión y una matriz de correlación para visualizar la relación que guardan las
variables.
2.8.1.4.Paso 4: Selección de características relevantes
En este paso se empleó el algoritmo de Radom forest para poder realizar el cálculo de las
características relevantes en el estudio.
2.8.2. Entrenamiento y evaluación de modelos de regresión
2.8.2.1.Paso1: División del conjunto de datos
Se dividen los datos en un conjunto de entrenamiento y un conjunto de prueba. El
conjunto de entrenamiento se utilizará para entrenar el modelo, mientras que el conjunto de
prueba se utilizará para evaluar su rendimiento.
2.8.2.2.Paso2: Escalamiento de los datos de acuerdo al algoritmo
Se escalan los datos, pero de acuerdo a la necesidad del modelo si este lo requiere, para
este estudio según las investigaciones realizadas solamente los modelos de regresión lineal, SVR
y red neuronal requieren del escalamiento.
2.8.2.3.Paso3: Entrenamiento y validación de modelos
Se elige un algoritmo y se entrena con el conjunto de entrenamiento, posteriormente se
definen las métricas y finalmente se realiza una validación cruzada para la sintonización de
40
Comunicación
modelos usando GridSearchCV (técnica de optimización que busca los mejores hiperparámetros
para un modelo, basándose en el rendimiento del mismo durante la validación cruzada) esta
técnica se utiliza con la finalidad de acelerar el entrenamiento y el encontrar los mejores
hiperparámentros para cada modelo.
2.8.3. Comparación entre modelos y conclusiones generales
2.8.4. Paso 1: Comparación de métricas mediante gráfico de barras.
En este paso se representan los valores de todos los modelos de regresión usados con la
finalidad de realizar una mejor interpretación.
2.8.5. Paso 2: Elaboración de conclusiones
Se elaboran las conclusiones correspondientes referentes a cada algoritmo.
2.9. Consideraciones éticas y de rigor
Consideraciones éticas:
Confidencialidad: el registro de datos obtenidos será utilizados de manera confidencial
Transparencia: la presentación de la investigación será honesta.
Respeto a las normas legales y organizacionales: la investigación se llevará a cabo
cumpliendo las regulaciones, políticas y leyes que se aplican.
Consideraciones de rigor:
Validez: el estudio mostrará resultados claros y concisos de acuerdo al objetivo.
Objetividad: los datos obtenidos serán verídicos y concretos con el objetivo
Responsabilidad: el estudio se realizará con principios éticos, considerando los criterios de
la Universidad Nacional de Trujillo.
Honestidad: los datos obtenidos del proceso del estudio serán auténticos y exactos.
2.10. Definición de variables de estudio
La investigación es de diseño cuasi-experimental, descriptivo transversal, canalizando las
41
variables en tiempo determinado, los datos obtenidos en campo se utilizarán para cumplir con los
objetivos trazados en esta investigación.
Este diseño presenta el siguiente esquema:
Donde:
M: Muestra de elementos
XYi: Variables de estudio
P: aplicación del experimento.
Oi: Resultados de la medición de las variables
X: Parámetros operativos (producción, stripping ratio, humedad)
Y: Modelo matemático para pronosticar los costos diarios de operación mina.
42
Comunicación
Capítulo III: Resultados
En este capítulo se recopiló y analizó el conjunto de datos recogidos de las operaciones
con los formatos establecidos. Posteriormente se entrenó y testeo los modelos usados para
pronosticar los costos diarios de operación mina. Finalmente se validó el modelo con métricas
estadísticas. A continuación se presentan los resultados obtenidos en todo el proceso del proyecto
de acuerdo a los objetivos planteados.
3.1.Análisis exploratorio de datos
El Análisis Exploratorio de Datos (EDA, por sus siglas en inglés) es una etapa crucial en
la ciencia de datos que tiene como objetivo comprender la estructura, relaciones y patrones en los
datos antes de aplicar cualquier modelo de regresión. A continuación, se presenta una lista para
llevar a cabo un EDA en un problema de regresión:
3.1.1. Cargar los datos
Antes de empezar con todo el proceso se realiza un análisis exploratorio inicial
cualitativo. Lo primero que se tiene que hacer es revisar la naturaleza de los datos, que
corresponde a las características o columnas presentes en el archivo a importar, revisar el formato
o tipo de dato que tienen. Para cargar los datos se tienen que tener muy en cuenta el formato
como es el caso, se utilizó CSV UTF-8 (delimitado por comas), este procedimiento se realiza
para evitar problemas al momento del reconocimiento de la base de datos por parte de las
librerías de visualización Jupyter (aplicación de código abierto para visualizar códigos de
programación en Python) oh Spyder (entorno de desarrollo integrado multiplataforma de código
abierto para la programación en Python). El conjunto de datos abarca desde el 17 de enero del
2022 hasta el 18 de mayo del 2023, existe un total de 462 datos (filas) y 4 variables (columnas), a
continuación se muestran detalles en la siguiente Tabla 2 de la base de datos que se utilizará:
43
Tabla 2
Base de datos que se utilizará para el desarrollo del modelo
Producción Stripping Humedad Costos diarios de operación

Fecha
diaria (tn) Ratio (%) mina (US$/TN)
17/01/2022 514 0.3 7 2.10
18/01/2022 384 0.2 10.00 1.60
19/01/2022 1244 0.9 4.00 5.10
20/01/2022 516 0.3 6 2.10
21/01/2022 621 0.4 5 2.50
22/01/2022 817 0.6 6 3.30
24/01/2022 997 0.7 5 4.10
25/01/2022 606 0.4 6 2.50
26/01/2022 357 0.2 9 1.50
27/01/2022 360 0.2 9 1.50
Fuente: Adaptado de Unidad Minera Huinchos, por G. Lopez, 2022.
3.1.2. Identificación de inputs y outputs
Es muy importante reconocer las variables que se necesitaran para alimentar los modelos
y cuál es la variable objetiva o respuesta de la investigación, para ello se realiza una estructura
Tabla 3 de las variables de acuerdo al tipo de dato correspondiente.
Tabla 3
Características de las variables de estudio
Tipo de
Variable Condición Dimensión Tipo de dato
variable
44
Comunicación
Producción Inputs Operación Numérica Float
Stripping ratio Inputs Operación Numérica Float
Humedad Inputs Operación Numérica Float
Costos diarios de
Output Operación Target Float
operación mina
3.1.3. Limpieza de datos
Hay que tener en claro que un conjunto de datos casi siempre esta asmero a errores de
digitación y también dentro de la misma base evidenciar la ausencia de datos en cada columna de
variables identificadas; es por ello que se debe realizar una limpieza de datos para tener una
mejor interpretación estadística. En la base de estudios se presenció un error de digitación en la
variable costo diario de operación mina con un valor de 0, este dato se atribuye a una mala
digitación porque no debe existir un valor asi en esta variable. La ausencia de valores nulos no se
evidenciaron en la base de datos como se aprecia en la Figura 22.
Figura 22
Valores nulos
45
3.1.4. Análisis estadístico
La interpretación estadística previa de las variables indica ciertas referencias del
comportamiento de cada variable. A continuación se enumeran cada análisis estadístico:
3.1.4.1.Descripción estadística
Se calcularán la media, mediana, desviación estándar, percentiles, etc., para cada variable
de estudio. En resumen, estos datos proporcionan una visión general de la distribución y
variabilidad de las variables. Sin embargo, se debe tener en cuenta que este es solo el primer paso
y puede ser útil complementar este análisis con visualizaciones y técnicas adicionales de
exploración de datos mediante gráficas. También es importante considerar el contexto específico
del problema y de la industria a la que pertenece. Se presenta un antes en Tabla 4 y un después en
Tabla 5 de realizar las correcciones de los errores en la base de datos, de la descripción estadística
con la finalidad de visualizar el comportamiento que genera dicho cambio.
Tabla 4
Descripción estadística antes de eliminar el error
Costo diario de
Característica Producción
Stripping Ratio Humedad (%) operación mina
estadística (tn/día)
(US$/tn)
count 462.00 462.00 462.00 462.00
mean 1031.92 0.87 5.94 4.97
std 497.14 0.47 2.39 2.37
min 130.00 0.00 0.00 0.00
25% 616.25 0.50 5.00 3.10
50% 1011.00 0.80 5.00 5.00
46
Comunicación
75% 1400.00 1.10 6.00 6.70
max 2484.00 2.500 19.00 12.60
Tabla 5
Descripción estadística después de eliminar el error
Costo diario de
Característica Producción
Stripping Ratio Humedad (%) operación mina
estadística (tn/día)
(US$/tn)
count 461.000000 461.000000 461.000000 461.000000
mean 1031.121475 0.855748 5.941432 4.989805
std 497.378850 0.469869 2.393569 2.365266
min 130.000000 0.000000 0.000000 0.500000
25% 616.000000 0.500000 5.000000 3.100000
50% 1011.000000 0.800000 5.000000 5.000000
75% 1400.000000 1.100000 6.000000 6.700000
max 2484.000000 2.500000 19.000000 12.600000
Para la variable producción, hay una amplia variabilidad, con una desviación estándar
relativamente alta en comparación con la media. Esto sugiere que hay una considerable variación
en la variable producción.
El 'Stripping Ratio' tiene una media de 0.86, lo que indica que el ratio promedio es
cercano a 1. Esto podría ser un indicador de cierta eficiencia en el proceso, pero es importante
considerar otros factores para evaluar su significado.
47
La 'Humedad' tiene un rango que va desde 0% hasta 19%, lo cual es bastante amplio. Esto
sugiere que la humedad puede variar significativamente y puede ser un factor importante a
considerar en el proceso.
Para el 'Costo diario de operación mina', la desviación estándar es alta en comparación
con la media, lo que indica una gran variabilidad en los costos. Esto es un área de interés para la
optimización o el control.
3.1.4.2.Identificación y tratamiento de outliers (atípicos)
Identificar y decidir cómo manejar los valores atípicos que puedan afectar el rendimiento
del modelo de regresión es esencial, este análisis se realizan mediante el diagrama de Box Plot
para tener una mejor visualización de los datos.
Figura 23
Box Plot de los datos antes de ser tratados los outliers
48
Comunicación
Para el tratamiento de los valores atípicos antes de abordarlos, depende en gran medida
del contexto y de los objetivos del análisis o modelo. Aquí se describen algunas consideraciones
generales:
• Eliminar Outliers: Si los valores atípicos son errores de entrada o datos incorrectos, es
posible que se eliminen, ya que pueden distorsionar el análisis o modelo.
• Transformar los datos: En lugar de eliminar los valores atípicos, se puede considerar la
posibilidad de transformar los datos. Por ejemplo, se puede aplicar una transformación
logarítmica o una transformación Box-Cox a los datos para reducir el impacto de los
valores atípicos en el análisis o modelo.
• Modelos robustos: Algunos algoritmos de aprendizaje automático, como las máquinas de
soporte vectorial (SVM) o los árboles de decisión, son inherentemente, robustos ante los
valores atípicos. En este caso, no es necesario eliminarlos.
• Analizar por separado: Otra opción es analizar los datos con y sin valores atípicos para
evaluar cómo afectan a los resultados. Esto puede ayudar a comprender si los valores
atípicos tienen un impacto significativo en las conclusiones.
• Entender el dominio: Es importante considerar el contexto y la naturaleza de los datos.
Algunas veces, los valores atípicos pueden ser representativos de eventos raros, pero
importantes en el dominio y eliminarlos podría no ser apropiado.
Los valores atípicos, en donde tienen mayor presencia es en la variable “Humedad” se
visualiza en la Figura 23 se puede notar la distribución de las cuatro variables de estudio, su
mediana de la variable “Producción” es aproximadamente de 1000 y tienen mayor concentración
de valores en el rango de 600 a 1400. También se muestran la frecuencia de esos valores
encontrados. Se considera como una variable que no intervienen mucho en la determinación del
modelo a la “Humedad” y tienen una varianza mínima al momento de realizar la validación del
49
modelo, es por ello que se procede a eliminar esos valores atípicos.
Tabla 6
Valores atípicos
Variable Cantidad de valores atípicos
Stripping ratio 2
Humedad 11
Costos diarios de operación mina 2
Producción 0
Tabla 7
Descripción estadística posterior al tratamiento de valores atípicos
Características Producción Stripping Costo

Humedad (%)
estadísticas (tn/día) ratio (US$/tn)
count 367.00 367.00 367.00 367.00
mean 1058.62 0.90 5.05 5.14
std 490.26 0.47 0.73 2.25
min 130.00 0.00 4.00 0.70
25% 635.00 0.60 5.00 3.40
50% 1050.00 0.80 5.00 5.10
75% 1400.00 1.20 5.00 6.70
max 2484.00 2.50 7.00 12.60
50
Comunicación
Figura 24
Frecuencia de los valores atípicos
Figura 25
Box plot posterior a la eliminación de los valores atípicos
51
3.1.4.3.Distribución de los datos
La distribución se realiza mediante los gráficos de histogramas y elección de la
distribución de probabilidad más adecuada para ajustar los datos, puede tener implicaciones
importantes al realizar una regresión. Aquí hay algunas consideraciones:
• Modelo de regresión: La elección de la distribución más adecuada puede influir en el tipo
de modelo de regresión a elegir. Por ejemplo, si se encuentra que la distribución más
adecuada es la gamma para la variable "Costo (US$/TN)", se pueden considerar modelos
de regresión basados en la distribución gamma, como la regresión gamma generalizada. Si
la distribución más adecuada es la lognormal, se podrían explorar modelos de regresión
lognormal.
• Precisión del modelo: Ajustar los datos a una distribución que se asemeje más a la
realidad puede mejorar la precisión del modelo de regresión. Cuando se utiliza una
distribución adecuada, es más probable que los parámetros del modelo sean estimaciones
precisas de los verdaderos parámetros subyacentes de la población.
• Predicciones más precisas: Utilizar una distribución que se ajuste bien a los datos puede
llevar a predicciones más precisas en el modelo de regresión. Esto es especialmente
importante si se planea realizar predicciones fuera del rango de datos observados.
• Interpretación de parámetros: La elección de la distribución también puede afectar la
interpretación de los parámetros del modelo. Cada distribución tiene su propia
interpretación de los parámetros, por lo que es importante comprender cómo se relacionan
con tu problema específico.
Las distribuciones con representación de diagramas de frecuencia y el tipo que generan
los datos se visualizan en la Figura 26.
52
Comunicación
Figura 26
Distribución de frecuencia de las variables
En los análisis de los gráficos de Q-Q(quantile-quantile) es util para verificar que tipo de
distribución sigue cada variable si es teórica oh normal. En un Q-Q plot, los cuantiles observados
de tus datos se representan en el eje vertical, mientras que los cuantiles teóricos de la distribución
de referencia se representan en el eje horizontal. Si los puntos en el gráfico están cerca de una
línea diagonal, indica que tus datos se ajustan bien a la distribución teórica.
Para analizar los gráficos Q-Q plot se debe observar cómo se comportan los puntos en
relación con la línea diagonal. Aquí hay algunas pautas generales para interpretar los resultados:
• Puntos cerca de la línea diagonal: Indica que tus datos se ajustan bien a la
53
distribución teórica.
• Puntos por encima de la línea diagonal: Tus datos tienen colas más pesadas que la
• Puntos por debajo de la línea diagonal: Tus datos tienen colas más ligeras que la
• Curvatura hacia arriba o hacia abajo: Sugiere que tus datos no se ajustan bien a la
distribución teórica especificada.
La elección de la distribución de probabilidad más adecuada para ajustar los datos puede
tener implicaciones importantes al realizar una regresión. Algunas consideraciones incluyen:
• Modelo de regresión: La elección puede influir en el tipo de modelo a elegir.
• Precisión del modelo: Ajustar los datos a una distribución adecuada puede mejorar
la precisión.
• Predicciones más precisas: Una distribución adecuada conduce a predicciones más
acertadas.
• Interpretación de parámetros: La elección de la distribución afecta la interpretación
de los parámetros del modelo.
En este caso en particular, la distribución más adecuada para la variable "Costo (US/TN)"
es la gamma, lo que tiene implicaciones en la elección y evaluación del modelo de regresión.
Dada la cantidad de datos, es posible que la distribución esté submuestrada. Los modelos
seleccionados se justifican de la siguiente forma:
• Modelo Lineal (LinearRegression): Apropiado si las relaciones son
aproximadamente lineales y los errores son aproximadamente normales.
• Árbol de decisión (Decision Tree): Flexible y puede adaptar relaciones no
54
Comunicación
Figura 27
Gráfica Q-Q Plot
55
lineales y complejas.
• Random Forest (RandomForestRegressor): Menos propenso al sobre ajuste y
proporciona importancia de las características.
• Máquina de Vectores de Soporte (SVR): Potente en modelar relaciones no
lineales.
• Gradient Boosting (GradientBoostingRegressor): Capaz de modelar relaciones
complejas y no lineales.
• Perceptrón Multicapa (MLP): Capaz de aprender representaciones de datos
complejas.
La elección de estos modelos se basa en las distribuciones de las variables, pero es
esencial realizar pruebas adicionales y evaluaciones del modelo para determinar su adecuación.
Como se puede observar en la Figura 27 todas las variables tienen un comportamiento
normal referente a sus datos y por lo mencionado líneas arriba a cada algoritmo de estudio no es
necesario realizar ninguna transformación porque pueden trabajar con esta distribución sin
ningún problema, pero siempre es importe de su conocimiento.
3.1.4.4.Correlación de variables
Mediante una matriz de correlación y un gráfico de dispersión se puede distinguir la
correlación entre las variables de estudio para poder comprender el comportamiento de sus datos.
Desde este punto es importante tener en cuenta ya un conocimiento general para aplicar
adecuadamente el modelo de predicción a emplear.
Tienen una distribución bien marcada las variables de producción y costos diarios de
operación a comparación de las demás relaciones que son muy dispersa que se puede vizualizar
en la Figura 28.
56
Comunicación
Figura 28
Gráfica de dispersión de los datos
Este gráfico va indicando la relación más óptima entre la variable respuesta y las variables
de entrada para identificar la tendencia de la mejor correlación y así poder aplicar nuestro
conocimiento en el análisis estadístico en la base a los datos. Como se puede observar en la
Figura 29 hay un comportamiento interesante entre la varible “Costos diarios de operación mina
57
(US$/tn) y la variable producción con un valor del 91%.
Figura 29
Matriz de correlación entre variables
3.2.Determinación de la variable independiente más relevante
Para poder identificar la variable de entrada de mayor relevancia se utilizó la técnica de
selección de características. El uso del modelo Random Forest Regressor para determinar la
importancia de las características es una práctica común y ampliamente aceptada en el análisis de
datos y la ciencia de datos. Existen varias razones que justifican el uso de este algoritmo, se
58
Comunicación
detallan a continuación.
• Intuitividad: La importancia de las características del Random Forest se calcula
basándose en la frecuencia con la que un atributo se utiliza para dividir los datos y cuánto
mejora la impureza (por ejemplo, la varianza en el caso de regresión) en esos splits.
Intuitivamente, si un atributo es a menudo seleccionado para dividir y cuando lo hace,
crea splits que son altamente "puros", ese atributo es probablemente muy importante.
• No linealidad e interacciones: A diferencia de la regresión lineal, que supone relaciones
lineales y no captura interacciones a menos que se especifiquen explícitamente, Random
Forest puede capturar automáticamente no linealidades e interacciones entre
características. Esto significa que la importancia de las características que obtenemos
refleja estas complejidades.
• Robustez frente a variables irrelevantes: Si se incluyen características que son puramente
ruidosas o irrelevantes, un Random Forest tiende a no sobre ajustarse a estas
características y su importancia resultante será baja.
• Consistencia: Mientras que un único árbol puede ser muy variable y por lo tanto,
proporcionar una importancia de características que puede cambiar considerablemente con
pequeñas variaciones en los datos, un Random Forest, al promediar a través de muchos
árboles, tiende a ser más estable y proporciona una visión más confiable de la importancia
de las características.
• No requiere supuestos estrictos: A diferencia de otros métodos, como la regresión lineal
que tiene supuestos sobre la distribución de los errores, la homoscedasticidad, entre otros
Random Forest no tiene supuestos tan estrictos.
• Importancia basada en el Out-of-Bag (OOB) error: Random Forest tiene una ventaja única
durante el entrenamiento, aproximadamente un tercio de los datos no se utilizan para
59
construir cada árbol (estos datos son conocidos como datos "out-of-bag" o OOB). Estos
datos OOB se pueden usar para obtener una estimación imparcial del error de predicción y
por lo tanto, proporcionar una medida de importancia de características basada en el
decrecimiento en precisión cuando los valores de una característica en particular son
aleatorizados.
Basándonos en los resultados de la importancia de características obtenidos del modelo
Random Forest los resultados se pueden apreciar en la Tabla 8.
Tabla 8
Importancia de las variables independientes en el estudio
Variable independiente Importancia
Stripping ratio 0.08
Humedad 0.02
Producción 0.90
3.3.Entrenamiento y testeo del modelo
Posteriormente al análisis de los datos, el paso siguiente es la construcción de los modelos
de regresión. Para poder construir un modelo de regresión se deben tener en cuenta lo siguiente:
• División del conjunto de datos: Dividir los datos en un conjunto de
entrenamiento(train=80%) y un conjunto de prueba (test=20%). El conjunto de
entrenamiento se utilizará para entrenar el modelo, mientras que el conjunto de prueba se
utilizará para evaluar su rendimiento.
• Escalamiento de los datos: El escalamiento depende mucho del comportamiento del
algoritmo frente a las diferentes escalas de las variables, en muchos de los casos no
interviene y difieren algunos algoritmos de este procedimiento.
60
Comunicación
• Entrenamiento del modelo: Elegir un algoritmo de regresión (por ejemplo, Regresión
Lineal, Random Forest Regressor, etc.) y entrenar el modelo utilizando el conjunto de
entrenamiento.
Para generar modelos con resultados muy satisfactorios para cada modelo se utilizó
GridSearchCV. El GridSearchCV es una técnica de optimización que busca los mejores
hiperparámetros para un modelo, basándose en el rendimiento del mismo durante la validación
cruzada. Su funcionamiento se describe a continuación:
• Definir el espacio de búsqueda: Antes de usar GridSearchCV, decides qué
hiperparámetros del modelo deseas optimizar y qué valores quieres probar para cada uno.
Esto se conoce como espacio de búsqueda.
• Validación Cruzada: GridSearchCV utiliza la validación cruzada para evaluar el
rendimiento del modelo con cada combinación de hiperparámetros. En la validación
cruzada, el conjunto de datos de entrenamiento se divide repetidamente en un conjunto de
entrenamiento y un conjunto de validación. El modelo se entrena con el conjunto de
entrenamiento y se evalúa con el conjunto de validación. Esto se repite varias veces.
• Seleccionar la mejor combinación: Después de evaluar todas las combinaciones,
GridSearchCV selecciona los hiperparámetros que dieron el mejor rendimiento en
promedio durante la validación cruzada.
• Entrenamiento final: Una vez identificados los mejores hiperparámetros, GridSearchCV
reentrena el modelo en todo el conjunto de datos de entrenamiento usando estos
hiperparámetros óptimos.
En resumen, GridSearchCV es una herramienta que realiza una búsqueda exhaustiva sobre
un conjunto predefinido de hiperparámetros para encontrar la combinación óptima, basándose en
el rendimiento del modelo durante la validación cruzada.
61
3.3.1. Regresión Lineal
Es importante escalar los datos cuando se utiliza regularización (por ejemplo, Ridge o
Lasso), ya que estos métodos son sensibles a la escala de las características. Si no se está
utilizando regularización, la Regresión Lineal puede funcionar bien sin escalar los datos. Sin
embargo, la escala adecuada de las características puede ayudar en la interpretación de los
coeficientes.
Se designó los hiperparámetrosTabla 9 y luego mediante la técnica GridSearchCV se
elegirá a la mejor Tabla 10.
Tabla 9
Hiperparámetros designados para Regresión Lineal
Fit intercep
True
False
Tabla 10
Hiperparámetros elegidos por GridSearchCV para Regresión Lineal
Fit intercep
False
Tabla 11
Resultados luego de aplicar el modelo de Regresión Lineal
Muestra Real Estimado Error
62
Comunicación
0 8.4 7.720798 -0.679202
1 4.3 4.973580 0.673580
2 2.3 3.025698 0.725698
3 4.1 3.982684 -0.117316
4 3.4 4.263192 0.863192
Los resultados como se pueden observar Tabla 11 y Figura 30 tienen un error positivo y
negativo muy latente acercándose a la unidad.
Figura 30
Representación gráfica luego de aplicar el modelo de regresión lineal
63
3.3.2. Árbol de decisión
Insensible a la normalización y a la estandarización del conjunto de datos, principalmente
este modelo genera decisiones consecutivas y no utiliza regularización.
Se designó los hiperparámetros Tabla 12 y luego mediante la técnica GridSearchCV se
eligirá a la mejor combinación posible Tabla 13 y Tabla 10.
Tabla 12
Hiperparámetros designados para Árbol de Decisión
Hiperparámetros Árbol de Decisión
Max _depth None 5 10 15 20
min_samples_split 2 5 10 - -
min_samples_leaf 1 2 4 - -
splitter best random - - -
Tabla 13
Hiperparámetros elegidos por GridSearchCV para Árbol de Decisión
Hiperparámetros Árbol de Decisión
Max _depth None - - - -
min_samples_split - - 10 - -
min_samples_leaf - - 4 - -
splitter - random - - -
Los resultados muestran un alejamiento de cero considerado en la representación de las
primeras 5 muestra como se observa en la Tabla 14 y la Figura 31.
64
Comunicación
Figura 31:
Representación gráfica luego de aplicar el modelo del Árbol de Decisión
Tabla 14
Resultados luego de aplicar el modelo del Árbol de Decisión
0 8.4 7.342857 -1.057143
1 4.3 5.130000 0.830000
2 2.3 2.460000 0.160000
3 4.1 3.966667 -0.133333
4 3.4 3.966667 0.566667
3.3.3. Random Forest
No es sensible a la escala de las características presentes de cada variable dentro de sus
datos.
65
Se designó los cinco hiperparámetros Tabla 12 y luego mediante del uso de la técnica
GridSearchCV se adaptaron 5 pliegues para cada uno de los 216, con un total de 1080 ajustes y
dentro de ellos eligió la mejor combinación posible Tabla 16 y Tabla 10.
Tabla 15
Hiperparámetros designados para Random Forest
Hiperparámetros Random Forest
N_estimators 50 100 200 -
max_depth none 10 20 30
min_samples_leaf 1 2 4 -
min_samples_split 2 5 10 -
bootstrap True False - -
Tabla 16
Hiperparámetros elegidos por GridSearchCV para Random Forest
Hiperparámetros Random Forest
N_estimators - - 200 -
max_depth none - - -
min_samples_leaf - - 4 -
min_samples_split 2 - - -
bootstrap True - - -
Los resultados estimados que se puede apreciar en la Tabla 17 y Figura 32 muestran un
sensible alejamiento de los valores reales.
66
Comunicación
Tabla 17
Resultados luego de aplicar el modelo de Random Forest
0 8.4 7.681460 -0.718540
1 4.3 5.088107 0.788107
2 2.3 2.721059 0.421059
3 4.1 3.849215 -0.250785
4 3.4 4.321603 0.921603
Figura 32
Representación gráfica luego de aplicar el modelo de Random Forest
3.3.4. Máquinas de Vector Soporte (SVR)
Es un algoritmo que utiliza distancias entre puntos de datos en el espacio de sus
características, por lo que es importante escalar los datos para que todas las características
contribuyan de manera equitativa al modelo. Especialmente si se utiliza un kernel lineal, la escala
67
de las características es crítica.
Se designarán los cinco hiperparámetros Tabla 18 y luego mediante del uso de la técnica
dentro de ellos eligió la mejor combinación posible Tabla 19
Tabla 18
Hiperparámetros designados para Máquinas de Vector Soporte
Hiperparámetros SVR
c 0.1 1 10 100 -
kernel linear rbf poly - -
gamma auto scale 0.01 0.1 1
Coef0 -1 0 1 - -
degree 2 3 4 - -
Tabla 19
Hiperparámetros elegidos por GridSearchCV para Máquinas de Vector Soporte
Hiperparámetros SVR
c 0.1 - - - -
kernel - - poly - -
gamma - scale - - -
Coef0 - - 1 - -
degree 2 - - - -
Muestra un comportamiento del error en los primeras 5 muestras no muy lejos de cero, en
68
Comunicación
la Figura 33 y Tabla 20, refleja que el modelo tiene un comportamiento resaltante.
Tabla 20
Resultados luego de aplicar el modelo del SVR
0 8.4 7.538657 -0.861343
1 4.3 4.933673 0.633673
2 2.3 3.000377 0.700377
3 4.1 4.181089 0.081089
4 3.4 4.385198 0.985198
Figura 33
Representación gráfica luego de aplicar el modelo del SVR
3.3.5. Gradient Boosting
No es especialmente sensible a la escala de las características. En general, no es necesario
escalar los datos para utilizar Gradient Boosting. Sin embargo, si utilizamos características con
69
diferentes escalas, es posible que se desee considerar la estandarización para asegurarse de que el
modelo pueda aprender de manera eficiente.
Se designó los cinco hiperparámetros Tabla 21 y luego mediante del uso de la técnica
dentro de ellos eligió la mejor combinación posible Tabla 22.
Tabla 21
Hiperparámetros designados para Gradient Boosting
Hiperparámetros Gradient Boosting
n_estimators 50 100 200 -
max_depth 3 4 5 6
learning_rate 0.01 0.05 0.1 -
subsample 0.8 0.9 1 -
min_samples_split 2 3 4 -
min_samples_leaf 1 2 3 -
Tabla 22
Hiperparámetros elegidos por GridSearchCV para Gradient Boosting
Hiperparámetros Gradient Boosting
n_estimators - 100 - -
max_depth 3 - - -
learning_rate - 0.05 - -
subsample - - 1 -
70
Comunicación
min_samples_split 2 - - -
min_samples_leaf 1 - - -
Los resultados reflejados en Tabla 23 y Figura 34 son favorables porque los errores son
pequeños valores que son apropiados para generar buenas conclusiones.
Tabla 23
Resultados luego de aplicar el modelo de la Gradient Boosting
0 8.4 7.723188 -0.676812
1 4.3 5.086317 0.786317
2 2.3 2.779455 0.479455
3 4.1 3.943612 -0.156388
4 3.4 4.327463 0.927463
Figura 34
Representación gráfica luego de aplicar el modelo de la Gradient Boosting
3.3.6. Red neuronal perceptrón
71
Para realizar este modelo si es necesario el escalamiento de datos con la finalidad de
evitar sobre ajustes al momento de realizar las predicciones. El modelo presentado es un
Perceptrón Multicapa desarrollado con Keras, diseñado para abordar problemas de regresión.
Consta de dos capas ocultas: la primera tiene 50 neuronas y la segunda 25, ambas con la función
de activación ReLU. Para combatir el sobreajuste, se incorpora una regularización L2 en las
capas y se utiliza Dropout, desactivando aleatoriamente el 20% de las neuronas durante el
entrenamiento. La capa de salida es densa con una única neurona, ideal para tareas de regresión.
El modelo se compila con el optimizador Adam y utiliza el Error Cuadrático Medio (MSE) como
función de pérdida. Se utiliza el método fit para entrenar el modelo en los datos de
entrenamiento. Se definen 40 épocas y un tamaño de lote de 32. Los datos de validación (en este
caso, los datos de prueba) se pasan para monitorizar la pérdida en un conjunto de datos que el
modelo no ha visto durante el entrenamiento.
Tabla 24
Resultados luego de aplicar el modelo de una Red neuronal perceptrón
0 8.4 4.914339 -3.485661
1 4.3 5.167977 0.867977
2 2.3 5.302735 3.002735
3 4.1 5.349960 1.249960
4 3.4 9.417115 6.017115
72
Comunicación
Figura 35
Representación gráfica de la Red Neuronal Perceptrón
Los resultados como se muestran en la Tabla 24 y Figura 35 tiene errores muy elevados y
está totalmente diferenciada del los demás modelos por la existencia de estos márgenes al
predecir el costo diario de operación mina.
Figura 36
Perdida durante el entrenamiento de la Red neuronal perceptrón
73
La Figura 36 representa la evolución de la pérdida (loss) y la pérdida de validación
(val_loss) a lo largo de las épocas durante el entrenamiento del modelo. Se describen las
observaciones a continuación:
• Tendencia general: Ambas pérdidas, tanto la del conjunto de entrenamiento como
la de validación, muestran una tendencia decreciente, lo que indica que el modelo
está aprendiendo y mejorando su capacidad predictiva a medida que se entrena.
• Diferencia entre pérdida y pérdida de validación: Inicialmente, la pérdida en el
conjunto de entrenamiento es mayor que en el conjunto de validación. Sin
embargo, esta diferencia se va reduciendo a medida que avanzan las épocas hacia
el final del entrenamiento, la pérdida en el conjunto de entrenamiento es
ligeramente menor que la pérdida de validación. Esta es una señal positiva porque
indica que el modelo no está sobre ajustando los datos, es decir, no está
memorizando el conjunto de entrenamiento a expensas de su capacidad de
generalización.
• Planteamiento en la pérdida de validación: Si bien la pérdida de validación sigue
disminuyendo, la tasa de reducción disminuye hacia el final, lo que sugiere que el
modelo podría estar empezando a alcanzar su límite de mejora en el conjunto de
validación. No obstante, aún no vemos un claro signo de sobre ajuste, ya que no
hay un aumento significativo en la pérdida de validación.
3.4. Validación del modelo
Finalmente cada modelo generado es validado mediante métricas que ayudan en dicha
evaluación para verificar cual de los modelos entrenados es el que se comporta mejor y tienen
mejores resultados. Para ello presentaremos cada modelo con sus valores de sus métricas que
74
Comunicación
obtuvieron luego del entrenamiento y el testeo.
Tabla 25
Resultados de las métricas del modelo de Regresión Lineal
Varianza Error
Tipo de datos MSE RMSE R2 MAE
explicada máximo
Entrenamiento 0.85519 0.92477 0.83964 0.83971 4.97475 0.63872
Testeo 0.77711 0.88154 0.79177 0.80513 3.74992 0.62705
Tabla 26
Resultados de las métricas del modelo de Árbol de Decisión
Varianza Error
explicada máximo
Entrenamiento 0.78066 0.88355 0.85362 0.85362 4.7 0.60602
Testeo 0.80011 0.89449 0.78561 0.79208 3.3 0.64060
Tabla 27
Resultados de las métricas del modelo de Random Forest
Varianza Error
explicada máximo
Entrenamiento 0.58048 0.76189 0.89115 0.89117 4.23315 0.52392
Testeo 0.69785 0.83537 0.81301 0.82108 3.33390 0.59045
75
Tabla 28
Resultados de las métricas del modelo de SVR
Varianza Error
explicada máximo
Entrenamiento 0.88576 0.94115 0.83391 0.83412 4.53663 0.73819
Testeo 0.78210 0.88436 0.79043 0.80722 3.33409 0.69946
Tabla 29
Resultados de las métricas del modelo de Gradient Boosting
Varianza Error
explicada máximo
Entrenamiento 0.45018 0.67095 0.91559 0.91559 3.75276 0.49108
Testeo 0.78675 0.88699 0.78919 0.79877 3.24154 0.64200
Tabla 30
Resultados de las métricas del modelo de Red Neuronal Perceptrón
Varianza Error
explicada máximo
Entrenamiento 6.87087 2.62123 -0.28836 -0.28574 7.62769 2.15447
Testeo 4.83640 2.19918 -0.29592 -0.27194 5.76848 1.80299
Para tener mejor la visión de las métricas de validación de los modelos durante el
entrenamiento y posterior al testeo se representarán gráficamente para tener una mejor
interpretación.
76
Comunicación
Figura 37
Comparación del valor de la métrica de R2 de todos los modelos
Figura 38
Comparación del valor de la métrica de MSE de todos los modelos
77
Figura 39
Comparación del valor de la métrica de RMSE de todos los modelos
Figura 40
Comparación del valor de la métrica de Varianza Explicada de todos los modelos
78
Comunicación
Figura 41
Comparación del valor de la métrica de Error Máximo de todos los modelos
Figura 42
Comparación del valor de la métrica de MAE de todos los modelos
79
Tabla 31
Resultados del valor real vs valor estimado
0 8.4 7.723188 -0.676812
1 4.3 5.086317 0.786317
2 2.3 2.779455 0.479455
3 4.1 3.943612 -0.156388
4 3.4 4.327463 0.927463
En la Tabla 31 se visualizan los valores reales y los estimados por el mejor modelo
encontrado el Gradient Boosting, este modelo arroja los mejores resultados a comparación del
resto.
80
Comunicación
Capítulo IV: Análisis y discusión
Según Castillo (2022), en su trabajo de investigación, en donde hace hincapié en la importancia
del análisis previo antes del uso de cualquier algoritmo, con la finalidad de visualizar el
comportamiento de los datos, de acuerdo a ello en mi investigación se logró analizar los datos y
esto me ayudó a tomar mejores decisiones al momento de elegir un modelo, obteniendo asi un
mejor desempeño del modelo con un valor del 5% por encima del modelo creado por anomalías.
También se logró encontrar una correlación bien marcada del 91% entre las variables produción y
costos diarios de operación mina.
Se logro en mi investigación determinar el porcentaje de incidencia de cada una de las
variables mediante Regresión Lineal la variable de producción tuvo un valor del 80%, con
Random Forest un valor de 91% y con Gradient Boosting un valor de 93% de influencia para
predecir los costos diarios de operación mina. Siendo así el algoritmo de Gradient Boosting el
más representativo para determinar la importacia de las variable que perimitará predecir los
costos diarios de operación mina. Según Castillo (2022), en su investigación tambien identifica
las variables que más incidencia tienen en su modelo mediante el algoritmo de Random Forest y
Gradient Boosting, obteniendo así los mejores resultados con la Grandient Boosting.
Nuerali & Osanloo (2018), en su artículo de investigación encontró un modelo de Árbol
de Decisión para estimar el costo de capital minero, este algoritmo les arrojó las siguientes
métricas, el RMSE tuvo un valor de 219.36 y el MAE un valor de 178.5, por lo cual concluyeron
que su modelo puede ser aplicado en cualquier mina. En el caso de mi investigación se realizó
una evaluación de la Figura 37, Figura 38, Figura 39, Figura 40, Figura 41y Figura 42 las cuales
representan las métricas, producto de la validación cruzada usando GridSearchCV en todos los
algoritmos de entrenamiento y prueba, el algoritmo más representativo que brindó mejores
81
resultados fue el Gradiente Boosting con un coeficiente de determinación (R2) superior al 92% en
entrenamiento y 78% en prueba, un MAE de 0.49 y un RMSE de 0.67; estos valores refleja que
este modelo es el idóneo para la predicción de los costos diarios de operación mina. Se afirma
también que los modelos de Regresión Lineal, Árbol de Decisión y Random Forest aplicados en
esta investigación, de acuerdo a la evaluación de sus métricas pueden ser considerados también,
porque sus coeficientes de determinación son superiores al valor de 70% que se plantea como un
objetivo en esta investigación.
Carbajal (2021), implemento un modelo de costos para una mina, partiendo de la
recolección de datos y el análisis de toda la operación, dicho modelo fue una herramienta de
apoyo en la planificación. Asimismo Vargas (2015), creó un modelo ABC para los costos basado
en actividades de gestión de la operación minera, dicho modelo generó un error del 3.7%.
Además Parra (2011), construyó una función translogarítmica de costos operacionales y tuvo
como objetivo definir el costo mínimo según el nivel de producción e identificó que la variable
más importante fue los costos de producción en la evaluación económica de un proyecto minero.
En mi investigación el uso de la inteligencia artificial brinda una nueva perspectiva porque no fue
empleada anteriormente para predecir los costos diarios de operación mina, pero si se empleó
otros tipos de modelos, de acuerdo a toda la investigación, análisis y evaluación se determinó que
el mejor modelo para predecir los costos diarios de operación mina fue el Grandient Boosting con
un coeficiente de determinación (R2) de 93%.
82
Comunicación
Capítulo V: Conclusiones
El análisis exploratorio de datos me permitió encontrar y tratar los valores atípicos que
fueron un 20% del total, con la finalidad de generar un modelo predictivo óptimo y también se
obtuvo un mejor modelo de predicción con un valor del 5% más con respecto al modelo con
anomalías.
Se logró identificar la variable que más contribuye en la predicción de los costos diarios
de operación mina aplicando los algoritmos de inteligencia artificial fue la producción con un
valor del 93 % aplicando Gradient Boosting y 91% aplicando Random Forest.
Se concluye que el modelo de Machine Learning encontrado para predecir el “costo diario
de operación mina en Unidad Minera Huinchos fue el Gradiente Boosting con un coeficiente de
determinación (R2) mayor al 92% y un RMSE de 0.67 siendo así el más favorable para cumplir
con el objetivo de estudio.
Finalmente concluye que el modelo de predicción más notable mediante las validaciones
correspondientes se destaca el Gradient Boosting para estimar los costos diarios de operación
mina. Este modelo permitirá corregir y ajustar a tiempo los parámetros operativos de la mina, si
el costo diario de operación mina no es el esperado, con la finalidad de mantener la rentabilidad
de la Unidad Minera Huinchos.
83
Capítulo VI: Recomendaciones
Se recomienda que antes de entrenar un modelo de regresión se debe realizar un análisis
exploratorio de datos para evitar posibles sobre estimaciones del modelo encontrado.
Se recomienda designar cierto porcentaje de 80% y 20% de base de datos par entrenar y
validar respectivamente el modelo.
Para generar un modelo más robusto con buenos resultados, se recomienda considerar más
variables independientes que contribuyan en la predicción del costo diario de operación mina.
Gracias a los resultados obtenidos se recomienda el uso de la Gradient Boosting para
predecir los costos diarios de operación mina solamente para la Unidad Minera Huinchos, porque
otras unidas cuentan con parámetros operativos diferentes.
En la industria minera es de gran importancia el control de los costos diarios operativos de
mina, porque permiten que haya una mejor rentabilidad de la mina, se sabe que la gran mayoría
de las empresas mineras no tienen en cuenta la predicción de los costos diarios operativos, ante
este problema se recomienda la aplicación de inteligencia artificial a este campo para tomar
medidas correctivas a tiempo.
Para trabajos futuros se recomienda tener la precisión adecuada en la toma de datos para
generar modelos más representativos y conocer el funcionamiento de los algoritmos de
inteligencia artificial con la finalidad de predecir los costos diarios de operación mina que ayudan
a tomar decisiones al momento de optimizar las operaciones.
84
Comunicación
Capítulo VII: Referencias bibliográficas
Aghajani, B., Mokhtari, H., Hakimiyan, M., & Bakhshandeh, H. (2019). Application of simulated
annealing for optimization of blasting costs due to air overpressure constraints in open-pit
mines. Journal of Mining and Environment (JME), 903-916.
Alonso, T. (2021). Análisis de herramientas para el estudio de técnicas de aprendizaje
automático. Madrid: Universidad de Alcalá. Escuela Politécnica Superior.
doi:10017/49663
Ambar, J. (2023). Los 10 usos principales de la Inteligencia Artificial en la minería. Mining
digital, 1-5.
Betancourt, D. (06 de Octubre de 2023). Cómo hacer un diagrama de dispersión: Ejemplo en
calidad. Obtenido de Igenio Empresa: www.ingenioempresa.com/diagrama-de-dispersion.
Bobadilla, S. J. (2020). Machine Learning y Deep Learning. Madrid: Grupo editorial Rama.
Callejas, I., Piñeros, J., Rocha, J., Hernández, F., & Delgado, F. (2013). Implementación de una
red neuronal artificial tipo SOM en una FPGA para la resolución de trayectorias tipo
laberinto. II International Congress of Engineering Mechatronics and Automation
(CIIMA), 1-6.
Carvajal, J. (2021). Implementación de un modelo de costos operacionales para Minera
Centinela. Tesis de pregrado, Universidad de Chile, Departamento de ingenieria de minas,
Santiago de Chile.
Castillo, Ó. (2022). Desarrollo de modelos predictivos de regresión en la industria minera
mediante el uso de algoritmo de Machine Learning. Tesis para optar el título profesional
de ingeniero de minas, Universidad Nacional Mayor de San Marcos, Facultad de
85
ingeniería geológica, minera, metalúrgica y geográfica; Escuela profesional de ingenieria
de minas, Lima.
Cueva, V. (2022). Control de tiempos improductivos mediante el modelo de regresión lineal para
mejorar la productividad en el proceso de acarreo en la empresa OPEMIP S.A.C. – U.M.
San Rafael. Tesis de pregrado, Universidad Tecnológica de Perú, Departamento de
ingeniería de minas, Arequipa.
Dougall, A. (2015). Identification of key performance areas and indicators in the southern
African underground coal mining delivery environment . 26th Annual General Meeting &
Conferenc.
Duran, S. (16 de Setiembre de 2022). Que son los costos operativos y ejemplos. Obtenido de
Docu Sing: https://www.docusign.mx/blog/costos-operativos
Horber, E., & Ladiray, D. (1995). Análisis Exploratorio de los datos. Caracas: I Seminario de
Capacitación de docentes en “Producción y tratamiento de datos de Investigación en
ciencias humanas”.
Jenni, A. M., & Chris, J. (2019). Machine Learning in medicine: a practical introduction. BMC
Medical Research Methodology, 64. doi:10.1186/s12874-019-0681-4
Joaquín, R. (1 de Octubre de 2020). Árboles de decisión con Python: regresión y clasificación.
Obtenido de Ciencia de datos:
https://cienciadedatos.net/documentos/py07_arboles_decision_python
Joaquín, R. (1 de Diciembre de 2020). Máquinas de Vector Soporte (SVM) con Python. Obtenido
de Ciencia de datos: https://cienciadedatos.net/documentos/py24-svm-python
Joaquín, R. (1 de Octubre de 2020). Regresion lineal con Python . Obtenido de Ciencia de datos:
https://www.cienciadedatos.net/documentos/py10-regresion-lineal-python.html
86
Comunicación
Joaquín, R. (1 de Setiembre de 2023). Gradient Boosting con Python. Obtenido de Ciencia de
datos: https://cienciadedatos.net/documentos/py09_gradient_boosting_python
Joaquín, R. (1 de Setiembre de 2023). Random Forest con Python. Obtenido de Ciencia de datos:
https://cienciadedatos.net/documentos/py08_random_forest_python
Mcleod, S. (2023). Diagrama de caja explicado: interpretación, ejemplos y comparaciones.
Simply Psychology, 1-11.
Navia, C., Monsalve, M., & Franco, G. (2017). Análisis del VPN en función de la tasa de
descuento y el costo de remanejo implementando SIMSCHED DBS para una explotación
minera a cielo abierto. Boletín de ciencias de la tierra, 80-85.
Nuerali, H., & Osanloo, M. (2018). A regression-tree-based model for mining capital.
International Journal of Mining, Reclamation and Environment,, 1-13.
Ospina, J., Osorio, J., Henao, Á., Palacio, D., & Giraldo, J. (2020). Challenges and Opportunities
for the Mining Industry as a Potential Driver of Development in Colombia. Tecnológicas,
23(50).
Parra, A. (2011). Construcción de una función de costos operacionales para producción de
cobre. Tesis de maestría, Universiad de Chile, Facultad de ciencias físicas y matemáticas ,
Santiago de Chile.
Parra, J. (2002). Análisis exploratorio y análisis confirmatorio de datos. Espacio Abierto, 11(1),
115-124.
Pistilli, M. (17 de Mayo de 2023). Stripping Ratios: What are They and Why are They Important?
(Updated 2023). Obtenido de Investing News Network:
https://investingnews.com/daily/resource-investing/base-metals-investing/copper-
investing/strip-ratio-western-copper-gold-nemaska-lithium/
87
Raissi, M., Perdikaris, P., & Karniadakis, G. (2019). Physics-informed neural networks: A deep
learning framework for solving forward and inverse problems involving nonlinear partial
differential equations. Journal of Computational Physics, 378, 686-707.
Schwarz, M. D. (2018). Inteligencia Artificial en la industria minera. Energiminas, 56-57.
Obtenido de https://hdl.handle.net/20.500.12724/7347
Soto, D., Giraldo, J., Vargas, F., Jiménez, J., & Valderrama, A. (2020). Monitoreo de indicadores
de valor a través de minería de datos,gestión de procesos de negocio y mejoramiento
continuo con gestión del riesgo. Revista Ingenierías Universidad de Medellí, 19(37), 93-
118.
Turing, A. (1950). Maquinaria informática e inteligencia. The mind associatión, 433-460.
doi:10.1093/mind/LIX.236.433
Vergara, M. (2015). Construcción de una función de costos operacionales para producción de
cobre de operaciones de una mina subterránea explotada por block caving. Tesis de
maestría , Pontífice Universidad Católica de Chile, Escuela de ingeniería , Santiago de
Chile.
Westreicher, G. (1 de Julio de 2020). Histograma. Obtenido de Economipedia:
https://economipedia.com/definiciones/histograma.html
88
Comunicación
Capítulo VIII: Anexos
89
ANEXO I
Carta de autorización
90
Comunicación
Figura 43
Carta de autorización
91
ANEXO II
Instrumentos de recolección de datos
92
Comunicación
Tabla 32
Plantilla del reporte de costos operativos diarios
Fecha Producción (tn) Stripping Ratio Humedad (%) Costos (US$)
Tabla 33
Plantilla de observación de las reuniones y reparto de guardia
Problema Solución Personal a cargo Plazos
93
Tabla 34
Plantilla para el reconocimiento de variables
Tipo de
Variable Condición Dimensión Tipo de dato
variable
Tabla 35
Plantilla de correlación de variables
Producción Stripping ratio Humedad Costo diario operación
Producción
Stripping
ratio
Humedad
Costo diario
de operación
Tabla 36
Plantilla para recolectar los resultados
Toma Valor real Valor estimado Error
94
Comunicación
Tabla 37
Métricas de validación del modelo
Métrica Valor Algoritmo
95
ANEXO II
Matriz de consistencia y operacionalización de variables
96
Comunicación
Figura 44
Matriz de consistencia
97
Figura 45
Operacionalización de variables
98
Comunicación
ANEXO IV
Validación de instrumentos
99
Figura 46
Ficha de validación de instrumentos juicio de experto
100
Comunicación
ANEXO V
Planos de ubicación y geología
101
Figura 47
Plano de ubicación de la UMH
102
Comunicación
Figura 48
Plano geológico de la UMH
103
Anexo R.R. O 384-2018/UNT Pág. 1 de 5

RECTORADO
UNT UNIVERSIDAD NACIONAL DE TRUJILLO
CARTA DE AUTORIZACIÓN DE PUBLICACIÓN DE TRABAJO DE
INVESTIGACIÓN EN REPOSITORIO DIGITAL RENATI-SUNEDU
Trujillo, 20 de octubre del 2023
El autor suscrito del INFORME FINAL DE INVESTIGACIÓN CIENTIFICA
Titulado: “Modelo matemático para pronosticar los costos diarios de operación mina
en Unidad Minera Huinchos - Apurímac -2023”
AUTORIZAMOS SU PUBLICACIÓN EN EL REPOSITORIO DIGITAL INSTITUCIONAL, REPOSITORIO
RENATI-SUNEDU, ALICIA-CONCYTEC, CON EL SIGUIENTE TIPO DE ACCESO:
A. Acceso Abierto: x
B. Acceso Restringido (datos del autor y resumen del trabajo)
C. No autorizo su Publicación
Si eligió la opción restringido o NO autoriza su publicación sírvase justificar ............................................................
.........................................................................................................................................................................................
ESTUDIANTES DE PREGRADO: TRABAJO DE INVESTIGACIÓN TESIS
ESTUDIANTES DE POSTGRADO: TESIS MAESTRÍA
X
TESIS DOCTORADO
CONDICIÓN CÓDIGO
(NOMBRADO, Docente asesor Autor
N° APELLIDOS Y NOMBRES FACULTAD CONTRATADO, Número Coautor
EMÉRITO, Matrícula del asesor
estudiante, OTROS) estudiante
SICCHA RUIZ, ORLANDO ALEX INGENIERIA AUXILIAR 5233 ASESOR
TICLIA VÁSQUEZ, HIMBER INGENIERIA BACHILLER 22134005-15 AUTOR
PALERMO
DOCENTES: INFORME DE INVESTIGACIÓN OTROS}
.................................................................. SICCHA RUIZ, ORLANDO ALEX

Firma …………………………………………………
DNI: 18026960
.................................................................. TICLIA VÁSQUEZ, HIMBER PALERMO

Firma ..................................................................
DNI: 73055567
.................................................................. ..................................................................
Firma DNI
Este formato debe ser llenado, firmado Y adjuntado en et informe de Tesis y/o Trabajo de Investigación respectivamente.
1
Este formato en el caso de Informe de investigación científica docente debe ser llenado, firmado, escaneado y adjuntado en el sistema de
www.picfedu.unitru.edu.øe
Jr. Diego de Almagro #344 T. 051 - 044-2055B / Mesa de Partes: 044-209020 Email: rectorado@unitru.edu.pe
www.unitru.edu.pe
Comunicación
RECTORADO
UNT
DECLARACIÓN JURADA
El a u t o r suscrito en el presente documento DECLARAMOS BAJO JURAMENTO que soy el
responsable legal de la calidad y originalidad del contenido del Proyecto de Investigación Científica, así
como, del Informe de la Investigación Científica realizado.
“Modelo matemático para pronosticar los costos diarios de operación mina en Unidad Minera
Huinchos - Apurímac -2023”
PROYECTO DE INVESTIGACIÓN CIENTIFICA INFORME FINAL DE INVESTIGACION CIENTIFICA
PROY DE TRABAJO DE INVESTIGACION ( ) TRABAJO DE INVESTIGACIÓN (PREGRADO) ( )
(PREGRADO)
PROYECTO DE TESIS PREGRADO ( ) TESIS PREGRADO (X)
PROYECTO DE TESIS MAESTRÍA ( ) TESIS MAESTRÍA ( )
PROYECTO DE TESIS DOCTORADO ( ) TESIS DOCTORADO ( )
Equipo Investigador Integrado por:

CÓDIGO
CATEGORÍA Autor
APELLIDOS Y DEP. Docente asesor
N° NOMBRES
FACULTAD ACADÉMICO DOCENTE
Número
Coautor
ASESOR asesor
Matrícula
AUXILIAR deestudiante
5233 ASESOR
SICCHA RUIZ, ORLANDO ALEX INGENIERIA ING. DE MINAS
TICLIA VÁSQUEZ, HIMBER ING. DE MINAS BACHILLER 22134005-15 AUTOR

INGENIERIA
PALERMO
Trujillo, 20 de Octubre del 2023
SICCHA RUIZ, ORLANDO ALEX

-------------------------------------------- --------------------------------------------------------------
Firma DNI: 18026960
TICLIA VÁSQUEZ, HIMBER PALERMO

--------------------------------------- -------------------------------------------------------
Firma DNI: 73055567
-------------------------------------------- ---------------------------------------------------------------
Firma
DNI
1
Este formato debe ser llenado, firmado, adjuntado al final del documento del PIC, del Informe de Tesis, Trabajo de
Investigación respectivamente
www.unitru.edu.pe


RECTORADO
UNT
www.unitru.edu.pe
TESIS TICLIA
Comunicación
INFORME DE ORIGINALIDAD
11 %
INDICE DE SIMILITUD
10%
FUENTES DE INTERNET
2%
PUBLICACIONES
6%
TRABAJOS DEL
ESTUDIANTE
FUENTES PRIMARIAS
1
Submitted to Universidad de Salamanca
Trabajo del estudiante 1%
2
hdl.handle.net
Fuente de Internet 1%
3
dspace.unitru.edu.pe
Fuente de Internet 1%
4
1library.co
Fuente de Internet <1 %
5
www.cienciadedatos.net
6
repositorio.unap.edu.pe
7
repositorio.utp.edu.pe
8
www.coursehero.com
9
renati.sunedu.gob.pe
10
Submitted to imfice
Trabajo del estudiante <1 %
11
repositorio.ucv.edu.pe
12
Submitted to Instituto Tecnologico de Costa
Rica
<1 %
Trabajo del estudiante
13
Submitted to Universidad Adolfo Ibáñez
14
repositorio.utn.edu.ec
15
Submitted to Instituto Superior de Artes,
Ciencias y Comunicación IACC
<1 %
16
Submitted to Universidad Internacional de la
Rioja
<1 %
17
Submitted to Universidad Continental
18
Submitted to Universidad Nacional de Trujillo
19
sedici.unlp.edu.ar
20
repositorio.utmachala.edu.ec
<1 %
21
es.scribd.com
Comunicación
Fuente de Internet
22
rstudio-pubs-static.s3.amazonaws.com
23
sisbib.unmsm.edu.pe
24
mine.ut.ac.ir
25
www.imt.mx
26
Submitted to Flinders University
27
Submitted to Universidad Católica de Santa
María
<1 %
28
Submitted to Universidad Nacional del Centro
del Peru
<1 %
29
docplayer.es
30
qdoc.tips
31
dokumen.pub
32
ibmc.umh.es
33
repositorio.unsa.edu.pe
34
www.dspace.espol.edu.ec
35
www.interactivechaos.com
36
www.scielo.cl
37
Submitted to Universidad Católica San Pablo
38
medium.com
39
www.spell.org.br
40
Submitted to Infile
41
publicaciones.usanpedro.edu.pe
42
Submitted to Corporación Universitaria
Minuto de Dios, UNIMINUTO
<1 %
43
rubialesalberto.medium.com
<1 %
Fuente de InternetDigital - Dirección de Sistemas de Informática y
Biblioteca
Comunicación
44
Submitted to unbosque
45
Submitted to Universidad Francisco de Vitoria
46
Submitted to Universidad Pablo de Olavide
47
dspace.udla.edu.ec
48
go.gale.com
49
repositorio.uasf.edu.pe
50
revistas.udistrital.edu.co
51
ams.confex.com
52
blog.edx.org
53
repositorio.uchile.cl
54
repositorio.utp.edu.co
55
www.comtel.pe
56
www.plandemejora.com
57
coqui.metro.inter.edu
58
dspace.ups.edu.ec
59
oa.upm.es
60
repositorio.unc.edu.pe
61
www.jove.com
Excluir citas Activo Excluir coincidencias < 10 words

Excluir bibliografía Activo
Comunicación
Anexo 01
CONSTANCIA DE INFORME DE ORIGINALIDAD
N° 237-2023-C.E/FAC.ING.-UNT
1) Investigador (es):
Ticlia Vasquez Himber Palermo DNI: 73055567 CÓDIGO: 2213400515
2) Asesor: Orlando Alex Siccha Ruiz DNI 18026960 CÓDIGO 5233
3) Finalidad del trabajo de Investigación: Título Profesional
4) Programa o escuela: Ingeniería de Minas
5) Título del trabajo de Investigación: Modelo matemático para pronosticar los costos
diarios de operación mina en Unidad Minera Huinchos-Apurimac -2023
6) Fecha de sustentación y aprobación del trabajo de Investigación: 13/10/2023
7) Fecha de evaluación de originalidad con depósito: 13/10/2023
8) Número de trabajo revisado por herramienta Turnitin: 2194753045
9) Porcentaje de reporte de similitud: 11%
10) Condición: Aprobado
Ing. Orlando Alex Siccha Ruiz Mg. Ing. Luis Alberto Julca Verastegui
Asesor Pdte. del Comité de Ética
Código: 5233 Código: 5159

Ticlia Vásquez

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ticlia Vásquez

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL DE TRUJILLO

Minera Huinchos - Apurímac - 2023

AUTOR: Br. Ticlia Vásquez, Himber Palermo

ASESOR: Mg. Siccha Ruiz, Orlando Alex

Este trabajo de investigación esta dedicado a:

con sabiduría para poder salir adelante.

dedicación, motivación y amor ha podido incentivar a lograr una de mis metas.

incondicional y motivación para ser un profesional de éxito y tener un futuro prometedor.

A mi novia Joela por su apoyo en mis proyectos de vida y alienta mi crecimiento

A mis 15 sobrinos que siempre me impulsan y me motivan a luchar en mi camino

profesional para ser la inspiración de nuevas generaciones.

Himber Palermo Ticlia Vásquez

cumplir este anhelado sueño.

A mis padres, hermanos por apoyarme, motivarme, acompañarme e impulsarse a lograr

A los docentes y autoridades de la prestigiosa Universidad Nacional de Trujillo, en

especial a la escuela de ingeniería de minas, por brindarme sabiduría, orientación, enseñanza y

dedicación para seguir creciendo profesionalmente y ser exitoso.

A mi querido y estimado jurado, mi más sincero agradecimiento por tomarse el tiempo de

guiarme en esta investigación.

Himber Palermo Ticlia Vásquez

Índice de contenido .......................................................................................................................... v

Índice de tablas ...............................................................................................................................xii

Índice de ecuaciones ...................................................................................................................... xiv

Abstract ......................................................................................................................................... xvi

Capítulo I: Introducción ................................................................................................................... 1

1.1. Situación problemática, justificación y propósito ............................................................ 1

1.1.1. Situación problemática ................................................................................................. 1

1.1.2. Justificación .................................................................................................................. 2

1.1.3. Propósito ....................................................................................................................... 2

1.2. Enunciado del problema ................................................................................................... 3

1.2.1. Problema general .......................................................................................................... 3

1.2.2. Problemas específicos .................................................................................................. 3

1.3. Objetivos .......................................................................................................................... 3

1.3.1. General ......................................................................................................................... 3

1.4. Hipótesis ........................................................................................................................... 4

1.4.2. Específicas .................................................................................................................... 4

1.5. Marco conceptual y teórico .............................................................................................. 4

1.5.1. Análisis exploratorio de datos (EDA) .......................................................................... 4

1.5.2. Inteligencia artificial (IA) ............................................................................................. 7

1.5.3. Inteligencia Artificial en minería ............................................................................... 24

1.5.4. Geología de la Unidad Minera Huinchos ................................................................... 25

1.5.5. Ciclo de minado de la Unidad Minera Huinchos ....................................................... 26

1.5.6. Costos diarios de operación mina ............................................................................... 28

1.5.7. Stripping ratio ............................................................................................................. 30

1.5.8. Producción .................................................................................................................. 30

1.5.9. Humedad .................................................................................................................... 31

1.6. Marco Empírico .............................................................................................................. 31

1.6.1. Antecedentes nacionales............................................................................................. 31

1.6.2. Antecedentes internacionales ..................................................................................... 32

Capítulo II: Materiales y métodos .................................................................................................. 36

2.1. Tipo de estudio ............................................................................................................... 36

2.2. Unidad de análisis .......................................................................................................... 36

2.3. Población ........................................................................................................................ 36

2.4. Muestra ........................................................................................................................... 36

2.5. Instrumentos ................................................................................................................... 37

2.6. Control de calidad de los datos: prueba de validez y confiabilidad ............................... 37

2.7. Procedimiento ................................................................................................................. 37

2.7.1. Etapa preliminar ......................................................................................................... 37

2.7.2. Etapa de campo .......................................................................................................... 38

2.7.3. Etapa de gabinete........................................................................................................ 38

2.8. Procesamiento de datos .................................................................................................. 39

2.8.1. Entendimiento y exploración de los datos .................................................................. 39

2.8.2. Entrenamiento y evaluación de modelos de regresión ............................................... 40

2.8.3. Comparación entre modelos y conclusiones generales .............................................. 41