Está en la página 1de 130

UNIVERSIDAD NACIONAL DE TRUJILLO

FACULTAD DE INGENIERÍA
ESCUELA PROFESIONAL DE INGENIERÍA DE MINAS

Modelo matemático para pronosticar los costos diarios de operación mina en Unidad

Minera Huinchos - Apurímac - 2023

TESIS
PARA OBTENER EL TÍTULO PROFESIONAL DE
INGENIERO DE MINAS

AUTOR: Br. Ticlia Vásquez, Himber Palermo

ASESOR: Mg. Siccha Ruiz, Orlando Alex

TRUJILLO – PERÚ

2023
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

i
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Jurado evaluador

____________________________________
PRESIDENTE
Mg. Gonzales Torres Jorge Omar
CIP: 161335

____________________________________
SECRETARIO
Mg. Ayala Orihuela Ghercy Gustavo
CIP: 76469

____________________________________
VOCAL
Mg. Siccha Ruiz Orlando Alex
CIP: 68633

ii
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Dedicatoria

Este trabajo de investigación esta dedicado a:

A Dios, por ser mi guía, mi fortaleza, mi soporte ante cualquier adversidad y orientarme

con sabiduría para poder salir adelante.

A mi madre Filomena por ser el pilar más importante de mi vida, quien con esfuerzo,

dedicación, motivación y amor ha podido incentivar a lograr una de mis metas.

A mi padre Cipriano por su amor, tiempo y por enseñar a luchar por cada sueño para

hacerlo realidad.

A mis hermanos Cristina, Guadalupe, Juana, Paula, Martín y Valentín por su apoyo

incondicional y motivación para ser un profesional de éxito y tener un futuro prometedor.

A mis hermanos Francisco, Salomé y Silverio que me guían desde el cielo por el buen

camino.

A mi novia Joela por su apoyo en mis proyectos de vida y alienta mi crecimiento

profesional.

A mis 15 sobrinos que siempre me impulsan y me motivan a luchar en mi camino

profesional para ser la inspiración de nuevas generaciones.

Himber Palermo Ticlia Vásquez

iii
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Agradecimiento

Agradezco principalmente a Dios, por protegerme y llevarme por el camino correcto para

cumplir este anhelado sueño.

A mis padres, hermanos por apoyarme, motivarme, acompañarme e impulsarse a lograr

mis metas.

A los docentes y autoridades de la prestigiosa Universidad Nacional de Trujillo, en

especial a la escuela de ingeniería de minas, por brindarme sabiduría, orientación, enseñanza y

dedicación para seguir creciendo profesionalmente y ser exitoso.

A mi querido y estimado jurado, mi más sincero agradecimiento por tomarse el tiempo de

guiarme en esta investigación.

Himber Palermo Ticlia Vásquez

iv
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Índice de contenido

Jurado evaluador...............................................................................................................................ii

Dedicatoria ......................................................................................................................................iii

Agradecimiento ............................................................................................................................... iv

Índice de contenido .......................................................................................................................... v

Índice de tablas ...............................................................................................................................xii

Índice de ecuaciones ...................................................................................................................... xiv

Resumen ......................................................................................................................................... xv

Abstract ......................................................................................................................................... xvi

Capítulo I: Introducción ................................................................................................................... 1

1.1. Situación problemática, justificación y propósito ............................................................ 1

1.1.1. Situación problemática ................................................................................................. 1

1.1.2. Justificación .................................................................................................................. 2

1.1.3. Propósito ....................................................................................................................... 2

1.2. Enunciado del problema ................................................................................................... 3

1.2.1. Problema general .......................................................................................................... 3

1.2.2. Problemas específicos .................................................................................................. 3

1.3. Objetivos .......................................................................................................................... 3

1.3.1. General ......................................................................................................................... 3

1.3.2. Específicos.................................................................................................................... 3

1.4. Hipótesis ........................................................................................................................... 4

v
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
1.4.1. General ......................................................................................................................... 4

1.4.2. Específicas .................................................................................................................... 4

1.5. Marco conceptual y teórico .............................................................................................. 4

1.5.1. Análisis exploratorio de datos (EDA) .......................................................................... 4

1.5.2. Inteligencia artificial (IA) ............................................................................................. 7

1.5.3. Inteligencia Artificial en minería ............................................................................... 24

1.5.4. Geología de la Unidad Minera Huinchos ................................................................... 25

1.5.5. Ciclo de minado de la Unidad Minera Huinchos ....................................................... 26

1.5.6. Costos diarios de operación mina ............................................................................... 28

1.5.7. Stripping ratio ............................................................................................................. 30

1.5.8. Producción .................................................................................................................. 30

1.5.9. Humedad .................................................................................................................... 31

1.6. Marco Empírico .............................................................................................................. 31

1.6.1. Antecedentes nacionales............................................................................................. 31

1.6.2. Antecedentes internacionales ..................................................................................... 32

Capítulo II: Materiales y métodos .................................................................................................. 36

2.1. Tipo de estudio ............................................................................................................... 36

2.2. Unidad de análisis .......................................................................................................... 36

2.3. Población ........................................................................................................................ 36

2.4. Muestra ........................................................................................................................... 36

2.5. Instrumentos ................................................................................................................... 37

2.6. Control de calidad de los datos: prueba de validez y confiabilidad ............................... 37

vi
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

2.7. Procedimiento ................................................................................................................. 37

2.7.1. Etapa preliminar ......................................................................................................... 37

2.7.2. Etapa de campo .......................................................................................................... 38

2.7.3. Etapa de gabinete........................................................................................................ 38

2.8. Procesamiento de datos .................................................................................................. 39

2.8.1. Entendimiento y exploración de los datos .................................................................. 39

2.8.2. Entrenamiento y evaluación de modelos de regresión ............................................... 40

2.8.3. Comparación entre modelos y conclusiones generales .............................................. 41

2.8.4. Paso 1: Comparación de métricas mediante gráfico de barras. .................................. 41

2.8.5. Paso 2: Elaboración de conclusiones.......................................................................... 41

2.9. Consideraciones éticas y de rigor ................................................................................... 41

2.10. Definición de variables de estudio ................................................................................. 41

Capítulo III: Resultados.................................................................................................................. 43

3.1. Análisis exploratorio de datos ........................................................................................ 43

3.1.1. Cargar los datos .......................................................................................................... 43

3.1.2. Identificación de inputs y outputs .............................................................................. 44

3.1.3. Limpieza de datos ....................................................................................................... 45

3.1.4. Análisis estadístico ..................................................................................................... 46

3.2. Determinación de la variable independiente más relevante ........................................... 58

3.3. Entrenamiento y testeo del modelo ................................................................................ 60

3.3.1. Regresión Lineal......................................................................................................... 62

3.3.2. Árbol de decisión........................................................................................................ 64

vii
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
3.3.3. Random Forest ........................................................................................................... 65

3.3.4. Máquinas de Vector Soporte (SVR) ........................................................................... 67

3.3.5. Gradient Boosting....................................................................................................... 69

3.3.6. Red neuronal perceptrón ............................................................................................ 71

3.4. Validación del modelo.................................................................................................... 74

Capítulo IV: Análisis y discusión ................................................................................................... 81

Capítulo V: Conclusiones ............................................................................................................... 83

Capítulo VI: Recomendaciones ...................................................................................................... 84

Capítulo VII: Referencias bibliográficas ........................................................................................ 85

Capítulo VIII: Anexos .................................................................................................................... 89

viii
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Índice de figuras

Figura 1 Diagrama de caja y bigotes 5

Figura 2 Diagrama de dispersión 6

Figura 3 Tipos de correlación de variables 6

Figura 4 Fuerza de correlación 7

Figura 5 Histograma de frecuencia 7

Figura 6 Tipos de aprendizaje automático 8

Figura 7 Árbol de decisión 11

Figura 8 Random Forest 12

Figura 9 Máquinas de Vector Soporte 13

Figura 10 Función sigmoide 16

Figura 11 Función Rectified Linear Unit 17

Figura 12 Función tangente hiperbólica 18

Figura 13 Gradiente descendente 19

Figura 14 Perceptrón simple 20

Figura 15 Red neuronal multicapa 20

Figura 16 Redes neuronales recurrentes 21

Figura 17 Ciclo de minado de la Unidad Minera Huinchos 27

Figura 18 Equipo de perforación modelo SWDH102S 27

Figura 19 Zaranda mecánica móvil de 85 a 150 tn /hr 28

Figura 20 Estructura de los costos de la Unidad Minera Huinchos 29

Figura 21 Flujograma del proceso de investigación 39

Figura 22 Valores nulos 45

ix
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Figura 23 Box Plot de los datos antes de ser tratados los outliers 48

Figura 24 Frecuencia de los valores atípicos 51

Figura 25 Box plot posterior a la eliminación de los valores atípicos 51

Figura 26 Distribución de frecuencia de las variables 53

Figura 27 Gráfica Q-Q Plot 55

Figura 28 Gráfica de dispersión de los datos 57

Figura 29 Matriz de correlación entre variables 58

Figura 30 Representación gráfica luego de aplicar el modelo de regresión lineal 63

Figura 31: Representación gráfica luego de aplicar el modelo del Árbol de Decisión 65

Figura 32 Representación gráfica luego de aplicar el modelo de Random Forest 67

Figura 33 Representación gráfica luego de aplicar el modelo del SVR 69

Figura 34 Representación gráfica luego de aplicar el modelo de la Gradient Boosting 71

Figura 35 Representación gráfica de la Red Neuronal Perceptrón 73

Figura 36 Perdida durante el entrenamiento de la Red neuronal perceptrón 73

Figura 37 Comparación del valor de la métrica de R2 de todos los modelos 77

Figura 38 Comparación del valor de la métrica de MSE de todos los modelos 77

Figura 39 Comparación del valor de la métrica de RMSE de todos los modelos 78

Figura 40 Comparación del valor de la métrica de Varianza Explicada de todos los modelos 78

Figura 41 Comparación del valor de la métrica de Error Máximo de todos los modelos 79

Figura 42 Comparación del valor de la métrica de MAE de todos los modelos 79

Figura 43 Carta de autorización 91

Figura 44 Matriz de consistencia 97

Figura 45 Operacionalización de variables 98

Figura 46 Ficha de validación de instrumentos juicio de experto 100

x
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Figura 47 Plano de ubicación de la UMH 102

Figura 48 Plano geológico de la UMH 103

xi
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Índice de tablas

Tabla 1 Expertos validadores 37

Tabla 2 Base de datos que se utilizará para el desarrollo del modelo 44

Tabla 3 Características de las variables de estudio 44

Tabla 4 Descripción estadística antes de eliminar el error 46

Tabla 5 Descripción estadística después de eliminar el error 47

Tabla 6 Valores atípicos 50

Tabla 7 Descripción estadística posterior al tratamiento de valores atípicos 50

Tabla 8 Importancia de las variables independientes en el estudio 60

Tabla 9 Hiperparámetros designados para Regresión Lineal 62

Tabla 10 Hiperparámetros elegidos por GridSearchCV para Regresión Lineal 62

Tabla 11 Resultados luego de aplicar el modelo de Regresión Lineal 62

Tabla 12 Hiperparámetros designados para Árbol de Decisión 64

Tabla 13 Hiperparámetros elegidos por GridSearchCV para Árbol de Decisión 64

Tabla 14 Resultados luego de aplicar el modelo del Árbol de Decisión 65

Tabla 15 Hiperparámetros designados para Random Forest 66

Tabla 16 Hiperparámetros elegidos por GridSearchCV para Random Forest 66

Tabla 17 Resultados luego de aplicar el modelo de Random Forest 67

Tabla 18 Hiperparámetros designados para Máquinas de Vector Soporte 68

Tabla 19 Hiperparámetros elegidos por GridSearchCV para Máquinas de Vector Soporte 68

Tabla 20 Resultados luego de aplicar el modelo del SVR 69

Tabla 21 Hiperparámetros designados para Gradient Boosting 70

Tabla 22 Hiperparámetros elegidos por GridSearchCV para Gradient Boosting 70

xii
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Tabla 23 Resultados luego de aplicar el modelo de la Gradient Boosting 71

Tabla 24 Resultados luego de aplicar el modelo de una Red neuronal perceptrón 72

Tabla 25 Resultados de las métricas del modelo de Regresión Lineal 75

Tabla 26 Resultados de las métricas del modelo de Árbol de Decisión 75

Tabla 27 Resultados de las métricas del modelo de Random Forest 75

Tabla 28 Resultados de las métricas del modelo de SVR 76

Tabla 29 Resultados de las métricas del modelo de Gradient Boosting 76

Tabla 30 Resultados de las métricas del modelo de Red Neuronal Perceptrón 76

Tabla 31 Resultados del valor real vs valor estimado 80

Tabla 32 Plantilla del reporte de costos operativos diarios 93

Tabla 33 Plantilla de observación de las reuniones y reparto de guardia 93

Tabla 34 Plantilla para el reconocimiento de variables 94

Tabla 35 Plantilla de correlación de variables 94

Tabla 36 Plantilla para recolectar los resultados 94

Tabla 37 Métricas de validación del modelo 95

xiii
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Índice de ecuaciones

Ecuación 1 Regresión lineal 9

Ecuación 2 Residual Sum of Squares 11

Ecuación 3 SVR 13

Ecuación 4 Gradient Boosting 14

Ecuación 5 Función de entrada 15

Ecuación 6 Función sigmoide 16

Ecuación 7 Función Rectified Linear Unit 16

Ecuación 8 Función tangente hiperbólica 17

Ecuación 9 Error cuadrático medio 22

Ecuación 10 Raíz del error cuadrático medio 22

Ecuación 11 Error absoluto medio 23

Ecuación 12 R2 23

Ecuación 13 Stripping ratio 30

xiv
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Resumen

Esta investigación tuvo como objetivo principal desarrollar un modelo matemático que

permita pronosticar los costos diarios de operación mina en la Unidad Minera Huinchos. La

metodología empleada en la investigación fue de tipo aplicada, nivel explicativo y de diseño

cuasi-experimental. Para realizar el entrenamiento se usó un 80 % de la muestra se emplearon los

modelos de regresión lineal, random forest, árbol de decisión, máquina de vector soporte,

gradient boosting y una red neuronal perceptrón, luego se validó el modelo con el 20% restante

de los datos mediante métricas. La muestra utilizada para desarrollar esta investigación fue un

conjunto de datos de humedad, stripping ratio, producción diaria y costos diarios de operación

mina con un total de 462 días reportados. Los resultados de la importancia de la variable

producción diaria según el modelo de gradient boosting se obtuvo un valor de 92% de aporte al

pronóstico de los costos diarios de operación mina, el modelo de mejores predicciones fue el de

gradient boosting con un coeficiente de determinación mayor al 92% y un RMSE de 0.67, se

concluyó que a medida que la producción aumente también aumentan los costos diarios de

operación mina pero en menor medida y el mejor modelo para realizar esta predicción es el

gradient boosting, este modelo predictivo permitirá tomar medidas correctivas operativas cuando

se pronostique un costo diario de operación mina con un valor menor a un 90% de exactitud

frente al real.

Palabras claves: inteligencia artificial, modelo matemàtico, costos diarios de operaciòn

mina, gradient boosting.

xv
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Abstract

The main objective of this research was to develop a mathematical model that allows

forecasting the daily costs of mine operation at the Huinchos Mining Unit. The methodology used

in the research was applied, explanatory level and quasi-experimental design. To carry out the

training, 80% of the sample was used, linear regression models, random forest, decision tree,

support vector machine, gradient boosting and a perceptron neural network were used, then the

model was validated with the remaining 20%. of data using metrics. The sample used to develop

this research was a set of data on humidity, stripping ratio, daily production and daily mine

operating costs with a total of 462 days reported. The results of the importance of the daily

production variable according to the gradient boosting model, a value of 92% contribution to the

forecast of daily mine operation costs was obtained, the model with the best predictions was the

gradient boosting model with a coefficient of determination greater than 92% and an RMSE of

0.67, it is concluded that as production increases, the daily costs of mine operation also increase

and the best model to make this prediction is gradient boosting, this predictive model will allow

operational corrective measures to be taken when forecast a daily cost of mine operation with a

value less than 90% accurate compared to the actual cost.

Keywords: artificial intelligence, mathematical model, daily mine operation costs,

gradient boostin

xvi
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Capítulo I: Introducción

1.1. Situación problemática, justificación y propósito

1.1.1. Situación problemática

En la actualidad la minería a través del área de planeamiento proyecta o planea la

actividad de operación mina adjunto con los costos operativos que a estos involucra, sin embargo,

existe un bajo interés por pronosticar la ocurrencia de este plan relacionado a una probabilidad de

éxito o falla. Esto genera un escenario de incertidumbre frente a los costos venideros respecto a

cómo se está llevando la operación minera. Tener un pronóstico que se acerque a mejorar los

resultados obtenidos puede brindar un escenario de toma de decisiones mucho más adecuado y

flexible al proceso operativo.

Reaccionar con proactividad en la toma de decisiones, representan a corto plazo de la

operación minera, una optimización del proceso que permite un ahorro significativo en términos

de costos operativos. Realizar estimaciones de costos operativos basados en una media aritmética

ha demostrado no ser fiable cuando se trata de pronosticar estos, es entonces que debemos buscar

nuevas herramientas que permitan realizar mejores pronósticos. Donde toma relevancia el uso del

Machine Learning, y todo el potencial de este, a través de modelos de pronóstico de regresión.

Actualmente en la Unidad Minera Huinchos, no se realizan estimaciones ni pronósticos

correctos cercanos del real de estos costos diarios de operación, por lo cual la toma de decisiones

es reactiva y no proactiva, en consecuencia, esto genera un lento actuar a eventos que puedan

exponer la rentabilidad de la mina. Ante estos factores de deficiencia en los controles y

proyecciones muy erráticas de los costos operativos diarios en la Unidad Minera Huinchos, nace

esta propuesta de implementar un modelo matemático que permita pronosticar los costos diarios

de operación mina en la Unidad Minera Huinchos mediante el uso de seis algoritmos de regresión

1
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
de Machine Learning con programación en Python.

1.1.2. Justificación

Las características más importantes de esta investigación ayudarán generalmente al área

operativa a corregir a tiempo el proceso productivo minero. Gracias a estas correcciones se

podrán ir optimizando y minimizando los costos operativos directos.

1.1.2.1.Práctica.

Selecciono este tema de investigación a razón de minimizar la incertidumbre existente en

el pronóstico de los costos operativos diarios de mina, para tomar acciones proactivas, cuando

estas se alejen del objetivo trazado.

1.1.2.2.Económica

Existen diferentes aplicaciones de la inteligencia artificial, en el caso de esta investigación

se optó por el Machine Learning supervisado por regresión, para aplicarse en pronosticar los

costos diarios de operación, debido a la importancia de estos en el proceso productivo minero.

Gracias a la inteligencia artificial, se evitará predecir aritméticamente que conlleva al error y no

ayuda a tomar medidas proactivas. Este planteamiento permitirá mejorar la proyección de los

costos, y posteriormente optimizar el proceso productivo.

1.1.2.3.Metodológica

Realizo esta investigación para generar conocimiento productivo sobre Machine Learning

aplicado a la minería y sirva de fuente para inspirar nuevos estudios.

1.1.3. Propósito

El propósito de la presente investigación es poder desarrollar un modelo predictivo de los

costos diarios de operación mina, que permita alcanzar una confiabilidad de éxito alta, acorde a

las exigencias de la operación.

2
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

1.2. Enunciado del problema

La variabilidad operativa diaria de los costos operativos corresponde a diferentes aspectos

técnicos, ambientales y sociales propios de la operación. En la Unidad Minera Huinchos

actualmente existe deficiente control operativo de todas las operaciones unitarias. Por ende, hay

la necesidad de plantear un modelo predictivo con la finalidad de asegurar el cumplimiento y

mejorar el pronóstico de los costos.

1.2.1. Problema general

¿De qué manera el planteamiento de un modelo matemático influye en el pronóstico de

los costos diarios de operación mina en Unidad Minera Huinchos – Apurímac - 2023?

1.2.2. Problemas específicos

• ¿Con el análisis exploratorio de datos se pueden encontrar anomalías y relaciones

posibles?

• ¿Cuál es el porcentaje y el tipo de relación que existe entre las variables de

estudio.

• ¿Qué modelo matemático de Machine Learning permitirá realizar un pronóstico

aceptable de los costos diarios de operación mina con un coeficiente de

determinación superior al 70%?

1.3. Objetivos

1.3.1. General

Desarrollar un modelo matemático que permita pronosticar los costos diarios de operación

mina en Unidad Minera Huinchos – Apurímac – 2023.

1.3.2. Específicos

• Analizar la base de datos que es alimentada por el reporte de costos operativos

3
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
diarios mediante un análisis exploratorio de datos (EDA).

• Determinar el porcentaje y tipo de relación que existe entre las variables de

estudio.

• Estimar y validar los modelos matemáticos para encontrar un nivel de confianza

mayor al 70% en la predicción de los costos operativos diarios en Unidad Minera

Huinchos.

1.4. Hipótesis

1.4.1. General

Un modelo matemático permite pronosticar los costos diarios de operación mina en la

Unidad Minera Huinchos – Apurímac – 2023.

1.4.2. Específicas

• El análisis exploratorio de datos (EDA) permite hallar anomalías, patrones o

relaciones posibles existentes en la base de datos.

• La variable de producción guarda mayor relación con los costos operativos diarios

a comparación de las demás.

• El modelo matemático de predicción de los costos diarios de operación mina

encontrado tiene un valor superior al 70% como coeficiente de determinación.

1.5. Marco conceptual y teórico

1.5.1. Análisis exploratorio de datos (EDA)

Para Parra (2002), es una forma de analizar un conjunto de datos que emplea el resumen

numérico y visual para buscar patrones no anticipados. El EDA es un diagrama de análisis que

fortalece las probabilidades del experto para encontrar nuevas respuestas a las interrogantes

planteadas (Horber & Ladiray, 1995).

4
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Existen diferentes técnicas estadísticas preferencialmente con carga visual con el

propósito de revelar información relevante de los datos analizados. A continuación se muestran

las más utilizadas:

1.5.1.1.Diagrama de caja y bigotes (Box Plot)

Muestra gráficamente la distribución de los datos numéricos, asimetría mediante cuartiles

o percentiles y el promedio. Su principal uso de este diagrama es para visualizar aquellos datos

que están muy alejados conocidos como valores atípicos. El resumen representativo de la

estadística descriptiva de los datos que muestra este diagrama son: valor mínimo, primer cuartil,

mediana, tercer cuartil y valor máximo (Mcleod, 2023).

Figura 1

Diagrama de caja y bigotes

Fuente: https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd51

1.5.1.2.Diagramas de dispersión (Scatter plot)

Diagrama que muestra la relación que guardan dos variables de estudio entre sí. Se

5
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
representa en un plano cartesiano para representar los datos y observar el tipo de relación que

guardan si la hubiera (Betancourt, 2023). Existen tipos de correlación que guardan las variables;

positivo cuando son directamente proporcionales, negativo cuando son inversamente

proporcionales y nulo cuando no tienen relación alguna como se muestra en la

Figura 3. También es muy importante la intensidad de correlación como lo podemos

observar en la

Figura 4.

Figura 2

Diagrama de dispersión

Fuente: https://datavizcatalogue.com/ES/metodos/images/anatomy/SVG/diagrama_de_dispersion.svg

Figura 3

Tipos de correlación de variables

Fuente: https://datavizcatalogue.com/ES/metodos/images/anatomy/SVG/diagrama_de_dispersion.svg

6
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Figura 4

Fuerza de correlación

Fuente: https://datavizcatalogue.com/ES/metodos/images/anatomy/SVG/diagrama_de_dispersion.svg

1.5.1.3.Histogramas de frecuencia

Es un gráfico que indica la distribución de los datos de una muestra o una población, solo

correspondería a una sola variable. En los histogramas se usan barras, cuya altura dependerá de la

frecuencia de los datos en ciertos intervalos (Westreicher, 2020). La importancia del histograma

es encontrar la tendencia en los datos, es decir cuál de ellos se encuentra más presente.

Figura 5

Histograma de frecuencia

Fuente: https://www.plandemejora.com/wp-content/uploads/Partes-del-histograma.png

1.5.2. Inteligencia artificial (IA)

7
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
El término de IA se acuñó desde el siglo anterior generando gran perspectiva al avance de

la ciencia. Las preguntas que pueden representar y resaltar el concepto de la inteligencia artificial

son: “¿pueden pensar las máquinas?”, “juego de imitación” y “¿vale la pena investigar la

pregunta?” (Turing, 1950).

Existen dos tipos de IA que se definen a continuación cada una de ellas: IA débil seria “la

ciencia e ingeniería que permite diseñar y programar ordenadores de forma que realicen tareas

que requieran inteligencia” y IA fuerte como “la ciencia e ingeniería que permitiría replicar la

inteligencia humana mediante máquinas” (López, 2020, citado por Ciudad, 2022).

1.5.2.1.Aprendizaje automático (Machine Learning)

El Machine Learning se encuentra dentro de la IA, que a partir de una base de datos

encuentra patrones para posteriormente realizar predicciones. Su objetivo principal es que un

sistema computacional pueda aprender a partir de una base de datos, imitando de esta forma las

capacidades humanas. (Bobadilla, 2020).

Figura 6

Tipos de aprendizaje automático

Machine Learning

Supervisado No Supervisado Reforzado

Regresión Clasificación Agrupación Asociación

Nota. Adaptado de Modelos de Machine Learning para AAPP y donde aplicarlos, por S. Jiménez, 2021,
(https://sergiojimenez.net/wp-content/uploads/2021/03/ML-1.jpg).

1.5.2.1.1. Supervisado

Este enfoque principalmente necesita de un conjunto de variables de predicción y una

8
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

variable objetiva. Las dificultades del modelo supervisado son: el tipo de pregunta que deseamos

resolver, la disponibilidad de datos y la correlación que exista entré las variables de predicción y

la variable objetiva (Morgado et al., 2022). Al principio se entrena la máquina, proporcionando

inputs o feature relacionados a resultados a outputs o label nombrados por humanos expertos

(Jenni & Chris, 2019). El aprendizaje supervisado es en donde las computadoras ganan

experiencia con innumerables datos, aprende los patrones para luego ingresar y poner a prueba la

predicción del modelo (Álvarez et al., 2020).

Existen subclases de aprendizaje supervisado dentro del Machine Learning como

regresión es cuando la variable objetiva es un valor real por ejemplo la predicción de los costos

operativos y clasificación es cuando la variable objetiva es categoría por ejemplo la predicción

del tipo de roca (Alonso, 2021).

Los algoritmos supervisados de regresión más representativos que se utilizaran en este

proyecto de investigación se describen a continuación:

A. Regresión lineal.

Es un método estadístico que modela la relación entre una variable dependiente o

respuesta y múltiples variables independientes como predictoras. La implementación de la

librería en Python es Scikit-learn utilizada para predecir (Joaquín, 2020a). La definición

estadística más utilizada es:

Ecuación 1

Regresión lineal

𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + ⋯ + 𝛽𝑛 𝑥𝑖𝑛 + 𝜀𝑖

Donde:

- 𝛽0 : es el origen, e iguala con el valor promedio de la variable respuesta 𝑦𝑖 cuando

9
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
todos los predictores tienen valor cero.

- 𝛽𝑗 : es el resultado promedio que tiene sobre la variable dependiente el aumento en

una unidad de la variable independiente 𝑥𝑗 , manteniéndose constantes el resto de

variables. Se conocen como coeficientes parciales de regresión.

- 𝜀𝑖 : es el error, resultado de la diferencia entre el valor observado y el estimado por

el modelo. Recoge el efecto de todas aquellas variables que influyen en 𝑦𝑖 , pero

que no se incluyen en el modelo como predictores.

En muchos de los casos, los valores 𝛽0 y 𝛽𝑗 poblacionales son desconocidos, por lo que, a

partir de una muestra, se obtienen sus estimaciones 𝛽^0 y 𝛽^𝑗 . Ajustar el modelo consiste en

estimar, a partir de los datos disponibles, los valores de los coeficientes de regresión que

maximizan la verosimilitud (likelihood), es decir, los que dan origen al modelo que con mayor

posibilidad puede haber generado los datos observados (Joaquín, 2020b).

B. Árbol de decisión

Son modelos conformados por reglas binarias(si/no) con las que se consiguen dividir las

observaciones en función de sus atributos para predecir el valor de la variable objetiva como se

visualiza en la Figura 7. No requiere mucha limpieza de datos, no se influencian por los outliers,

no requiere de escalamiento de datos y permiten identificar rápidamente las variables predictoras

más influyentes.

Las principales implementaciones de árboles de decisión en Python se encuentra

disponibles desde la librería scikit-learn a través de las clases Decision Tree Classifier y Decision

Tree Regressor. En el proceso de entrenamiento se divide en dos etapas la primera es la

generación de nodos terminales (divisiones sucesivas) y la segunda predecir la variable objetiva

en cada región. El criterio con mayor uso para identificar las divisiones es el Residual Sum of

10
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Squares (RSS) (Joaquín, 2020c).

Ecuación 2

Residual Sum of Squares


𝐽

𝑅𝑆𝑆 = ∑ ∑(𝑦𝑖 − 𝑦̂𝑅𝑗 )2


𝑗=1 𝑖𝜖𝑅𝑗

Donde:

- 𝑦̂𝑅𝑗 : media de la variable respuesta en la región 𝑅𝑗 .

Figura 7

Árbol de decisión

Fuente: Tomado de Árboles de decisión con Python: regresión y clasificación (p, 3) por R. Joaquín, 2020, Ciencia de
datos.

C. Bosques aleatorios (Random Forest)

Formado por múltiples árboles de decisión individuales, cada árbol es entrenado con una

muestra diferente a los datos de entrenamiento mediante una técnica conocida como

11
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
bootstrapping. Al momento de realizar predicciones sobre nuevas observaciones se mezclan todas

de los árboles que integran el modelo. No necesita una limpieza a detalle de los datos, poco

susceptible a la influencia de valores outliers, no requiere escalamiento de variables, permite

predecir de forma eficiente las variables independientes más importantes. (Joaquín, 2023a).

Figura 8

Random Forest

Fuente: Tomado de Random Forest con Python (p, 6) por R.Joaquín, 2023, Ciencia de datos.

El modelo óptimo es aquel el que logra encontrar un equilibrio entre el sesgo(desviación

promedio de las predicciones) y la varianza (cambio del modelo).

D. Máquinas de Vector Soporte (SVR)

Es un algoritmo de clasificación y regresión que se fundamenta en el Maximal Margin

Classifie este término difiere del concepto del hiperplano. El hiperplano en un espacio p-

dimensional, se define como con un subespacio plano (p-1) si pasar por el origen. Como ejemplo

en el caso de un espacio tridimensional el hiperplano es un subespacio de dos dimensiones

(Joaquín, 2020d).

12
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Ecuación 3

SVR

𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑝 𝑥𝑝 < o

𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑝 𝑥𝑝 > o

Donde:

- 𝛽0 , 𝛽p son los parámetros, todos los pares de valores 𝑥 = (𝑥1 , 𝑥p ) que cumplen la

igualdad son puntos del hiperplano.

- El punto x cae a un lado o al otro del hiperplano, es decir divide un espacio p-

dimensiones en dos mitades, para poder determinar el lado de hiperplano al que

pertenece un punto x, simplemente calcular el signo.

Figura 9

Máquinas de Vector Soporte

Fuente: Tomado de Aprendizaje Automático (p, 1) por K.Rojas, 2022, Ciencia de Datos para Ciencias Naturales.

E. Gradiente Bosting

Está conformado por un conjunto de árboles de decisión individual, cada árbol nuevo

generado trata de corregir los errores de los anteriores, comúnmente es utilizado para analizar

datos tabulares. Generalmente no necesitan en intensidad la limpieza de datos, tampoco necesitan

13
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
ser escalados los datos, son muy poco susceptibles a la influencia de los datos atípicos. En

Python los más utilizados son Gradient Boosting Classifier y Gradient Boosting Regressor estos

no realizan binning, utilizan un core, permiten trabajar sobre métricas sparse. El método de

ensamble se relaciona con los términos de sesgo y varianza (Joaquín, 2023b).

Ecuación 4

Gradient Boosting

𝑓1 (𝑥) ≈ 𝑦

𝑓2 (𝑥) ≈ 𝑦 − 𝜆𝑓1 (𝑥)

𝑓3 (𝑥) ≈ 𝑦 − 𝜆𝑓1 (𝑥) − 𝜆𝑓2 (𝑥)

𝑦 ≈ 𝜆𝑓1 (𝑥) + 𝜆𝑓2 (𝑥) + 𝜆𝑓3 (𝑥) + ⋯ + 𝜆𝑓𝑚 (𝑥)

Donde:

- 𝑓1 , 𝑓𝑚 árbol con nudos (weak learner), cada error cometido se va corrigiendo con

un siguiente weak learner.

- 𝑦 variable objetiva o respuesta, producto de la predicción.

- 𝜆 valor de regulación (learning rate), limita cada modelo en un conjunto de

ensambles.

1.5.2.2.Aprendizaje profundo (Deep Learning)

El aprendizaje profundo, es el subcampo más prometedor del aprendizaje automático, no

es necesario que un humano intervenga para procesar un conjunto de datos; los modernos avances

tecnológicos en sistemas de reconocimiento facial, conducción automática, características de los

videojuegos, etc. son generados por la aplicación de esta inteligencia (Bobadilla, 2020).

1.5.2.2.1. Redes neuronales

Las redes neuronales artificiales (ANN) son un tipo de algoritmo de aprendizaje

14
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

automático inspirado en el sistema nervioso biológico por la forma en la de procesar la

información (Callejas et al., 2013). Las ANN tienen la capacidad de solucionar funciones no

lineales de manera eficiente, puesto que aprenden de los inputs que se les establece en su

arquitectura.

Las ANN son el resultado de una programación, cuyo funcionamiento es semejante al de

las neuronas biológicas (Raissi et al., 2019). Las ANN tienen una organización jerárquica en sus

elementos, la cual permite realizar múltiples interacciones para dar una respuesta ante un

estímulo externo.

1.5.2.2.2. Tipos de funciones

A. Función de entrada

Permite ingresar los diferentes datos de entrada como una global.

Ecuación 5

Función de entrada

𝑖𝑛𝑝𝑢𝑡𝑖 = (𝑖𝑛𝑖1 #𝑤𝑖1) ∗ … ∗ (𝑖𝑛𝑖𝑛 #𝑤𝑖𝑛 )

Donde:

- #: es el operador (producto, suma, entre otros)

- n: cantidad de inputs

- in, wi: son el peso asignado

B. Función de activación

Está registra la actividad de una neurona; convirtiendo el input en un valor activo, en

donde el rango para este valor va de 0 a 1 o de -1 a 1. Cuando la neurona esta inactiva toma

valores de 0 o -1, en cambio al estar activada será 1. Las funciones para la activación que más se

utilizan son:

15
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Ecuación 6

Función sigmoide

𝟏
𝒇(𝒙) =
(𝟏 + 𝒆−𝒙 )

Donde:

- Salida de 0 ha 1, tiene forma de S.

- Útil para problemas de clasificación categórica.

Figura 10

Función sigmoide

Fuente: Tomado de Explicación de las funciones de activación en Redes Neuronales y práctica con Python (p, 1) por
A. Rubiales, 2020, Medium.

Ecuación 7

Función Rectified Linear Unit

𝑓(𝑥) = max(0, 𝑥)

Donde:

- Va desde 0 a 1, brinda un valor cero cuando ingresan datos negativos.

16
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

- Trabaja con valores positivos similar a una linear.

Figura 11

Función Rectified Linear Unit

Fuente: Tomado de La función de activación (p, 1) por M. Sotaquirá, 2018, Codificando Bits.

Ecuación 8

Función tangente hiperbólica

(𝐞𝐱 − 𝐞−𝐱 )
𝐟(𝐱) =
(𝐞𝐱 + 𝐞−𝐱 )

Donde:

- El rango va desde -1 a 1, útil para problemas de clasificación categórica.

- En regresión las salidas toman valores negativos.

17
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Figura 12

Función tangente hiperbólica

Fuente: Tomado de La función de activación (p, 1) por M. Sotaquirá, 2018, Codificando Bits.

C. Función de salidas

Determina el valor para las nueronas que se encuentran vinculadas, cuando la función

está por debajo de un determinado valor, no existirá salida en las neuronas predecesoras.

1.5.2.2.3. Hiperparámetros

Son los parámetros que se modifican de manera manual en el ANN. Estos son importantes

para conseguir el buen desempeño, por ellos se debe utilizar los que mejor se adapten a la

necesidad o problema, los más importantes son:

- Función perdida: Dependerá mucho de los resultados obtenido posterior a la

predicción.

- Tasa de aprendizaje: Esto dependerá del tamaño de los pesos.

- Cantidad de datos: Es importante para que actualice los pesos.

18
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

- Ciclo (epoch): Cantidad de iteraciones que ejecutara el algoritmo de entrenamiento

y optimización.

- Optimizador: Lo primero es utilizar el backpropagation (evaluador de pesos) y lo

segundo se emplea el optimizador, encargado de cambiar los pesos al ritmo de los

ciclos; los más utilizados y conocidos son la gradiente estocástica y gradiente

descendente (Adam).

- Aprendizaje supervisado y no supervisado: Forma de cambiar sus pesos de

acuerdo a la información de entrada.

- Validación: Se emplea un porcentaje de datos, que mayormente es el 20% de total

para poder testear y validar la ANN.

- Arquitectura: Forma de distribución de las neuronas.

Figura 13

Gradiente descendente

Fuente: Tomado de Gradiente descendente (p, 1) por IMB, 2023.

1.5.2.2.4. Tipos de ANN según el número de capas

19
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
A. Monocapa

Son la forma más sencilla de ANN. Tiene una sola capa, cuyo objetivo es buscar una capa

de salida en donde se realizarán los cálculos, para los inputs de la capa de entrada.

Figura 14

Perceptrón simple

Fuente: Adaptado de Redes neuronales artificiales aplicadas al reconocimiento de patrones (p, 19) por W. Rivas y B.

Mazón y E. Mejía, 2018, UTMACH.

B. Multicapa

En esta existe un conjunto de capas ocultas. En este tipo de ANN la conectividad puede

ser total o parcial.

Figura 15

Red neuronal multicapa

Fuente: Adaptado de Qué son las redes neuronales y sus aplicaciones, por P. Huet, 2023, OpenWebinars
(https://openwebinars.net).

1.5.2.2.5. Tipo de ANN según la conexión

20
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

A. Recurrentes

Esta ANN permiten realizar una retroalimentación empleando lazos, los cuales pueden ser

las neuronas de una misma capa o de otra distinta, por ello permite que el output de una neurona

se pueda utilizar como input para otra neurona. Para este tipo se utilizan algoritmos de

aprendizaje como el de retroprogramación a través del tiempo para mejorar el resultado de salida.

Figura 16

Redes neuronales recurrentes

Fuente: Adaptado de Qué son las redes neuronales y sus aplicaciones, por P. Huet, 2023, OpenWebinars

(https://openwebinars.net).

B. Feedforward

Este tipo de ANN se mueve hacia adelante, por lo que no existe una retroalimentación.

Este tipo de red se emplea para la clasificación, como la identificación de imágenes o detectar

fraudes. Además, puede entrenarse utilizando el tipo de aprendizaje supervisado.

1.5.2.3.Evaluación del error del modelo

Cuando se predice mediante un modelo de regresión el resultado de una variable

desconocida, producto de unos parámetros y características brindados. La diferencia entre el valor

21
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
estimado y valor real es el error. Existen técnicas para determinar el rendimiento y evaluar el

ajuste a continuación se muestran las más representativas:

1.5.2.3.1. Error cuadrático medio (MSE)

Es el indicador más empleado y el más básico, se define como el valor medio de los

cuadrados de la resta entre los valores estimados y reales.

Ecuación 9

Error cuadrático medio


𝑛
1 2
𝑀𝑆𝐸 = ∑(𝑦𝑛 − 𝑦̂)
𝑖
𝑛
𝑖=1

Donde:

- n, cantidad de datos

- 𝑦𝑖, valor real

- 𝑦̂𝑖, valor estimado

Existe una forma de entender mejor el cálculo del error es la raíz del error cuadrático

medio (RMSE), genera una media interpretable del promedio de error de estimación en la misma

unidad que la variable objetiva; muy empleado porque penaliza más los errores mayores que los

menores.

Ecuación 10

Raíz del error cuadrático medio

𝑛
1 2
𝑅𝑀𝑆𝐸 = √ ∑(𝑦𝑛 − 𝑦̂)
𝑖
𝑛
𝑖=1

1.5.2.3.2. Error absoluto medio (MAE)

22
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Es el resultado de la media absoluta de los valores reales y estimados, sensible a los

valores extremos porque no incluye el error cuadrado, proporciona una media lineal del error de

predicción promedio.

Ecuación 11

Error absoluto medio


𝒏
𝟏
𝑴𝑨𝑬 = ∑|𝒚𝒏 − 𝒚̂𝒊 |
𝒏
𝒊=𝟏

Donde:

- n, cantidad de datos

- 𝑦𝑖, valor real

- 𝑦̂𝑖, valor estimado

1.5.2.3.3. Coeficiente de determinación (R2)

También conocido como coeficiente de determinación que mide la proporción de la

variación de la variable dependiente explicada por el modelo, tiene un rango desde 0 (no hay

relación lineal) a 1 (ajuste completo).

Ecuación 12

R2

2
∑𝒏𝒊=𝟏(𝒚𝒏 − 𝒚̂𝒊 )2
𝑅 = 1−
∑𝒏𝒊=𝟏(𝒚𝒏 − 𝒚𝒂𝒗𝒈 )

Donde:

- n, cantidad de datos

- 𝑦𝑖, valor real

- 𝑦̂𝑖, valor estimado

- 𝒚𝒂𝒗𝒈 , valor promedio de los valores reales.

23
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
1.5.3. Inteligencia Artificial en minería

Las características cambiantes en el proceso de extracción del mineral hacen que el costo

operativo aumente; también mucho depende del precio de los metales en donde hay la

intervención de la oferta y la demanda, ante todo ello hay la obligación de implementar la IA que

ayude en la optimización del proceso productivo y así se logre la gran anhelada reducción de

costos. Las técnicas de inteligencia artificial aplicable a este proceso son: redes neuronales,

algoritmos genéticos, algoritmos de enjambre, etc. Algunos ejemplos destacables de las

dimensiones en donde se pueden aplicar la IA pueden ser la predicción de esfuerzos, perforación

robótica, voladura electrónica, iluminación inteligente, optimización de carguío y acarreo y

muchas otras más aplicaciones (Schwarz, 2018).

Ambar ( 2023) menciona, los 10 usos de la inteligencia artificial, estos sistemas de

digitalización pueden solucionar grandes cantidades de datos y generar soluciones, es por ello que

las grandes empresas mineras han optado por aplicarlas en su proceso productivo.

Predecir interrupciones en cadena de suministros permite encontrar fallas futuras,

pronóstico de la demanda específica, a través de esta valiosa información se puede llegar a

optimizar el proceso mediante:

• Optimización energética: Pueden identificar oportunidades de ahorro de energía,

para tener una mejora en la eficiencia.

• Datos medioambientales: Puede darse uso para identificar áreas que ayuden a

optimizar las operaciones y proyectar su impacto ambiental.

• Exploraciones: Sirve para el análisis de innumerables cantidades de datos para

identificar objetivos y generar información relevante del cuerpo, genera una gran

eficiencia en costo y tiempo.

24
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

• Mantenimiento preventivo: Realizan predicciones en tendencias de uso e informar

con anticipación la falla posible de un equipo, mejorando así la planificación.

• Evaluaciones de seguridad y riesgos: Genera una evaluación y puede alertar sobre

posibles riesgos en las operaciones mineras, para tener una fuerza laboral muy

segura.

• Robótica: Diseñada para reemplazar a los humanos en lugares en donde no es

posible su ingreso, brinda funciones inteligentes semejantes a la de un ser

pensante.

• Clasificación de minerales: Pueden identificar minerales que tenga un valor en el

desmonte, para poder mejorar la recuperación y generar reducción de los costos de

procesamiento.

• Sistemas de apoyo de decisión: Trae grandes beneficios, como la seguridad del

trabajador, optimización del proceso y reducción de costos, esto ayuda a tomar la

mejor decisión, producto que al mismo tiempo considera los factores claves.

• Vehículos autónomos: Ayudan a que los trabajos en las operaciones sean más

seguros y así evitar el ingreso a áreas muy peligrosas.

1.5.4. Geología de la Unidad Minera Huinchos

Según Paull (2014) la mineralización de hierro está compuesta principalmente de

magnetita masiva y en pequeños cuerpos de brecha, localizadas zonas de hematita y en menor

proporción limonita y goethita.

Según la ubicación de los afloramientos de mineral de hierro, se delimitaron tres áreas

importantes denominadas:

• Área Central o Huinchos de 1.5 km x 0.4 km, la cual contiene una zona con mayor

25
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
concentración de hematita.

• Área Sur o Huancabamba de 0.6 km x 0.5 km, aproximadamente a 1 km al Este

del pueblo de Huancabamba, donde se ha localizado dos zonas con hematita.

• Área Norte de 1.4 km x 0.4 km de ancho, ubicada a 200 m al Norte del Área

Central, donde se ha ubicado una zona con mayor concentración de hematita y en

menor proporción limonita y goethita.

Este depósito es del tipo Skarn, yacimiento de reemplazo metasomático de contacto en las

calizas de la formación Ferrobamba, las cuales fueron instruidas por stocks de composición

diorítico-cuarzo diorítico del macizo sintectónico de Abancay considerado como la fuente de la

mineralización y que a su vez dio lugar a extensas zonas de metamorfismo de contacto en la

región.

Según estudios anteriores, el depósito de Huancabamba, tendría un recurso geológico de

mineral de hierro del orden de 200 Mt a 500 Mt, que lo ubica como un importante depósito de

hierro, considerando el nuevo mercado generado en Asia, particularmente en China e India; la

aplicación de tecnologías modernas de bajo costo utilizando gas natural en el procesamiento y la

construcción de una planta concentradora ubicada estratégicamente, procesaría la producción de

mineral de hierro de la región. Su mapa geológico se puede visualizar en la Figura 45.

1.5.5. Ciclo de minado de la Unidad Minera Huinchos

La unidad minera emplea un método de explotación en tiras superficiales por el momento,

debido a la existencia de un campaneo de mineral. Las actividades se desarrollan de acuerdo a las

características geológicas del yacimiento para poder cumplir con las metas establecidas. Las

operaciones son convencionales por el momento. El ciclo de minado se encuentra distribuido,

como se muestra en el siguiente diagrama:

26
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Figura 17

Ciclo de minado de la Unidad Minera Huinchos

Perforación y
Clasificación
voladura

Carguío y acarreo

1.5.5.1.Perforación y voladura

En esta etapa del proceso se empieza con la perforación y voladura para conseguir una

granulometría óptima para el siguiente proceso del ciclo productivo. Se realizan bancos de 6

metros de alto, ángulo del talud de 78º y ancho de bancos de 5 metros. Se usa una perforadora de

superficie SWDH102S, sola para casos puntuales donde hay presencia de masivo, hay zonas en

donde no se necesita perforaciones.

Figura 18

Equipo de perforación modelo SWDH102S

27
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
1.5.5.2.Carguío y acarreo

Etapa que consiste en el traslado del material hacia una zaranda mecánica oh fija y a una

desmontera si no contiene leyes rentables. Los equipos que se utilizan para esta operación son dos

cargadores frontales (CAT 950G, VOLVO L120C), seis excavadoras (VOLVO EC340DL2, CAT

329D, Hyundai 330LC), 10 camiones volquetes de 15 m3 y un camión cisterna de agua no

potable. El movimiento de material va desde los 1500 a las 3000 tn/día.

1.5.5.3.Clasificación

Etapa del tratamiento del material que contiene concentraciones altas del mineral de hierro

mediante zarandas mecánicas móviles y fijas. Se obtienen productos con un P75 mayor a ¼” en

verano y en invierno un P60 mayor a un ½ pulgadas para mineral brechoso y masivo. Se cuenta

con una zaranda mecánica móvil que produce 150 a 300 tn/hr y una de 85 a 150 tn/hr, aparte de

ello se cuenta con cribas fija de 6 X 3 metros con un ángulo de inclinación del 45º con varillas de

2 pulgadas de diámetro.

Figura 19

Zaranda mecánica móvil de 85 a 150 tn /hr

Fuente: Adaptado de Unidad Minera Huinchos, por G. Lopez, 2022.

1.5.6. Costos diarios de operación mina

28
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Son los que están presentes directamente en las operaciones mineras, estos costos son

variables de acuerdo a cada operación unitaria que permite la explotación del recurso minero. La

optimización de cada operación unitaria es desarrollada con la finalidad de aumentar la

producción, de este modo se pueden reducir los costos operativos de mina.

Figura 20

Estructura de los costos de la Unidad Minera Huinchos

Costos operativos de
perforación y voladura
Costos diarios de Costos operativos de
operación mina carguío y acarreo
Costos operativos de
clasificación
Fuente: Adaptado de Unidad Minera Huinchos, por J. Jiménez, 2022.

Los costos diarios operativos de mina en Unidad Minera Huinchos se clasifican de

acuerdo con cada operación unitaria que a continuación se detallan:

1.5.6.1.Costos operativos de perforación y voladura

Estos costos representan las actividades de perforación y voladura si el proceso lo amerita,

esto dependerá mucho de la geología de la zona.

1.5.6.2.Costos operativos de clasificación

Son aquellos que permiten la separación de mineral de hierro a través de una zaranda

mecánica cuando el material es procedente de la operación unitaria de extracción. La humedad es

un factor muy importante a tomar en cuenta en el cálculo de este costo.

1.5.6.3.Costos operativos de carguío y acarreo.

Este costo involucra al movimiento del material a la zaranda mecánica móvil o a la

desmontera mediante el uso de excavadoras, cargadores frontales, camiones volquetes de 15 m3.

1.5.6.4.Costo operativo global

29
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Es el costo total de operación en donde va a depender mucho de la granulometría del

material va desde ¼” a 2”, este costo tiene variables controlables y no controlables. En las

controlables un ejemplo son el uso adecuado y óptimo de las horas máquina, las no controlables

destaca la geología, por ejemplo, el material con presencia de brecha disminuirá notablemente el

costo; a comparación del material con presencia de masivo de hierro.

Para poder encontrar un modelo que ayude a predecir el costo diario de operación mina, a

la base de datos se le sumó todos los costos operativos antes mencionados pero con un indicador

común (US$/tn) con la finalidad de tenerlos en la misma escala.

1.5.7. Stripping ratio

Es una medida importante en el proceso de mina a cielo abierto, representa a la cantidad

de desmonte que se desea mover para extraer determinada cantidad de mineral. La gran mayoría

de empresas mineras consideran su string ratio antes de empezar una operación, esto mucho

difiere de la ley del mineral (Pistilli, 2023).

Ecuación 13

Stripping ratio

𝑤𝑎𝑠𝑡𝑒(𝑡𝑛)
𝑆𝑅 =
𝑜𝑟𝑒 (𝑡𝑛)

1.5.8. Producción

Actividad encargada de extraer el mineral de acuerdo las metas establecidas por el

empleador, a fin de generar una rentabilidad económica. Cada objetivo de la empresa debe

llevarse a cabo secuencialmente de acuerdo al tiempo establecido. Por ejemplo me solicitaron

producir 3000 tn de mineral de hierro, es ahí donde se deben aplicar métodos adecuados para

llegar a lo solicitado.

30
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

1.5.9. Humedad

La humedad es un indicador muy importante en la operación de clasificación mediante

zarandas mecánicas, su principal enemigo de este proceso es la arcilla porque al entrar en

contacto con el agua, se generara un lodo y dificulta la clasificación del mineral, es por ello que si

se desea producir adecuadamente es necesario tener este control de humedad del mineral, con la

finalidad de tomar medidas proactivas ante problemas inusuales.

1.6. Marco Empírico

1.6.1. Antecedentes nacionales

A nivel nacional han realizado pocos trabajos de investigación sobre modelos predictivos

aplicados a la predicción de costos y se consideraron antecedentes en donde aplican IA a minería:

Castillo (2022), en su proyecto de investigación “Desarrollo de modelos predictivos de

regresión en la industria minera mediante el uso de algoritmo de Machine Learning” para obtener

el título de ingeniero de minas en la Universidad Nacional Mayor de San Marcos. Su objetivo

principal fue desarrollar modelos predictivos de regresión usando Machine Learning para casos

en la industria minería, su metodología de investigación es de tipo exploratorio, enfoque

cuantitativo y diseño transversal. Los resultados que obtuvo para el caso 1 que era estimar el

precio del oro, utilizando “SVR” las métricas fueron “R2 = 0.94, MAE=4.63 y RMSE=5.29”; en

el caso 2 del concentrado de hierro estimo el contenido se sílice, sus métricas fueron “R2 = 0.51,

MAE=0.81 y RMSE=0.81” esto se obtuvo haciendo uso de “Gradient Boosting Regressor” y para

el caso 3 uso el algoritmo de “Random Forest Regressor” para predecir el consumo de

combustible para el cual obtuvo que “R2=0.98, MAE= 0.87, RMSE=0.91”. Finalmente concluyo

que el uso del algoritmo para el caso 1 puede identificar que variables inciden en la variación del

precio del oro, realizar análisis cuando el precio baja; en el caso 2 el autor recalca para que haya

un mejor desempeño del algoritmo hacía falta datos con por ejemplo algunos parámetros de

31
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
molienda, leyes del relave, la cantidad del concentrado producido y datos que inciden en el

proceso de flotación; para el caso 3 el algoritmo proporción resultados excelentes porque este

podía identificar los parámetros que más inciden en el consumo, predecir el consumo de

combustible en relación al real pudiendo así reconocer qué equipo consume más y poder tomar

medidas.

Cueva (2022), en su proyecto de investigación “Control de tiempos improductivos

mediante el modelo de regresión lineal para mejorar la productividad en el proceso de acarreo en

la empresa OPEMIP S.A.C. – U.M. San Rafael” para optar el título de ingeniero de minas en la

Universidad Tecnológica del Perú. Su objetivo principal fue utilizar un modelo de regresión

lineal para controlar tiempos improductivos con la finalidad de optimizar la productividad en el

acarreo, su metodología de investigación fue de enfoque cuantitativo, diseño experimental, tipo

aplicada y descriptiva. Los resultados mostraron que la producción incremento en 539. 695 tn

acarreadas, ya que se consideró que las horas efectividad incrementan en una 1 hora. Finalmente

concluyó que los tiempos improductivos se controlaron mediante “Prod/Guardia = 244.740 +

539.695 (ℎ𝑜𝑟𝑎𝑠 𝑒𝑓𝑒𝑐𝑡𝑖𝑣𝑎𝑠)” logrando así optimizar la producción de 5,560.64 a 7,000.00

toneladas por día en el proceso de acarreo de la unidad minera.

1.6.2. Antecedentes internacionales

Autores internacionales si aplican modelos predictivos mediante inteligencia artificial

para solucionar problemas operativos mineros e incluimos aquellos estudios donde apliquen la IA

a la minería, se citan autores acontinuación:

Carvajal (2021), en su proyecto de investigación “Implementación de un modelo de costos

operacionales para Minera Centinela” para obtener el título de ingeniero civil de minas en la

Universidad de Chile. Su objetivo fue desarrollar un modelo que estime los costos operacionales

como perforación, transporte y carguío para proyectos a futuro, su metodología de investigación

32
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

es de tipo aplicada y de diseño experimental. Los resultados que obtuvo de la implantación del

modelo es una precisión de costos en un 5%, también recalco que el modelo tuvo deficiencias

para calcular el ciclo y el rendimiento de los equipos. Finalmente concluyo que el modelo le

entrego a la Unidad Minera Centinela ya este aportaba a las operaciones una estimación

razonable y servía como una herramienta de planeamiento pudiendo así tomar decisiones

referentes a los costos.

Aghajani et al. (2019), en su artículo de investigación “Application of simulated annealing

for optimization of blasting costs due to air overpressure constraints in open-pit mines” de la

Universidad de Teherán, Irán. Su objetivo fue proponer un modelo matemático para tener costos

mínimos en las operaciones de voladura en una mina de yeso dado por el fenómeno de

sobrepresión de aire, su metodología de su investigación fue experimental y enfoque cuantitativo.

Los resultados que obtuvo del modelo no lineal en relación con las restricciones que optimizó

mediante recocido simulado, determinó que las variables de decisión en este caso el costo fue

igual a 2259$ por 7700 tn esto indica que es menor a comparación de los costos de la voladura de

la mina de yeso y el costo de los parámetros de voladura referente a los bloques de la mina fue de

2974 $ por 7700 tn. Finalmente concluyo que la implementación del modelo mejoraba el costo de

voladura en un 24%.

Nuerali & Osanloo (2018), en su artículo titulado “A regression-tree-based model for

mining capital cost estimation” tuvo como finalidad desarrollar un modelo de estimación para

predecir los costos de capital minero mediante árboles de regresión. La metodología empleada

fue descriptiva y tipo correlacional con un enfoque cuantitativo. Los resultados que obtuvieron al

validar el modelo del árbol de regresión fueron un MAE de 178.5 y un RMSE de 219.36.

Finalmente se concluyen que el modelo es aceptable para predecir los costo de capital mineros y

puede aplicarse en cualquier parte del mundo.

33
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Navia et al. (2017), en su artículo de investigación “Análisis del VPN en función de la

tasa de descuento y el costo de remanejo implementando SIMSCHED DBS para una explotación

minera a cielo abierto” de la Universidad Nacional de Colombia, Medellín. Su objetivo fue

desarrollar un análisis de un deposito de cobre y oro e identificar cambios en VPN según la tasa

de descuento y costo de remanejo, su metodología de investigación fue de diseño experimental y

de tipo aplicada. Como resultados obtuvo que la tasa de descuento del proyecto incremento 0.5 es

decir del 5% a15%; para el costo de remanejo obtuvo un valor máximo de 0.5 $/tn y un mínimo

de 0.025, posteriormente obtuvo un valor más rentable para la tasa descuento de 10%

considerando el costo de remanejo siendo así el VPN $1230.026. Finalmente concluyó que la tasa

de descuento óptima es de 10% y el costo de remanejo puede variar ya que este no afecta al flujo

de caja.

Vergara (2015), en su tesis “Modelo de costo basado en actividades para la gestión de

operaciones de una mina subterránea explotada por block caving” para obtener el grado de

magíster en ciencias de la ingeniería de la Pontifica Universidad Católica de Chile. Su objetivo

fue diseñar e implementar un modelo que pueda determinar el costo específico en relación a todas

las actividades operacionales de una faena subterránea, su metodología de investigación fue de

tipo aplicada, diseño experimental y enfoque cuantitativo. Los resultados que obtuvo al implantar

la metodología Activity Based Costing (ABC) es que logro estimar los costos de la operación y

reducir el margen de error a 3,7% referente al costo real, además brinda información de cómo se

construye los costos de cada actividad minera. Finalmente concluyó que el modelo ayuda a tener

una mejor gestión y análisis de las operaciones.

Parra (2011), en su tesis “Construcción de una función de costos operacionales para

producción de cobre” para obtener el grado de magíster en gestión de operaciones de la

Universidad de Chile. Su objetivo fue predecir los costos de operación a través de una función de

34
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

predicción en la cual se pueda incorporar elementos relevantes en una mina de cobre. Su

metodología fue de diseño experimental, los resultados de la implementación de la función

identificó que las características más sobresalientes en los costos son el % de mineral, el

indicador de dureza, la ley del mineral; recalco que para la extracción a tajo abierto es necesario

considera la cantidad del mineral que se extrajo y la distancia que será transportado y para los

insumos los costos sobresalientes son el acero, consumo de combustible, explosivos, neumáticos,

mano de obra, energía, mantenimiento, reactivos. Finalmente concluyó que la ventaja de la

construcción de la función de costos es que se puede aplicar en cualquier mina de cobre.

35
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Capítulo II: Materiales y métodos

2.1.Tipo de estudio

El estudio utilizado en esta investigación es de tipo aplicada, porque utiliza conocimientos

de investigaciones referentes a este estudio, su nivel es explicativo porque busca encontrar la

relación entre las variables de estudio y de diseño cuasi-experimental porque se manipulan

deliberadamente alguna de las variables independientes.

2.2.Unidad de análisis

La Unidad Minera Hinchos se encuentra ubicado en el departamento de Apurímac,

provincia de Andahuaylas, distrito del mismo nombre y centro poblado Huinchos. Presenta una

geología donde sobresale un gran depósito de mineral de hierro como se puede visualizar en la

Figura 48.

Sus coordenadas según WGS84 que se encuentran en la zona 18S son las siguientes:

• Este:679024

• Norte:8484114

El mapa de ubicación se puede visualizar en la Figura 47.

2.3. Población

La población finita son la base de datos de los costos diarios de operación, producción

diaria, la humedad del material y el stripping ratio de la empresa Unidad Minera Huinchos de

todos los años de trabajo.

2.4. Muestra

La muestra es de tipo probabilística con muestreo estratigráfico y está compuesta de la

base de datos de los costos diarios de operación, producción diaria, la humedad del material y el

36
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

stripping ratio de la empresa Unidad Minera Huinchos desde el 17 de enero del 2022 hasta el 18

de mayo del 2023, son un total de 462 días reportados.

2.5. Instrumentos

• Laptop para el procesamiento de datos.

• Celular para recolección de evidencias.

• Software Excel para almacenamiento de los datos.

• Libreta de apuntes

• Lenguaje de programación Python

• Guías de observación

• Formatos de recolección de datos

• Formatos de validación del modelo

2.6. Control de calidad de los datos: prueba de validez y confiabilidad

Validación de instrumentos: es importante validar los instrumentos de la investigación por

expertos en el área de estudio.

Tabla 1

Expertos validadores

Experto CIP Profesión Dictamen

Gavilan Huaire, Steven Alexander 154397 Ingeniero de minas Validó

2.7. Procedimiento

2.7.1. Etapa preliminar

• Investigación bibliográfica: Buscar las investigaciones referentes al tema para

tener en consideración aquellos puntos resaltantes e importantes.

37
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
• Descripción de objetivos y metodología: Constitución de objetivos y la

metodología a ser utilizada.

• Estructuración de instrumentos: Análisis documental como técnica y como

instrumento formatos de recolección de datos de los costos operativos diarios.

2.7.2. Etapa de campo

• Recopilación de los datos mediante los formatos y las observaciones del

comportamiento de ellos día a día.

• Monitoreo constante del comportamiento entre las variables de estudio.

• Evaluación con técnicas aritméticas de la proyección de los costos operativos.

2.7.3. Etapa de gabinete

• Revisión de datos: Se realiza el EDA en Python haciendo uso de la librería Pandas,

Numpy, Matplotlib para tener una interpretación visual y funcional del

comportamiento de las variables de estudio.

• Desarrollo de estrategias: Propuesta de un algoritmo de inteligencia artificial,

mediante regresión para determinar los costos operativos diarios.

• Redacción del informe: Organización del informe del estudio final, incluyendo el

modelo encontrado y validarlo con las métricas correctas, los resultados,

conclusiones y recomendaciones.

38
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Figura 21

Flujograma del proceso de investigación

Fuente: Adaptado de Metodología en Inteligencia Artificial, por H. Domínguez, 2020.

2.8. Procesamiento de datos

2.8.1. Entendimiento y exploración de los datos

2.8.1.1.Paso 1: Obtención, carga y revisión inicial de datos

Se realiza el cargado de la base de datos en formato CSV UTF-8 (delimitado por comas),

posteriormente se realiza una revisión de estructura de los datos para finalmente realizar una

descripción estadística.

2.8.1.2.Paso 2: Limpieza y preparación de datos

39
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
En primer lugar se identifican los datos faltantes por columna lo cual están expresadas por

las variables, después de generar un diagrama de Box Plot para visualizar los Outliers para poder

ser tratados mediante criterios técnicos referente al valor de la muestra.

2.8.1.3.Paso 3: Análisis detallado

Después del paso anterior se realiza un estudio de distribución de los datos mediante

gráficas de frecuencia para determinar que tipo de función forma. A continuación se realizan

gráficas de dispersión y una matriz de correlación para visualizar la relación que guardan las

variables.

2.8.1.4.Paso 4: Selección de características relevantes

En este paso se empleó el algoritmo de Radom forest para poder realizar el cálculo de las

características relevantes en el estudio.

2.8.2. Entrenamiento y evaluación de modelos de regresión

2.8.2.1.Paso1: División del conjunto de datos

Se dividen los datos en un conjunto de entrenamiento y un conjunto de prueba. El

conjunto de entrenamiento se utilizará para entrenar el modelo, mientras que el conjunto de

prueba se utilizará para evaluar su rendimiento.

2.8.2.2.Paso2: Escalamiento de los datos de acuerdo al algoritmo

Se escalan los datos, pero de acuerdo a la necesidad del modelo si este lo requiere, para

este estudio según las investigaciones realizadas solamente los modelos de regresión lineal, SVR

y red neuronal requieren del escalamiento.

2.8.2.3.Paso3: Entrenamiento y validación de modelos

Se elige un algoritmo y se entrena con el conjunto de entrenamiento, posteriormente se

definen las métricas y finalmente se realiza una validación cruzada para la sintonización de

40
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

modelos usando GridSearchCV (técnica de optimización que busca los mejores hiperparámetros

para un modelo, basándose en el rendimiento del mismo durante la validación cruzada) esta

técnica se utiliza con la finalidad de acelerar el entrenamiento y el encontrar los mejores

hiperparámentros para cada modelo.

2.8.3. Comparación entre modelos y conclusiones generales

2.8.4. Paso 1: Comparación de métricas mediante gráfico de barras.

En este paso se representan los valores de todos los modelos de regresión usados con la

finalidad de realizar una mejor interpretación.

2.8.5. Paso 2: Elaboración de conclusiones

Se elaboran las conclusiones correspondientes referentes a cada algoritmo.

2.9. Consideraciones éticas y de rigor

Consideraciones éticas:

Confidencialidad: el registro de datos obtenidos será utilizados de manera confidencial

Transparencia: la presentación de la investigación será honesta.

Respeto a las normas legales y organizacionales: la investigación se llevará a cabo

cumpliendo las regulaciones, políticas y leyes que se aplican.

Consideraciones de rigor:

Validez: el estudio mostrará resultados claros y concisos de acuerdo al objetivo.

Objetividad: los datos obtenidos serán verídicos y concretos con el objetivo

Responsabilidad: el estudio se realizará con principios éticos, considerando los criterios de

la Universidad Nacional de Trujillo.

Honestidad: los datos obtenidos del proceso del estudio serán auténticos y exactos.

2.10. Definición de variables de estudio

La investigación es de diseño cuasi-experimental, descriptivo transversal, canalizando las

41
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
variables en tiempo determinado, los datos obtenidos en campo se utilizarán para cumplir con los

objetivos trazados en esta investigación.

Este diseño presenta el siguiente esquema:

Donde:

M: Muestra de elementos

XYi: Variables de estudio

P: aplicación del experimento.

Oi: Resultados de la medición de las variables

X: Parámetros operativos (producción, stripping ratio, humedad)

Y: Modelo matemático para pronosticar los costos diarios de operación mina.

42
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Capítulo III: Resultados

En este capítulo se recopiló y analizó el conjunto de datos recogidos de las operaciones

con los formatos establecidos. Posteriormente se entrenó y testeo los modelos usados para

pronosticar los costos diarios de operación mina. Finalmente se validó el modelo con métricas

estadísticas. A continuación se presentan los resultados obtenidos en todo el proceso del proyecto

de acuerdo a los objetivos planteados.

3.1.Análisis exploratorio de datos

El Análisis Exploratorio de Datos (EDA, por sus siglas en inglés) es una etapa crucial en

la ciencia de datos que tiene como objetivo comprender la estructura, relaciones y patrones en los

datos antes de aplicar cualquier modelo de regresión. A continuación, se presenta una lista para

llevar a cabo un EDA en un problema de regresión:

3.1.1. Cargar los datos

Antes de empezar con todo el proceso se realiza un análisis exploratorio inicial

cualitativo. Lo primero que se tiene que hacer es revisar la naturaleza de los datos, que

corresponde a las características o columnas presentes en el archivo a importar, revisar el formato

o tipo de dato que tienen. Para cargar los datos se tienen que tener muy en cuenta el formato

como es el caso, se utilizó CSV UTF-8 (delimitado por comas), este procedimiento se realiza

para evitar problemas al momento del reconocimiento de la base de datos por parte de las

librerías de visualización Jupyter (aplicación de código abierto para visualizar códigos de

programación en Python) oh Spyder (entorno de desarrollo integrado multiplataforma de código

abierto para la programación en Python). El conjunto de datos abarca desde el 17 de enero del

2022 hasta el 18 de mayo del 2023, existe un total de 462 datos (filas) y 4 variables (columnas), a

continuación se muestran detalles en la siguiente Tabla 2 de la base de datos que se utilizará:

43
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Tabla 2

Base de datos que se utilizará para el desarrollo del modelo

Producción Stripping Humedad Costos diarios de operación


Fecha
diaria (tn) Ratio (%) mina (US$/TN)

17/01/2022 514 0.3 7 2.10

18/01/2022 384 0.2 10.00 1.60

19/01/2022 1244 0.9 4.00 5.10

20/01/2022 516 0.3 6 2.10

21/01/2022 621 0.4 5 2.50

22/01/2022 817 0.6 6 3.30

24/01/2022 997 0.7 5 4.10

25/01/2022 606 0.4 6 2.50

26/01/2022 357 0.2 9 1.50

27/01/2022 360 0.2 9 1.50

Fuente: Adaptado de Unidad Minera Huinchos, por G. Lopez, 2022.

3.1.2. Identificación de inputs y outputs

Es muy importante reconocer las variables que se necesitaran para alimentar los modelos

y cuál es la variable objetiva o respuesta de la investigación, para ello se realiza una estructura

Tabla 3 de las variables de acuerdo al tipo de dato correspondiente.

Tabla 3

Características de las variables de estudio

Tipo de
Variable Condición Dimensión Tipo de dato
variable

44
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Producción Inputs Operación Numérica Float

Stripping ratio Inputs Operación Numérica Float

Humedad Inputs Operación Numérica Float

Costos diarios de
Output Operación Target Float
operación mina

3.1.3. Limpieza de datos

Hay que tener en claro que un conjunto de datos casi siempre esta asmero a errores de

digitación y también dentro de la misma base evidenciar la ausencia de datos en cada columna de

variables identificadas; es por ello que se debe realizar una limpieza de datos para tener una

mejor interpretación estadística. En la base de estudios se presenció un error de digitación en la

variable costo diario de operación mina con un valor de 0, este dato se atribuye a una mala

digitación porque no debe existir un valor asi en esta variable. La ausencia de valores nulos no se

evidenciaron en la base de datos como se aprecia en la Figura 22.

Figura 22

Valores nulos

45
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
3.1.4. Análisis estadístico

La interpretación estadística previa de las variables indica ciertas referencias del

comportamiento de cada variable. A continuación se enumeran cada análisis estadístico:

3.1.4.1.Descripción estadística

Se calcularán la media, mediana, desviación estándar, percentiles, etc., para cada variable

de estudio. En resumen, estos datos proporcionan una visión general de la distribución y

variabilidad de las variables. Sin embargo, se debe tener en cuenta que este es solo el primer paso

y puede ser útil complementar este análisis con visualizaciones y técnicas adicionales de

exploración de datos mediante gráficas. También es importante considerar el contexto específico

del problema y de la industria a la que pertenece. Se presenta un antes en Tabla 4 y un después en

Tabla 5 de realizar las correcciones de los errores en la base de datos, de la descripción estadística

con la finalidad de visualizar el comportamiento que genera dicho cambio.

Tabla 4

Descripción estadística antes de eliminar el error

Costo diario de
Característica Producción
Stripping Ratio Humedad (%) operación mina
estadística (tn/día)
(US$/tn)

count 462.00 462.00 462.00 462.00

mean 1031.92 0.87 5.94 4.97

std 497.14 0.47 2.39 2.37

min 130.00 0.00 0.00 0.00

25% 616.25 0.50 5.00 3.10

50% 1011.00 0.80 5.00 5.00

46
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

75% 1400.00 1.10 6.00 6.70

max 2484.00 2.500 19.00 12.60

Tabla 5

Descripción estadística después de eliminar el error

Costo diario de
Característica Producción
Stripping Ratio Humedad (%) operación mina
estadística (tn/día)
(US$/tn)

count 461.000000 461.000000 461.000000 461.000000

mean 1031.121475 0.855748 5.941432 4.989805

std 497.378850 0.469869 2.393569 2.365266

min 130.000000 0.000000 0.000000 0.500000

25% 616.000000 0.500000 5.000000 3.100000

50% 1011.000000 0.800000 5.000000 5.000000

75% 1400.000000 1.100000 6.000000 6.700000

max 2484.000000 2.500000 19.000000 12.600000

Para la variable producción, hay una amplia variabilidad, con una desviación estándar

relativamente alta en comparación con la media. Esto sugiere que hay una considerable variación

en la variable producción.

El 'Stripping Ratio' tiene una media de 0.86, lo que indica que el ratio promedio es

cercano a 1. Esto podría ser un indicador de cierta eficiencia en el proceso, pero es importante

considerar otros factores para evaluar su significado.

47
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
La 'Humedad' tiene un rango que va desde 0% hasta 19%, lo cual es bastante amplio. Esto

sugiere que la humedad puede variar significativamente y puede ser un factor importante a

considerar en el proceso.

Para el 'Costo diario de operación mina', la desviación estándar es alta en comparación

con la media, lo que indica una gran variabilidad en los costos. Esto es un área de interés para la

optimización o el control.

3.1.4.2.Identificación y tratamiento de outliers (atípicos)

Identificar y decidir cómo manejar los valores atípicos que puedan afectar el rendimiento

del modelo de regresión es esencial, este análisis se realizan mediante el diagrama de Box Plot

para tener una mejor visualización de los datos.

Figura 23

Box Plot de los datos antes de ser tratados los outliers

48
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Para el tratamiento de los valores atípicos antes de abordarlos, depende en gran medida

del contexto y de los objetivos del análisis o modelo. Aquí se describen algunas consideraciones

generales:

• Eliminar Outliers: Si los valores atípicos son errores de entrada o datos incorrectos, es

posible que se eliminen, ya que pueden distorsionar el análisis o modelo.

• Transformar los datos: En lugar de eliminar los valores atípicos, se puede considerar la

posibilidad de transformar los datos. Por ejemplo, se puede aplicar una transformación

logarítmica o una transformación Box-Cox a los datos para reducir el impacto de los

valores atípicos en el análisis o modelo.

• Modelos robustos: Algunos algoritmos de aprendizaje automático, como las máquinas de

soporte vectorial (SVM) o los árboles de decisión, son inherentemente, robustos ante los

valores atípicos. En este caso, no es necesario eliminarlos.

• Analizar por separado: Otra opción es analizar los datos con y sin valores atípicos para

evaluar cómo afectan a los resultados. Esto puede ayudar a comprender si los valores

atípicos tienen un impacto significativo en las conclusiones.

• Entender el dominio: Es importante considerar el contexto y la naturaleza de los datos.

Algunas veces, los valores atípicos pueden ser representativos de eventos raros, pero

importantes en el dominio y eliminarlos podría no ser apropiado.

Los valores atípicos, en donde tienen mayor presencia es en la variable “Humedad” se

visualiza en la Figura 23 se puede notar la distribución de las cuatro variables de estudio, su

mediana de la variable “Producción” es aproximadamente de 1000 y tienen mayor concentración

de valores en el rango de 600 a 1400. También se muestran la frecuencia de esos valores

encontrados. Se considera como una variable que no intervienen mucho en la determinación del

modelo a la “Humedad” y tienen una varianza mínima al momento de realizar la validación del

49
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
modelo, es por ello que se procede a eliminar esos valores atípicos.

Tabla 6

Valores atípicos

Variable Cantidad de valores atípicos

Stripping ratio 2

Humedad 11

Costos diarios de operación mina 2

Producción 0

Tabla 7

Descripción estadística posterior al tratamiento de valores atípicos

Características Producción Stripping Costo


Humedad (%)
estadísticas (tn/día) ratio (US$/tn)

count 367.00 367.00 367.00 367.00

mean 1058.62 0.90 5.05 5.14

std 490.26 0.47 0.73 2.25

min 130.00 0.00 4.00 0.70

25% 635.00 0.60 5.00 3.40

50% 1050.00 0.80 5.00 5.10

75% 1400.00 1.20 5.00 6.70

max 2484.00 2.50 7.00 12.60

50
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Figura 24

Frecuencia de los valores atípicos

Figura 25

Box plot posterior a la eliminación de los valores atípicos

51
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
3.1.4.3.Distribución de los datos

La distribución se realiza mediante los gráficos de histogramas y elección de la

distribución de probabilidad más adecuada para ajustar los datos, puede tener implicaciones

importantes al realizar una regresión. Aquí hay algunas consideraciones:

• Modelo de regresión: La elección de la distribución más adecuada puede influir en el tipo

de modelo de regresión a elegir. Por ejemplo, si se encuentra que la distribución más

adecuada es la gamma para la variable "Costo (US$/TN)", se pueden considerar modelos

de regresión basados en la distribución gamma, como la regresión gamma generalizada. Si

la distribución más adecuada es la lognormal, se podrían explorar modelos de regresión

lognormal.

• Precisión del modelo: Ajustar los datos a una distribución que se asemeje más a la

realidad puede mejorar la precisión del modelo de regresión. Cuando se utiliza una

distribución adecuada, es más probable que los parámetros del modelo sean estimaciones

precisas de los verdaderos parámetros subyacentes de la población.

• Predicciones más precisas: Utilizar una distribución que se ajuste bien a los datos puede

llevar a predicciones más precisas en el modelo de regresión. Esto es especialmente

importante si se planea realizar predicciones fuera del rango de datos observados.

• Interpretación de parámetros: La elección de la distribución también puede afectar la

interpretación de los parámetros del modelo. Cada distribución tiene su propia

interpretación de los parámetros, por lo que es importante comprender cómo se relacionan

con tu problema específico.

Las distribuciones con representación de diagramas de frecuencia y el tipo que generan

los datos se visualizan en la Figura 26.

52
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Figura 26

Distribución de frecuencia de las variables

En los análisis de los gráficos de Q-Q(quantile-quantile) es util para verificar que tipo de

distribución sigue cada variable si es teórica oh normal. En un Q-Q plot, los cuantiles observados

de tus datos se representan en el eje vertical, mientras que los cuantiles teóricos de la distribución

de referencia se representan en el eje horizontal. Si los puntos en el gráfico están cerca de una

línea diagonal, indica que tus datos se ajustan bien a la distribución teórica.

Para analizar los gráficos Q-Q plot se debe observar cómo se comportan los puntos en

relación con la línea diagonal. Aquí hay algunas pautas generales para interpretar los resultados:

• Puntos cerca de la línea diagonal: Indica que tus datos se ajustan bien a la

53
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
distribución teórica.

• Puntos por encima de la línea diagonal: Tus datos tienen colas más pesadas que la

distribución teórica.

• Puntos por debajo de la línea diagonal: Tus datos tienen colas más ligeras que la

distribución teórica.

• Curvatura hacia arriba o hacia abajo: Sugiere que tus datos no se ajustan bien a la

distribución teórica especificada.

La elección de la distribución de probabilidad más adecuada para ajustar los datos puede

tener implicaciones importantes al realizar una regresión. Algunas consideraciones incluyen:

• Modelo de regresión: La elección puede influir en el tipo de modelo a elegir.

• Precisión del modelo: Ajustar los datos a una distribución adecuada puede mejorar

la precisión.

• Predicciones más precisas: Una distribución adecuada conduce a predicciones más

acertadas.

• Interpretación de parámetros: La elección de la distribución afecta la interpretación

de los parámetros del modelo.

En este caso en particular, la distribución más adecuada para la variable "Costo (US/TN)"

es la gamma, lo que tiene implicaciones en la elección y evaluación del modelo de regresión.

Dada la cantidad de datos, es posible que la distribución esté submuestrada. Los modelos

seleccionados se justifican de la siguiente forma:

• Modelo Lineal (LinearRegression): Apropiado si las relaciones son

aproximadamente lineales y los errores son aproximadamente normales.

• Árbol de decisión (Decision Tree): Flexible y puede adaptar relaciones no

54
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Figura 27

Gráfica Q-Q Plot

55
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
lineales y complejas.

• Random Forest (RandomForestRegressor): Menos propenso al sobre ajuste y

proporciona importancia de las características.

• Máquina de Vectores de Soporte (SVR): Potente en modelar relaciones no

lineales.

• Gradient Boosting (GradientBoostingRegressor): Capaz de modelar relaciones

complejas y no lineales.

• Perceptrón Multicapa (MLP): Capaz de aprender representaciones de datos

complejas.

La elección de estos modelos se basa en las distribuciones de las variables, pero es

esencial realizar pruebas adicionales y evaluaciones del modelo para determinar su adecuación.

Como se puede observar en la Figura 27 todas las variables tienen un comportamiento

normal referente a sus datos y por lo mencionado líneas arriba a cada algoritmo de estudio no es

necesario realizar ninguna transformación porque pueden trabajar con esta distribución sin

ningún problema, pero siempre es importe de su conocimiento.

3.1.4.4.Correlación de variables

Mediante una matriz de correlación y un gráfico de dispersión se puede distinguir la

correlación entre las variables de estudio para poder comprender el comportamiento de sus datos.

Desde este punto es importante tener en cuenta ya un conocimiento general para aplicar

adecuadamente el modelo de predicción a emplear.

Tienen una distribución bien marcada las variables de producción y costos diarios de

operación a comparación de las demás relaciones que son muy dispersa que se puede vizualizar

en la Figura 28.

56
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Figura 28

Gráfica de dispersión de los datos

Este gráfico va indicando la relación más óptima entre la variable respuesta y las variables

de entrada para identificar la tendencia de la mejor correlación y así poder aplicar nuestro

conocimiento en el análisis estadístico en la base a los datos. Como se puede observar en la

Figura 29 hay un comportamiento interesante entre la varible “Costos diarios de operación mina

57
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
(US$/tn) y la variable producción con un valor del 91%.

Figura 29

Matriz de correlación entre variables

3.2.Determinación de la variable independiente más relevante

Para poder identificar la variable de entrada de mayor relevancia se utilizó la técnica de

selección de características. El uso del modelo Random Forest Regressor para determinar la

importancia de las características es una práctica común y ampliamente aceptada en el análisis de

datos y la ciencia de datos. Existen varias razones que justifican el uso de este algoritmo, se

58
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

detallan a continuación.

• Intuitividad: La importancia de las características del Random Forest se calcula

basándose en la frecuencia con la que un atributo se utiliza para dividir los datos y cuánto

mejora la impureza (por ejemplo, la varianza en el caso de regresión) en esos splits.

Intuitivamente, si un atributo es a menudo seleccionado para dividir y cuando lo hace,

crea splits que son altamente "puros", ese atributo es probablemente muy importante.

• No linealidad e interacciones: A diferencia de la regresión lineal, que supone relaciones

lineales y no captura interacciones a menos que se especifiquen explícitamente, Random

Forest puede capturar automáticamente no linealidades e interacciones entre

características. Esto significa que la importancia de las características que obtenemos

refleja estas complejidades.

• Robustez frente a variables irrelevantes: Si se incluyen características que son puramente

ruidosas o irrelevantes, un Random Forest tiende a no sobre ajustarse a estas

características y su importancia resultante será baja.

• Consistencia: Mientras que un único árbol puede ser muy variable y por lo tanto,

proporcionar una importancia de características que puede cambiar considerablemente con

pequeñas variaciones en los datos, un Random Forest, al promediar a través de muchos

árboles, tiende a ser más estable y proporciona una visión más confiable de la importancia

de las características.

• No requiere supuestos estrictos: A diferencia de otros métodos, como la regresión lineal

que tiene supuestos sobre la distribución de los errores, la homoscedasticidad, entre otros

Random Forest no tiene supuestos tan estrictos.

• Importancia basada en el Out-of-Bag (OOB) error: Random Forest tiene una ventaja única

durante el entrenamiento, aproximadamente un tercio de los datos no se utilizan para

59
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
construir cada árbol (estos datos son conocidos como datos "out-of-bag" o OOB). Estos

datos OOB se pueden usar para obtener una estimación imparcial del error de predicción y

por lo tanto, proporcionar una medida de importancia de características basada en el

decrecimiento en precisión cuando los valores de una característica en particular son

aleatorizados.

Basándonos en los resultados de la importancia de características obtenidos del modelo

Random Forest los resultados se pueden apreciar en la Tabla 8.

Tabla 8

Importancia de las variables independientes en el estudio

Variable independiente Importancia

Stripping ratio 0.08

Humedad 0.02

Producción 0.90

3.3.Entrenamiento y testeo del modelo

Posteriormente al análisis de los datos, el paso siguiente es la construcción de los modelos

de regresión. Para poder construir un modelo de regresión se deben tener en cuenta lo siguiente:

• División del conjunto de datos: Dividir los datos en un conjunto de

entrenamiento(train=80%) y un conjunto de prueba (test=20%). El conjunto de

entrenamiento se utilizará para entrenar el modelo, mientras que el conjunto de prueba se

utilizará para evaluar su rendimiento.

• Escalamiento de los datos: El escalamiento depende mucho del comportamiento del

algoritmo frente a las diferentes escalas de las variables, en muchos de los casos no

interviene y difieren algunos algoritmos de este procedimiento.

60
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

• Entrenamiento del modelo: Elegir un algoritmo de regresión (por ejemplo, Regresión

Lineal, Random Forest Regressor, etc.) y entrenar el modelo utilizando el conjunto de

entrenamiento.

Para generar modelos con resultados muy satisfactorios para cada modelo se utilizó

GridSearchCV. El GridSearchCV es una técnica de optimización que busca los mejores

hiperparámetros para un modelo, basándose en el rendimiento del mismo durante la validación

cruzada. Su funcionamiento se describe a continuación:

• Definir el espacio de búsqueda: Antes de usar GridSearchCV, decides qué

hiperparámetros del modelo deseas optimizar y qué valores quieres probar para cada uno.

Esto se conoce como espacio de búsqueda.

• Validación Cruzada: GridSearchCV utiliza la validación cruzada para evaluar el

rendimiento del modelo con cada combinación de hiperparámetros. En la validación

cruzada, el conjunto de datos de entrenamiento se divide repetidamente en un conjunto de

entrenamiento y un conjunto de validación. El modelo se entrena con el conjunto de

entrenamiento y se evalúa con el conjunto de validación. Esto se repite varias veces.

• Seleccionar la mejor combinación: Después de evaluar todas las combinaciones,

GridSearchCV selecciona los hiperparámetros que dieron el mejor rendimiento en

promedio durante la validación cruzada.

• Entrenamiento final: Una vez identificados los mejores hiperparámetros, GridSearchCV

reentrena el modelo en todo el conjunto de datos de entrenamiento usando estos

hiperparámetros óptimos.

En resumen, GridSearchCV es una herramienta que realiza una búsqueda exhaustiva sobre

un conjunto predefinido de hiperparámetros para encontrar la combinación óptima, basándose en

el rendimiento del modelo durante la validación cruzada.

61
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
3.3.1. Regresión Lineal

Es importante escalar los datos cuando se utiliza regularización (por ejemplo, Ridge o

Lasso), ya que estos métodos son sensibles a la escala de las características. Si no se está

utilizando regularización, la Regresión Lineal puede funcionar bien sin escalar los datos. Sin

embargo, la escala adecuada de las características puede ayudar en la interpretación de los

coeficientes.

Se designó los hiperparámetrosTabla 9 y luego mediante la técnica GridSearchCV se

elegirá a la mejor Tabla 10.

Tabla 9

Hiperparámetros designados para Regresión Lineal

Fit intercep

True

False

Tabla 10

Hiperparámetros elegidos por GridSearchCV para Regresión Lineal

Fit intercep

False

Tabla 11

Resultados luego de aplicar el modelo de Regresión Lineal

Muestra Real Estimado Error

62
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

0 8.4 7.720798 -0.679202

1 4.3 4.973580 0.673580

2 2.3 3.025698 0.725698

3 4.1 3.982684 -0.117316

4 3.4 4.263192 0.863192

Los resultados como se pueden observar Tabla 11 y Figura 30 tienen un error positivo y

negativo muy latente acercándose a la unidad.

Figura 30

Representación gráfica luego de aplicar el modelo de regresión lineal

63
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
3.3.2. Árbol de decisión

Insensible a la normalización y a la estandarización del conjunto de datos, principalmente

este modelo genera decisiones consecutivas y no utiliza regularización.

Se designó los hiperparámetros Tabla 12 y luego mediante la técnica GridSearchCV se

eligirá a la mejor combinación posible Tabla 13 y Tabla 10.

Tabla 12

Hiperparámetros designados para Árbol de Decisión

Hiperparámetros Árbol de Decisión

Max _depth None 5 10 15 20

min_samples_split 2 5 10 - -

min_samples_leaf 1 2 4 - -

splitter best random - - -

Tabla 13

Hiperparámetros elegidos por GridSearchCV para Árbol de Decisión

Hiperparámetros Árbol de Decisión

Max _depth None - - - -

min_samples_split - - 10 - -

min_samples_leaf - - 4 - -

splitter - random - - -

Los resultados muestran un alejamiento de cero considerado en la representación de las

primeras 5 muestra como se observa en la Tabla 14 y la Figura 31.

64
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Figura 31:

Representación gráfica luego de aplicar el modelo del Árbol de Decisión

Tabla 14

Resultados luego de aplicar el modelo del Árbol de Decisión

Muestra Real Estimado Error

0 8.4 7.342857 -1.057143

1 4.3 5.130000 0.830000

2 2.3 2.460000 0.160000

3 4.1 3.966667 -0.133333

4 3.4 3.966667 0.566667

3.3.3. Random Forest

No es sensible a la escala de las características presentes de cada variable dentro de sus

datos.

65
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Se designó los cinco hiperparámetros Tabla 12 y luego mediante del uso de la técnica

GridSearchCV se adaptaron 5 pliegues para cada uno de los 216, con un total de 1080 ajustes y

dentro de ellos eligió la mejor combinación posible Tabla 16 y Tabla 10.

Tabla 15

Hiperparámetros designados para Random Forest

Hiperparámetros Random Forest

N_estimators 50 100 200 -

max_depth none 10 20 30

min_samples_leaf 1 2 4 -

min_samples_split 2 5 10 -

bootstrap True False - -

Tabla 16

Hiperparámetros elegidos por GridSearchCV para Random Forest

Hiperparámetros Random Forest

N_estimators - - 200 -

max_depth none - - -

min_samples_leaf - - 4 -

min_samples_split 2 - - -

bootstrap True - - -

Los resultados estimados que se puede apreciar en la Tabla 17 y Figura 32 muestran un

sensible alejamiento de los valores reales.

66
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Tabla 17

Resultados luego de aplicar el modelo de Random Forest

Muestra Real Estimado Error

0 8.4 7.681460 -0.718540

1 4.3 5.088107 0.788107

2 2.3 2.721059 0.421059

3 4.1 3.849215 -0.250785

4 3.4 4.321603 0.921603

Figura 32

Representación gráfica luego de aplicar el modelo de Random Forest

3.3.4. Máquinas de Vector Soporte (SVR)

Es un algoritmo que utiliza distancias entre puntos de datos en el espacio de sus

características, por lo que es importante escalar los datos para que todas las características

contribuyan de manera equitativa al modelo. Especialmente si se utiliza un kernel lineal, la escala

67
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
de las características es crítica.

Se designarán los cinco hiperparámetros Tabla 18 y luego mediante del uso de la técnica

GridSearchCV se adaptaron 5 pliegues para cada uno de los 540, con un total de 2700 ajustes y

dentro de ellos eligió la mejor combinación posible Tabla 19

Tabla 18

Hiperparámetros designados para Máquinas de Vector Soporte

Hiperparámetros SVR

c 0.1 1 10 100 -

kernel linear rbf poly - -

gamma auto scale 0.01 0.1 1

Coef0 -1 0 1 - -

degree 2 3 4 - -

Tabla 19

Hiperparámetros elegidos por GridSearchCV para Máquinas de Vector Soporte

Hiperparámetros SVR

c 0.1 - - - -

kernel - - poly - -

gamma - scale - - -

Coef0 - - 1 - -

degree 2 - - - -

Muestra un comportamiento del error en los primeras 5 muestras no muy lejos de cero, en

68
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

la Figura 33 y Tabla 20, refleja que el modelo tiene un comportamiento resaltante.

Tabla 20

Resultados luego de aplicar el modelo del SVR

Muestra Real Estimado Error

0 8.4 7.538657 -0.861343

1 4.3 4.933673 0.633673

2 2.3 3.000377 0.700377

3 4.1 4.181089 0.081089

4 3.4 4.385198 0.985198

Figura 33

Representación gráfica luego de aplicar el modelo del SVR

3.3.5. Gradient Boosting

No es especialmente sensible a la escala de las características. En general, no es necesario

escalar los datos para utilizar Gradient Boosting. Sin embargo, si utilizamos características con

69
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
diferentes escalas, es posible que se desee considerar la estandarización para asegurarse de que el

modelo pueda aprender de manera eficiente.

Se designó los cinco hiperparámetros Tabla 21 y luego mediante del uso de la técnica

GridSearchCV se adaptaron 5 pliegues para cada uno de los 972, con un total de 4860 ajustes y

dentro de ellos eligió la mejor combinación posible Tabla 22.

Tabla 21

Hiperparámetros designados para Gradient Boosting

Hiperparámetros Gradient Boosting

n_estimators 50 100 200 -

max_depth 3 4 5 6

learning_rate 0.01 0.05 0.1 -

subsample 0.8 0.9 1 -

min_samples_split 2 3 4 -

min_samples_leaf 1 2 3 -

Tabla 22

Hiperparámetros elegidos por GridSearchCV para Gradient Boosting

Hiperparámetros Gradient Boosting

n_estimators - 100 - -

max_depth 3 - - -

learning_rate - 0.05 - -

subsample - - 1 -

70
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

min_samples_split 2 - - -

min_samples_leaf 1 - - -

Los resultados reflejados en Tabla 23 y Figura 34 son favorables porque los errores son

pequeños valores que son apropiados para generar buenas conclusiones.

Tabla 23

Resultados luego de aplicar el modelo de la Gradient Boosting

Muestra Real Estimado Error

0 8.4 7.723188 -0.676812

1 4.3 5.086317 0.786317

2 2.3 2.779455 0.479455

3 4.1 3.943612 -0.156388

4 3.4 4.327463 0.927463

Figura 34

Representación gráfica luego de aplicar el modelo de la Gradient Boosting

3.3.6. Red neuronal perceptrón

71
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Para realizar este modelo si es necesario el escalamiento de datos con la finalidad de

evitar sobre ajustes al momento de realizar las predicciones. El modelo presentado es un

Perceptrón Multicapa desarrollado con Keras, diseñado para abordar problemas de regresión.

Consta de dos capas ocultas: la primera tiene 50 neuronas y la segunda 25, ambas con la función

de activación ReLU. Para combatir el sobreajuste, se incorpora una regularización L2 en las

capas y se utiliza Dropout, desactivando aleatoriamente el 20% de las neuronas durante el

entrenamiento. La capa de salida es densa con una única neurona, ideal para tareas de regresión.

El modelo se compila con el optimizador Adam y utiliza el Error Cuadrático Medio (MSE) como

función de pérdida. Se utiliza el método fit para entrenar el modelo en los datos de

entrenamiento. Se definen 40 épocas y un tamaño de lote de 32. Los datos de validación (en este

caso, los datos de prueba) se pasan para monitorizar la pérdida en un conjunto de datos que el

modelo no ha visto durante el entrenamiento.

Tabla 24

Resultados luego de aplicar el modelo de una Red neuronal perceptrón

Muestra Real Estimado Error

0 8.4 4.914339 -3.485661

1 4.3 5.167977 0.867977

2 2.3 5.302735 3.002735

3 4.1 5.349960 1.249960

4 3.4 9.417115 6.017115

72
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Figura 35

Representación gráfica de la Red Neuronal Perceptrón

Los resultados como se muestran en la Tabla 24 y Figura 35 tiene errores muy elevados y

está totalmente diferenciada del los demás modelos por la existencia de estos márgenes al

predecir el costo diario de operación mina.

Figura 36

Perdida durante el entrenamiento de la Red neuronal perceptrón

73
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
La Figura 36 representa la evolución de la pérdida (loss) y la pérdida de validación

(val_loss) a lo largo de las épocas durante el entrenamiento del modelo. Se describen las

observaciones a continuación:

• Tendencia general: Ambas pérdidas, tanto la del conjunto de entrenamiento como

la de validación, muestran una tendencia decreciente, lo que indica que el modelo

está aprendiendo y mejorando su capacidad predictiva a medida que se entrena.

• Diferencia entre pérdida y pérdida de validación: Inicialmente, la pérdida en el

conjunto de entrenamiento es mayor que en el conjunto de validación. Sin

embargo, esta diferencia se va reduciendo a medida que avanzan las épocas hacia

el final del entrenamiento, la pérdida en el conjunto de entrenamiento es

ligeramente menor que la pérdida de validación. Esta es una señal positiva porque

indica que el modelo no está sobre ajustando los datos, es decir, no está

memorizando el conjunto de entrenamiento a expensas de su capacidad de

generalización.

• Planteamiento en la pérdida de validación: Si bien la pérdida de validación sigue

disminuyendo, la tasa de reducción disminuye hacia el final, lo que sugiere que el

modelo podría estar empezando a alcanzar su límite de mejora en el conjunto de

validación. No obstante, aún no vemos un claro signo de sobre ajuste, ya que no

hay un aumento significativo en la pérdida de validación.

3.4. Validación del modelo

Finalmente cada modelo generado es validado mediante métricas que ayudan en dicha

evaluación para verificar cual de los modelos entrenados es el que se comporta mejor y tienen

mejores resultados. Para ello presentaremos cada modelo con sus valores de sus métricas que

74
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

obtuvieron luego del entrenamiento y el testeo.

Tabla 25

Resultados de las métricas del modelo de Regresión Lineal

Varianza Error
Tipo de datos MSE RMSE R2 MAE
explicada máximo

Entrenamiento 0.85519 0.92477 0.83964 0.83971 4.97475 0.63872

Testeo 0.77711 0.88154 0.79177 0.80513 3.74992 0.62705

Tabla 26

Resultados de las métricas del modelo de Árbol de Decisión

Varianza Error
Tipo de datos MSE RMSE R2 MAE
explicada máximo

Entrenamiento 0.78066 0.88355 0.85362 0.85362 4.7 0.60602

Testeo 0.80011 0.89449 0.78561 0.79208 3.3 0.64060

Tabla 27

Resultados de las métricas del modelo de Random Forest

Varianza Error
Tipo de datos MSE RMSE R2 MAE
explicada máximo

Entrenamiento 0.58048 0.76189 0.89115 0.89117 4.23315 0.52392

Testeo 0.69785 0.83537 0.81301 0.82108 3.33390 0.59045

75
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Tabla 28

Resultados de las métricas del modelo de SVR

Varianza Error
Tipo de datos MSE RMSE R2 MAE
explicada máximo

Entrenamiento 0.88576 0.94115 0.83391 0.83412 4.53663 0.73819

Testeo 0.78210 0.88436 0.79043 0.80722 3.33409 0.69946

Tabla 29

Resultados de las métricas del modelo de Gradient Boosting

Varianza Error
Tipo de datos MSE RMSE R2 MAE
explicada máximo

Entrenamiento 0.45018 0.67095 0.91559 0.91559 3.75276 0.49108

Testeo 0.78675 0.88699 0.78919 0.79877 3.24154 0.64200

Tabla 30

Resultados de las métricas del modelo de Red Neuronal Perceptrón

Varianza Error
Tipo de datos MSE RMSE R2 MAE
explicada máximo

Entrenamiento 6.87087 2.62123 -0.28836 -0.28574 7.62769 2.15447

Testeo 4.83640 2.19918 -0.29592 -0.27194 5.76848 1.80299

Para tener mejor la visión de las métricas de validación de los modelos durante el

entrenamiento y posterior al testeo se representarán gráficamente para tener una mejor

interpretación.

76
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Figura 37

Comparación del valor de la métrica de R2 de todos los modelos

Figura 38

Comparación del valor de la métrica de MSE de todos los modelos

77
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Figura 39

Comparación del valor de la métrica de RMSE de todos los modelos

Figura 40

Comparación del valor de la métrica de Varianza Explicada de todos los modelos

78
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Figura 41

Comparación del valor de la métrica de Error Máximo de todos los modelos

Figura 42

Comparación del valor de la métrica de MAE de todos los modelos

79
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Tabla 31

Resultados del valor real vs valor estimado

Muestra Real Estimado Error

0 8.4 7.723188 -0.676812

1 4.3 5.086317 0.786317

2 2.3 2.779455 0.479455

3 4.1 3.943612 -0.156388

4 3.4 4.327463 0.927463

En la Tabla 31 se visualizan los valores reales y los estimados por el mejor modelo

encontrado el Gradient Boosting, este modelo arroja los mejores resultados a comparación del

resto.

80
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Capítulo IV: Análisis y discusión

Según Castillo (2022), en su trabajo de investigación, en donde hace hincapié en la importancia

del análisis previo antes del uso de cualquier algoritmo, con la finalidad de visualizar el

comportamiento de los datos, de acuerdo a ello en mi investigación se logró analizar los datos y

esto me ayudó a tomar mejores decisiones al momento de elegir un modelo, obteniendo asi un

mejor desempeño del modelo con un valor del 5% por encima del modelo creado por anomalías.

También se logró encontrar una correlación bien marcada del 91% entre las variables produción y

costos diarios de operación mina.

Se logro en mi investigación determinar el porcentaje de incidencia de cada una de las

variables mediante Regresión Lineal la variable de producción tuvo un valor del 80%, con

Random Forest un valor de 91% y con Gradient Boosting un valor de 93% de influencia para

predecir los costos diarios de operación mina. Siendo así el algoritmo de Gradient Boosting el

más representativo para determinar la importacia de las variable que perimitará predecir los

costos diarios de operación mina. Según Castillo (2022), en su investigación tambien identifica

las variables que más incidencia tienen en su modelo mediante el algoritmo de Random Forest y

Gradient Boosting, obteniendo así los mejores resultados con la Grandient Boosting.

Nuerali & Osanloo (2018), en su artículo de investigación encontró un modelo de Árbol

de Decisión para estimar el costo de capital minero, este algoritmo les arrojó las siguientes

métricas, el RMSE tuvo un valor de 219.36 y el MAE un valor de 178.5, por lo cual concluyeron

que su modelo puede ser aplicado en cualquier mina. En el caso de mi investigación se realizó

una evaluación de la Figura 37, Figura 38, Figura 39, Figura 40, Figura 41y Figura 42 las cuales

representan las métricas, producto de la validación cruzada usando GridSearchCV en todos los

algoritmos de entrenamiento y prueba, el algoritmo más representativo que brindó mejores

81
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
resultados fue el Gradiente Boosting con un coeficiente de determinación (R2) superior al 92% en

entrenamiento y 78% en prueba, un MAE de 0.49 y un RMSE de 0.67; estos valores refleja que

este modelo es el idóneo para la predicción de los costos diarios de operación mina. Se afirma

también que los modelos de Regresión Lineal, Árbol de Decisión y Random Forest aplicados en

esta investigación, de acuerdo a la evaluación de sus métricas pueden ser considerados también,

porque sus coeficientes de determinación son superiores al valor de 70% que se plantea como un

objetivo en esta investigación.

Carbajal (2021), implemento un modelo de costos para una mina, partiendo de la

recolección de datos y el análisis de toda la operación, dicho modelo fue una herramienta de

apoyo en la planificación. Asimismo Vargas (2015), creó un modelo ABC para los costos basado

en actividades de gestión de la operación minera, dicho modelo generó un error del 3.7%.

Además Parra (2011), construyó una función translogarítmica de costos operacionales y tuvo

como objetivo definir el costo mínimo según el nivel de producción e identificó que la variable

más importante fue los costos de producción en la evaluación económica de un proyecto minero.

En mi investigación el uso de la inteligencia artificial brinda una nueva perspectiva porque no fue

empleada anteriormente para predecir los costos diarios de operación mina, pero si se empleó

otros tipos de modelos, de acuerdo a toda la investigación, análisis y evaluación se determinó que

el mejor modelo para predecir los costos diarios de operación mina fue el Grandient Boosting con

un coeficiente de determinación (R2) de 93%.

82
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Capítulo V: Conclusiones

El análisis exploratorio de datos me permitió encontrar y tratar los valores atípicos que

fueron un 20% del total, con la finalidad de generar un modelo predictivo óptimo y también se

obtuvo un mejor modelo de predicción con un valor del 5% más con respecto al modelo con

anomalías.

Se logró identificar la variable que más contribuye en la predicción de los costos diarios

de operación mina aplicando los algoritmos de inteligencia artificial fue la producción con un

valor del 93 % aplicando Gradient Boosting y 91% aplicando Random Forest.

Se concluye que el modelo de Machine Learning encontrado para predecir el “costo diario

de operación mina en Unidad Minera Huinchos fue el Gradiente Boosting con un coeficiente de

determinación (R2) mayor al 92% y un RMSE de 0.67 siendo así el más favorable para cumplir

con el objetivo de estudio.

Finalmente concluye que el modelo de predicción más notable mediante las validaciones

correspondientes se destaca el Gradient Boosting para estimar los costos diarios de operación

mina. Este modelo permitirá corregir y ajustar a tiempo los parámetros operativos de la mina, si

el costo diario de operación mina no es el esperado, con la finalidad de mantener la rentabilidad

de la Unidad Minera Huinchos.

83
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Capítulo VI: Recomendaciones

Se recomienda que antes de entrenar un modelo de regresión se debe realizar un análisis

exploratorio de datos para evitar posibles sobre estimaciones del modelo encontrado.

Se recomienda designar cierto porcentaje de 80% y 20% de base de datos par entrenar y

validar respectivamente el modelo.

Para generar un modelo más robusto con buenos resultados, se recomienda considerar más

variables independientes que contribuyan en la predicción del costo diario de operación mina.

Gracias a los resultados obtenidos se recomienda el uso de la Gradient Boosting para

predecir los costos diarios de operación mina solamente para la Unidad Minera Huinchos, porque

otras unidas cuentan con parámetros operativos diferentes.

En la industria minera es de gran importancia el control de los costos diarios operativos de

mina, porque permiten que haya una mejor rentabilidad de la mina, se sabe que la gran mayoría

de las empresas mineras no tienen en cuenta la predicción de los costos diarios operativos, ante

este problema se recomienda la aplicación de inteligencia artificial a este campo para tomar

medidas correctivas a tiempo.

Para trabajos futuros se recomienda tener la precisión adecuada en la toma de datos para

generar modelos más representativos y conocer el funcionamiento de los algoritmos de

inteligencia artificial con la finalidad de predecir los costos diarios de operación mina que ayudan

a tomar decisiones al momento de optimizar las operaciones.

84
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Capítulo VII: Referencias bibliográficas

Aghajani, B., Mokhtari, H., Hakimiyan, M., & Bakhshandeh, H. (2019). Application of simulated

annealing for optimization of blasting costs due to air overpressure constraints in open-pit

mines. Journal of Mining and Environment (JME), 903-916.

Alonso, T. (2021). Análisis de herramientas para el estudio de técnicas de aprendizaje

automático. Madrid: Universidad de Alcalá. Escuela Politécnica Superior.

doi:10017/49663

Ambar, J. (2023). Los 10 usos principales de la Inteligencia Artificial en la minería. Mining

digital, 1-5.

Betancourt, D. (06 de Octubre de 2023). Cómo hacer un diagrama de dispersión: Ejemplo en

calidad. Obtenido de Igenio Empresa: www.ingenioempresa.com/diagrama-de-dispersion.

Bobadilla, S. J. (2020). Machine Learning y Deep Learning. Madrid: Grupo editorial Rama.

Callejas, I., Piñeros, J., Rocha, J., Hernández, F., & Delgado, F. (2013). Implementación de una

red neuronal artificial tipo SOM en una FPGA para la resolución de trayectorias tipo

laberinto. II International Congress of Engineering Mechatronics and Automation

(CIIMA), 1-6.

Carvajal, J. (2021). Implementación de un modelo de costos operacionales para Minera

Centinela. Tesis de pregrado, Universidad de Chile, Departamento de ingenieria de minas,

Santiago de Chile.

Castillo, Ó. (2022). Desarrollo de modelos predictivos de regresión en la industria minera

mediante el uso de algoritmo de Machine Learning. Tesis para optar el título profesional

de ingeniero de minas, Universidad Nacional Mayor de San Marcos, Facultad de

85
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
ingeniería geológica, minera, metalúrgica y geográfica; Escuela profesional de ingenieria

de minas, Lima.

Cueva, V. (2022). Control de tiempos improductivos mediante el modelo de regresión lineal para

mejorar la productividad en el proceso de acarreo en la empresa OPEMIP S.A.C. – U.M.

San Rafael. Tesis de pregrado, Universidad Tecnológica de Perú, Departamento de

ingeniería de minas, Arequipa.

Dougall, A. (2015). Identification of key performance areas and indicators in the southern

African underground coal mining delivery environment . 26th Annual General Meeting &

Conferenc.

Duran, S. (16 de Setiembre de 2022). Que son los costos operativos y ejemplos. Obtenido de

Docu Sing: https://www.docusign.mx/blog/costos-operativos

Horber, E., & Ladiray, D. (1995). Análisis Exploratorio de los datos. Caracas: I Seminario de

Capacitación de docentes en “Producción y tratamiento de datos de Investigación en

ciencias humanas”.

Jenni, A. M., & Chris, J. (2019). Machine Learning in medicine: a practical introduction. BMC

Medical Research Methodology, 64. doi:10.1186/s12874-019-0681-4

Joaquín, R. (1 de Octubre de 2020). Árboles de decisión con Python: regresión y clasificación.

Obtenido de Ciencia de datos:

https://cienciadedatos.net/documentos/py07_arboles_decision_python

Joaquín, R. (1 de Diciembre de 2020). Máquinas de Vector Soporte (SVM) con Python. Obtenido

de Ciencia de datos: https://cienciadedatos.net/documentos/py24-svm-python

Joaquín, R. (1 de Octubre de 2020). Regresion lineal con Python . Obtenido de Ciencia de datos:

https://www.cienciadedatos.net/documentos/py10-regresion-lineal-python.html

86
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Joaquín, R. (1 de Setiembre de 2023). Gradient Boosting con Python. Obtenido de Ciencia de

datos: https://cienciadedatos.net/documentos/py09_gradient_boosting_python

Joaquín, R. (1 de Setiembre de 2023). Random Forest con Python. Obtenido de Ciencia de datos:

https://cienciadedatos.net/documentos/py08_random_forest_python

Mcleod, S. (2023). Diagrama de caja explicado: interpretación, ejemplos y comparaciones.

Simply Psychology, 1-11.

Navia, C., Monsalve, M., & Franco, G. (2017). Análisis del VPN en función de la tasa de

descuento y el costo de remanejo implementando SIMSCHED DBS para una explotación

minera a cielo abierto. Boletín de ciencias de la tierra, 80-85.

Nuerali, H., & Osanloo, M. (2018). A regression-tree-based model for mining capital.

International Journal of Mining, Reclamation and Environment,, 1-13.

Ospina, J., Osorio, J., Henao, Á., Palacio, D., & Giraldo, J. (2020). Challenges and Opportunities

for the Mining Industry as a Potential Driver of Development in Colombia. Tecnológicas,

23(50).

Parra, A. (2011). Construcción de una función de costos operacionales para producción de

cobre. Tesis de maestría, Universiad de Chile, Facultad de ciencias físicas y matemáticas ,

Santiago de Chile.

Parra, J. (2002). Análisis exploratorio y análisis confirmatorio de datos. Espacio Abierto, 11(1),

115-124.

Pistilli, M. (17 de Mayo de 2023). Stripping Ratios: What are They and Why are They Important?

(Updated 2023). Obtenido de Investing News Network:

https://investingnews.com/daily/resource-investing/base-metals-investing/copper-

investing/strip-ratio-western-copper-gold-nemaska-lithium/

87
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Raissi, M., Perdikaris, P., & Karniadakis, G. (2019). Physics-informed neural networks: A deep

learning framework for solving forward and inverse problems involving nonlinear partial

differential equations. Journal of Computational Physics, 378, 686-707.

Schwarz, M. D. (2018). Inteligencia Artificial en la industria minera. Energiminas, 56-57.

Obtenido de https://hdl.handle.net/20.500.12724/7347

Soto, D., Giraldo, J., Vargas, F., Jiménez, J., & Valderrama, A. (2020). Monitoreo de indicadores

de valor a través de minería de datos,gestión de procesos de negocio y mejoramiento

continuo con gestión del riesgo. Revista Ingenierías Universidad de Medellí, 19(37), 93-

118.

Turing, A. (1950). Maquinaria informática e inteligencia. The mind associatión, 433-460.

doi:10.1093/mind/LIX.236.433

Vergara, M. (2015). Construcción de una función de costos operacionales para producción de

cobre de operaciones de una mina subterránea explotada por block caving. Tesis de

maestría , Pontífice Universidad Católica de Chile, Escuela de ingeniería , Santiago de

Chile.

Westreicher, G. (1 de Julio de 2020). Histograma. Obtenido de Economipedia:

https://economipedia.com/definiciones/histograma.html

88
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Capítulo VIII: Anexos

89
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
ANEXO I

Carta de autorización

90
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Figura 43

Carta de autorización

91
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
ANEXO II

Instrumentos de recolección de datos

92
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Tabla 32

Plantilla del reporte de costos operativos diarios

Fecha Producción (tn) Stripping Ratio Humedad (%) Costos (US$)

Tabla 33

Plantilla de observación de las reuniones y reparto de guardia

Problema Solución Personal a cargo Plazos

93
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Tabla 34

Plantilla para el reconocimiento de variables

Tipo de
Variable Condición Dimensión Tipo de dato
variable

Tabla 35

Plantilla de correlación de variables

Producción Stripping ratio Humedad Costo diario operación

Producción

Stripping

ratio

Humedad

Costo diario

de operación

Tabla 36

Plantilla para recolectar los resultados

Toma Valor real Valor estimado Error

94
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Tabla 37

Métricas de validación del modelo

Métrica Valor Algoritmo

95
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
ANEXO II

Matriz de consistencia y operacionalización de variables

96
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Figura 44

Matriz de consistencia

97
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Figura 45

Operacionalización de variables

98
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

ANEXO IV

Validación de instrumentos

99
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Figura 46

Ficha de validación de instrumentos juicio de experto

100
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

ANEXO V

Planos de ubicación y geología

101
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Figura 47

Plano de ubicación de la UMH

102
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Figura 48

Plano geológico de la UMH

103
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
Anexo R.R. O 384-2018/UNT Pág. 1 de 5

UNIVERSIDAD NACIONAL DE TRUJILLO


RECTORADO
UNT UNIVERSIDAD NACIONAL DE TRUJILLO
CARTA DE AUTORIZACIÓN DE PUBLICACIÓN DE TRABAJO DE
INVESTIGACIÓN EN REPOSITORIO DIGITAL RENATI-SUNEDU
Trujillo, 20 de octubre del 2023
El autor suscrito del INFORME FINAL DE INVESTIGACIÓN CIENTIFICA
Titulado: “Modelo matemático para pronosticar los costos diarios de operación mina
en Unidad Minera Huinchos - Apurímac -2023”
AUTORIZAMOS SU PUBLICACIÓN EN EL REPOSITORIO DIGITAL INSTITUCIONAL, REPOSITORIO
RENATI-SUNEDU, ALICIA-CONCYTEC, CON EL SIGUIENTE TIPO DE ACCESO:
A. Acceso Abierto: x
B. Acceso Restringido (datos del autor y resumen del trabajo)
C. No autorizo su Publicación
Si eligió la opción restringido o NO autoriza su publicación sírvase justificar ............................................................
.........................................................................................................................................................................................
ESTUDIANTES DE PREGRADO: TRABAJO DE INVESTIGACIÓN TESIS
ESTUDIANTES DE POSTGRADO: TESIS MAESTRÍA
X
TESIS DOCTORADO

CONDICIÓN CÓDIGO
(NOMBRADO, Docente asesor Autor
N° APELLIDOS Y NOMBRES FACULTAD CONTRATADO, Número Coautor
EMÉRITO, Matrícula del asesor
estudiante, OTROS) estudiante
SICCHA RUIZ, ORLANDO ALEX INGENIERIA AUXILIAR 5233 ASESOR
TICLIA VÁSQUEZ, HIMBER INGENIERIA BACHILLER 22134005-15 AUTOR
PALERMO

DOCENTES: INFORME DE INVESTIGACIÓN OTROS}

.................................................................. SICCHA RUIZ, ORLANDO ALEX


Firma …………………………………………………
DNI: 18026960

.................................................................. TICLIA VÁSQUEZ, HIMBER PALERMO


Firma ..................................................................
DNI: 73055567
.................................................................. ..................................................................
Firma DNI

Este formato debe ser llenado, firmado Y adjuntado en et informe de Tesis y/o Trabajo de Investigación respectivamente.
1
Este formato en el caso de Informe de investigación científica docente debe ser llenado, firmado, escaneado y adjuntado en el sistema de
www.picfedu.unitru.edu.øe

Jr. Diego de Almagro #344 T. 051 - 044-2055B / Mesa de Partes: 044-209020 Email: rectorado@unitru.edu.pe
www.unitru.edu.pe
Anexo R.R. O 384-2018/UNT Pág. 1 de 5
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación
UNIVERSIDAD NACIONAL DE TRUJILLO
RECTORADO
UNT
UNIVERSIDAD NACIONAL DE TRUJILLO

DECLARACIÓN JURADA
El a u t o r suscrito en el presente documento DECLARAMOS BAJO JURAMENTO que soy el
responsable legal de la calidad y originalidad del contenido del Proyecto de Investigación Científica, así
como, del Informe de la Investigación Científica realizado.
“Modelo matemático para pronosticar los costos diarios de operación mina en Unidad Minera
Huinchos - Apurímac -2023”
PROYECTO DE INVESTIGACIÓN CIENTIFICA INFORME FINAL DE INVESTIGACION CIENTIFICA
PROY DE TRABAJO DE INVESTIGACION ( ) TRABAJO DE INVESTIGACIÓN (PREGRADO) ( )

(PREGRADO)
PROYECTO DE TESIS PREGRADO ( ) TESIS PREGRADO (X)
PROYECTO DE TESIS MAESTRÍA ( ) TESIS MAESTRÍA ( )
PROYECTO DE TESIS DOCTORADO ( ) TESIS DOCTORADO ( )

Equipo Investigador Integrado por:


CÓDIGO
CATEGORÍA Autor
APELLIDOS Y DEP. Docente asesor
N° NOMBRES
FACULTAD ACADÉMICO DOCENTE
Número
Coautor
ASESOR asesor
Matrícula
AUXILIAR deestudiante
5233 ASESOR
SICCHA RUIZ, ORLANDO ALEX INGENIERIA ING. DE MINAS

TICLIA VÁSQUEZ, HIMBER ING. DE MINAS BACHILLER 22134005-15 AUTOR


INGENIERIA
PALERMO

Trujillo, 20 de Octubre del 2023

SICCHA RUIZ, ORLANDO ALEX


-------------------------------------------- --------------------------------------------------------------
Firma DNI: 18026960

TICLIA VÁSQUEZ, HIMBER PALERMO


--------------------------------------- -------------------------------------------------------
Firma DNI: 73055567
-------------------------------------------- ---------------------------------------------------------------
Firma
DNI
1
Este formato debe ser llenado, firmado, adjuntado al final del documento del PIC, del Informe de Tesis, Trabajo de
Investigación respectivamente

Jr. Diego de Almagro #344 T. 051 - 044-2055B / Mesa de Partes: 044-209020 Email: rectorado@unitru.edu.pe
www.unitru.edu.pe

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No


Comercial-Compartir bajo la misma licencia 2.5 Perú.
Anexo R.R. O 384-2018/UNT Pág. 2 de 5

UNIVERSIDAD NACIONAL DE TRUJILLO


RECTORADO
UNT

Jr. Diego de Almagro #344 T. 051 - 044-2055B / Mesa de Partes: 044-209020 Email: rectorado@unitru.edu.pe
www.unitru.edu.pe
TESIS TICLIA
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación
INFORME DE ORIGINALIDAD

11 %
INDICE DE SIMILITUD
10%
FUENTES DE INTERNET
2%
PUBLICACIONES
6%
TRABAJOS DEL
ESTUDIANTE

FUENTES PRIMARIAS

1
Submitted to Universidad de Salamanca
Trabajo del estudiante 1%
2
hdl.handle.net
Fuente de Internet 1%
3
dspace.unitru.edu.pe
Fuente de Internet 1%
4
1library.co
Fuente de Internet <1 %
5
www.cienciadedatos.net
Fuente de Internet <1 %
6
repositorio.unap.edu.pe
Fuente de Internet <1 %
7
repositorio.utp.edu.pe
Fuente de Internet <1 %
8
www.coursehero.com
Fuente de Internet <1 %
9
renati.sunedu.gob.pe
Fuente de Internet <1 %
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
10
Submitted to imfice
Trabajo del estudiante <1 %
11
repositorio.ucv.edu.pe
Fuente de Internet <1 %
12
Submitted to Instituto Tecnologico de Costa
Rica
<1 %
Trabajo del estudiante

13
Submitted to Universidad Adolfo Ibáñez
Trabajo del estudiante <1 %
14
repositorio.utn.edu.ec
Fuente de Internet <1 %
15
Submitted to Instituto Superior de Artes,
Ciencias y Comunicación IACC
<1 %
Trabajo del estudiante

16
Submitted to Universidad Internacional de la
Rioja
<1 %
Trabajo del estudiante

17
Submitted to Universidad Continental
Trabajo del estudiante <1 %
18
Submitted to Universidad Nacional de Trujillo
Trabajo del estudiante <1 %
19
sedici.unlp.edu.ar
Fuente de Internet <1 %
20
repositorio.utmachala.edu.ec
Fuente de Internet <1 %
<1 %
21
es.scribd.com
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación
Fuente de Internet

22
rstudio-pubs-static.s3.amazonaws.com
Fuente de Internet <1 %
23
sisbib.unmsm.edu.pe
Fuente de Internet <1 %
24
mine.ut.ac.ir
Fuente de Internet <1 %
25
www.imt.mx
Fuente de Internet <1 %
26
Submitted to Flinders University
Trabajo del estudiante <1 %
27
Submitted to Universidad Católica de Santa
María
<1 %
Trabajo del estudiante

28
Submitted to Universidad Nacional del Centro
del Peru
<1 %
Trabajo del estudiante

29
docplayer.es
Fuente de Internet <1 %
30
qdoc.tips
Fuente de Internet <1 %
31
dokumen.pub
Fuente de Internet <1 %
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
32
ibmc.umh.es
Fuente de Internet <1 %
33
repositorio.unsa.edu.pe
Fuente de Internet <1 %
34
www.dspace.espol.edu.ec
Fuente de Internet <1 %
35
www.interactivechaos.com
Fuente de Internet <1 %
36
www.scielo.cl
Fuente de Internet <1 %
37
Submitted to Universidad Católica San Pablo
Trabajo del estudiante <1 %
38
medium.com
Fuente de Internet <1 %
39
www.spell.org.br
Fuente de Internet <1 %
40
Submitted to Infile
Trabajo del estudiante <1 %
41
publicaciones.usanpedro.edu.pe
Fuente de Internet <1 %
42
Submitted to Corporación Universitaria
Minuto de Dios, UNIMINUTO
<1 %
Trabajo del estudiante

43
rubialesalberto.medium.com
<1 %
Fuente de InternetDigital - Dirección de Sistemas de Informática y
Biblioteca
Comunicación

44
Submitted to unbosque
Trabajo del estudiante <1 %
45
Submitted to Universidad Francisco de Vitoria
Trabajo del estudiante <1 %
46
Submitted to Universidad Pablo de Olavide
Trabajo del estudiante <1 %
47
dspace.udla.edu.ec
Fuente de Internet <1 %
48
go.gale.com
Fuente de Internet <1 %
49
repositorio.uasf.edu.pe
Fuente de Internet <1 %
50
revistas.udistrital.edu.co
Fuente de Internet <1 %
51
ams.confex.com
Fuente de Internet <1 %
52
blog.edx.org
Fuente de Internet <1 %
53
repositorio.uchile.cl
Fuente de Internet <1 %
54
repositorio.utp.edu.co
Fuente de Internet <1 %
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.
55
www.comtel.pe
Fuente de Internet <1 %
56
www.plandemejora.com
Fuente de Internet <1 %
57
coqui.metro.inter.edu
Fuente de Internet <1 %
58
dspace.ups.edu.ec
Fuente de Internet <1 %
59
oa.upm.es
Fuente de Internet <1 %
60
repositorio.unc.edu.pe
Fuente de Internet <1 %
61
www.jove.com
Fuente de Internet <1 %

Excluir citas Activo Excluir coincidencias < 10 words


Excluir bibliografía Activo
Biblioteca Digital - Dirección de Sistemas de Informática y
Comunicación

Anexo 01

CONSTANCIA DE INFORME DE ORIGINALIDAD

N° 237-2023-C.E/FAC.ING.-UNT

1) Investigador (es):
Ticlia Vasquez Himber Palermo DNI: 73055567 CÓDIGO: 2213400515
2) Asesor: Orlando Alex Siccha Ruiz DNI 18026960 CÓDIGO 5233
3) Finalidad del trabajo de Investigación: Título Profesional
4) Programa o escuela: Ingeniería de Minas
5) Título del trabajo de Investigación: Modelo matemático para pronosticar los costos
diarios de operación mina en Unidad Minera Huinchos-Apurimac -2023
6) Fecha de sustentación y aprobación del trabajo de Investigación: 13/10/2023
7) Fecha de evaluación de originalidad con depósito: 13/10/2023
8) Número de trabajo revisado por herramienta Turnitin: 2194753045
9) Porcentaje de reporte de similitud: 11%
10) Condición: Aprobado

Ing. Orlando Alex Siccha Ruiz Mg. Ing. Luis Alberto Julca Verastegui
Asesor Pdte. del Comité de Ética
Código: 5233 Código: 5159
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No
Comercial-Compartir bajo la misma licencia 2.5 Perú.

También podría gustarte