Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DICIEMBRE-2020
Página 1 de 110
Agradecimientos
En primer lugar, expreso mi gratitud hacia mi profesor guía Luis Bergh quien me ha guiado
durante este proceso investigativo y me ha dado una visión complementaria que sin duda me
acompañara en el resto de mi vida profesional, le agradezco su espíritu docente, el cual tuve el
agrado de vivirlo durante mi pregrado en la Universidad. Expreso mi gratitud también hacia las
personas de la industria que creyeron en mi para trabajar en los casos expuestos en esta tesis.
Este trabajo se lo dedico a mi familia y esposa. En este sentido agradezco a mi madre Suria
por su interminable esfuerzo diario durante todo este proceso y en toda mi vida. A mi padre Luis,
por su ayuda interminable siempre en mi vida. A mi hermano Bryant por los momentos de alegría y
apoyo cuando de repente se veía oscuro el paisaje. En general les agradezco sus enseñanzas, sus
valores inculcados, y su estilo de vida. Me acompañaran por siempre y me han formado en el ser
humano que soy hoy en día.
Dedico un párrafo especial a mi esposa Karla quien me ha acompañado durante gran parte
de mi vida, siempre apoyándome y cuidándome, gracias por aguantar las noches de desvelo o los
fines de semana trabajados en este proyecto personal. Que Dios nos de su bendición y a ti en
especial, te de toda la dicha por el resto de nuestros días.
Página 2 de 110
Resumen
La industria ha sufrido múltiples cambios a lo largo de la historia gracias a la evolución e innovación
tecnológica. Cada vez son más los avances que proporcionan una mayor capacidad a las tecnologías
que van emergiendo. Siguiendo esta línea es que nace la industria 4.0. El término industria 4.0 se
refiere a un nuevo modelo de organización y de control de la cadena de valor a través del ciclo de
vida del producto y a lo largo de los sistemas de fabricación apoyado y hecho posible por las
tecnologías de la información. El término industria 4.0 se utiliza de manera generalizada en Europa,
si bien se acuñó en Alemania. También es habitual referirse a este concepto con términos como
“Fábrica Inteligente” o "Internet industrial".
Las principales conclusiones que se obtuvieron de el presente trabajo son las siguientes:
- Las bases de datos operacionales son incompletas para poder realizar análisis de
descubrimiento de conocimiento.
- Existe una heterogeneidad de sistemas de captura de información, en donde muchas veces
el proceso es manual o las bases de datos no son sinérgicas entre sí.
- Existe un gran rechazo a la inclusión de tecnologías disruptivas por parte de los operadores,
si es que esta disrupción puede llegar a afectar su puesto de trabajo.
- El ambiente de la minería es muy abrupto, por tanto, la materialidad y el sellado de sensores
debe ser lo suficientemente fuerte y duradero para que su robustez sea confiable para el
operador. En este sentido se debe aumentar la investigación en materiales que sean lo
suficientemente resistentes a estos procesos.
Página 3 de 110
Gracias a la identificación de estos pilares que son transversales a los procesos mineros, se puede
abordar una estrategia para avanzar hacia la implementación de la industria 4.0 en la minería
nacional.
Los pasos recomendados a seguir, según la experiencia recabada son los siguientes:
Página 4 de 110
Contenido
Agradecimientos ................................................................................................................................. 2
Resumen .............................................................................................................................................. 3
1. INTRODUCCIÓN ........................................................................................................................ 10
1.1 Industria 4.0 ....................................................................................................................... 10
2. OBJETIVOS................................................................................................................................. 17
3. METODOLOGÍAS EN DATA MINING/MACHINE LEARNIG ........................................................ 18
4. ALGORITMOS EN DATA MINING .............................................................................................. 21
4.1 Detección de Outliers ....................................................................................................... 21
4.1.1 Algoritmo LOF (Local Outlier Factor) ....................................................................... 21
4.1.2 LOCI ........................................................................................................................... 24
4.1.3 K-means .................................................................................................................... 25
4.1.4 Distancias de Mahalanobis....................................................................................... 26
4.2 Análisis de Componentes Principales .............................................................................. 28
4.2.1 Cálculo de componentes principales ....................................................................... 28
4.2.2 Extracción de factores .............................................................................................. 29
4.3 Algoritmos Lineales .......................................................................................................... 31
4.3.1 Regresión Lineal ........................................................................................................ 31
4.3.2 Regresión Lineal Generalizada (GLM) ...................................................................... 32
4.3.3 Modelo Lineal Generalizado Penalizado (GLMNET) .................................................... 32
4.4 Algoritmos No Lineales ..................................................................................................... 33
4.4.1 Árboles de clasificación y regresión (CART) ................................................................. 33
Construcción del árbol máximo ................................................................................................... 34
Calidad del Nodo: Función de Impureza ...................................................................................... 34
Poda del árbol ............................................................................................................................... 35
Selección del árbol óptimo ........................................................................................................... 36
4.4.2 Máquina de Vectores de Soporte (SVM) ..................................................................... 36
Caso linealmente separable ......................................................................................................... 37
Caso no linealmente separable .................................................................................................... 38
Máquina de Vectores de Soporte para Regresión ....................................................................... 39
4.4.3 Algoritmo KNN .......................................................................................................... 40
5. Caso 1: Descripción del Proceso en la Refinería de Chuquicamata. ....................................... 42
Página 5 de 110
5.1 Proceso de refinación electroquímico ............................................................................. 42
5.3 Entender el negocio .......................................................................................................... 46
5.4 Data recopilada ................................................................................................................. 48
5.5 Comprensión de los Datos................................................................................................ 48
5.6 Preparación de los Datos .................................................................................................. 54
5.7 Modelado de Datos .......................................................................................................... 59
5.7.1 Cl-, Fe+3 y Bi+3 en el electrolito y su efecto en el número de Corto circuitos. ......... 60
5.7.2 Eficiencia de corriente y el número de Corto circuitos. .......................................... 66
5.7.3 Efecto de las impurezas (Sb,Bi y As) en el rechazo catódico. .................................. 71
6. Caso 2: Sensor de llama en horno Flash Fundición Pirdop – Aurubis. .................................... 76
6.1 Proceso de Fundición. ...................................................................................................... 76
6.2 Entender el negocio. ......................................................................................................... 78
6.3 Data. .................................................................................................................................. 79
6.4 Análisis. ............................................................................................................................. 81
6.4.1 Contenido de cobre en la escoria. ............................................................................ 81
6.4.2 “Sangrado” (tapping) durante la etapa de fusión. .................................................. 86
6.4.3 Variables de Proceso. ............................................................................................... 92
6.4.4 Análisis sensores de dilatación ................................................................................ 95
6.4.5 Análisis sensores de llama ...................................................................................... 105
7. Conclusión ............................................................................................................................... 107
8. Referencias ............................................................................................................................. 109
Página 6 de 110
Índice de Tablas
Página 7 de 110
Índice de Figuras
Página 8 de 110
Figura 44-HMI sensores de dilatación en caldera ............................................................................. 95
Figura 45-Distribucion de eventos de expansion/contracción en caldera........................................ 96
Figura 46-Eventos de dilatación en caldera ...................................................................................... 97
Figura 47-Distribución de movimiento sensores DS101-103 ............................................................ 97
Figura 48-Distribución de movimiento sensores DS102-DS104........................................................ 98
Figura 49-Comportamiento DS101 ................................................................................................... 98
Figura 50-Comportamiento DS102 ................................................................................................... 99
Figura 51-Comportamiento DS103 ................................................................................................... 99
Figura 52-Comportamiento sensor DS104 ...................................................................................... 100
Figura 53-Distribucion de eventos de dilatación en el tiempo ....................................................... 101
Figura 54-Detección de falla sensor DS101 ..................................................................................... 102
Figura 55-Detección de falla sensor DS105 (Ex DS102) .................................................................. 102
Figura 56-Detección de falla sensor DS103 ..................................................................................... 102
Figura 57-Detección de falla sensor DS104 ..................................................................................... 103
Figura 58-Árbol de decisión eventos de dilatación ......................................................................... 104
Figura 59-Correlación entre variables de proceso y descomposición RGB ..................................... 105
Figura 60-Correlación entre elementos del Blend y descomposición RGB ..................................... 106
Página 9 de 110
1. INTRODUCCIÓN
1.1 Industria 4.0
La industria ha sufrido múltiples cambios a lo largo de la historia gracias a la evolución e innovación
tecnológica. Cada vez son más los avances que proporcionan una mayor capacidad a las tecnologías
que van emergiendo. Es un sector, en el cual, se han estado produciendo continuas mejoras. Se han
aplicado diferentes tecnologías o se ha producido una evolución de la ya existente, pero los grandes
saltos de la evolución industrial se identifican en tres momentos distintos de la historia. Nos
situamos en el año 1782, donde nos encontramos, gracias a James Watt, con la primera máquina de
vapor diseñada para aplicaciones industriales. Surgiendo las primeras máquinas para telares,
fábricas de papel, destilerías, etc. Más de 100 años después, se produce la introducción de un nuevo
modelo de trabajo con la conocida producción en masa, gracias a la ayuda de la energía eléctrica.
Conseguimos aumentar la productividad con la incorporación de las primeras cadenas de montaje
en 1913. Y es ya en 1969, cuando se vuelve a introducir grandes cambios en las industrias. Se realiza
la instalación de las primeras máquinas programables para realizar ciertas acciones, pudiendo ser
éstas, fáciles y repetitivas o tareas caracterizadas por la realización de grandes esfuerzos y que una
persona no sería capaz de realizarla. Produciéndose mejoras desde su implantación, esta última
revolución introdujo numerosos cambios en la forma de operar las industrias y, además, ha seguido
un proceso continuo de mejoras dónde se han diseñado máquinas con una mayor precisión y por el
que ha sido posible abaratar costes en los procesos y obtener una mayor productividad.
Actualmente, la industria está volviendo a experimentar otro gran cambio que marcará la historia.
Con la aparición de Internet, el mundo se ha visto sometido a una gran transformación. Se ha
conseguido conectividad entre personas a nivel mundial y a tiempo real, y se han desarrollado
programas que facilitan nuestra vida diaria y ayudan a la administración y operación de las
empresas.
En la siguiente figura se observa gráficamente y a lo largo de la línea del tiempo, los diferentes saltos
históricos producidos por el sector industrial. En el cual se puede diferenciar, a la derecha, el grado
de complejidad de cada uno de los cambios y se observa que cada vez existe un mayor grado de
complejidad tecnológica con respecto el anterior.
Página 10 de 110
Figura 1-Evolución de la industria
Dentro de las tecnologías en las cuales se sustenta la Industria 4.0 se dan a conocer en la siguiente
figura.
Página 11 de 110
Figura 2-Tecnologías de la industria 4.0
Cada una de las tecnologías pilares de la industria 4.0 se describe a groso modo a continuación.
- Comunicaciones móviles: Las tecnologías móviles, internet móvil, son la base de IoT. El
etiquetado de objetos y la comunicación M2M permiten un entorno de producción
conectado en el que sistemas y productos se comunican entre sí. Con ello se hace posible la
captura de datos, la coordinación de los CPPS y el despliegue de servicios remotos. Y todo
ello en tiempo real y de manera ubicua.
- La nube (Cloud Computing): La nube comprende aplicaciones e infraestructuras ofrecidas
como servicio a través de redes públicas o privadas, a menudo en modelo de pago por uso.
Los productos y sistemas inteligentes (CPS y CPPS) generarán enormes cantidades de datos
a almacenar y procesar que deben ser accesibles on-line desde cualquier lugar. La nube
permite este flujo de datos sin fronteras y elimina la necesidad de inversión en
infraestructuras para incrementarla capacidad, permitiendo una flexibilidad sin
precedentes.
- Análisis de Datos (Big Data): Con un número creciente de productos (CPS) y sistemas
inteligentes (CPPS) en las fábricas y el mercado, la cantidad de datos de que dispondrán los
fabricantes se multiplicará. Su análisis permitirá identificar patrones e interdependencias,
analizar los procesos y descubrir ineficiencias e incluso predecir eventos futuros. Con ello se
Página 12 de 110
abrirán nuevas oportunidades, no sólo de mejora de la eficiencia, sino de descubrimiento
de servicios para el cliente, al que se conocerá mucho mejor.
- Comunicación Máquina a Máquina (M2M): La comunicación M2M es la tecnología básica
de la "Internet de las cosas” (IoT). Hace referencia a tecnologías que permiten el
intercambio de información entre los productos y sistemas inteligentes que constituyen el
entorno Industria 4.0. Además, con esta información es posible construir una réplica virtual
de la fábrica física, lo que permitirá simular no sólo productos sino procesos de fabricación
completos. La forma de uso más evidente de comunicación M2M estará en la conexión de
sistemas intra-empresa también será factor clave en la colaboración inter-empresas.
- Plataformas sociales: Las plataformas sociales han transformado nuestra vida cotidiana a
través de la comunicación instantánea, global y de uno-a-muchos. La comunicación en los
entornos industriales se verá enormemente mejorada con una interacción más dinámica de
contenido enriquecido que favorezca la colaboración y la innovación. Por otro lado las redes
sociales "clásicas" facilitarán la fabricación bajo demanda y proporcionará gran cantidad de
información sobre los clientes.
- La impresión 3D (fabricación aditiva): Hace referencia a la producción de objetos
tridimensionales a partir de modelos virtuales. Aunque su uso industrial es escaso, la
fabricación aditiva eliminará las desventajas en eficiencia de la producción de productos
personalizados. Permitirá la creación rápida de prototipos y una fabricación altamente
descentralizada: el modelo del producto podría enviarse al sitio de “impresión” más cercano
al cliente eliminando pasos intermedios.
- Robótica avanzada y colaborativa: La mejora de la inteligencia artificial junto con una nueva
sensórica ha permitido crear robots cada vez más autónomos, flexibles y cooperativos. Con
el tiempo, van a interactuar unos con otros y trabajarán con seguridad junto a los seres
humanos, aprendiendo de ellos ofreciendo una gama de capacidades muy superiores a las
utilizadas en la fabricación de hoy en día.
- Realidad aumentada: Los sistemas basados en la realidad aumentada se encuentran
actualmente en su infancia, pero en el futuro, permitirán proporcionar a los trabajadores
información en tiempo real para mejorar la toma de decisiones y los procedimientos de
trabajo. Por ejemplo, los trabajadores podrán recibir instrucciones para una reparación y
visualizarla haciendo uso de dispositivos como gafas de realidad aumentada con lo que se
incrementará la eficiencia y la seguridad.
Página 13 de 110
- Seguridad: Con el aumento de la conectividad y el uso de protocolos de comunicación
estándar, la necesidad de proteger los sistemas industriales críticos y las líneas de
fabricación de las amenazas a la seguridad aumenta dramáticamente. Como resultado,
serán necesarias comunicaciones seguras y fiables, así como sofisticados de gestión de
identidades y acceso de las máquinas y los usuarios.
Históricamente la minería ha sido una industria que ha sido bastante conservadora al momento de
adoptar nuevas tecnologías. Sin embargo, ante las nuevas exigencias ambientales y sociales que
enfrenta el sector, así también como el imperativo de mejorar la productividad, la incorporación de
estas tecnologías facilita el cumplimiento de la demanda social que enfrentamos hoy. Algunas
estimaciones internacionales que hablan de los potenciales beneficios de implementar estas
tecnologías en la industria minera entre 2016 y 2025, consideran beneficios económicos del orden
de USD $189 billones en la industria minera mundial, y USD$ 130 billones en los metales (Accenture,
2017). Hay otros beneficios no económicos asociados, como la reducción de CO2 o una mayor
seguridad para los trabajadores en la operación. Y no sólo la industria minera será beneficiada. Para
Chile, esta tendencia también permite apuntar a la diversificación de la economía, si se apuesta por
la creación de nuevas tecnologías en el país, las que puedan ser exportadas al resto del mundo. Es
cuestión de ver el caso de Australia, que ha logrado posicionarse en el mundo tanto como país
minero, como país proveedor de tecnología de punta. En este sentido se ha realizado un catastro
de las tecnologías asociadas a la industria 4.0 que se ven envuelta en los procesos mineros. Para el
enfoque de este trabajo solo se observará el área de procesamiento de minerales.
Página 14 de 110
Figura 3 - Detalles de tecnologías
En la figura 4 se dan a conocer en más detalle las tecnologías asociadas a cada proceso dentro del
área de procesamiento de minerales.
Página 15 de 110
Figura 4-Tecnologías asociadas al procesamiento de minerales
La figura 4 muestra en un gráfico de tecnologías de acuerdo con diferentes áreas de procesos dentro
del procesamiento de minerales de la industria del cobre, divida en grupos. Este gráfico fue realizado
por la consultora CESCO (minería, 2018). Cada grupo enumerado desde I a IV identifica cierto grado
de madurez de la tecnología y de su implementación.
Página 16 de 110
En este caso, y para efectos de este trabajo, nos enfocaremos en dos puntos importantes que se
dan a conocer de acuerdo con la figura 4. El primero de ellos es que la tecnología de Machine
learning y sistema experto se encuentra dentro del grupo 4, esto indica que es inmadura y no se
probado en minería, lo segundo importante, es que dentro de la figura no se aprecian tecnologías
asociadas al proceso de refinación o fundición.
Con lo anterior en mente, se analizarán dos casos asociados a machine learning y su usabilidad en
procesos de fundición y refinería, sus resultados y conclusiones de acuerdo a la maduración de la
tecnología y los baches o puentes necesarios para hacer de esta tecnología de machine learning
exitosa en cuanto a su implementación en ambos procesos.
2. OBJETIVOS
El objetivo principal del trabajo es validar la hipótesis del valor de las técnicas de Machine learning
, data Mining y data analytics sobre el proceso de refinación y fundición de cobre, identificar
limitancias y valor agregado. Sobre el caso estudio, el primero de ellos se realizará en la refinería de
cobre de Chuquicamata; en el caso del segundo, se realizará en la fundición de cobre de Aurubis,
ubicada en Pirdop, Bulgaria.
En el primer caso se analizará el efecto de las impurezas tales como antimonio y bismuto en el
rechazo catódico y el desarrollo de un modelo predictivo para determinar el impacto en el rechazo
catódico debido a variaciones en la concentración de las impurezas antes descritas.
En ambas situaciones se buscar encontrar conocimiento, por un lado, y por otro, poder desarrollar
un sistema experto que pueda eliminar la subjetividad de los operarios o ingenieros a cargo de la
operación.
Finalmente, dentro de los objetivos destaca concluir el real valor agregado de estas técnicas
matemáticas a los procesos de fundición y refinería, y sus implicancias en cuanto operatividad e
implementación en un ambiente hostil como son los procesos mineros.
Página 17 de 110
3. METODOLOGÍAS EN DATA MINING/MACHINE LEARNIG
En el universo del Big data y las herramientas de Data Mining actualmente existen 3 tipos de
metodologías para enfrentar un proyecto de esta índole; Knowledge Discovery in Databases (KDD)
(Debuse & de la Iglesia, 2001), Cross-Industry Standard Process for Data Mining (CRISP-DM) (Villena
Román, 2016) y Sample – Explore – Modify – Model and Assess (SEMMA) (SAS.com, 2017). En este
caso en particular se utilizará la metodología CRISP-DM.
CRISP-DM (Cross Industry Standard Process for Data Mining) proporciona una descripción
normalizada del ciclo de vida de un proyecto estándar de análisis de datos, de forma análoga a como
se hace en la ingeniería del software con los modelos de ciclo de vida de desarrollo de software. El
modelo CRISP-DM cubre las fases de un proyecto, sus tareas respectivas, y las relaciones entre estas
tareas. En este nivel de descripción no es posible identificar todas las relaciones; las relaciones
podrían existir entre cualquier tarea según los objetivos, el contexto, y el interés del usuario sobre
los datos.
Entendimiento de negocios: esta fase inicial se enfoca en entender los objetivos y requisitos
del proyecto desde una perspectiva empresarial, y luego convertir este conocimiento en
una definición de problema de DM y un plan preliminar diseñado para alcanzar los objetivos.
Comprensión de datos: la fase de comprensión de datos comienza con una recopilación de
datos inicial y continúa con las actividades para familiarizarse con los datos, para identificar
problemas de calidad de los datos, para descubrir los primeros conocimientos sobre los
datos o para detectar subconjuntos interesantes para formar hipótesis para información
oculta.
Preparación de datos: la fase de preparación de datos cubre todas las actividades para
construir el conjunto de datos final a partir de los datos sin procesar iniciales.
Página 18 de 110
Modelado: en esta fase, se seleccionan y aplican diversas técnicas de modelado y sus
parámetros se calibran a valores óptimos.
Evaluación: en esta etapa, el modelo (o modelos) obtenido se evalúa más a fondo y los
pasos ejecutados para construir el modelo. Los modelos se revisan para asegurarse de que
logren adecuadamente los objetivos comerciales.
Despliegue-creación del modelo: generalmente no es el final del proyecto. Incluso si el
propósito del modelo es aumentar el conocimiento de los datos, el conocimiento adquirido
deberá organizarse y presentarse de manera que el cliente pueda utilizarlo.
Página 19 de 110
Figura 6 - Etapas De CRISPDM
Página 20 de 110
4. ALGORITMOS EN DATA MINING
A continuación, se detallan los algoritmos a utilizar en este trabajo para lograr los objetivos descritos
en el capítulo 2.
El análisis de la calidad de los datos es de gran importancia para las organizaciones, ya que datos
con problemas pueden conducir a decisiones erróneas con consecuencias como pérdida de dinero,
tiempo y credibilidad. Entre los posibles problemas que pueden presentar los datos, se encuentran
los conocidos como valores atípicos o “Outliers”. Según Hawkins, un outlier es “una observación que
se desvía mucho de otras observaciones y despierta sospechas de ser generada por un mecanismo
diferente” (Hawkins, 1980).
Barnet y Lewis definen a los outliers como “una observación (o subconjunto de observaciones) que
parecen ser inconsistentes respecto del resto de ese conjunto de datos” (Barnet & Lewis, 1994). En
otras palabras, las observaciones que no siguen el mismo modelo estadístico que el resto de los
datos son considerados outliers. Charu Aggarwal escribe “Virtualmente todos los algoritmos de
detección de outliers crean un modelo del patrón normal de los datos, luego teniendo en cuenta un
dato dado, calcula una puntuación de outlier en base a la desviación de ese patrón” (Aggarwal,
2013). La puntuación del dato dado se calcula evaluando la calidad de ajuste del punto al modelo.
El método LOF (Local Outlier Factor) fue presentado en la conferencia ACM SIGMOD del año 2000
en Dallas, Texas. Sus autores (Markus M. Breunig et al.) propusieron un método que le asigna a cada
objeto cierto grado de outlier. Este grado se llama factor outlier local o LOF (por local outlier factor).
Se lo denomina local porque el grado depende de que tan aislado se encuentra un objeto respecto
del vecindario circundante (Breunig et al., 2000).
Una observación sobre el método LOF es que mientras ha sido popularmente clasificado en la
literatura como una aproximación basada en densidad, puede ser más simplemente entendido
como una aproximación relativa de distancia con suavizado (Aggarwal, 2013).
LOF es una cuantificación del aislamiento de cada dato, capaz de ajustarse a las variaciones de las
diferentes densidades. Para un punto dado 𝑋, (𝑋) será la distancia al 𝑘-vecindario más cercano de
𝑋, y 𝐿𝑘(𝑋) el conjunto de puntos dentro de la distancia 𝑘-vecindario más cercano de 𝑋. Se nota que,
Página 21 de 110
típicamente, (𝑋) contendrá 𝑘 puntos, pero puede pasar que este conjunto tenga más de 𝑘 puntos
debido a los vínculos que se dan en la distancia al 𝑘-vecindario más cercano.
Luego, la distancia de acceso 𝑅𝑘 (𝑋, 𝑌) del objeto 𝑋 respecto de 𝑌 se define como la máxima distancia
𝐷𝑖𝑠𝑡 (𝑋, 𝑌), entre el par (𝑋, 𝑌) y la distancia de 𝑌 a su al 𝑘- vecindario más cercano.
La distancia de acceso promedio 𝐴𝑅𝑘 (𝑋, 𝑌) de un punto 𝑋 respecto a su vecindario 𝐿𝑘 (𝑋) se define
como el promedio de sus distancias de acceso a todos los puntos en su vecindario.
El factor outlier local es entonces igual al ratio medio de 𝐴(𝑋) a los valores correspondientes de
todos los puntos en el 𝑘-vecindario más cercano de 𝑋.
𝐴𝑅𝑘 (𝑋)
𝐿𝑂𝐹𝑘 (𝑋) = 𝑀𝐸𝐷𝐼𝐴 𝑌 ∈ 𝐿𝑘 (𝑋) (3)
𝐴𝑅𝑘 (𝑌)
Página 22 de 110
Figura 7 - Efecto de la densidad local en los outliers
Como resultado, los valores de los objetos dentro de un clúster son a menudo cercanos a 1, cuando
los puntos en el clúster están homogéneamente distribuidos. En el ejemplo de la figura 13, los
valores LOF de los puntos de ambos clusters serán bastante cercanos a 1, aunque las densidades de
ambos clusters son diferentes. Por otra parte, los valores LOF de los dos puntos señalados como
outliers serán mucho más grandes ya que serán calculados en término de los ratios de la distancia
promedio de acceso a sus vecinos. En la práctica, el valor máximo de 𝐿𝑂(𝑋) sobre un rango de
diferentes valores de 𝑘 es utilizado como el puntaje outlier con el que se crea un ranking de los
diferentes objetos (Breunig et al., 2000).
Como conclusión de la presentación del método los autores consideran que, para ciertas
situaciones, proponer una etiqueta binaria para los outliers, no tiene tanto sentido como asociar un
grado de outlier a cada punto, dependiendo del vecindario circundante. LOF captura exactamente
este grado relativo de aislamiento (Breunig et al., 2000).
El método LOF puede ser interpretado tanto como un método basado en distancia o como un
algoritmo basado en densidad, dependiendo en la forma en que se lo presenta. La conexión real
que tiene LOF con la densidad de los datos yace en su intuitiva capacidad de ajustarse a densidades
de datos variables con el uso de distancias relativas (Aggarwal, 2013).
Página 23 de 110
4.1.2 LOCI
LOCI define la densidad (𝑋, 𝑟) de un punto 𝑋 en términos del número de puntos dentro de un radio
𝑟 predeterminado alrededor del punto. Esto es referido como el conteo del vecindario del punto 𝑋.
Correspondientemente la densidad promedio (𝑋, 𝑟, 𝛿) en el 𝛿-vecindario de 𝑋 se define como la
media de 𝑀(𝑋, 𝑟) para todos los puntos una distancia máxima 𝛿 de 𝑋. El valor de 𝛿 también es
referido como el vecindario de muestra de 𝑋, y es siempre más grande que 𝑟.
Además, el valor de 𝑟 siempre se elige una fracción constante de 𝛿, no importa cuál sea el valor de
𝛿 usado. El valor de 𝛿 es un parámetro crítico en el análisis y múltiples valores de este parámetro
son usados con el fin de proveer intuiciones analíticas a diferentes grados de granularidad. La
densidad promedio se define formalmente como.
𝑀(𝑋,𝑟)
𝑀𝐷𝐸𝐹 (𝑋, 𝑟, 𝛿 ) = 1 − (5)
𝐴𝑀(𝑋,𝑟,𝛿)
Mientras más grande sea el valor de 𝑀𝐷(𝑋, 𝑟, 𝛿), mayor es la puntuación outlier que adquiere el
punto. Para poder convertir la puntación adquirida por el punto en una etiqueta binaria, la
desviación (𝑋, 𝑟, 𝛿) de los diferentes valores de (𝑋, 𝑟) dentro del vecindario de muestra de 𝑋 es
calculado.
𝑆𝑇𝐷(𝑌:𝑑𝑖𝑠𝑡(𝑋,𝑌)≤𝛿) 𝑀(𝑌,𝑟)
𝜃(𝑋, 𝑟, 𝛿 ) = (6)
𝐴𝑀(𝑋,𝑟,𝛿)
Aquí el término STD corresponde a la función de desvío estándar calculado sobre todo el vecindario
de muestra.
Página 24 de 110
outlier si su valor 𝑀𝐷𝐸𝐹 es inusualmente grande en cualquiera de los valores calculados a diferentes
niveles de granularidad. Específicamente, el valor de 𝑀𝐷𝐸𝐹 necesitar ser al menos 𝑘. (𝑋, 𝑟, 𝛿) donde
𝑘 es generalmente 3. Esta elección de 𝑘 es común en un análisis estadístico que asume que los datos
están normalmente distribuidos) (Papadimitrou, Kitagawa, Gibbons, & Faloutsos, 2003).
- Cualquier método propuesto LOCI puede detectar outliers y grupos de outliers (micro-
clusters).
- En contraste a los métodos anteriores que delegan en el usuario la decisión última sobre si
un punto es o no un outlier, se propone un método automático, basado en un recorte de
los datos.
- El método trata correctamente densidades locales y múltiple granularidad.
- El método es tan rápido como cualquier método anterior.
4.1.3 K-means
Se repiten los pasos 2 y 3 hasta que los centroides no se mueven, o se mueven por debajo de una
distancia umbral en cada paso.
Página 25 de 110
Los objetos se representan con vectores reales de d dimensiones (x1,x2,…,xn) y el algoritmo k-
means construye k grupos donde se minimiza la suma de distancias de los objetos, dentro de cada
grupo S={S1,S2,…,Sk}, a su centroide. El problema se puede formular de la siguiente forma.
2
𝑚𝑖𝑛𝑆 𝐸 (𝜇𝑖 ) = 𝑚𝑖𝑛𝑆 ∑𝑘𝑖=1 ∑𝑥𝑗 ∈𝑆𝑖‖𝑥𝑗 − 𝑥𝑖 ‖ (7)
Donde S es el conjunto de datos cuyos elementos son los objetos xj representados por vectores,
donde cada uno de sus elementos representa una característica o atributo. Tendremos k grupos o
clusters con su correspondiente centroide μi.
𝜕𝐸 (𝑡+1) 1
= 0 → 𝜇𝑖 = (𝑡) ∑𝑥 (𝑡) 𝑥𝑗 (8)
𝜕𝜇𝑖 |𝑆𝑖 | 𝑗 ∈𝑆𝑖
Las principales ventajas del método k-means son que es un método sencillo y rápido. Pero es
necesario decidir el valor de k y el resultado final depende de la inicialización de los centroides. En
principio no converge al mínimo global sino a un mínimo local (MacQueen, 1967).
La distancia de Mahalanobis es un criterio muy conocido que depende de los parámetros estimados
de la distribución multivariada. Ésta describe la distancia entre cada punto de datos y el centro de
masa. Cuando un punto se encuentra en el centro de masa, la distancia de Mahalanobis es cero y
cuando un punto de datos se encuentra distante del centro de masa, la distancia es mayor a cero.
Por lo tanto, los puntos de datos que se encuentran lejos del centro de masa se consideran valores
atípicos.
Las observaciones con valores extremos obtienen menores pesos. Finalmente, se ejecuta una
regresión ponderada para minimizar el efecto de los valores extremos.
Supóngase que se tienen dos grupos distintos (poblaciones) que se etiquetan como G1 y G2. Por
ejemplo, G1 y G2 pueden representar a las niñas y niños respectivamente o en una situación de
Página 26 de 110
diagnóstico médico, las personas sanas y las enfermas respectivamente. Considere la posibilidad de
un número (por ejemplo, p) de las características relevantes de los individuos en estos grupos. Estas
características o mediciones pueden estar en algunas características físicas tales como la altura o el
peso, o en algunas de las características médicas, tales como la presión sanguínea o el ritmo
cardíaco. La variable X denota un vector (al azar) que contiene las mediciones efectuadas en un
individuo determinado o entidad objeto de estudio. A menudo, en la práctica, se tiene interés en
medir y resumir las diferencias entre los grupos, en este caso G1 y G2. Una suposición común es
tomar el vector aleatorio p-dimensional “X” como teniendo la misma variación sobre su media
dentro de cualquiera de los grupos. Entonces la diferencia entre los grupos se puede considerar en
términos de la diferencia entre los vectores medios de X, en cada grupo con respecto a la variación
común dentro de los grupos.
El súper índice T, denota la matriz transpuesta, 𝑋̅ expresa la media del vector muestral y 𝑆𝑛 la matriz
de covarianza muestral.
1
𝑆𝑛 = ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)(𝑋𝑖 − 𝑋̅)𝑇 (10)
𝑛−1
Página 27 de 110
covarianza de mínimo determinante (MCD), entre otros, los cuales por definición son menos
afectados por outliers, siendo menos probable que influencien los parámetros usados en la MSD
Los puntos que no son atípicos, determinarán completamente la estimación de la forma y posición
de los datos. Muchos de los métodos de estimación, incluyendo el método robusto de los M
estimadores, fallan si la fracción de outliers es mayor que 1/(p + 1) donde p es la dimensión del
conjunto de datos o número de variables, indicando que, en dimensiones grandes, una pequeña
cantidad de valores atípicos puede producir estimaciones deficientes. Por lo tanto, las distancias de
Mahalanobis deben ser estimadas por un procedimiento robusto a fin de proporcionar medidas
fiables para el reconocimiento de los valores extremos (Muñoz G. & Uribe, 2013).
Estas técnicas fueron inicialmente desarrolladas por Pearson a finales del siglo XIX y posteriormente
fueron estudiadas por Hotelling en los años 30 del siglo XX. Sin embargo, hasta la aparición de los
ordenadores no se empezaron a popularizar. Para estudiar las relaciones que se presentan entre p
variables correlacionadas (que miden información común) se puede transformar el conjunto original
de variables en otro conjunto de nuevas variables no correlacionadas entre sí (que no tenga
repetición o redundancia en la información) llamado conjunto de componentes principales.
Las nuevas variables son combinaciones lineales de las anteriores y se van construyendo según el
orden de importancia en cuanto a la variabilidad total que recogen de la muestra. De modo ideal,
se buscan m < p variables que sean combinaciones lineales de las p originales y que estén no
correlacionadas, recogiendo la mayor parte de la información o variabilidad de los datos.
Si las variables originales están incorreladas de partida, entonces no tiene sentido realizar un análisis
de componentes principales. El análisis de componentes principales es una técnica matemática que
no requiere la suposición de normalidad multivariante de los datos, aunque si esto último se cumple
se puede dar una interpretación más profunda de dichos componentes (Herbé et al., 2010 Volumen
2).
Se considera una serie de variables (𝑥1, 𝑥2, . . . , 𝑥𝑝) sobre un grupo de objetos o individuos y se trata
de calcular, a partir de ellas, un nuevo conjunto de variables 𝑦1, 𝑦2, . . . , 𝑦𝑝, incorrelacionadas entre
sí, cuyas varianzas vayan decreciendo progresivamente. Cada 𝑦𝑗 (donde j = 1,...,p) es una
combinación lineal de las 𝑥1, 𝑥2, . . . , 𝑥𝑝 originales, es decir.
Página 28 de 110
𝑦𝑗 = 𝑎𝑗1 𝑥1 + 𝑎𝑗2 𝑥2 + ⋯ + 𝑎𝑗𝑛 𝑥𝑛 (11)
𝑦𝑗 = 𝑎𝑗′ 𝑥 (12)
𝑥1
𝑋=[ ⋮ ] (13)
𝑥𝑃
Obviamente, si lo que queremos es maximizar la varianza, como veremos luego, una forma simple
podría ser aumentar los coeficientes 𝑎𝑖𝑗 . Por ello, para mantener la ortogonalidad de la
transformación se impone que el módulo del vector 𝑎𝑗′ = (𝑎1𝑗 , 𝑎2𝑗 + ⋯ + 𝑎𝑛𝑗 ) sea 1. Es decir.
𝑝
𝑎𝑗′ 𝑎𝑗 = ∑𝑘=1 𝑎𝑘𝑗
2
=1 (14)
El primer componente se calcula eligiendo 𝑎1 de modo que 𝑦1 tenga la mayor varianza posible,
sujeta a la restricción de que 𝑎′ 𝑎1 =1. El segundo componente principal se calcula obteniendo 𝑎2
de modo que la variable obtenida, 𝑦2 esté incorrelada con 𝑦1 . Del mismo modo se eligen 𝑦1 , 𝑦2 ,· · ·
, 𝑦𝑝 , incorrelacionados entre sí, de manera que las variables aleatorias obtenidas vayan teniendo
cada vez menor varianza (Herbé et al., 2010 Volumen 2).
Para la extracción de factores, la idea principal es elegir 𝑎1 de modo que se maximice la varianza de
𝑦1 sujeta a la restricción 𝑎′ 𝑎1 = 1.
El método habitual para maximizar una función de varias variables sujeta a restricciones el método
de los Multiplicadores de Lagrange.
Se puede observar que la incógnita es precisamente 𝑎1 (el vector desconocido que nos da la
combinación lineal óptima).
Página 29 de 110
𝛿𝐿
= 2Σ𝑎1 − 2𝜆𝐼𝑎1 = 0 (17)
𝛿𝑎1
(Σ − 𝜆𝐼 )𝑎1 = 0 (18)
Esto es, en realidad, un sistema lineal de ecuaciones. Por el teorema de Roché-Frobenius, para que
el sistema tenga una solución distinta de 0 la matriz (Σ − λI) tiene que ser singular. Esto implica que
el determinante debe ser igual a cero.
|Σ − 𝜆𝐼| = 0 (19)
(Σ − 𝜆𝐼 )𝑎1 = 0 (20)
= 𝜆𝑎1′ 𝑎1 = 𝜆 ∗ 𝐼 = 𝜆 (24)
Luego, para maximizar la varianza de 𝑦1 se tiene que tomar el mayor autovalor, digamos 𝜆1 , y el
correspondiente auto vector 𝑎1 .
En realidad, 𝑎1 es un vector que nos da la combinación de las variables originales que tiene mayor
varianza, esto es, si 𝑎1′ = (𝑎11 , 𝑎12 , . . . , 𝑎1𝑝 ), entonces.
Por lo tanto, todos los componentes y (en total p) se pueden expresar como el producto de una
matriz formada por los autovectores, multiplicada por el vector x que contiene las variables
originales 𝑥1 , … , 𝑥𝑝 (Herbé et al., 2010 Volumen 2).
𝑦 = 𝐴𝑥 (26)
Página 30 de 110
𝑦1 𝑎11 … 𝑎1𝑝 𝑥1
(⋮)=( ⋮ ⋱ ⋮ )( ⋮ ) (27)
𝑦𝑝 𝑎𝑝1 … 𝑎𝑝𝑝 𝑥𝑝
Además.
𝑉𝑎𝑟(𝑦1 ) = 𝜆1 (28)
𝑉𝑎𝑟(𝑦2 ) = 𝜆2 (29)
𝑉𝑎𝑟(𝑦𝑝 ) = 𝜆𝑝 (30)
𝜆1 … 0
Λ=(⋮ ⋱ ⋮) (31)
0 … 𝜆𝑝
𝑌𝑡 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑝 𝑋𝑝 + 𝜀 (33)
𝑌𝑡 : ∑ 𝛽𝑘 𝑋𝑘𝑖 + 𝜀 (34)
Donde:
𝑌𝑡 : 𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝐷𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒.
𝑋1 , 𝑋2 , … , 𝑋𝑝 : 𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝐼𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠.
Página 31 de 110
4.3.2 Regresión Lineal Generalizada (GLM)
En un modelo lineal generalizado (GLM), se supone que cada resultado Y de las variables
dependientes se genera a partir de una distribución particular en la familia exponencial, un amplio
rango de distribuciones de probabilidad que incluye las distribuciones normales, binomial, Poisson
y gamma, entre otras. La media, μ, de la distribución depende de las variables independientes, X,
por medio de (Hastle & Tibshirani, 1990).
Donde
𝑔: 𝐹𝑢𝑛𝑐𝑖ó𝑛 𝑑𝑒 𝑒𝑛𝑙𝑎𝑐𝑒
𝑉: 𝐹𝑢𝑛𝑐𝑖ó𝑛 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎
Además, delo anterior sé debe contar con una distribución de probabilidad de forma exponencial.
𝑏(𝜃)𝑇 𝑇(𝑦)−𝐴(𝜃)
𝑓𝑌 (𝑦|𝜃, 𝜏) = ℎ(𝑦, 𝜏)exp ( ) (37)
𝑑(𝜏)
GLMNET es una técnica en la que se ajusta a un modelo lineal generalizado a través de la máxima
probabilidad penalizada. La ruta de regularización se calcula para la penalización de lazo o elástica
neta en una cuadrícula de valores para la regularización del parámetro lambda. El algoritmo es
extremadamente rápido y puede explotar la dispersión en la matriz de entrada.
(1−𝛼)‖𝛽‖22
𝑚𝑖𝑛𝛽0 ,𝛽 1/𝑁 ∑𝑁 𝑇
𝑖=1 𝑤𝑖 𝑙 (𝑦𝑖 , 𝛽0 + 𝛽 𝑥𝑖 ) + 𝜆 [ + 𝛼‖𝛽‖1 ] (38)
2
Lo anterior está sobre una cuadricula de valores que cubre todo el rango. 𝑙(𝑦, 𝜂)es la contribución
negativa de la probabilidad logarítmica de la observación i. Para el caso gaussiano se traduce en
1/2(𝑦 − 𝜂)2 . La penalidad elástica neta es controlada por el factor α y cierra la brecha entre el lazo
cuando α=1 y la cresta cuando α=0. E parámetro de ajuste controla la fuerza de la penalización.
Página 32 de 110
Se sabe que la penalización de la cresta reduce los coeficientes de los predictores correlacionados
entre sí, mientras que el lazo tiende a seleccionar uno de ellos y descartar los demás. La penalización
elástica-neta mezcla estos dos; si los predictores están correlacionados en grupos, un α=0.5 tiende
a seleccionar los grupos dentro o fuera juntos (Simon et al., 2013).
Breiman (1984), desarrolló el algoritmo CART cuyo resultado es en general, un árbol de decisión, las
ramas representan conjuntos de decisiones y cada decisión genera reglas sucesivas para continuar
la clasificación (partición) formando así grupos homogéneos respecto a la variable que se desea
discriminar. Las particiones se hacen en forma recursiva hasta que se alcanza un criterio de parada,
el método utiliza datos históricos para construir el árbol de decisión, y este árbol se usa para
clasificar nuevos datos. CART es un método no-paramétrico de segmentación binaria donde el árbol
es construido dividiendo repetidamente los datos. En cada división los datos son partidos en dos
grupos mutuamente excluyentes. El nodo inicial es llamado nodo raíz o grupo madre y se divide en
dos grupos hijos o nodos, luego el procedimiento de partición es aplicado a cada grupo hijo por
separado. Las divisiones se seleccionan de modo que “la impureza” de los hijos sea menor que la
del grupo madre y ´estas están definidas por un valor de una variable explicativa (Deconinck, Zhang,
Coomans, & Heyden , 2006). El objetivo es particionar la respuesta en grupos homogéneos y a la vez
mantener el árbol razonablemente pequeño. Para dividir los datos se requiere un criterio de
particionamiento el cual determinará la medida de impureza, esta ´ultima establecerá el grado de
homogeneidad entre los grupos.
Página 33 de 110
Construcción del árbol máximo
La función de impureza es una medida que permite determinar la calidad de un nodo, esta será
denotada por i(t). Existen varias medidas de impureza (criterios de particionamiento) que nos
permiten analizar varios tipos de respuesta, las tres medidas más comunes presentadas por Breiman
(Breiman et al., 1984), para árboles de clasificación son:
2
∆𝑖 (𝑡) = − ∑𝑘𝑗=1[𝑝𝑗 (𝑡)] (42)
Este índice es el más utilizado. En cada división el índice Gini tiende a separar la categoría más
grande en un grupo aparte, mientras que el índice de información tiende a formar grupos con más
de una categoría en las primeras decisiones, y, por último, está el índice de “Towing “.
Página 34 de 110
A diferencia del índice Gini, Towing busca las dos clases que juntas formen más del 50 % de los datos,
esto define dos “super categorías” en cada división para las cuales la impureza es definida por el
índice Gini. Aunque el índice Towing produce árboles más balanceados, este algoritmo trabaja más
lento que la regla de Gini (Deconinck, Zhang, Coomans, & Heyden , 2006). Para usar el índice de
Towing seleccione la partición “s”, que maximice lo siguiente.
𝑝𝐿 𝑝𝑅 2
[∑𝑗 |𝑝(𝑗|𝑡𝐿 ) − 𝑝(𝑗|𝑡𝑅 )|] (43)
4
El árbol obtenido es generalmente sobre ajustado por tanto es podado, cortando sucesivamente
ramas o nodos terminales hasta encontrar el tamaño “adecuado” del árbol.
Breiman (Breiman , Freidman, Olshen, & Stone, 1984) introducen algunas ideas básicas para resolver
el problema de seleccionar el mejor árbol. Computacionalmente el procedimiento descrito es
complejo. Una forma es buscar una serie de ´arboles anidados de tamaños decrecientes (De'ath &
Fabricius, 2000), cada uno de los cuales es el mejor de todos los árboles de su tamaño.
Estos árboles pequeños son comparados para determinar el ´optimo. Esta comparación está basada
en una función de costo complejidad, 𝑅𝛼 (𝑇).
Para cada árbol T, la función costo – complejidad se define como (Deconinck, Zhang, Coomans, &
Heyden , 2006).
donde R(T) es el promedio de la suma de cuadrados entre los nodos, puede ser la tasa de mala
clasificación total o la suma de cuadrados de residuales total dependiendo del tipo de árbol, |𝑇̃ | es
la complejidad del árbol, definida como el número total de nodos del sub-árbol y α es el parámetro
de complejidad.
El parámetro α es un número real mayor o igual a cero, Cuando α = 0 se tiene el árbol más grande y
a medida que α se incrementa, se reduce el tamaño del árbol. La función 𝑅𝛼 (𝑇) siempre será
minimizado por el árbol más grande, por tanto, se necesitan mejores estimaciones del error, para
esto Breiman (Breiman , Freidman, Olshen, & Stone, 1984) proponen obtener estimadores
Página 35 de 110
“honestos” del error por “validación cruzada”. Computacionalmente el procedimiento es exigente
pero viable, pues solo es necesario considerar un árbol de cada tamaño, es decir, los ´arboles de la
secuencia anidada.
- Si se cuenta con suficientes datos se parte la muestra, sacando la mitad o menos de los
datos y se construye la secuencia de ´arboles utilizando los datos que permanecen, luego
predecir, para cada árbol, la respuesta de los datos que se sacaron al iniciar el proceso;
obtener el error de las predicciones; seleccionar el árbol con el menor error de predicción.
- Validación cruzada con partición en V.
4.4.2 Máquina de Vectores de Soporte (SVM)
Las Máquinas de Vectores de Soporte o Support Vector Machines (SVM) son un conjunto de
algoritmos de aprendizaje supervisado desarrollados por Vladimir Vapnik. El objetivo de los
problemas de clasificación que aplican este tipo algoritmos de aprendizaje supervisado es el
siguiente; dado un conjunto de entrenamiento con sus etiquetas de clase, entrenar una SVM para
construir un modelo que prediga la clase de una nueva muestra o conjunto de prueba. Las SVM son
una de las técnicas más poderosas del aprendizaje automático. Consiste en construir un hiperplano
en un espacio de dimensionalidad muy alta (o incluso infinita) que separe las clases que tenemos.
Una buena separación entre las clases permitirá una clasificación correcta de la nueva muestra, es
decir, necesitamos encontrar la máxima separación a los puntos más cercanos a este hiperplano.
Las Máquinas de Vectores Soporte es una de las técnicas más poderosas del aprendizaje automático,
que a pesar de su sencillez ha demostrado ser un algoritmo robusto y que generaliza bien en
problemas de la vida real. La técnica de las SVM consiste en construir un hiperplano en un espacio
de dimensionalidad muy alta que separe las clases que tenemos. Esta técnica puede ser utilizada
Página 36 de 110
tanto en problemas de clasificación como de regresión. Una buena separación entre las clases
permitirá una clasificación correcta.
Dado que el objetivo de las SVM es buscar el hiperplano ´optimo que mejor separe las clases,
introduciremos el concepto de margen para conseguirlo. Este concepto sólo tiene sentido en los
casos en los que datos sean linealmente separables, pero es la base para obtener el problema de
optimización que nos dará el algoritmo de las SVM.
𝑓 (𝑥 ) = 𝑥 ∙ 𝑤 + 𝑏 (45)
Se puede definir el margen como la suma de las distancias de los puntos más cercanos al hiperplano,
es decir:
1 𝑤 𝑤 1 2
𝛾 = (‖𝑤‖2 ∙ 𝑥 + − ‖𝑤‖2 ∙ 𝑥 − ) = (𝑤 ∙ 𝑥 + − 𝑤 ∙ 𝑥 − ) = (46)
2 2‖𝑤‖2 ‖𝑤‖2
2
Por lo tanto, el objetivo el maximizar el margen 𝛾 = ‖𝑤‖2 , matemáticamente esto es lo mismo que
1
min ‖𝑤‖2 (47)
2
sujeta a una serie de restricciones, que vienen de la condición de que las clases positivas (𝑦𝑖 = 1)
deben estar separadas de las clases negativas (𝑦𝑖 = −1).
𝑥𝑖 ∙ 𝑤 + 𝑏 ≥ +1 𝑝𝑎𝑟𝑎 𝑦𝑖 = +1 (48)
𝑥𝑖 ∙ 𝑤 + 𝑏 ≤ −1 𝑝𝑎𝑟𝑎 𝑦𝑖 = −1 (49)
𝑦𝑖 (𝑥𝑖 ∙ 𝑤 + 𝑏) − 1 ≥ 0 ∀𝑖 (50)
Por tanto, nos encontramos ante un problema de optimización cuadrática convexa con restricciones
lineales, en el que el hiperplano se obtiene minimizando la norma del vector de pesos w.
Página 37 de 110
Finalmente se llega al problema primal de la máquina de vectores de soporte.
1
min𝑤,𝑏 ‖𝑤‖2 (51)
2
𝑠. 𝑡. 𝑦𝑖 (𝑥𝑖 ∙ 𝑤 + 𝑏) − 1 ≥ 0 ∀𝑖 (51)
En la vida real, la mayoría de los problemas no tienen datos linealmente separables, lo que
imposibilita la tarea de encontrar un hiperplano que separe perfectamente los datos. Para resolver
este problema introducimos una nueva variable, a la que conocemos como variable de holgura y
denotamos por ξ. El objetivo de esta nueva variable es hacer el modelo menos rígido y permitir
ciertos errores, es decir, que algunos puntos de clase +1 sean clasificados como −1 y viceversa
(Cristianini & Shawe-Taylor, 2000).
Al introducir una nueva variable, lógicamente, nuestro problema cambia, ya que tanto la función a
optimizar como las restricciones no son las mismas. Las restricciones ahora tendrán la forma:
𝑦𝑖 (𝑥𝑖 ∙ 𝑤 + 𝑏) − 1 + ξ𝑖 ≥ 0 ∀𝑖 (52)
Al mismo tiempo, vamos a penalizar ese error con un nuevo parámetro C, que es añadido a la
función objetivo, de tal manera que, a mayor C, mayor es la penalización que damos a los errores y
por tanto permitimos menos. Por el contrario, si C es pequeño, permitimos a nuestro modelo
cometer más errores.
El valor de C va a ser importante en este sentido, ya que, si damos un valor demasiado grande, el
modelo penalizará mucho los errores cometidos en el conjunto de entrenamiento y por tanto se
producirá el overfitting o sobre aprendizaje, esto es, el modelo sobre aprende los datos de
entrenamiento, ciñéndose a ellos, lo que produce que no haya una buena generalización y la
clasificación en los nuevos datos de prueba no sea buena. Por otro lado, si C es muy pequeño, el
modelo permitirá muchos errores y no será bueno, produciéndose el conocido underfitting
(Cristianini & Shawe-Taylor, 2000).
Página 38 de 110
Después de estas modificaciones, el problema de optimización obtenido para SVM en el que los
datos no son linealmente separables será el siguiente:
1
min𝑤,𝑏 ‖𝑤‖2 + 𝐶 ∑𝑙𝑖=1 ξ𝑖 (53)
2
𝑠. 𝑡. 𝑦𝑖 (𝑥𝑖 ∙ 𝑤 + 𝑏) − 1 + ξ𝑖 ≥ 0 ∀𝑖 (54)
ξ𝑖 ≥ 0 ∀𝑖 (55)
El objetivo en este caso es encontrar una función 𝑓(𝑥) con una desviación 𝜀 del ”target” 𝑦𝑖 para
todos los datos.
La variable 𝜀 es conocida como la anchura de la banda y es deseable que no tenga un valor muy alto
manteniendo un equilibrio con la complejidad del problema. Por tanto, vamos a permitir ciertos
errores para aquellos valores predichos que estén cerca del valor real. Para ello introducimos el
concepto de función de pérdida 𝜀 que permite errores menores que 𝜀 del valor real.
En estos modelos también introducimos la variable de holgura ξ para permitir ciertos errores, que
es acompañada por su correspondiente término de regularización C en la función objetivo.
Página 39 de 110
En cambio, si 𝜀 es muy pequeño permitimos muy poco error y la complejidad del modelo aumenta
rápidamente. Por tanto, existe una relación entre C y 𝜀 a la hora de buscar los parámetros óptimos
del modelo. Si C es muy grande 𝜀 también lo será, ya que, si no tendríamos modelos muy
complicados, en los que se permitirían pocos errores, con riesgo de overfitting. En caso contrario si
C es pequeño 𝜀 también debería serlo, ya que en caso contrario nuestro modelo sería permisivo con
los errores y habría riesgo de underfitting (Cristianini & Shawe-Taylor, 2000).
1
min𝑤,𝑏 ‖𝑤‖2 + 𝐶 ∑𝑙𝑖=1(ξ𝑖 + ξ̂𝑖 ) (57)
2
𝑠. 𝑡. (𝑥𝑖 ∙ 𝑤 + 𝑏) − 𝑦𝑖 ≤ 𝜀 + ξ𝑖 ∀𝑖 (58)
ξ𝑖 , ξ̂𝑖 ≥ 0 ∀𝑖 (60)
El método de los k vecinos más cercanos es un método de clasificación supervisada que sirve para
estimar la función de densidad 𝐹(𝑥 ⁄𝐶𝑗 ) de las predictoras x por cada clase 𝐶𝑗 . Este es un método de
clasificación no paramétrico, que estima el valor de la función de densidad de probabilidad o
directamente la probabilidad a posteriori de que un elemento x pertenezca a la clase 𝐶𝑗 a partir de
la información proporcionada por el conjunto de prototipos. En el proceso de aprendizaje no se
hace ninguna suposición acerca de la distribución de las variables predictoras.
Página 40 de 110
El espacio es particionado en regiones por localizaciones y etiquetas de los ejemplos de
entrenamiento. Un punto en el espacio es asignado a la clase C si esta es la clase más frecuente
entre los k ejemplos de entrenamiento más cercano. Generalmente se usa la distancia euclidiana.
𝑝
𝑑(𝑥𝑖 , 𝑥𝑗 ) = √∑𝑟=1(𝑥𝑟𝑖 − 𝑥𝑟𝑗 )2 (61)
La fase de entrenamiento del algoritmo consiste en almacenar los vectores característicos y las
etiquetas de las clases de los ejemplos de entrenamiento. En la fase de clasificación, la evaluación
del ejemplo (del que no se conoce su clase) es representada por un vector en el espacio
característico. Se calcula la distancia entre los vectores almacenados y el nuevo vector, y se
seleccionan los k ejemplos más cercanos. El nuevo ejemplo es clasificado con la clase que más se
repite en los vectores seleccionados.
Este método supone que los vecinos más cercanos nos dan la mejor clasificación y esto se hace
utilizando todos los atributos; el problema de dicha suposición es que es posible que se tengan
muchos atributos irrelevantes que dominen sobre la clasificación: dos atributos relevantes
perderían peso entre otros veinte irrelevantes.
Para corregir el posible sesgo se puede asignar un peso a las distancias de cada atributo, dándole
así mayor importancia a los atributos más relevantes. Otra posibilidad consiste en tratar de
determinar o ajustar los pesos con ejemplos conocidos de entrenamiento. Finalmente, antes de
asignar pesos es recomendable identificar y eliminar los atributos que se consideran irrelevantes.
El algoritmo de entrenamiento debe definir que para cada ejemplo < 𝑥, 𝑓(𝑥 ) >, donde 𝑥 ∈ 𝑋 se
debe agregar el ejemplo a la estructura representando los ejemplos de aprendizaje.
Por otro lado, el algoritmo de clasificación se define de tal manera que dado un ejemplar 𝑥𝑞 que
debe ser clasificado, se define 𝑥1 , 𝑥2 , … , 𝑥𝑘 los k vecinos más cercanos a 𝑥𝑞 en los ejemplos de
aprendizaje, el algoritmo debe regresar lo siguiente.
Donde
Página 41 de 110
5. Caso 1: Descripción del Proceso en la Refinería de
Chuquicamata.
5.1 Proceso de refinación electroquímico
Página 42 de 110
Las principales reacciones químicas presentes en el proceso son las siguientes.
𝐶𝑢𝑖𝑚𝑝𝑢𝑟𝑜 → 𝐶𝑢𝑝𝑢𝑟𝑜 𝐸0 = 0 𝑉
Es necesario considerar que además del voltaje de reacción, se tiene un sobre potencial catódico
(~50mV) y un sobre potencial anódico (~100mV), además de las pérdidas óhmicas en el electrolito
y en las resistencias de contacto entre los electrodos y las barras intercelda. Finalmente, el potencial
aplicado a una celda de electro-refinación es de 300mV aproximadamente.
𝑃𝑀 ∗ 𝐼 ∗ 𝑡 ∗ 𝐴
𝑀=
𝑛∗𝐹
Donde:
𝑡: 𝑇𝑖𝑒𝑚𝑝𝑜 (𝑠𝑒𝑔)
La Refinería está diseñada para una producción de 855.000 tpa de cátodos electrorefinados, (95 %
de eficiencia de corriente y 95 % de disponibilidad de máquina o eficiencia de tiempo). El proceso
Página 43 de 110
aplicado en el cambio tecnológico de la Refinería, es el de Falconbridge, conocido como "Kidd
Process", tecnología que utiliza cátodos permanentes de acero inoxidable.
Destacan dentro del concepto de diseño aplicado, el hecho de que las instalaciones de esta planta
permiten operar con un alto grado de automatización en el movimiento interno de electrodos. Este
factor es muy importante pues permite una operación que utiliza bajo nivel de mano de obra, alto
nivel de eficiencia y podrá a acceder a costos competitivos frente a sus similares.
- División El Teniente.
- División El Salvador.
- Fundición AltoNorte.
- Fundición de Concentrados Chuquicamata.
En esta última retorna un 70% de los scrap’s generado (103.502 tpa) en la Refinería para ser
nuevamente moldeado a ánodos y el 30% restante a la Fundición de Concentrado (44.358 tpa).
El Área de Refinería Electrolítica mide aproximadamente 396 m de largo por 108 m de ancho. En
ésta se ubican dos naves, una al lado Norte y otra al lado Sur con 25 secciones en cada lado ya
incorporadas las 80 celdas en circuito 11 (cada sección con 40 celdas). Una tercera nave resulta de
la incorporación de los actuales circuitos de láminas iniciales a los circuitos comerciales,
adicionalmente se le agregan 3 secciones quedando un total de 9 secciones (6 secciones con 36
celdas y 3 secciones con 40 celdas). Cada nave de celdas es atendida por un “Bay Carrier” (total 3
BC) para el manejo de electrodos. En las tres naves se distribuyen un total de 2.336 celdas
electrolíticas distribuidas en siete circuitos hidráulicos en los que circula el electrolito. Para la
recirculación del electrolito, cada circuito hidráulico posee un sistema compuesto de bombas,
estanques de recirculación y almacenamiento e intercambiadores de calor. Además, cada circuito
hidráulico dispone de un sistema de reposición de agua, sistema de reposición de ácido sulfúrico,
un sistema de dosificación de aditivos y un sistema de filtración de electrolito (3 filtros para los siete
circuitos hidráulicos).
Página 44 de 110
Barro anódico descobrizado 1.126 t/año
Cobre descarte a Planta de SX/EW 6.850 t/año
Restos de ánodos a fundición 147.860 t/año
Las celdas de la nave electrolítica se encuentran ordenadas mediante circuitos enumerados desde
el 9 al 20. Actualmente se encuentran varios circuitos fueras de operación debido a la baja
producción. Cada circuito está construido por una subunidad denominada sección. Y a su vez cada
sección está definida como un conglomerado de 40 celdas de electro refinación. Cada celda de
electrorefinación mide 5,8 metros de largo, 1,1 metro de ancho y 1,2 metros de profundidad.
El proceso en la refinería de Chuquicamata tiene una duración de 10 días, con una densidad de
corriente promedio de 300 A/m2. Se generan cátodos de un peso promedio de 175 a 180 kg.
La nave posee un sistema de control hidráulico y eléctrico, pero el control químico se hace de
manera semi automático debido a que la muestra necesaria para el análisis se toma de manera
manual por personal de la refinería, una vez por día, en los estanques de recirculación de los
circuitos hidráulicos.
Página 45 de 110
5.3 Entender el negocio
Tal como se mencionó en la introducción, la refinería de cobre desde el año 2014 a la fecha ha
pasado por un periodo de transformaciones relevantes en su proceso y seguirá con cambios
importantes debido principalmente a la variabilidad en la composición anódica. Por lo tanto,
adelantarse a esos cambios, o predecir el comportamiento de ellos, es fundamental para el óptimo
rendimiento de la operación y el cumplimiento en su totalidad de la producción.
El negocio de refinería es básicamente una maquiladora de materia prima, en este caso, se hace
cargo de los ánodos provenientes de la fundición Chuquicamata y de la fundición Alto Norte. Su
producto final es cátodo grado A, con un 99,9% de pureza.
Impurezas Ánodo
Variable de Procesos
En cada uno de los bloques de la figura 17 se desprenden una serie de variables de proceso que
ayudan en el control diario de la electrorefinación. Cada variable posee un límite inferior y superior
de control además de que cada bloque posee una forma distinta de temporalidad de medición.
En el primer caso de impurezas en el ánodo, la medición se realiza por lote enviado a la refinería
desde la fundición. Por tanto, el lote diario que arriba a la refinería llega con un análisis químico
realizado en la fundición. Se asume que el lote completo posee la misma composición.
- Plata en el Ánodo.
Página 46 de 110
- Oxígeno en el Ánodo.
- Arsénico en el Ánodo.
- Antimonio en el Ánodo.
- Bismuto en el Ánodo.
En el caso de las variables de proceso, estas se miden en los estanques de recirculación de electrolito
de cada circuito. No se realizan mediciones en celdas o secciones de celda en específico por un
motivo netamente de manejo de personal. Se entiendo la variabilidad que puede existir dentro de
cada celda por temas de distribución de electrolito o de posibles acreciones que limiten el flujo entre
una celda y otra, pero se asume para el caso de la medición que la concentración obtenida es
homogénea para todo el circuito, se entiende que el circuito tiene en promedio 400 celdas.
Las principales variables de proceso que se presentan para el control metalúrgico son las siguientes.
Min Max
As (gpl) 8 10
Sb (gpl) - 0,3
Cl Electrolito (ppm) - 70
Fe+3 electrolito (gpl) - 0,15
Bi electrolito (ppm) - 50
Ácido Sulfúrico (m3/día) - -
Agua de Procesos - -
(m3/dia)
EfCorriente (%) 97% -
Tabla 2 - Limites de control Variables de Procesos
Finalmente, en el caso del rechazo catódico las variables que toman relevancia en el día a día en la
refinería son las siguientes.
Min Max
% Rechazo - 5%
N° de Corto Circuitos por día - 60
Tabla 3 - Límites de control variables de producción
Página 47 de 110
5.4 Data recopilada
La data recopilada para este trabajo proviene del informe semanal que emite la Super intendencia
de Procesos y Operaciones (SOPER). En el informe se detallan las siguientes variables.
La data recopilada tiene una temporalidad diaria, es decir una medición al día. Esto debido a que la
división encargada de los análisis de la Super Intendencia de Procesos (SIP) solo opera en turno A.
De acuerdo con lo mencionado en el punto 5.1 y posterior descripción de las variables en el punto
5.2, los 4 bloques de variables se describen de la siguiente manera.
Página 48 de 110
Ag ánodo Plata en el ánodo g/ton
O2 ánodo (g/ton) Oxígeno en el ánodo g/ton
As ánodo (ppm) Arsénico en el ánodo ppm
Sb ánodo (ppm) Antimonio en el ánodo ppm
Bi ánodo (ppm) Bismuto en el ánodo ppm
Tabla 5 - Bloque 1: Impurezas en el ánodo
Las variables poseen una periodicidad diaria, es decir una medición por día. En el caso del primer
bloque, las impurezas del ánodo vienen descritas en el informe de calidad proveniente de la
fundición.
En el caso del segundo bloque, impurezas en el electrolito, la medición se realiza 1 vez por día. Esta
medición la realiza personal de SIP, la medición se realiza de lunes a domingo en turno A, es decir
entre las 7 am y las 15 pm. Esta muestra se envía un laboratorio químico externo.
Página 49 de 110
El tercer bloque, las variables de procesos, el dato es entregado turno a turno. Para el caso del
SIPSOPER se suman estos valores y se entrega una cantidad diaria. El encargado de agregar agua y
ácido sulfúrico al proceso es el operador PDA de Procesos.
En el caso del cuarto bloque, el número de corto circuitos es dado por la cuadrilla de inspección que
se realiza en cada turno, se suman los corto circuitos de cada turno en cada día. El porcentaje de
rechazo catódico es obtenido desde PI System, esta medición se realiza entre la cantidad total de
cátodos que pasan por la Maquina Despegadora de Cátodos (MDC) y los cátodos rechazados. Esta
medición es global, no se especifica el tipo de rechazo. La eficiencia de corriente se obtiene
mediante PI System.
Finalmente se crea una variable de clasificación de rechazo, esta posee tres niveles:
Para el análisis se tomaron 1277 datos por variable con un total de 25 variables de procesos. Lo
anterior se traduce en una base de datos de 31.925 datos. Lo anterior comprende el periodo entre
01 de enero de 2015 hasta el 30 de junio de 2018.
El periodo determinado para el estudio, y al cual corresponden estas 1277 tuplas, es determinado
en conjunto con la Superintendencia de Procesos (Superintendente - Víctor Carrasco). Desde el año
2015 a la fecha la Refinería ha logrado estabilidad operativa luego de una anormalidad en el año
2014, en donde el rechazo catódico bordeaba el 40%. Por tanto, el objetivo de la Superintendencia
de proceso es lograr un modelo que verifique el efecto de variaciones en concentraciones de
impurezas en el electrolito o de eficiencia de corriente y su potencial efecto en la refinería con esta
nueva normalidad operativa.
Página 50 de 110
Figura 12 - Rechazo catódico 2014-2018
Una vez determinado el periodo a analizar para la realización de el o los modelo Para lo anterior, en
primer lugar, se realiza la estadística descriptiva de los datos.
Página 51 de 110
Agua de Procesos 0,00 658,00 455,39 -0,64 1,78
(m3/día)
Corto Circuito 0,00 85,00 34,34 0,45 -0,11
Rechazo (%) 1,00 35,14 4,35 3,93 22,38
EfCorriente (%) 87,70 99,80 96,56 -1,06 2,10
De la tabla 10 se observa que a simple vista las impurezas en el ánodo poseen una mayor diferencia
entre el Mínimo – Máximo y Promedio. A pesar de estos valores extremos, las impurezas asociadas
a estos ánodos se encuentran bien controladas con la planta de intercambio iónico.
En cuanto a la tabla 11, se normalizan las desviaciones para poder compararlas entre ellas, ya que
las distintas variables poseen diferentes ordenes de magnitud no comparables a simple vista. De la
tabla se observa que el arsénico en el electrolito se encuentra con la menor desviación normalizada,
esto indica una baja variación de esta variable en el electrolito a través de los años. Por otro lado,
las demás variables describen desviaciones similares entre sí.
Página 52 de 110
A continuación, se realizó el análisis de la curtosis de cada variable por 3 años seguidos, 2014, 2015
y 2016. Se toma el 2014 como base para determinar cambio de simetría en las distribuciones en los
siguientes años en las variables en estudio. Finalmente, independiente que la base de datos posee
datos hasta mediados de junio de 2018, la curtosis se analizó hasta el 2016, los años posteriores no
poseen cambios en su forma de distribución.
El cambio de asimetría de las variables a lo largo de los años 2014, 2015 y 2016 es importante. El
primer grupo para estudiar son las impurezas del ánodo (Ag, O2, As y Sb). Entre 2014 y 2015 solo el
As mostró un cambio importante en el valor de la asimetría; con una distribución de Platicúrtica en
2015. Esto significa que el As no tiene valores extremos o fuera de rango durante este período, pero
al mismo tiempo no tiene un valor marcado de tendencia central o cercano al promedio. Existe una
serie de valores que se repiten a lo largo del periodo. Las otras impurezas, Ag, O2 y Sb, cambiaron
entre 2015 y 2016 a una distribución de tipo Leptocúrtica. En palabras simples, hay valores más
extremos o fuera de rango y valores centrales más limitados y cercanos al promedio.
Página 53 de 110
el electrolito tiene una asimetría leptocúrtica durante 2015 y Platicúrtica durante 2016, lo que
refleja el impacto directo sobre las impurezas en el arranque de la planta de intercambio iónico. En
el sistema global, el promedio Como en el electrolito mantiene durante 2015 y 2016 una distribución
de tipo Leptocúrtica, esto indica que la planta de intercambio iónico controla la variabilidad de As
en el electrolito y se mantiene en un valor constante.
Para el análisis de outlier se utiliza el algoritmo descrito en el capítulo anterior, LOF. Los resultados
son los siguientes.
Página 54 de 110
SbC12 (gpl) 1277 2 0,16 0,09 0,49
SbC13 (gpl) 1277 0 0,00 0,07 0,47
SbC14 (gpl) 1277 1 0,08 0,08 0,48
SbC19 (gpl) 1277 0 0,00 0,04 0,60
Sbpromelec (gpl) 1277 47 3,68 0,17 0,40
Cl Electrolito (ppm) 1275 1 0,08 33,30 96,50
Fe+3 electrolito (gpl) 1277 7 0,55 13,00 149,00
Bi electrolito (ppm) 1276 13 1,02 -5,00 51,00
Ácido Sulfúrico (m3/día) 1277 54 4,23 2,00 90,00
Agua de Procesos (m3/día) 1277 6 0,47 184,38 727,38
Corto Circuito 980 4 0,41 -8,50 75,50
Rechazo (%) 1277 78 6,11 -0,99 8,60
EfCorriente (%) 1277 24 1,88 92,30 101,10
Tabla 12 - Resumen de outliers en base de datos Refinería
La base de datos disponible para realizar modelación, una vez filtrada y aplicando filtro de outliers
queda en un 97,75% de la base de datos original.
De manera exploratoria se realiza una correlación entre todas las variables en participación. La
correlación se realiza en búsqueda de relaciones lineales y no lineales entre las variables.
Página 55 de 110
Figura 14 - Correlación de Spearman
Tanto en el análisis de correlación de Pearson y de Spearman revela una alta correlación positiva
entre los distintos circuitos para las concentraciones de arsénico y antimonio en el electrolito. Con
lo cual se observa que las impurezas se distribuyen de manera homogénea en toda la nave de electro
refinación.
En el caso de las variables definidas como finales o resultados, existen varios resultados que
resultan, por lo demás decir interesantes, aunque se vuelve a destacar que los resultados esbozan
ciertos comportamientos, pero a la hora de observar el valor del factor de correlación, no es
concluyente. El primero de ellos es que el número de corto circuitos que se detectan durante las
inspecciones periódicas que se realizan durante los turnos, posee una correlación “directa” con la
concentración de cloro en el electrolito. Por otro lado, en un resultado más global, el porcentaje de
rechazo catódico se encuentra relacionado con el promedio de antimonio en la nave.
Otro resultado importante es que la eficiencia de corriente decae a medida que aumenta el número
de corto circuitos en la nave de electro refinación. En menor medida la eficiencia de corriente
también se afectada de manera negativa si aumenta la concentración de bismuto en el electrolito.
Página 56 de 110
Otro importante análisis por realizar es determinar cuáles son las variables con mayor cantidad de
varianza dentro de todo el proceso, para ello se utiliza el análisis de componentes principales o PCA.
Esto se realiza ya que con la normalización de la desviación no es posible ver principales efectos de
las variables sobre toda la data. Se hace necesario la disminución dimensional de las variables y
obtener los componentes principales de set de datos.
Página 57 de 110
Figura 16 - Contribución de variables dimensión 1
Página 58 de 110
Variables Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
Ag ánodo (g/ton) 0,0476 0,1324 0,2761 0,0592 0,1186
O2 ánodo (g/ton) 0,0432 0,4085 0,3889 0,0124 0,1946
As ánodo (ppm) 0,0451 0,2138 0,4575 0,0719 0,1282
Sb ánodo (ppm) 0,0307 0,4367 0,5152 0,2062 0,1184
Bi ánodo (ppm) 0,1699 0,2510 0,0081 0,0228 0,3086
AsC11 (gpl) 0,9199 0,2099 0,1677 0,0211 0,1002
AsC12 (gpl) 0,7805 0,1850 0,1343 0,0212 0,0667
AsC13 (gpl) 0,9363 0,1973 0,1379 0,0077 0,0296
AsC14 (gpl) 0,9317 0,1880 0,1415 0,0062 0,0999
AsC19 (gpl) 0,2851 0,1575 0,4013 0,0322 0,5664
Aspromelec (gpl) 0,9638 0,2192 0,1264 0,0075 0,0385
SbC11 (gpl) 0,2153 0,5899 0,3683 0,1057 0,1571
SbC12 (gpl) 0,2698 0,6525 0,2204 0,0023 0,0634
SbC13 (gpl) 0,1442 0,5413 0,3331 0,0453 0,3971
SbC14 (gpl) 0,2904 0,5506 0,3953 0,0447 0,1063
SbC19 (gpl) 0,0946 0,6768 0,1993 0,4276 0,0533
Sbpromelec (gpl) 0,2806 0,8850 0,2661 0,2006 0,1172
Cl Electrolito (ppm) 0,0958 0,3523 0,5389 0,1405 0,0765
Fe+3 electrolito (gpl) 0,0835 0,4006 0,3795 0,0749 0,1658
Bi electrolito (ppm) 0,1895 0,1414 0,3658 0,5532 0,0064
Ácido Sulfúrico (m3/día) 0,0284 0,0519 0,0095 0,1028 0,2368
Agua de Procesos (m3/día) 0,0305 0,0486 0,1024 0,1767 0,1328
Corto Circuito 0,0692 0,3220 0,3169 0,6887 0,2053
Rechazo (%) 0,2326 0,3849 0,0166 0,1921 0,6160
EfCorriente (%) 0,0520 0,3004 0,0915 0,7456 0,0163
Tabla 13 - Componentes principales de las primeras 5 dimensiones
Las primeras 4 dimensiones del PCA son las responsables de explicar alrededor del 50% de la
varianza total del proceso. Este resultado da un esbozo de la no representatividad de los valores de
la base de datos, no existe trazabilidad de las variables de entrada y esa variabilidad se refleja en
que no se pueda distinguir componentes principales de manera efectiva ya que todos los
componentes aportan variabilidad de manera “similar”.
Página 59 de 110
Para todos los modelos de pronósticos, clasificación o regresión que se presenten, se entrenara el
modelo con el 70% de la data existente y se realizara una validación con el 30% restante, además se
verificaran escenarios posibles de aumento o disminución en las variables.
Según los análisis anteriores queda claro que las impurezas en el electrolito son las principales
variables que afectan la variabilidad del proceso global. Según el análisis de correlaciones también
existen otras variables que también afectan al rechazo catódico.
El modelado de estas impurezas se realiza mediante regresión lineal y polinomial. En este sentido
los resultados son los siguientes. Para el caso de regresión lineal se determinaron los siguientes
coeficientes.
Al validar el modelo frente al 30% de data restante los resultados son los siguientes.
En primer lugar, se observa que los valores t (valor-t) son distinto de cero por tanto se encuentra
una diferencia significativa entre el set de datos de entrenamiento y el set de datos de validación.
El valor p indicado en el resultado nos informa que cada una de las variables utilizadas para construir
el modelo posee incidencia importante en este. Lo anterior se deriva de que en todos los predictores
el valor p es menor que la significancia por defecto (5%).
El resultado del modelo lineal aplicado al set de entrenamiento, entrega un R2 ajustado de 0.231. lo
cual es bastante bajo, por tanto, no sirve el modelo para este set de datos.
En el caso de la validación de datos con el 30% restante el modelo respondió dio un R 2 ajustado de
0,276, 4,5% mayor que en el set de datos de entrenamiento. De acuerdo con los resultados descritos
anteriormente el entendimiento del comportamiento de las variables analizadas no es representado
por este tipo de modelo.
Página 60 de 110
Figura 18-Validación de modelo de regresión lineal en número de corto circuitos
A su vez, se prueba un modelo de regresión polinomial. Los resultados son los siguientes.
Página 61 de 110
En el caso de los valores t mencionados en la tabla 15, se observa que existen ciertas variables que
no poseen mayor diferencia entre el set de datos de entrenamiento y validación para un modelo de
regresión polinómica. Estas variables son el Bismuto y el ión Férrico. A su vez, el único valor p
significativo entre las variables analizadas es la variable Cloro. En otras palabras, en el modelo de
regresión polinómica, el ión cloro es la única variable que puede generar una comprensión del
comportamiento de los corto circuitos en la refinería.
Durante la fase entrenamiento el modelo obtuvo un R2 ajustado de 0,288, obteniendo una mejor
performance que el modelo de regresión lineal normal.
En la etapa de validación le modelo presentó los siguientes resultados. El R2 ajustado del modelo
fue de 0,318. Mas alto que la contraparte de regresión lineal, pero aun así no representativo del
comportamiento de los datos.
Por otro lado, se comprobó la efectividad de un modelo lineal generalizado (GLM), los resultados
son los siguientes.
Página 62 de 110
Coeficiente
Cl Electrolito (ppm) 0,654
Fe+3 electrolito (gpl) 0,084
Bi electrolito (ppm) 0,467
Intercepto -28,046
Tabla 17 - Coeficientes modelo GLM
Según los resultados anteriores, de los modelos utilizados (Regresión Lineal, Regresión Polinómica
o GLM), ninguno entrego resultados asociados a la descripción del comportamiento de los corto
circuitos en el proceso de electro refinación. Las combinaciones lineales aplicadas en los modelos
no expresan el comportamiento de las impurezas frente a los corto circuitos.
Otra estrategia para poder descubrir ciertas relaciones entre este conjunto de variables es utilizar
una técnica clúster (no supervisado) para poder clasificar ciertos escenarios. Para lo anterior se
realiza un K-means con detención mediante método de silueta.
El método de silueta indica que los clusters se encuentran con una separación aceptable, no
perfecta, ya que para ello el valor indicado por el método debiera ser +1. Lo importante a destacar
es que existe una diferencia entre los clusters obtenidos.
Página 63 de 110
Cl Electrolito Fe+3 electrolito Bi electrolito Corto
(ppm) (gpl) (ppm) Circuito
Clúster 0 67,109 96,669 24,087 35,48
Clúster 1 62,089 59,343 24,088 26,657
Tabla 19 - Centroide de Clusters de corto circuitos
En la tabla 19 se dan a conocer los centroides de ambos clusters. Desde un punto de vista analítico,
se observa que diferencias marcadas entre centroides se encuentran en las variables de ion férrico
y numero de corto circuito. En el caso de las otras dos variables, como son el ion cloro y el bismuto,
no se observa mayor diferencia.
Desde un punto de vista operativo, la diferencia entre ambos clusters es significativa. En operación,
tener 26 corto circuitos diarios es mucho mejor que tener 35, Todo esto tiene un impacto en
recursos, en planeación de producción, etc. Por tanto, a pesar de tener una separación de clusters
aceptable, es una gran herramienta desde el punto de vista operativo.
Página 64 de 110
Figura 21-Representación de los clústeres calculados (clúster 0: azul, clúster 1: naranjo)
Página 65 de 110
5.7.2 Eficiencia de corriente y el número de Corto circuitos.
El primer modelo que analizar es un modelo de regresión lineal simple, los resultados son
entregados a continuación.
R R2 R2 ajustado RMSE
Coeficiente
Coeficientes no estandarizados estandarizado
ANOVA
Promedio
Modelo Suma Cuadrado df cuadrado F Sig.
Según los resultados anteriormente mostrados el modelo de regresión lineal es un modelo valido
según tabla ANOVA (valor p menor a 0,05), con un R2 de 0.229 y un RMSE bastante bajo en
comparación a los modelos anteriormente calculados.
Página 66 de 110
Figura 22-Modelo de regresión lineal Eficiencia de corriente – Predicción vs real
El segundo modelo por analizar es una regresión del tipo modelo lineal generalizado. Los resultados
se indican a continuación.
R R2 R2 ajustado RMSE
Página 67 de 110
Figura 23-Modelo GLM Eficiencia de corriente – Predicción vs real
Durante la fase de entrenamiento del modelo, el R2 fue de 0.1805, lo cual es muy bajo,
prácticamente los predictores no refleja en nada el comportamiento de la variable dependiente.
Durante la validación cruzada el R2 del modelo fue de un 0.195, levemente más alto que en el caso
del entrenamiento, pero aun así no se ve reflejado el comportamiento de la variable dependiente.
Página 68 de 110
R R2 R2 ajustado RMSE
Este modelo presenta un R2 cercano al 0,5 y un RMSE bastante bajo, cercano al 0,5. Se elige el
modelo GLM para poder modelar ciertos comportamientos futuros del aumento o disminución del
número de corto circuitos o, por otro lado, de un aumento o disminución en la concentración de
bismuto presente en el electrolito.
Aun así, un índice R2 0,5 no es concluyente en cuanto a modelación de comportamiento de los datos.
Otra forma de conocer el comportamiento de esta variable tan importante para el proceso
(Eficiencia de corriente) es mediante la realización de clusters o escenarios de operación.
En este sentido la clasificación de clusters fue determinado mediante método de silueta, en este
caso se verificó que con 2 clusters es la mejor separación de la data.
Página 69 de 110
Figura 25-Número óptima de clusters
Los clusters seleccionados se identificaron mediante el método de silueta, con una separación
aceptable.
Desde el punto de vista analítico, existe una clara separación entre los centroides de la variable
corto circuitos, las demás variables que se encuentran en el estudio no obtienen una separación
significativa. Desde un punto de vista operativo, es claro la diferencia en las variables de respuesta
para obtener 1 punto de diferencia en la eficiencia de corriente. Este punto de eficiencia de
corriente se traduce en cerca de 150 KUSD de ahorro. Sin contar las toneladas extras a procesar de
cobre.
Página 70 de 110
Figura 26-Representación de clusters (clúster 0: Verde, clúster 1:Rojo)
Las impurezas químicas propias del ánodo son un gran problema en el proceso electroquímico, en
este sentido, los niveles de impurezas afectan directamente la calidad catódica al final del proceso.
Para verificar la influencia de estas variables en el proceso, se crea una variable de clasificación de
rechazo catódico. El rechazo es clasificado según lo alto de su porcentaje.
% Rechazo Clasificación
Rechazo >5% “Alto”
Rechazo >3% & Rechazo <5% “Medio”
Rechazo <3% “Bajo”
Tabla 28 - Clasificación del Rechazo catódico
Página 71 de 110
- Modelo de red neural (KNN).
El factor de éxito del modelo lineal se analizó mediante Matriz de confusión e índice de Kappa. La
matriz de confusión se resume en un medidor de precisión de clasificación denominado “Accuracy”.
Los resultados de los modelos se detallan en la tabla siguiente. Se observa que los modelos que
mejor clasifican la data de la refinería son en primer lugar el modelo CART y en segundo lugar el
modelo SVM.
Las variables del modelo son el antimonio y el arsénico por circuito, además del promedio de
bismuto en el electrolito.
Real
Bajo 341 6 1
Medio 27 527 4
Alto 3 40 72
Tabla 29 - Matriz de confusión modelo CART
Página 72 de 110
Precisión 0,925
Valor-p 3,05E-11
Kappa 0,74
Página 73 de 110
Figura 28-Árbol de decisión
Página 74 de 110
En el caso del modelo SVM, los resultados son los siguientes.
Real
Bajo 331 26 6
Medio 27 507 9
Alto 13 40 62
Tabla 31 - Matriz de confusión SVM
Precisión 0,908
Valor-p 4,13E-11
Kappa 0,73
El modelo por utilizar según los resultados obtenidos será el modelo CART. Independiente en que
no hay gran diferencia entre el modelo CART y SVM, se utilizará el modelo CART debido a su utilidad
en la representación gráfica de los árboles de decisión, esto posee gran utilidad en la operación del
día como mapa de ruta del proceso.
Página 75 de 110
6. Caso 2: Sensor de llama en horno Flash Fundición Pirdop –
Aurubis.
6.1 Proceso de Fundición.
La fundición de concentrados de cobre se basa en lograr una mayor concentración de cobre a través
de transformaciones químicas de los minerales sulfurados de cobre. Un hecho fundamental del
proceso es la capacidad de autogeneración de energía por medio de las reacciones exotérmicas que
ocurren en las etapas del proceso y la mayor o menor posibilidad de generar un proceso continuo,
es decir, sin interrupciones de las operaciones unitarias. Para describir el proceso que ocurre en las
fundiciones de concentrados de cobre, se distinguirá en primer lugar las distintas operaciones
unitarias que se realizan y luego las distintas tecnologías que se adecúan en cada uno.
En una fundición de cobre es posible distinguir cuatro procesos principales. Éstos corresponden a:
el secado, la fusión, la conversión, la refinación y la limpieza de escorias. Cada una de estas etapas
cuenta con objetivos, tecnologías y reacciones diferentes, que aportan al proceso de beneficio del
cobre sulfurado. Entre otras actividades relevantes del proceso se destacan el secado de
concentrados húmedos, la captación de gases y la planta de ácido, el proceso de moldeo de ánodos
y en algunos casos la tostación y generación de calcina.
Página 76 de 110
Dentro del proceso de fusión de cobre destaca el horno flash o tecnología de fusión flash
desarrollada por la empresa OUTOTEC.
Esta tecnología permite la fusión y conversión de concentrados de metales sulfurados y se basa, por
una parte, en utilizar la energía que se libera de las reacciones de oxidación de los compuestos de
hierro y de azufre contenidos en el concentrado, el cual se comporta como un combustible capaz
de formar una llama cuando se mezcla con aire precalentado y/o enriquecido con oxígeno como
comburente sin necesidad de energía externa adicional; y por otra, considera la termodinámica de
los fases fundidas e inmiscibles que se generan de estas reacciones. Los productos generados
corresponden a Eje (fase sulfurada líquida con un contenido de 62-70% de cobre), Escoria (fase
oxidada líquida, compuesta de silicatos, con un contenido de 1-2% de cobre y 8-12% de Magnetita)
y los gases metalúrgicos (que poseen un 30-35% de SO2), cuyos equilibrios se alcanzan muy
cercanamente en la llama flash debido al íntimo contacto entre las fases fundidas y el gas. La
mayoría de las reacciones entre el oxígeno, los componentes del concentrado y el fundente ocurren
en la Torre de Reacción y están representadas por las siguientes ecuaciones:
Las fases líquidas se separan por diferencia de densidad en el settler del mismo horno y desde ahí
son evacuadas por un pasaje de sangría y traspasada a través de una canaleta especial hacia los
procesos de conversión para el eje y hacia los sistemas de limpieza para la escoria. Todo lo anterior
ocurre en un Horno de Fusión Flash (FSF).
Por otro lado, los gases, como subproducto de las reacciones de fusión descritas anteriormente, se
enfrían en una caldera donde se produce la transferencia de calor, como resultado, los gases se
envían a planta de ácido a una temperatura adecuada al proceso de producción de ácido.
En este contexto, y en el marco de una industria 4.0, se trata de automatizar dos actividades
esenciales dentro de la operación de un Horno Flash. La primera de ellas es poder determinar
mediante color de llama en el quemador del horno la composición del eje de cobre (producto de la
fusión), actualmente no existe el control de composición, esto debido a que se trata de un producto
Página 77 de 110
intermedio, ya que el eje pasa inmediatamente a la etapa de conversión. El objetivo de esto es poder
optimizar la conversión en cuanto a recurso, tales como fundente o carga fría.
Por otro lado, se encuentra otra tarea importante en la fusión como es la determinación de la
dilatación de la caldera, las variables de procesos que afectan esta dilatación y cuanto tiempo le
toma a la caldera responder frente a cambios en la operación. Actualmente se encuentra un sistema
mecánico que únicamente indica cuantos milímetros se dilata o contrae la caldera durante el día o
cuando se le hace inspección. Es un sistema de monitoreo manual que no entrega mayor detalle del
comportamiento en si de la caldera.
En el primer caso se instaló una cámara hiperespectral en la mirilla del quemador del horno flash.
En el segundo caso se instalaron 4 sensores de dilatación, distribuidos de manera uniforme en la
caldera.
El avance tecnológico ha permitido el desarrollo de diferentes sensores aptos para su uso en los
estrictos entornos operativos de las fundiciones de cobre, algunos ejemplos son; Celdas de
electrolito sólido para medición de oxígeno disuelto en fases fundidas, sensores espectrales
(cámaras) para análisis de llama de quemadores concentradores, sensores de nivel de fase que
distinguen densidad o conductividad eléctrica, sensores de dilatación de materiales utilizados para
aclarar el comportamiento de las paredes en calderas e intercambiadores de calor, y las ya
convencionales termocuplas para la medida de temperatura en refractarios o incluso en fases
fundidas alrededor de 1573 K.
No obstante, para aquella información relevante del proceso que permita esclarecer el desempeño
operativo, la frecuencia de obtención de datos puede ser del orden de una conferencia por 1 o 2
horas, tal es el caso de; contenido de magnetita en la escoria, composición elemental de las fases
del producto escoria / mata / blister, concentración de dióxido de azufre en gases de escape, entre
otros. Lo anterior, ya que la mayoría de ellos requieren de un proceso previo de recolección de
muestras, preparación mecánica y posterior laboratorio químico.
Página 78 de 110
Está claro que, en la actualidad, hay muchos sensores e instrumentos robustos que permiten que
las fundiciones de cobre tengan mediciones más frecuentes y precisas. Si bien existe una asimetría
temporal en la medición de variables y resultados del proceso, la gestión de la información resuelve
el problema en cierta medida mediante la clasificación, agrupamiento y análisis de los datos. La
conectividad de la información (Internet de las cosas, IoT) resulta ser el primer paso al momento de
empezar a pensar en un desarrollo predictivo, el mundo avanza hacia la digitalización de los
procesos mediante la incorporación de nuevos sensores e instrumentos. Después de eso, se
requiere un análisis de la información, generalmente a través de algún software, y emitir juicios al
respecto. El conocimiento y la capacitación son la clave en este paso, específicamente para conocer
y comprender la metalurgia que rige las operaciones unitarias en una fundición de cobre y tener
habilidades de ingeniería. Reconocer el comportamiento de señales y patrones generados por
sensores, y desarrollar algoritmos que los vinculen en tiempo real con la metalurgia y fenomenología
de los procesos. Las fundiciones de cobre deben enfocar sus esfuerzos en generar mantenimiento
predictivo, de esta manera se optimiza el costo total de mantenimiento ya que los cambios de
componentes se realizan por condiciones particulares incorporando la experiencia aprendida a
través del tiempo, complementada con decisiones operativas basadas en el conocimiento, en
conjunto también minimizar el costo de las pérdidas de producción. Si bien, el mantenimiento
predictivo conlleva un aumento del CAPEX en el corto plazo debido a la incorporación de nuevos
sensores, instrumentos y al desarrollo de algoritmos de aprendizaje, sin duda, en el mediano plazo
se compensa con la reducción del OPEX por concepto de operacional. armonía y motivación de los
operadores que redunda en eficiencia productiva, salud y seguridad operacional.
6.3 Data.
- Blend
- Mata
- Escoria
- Variables de procesos
- Sensor de dilatación
Página 79 de 110
- Sensor de llama
Página 80 de 110
Temperatura medio WHB DS104-Y [mm] AsymmetryR-2
Tempeartura salida WHB desvestB-2
Aire de sulfatación Nm3/hr AsymmetryB-2
SiO2 tph desvestG-2
Alimentación Polvo tph AsymmetryG-2
Alimentación recirculación tph
Alimentación Yeso tph
O2 Nm3/h
O2 lanza central Nm3/h
O2 settler Nm3/h
Posición DAV
Tabla 34 - Variables Horno Flash Parte II
6.4 Análisis.
La presente sección describe el análisis de los datos operativos obtenidos de la fundición de cobre
Pirdop con base en correlaciones estadísticas y explicación metalúrgica.
Se utilizó una escala de colores para representar gráficamente los coeficientes de correlación de
Pearson y Spearman. En este caso, una correlación positiva está representada por el color azul,
significa que cuando el valor de una variable dependiente aumenta, el valor de la variable
independiente también aumenta.
Una de las variables operativas dependientes más importantes durante la etapa de fundición es el
contenido de cobre en la escoria, tanto físico por atrapamiento mecánico como químico por
disolución. En este sentido, el control del contenido de magnetita en la fase de escoria es crucial y
aunque depende fuertemente de la presión parcial de oxígeno en el reactor, está sujeto a una alta
variabilidad como resultado de la composición de la mezcla alimentada a la etapa de fundición.
Un alto contenido de magnetita en la escoria de fayalita conlleva una mayor viscosidad de la fase y
Página 81 de 110
un mayor atrapamiento mecánico del cobre y, por tanto, una menor concentración del valioso en la
fase mate. Por el contrario, un bajo contenido de magnetita implica una escoria muy fluida que
penetra fácilmente en la mampostería refractaria aumentando su desgaste por corrosión.
Considerando que la adición de sílice, como fundente al reactor, se realiza en función del contenido
total de hierro que ingresa a la etapa dado por una relación hierro / sílice para formar una escoria
fayalítica deseable, corresponde un primer análisis para determinar la correlación entre otras
impurezas elementales en la mezcla de alimentación y el contenido de cobre en la escoria.
En este punto, es importante recordar que el problema a resolver está representado por un modelo
multivariable y que el análisis realizado en este informe considera aclarar la correlación solo entre
2 variables a la vez para tener una primera aproximación del comportamiento de la operación. De
acuerdo con la figura, es posible observar que ninguna de las tres impurezas contenidas en los
compuestos presentes en la mezcla de alimentación tienen una alta correlación con el contenido de
Página 82 de 110
cobre en la escoria, ciertamente son impurezas con una alta presión de vapor que preferiblemente
se distribuyen a la fase gaseosa por volatilización y en el caso del arsénico y antimonio también a la
fase mate debido a sus afinidades con el cobre cuando sus concentraciones en la mezcla de
alimentación son altas.
De ambos análisis también es posible distinguir que existe una alta correlación entre el arsénico y el
antimonio en la mezcla, probablemente presente como minerales de azufre, enargita y tennantita
para el arsénico, y estibina y tetraedrita para el antimonio. La Figura 3 corresponde a un diagrama
de caja de las variables, construido considerando una probabilidad de ocurrencia del 95%, muestran
contenidos de 0.017, 0.1 y 27.5% en peso en la mezcla de alimentación, para antimonio, arsénico y
azufre, respectivamente, con un contenido total de cobre cercano a 1,3% en peso en la escoria. La
distribución de impurezas depende en gran medida de su contenido en el alimento durante la etapa
de fundición y, por esa razón, se requerirá un análisis más sólido.
Dado que no había información de las principales impurezas en, al menos, dos de las tres fases
equilibradas del gas, la mata de cobre y la escoria para determinar el coeficiente de distribución de
estas a partir de su presencia en la mezcla de alimentación, una correlación de Pearson entre los
elementos en se preparó la mezcla de alimentación y la misma en la escoria producida. Como
Página 83 de 110
componentes del vector, se consideraron el cobre como valioso y el arsénico, el antimonio y el
plomo como impurezas perjudiciales.
Con el fin de identificar la correlación entre las componentes del vector independiente
(alimentación del blend) y también que con las componentes del vector dependiente (escoria de
cobre) se generó una matriz simétrica de 8 x 8, que considera las componentes totales de ambos
vectores, independientes y dependientes, en cada uno de sus ejes.
Los resultados de la figura muestran que las impurezas perjudiciales de plomo, arsénico y antimonio
tienen altas correlaciones entre sus presencias en la mezcla de alimentación y sus correspondientes
en la escoria de cobre. Desde el equilibrio termodinámico es bastante conocido que a temperaturas
cercanas a 1300 °C y niveles de concentración en la mezcla de alimentación reportados por la
fundición de cobre Pirdop, la presión de vapor de las tres impurezas es muy alta, plomo, arsénico y
antimonio tiende a distribuirse alrededor de 40, 70 y 25 % en peso, respectivamente, a la fase
gaseosa. Así, para los datos reportados, después de la fase gaseosa, las tres impurezas se distribuyen
más a la escoria que a la fase mata.
Página 84 de 110
Otro resultado interesante, es la alta correlación entre el cobre y el antimonio en la mezcla de
alimentación, el contenido de antimonio resulta ser inversamente proporcional al contenido de
cobre, esto puede atribuirse a la asociación mineralógica de concentrados, especies de sulfuros de
cobre asociados más con la estibina que con tetraedrita.
Otro análisis corresponde a determinar la correlación entre los minerales de ganga contenidos en la
mezcla de alimentación, ya sea como óxidos u oxisulfatos presentes en el polvo de combustión
recirculado, o como aluminosilicatos presentes en los concentrados (minerales de ganga de arcilla),
con el contenido de cobre en la escoria. Se consideraron cinco especies en el análisis; alúmina,
magnesia, magnetita, sílice y cal. Los minerales de ganga de arcilla (aluminosilicatos) como la
caolinita dan como resultado su descomposición térmica y aportan sílice y alúmina a la escoria,
mientras que la montmorillonita aporta principalmente magnesia y sílice, la magnesia también
proviene de la disolución del ladrillo refractario mientras que la cal aparece esporádicamente en la
alimentación de la mezcla y se distribuye completamente en la escoria.
La Figura muestra que las especies de ganga, alúmina y magnesia se distribuyen a la fase de escoria
y forman compuestos complejos como las espinelas de aluminio y magnesio en reemplazo del
férrico y ferroso presentes en la magnetita, respectivamente. La presencia de cal en la alimentación
conduce a una reducción de las espinelas de magnesia debido a la sustitución preferencial del calcio
por el magnesio, lo que da como resultado una escoria más fluida. Finalmente, la presencia de
magnetita contenida en el polvo de la chimenea recirculada se correlaciona con una disminución
Página 85 de 110
del contenido de sílice en la escoria, esto se debe al aumento de cristales en la fase, lo que se refleja
en la disminución relativa de la matriz fundida de la fayalita. escoria.
Se analizaron los datos de los 6 taphole o cavidad de sangrado de mata y los 4 de escoria, dada la
geometría de la zona de sedimentación de la tecnología FSF, es fundamental alternar el sangrado
de las fases fundidas para evitar la formación de acreción por fluctuaciones en temperatura. El
objetivo del análisis fue principalmente identificar si existen asimetrías operativas entre los orificios
de sangrado. Para esas cavidades de sangrado de mata, se consideró, el contenido de cobre y hierro
en la fase, magnetita arrastrada a la mata y temperatura de la fase. Por otro lado, para las cavidades
de sangrado de escoria, se consideraron los contenidos de cobre y sílice en la escoria y la
temperatura de la fase.
Página 86 de 110
Figura 34-Correlación Cobre-Hierro en Mata
La Figura muestra que existe una correlación inversa entre el contenido de cobre y el de hierro en
la mata, lo cual es natural ya que cuanto mayor es la ley de la mata, menor es el contenido de FeS
en la fase. También se puede concluir que, al aumentar el contenido de magnetita en la escoria,
también es mayor su arrastre a la mata aumentando el contenido de hierro en la fase sulfurada y
por lo tanto el de cobre disminuirá (esto es consistente con el balance de masa, aumenta del
atrapamiento de lo valioso en la escoria). No hay efecto de la temperatura sobre las otras
variables.
Página 87 de 110
Figura 35-Boxplot Cu en mata
Página 88 de 110
Figura 37-Boxplot Fe3O4 en mata
Las Figuras anteriores corresponden a diagramas de caja, fueron generadas considerando una
probabilidad de ocurrencia del 95%, muestran contenidos de cobre y hierro en las fases mate en el
Página 89 de 110
orden de 65 y 9.5% en peso, respectivamente. El contenido de magnetita arrastrada a la fase mate
es de aproximadamente 3,5% en peso, lo que resulta coherente según la presión parcial de oxígeno
en el sistema, mientras que la temperatura resulta ser bastante alta, del orden de 1305 ° C. No hubo
gran variabilidad en los datos reportados por cada paso de sangrado para la mata de cobre.
La Figura muestra que no hubo una alta variabilidad en los datos reportados para los orificios de
grifería de escoria número 2, 3 y 4, pero existe una gran diferencia con el primero, en particular
existe una fuerte correlación de la temperatura con el contenido de cobre en la escoria que se puede
atribuir al aumento de la solubilidad del cobre en la fase fundida como resultado del aumento de
temperatura.
Página 90 de 110
Figura 40-Boxplot Cu en escoria segun orifico de sangrado
Página 91 de 110
Figura 42-Boxplot temperatura escoria segun orificio de sangrado
Los resultados mostrados en la figura concuerdan en buena forma con los reportados en el punto
anterior, contenidos similares de cobre y sílice en la escoria cerca de 1.3 y 27.5% en peso,
respectivamente, y temperaturas de aproximadamente 1323°C para las cavidades de sangrado 2, 3
y 4, mientras que para la cavidad de sangrado 1 el contenido de cobre fue del orden de 1.8% en
peso y temperaturas cercanas a 1360°C.
Para determinar la correlación entre las variables de proceso, se consideraron todos los datos que
cumplen con una función biyectiva entre los componentes del vector independiente y los del
dependiente. Para mantener el equilibrio de calor en el horno de fundición, la fundición de cobre
suele considerar tres variables principales para aumentar la temperatura; adición de hidrocarburos,
precalentamiento del gas de reacción también llamado "explosión" y/o (1) aumentar el
enriquecimiento de oxígeno en la explosión. Para efectos del análisis, solo se dispuso de este último
componente, que también se puede interpretar en operaciones mediante un aumento en el
coeficiente operativo “COp” (2) definido como el oxígeno total [Nm3/h] / caudal másico de la mezcla
de alimentación [tph], tratando de fijar tanto como sea posible el cociente por requerimiento
productivo. Por otro lado, si se requiere disminuir la temperatura, generalmente se agrega carga
fría, ya sea polvo de combustión (3) o reversiones de escoria de conversión.
Página 92 de 110
Además de las 3 variables mencionadas anteriormente, los siguientes 6 componentes se
incorporaron al vector independiente; flujo másico de la mezcla de alimentación (4) ya que tiene
una relación directa con el COp, azufre contenido en la mezcla de alimentación (5) ya que la
oxidación de los compuestos de azufre conduce a reacciones exotérmicas y, por lo tanto, calor
disponible, flujo de aire total de reacción (6) que considera la suma de los aires de proceso,
distribución y reacción junto con todas las fuentes de oxígeno, el flujo de oxígeno de la lanza central
hacia el CJD (distribuidor de chorro central) del quemador de concentrado (7), el aire de sulfatación
(8) que se incorpora intencionalmente en la WHB (caldera de calor residual) para evitar la formación
de acumulaciones en los haces de refrigeración y, el DAV (dispositivo de área variable) del CJD (9).
Los componentes del vector dependiente considerados en este estudio y según la información
reportada son 6, tres de ellos corresponden a temperaturas medidas en el WHB, entrada, media y
salida, según sus valores deben ser; agua en los haces de enfriamiento (1), gases en la salida de la
zona radiativa (2) y gases en la salida de la zona convectiva (3), respectivamente. 2 temperaturas de
las fases fundidas, mata de cobre (4) y escoria (5), y finalmente el contenido de magnetita (6) en
esta última fase.
Con el fin de identificar la correlación entre las componentes del vector independiente y también
con las componentes del vector dependiente, se generó una matriz simétrica de 14 x 14, la cual
considera las componentes totales de ambos vectores, independientes y dependientes, en cada uno
de ellos. de sus ejes, y los datos fueron analizados por el método de Pearson.
Página 93 de 110
Figura 43-Correlación variables operacionales de Horno Flash
La variable S en Blend fue necesario utilizar otro tipo de análisis, en este caso utilizar la correlación
canónica para demostrar el efecto de S en blend y las otras variables del proceso sobre la
temperatura de la escoria y la temperatura del mate. Los resultados se muestran a continuación.
Página 94 de 110
O2 Enrichment % 0.13754298
Blast Nm3/h 0.02984357
Dust feed tph 0.15173338
Central O2 flow Nm3/h -0.02500712
Operational Coefficient -0.03727904
DAV 0.05958224
Sulfatazation air Nm3/hr 0.23025432
Los principales resultados de la correlación canónica se muestran en rojo. El S en Blend tiene una
fuerte correlación positiva con la Temperatura en Mata y escoria. Si el contenido de S en Blend es
alto, todo el reactor está más caliente y, como resultado, la temperatura de la escoria y la
temperatura de la mata son más altas. Otro resultado es la correlación negativa entre la magnetita
en la escoria y la alimentación de polvo y el coeficiente operativo. Con un coeficiente operacional
más alto y una alimentación de polvo más alta, la magnetita en la escoria es más baja que una
operación normal.
En este caso tenemos cuatro sensores alrededor de la caldera, este sensor se mueve si la caldera
expande o contrae sus paredes.
Página 95 de 110
En los cuatro meses de recolección de datos, es posible ver qué lado de la WHB ha sufrido más
eventos de expansión. Definimos un evento de expansión como un movimiento medido por el
sensor mayor que el punto de ajuste del sensor.
Página 96 de 110
Figura 46-Eventos de dilatación en caldera
Es posible ver que el sensor DS-103 concentra la mayor cantidad de eventos de expansión. Y en
segundo lugar el sensor DS-101. Ese lado de la Caldera tiene más eventos de expansión. El
movimiento de los sensores se puede mostrar en forma vectorial.
Página 97 de 110
Figura 48-Distribución de movimiento sensores DS102-DS104
Página 98 de 110
Figura 50-Comportamiento DS102
Página 99 de 110
Figura 52-Comportamiento sensor DS104
El sensor DS101 fue el sensor con más variabilidad y su lado tiene más variabilidad en eventos de
expansión. La estadística de los eventos de expansión en WHB, en estos 4 meses se muestra en la
figura siguiente.
La figura anterior muestra la frecuencia de eventos para los sensores de dilatación. En el grafico de
distribución podemos comprobar que más del 70% de los eventos de expansión tienen una
diferencia menor a 60 minutos. Estas medidas con alta frecuencia se denominan ruido de expansión-
contracción. Las paredes de la caldera tienen un comportamiento de acordeón.
Entre el 27 de febrero y el 1 de marzo (2019) la caldera tuvo una falla. El sensor de dilatación pudo
detectar este evento. Es posible ver tres zonas, la primera zona es el tiempo de enfriamiento,
cuando la caldera presenta la falla y está fuera de operación. La segunda zona es la prueba de
presión durante la reparación y la tercera zona es el tiempo de calentamiento, cuando la caldera
vuelve a funcionar con normalidad. En las siguientes figuras es posible ver las tres zonas en los
diferentes sensores.
Hay dos sensores de llama en el Horno Flash, estos sensores detectan el cambio de color de la llama
durante el proceso de fusión. En este análisis hay dos enfoques. El primer enfoque muestra la
correlación entre los sensores y la variable del proceso, y el segundo enfoque muestra la correlación
entre los sensores y la composición de la alimentación de la mezcla. La unidad de medida para el
análisis es el coeficiente de asimetría, la desviación estándar y un factor alfa. Este factor es la
desviación estándar dividida por el coeficiente asimétrico. El coeficiente de asimetría se mueve
entre valores negativos y positivos. Si el valor es negativo, la llama está saturada, brillante. En caso
de valores positivos, la llama de color es más opaca. El primer enfoque muestra a continuación.
La correlación en la figura anterior muestra una correlación menor entre el sensor de llama y el flujo
de aire de proceso, el aire de reacción y el flujo de SiO2. En este caso, el SiO2 Flux tiene una
En este caso las correlaciones son más fuertes, por ejemplo, la alúmina y el CaO tienen una fuerte
correlación negativa. Esto se debe básicamente al color del asociado al CaO y la alúmina. Estos dos
compuestos generan una llama brillante. En el caso del cobre, el canal azul del sensor detecta los
cambios de cobre en la mezcla. En este caso la correlación es positiva porque, si hay más cobre, la
llama es más azul, más opaca. El sensor detecta otros cambios en la composición de algunos
elementos de la mezcla. PB, S, MgO, Fe3O4, Cd y As los cuales se ven reflejados con correlaciones
más bajas que las antes descritas. Si es posible mejorar estos resultados con una mejor
implementación en terreno.
Todo lo descrito anteriormente es transversal a la industria minera y se puede dividir en tres pilares.
Por tanto, se concluye que, en la carrera por la revolución digital en la industria minera, se pueden
caer en errores de análisis y mal interpretación de datos, lo que llevaría a una errónea toma de
decisiones.
Si bien es cierto que según el road-map tecnológico elaborado por Cochilco se da a conocer un gran
avance en las tecnologías asociadas a la industria 4.0, existen ciertas áreas como las Refinerías y las
Fundiciones, en las cuales esta tecnología aun está en una etapa inicial. Principalmente por un tema
de ambiente de trabajo y por su reducido número de instalaciones en el país. Este trabajo dio a
conocer un potencial que existe en los procesos de ambas instalaciones y que de ser potenciado
puede llegar a ser de gran valor para la industria mejorando procesos productivos, seguridad laboral
y eficiencia de recursos utilizados en el proceso.