Está en la página 1de 202

Machine Translated by Google

Ingeniería de Gestión e Industrial

Shubhabrata Datta
J. Paulo Davim Editores

Máquina
aprendiendo en
Industria
Machine Translated by Google

Ingeniería de Gestión e Industrial

Editor de series

J. Paulo Davim, Departamento de Ingeniería Mecánica, Universidad de Aveiro, Aveiro,


Portugal
Machine Translated by Google

Esta serie fomenta el intercambio de información y el debate sobre gestión e


ingeniería industrial y aspectos relacionados, a saber, gestión global, desarrollo y
cambio organizativo, gestión estratégica, producción ajustada, gestión del rendimiento,
gestión de la producción, ingeniería de calidad, gestión del mantenimiento, mejora
de la productividad, gestión de materiales. , gestión de recursos humanos,
comportamiento de la fuerza laboral, innovación y cambio, flexibilidad tecnológica y
organizacional, equipos de trabajo autodirigidos, gestión del conocimiento, aprendizaje
organizacional, organizaciones que aprenden, espíritu empresarial, gestión sostenible,
etc. La serie proporciona discusión e intercambio de información sobre principios ,
estrategias, modelos, técnicas, metodologías y aplicaciones de la ingeniería industrial
y de gestión en el ámbito de los diferentes tipos de actividades organizativas. Su
objetivo es comunicar los últimos desarrollos y pensamientos en lo que respecta a la
última actividad de investigación relacionada con los nuevos desafíos y cambios
organizacionales en todo el mundo. Las contribuciones a esta serie de libros son
bienvenidas en todos los temas relacionados con la gestión y la ingeniería industrial.
Para enviar una propuesta o solicitar más información, póngase en contacto con el
profesor J. Paulo Davim, editor de la serie de libros, pdavim@ua.pt

Más información sobre esta serie en http://www.springer.com/series/11690


Machine Translated by Google

Shubhabrata Datta · J. Paulo Davim


Editores

Aprendizaje automático en la industria


Machine Translated by Google

Editores
Shubhabrata Datta J. Paulo Davim
Departamento de Ingeniería Mecánica Departamento de Ingeniería Mecánica
Instituto SRM de Ciencia y Tecnología Universidad de Aveiro Aveiro, Portugal
Chennai, Tamil Nadu, India

ISSN 2365-0532 ISSN 2365-0540 (electrónico)


Ingeniería de Gestión e Industrial ISBN
978-3-030-75846-2 https://doi.org/ ISBN 978-3-030-75847-9 (libro electrónico)
10.1007/978-3-030-75847-9

© Los editores (si corresponde) y los autores, bajo licencia exclusiva de Springer Nature Switzerland AG 2022
Este trabajo está sujeto a derechos de autor. Todos los derechos están licenciados única y exclusivamente por
el Editor, ya sea total o parcialmente el material, específicamente los derechos de traducción, reimpresión, reutilización de
ilustraciones, recitación, radiodifusión, reproducción en microfilmes o en cualquier otra forma física, y transmisión. o
almacenamiento y recuperación de información, adaptación electrónica, software de computadora, o por metodología similar
o diferente ahora conocida o desarrollada en el futuro.

El uso de nombres descriptivos generales, nombres registrados, marcas comerciales, marcas de servicio, etc. en esta
publicación no implica, incluso en ausencia de una declaración específica, que dichos nombres estén exentos de las leyes
y reglamentos de protección pertinentes y, por lo tanto, libres para uso general. usar.
El editor, los autores y los editores pueden asumir con seguridad que los consejos y la información de este libro se
consideran verdaderos y precisos en la fecha de publicación. Ni el editor ni los autores o los editores dan garantía, expresa
o implícita, con respecto al material contenido en este documento o por cualquier error u omisión que pueda haberse
cometido. El editor se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones
institucionales.

Este pie de imprenta de Springer es publicado por la empresa registrada Springer Nature Switzerland AG
La dirección de la empresa registrada es: Gewerbestrasse 11, 6330 Cham, Suiza
Machine Translated by Google

Prefacio

El aprendizaje automático (ML) es un método para entrenar computadoras o hacer que la


computadora aprenda automáticamente a partir de la información o los datos proporcionados. Los
diferentes métodos de aprendizaje automático se originan en la naturaleza y siguen el principio del
aprendizaje biológico. Las aplicaciones de ML en el mundo real están aumentando rápidamente y
abarcan nuestra vida diaria sin nuestro conocimiento. La fabricación y otros sectores industriales
también han comenzado a usar el ML en sus plantas de manera efectiva. Con la llegada del
concepto de Industria 4.0, el ritmo de aplicación de ML en las industrias principales solo aumentará.

El capítulo introductorio de este libro describe los conceptos básicos de las técnicas más
populares de aprendizaje automático. Explica las diferentes clases de enfoques de aprendizaje
automático y describe brevemente las técnicas de aprendizaje automático basadas en inteligencia
artificial y estadística. Se analizan técnicas como el árbol de decisión, la regresión lineal, el método
de mínimos cuadrados, la red neuronal artificial, las técnicas de agrupación y el aprendizaje profundo.

En el resto de los capítulos se describen ejemplos prácticos de aplicaciones y estudios de


casos que utilizan problemas industriales prácticos o problemas relevantes para las industrias, es
decir, Capítulos Estudios de identificación de modelos de redes neuronales para predecir el estrés
residual de una placa de acero basado en un Barkhausen no destructivo. Medición del ruido: mejora
del rendimiento en el proceso de laminación en caliente con una nueva búsqueda arquitectónica neuronal.
En el capítulo Estudios de identificación de modelos de redes neuronales para predecir la tensión
residual de una placa de acero basada en una medición de ruido de Barkhausen no destructiva, se
propone un procedimiento basado en ML que utiliza una red neuronal artificial y un algoritmo
genético para predecir la tensión residual en el acero. El capítulo Optimización basada en datos del
proceso de fabricación de hierro en altos hornos mediante el aprendizaje profundo evolutivo trata
sobre el modelado del complicado proceso de fabricación de hierro y acero. Parámetros como la
distribución de la carga, el enriquecimiento de oxígeno, la mejora de la productividad, la composición
del gas superior y muchos otros parámetros en el alto horno controlan la productividad de manera
compleja. En este capítulo, se emplean enfoques de aprendizaje automático para modelar el proceso
de alto horno y se emplean algoritmos evolutivos para optimizar el proceso.
proceso.
En el capítulo Una breve evaluación del aprendizaje automático en la detección industrial
Probes, el autor describe el método para implementar ML en el control digital y

v
Machine Translated by Google

vi Prefacio

Sistemas de vigilancia en industrias. Se analiza cómo los sensores se pueden usar de manera efectiva
para la integración de datos industriales para ML estándar. La aplicación de ML para buscar la causa
raíz de los defectos de la astilla en el tren de laminación en frío se describe en el Capítulo Exploración
de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos borrosos. Se
describe un caso típico en el que se analiza la génesis del defecto utilizando dos métodos, a saber.
teorías de conjuntos aproximados y conjuntos borrosos. Este capítulo muestra cómo se puede utilizar
la teoría de conjuntos aproximados para seleccionar las variables importantes a las que se puede
atribuir la causa del defecto. Las reglas creadas a partir de los datos se utilizan en el marco difuso
para desarrollar un modelo predictivo. En el capítulo Estudios de aprendizaje automático en ciencia de
materiales se proporciona una descripción general de la aplicación de métodos de aprendizaje
automático en el campo de la ciencia de los materiales con respecto a los materiales, procesos y
formalización del conocimiento .
ML se puede utilizar para desarrollar modelos sustitutos o metamodelos, que pueden reemplazar
modelos analíticos complejos y simulaciones numéricas para optimización, análisis de sensibilidad y
cuantificación de incertidumbre. En el capítulo Replicación precisa y en tiempo real de ecuaciones
gobernantes de sistemas físicos con CNN transpuestas: para Industria 4.0 y gemelos digitales, las
arquitecturas convolucionales similares a NN se utilizan como modelos sustitutos en dos aplicaciones
diferentes de ecuaciones de Navier-Stokes reducidas que contienen altas no linealidades y
discontinuidades abruptas.
El aprendizaje profundo es el último paradigma del aprendizaje automático. El capítulo Aprendizaje
profundo en la inspección automatizada basada en la visión: estado actual y perspectivas futuras del
libro evalúa la aplicación de las técnicas para la inspección automatizada basada en la visión. Aquí se
realiza una discusión detallada sobre las ventajas y desventajas del aprendizaje profundo para tareas
de inspección automatizadas en industrias. El noveno y último capítulo propone un algoritmo novedoso
para diseñar redes neuronales de avance de múltiples capas con parsimonia y precisión utilizando
optimización multiobjetivo.
Es bastante evidente que los autores del presente libro cubrieron varios aspectos y aplicaciones
del aprendizaje automático relevantes para la industria. Los editores expresan su sincero
agradecimiento a los autores por sus excelentes contribuciones. Los editores también expresan su
agradecimiento a todos los revisores que han contribuido inmensamente a mejorar la calidad de los
capítulos. Ambos editores están agradecidos con sus colegas, amigos y familiares. Los editores
también reconocen al equipo de Springer por su excelente trabajo para dar forma a la compilación a la
perfección.

Chennai, India Shubhabrata Datta J.


Aveiro, Portugal Paulo Davim
Machine Translated by Google

Contenido

Fundamentos del aprendizaje automático .................................. 1


A. Vinoth y Shubhabrata Datta

Estudios de identificación de modelos de redes neuronales para predecir


la tensión residual de una placa de acero en función de una medición de
ruido de Barkhausen no destructiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29 Tero Vuolio, Olli Pesonen, Aki Sorsa y Suvi Santa-aho

Optimización basada en datos del proceso de fabricación de hierro en


altos hornos mediante el aprendizaje profundo evolutivo . . . . . . . . . . . . . . . . . . . . . . . . . .47
........
Bashista Kumar Mahanta, Rajesh Jha y Nirupam Chakraborti

Una breve evaluación del aprendizaje automático en sondas de detección industrial . . .


83 R. Biswas

Extracción de la génesis de los defectos de la astilla a través de teorías


aproximadas y de conjuntos borrosos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
97 Itishree Mohanty, Partha Dey y Shubhabrata Datta

Estudios de aprendizaje automático en ciencia de materiales . . . . . . . . . . . . . . . . . . . . . .121


Barbara Mrzygÿód, Krzysztof Regulski y Andrzej Opali ´nski

Replicación precisa y en tiempo real de las ecuaciones que


gobiernan los sistemas físicos con CNN transpuestas, para Industry
4.0 y Digital Twins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 Hritik
Narayan y Arya K. Bhattacharya

Aprendizaje profundo en inspección automatizada basada en visión:


estado actual y perspectivas futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
R. Senthilnathan

Mejora del rendimiento en el proceso de laminación en caliente con


una nueva búsqueda arquitectónica neuronal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .177
.....
Srinivas Soumitri Miriyala, Itishree Mohanty y Kishalay Mitra

viii
Machine Translated by Google

Acerca de los editores

Shubhabrata Datta, actualmente profesor de investigación en el Departamento de


Ingeniería Mecánica, Instituto SRM de Ciencia y Tecnología, Chennai, India, obtuvo su
licenciatura, maestría y doctorado. en Ingeniería del Instituto Indio de Ciencia y Tecnología
de Ingeniería, Shibpur, India (anteriormente conocido como BE College Shibpur) en el
campo de Ingeniería Metalúrgica y de Materiales. El Dr. Datta tiene más de 28 años de
experiencia en docencia e investigación. Su interés de investigación está en el dominio
del diseño de materiales utilizando técnicas de inteligencia artificial y aprendizaje
automático. Recibió el Premio Científico de Intercambio de la Real Academia de Ingeniería
del Reino Unido y trabajó en la Universidad de Sheffield, Reino Unido. También trabajó
en el Departamento de Ciencia e Ingeniería de Materiales, Universidad Tecnológica de
Helsinki, Finlandia, Departamento de Ciencia e Ingeniería de Materiales, Universidad
Estatal de Iowa, Ames, EE. UU., y en el Laboratorio de Ingeniería de Calor, Departamento
de Ingeniería Química, Universidad Åbo Akademi, Finlandia como Científico visitante. Es
miembro de la Institución de Ingenieros (India), Editor Asociado, Revista de la Institución
de Ingenieros (India): Serie D, y miembro del consejo editorial de varias revistas internacionales.

J. Paulo Davim recibió su Ph.D. Licenciado en Ingeniería Mecánica en 1997, M.Sc.


Licenciatura en Ingeniería Mecánica (materiales y procesos de fabricación) en 1991,
Licenciatura en Ingeniería Mecánica (5 años) en 1986, por la Universidad de Oporto
(FEUP), Título Agregado (Habilitación Completa) por la Universidad de Coimbra en 2005
y el D. Carolina del Sur. de la Universidad Metropolitana de Londres en 2013. Es ingeniero
colegiado senior por la Institución Portuguesa de Ingenieros con un MBA y un título de
Especialista en Ingeniería y Gestión Industrial. También es Eur Ing por FEANI-Bruselas y
Fellow (FIET) por IET-Londres. Actualmente, es Profesor en el Departamento de Ingeniería
Mecánica de la Universidad de Aveiro, Portugal. Tiene más de 30 años de experiencia
docente e investigadora en Manufactura, Materiales, Ingeniería Mecánica e Industrial, con
especial énfasis en Mecanizado y Tribología. También tiene interés en administración,
educación en ingeniería y educación superior para la sustentabilidad. Ha guiado a un gran
número de estudiantes de posdoctorado, doctorado y maestría, y ha coordinado y
participado en varios proyectos de investigación financiados. Ha recibido varios premios
científicos. Ha trabajado como evaluador de proyectos para el ERC-European Research
Council y otros organismos internacionales de investigación.

ix
Machine Translated by Google

X Acerca de los editores

agencias, así como examinador de Ph.D. tesis para muchas universidades en


diferentes países. Es editor en jefe de varias revistas internacionales, editor invitado
de revistas, editor de libros, editor de series de libros y asesor científico de muchas
revistas y conferencias internacionales.
Machine Translated by Google

Fundamentos del aprendizaje automático

A. Vinoth y Shubhabrata Datta

Resumen Este capítulo introductorio describe las técnicas de aprendizaje automático.


Principalmente se explica el concepto de aprendizaje automático en el contexto de la inteligencia
artificial y el análisis de datos. Se introduce el proceso de aplicación de lo anterior a big data. Se
describe la clasificación de los enfoques de aprendizaje automático. A continuación, se describen
brevemente algunas de las técnicas de aprendizaje automático basadas en inteligencia artificial y
estadística que se utilizan de forma variada. Las técnicas discutidas incluyen árboles de decisión,
regresión lineal, método de mínimos cuadrados, red neuronal artificial, técnicas de agrupamiento.
También se introducen los conceptos de aprendizaje profundo.

Palabras clave Aprendizaje automático · Inteligencia artificial · Análisis de datos · Aprendizaje


supervisado · Y aprendizaje no supervisado

1. Introducción

El aprendizaje automático (ML) es una subdivisión de la ciencia computacional que avanza desde el
aprendizaje de la clasificación de datos en función de la comprensión adquirida y también del
aprendizaje obtenido sobre los principios basados en la computación de la Inteligencia Artificial (IA).
De manera simple, el aprendizaje automático es entrenar a las computadoras para que aprendan
automáticamente a través de las entradas privadas de ser programadas explícitamente [1]. El término
aprendizaje evolucionó de los humanos y los animales. El aprendizaje animal y automático tiene
bastantes coincidencias. De hecho, muchos métodos en el aprendizaje automático se originan para
marcar los principios del aprendizaje animal y humano mediante modelos computacionales. Por
ejemplo, la habituación es una conducta académica básica en la que un animal, paso a paso, deja de
reaccionar ante un estímulo repetido. Se considera que los perros son un ejemplo perfecto para el
aprendizaje de los animales, donde es capaz de un aprendizaje sustancial si se le entrena para
realizar diversas actividades, como darse la vuelta, sentarse y recoger las cosas, etc.

A. Vinoth · S. Datta (B)


Departamento de Ingeniería Mecánica, Instituto SRM de Ciencia y Tecnología,
Kattankulathur, Chennai 603203, Tamil Nadu, India Correo electrónico:
shubhabp@srmist.edu.in

© Los autores, bajo licencia exclusiva de Springer Nature Suiza AG 2022 S. Datta 1
y JP Davim (eds.), Machine Learning in Industry, Management and Industrial
Engineering, https://doi.org/10.1007/978-3 -030-75847-9_1
Machine Translated by Google

2 A. Vinoth y S. Datta

Con respecto al ejemplo anterior de aprendizaje efectivo, hay pocos ejemplos que puedan
demostrar el aprendizaje automático donde lo usamos en nuestra vida cotidiana de la era moderna.
Asistentes personales virtuales, predicciones de tráfico usando navegación GPS, vigilancia de
múltiples cámaras por IA para detectar el crimen o el comportamiento inusual de las personas, las
redes sociales usan ML para reconocimiento facial y personalización de noticias, refinamiento de
resultados de motores de búsqueda, filtrado de spam de correo electrónico donde un la máquina
memoriza todos los correos electrónicos no deseados etiquetados anteriormente por el usuario y
muchas más aplicaciones donde ML está ampliamente en uso. A través de todas estas aplicaciones,
se entiende que la incorporación de conocimientos previos primará el mecanismo de aprendizaje.
ML también está estrechamente interconectado con las estadísticas computacionales donde
familiariza la elaboración de predicciones [2]. Cualquiera podría preguntarse '¿por qué una máquina
debe aprender algo?' Hay pocos objetivos por los que ML es esencial. Obviamente, acabamos de
mencionar que el logro del aprendizaje en máquinas puede ayudarnos a ver cómo aprenden las criaturas y las perso
Sin embargo, hay pocos detalles de ingeniería esenciales que persisten y algunos de ellos son

• Ciertas tareas no pueden explicarse claramente sin ejemplos; es decir, podemos tener la opción
de identificar conjuntos de entrada/salida, pero no una breve correlación entre las entradas y
las salidas preferidas.
• Es probable que existan relaciones invisibles entre entradas y salidas entre enormes cargas de
datos. Los métodos de aprendizaje automático se pueden utilizar repetidamente para revelar
estas relaciones.

¿Cuándo queremos el aprendizaje automático en lugar de programar directamente nuestras


computadoras para realizar una tarea? Dos características de un determinado problema pueden
exigir el uso de programas que aprenden y se desarrollan sobre la base de su experiencia/
comprensión, es decir, la complejidad del problema y la falta de adaptabilidad. Hay tareas que son
complejas de programar, por ejemplo, actividades humanas como conducir, comprender imágenes
y reconocimiento de voz de una persona, etc., donde el arte de ML funciona sobre el principio de
aprender a través de la experiencia que podría arrojar resultados razonables [3] . Una característica
restrictiva de las herramientas automatizadas es su inflexibilidad, es decir, una vez que se ha
formulado e instalado la codificación, permanece sin cambios. Aún así, muchas tareas cambian con
el tiempo o de un usuario final a otro. Para tales problemas, la utilización de ML que tiene
codificación que decodifica el programa escrito anterior adaptando un programa fijo para verificar
las variaciones entre los estilos de diferentes usuarios.

2 Inteligencia Artificial

La inteligencia artificial (IA) denota la replicación del intelecto humano en máquinas que están
codificadas para imitar las actividades humanas. El término también puede aplicarse a cualquier
máquina que exhiba cualidades humanas, por ejemplo, aprendizaje y pensamiento crítico [4]. Una
definición más elaborada describe la IA como "la capacidad de un sistema para descifrar de manera
efectiva la información externa, obtener ganancias de dicha información y utilizar los aprendizajes
para lograr objetivos y tareas explícitos a través de una transformación adaptable". A medida que
avanza la innovación, los estándares anteriores que marcaron AI se vuelven
Machine Translated by Google

Fundamentos del aprendizaje automático 3

anticuado. Por ejemplo, en este momento no se dice que las máquinas que establecen las capacidades necesarias
o identifican texto a través de la identificación de caracteres modelo representan IA, porque este propósito
actualmente se subestima como una función integrada de una computadora.
La inteligencia artificial está evolucionando sin cesar en beneficio de varias empresas.
Las máquinas se conectan utilizando un enfoque interdisciplinario que incluye aritmética, ingeniería de software,
semántica, ciencia del cerebro y mucho más con campos especializados como el estudio artificial de la mente.
Los objetivos de la IA incorporan el aprendizaje, el pensamiento, la comunicación y el reconocimiento.

La IA está excepcionalmente enfocada y está intensamente dividida en subcampos que son muy diferentes
entre sí [5]. Una parte de la clasificación se debe a elementos sociales y culturales: los subcampos se han
desarrollado sobre fundamentos específicos y contribuciones de varios investigadores. La IA también está aislada
por temas específicos limitados.
Algunos subcampos enfatizan la solución de problemas explícitos. Otros se centran en uno de los pocos
procedimientos potenciales o en la utilización de una herramienta específica o en la realización de aplicaciones
particulares. La IA ha sido objeto de buena fe, pero ha resistido tentadoras dificultades. Ahora, se ha convertido
en un aspecto básico del negocio de la innovación, dando el trabajo verdaderamente difícil a una cantidad
significativa de las principales disputas de prueba en el trabajo de software.

A principios del siglo XIX, la investigación de la IA evolucionó de diferentes maneras, como el pensamiento
formal de la computadora digital que podría imitar cualquier posible demostración de derivación numérica en
1943, escribir programas/algoritmos simples para resolver problemas de álgebra, teoremas y hablar inglés en
1956 [6] . El gobierno de EE. UU. comenzó a invertir en investigación de IA en 1960 en el desarrollo de varios
laboratorios en todo el mundo.
Debido a la gran cantidad de fracasos que se produjeron en la investigación hasta 1974, fue difícil obtener
financiación para proyectos de IA. Durante la década de 1980, con la ayuda de unos pocos profesionales, la
investigación en IA se rejuveneció gracias al logro rentable de los sistemas expertos. En la década de 1990 y
principios del siglo XXI, la IA logró sus grandes hazañas cuando se utiliza para logística, extracción de datos,
hallazgos clínicos y muchas otras regiones a lo largo de la industria de la innovación. La búsqueda de algoritmos
de pensamiento crítico más competentes para resolver problemas en pasos secuenciales es una gran necesidad
para la investigación de IA. AI ha hecho algunos progresos en la imitación de este tipo de procesos que resaltan
la necesidad de buenas habilidades de razonamiento, los esfuerzos de exploración de redes neuronales para
recrear las estructuras dentro del cerebro que permiten el ascenso a esta habilidad; Las formas medibles de lidiar
con la IA copian la naturaleza probabilística de la capacidad humana para predecir. La IA a menudo gira en torno
al uso de algoritmos donde hay muchas instrucciones claras que una computadora puede realizar. Un algoritmo
impredecible se basa regularmente en otros algoritmos más sencillos que básicamente cubren la deducción, el
razonamiento y la resolución de problemas.

Las investigaciones clave de la IA son la representación del conocimiento y la ingeniería del conocimiento [7].
Un gran número de los temas que se confían en las máquinas para iluminar necesitarán información extensa
sobre el mundo. El esfuerzo en el desarrollo de trabajos de investigación de IA se basa en el conocimiento de
sentido común que implica grandes extensiones de ingeniería ontológica extensa, ya que deben trabajarse, a
mano, cada idea enrevesada a su vez. Los rasgos comunes de un sistema de IA implican lo siguiente:
planificación, aprendizaje, comunicación, percepción, movimiento y manipulación. En cuanto a la planificación, un
agente inteligente puede imaginar el futuro para hacer predicciones de una mejor manera que
Machine Translated by Google

4 A. Vinoth y S. Datta

cambiar el mundo y podrá utilizar las opciones disponibles al máximo.


Comprobaciones periódicas de las predicciones con los datos reales a realizar y, si es necesario, un
agente puede realizar cambios en el plan para evitar cualquier incertidumbre. El aprendizaje involucra
el aprendizaje automático bajo tres regímenes diferentes como el aprendizaje supervisado, el
aprendizaje no supervisado y el aprendizaje por refuerzo y lo mismo se discutirá en detalle en la última parte.
La comunicación de las máquinas se realizará a través del procesamiento del lenguaje natural en el
que una máquina puede examinar y comprender los idiomas que habla la gente. Una técnica típica
para procesar y extraer significado del lenguaje normal se realiza mediante el ordenamiento semántico,
lo que aumenta la velocidad de procesamiento y reduce el costo del gran almacenamiento de datos.
La percepción de la máquina es la capacidad de usar la respuesta de varios sensores para suponer
las características del mundo. El movimiento y la manipulación en IA están estrechamente relacionados
con el campo de la robótica para manejar diferentes trabajos como la gestión de objetos y la
triangulación a través de robots.
Los objetivos a largo plazo relacionados con la investigación de la IA son (a) la inteligencia social,
(b) la creatividad y (c) la inteligencia común [8]. La computación afectiva es la forma de inteligencia
social que se enfoca en la investigación y mejora de sistemas y dispositivos que pueden percibir,
descifrar, medir y recrear efectos humanos. Una rama de la IA tiende a la imaginación tanto
teóricamente (desde un punto de vista filosófico y mental) como esencialmente (a través del uso
explícito de estatutos que producen resultados que pueden considerarse inventivos, o marcos que
reconocen y examinan la creatividad).
Las zonas asociadas de evaluación computacional son Instinto artificial y Razonamiento artificial.
Numerosos analistas creen que su esfuerzo eventualmente se fusionará en una máquina con
inteligencia general (conocida como IA sólida), todas las habilidades por encima y más allá de las
habilidades humanas, considerando todas las cosas o cada una de ellas. Una pareja acepta que las
funciones humanas, como un estado de alerta falso o un cerebro artificial, podrían ser necesarias para
tal proyecto.
Los diferentes enfoques de la IA se clasifican en términos generales como '1. Cibernética y
simulación mental' que conecta el sistema nervioso, teoría de la información y automatizaciones.
'2. IA simbólica que finalmente prosperaría en la construcción de una máquina con inteligencia general
artificial que evolucionó desde la década de 1960 hasta la década de 1990 como simulación cognitiva
(basada en la ciencia cognitiva y de gestión), enfoque basado en la lógica (basado en el principio de
razonamiento abstracto y resolución de problemas), enfoque basado en el conocimiento (basado en
la revolución del conocimiento en aplicaciones de IA), enfoques subsimbólicos (para problemas
definidos de IA), inteligencia computacional y computación blanda (subconjunto de IA que se enfoca
en redes neuronales, sistemas difusos, computación evolutiva, etc.) y enfoques estadísticos (basados
en herramientas matemáticas refinadas para resolver subproblemas precisos).
La integración de los enfoques mencionados anteriormente también es posible utilizando el 'paradigma
del agente inteligente' y las 'arquitecturas cognitivas y del agente' [9]. El primero se enfoca en
considerar fallas específicas y encontrar soluciones que sean valiosas, sin concurrir en una sola
metodología. Latter se enfoca en conectar los múltiples sistemas de IA como un sistema híbrido, que
tiene componentes simbólicos y subsimbólicos.
Las diferentes herramientas de IA involucran algoritmos de búsqueda (algoritmos de búsqueda
informados y no informados), optimización matemática (recocido simulado, optimización aleatoria,
escalada a ciegas y búsqueda de haz), algoritmos evolutivos (colonia de hormigas y búsqueda de partículas).
Machine Translated by Google

Fundamentos del aprendizaje automático 5

Fig. 1 Aplicaciones de la Inteligencia Artificial

optimización de enjambre, algoritmos genéticos y programación genética), programación lógica


y razonamiento automatizado (lógica por defecto, lógica no monotónica y circunscripción),
métodos probabilísticos para razonamiento incierto (algoritmo de inferencia bayesiano, redes
de decisión, algoritmos probabilísticos, etc.), clasificadores y métodos estadísticos de aprendizaje
(redes neuronales, modelo de mezcla gaussiana, árbol de decisión, etc.).
La Figura 1 describe las aplicaciones de la IA en varios campos.

3 Análisis de datos

Uno de los enfoques matemáticos y estadísticos del análisis de datos es el análisis de datos
que se centra principalmente en lo que los datos pueden decirnos fuera del modelado adecuado
o la prueba de hipótesis. El análisis de datos practica la inteligencia empresarial y los modelos
analíticos. Business Intelligence (BI) es un arreglo previo de técnicas y herramientas para el
cambio de datos brutos en datos significativos y útiles para las unidades de investigación empresarial.
Los avances de BI se fortalecen para manejar datos sin forma para distinguir, generar y, en
cualquier caso, crear nuevas aperturas comerciales clave. El objetivo de BI es considerar la
comprensión inocente de grandes volúmenes de datos. Uno de los modelos analíticos de
análisis de datos es el análisis exploratorio de datos (EDA) para la investigación de datos y para
llegar a una hipótesis que podría generar una nueva colección de datos e investigaciones. EDA
es notable en relación con el análisis de datos inicial (IDA), que se centra en el escrutinio
Machine Translated by Google

6 A. Vinoth y S. Datta

Tabla 1 Técnicas en EDA


Técnicas gráficas en EDA Técnicas cuantitativas en EDA
• Gráfico de Pareto • Ordenación
• Histograma • • Trimean •
Gráfico de Pulido mediano
ejecución • Diagrama de
tallo y hojas • Diagrama de
caja • Búsqueda de proyección dirigida
• Gráfico multivariable • Coordenadas
paralelas • Gráfico de dispersión • PCA

multilineal • Escalamiento
multidimensional • Razón de

probabilidades • Análisis de
componentes principales

suposiciones esenciales para el ajuste del modelo y la prueba de la teoría, considerando las
cualidades que faltan y los factores cambiantes que varían. En 1961, Tukey caracterizó el
análisis de datos como procedimientos para evaluar datos, políticas para descifrar los resultados
de tales métodos, medios para posicionar los datos para simplificar el análisis exactamente y
todo el hardware y los resultados de los datos estadísticos (numéricos) utilizados para evaluar
los datos. [6]. Estos desarrollos estadísticos, todos apuntalados por Tukey, se concibieron para
agregar a la teoría científica de probar suposiciones medibles, principalmente la prominencia de
la convención de Laplacian en las familias exponenciales [10]. Los objetivos de EDA son
proponer hipótesis, evaluar las expectativas estadísticamente, elegir herramientas/técnicas
estadísticas adecuadas y allanar el camino para una mayor recopilación de datos a través de
estudios o experimentaciones. Algunas de las técnicas gráficas y cuantitativas en EDA se enumeran en la Tabla

3.1 Tipos de análisis de datos

El análisis de datos es un amplio campo de estudio. Las cuatro clases esenciales de análisis de
datos como análisis descriptivo, diagnóstico, predictivo y prescriptivo. Cada uno de ellos tiene
un objetivo alternativo y una mejor posición en el curso de la evaluación de datos. Estos son
también los análisis de datos clave en aplicaciones comerciales. La analítica descriptiva admite
estudios de respuesta sobre el paradero. Estos métodos suman enormes conjuntos de datos
para mostrar los resultados a los asociados. Mediante la creación de indicadores clave de
rendimiento (KPI), estas metodologías pueden respaldar los logros o las insatisfacciones de la
ruta. Las medidas, por ejemplo, el retorno de la inversión (ROI) se utilizan en numerosas
empresas. Las dimensiones exactas están diseñadas para rastrear el logro en empresas
inequívocas. Este ciclo necesita la recopilación de datos sustanciales, la organización de los
datos, la investigación de los datos y la concepción de los datos. Este ciclo proporciona
conocimientos básicos sobre logros pasados.
Machine Translated by Google

Fundamentos del aprendizaje automático 7

El análisis de diagnóstico admite la respuesta a consultas sobre por qué ocurrieron las cosas.
Estos métodos complementan análisis descriptivos más fundamentales. Contemplan los
descubrimientos del análisis descriptivo y profundizan más para descubrir la razón. Los
indicadores de rendimiento también se exploran para encontrar el motivo de la mejora. Esto
sucede principalmente en tres etapas:

• Reconocer irregularidades en los datos. Las variaciones repentinas en una cantidad o un


mercado definido.
• Recopilación de datos relacionados con dichas
irregularidades. • Se emplean métodos estadísticos para determinar redes y diseños que
simplifican tales irregularidades.

El análisis predictivo admite la respuesta a consultas sobre eventos posteriores.


Dichos métodos emplean datos verificables para distinguir las derivas y resolver si es posible
que se repitan. Las herramientas analíticas predictivas brindan una comprensión vital de los
eventos futuros y sus medidas integran una colección de procedimientos numéricos y de IA, por
ejemplo, redes neuronales, árboles de decisión y regresión. La predicción de datos es crucial en
el análisis de datos, por lo que es muy necesario un estudio detallado sobre esto. Los tipos de
análisis predictivo son 1. Modelado predictivo 2. Modelado descriptivo y 3. Modelado de decisión.
Los modelos predictivos serán réplicas del vínculo entre el resultado explícito de una unidad en
un modelo y los créditos conocidos o destacados de la unidad. El objetivo del modelo es evaluar
la posibilidad de que una unidad comparativa en un modelo sustituto muestre el resultado
específico. Este modelo se utiliza en áreas amplias, como el marketing, la realización de cálculos
en negocios reales para guiar una decisión, la investigación de la escena del crimen [11] y debido
a su rapidez informática puede simular el comportamiento o las reacciones de las personas ante
situaciones particulares. Los modelos descriptivos miden las influencias en los datos para
organizar clientes o pronósticos en colecciones. No todos los modelos predictivos se enfocan en
prevenir una conducta de cliente independiente (por ejemplo, riesgo de crédito), los modelos
descriptivos distinguen una variedad de conexiones entre clientes o artículos. Clasifica a los
clientes por sus preferencias de artículos y fase de vida en lugar de por la probabilidad de que
los clientes consideren una tarea específica como en los modelos predictivos. Los modelos de
decisión representan la conexión entre todos los componentes de una decisión, la información
identificada (resultados contables de los modelos predictivos), la decisión y los resultados
previstos de la decisión para anticipar los resultados de las decisiones que incluyen numerosos factores.
Dichos modelos pueden utilizarse en la optimización, impulsando resultados definidos y limitando
otros. La Figura 2 muestra las aplicaciones del análisis predictivo en varios campos, en términos
generales, como aplicaciones comerciales, científicas e industriales. Además, los métodos y
procedimientos empleados para realizar análisis predictivos generalmente se pueden agrupar en
técnicas de regresión y técnicas de aprendizaje automático. En la Tabla 2 se enumeran más
clasificaciones de regresión y prácticas de aprendizaje automático . Algunas de las técnicas
enumeradas se analizarán con más detalle.
Numerosas herramientas de análisis predictivo están disponibles tanto como herramientas
de código abierto (KNIME, Open NN, Orange y GNU Octave, etc.) como herramientas comerciales
(MATLAB, Minitab, STATA, SAP, minería de datos de Oracle, etc.) [12] que son útiles en la toma
de decisiones de los procesos y su integración en las diferentes operaciones.
Machine Translated by Google

8 A. Vinoth y S. Datta

Segmentación
de clientes y
Prevención de abandono

Industria pesada, Análisis de


Transporte y cartera y
Bienes de consumo
Pronóstico de ventas

Aplicaciones de
la analítica
Sanidad y predictiva
Análisis de mercado
Finanzas y detección de
fraude

directo y
Modelamiento Evaluación de
financiero riesgos y suscripción

Fig. 2 Aplicaciones de la analítica predictiva

Tabla 2 Clasificaciones de
Técnicas de regresión • técnicas de aprendizaje automático
regresión y aprendizaje automático
Modelo de regresión lineal • • Funciones de base radial •
Modelo de elección discreta • Perceptrón multicapa
Regresión logística • Regresión (MLP) •
logística multinomial • Logit vs Otras redes neuronales • K-
probit • Modelos de series vecinos más cercanos • Naive
temporales • Regresión probit • bayes • Modelado predictivo
Clasificación y regresión geoespacial • Máquinas de
vectores de soporte

árboles

• Análisis de supervivencia o duración


• Splines de regresión adaptativa
multivariada

El análisis prescriptivo admite la respuesta a consultas sobre lo que se debe completar.


Al hacer uso de bits de información de análisis predictivos, eso terminó con selecciones
basadas en datos. Esto autoriza a las organizaciones a apegarse a las decisiones en cuanto
a la susceptibilidad. Los procedimientos analíticos prescriptivos se basan en técnicas de IA
que pueden determinar propuestas en grandes conjuntos de datos. Al explorar selecciones y
casos anteriores, se pueden evaluar las perspectivas de varios resultados.
Machine Translated by Google

Fundamentos del aprendizaje automático 9

3.2 Minería de datos

Una de las actividades de análisis de datos es la 'Minería de datos'. La minería de datos (la fase de investigación
del proceso 'Descubrimiento de conocimiento en bases de datos—KDD'), una subespecialidad multidisciplinaria
de la ingeniería de software, nada más que el método computacional para determinar patrones en conjuntos de
datos masivos comprende enfoques en la conexión de inteligencia artificial, aprendizaje automático, estadísticas
y sistemas de bases de datos [13]. Se puede confundir el análisis de datos con la minería de datos. La principal
diferencia entre estos dos es la siguiente:

• La minería de datos reconoce y encuentra un diseño oculto en grandes conjuntos de datos, mientras que el
análisis de datos brinda fragmentos de conocimiento o pruebas de hipótesis o modelos a partir de un
conjunto de datos.

• La minería de datos es uno de los eventos en el análisis de datos. El análisis de datos es un conjunto integral
de eventos que se ocupa de la selección, planificación y visualización de datos para extraer conocimientos
o información expresivos. Ambos se componen en ocasiones como una subdivisión de Business Intelligence.
• La formación en minería de datos suele ser sobre datos organizados. El análisis de datos debe ser posible
en datos organizados, semi-organizados o no organizados. • El objetivo de la minería de datos es crear datos
más prácticos mientras que el análisis de datos

ayuda en la demostración de una teoría o la toma de decisiones comerciales.


• La minería de datos no necesita preocuparse por ninguna teoría sesgada para distinguir el ejemplo o patrón
en la información. Por otra parte, el análisis de datos prueba una teoría dada. • La extracción de datos
depende de métodos numéricos y lógicos para reconocer patrones o desviaciones en los que el análisis de
datos utiliza modelos analíticos y de inteligencia empresarial.

La minería de datos incluye seis módulos colectivos de tareas como Detección de anomalías (encontrar
conjuntos de datos desconocidos), Aprendizaje de reglas de asociación (búsqueda de correlación entre
variables), Agrupación (acción de determinar conjuntos y ensamblajes en datos), Clasificación (acción de
simplificar estructuras conocidas a nuevas datos), Regresión (identificar una tarea que crea prototipos de los
datos con el mínimo error) y Resumen (brindar una descripción sólida adicional del conjunto de datos, que
comprende la concepción y la documentación). La amplia gama de aplicaciones de la minería de datos se
centra en los derechos humanos, los juegos, la ciencia y la ingeniería, la minería de datos médicos, la minería
de datos de sensores, la minería de datos visuales, la minería de datos espaciales, la vigilancia, la minería de
datos musicales, la minería de patrones, la cuadrícula de conocimientos, la minería de datos temporales,
minería de datos basada en temas y negocios.

4 grandes datos

Big data es un área que descompone, aísla deliberadamente los datos o, en cualquier caso, logra conjuntos de
datos que son marcadamente masivos o multifacéticos para ser logrados por el software de aplicación de
procesamiento de datos convencional. Grandes encuentros de datos: captura de datos, almacenamiento,
investigación de datos, búsqueda, intercambio, movimiento, representación,
Machine Translated by Google

10 A. Vinoth y S. Datta

consulta, actualización, protección de datos y fuente. La palabra big data se refiere repetidamente
solo a la práctica de análisis predictivo o enfoques innovadores más definidos para extraer el valor de
los datos, y rara vez a un tamaño exacto de conjunto de datos. La precisión en los grandes datos
posiblemente allane el camino para una toma de decisiones más segura y mejores conclusiones
pueden significar una mejor eficiencia operativa, reducciones de costos y amenazas reducidas. Los
investigadores, los líderes empresariales, los expertos clínicos, la publicidad y los gobiernos enfrentan
problemas de forma rutinaria con grandes conjuntos de datos en regiones que abarcan la apariencia
de Internet, la tecnología financiera, la informática metropolitana y la informática comercial. Los
académicos enfrentan restricciones en el trabajo de e-Ciencia, que incluye meteorología, genómica,
conectómica, modelos complejos de ciencia de materiales, ciencia y estudio ecológico. La innovadora
capacidad per cápita del mundo para almacenar datos ha crecido en gran medida como un reloj desde
la década de 1980 a partir de 2012; constantemente se crearon 2,5 exabytes (2,5 × 1018) de datos
[14] , como se ve en la figura 3. La prueba para grandes empresas es adivinar quién debería reclamar
las actividades de big data que abarcan toda la connotación.
Big data es un grupo de datos de varias fuentes, frecuentemente descrito por las 3V, a saber,
Volumen (cantidad de datos), Variedad (categoría de datos) y Velocidad (la tasa a la que ocurre la
generación de datos). Con el tiempo, se han agregado a las descripciones de big data otras V, a
saber, Veracidad (calidad de los datos capturados), Valor (valor comercial de los datos recopilados) y
Variabilidad (inconsistencia que dificulta el proceso).
La gestión de datos es un proceso bastante complejo cuando una gran cantidad de datos provienen
de varias fuentes. Ofrecer una valiosa comprensión de la gestión de datos y

Fig. 3 Evolución y digitalización de la capacidad global de almacenamiento de datos (Tomado de M. Hilbert y P. López,
2011) [14]
Machine Translated by Google

Fundamentos del aprendizaje automático 11

Fig. 4 Arquitectura de Big Data

aumentar el contenido correcto, los datos deben manejarse con herramientas modernas (análisis y algoritmos) para
producir información expresiva.
La arquitectura de big data denota el arreglo racional y físico que controla cómo se consume, procesa, almacena,
logra y recupera una cantidad extraordinaria de datos. La arquitectura de big data es la base para el análisis de big
data.
Los mecanismos de arquitectura del análisis de big data contienen naturalmente cuatro capas racionales y ejecutan
cuatro procesos clave, como se muestra en la Fig. 4. 1. Capa de fuentes de big data (administración del procesamiento
por lotes y en tiempo real de big data, como almacenes de datos, aplicaciones SaaS e Internet de las cosas (IoT)), 2.
Capa de administración y almacenamiento (recepción, conversión y almacenamiento de datos al formato adecuado de
la herramienta de análisis de datos), 3. Capa de análisis (extracción de inteligencia comercial o BI de la capa de
almacenamiento) y 4. Capa de consumo (recopila salidas de la capa de análisis y las presenta a la capa de BI
apropiada) [15].

Big data ha originado numerosas aplicaciones en varias áreas. Las áreas clave en las que se utilizan grandes
datos son las siguientes. Sectores gubernamentales y privados, análisis de redes sociales, tecnología, detección de
fraude, análisis de centros de llamadas, banca, agricultura, marketing, teléfonos inteligentes, educación, manufactura,
telecomunicaciones y atención médica.

5 Aprendizaje supervisado

El aprendizaje supervisado implica concluir una función a partir de datos de entrenamiento etiquetados utilizando una
actividad de aprendizaje automático. Los datos de entrenamiento contienen un conjunto de ejemplos de entrenamiento.
En el aprendizaje supervisado, cada muestra es un dúo que involucra un elemento de entrada (generalmente un
vector) y un valor de salida preferido (también conocido como señal de supervisión). Un algoritmo de aprendizaje
supervisado examina los datos de entrenamiento y crea una función contingente que puede utilizarse para representar
nuevas muestras. Una situación ideal permite que el algoritmo defina adecuadamente las etiquetas de clase para
ocurrencias ocultas. Esto necesita que el algoritmo de aprendizaje simplifique desde los datos de entrenamiento hasta
las ocurrencias ocultas de una manera 'realista'. Para resolver una dificultad asignada de aprendizaje supervisado, se
deben seguir los siguientes pasos.
Machine Translated by Google

12 A. Vinoth y S. Datta

1. Identificar el tipo de muestras de entrenamiento 2.


Recopilación del conjunto de entrenamiento 3. Identificar la
ilustración de la característica de entrada de la función aprendida 4. Identificar la
estructura de la función aprendida y el algoritmo de aprendizaje adecuado 5. Finalización del diseño al ejecutar
el algoritmo con el entrenamiento recopilado conjunto 6. Evaluación de la corrección de la función aprendida.

Cuatro preocupaciones clave que se deben considerar en el aprendizaje supervisado son (i) Compensación
de sesgo-varianza [10]: un algoritmo de aprendizaje con una pequeña predisposición debe ser 'flexible' para
adaptarse perfectamente a los datos. Pero si el algoritmo de aprendizaje es excesivamente flexible, se adaptará
a cada conjunto de datos de entrenamiento de una manera diferente y, por lo tanto, tendrá una varianza alta, (ii)
Complicación de la función y volumen de datos de entrenamiento: este problema se refiere a la cantidad de
datos de entrenamiento disponibles con la complicación de la función (clasificador o regresión), es decir, más
simple, la función necesita un aprendizaje a partir de una pequeña cantidad de datos donde la función compleja
requiere una gran cantidad de entrenamiento. datos, (iii) dimensionalidad del espacio de entrada: depende de
la dimensión de los vectores de características de entrada, ya que las dimensiones adicionales pueden
complicar el algoritmo de aprendizaje que tendrá más varianza y (iv) Ruido en los valores de salida: este
problema se refiere a la cantidad de ruido en los valores de salida preferidos. Si los valores de salida son
incorrectos debido a errores provocados por el hombre o del sensor, la coincidencia de las muestras de
entrenamiento no será eficiente y provocará un sobreajuste. Existen numerosos algoritmos en uso para
determinar el ruido en las muestras de entrenamiento que preceden al algoritmo de aprendizaje supervisado.

En general, todos los algoritmos de aprendizaje automático tienen un principio común en el que funcionan,
es decir, se definen como el aprendizaje de una función objetivo (f) que mapea la entrada (X) con los valores
de salida (Y) y hace que prediga Y para un nuevo valor de X y la relación se da como sigue en Eq. (1).

Y = f (X) + e (1)

También habrá un error (e) que es independiente de X y este error se considera un error irreducible sin
importar cuán buena obtengamos la función objetivo. Un algoritmo de aprendizaje supervisado también funciona
según este principio. Los algoritmos de aprendizaje más utilizados son la regresión lineal, el bayesiano ingenuo,
la regresión logística, las máquinas de vectores de soporte, el algoritmo del vecino más cercano, las redes
neuronales (MLP), los árboles de decisión, el análisis discriminante lineal y el aprendizaje de similitud.

Las diversas aplicaciones del aprendizaje supervisado se utilizan ampliamente en áreas importantes como
la bioinformática, la quimioinformática, el marketing de bases de datos, el reconocimiento de escritura a mano,
la extracción de información, el reconocimiento de patrones, el reconocimiento de voz, la detección de spam, la
causalidad descendente en el sistema biológico y el reconocimiento de objetos en la visión artificial. , etc.
Machine Translated by Google

Fundamentos del aprendizaje automático 13

6 Aprendizaje no supervisado

El aprendizaje no supervisado es una especie de IA que busca configuraciones anteriormente ocultas


en un conjunto de datos sin etiquetas previas y al menos con supervisión manual. A diferencia del
aprendizaje supervisado que normalmente utiliza datos etiquetados por humanos, el aprendizaje no
supervisado, también llamado autoasociación, tiene en cuenta la visualización de densidades de
probabilidad sobre las fuentes de datos [16]. En el aprendizaje no supervisado, las dos técnicas
fundamentales que se utilizan son el análisis de conglomerados y el análisis de componentes principales.
El análisis de conglomerados se utiliza en el aprendizaje no supervisado para recopilar o conjuntos de
datos particionados con características comunes debido a la generalización de las conexiones
algorítmicas. El análisis de conglomerados es una subdivisión del aprendizaje automático que reúne los
datos que no han sido nombrados, ordenados o clasificados. En lugar de reaccionar a la retroalimentación,
el análisis de conglomerados reconoce unidades en los datos y responde según la existencia o inexistencia
de tales unidades en cada nueva porción de datos. Esta metodología ayuda a identificar puntos de datos
anormales que no son aptos para ningún grupo.
Un uso fundamental del aprendizaje no supervisado es en el área de estimación de densidad en
estadística; sin embargo, el aprendizaje no supervisado incorpora muchas áreas relacionadas con la
información y la aclaración de las características de los datos. En contraste con el aprendizaje supervisado
que usa la distribución de probabilidad condicional px (x | y) entrenada en la y de los datos de entrada,
mientras que el aprendizaje no supervisado usa la distribución de probabilidad a priori px (x).
La mayoría de los algoritmos generales se utilizan en el aprendizaje no supervisado y cada enfoque
practica numerosas técnicas de la siguiente manera: 1. Agrupamiento (p. ej., algoritmo OPTICS, k-means,
agrupamiento jerárquico, etc.), 2. Detección de irregularidades (p. ej., factor de valor atípico local y bosque
de aislamiento), 3. Redes neuronales (p. ej., autocodificadores, aprendizaje hebbiano, redes de creencias
profundas, etc.) y 4. Enfoques para el aprendizaje de modelos de variables latentes (p. ej., método de
momentos, maximización de expectativas o algoritmo EM, técnicas de separación de señales ciegas ,
etc) [6].

7 Aprendizaje por refuerzo

El aprendizaje por refuerzo (RL) es una parte del aprendizaje automático que se ocupa de cómo los
agentes de software deben realizar movimientos en un entorno para explotar la idea del rendimiento
acumulativo. Es uno de los tres modelos comunes de aprendizaje automático, junto con el aprendizaje
supervisado y el aprendizaje no supervisado. En comparación con el aprendizaje supervisado, RL no
requiere valores de entrada o salida etiquetados y tampoco necesita ajustar actividades subóptimas, sino
que ayuda a identificar la estabilidad entre la investigación del área inexplorada y la manipulación del
conocimiento existente. Debido a su simplificación, el aprendizaje por refuerzo se considera en varias
disciplinas como la teoría de juegos, la teoría de control, la investigación de operaciones, la teoría de la
información, la optimización basada en simulación, los sistemas multiagente, la inteligencia de enjambre
y las estadísticas. Por ejemplo, en la literatura de investigación y control de operaciones, RL se denomina
programación neurodinámica. Los fallos de atención en RL habían sido deliberados en la teoría del control
óptimo.
Machine Translated by Google

14 A. Vinoth y S. Datta

donde se enfoca principalmente en la presencia y categorización de soluciones óptimas y cómputo


preciso de algoritmos.
El aprendizaje por refuerzo es principalmente compatible con fallas que contienen una compensación
de premios a largo plazo versus a corto plazo [17]. Se ha demostrado que es eficaz para muchos
problemas, incluidos el control de robots, la programación de ascensores, las telecomunicaciones, el
backgammon y las damas. Dos factores que hacen que el aprendizaje por refuerzo sea influyente, es
decir, el uso de muestras para mejorar el rendimiento y el uso de la aproximación de funciones para
manejar entornos enormes. Un modelo simple de aprendizaje por refuerzo se compone de:

1. Un grupo de estados ambientales; 2. Un


grupo de acciones; 3. Pautas para el
movimiento entre estados; 4. Pautas que definen el
retorno instantáneo escalar de un movimiento; y 5. Lineamientos que designen la
observación del mandatario.

8 Árbol de decisión

Un árbol de decisión es una técnica de apoyo que ayuda a tomar decisiones utilizando una especie de
prototipo de árbol de opciones y su posible significado, que comprende resultados de eventos fortuitos,
costos de origen y servicio. Muestra un algoritmo de aprendizaje automático supervisado que solo
tiene declaraciones restringidas. Los árboles de decisión generalmente se utilizan en la investigación
de operaciones, especialmente en el análisis de decisiones, para ayudar a encontrar un enfoque más
probable para lograr un objetivo, pero también son una herramienta ampliamente utilizada en el
aprendizaje automático y la minería de datos [18]. Esta técnica tiene como objetivo hacer un modelo
que pronostique el valor de una variable objetivo/salida dependiendo de varios parámetros de entrada.
Das et al. informó la clasificación de placas de acero laminadas en caliente [19], obtenida del análisis
CART, para el control de calidad basado en la composición química. En la figura 5 se muestra un árbol
de decisión similar que muestra la clasificación de la resistencia del acero dulce basada en la composición.
Cualquier modelo de árbol tendrá un nodo raíz que ayude a dividir los datos en dos o más
conjuntos. El atributo clave de este nodo se elige utilizando la técnica de medida de selección de
atributos (ASM). La rama es la parte del árbol de decisión completo, que de otro modo se denominaría
subárbol. Las puntas de flecha se utilizan para distribuir un nodo en dos o más subnodos dependiendo
de las condiciones if-else y el proceso se denomina división. Decisión

Fig. 5 Árbol de decisión óptimo


para placas de acero dulce para
clasificar baja (1) y alta resistencia
Machine Translated by Google

Fundamentos del aprendizaje automático 15

nodo es el de dividir los sub-nodos en sub-nodos sucesivos. El nodo hoja o terminal es la


conclusión del árbol de decisión en el que un subnodo no se puede dividir más.
La poda es el proceso de eliminar un subnodo de un árbol.
Los árboles de decisión que se utilizan en la minería de datos son de dos tipos. Modelos de árbol en los
que la variable de destino puede producir un conjunto fijo de valores conocidos como árboles de clasificación.
Usando estos modelos de árbol, las hojas del árbol significan etiquetas de clase y las ramas del
árbol significan combinaciones de tipos que inician esas etiquetas de clase. Los modelos de árbol
en los que la variable objetivo puede utilizar valores continuos (generalmente números reales) se
denominan árboles de regresión. En el análisis de decisiones, se puede utilizar un árbol de
decisiones para indicar visual y claramente las decisiones y la toma de decisiones. En el caso de
la minería de datos, un árbol de decisión define los datos pero no las decisiones; en cambio, para
la toma de decisiones, se utilizará como entrada el árbol de clasificación posterior. La combinación
de los dos tipos anteriores bajo un mismo techo se denomina árbol de clasificación y regresión (CART).
Para reducir los datos utilizados en la minería de datos, la técnica ASM se practica ampliamente
y ayuda a varios algoritmos a encontrar los mejores atributos. Dos tipos clave de técnicas de
MAPE son el índice de Gini y la obtención de información. El Índice de Gini es la cantidad de
grado de posibilidad de una variable específica que está categorizada incorrectamente. La relación
matemática de un índice de Gini se da en la ecuación. (2)

gini = 1 ÿn
(p2 ) i
(2)
yo=1

donde pi denota la probabilidad de clasificar un objeto en una clase específica. Normalmente, se


elige una función con un índice de Gini mínimo si se utiliza el índice de Gini como condición para
un algoritmo. El algoritmo de ganancia de información o ID3 es el que ayuda a reducir el nivel de
entropía desde el nodo raíz hasta el nodo hoja que ayuda a identificar un atributo que arroja
evidencia completa sobre una clase y lo mismo se ha expresado en la Ec. (3).

E(s) = (ÿpiloto2 pi) (3)


yo=1

donde pi denota la probabilidad de entropía 'E(s)'. Normalmente, una función con una ganancia
ID3 máxima se utiliza como raíz para la división. Algunos de los algoritmos de árbol de decisión
notables bajo una clasificación amplia son árboles de inferencia condicional, ID3 (dicotomizador
iterativo 3), MARS, C4.5 (sucesor de ID3), CHAID (detector automático de interacción CHi-
cuadrado), CART (clasificación y regresión). árbol), etc
Machine Translated by Google

dieciséis A. Vinoth y S. Datta

9 mínimos cuadrados

El método de mínimos cuadrados es una técnica estadística para identificar el mejor ajuste para un
conjunto de puntos de datos al reducir la totalidad de los cuadrados de los residuos de puntos de la
curva. Es un método típico en el análisis de regresión que predice el desempeño de las variables
dependientes en relación con las variables independientes. La aplicación más significativa está en
el ajuste de datos. El mejor ajuste en los mínimos cuadrados limita la totalidad de los residuos
cuadrados siendo la diferencia entre un valor observado y el valor ajustado proporcionado por un
modelo. Cuando el problema tiene muchas incertidumbres en la variable independiente (variable
X), entonces la regresión simple y las técnicas de mínimos cuadrados tienen problemas; en tales
casos, el enfoque necesario para ajustar los modelos de errores en factores se considera mejor
que el de los mínimos cuadrados.
En el análisis de regresión, las variables dependientes se representan en el eje y, mientras
que las variables independientes se representan en el eje x. Estas descripciones darán la ecuación
para la línea de mejor ajuste como se muestra en la Fig. 6, que se determina a partir del método de
mínimos cuadrados. En contradicción con un problema lineal que tiene una solución definida, un
problema de mínimos cuadrados no lineal no tiene una solución definida y generalmente se resuelve
por iteración al aproximarlo como uno lineal. Los mínimos cuadrados polinómicos definen la
diferencia en un valor predicho de la variable dependiente como una función de variable
independiente y las desviaciones del gráfico ajustado. Los métodos de mínimos cuadrados desarrollados en las área

Fig. 6 Mejor ajuste lineal


Machine Translated by Google

Fundamentos del aprendizaje automático 17

astronomía y geodesia a lo largo del siglo XVIII, donde expertos y estadísticos querían dar
respuestas a los experimentos de circunnavegación de los océanos de la Tierra en la Era de la
Investigación. En 1795, el matemático alemán Carl Friedrich Gauss reveló el proceso del método
de los mínimos cuadrados, pero solo en 1805, fue impreso por primera vez por un matemático
francés Adrien-Marie Legendre, quien lo describió como un método numérico para ajustar
ecuaciones lineales a datos para demostrar un nuevo procedimiento para evaluar datos similares
a los de Laplace para la forma del mundo. Sin embargo, después de 1809, Gauss introdujo un
nuevo desarrollo en el método de los mínimos cuadrados con los principios de probabilidad,
densidad de probabilidad, distribución normal y método de estimación. En 1810, con la base del
trabajo de Gauss, Laplace ideó el teorema del límite central y en 1822, Gauss formuló el teorema
de Gauss-Markov [6]. Asimismo, muchos investigadores han ideado varias formas de implementar
los mínimos cuadrados. Se definirá un problema basado en una función objetivo que tiene variables
de ajuste 'm' de una función modelo definida por el vector 'ÿ' para ajustarse mejor a un conjunto de
datos 'n' que contiene la variable independiente 'xi' y la variable dependiente 'yi' . El ajuste del
modelo viene dado por los residuos 'ri' de la siguiente manera, que es la diferencia entre los
valores reales de 'y' y el valor predicho de 'y' como se indica en la ecuación. (4).

ri = yi ÿ f (xi, ÿ) (4)

Los métodos de mínimos cuadrados determinan la variable óptima reduciendo la suma 'S' de
los residuos cuadrados y se muestra a continuación en la ecuación. (5)

ÿn 2
S=1 (r i ) (5)
yo=1

La formulación de la regresión tiene sus limitaciones en cuanto a considerar únicamente los


errores observacionales en la variable dependiente. Hay dos situaciones relativamente diferentes
con diferentes inferencias como Regresión para predicción y Regresión para ajustar una 'relación
precisa'. Las formas comunes de resolver el problema de los mínimos cuadrados son mediante
mínimos cuadrados lineales y mínimos cuadrados no lineales [20]. La diferencia entre mínimos
cuadrados lineales y mínimos cuadrados no lineales es 1. La función modelo, f, en LLSQ (mínimos
cuadrados lineales) es un arreglo lineal de variables de la forma f = xi1ÿ1 + xi2ÿ2+ …
El prototipo puede significar una línea recta, una parábola o cualquier otra
combinación lineal de funciones. En NLLSQ (mínimos cuadrados no lineales) las variables parecen
ÿ son uno como
funciones, como ÿ2, eÿx , etc. Si la constante de las derivadas o la otra están influenciadas solo
f ÿÿj
por la variable independiente, las variables muestran que el modelo es lineal. De lo contrario, es
un modelo no lineal. 2. Quiere valores primarios para las variables para identificar el resultado de
un problema NLLSQ; LLSQ no los necesita. 3. En LLSQ el resultado es distintivo, pero en NLLSQ
puede haber numerosos mínimos en la suma de cuadrados. Un conjunto distinto de mínimos
cuadrados globales denominados mínimos cuadrados ponderados ocurre cuando la totalidad de
las entradas fuera de la diagonal de la matriz de correlación del residuo se anula; las diferencias
de las observaciones pueden incluso ser
desigual.
Machine Translated by Google

18 A. Vinoth y S. Datta

10 regresión lineal

La regresión lineal es un método para mostrar la correlación entre una variable dependiente (y) y
una o varias variables independientes (x) [21]. Un modelo que tiene una sola variable independiente
se conoce como regresión lineal simple y en el caso de más de una variable independiente se
conoce como regresión lineal múltiple. Es simplemente diferente de la regresión lineal multivariante
que espera varias variables dependientes asociadas en lugar de una sola variable dependiente. La
regresión lineal enfatiza la distribución de probabilidad restringida de las variables independientes
dada por la función del modelo en lugar de la distribución de probabilidad combinada de todas esas
variables nada más que el área de análisis multivariante. Tiene varias aplicaciones cotidianas que
involucran tanto estadísticas como aprendizaje automático debido a sus modelos basados en
variables linealmente desconocidas que pueden ajustarse fácilmente en lugar de los modelos con
variables no lineales y también es fácil encontrar las propiedades numéricas de los estimadores
posteriores. . Existen varias técnicas que entrenan los modelos lineales y la más familiar se conoce
como mínimos cuadrados, pero existen otros enfoques para ajustar el modelo, por ejemplo, mínimos
cuadrados ordinarios o descenso de gradiente o regularización L1 y regularización L2 [ 6]. Por lo
tanto, los mínimos cuadrados y el modelo lineal están diligentemente relacionados pero no tienen
un significado idéntico.

Un modelo de regresión lineal está representado por una ecuación lineal que conecta un conjunto
particular de variables de entrada (x) que da los resultados de la salida prevista (y) para el conjunto
de x. Se asigna un coeficiente 'ÿ' a cada una de sus entradas en una ecuación lineal como factor de
escala. Además, un coeficiente suplementario agregado llamado coeficiente de sesgo o intersección
que proporciona la línea como en la Fig. 6, que es un ejemplo de una línea de regresión simple,
tiene un grado para moverse libremente en una gráfica 2D. Una ecuación de regresión típica con
una entrada y una salida se da en la ecuación. (6)

y = ÿ0 + ÿ1x (6)

La complicación de un modelo de regresión lineal depende del número de coeficientes utilizados


en él. Por ejemplo, si un coeficiente es cero, ignora el efecto de esa variable de entrada y,
posteriormente, la predicción del modelo. Esto es común en los métodos de regularización que
podrían modificar el algoritmo para simplificar la complejidad del modelo al hacer que un tamaño
completo de los coeficientes sea cero.
Uno tiene que tomar una llamada antes de interpretar los resultados del modelo de regresión
donde cada uno de ellos puede seguir el efecto único (cambio estimado en la salida predicha para
un cambio en una sola entrada donde todas las demás covariables se mantienen estables) o el
efecto marginal (derivada completa de la salida predicha en relación con la entrada). Hay dos
posibilidades que pueden ocurrir al interpretar los resultados de la regresión, es decir, si el efecto
marginal es enorme, el efecto único es cero o si el efecto único es enorme, entonces el efecto
marginal es cero. Sin embargo, existe la posibilidad de que el análisis de regresión múltiple no tenga
la correlación entre la salida predicha y la entrada, ya que el efecto único trata con un sistema
multifacético donde muchos componentes interconectados influyen en la variable de entrada.
Machine Translated by Google

Fundamentos del aprendizaje automático 19

Se han establecido muchas adiciones de regresión lineal que involucran regresión lineal
simple y múltiple, modelos lineales generales, modelos lineales generalizados (GLM), modelos
heteroscedásticos, modelos lineales jerárquicos, modelos de error de medición, etc. Es
fundamental estimar el parámetro y la implicación en la regresión lineal. Algunos de los enfoques
generales de estimación son la estimación de mínimos cuadrados (p. ej., mínimos cuadrados
ordinarios, mínimos cuadrados generalizados, porcentaje de mínimos cuadrados, mínimos
cuadrados totales, etc.), la estimación de máxima verosimilitud (p. ej., regresión de cresta,
regresión de lazo, estimación adaptativa, mínimo desviación absoluta) y otros enfoques de
estimación diversos (p. ej., regresión lineal bayesiana, regresión de componentes principales,
regresión cuantil y regresión de ángulo mínimo). La regresión lineal tiene sus principales
aplicaciones en el campo de las finanzas, la economía, las ciencias ambientales y la epidemiología
para definir las correlaciones adecuadas entre los parámetros.

11 redes neuronales

Una cadena de algoritmos que replican las acciones de un cerebro humano para describir la
correlación entre numerosos conjuntos de datos se denomina Red neuronal (NN). La arquitectura
de la red neuronal es la misma que la del cerebro humano, que tiene 'neuronas' que pueden ser
neuronas biológicas o artificiales que actúan como una función numérica que recopila y clasifica
datos en relación con una arquitectura particular [22]. Desde 1943 hasta finales de 2000, las
redes neuronales han mostrado un tremendo desarrollo en inteligencia artificial.
La evolución de NN se deriva directamente de un modelo computacional llamado lógica de
umbral sobre la base de algoritmos y matemáticas que se enfoca en los procesos genéticos del
cerebro y la aplicación de NN a la IA. Posteriormente se creó un aprendizaje hebbiano basado
en hipótesis y aplicándolo con máquinas tipo B que siguen el aprendizaje no supervisado [11].
Después de lo cual se creó el uso de calculadoras como máquinas computacionales que imitan
la red hebbiana. Se creó un algoritmo de red de aprendizaje informático de dos capas para el
reconocimiento de patrones, seguido del desarrollo de un algoritmo de retropropagación en el
aprendizaje automático que resolvió el problema de NN al resolver el procesamiento del circuito
con notación matemática y el poder de procesamiento de las computadoras anteriores. Otras
evoluciones, como las máquinas de vectores de soporte y algunos métodos más sencillos, como
los clasificadores lineales, superaron a NN en admiración por el aprendizaje automático. Más
tarde, el aprendizaje profundo ha transformado una nueva atención en las redes neuronales.
Desde 2006 y hasta la fecha, los desarrollos de NN son increíbles en la nueva era de la
computación digital, como NN feedforward, memoria a corto plazo (LSTM) en reconocimiento de
patrones, reconocimiento de señales de tráfico, identificación de moléculas para nuevos medicamentos, etc.
Para resolver problemas de inteligencia artificial (IA) se utiliza una red neuronal con neuronas
artificiales denominada red neuronal artificial (ANN) [23]. Cada red tiene una sólida similitud con
los métodos estadísticos como el ajuste de curvas y el análisis de regresión.
Las capas (de entrada, ocultas y de salida) de nodos interrelacionados constituyen una red
neuronal artificial básica, como se muestra en la Fig. 7. Al igual que la regresión lineal múltiple,
cada nodo de una red llamada perceptrón se convierte en una función de transferencia/activación
no lineal al pasar la señal dado por una regresión lineal múltiple, es decir, una neurona de ANN
Machine Translated by Google

20 A. Vinoth y S. Datta

Fig. 7 Arquitectura de ANN

toma una señal, probablemente un número real, luego la procesa y le da la señal a las
neuronas conectadas a ella.
En el curso del proceso de aprendizaje, las neuronas y los conectores generalmente tienen
un peso en cada entrada, es decir, el producto de entradas y pesos en una función de
transferencia que aumenta o disminuye la fuerza de la señal con un nivel de umbral y la señal
pasa solo si la señal acumulada cruza el umbral. Hay diferentes funciones de transferencia en
uso y pocas de ellas son función de transferencia de límite estricto, función de transferencia
lineal pura, funciones de transferencia log-sigmoidea y tan-sigmoidea, etc. Numéricamente,
f(x) es una función de una neurona que es una estructura de otra función g(x) y que además
puede ser una estructura de otras funciones que se denota completamente como una
estructura de una red que muestra las relaciones entre las variables. Una estructura
típicamente utilizada de una función es la función no lineal de suma ponderada que viene
dada por la relación como en la ecuación. (7),

norte

f(x) = U wi -gi(x) (7)


yo=0

donde U es la función de activación tal como tan-hiperbólica. El aprendizaje de ANN está bajo
tres paradigmas clave, a saber, aprendizaje supervisado, aprendizaje no supervisado y
aprendizaje reforzado, que se explicó en detalle en las sesiones anteriores. El entrenamiento
de las redes neuronales se realiza utilizando los métodos ampliamente utilizados como simulación
Machine Translated by Google

Fundamentos del aprendizaje automático 21

recocido, optimización de enjambres de partículas, maximización de expectativas, métodos evolutivos,


programación genética y métodos no paramétricos. Las aplicaciones de ANN se dividen en general en
las siguientes categorías: procesamiento de datos (filtrado, agrupamiento, etc.), robótica (prótesis de
guía y manipuladores), clasificación (reconocimiento de secuencia y patrón), análisis de regresión/
aproximación de funciones (modelado y aproximación de aptitud, predicción de series temporales),
control (control de procesos, control numérico por computadora y control de vehículos) y neurociencia
computacional y nocional.

12 Análisis de conglomerados

El análisis de conglomerados es un enfoque que se utiliza para organizar un conjunto de datos/artículos


en colecciones/grupos relacionados denominados conglomerados. También se conoce como análisis de
clasificación o agrupamiento o taxonomía numérica. Aquí, no hay datos anteriores disponibles sobre el
grupo o la relación de conglomerados para ninguno de los artículos. En el agrupamiento, los objetos se
aíslan en grupos (clusters) con el objetivo de que cada objeto se parezca más a los diferentes objetos
dentro del mismo cluster que a los objetos fuera del cluster [6].
La Figura 8 muestra el agrupamiento de flores de iris según el largo y el ancho de los pétalos, agrupadas
en diferentes colores. El análisis de conglomerados incluye la formulación del problema, la elección de
una medida de separación, la elección de un método de agrupamiento, la finalización de la cantidad de
conglomerados, la interpretación de los conglomerados y, por último, la evaluación de la fuerza del
agrupamiento. Por lo tanto, el análisis de conglomerados se puede expresar como un problema de
optimización multiobjetivo que implica un proceso iterativo de detección de conocimiento con muchas
pruebas y decepciones en lugar del proceso automático.
El concepto de un 'clúster' puede no ser exactamente distinto, lo que requiere varios algoritmos de
agrupamiento que varían significativamente en su comprensión/propiedades de

Fig. 8 Análisis de clúster típico de acero al carbono simple


Machine Translated by Google

22 A. Vinoth y S. Datta

Agrupación basada en conectividad


(Agrupación de enlaces - simple o
completa)

Agrupación basada
en centríodos
(algoritmo K-medias) Agrupación basada en densidad
(ÓPTICA y DBSCAN)
Tipos de
Agrupación
Algoritmos

Agrupación basada en distribución


(Algoritmos de maximización de
expectativas entre modelos de Agrupación basada en cuadrículas

mezcla gaussiana) (STING y CLIQUE)

Fig. 9 Tipos de algoritmos de agrupamiento

el establecimiento de un clúster y el proceso que involucra cómo identificarlos de manera competente.


Por lo tanto, se requiere estudiar las diferencias entre estos algoritmos al considerar un modelo de
clúster clásico que involucra modelos neuronales, modelos de gráficos firmados, modelos de densidad,
modelos de grupo y modelos subespaciales [24]. La clasificación de la agrupación en clústeres es, en
términos generales, como agrupación dura (verificación de que todos los objetos encajan en un grupo o
no) y agrupación blanda (verificación de que todos los objetos encajan en todos los grupos hasta un
nivel definido). Se clasifica además como agrupamiento jerárquico (los datos de un grupo secundario
también coinciden con el principal), agrupamiento de porciones estrictas con (cada dato coincide con un
solo grupo) y sin valores atípicos (los datos coinciden sin grupos), agrupamiento de subespacio
(superposición de datos no posible dentro de un subespacio) y agrupamiento superpuesto (los datos
coinciden con más de un grupo).
Como se indicó anteriormente, los algoritmos de agrupamiento se clasifican de acuerdo con los
modelos de agrupamiento y los diversos tipos se representan en la Fig. 9. El agrupamiento basado en
la conectividad depende de la distancia a la que los objetos están conectados para formar agrupamientos
que probablemente estén vinculados a objetos más cercanos en lugar de que el más lejano. Las
distancias se calculan utilizando el principio de enlace. El agrupamiento de objetos con menor distancia
se conoce como agrupamiento de enlace único y el agrupamiento de objetos con mayor distancia se
conoce como agrupamiento de enlace completo. La agrupación en clústeres basada en el centroide se
denota mediante un vector principal llamado vector de clúster que no necesita estar asociado con el conjunto de datos.
Un enfoque específico llamado algoritmo de agrupación en clústeres K-means, en el que una gran
cantidad de clústeres se fijan en 'k', que debe indicarse de antemano, proporciona una solución definitiva
al problema de optimización al encontrar el clúster k y asignar los objetos al clúster cercano. centro
donde minimiza el cuadrado de las distancias desde el cúmulo. Un modelo de conglomerado más
relevante para las estadísticas se realiza mediante el agrupamiento basado en el modelo de distribución
que tiene los objetos de la misma distribución. Parece que los conjuntos de datos artificiales se
desarrollan seleccionando objetos arbitrarios de la distribución. El problema principal en este método es
el sobreajuste y se soluciona mediante un método llamado modelos de mezcla gaussiana, especialmente
un algoritmo de minimización de expectativas donde el modelado
Machine Translated by Google

Fundamentos del aprendizaje automático 23

del conjunto de datos se realiza fijando el número de distribuciones gaussianas que se ajustan de forma
aleatoria y las variables se optimizan en iteración para tener un mejor ajuste de datos que cumplirá con
un óptimo local. El agrupamiento basado en la densidad tiene grupos establecidos como partes de
mayor densidad que el resto del conjunto de datos. Los objetos que se encuentran en áreas escasas
que se necesitan para aislar los grupos se toman como puntos de ruido y margen. El método más
familiar de agrupamiento basado en la densidad es DBSCAN, que es lo mismo que el agrupamiento
basado en enlaces, donde depende de la distancia de los puntos de conexión dentro del umbral; a la
inversa, relaciona los puntos que cumplen con los criterios de densidad establecidos como una cantidad
menor de puntos adicionales. objetos dentro de ese radio.
Otro método generalizado de DBSCAN es OPTICS, que ignora la elección de seleccionar un valor
adecuado para la variable de rango y desarrolla una salida jerárquica basada en la agrupación de
enlaces. El algoritmo de agrupamiento basado en cuadrículas se utiliza para conjuntos de datos
multifacéticos que desarrollan una estructura similar a una cuadrícula y comparan la misma por medio
de cuadrículas o celdas. Es un método bastante más rápido y con menor complejidad en computación.
Implica esta secuencia de operaciones: inicialmente divide el conjunto de datos en un número
determinado de celdas, elige una celda al azar y encuentra la densidad de esa celda. Si la densidad de
la celda es superior al umbral, marque dicha celda como un nuevo grupo, calcule la densidad de las
celdas vecinas y, si las celdas vecinas superan el umbral, mantenga la celda en el grupo y este paso
se repite hasta que no queden celdas vecinas con mayor densidad que el umbral. Este proceso se
realiza repetidamente hasta que todas las células pasan.

El enfoque de análisis de conglomerados se aplica ampliamente en el campo de la biología, la


bioinformática, las imágenes médicas, los negocios y el marketing, la informática, la World Wide Web,
las ciencias sociales, la robótica, las finanzas, la geología del petróleo y mucho más.

13 Aprendizaje profundo

El aprendizaje profundo es una de las técnicas generales relacionadas con la inteligencia artificial (IA)
del aprendizaje automático supervisado o no supervisado de datos que no está estructurado y que imita
el manejo de datos por parte del cerebro humano. Muchos de los modelos de aprendizaje profundo se
construyen utilizando redes neuronales artificiales (ANN). También se conoce como red neuronal
profunda. El aprendizaje profundo es un curso de algoritmos de aprendizaje automático que utiliza
múltiples capas en una red para predecir la correlación de las entradas reales con los parámetros de
destino/salida que permiten resolver problemas de optimización en varias aplicaciones prácticas. Las
arquitecturas de aprendizaje profundo se construirán capa por capa, lo que ayuda a separar nociones
y elegir las características que mejoran el rendimiento.
Algunas de las arquitecturas son redes de creencias profundas (DBN), redes neuronales recurrentes
(RNN), redes neuronales convolucionales (CNN) y redes neuronales profundas (DNN). El término
'profundo' se refiere a la cantidad de capas que transforman datos de datos sin procesar (entrada) a
datos de destino (salida) utilizando la profundidad de la ruta de asignación de crédito (CAP) que define
la relación entre los datos sin procesar y de destino [25]. Por ejemplo, la profundidad del CAP en la red
neuronal feedforward es solo una además del número de capas ocultas
Machine Translated by Google

24 A. Vinoth y S. Datta

mientras que en CNN es simplemente ilimitado, ya que una señal puede pasar por una capa más de una
vez [6].
La mayoría de los algoritmos de aprendizaje profundo están estructurados como problemas de
aprendizaje no supervisado donde dichos algoritmos utilizan los datos no etiquetados en lugar del
aprendizaje de supervisión. El mejor ejemplo de una estructura profunda entrenada sin supervisión es la
red de creencias profundas. La Figura 10 representa la revolución del aprendizaje profundo que muestra
por qué el aprendizaje profundo es una subdivisión del aprendizaje automático y, a su vez, es una subdivisión de la IA.
Desde 2012 hasta la fecha, el aprendizaje profundo en ANN ha evolucionado ampliamente a partir de
varios trabajos de diferentes investigadores como objetivo de predicción de fármacos biomoleculares,
detección de efectos mortales de productos químicos ambientales y artículos domésticos, reconocimiento
de imágenes y objetos, visión artificial, reconocimiento de voz y clasificación de imágenes utilizando CNN
y métodos de memoria a largo plazo (LSTM) [26, 27].
Una ANN con varias capas entre las capas de entrada y salida se denomina red neuronal profunda
(DNN). Las relaciones no lineales complejas se pueden modelar utilizando DNN.
La Figura 11 muestra la diferencia entre el número de capas en una ANN y DNN típicas de feedforward.
El funcionamiento de DNN es muy similar a ANN, que se describió en detalle en las sesiones anteriores,
excepto que DNN es un número 'n' de capas ocultas entre las capas de entrada y salida. Por ejemplo, en
el juego de ajedrez por computadora, una computadora puede aprender diferentes movimientos o tácticas
de varias personas y lo mismo puede almacenarse en su base de datos y esas tácticas están determinadas
por varios algoritmos y es por eso que puede denominarse como red neuronal profunda donde el
aprendizaje es más profundo donde ANN no es un método imaginativo donde puede obtener un único
resultado, mientras que DNN podrá resolver los problemas universalmente y puede predecir o concluir
en función de la entrada y la salida deseada. Al igual que ANN, DNN también tiene dos problemas
importantes de tiempo computacional y sobreajuste si no se entrena a fondo.

Fig. 10 Revolución del aprendizaje


profundo Artificial
Inteligencia
(AI)

Aprendizaje
automático

Profundo
Aprendiendo
Machine Translated by Google

Fundamentos del aprendizaje automático 25

Fig. 11 Una arquitectura típica de ANN y DNN

El cálculo de varias capas de un DNN con 'n' capas ocultas viene dado por un
relación como en la Ec. (8)

f (x) = f a(n+1) (hn(an(. . . (h2 a2 h1 a1 (x) (8)

a(n) (x) es la función de preactivación que se muestra en la ecuación. (9) que es un proceso lineal con
la matriz ponderada W(n) y b(n) como sesgo que se fusionará con una variable ÿ

a(n) (x) = W(n) x + b(n) (9)

La notación de barra x¯d indica que 'n' unido al vector x y h(l) (x) es el
función de activación/transferencia de capa oculta y viene dada por las Ecs. (10) y (11).

¯
a(n) (x¯) = ÿ(n) xif n =1 (10)

a(n) h¯(nÿ1) = ÿ(n) h¯(nÿ1) si n > 1 (11)

Una red neuronal donde los datos se dirigirán de cualquier manera se clasifica como redes
neuronales de alquiler recurrente (RNN), una división de ANN en la que los enlaces nodales
crean un gráfico enfocado junto a un arreglo temporal que muestra un rendimiento activo
temporal y se utiliza RNN. en una aplicación como modelado de lenguaje. En concreto, un
algoritmo activo que se utiliza para este fin es la memoria a largo plazo. Una red neuronal que
se está utilizando en aplicaciones de visión por computadora para evaluar imágenes pictóricas
son las redes neuronales profundas convolucionales (CNN), que básicamente dependen de la
arquitectura compartida y las características de la traducción constante y también se utilizan
para el reconocimiento automático del habla mediante el modelado de una buena acústica. . Las
CNN son generalmente tipos de perceptrones multicapa que, por lo general, son redes
completamente conectadas en las que cada neurona en una sola capa está unida a todas las neuronas en la cap
Machine Translated by Google

26 A. Vinoth y S. Datta

Esto conduce a una posibilidad de sobreajuste de los datos que se pueden clasificar mediante la
inclusión de algún tipo de método de medición de peso en la pérdida funcional. No es tan extremo
debido a su conectividad de patrones complejos con patrones pequeños y más fáciles para varios
enfoques de regularización.
Hay varias aplicaciones en las que se utilizan conceptos de aprendizaje profundo.
Son descubrimiento de fármacos y toxicología, bioinformática [28], gestión de relaciones con
clientes, reconocimiento de electromiografía (EMG) e imágenes, procesamiento de lenguaje
natural y artes visuales, publicidad móvil, aplicaciones militares y detección de fraudes financieros,
etc. [6 ].

14 Resumen

ML es un método de aprendizaje de los datos basado en los principios de las estadísticas y la IA.
La IA replica el intelecto humano en las computadoras, como el aprendizaje y el pensamiento
crítico. Básicamente, la IA se ocupa de la representación del conocimiento y la ingeniería del
conocimiento. La IA involucra diferentes tipos de enfoques, como algoritmos de búsqueda,
optimización matemática, algoritmos evolutivos, programación lógica y razonamiento automatizado,
métodos probabilísticos para razonamiento incierto, clasificadores y métodos de aprendizaje estadístico.
El análisis de datos que practica la inteligencia empresarial y los modelos analíticos es una de
las principales áreas de aplicación de ML. El análisis de datos tiene cuatro clases, a saber.
analítica descriptiva, diagnóstica, predictiva y prescriptiva. La analítica descriptiva admite estudios
de respuesta sobre el paradero. El análisis de diagnóstico admite la respuesta a consultas sobre
por qué ocurrieron las cosas. El análisis predictivo admite la respuesta a consultas sobre eventos
posteriores. El análisis prescriptivo admite la respuesta a consultas sobre lo que se debe completar.

ML se puede clasificar en tres clases principales. El aprendizaje supervisado se puede usar si


cada muestra en los datos tiene un elemento de entrada y un valor de salida preferido. El
aprendizaje no supervisado busca configuraciones ocultas en un conjunto de datos sin etiquetas
ni resultados previos. Movimientos de aprendizaje por refuerzo de los agentes software para
explotar el mejor rendimiento acumulativo.
El aprendizaje profundo es la forma más nueva de aprendizaje automático, que utiliza múltiples
capas en una red para seleccionar las funciones y encontrar la correlación entre ellas para
desarrollar una clasificación y modelos predictivos de sistemas altamente complejos.

Referencias

1. Davy Cielen, MA y Meysman, A. (2016). Introducción a la ciencia de datos: Big data, máquina
aprendizaje, y más, utilizando las herramientas de Python. Estados Unidos: Publicaciones de Manning.
2. Langley, P. (2011). La ciencia cambiante del aprendizaje automático. Aprendizaje automático, 82(3), 275–
279.
3. Samek, W., Wiegand, T. y Müller, KR (2017). Inteligencia artificial explicable: comprensión, visualización
e interpretación de modelos de aprendizaje profundo, 1, 39–48.
Machine Translated by Google

Fundamentos del aprendizaje automático 27

4. Shabbir, J. y Anwer, T. (2018). La inteligencia artificial y su papel en el futuro cercano, 14(8), 1–11.
5. Ginsberg, M. (2012). Fundamentos de la inteligencia artificial. San Francisco, California, Estados Unidos:
Morgan Kaufmann Publishers Inc.
6. Dönmez, P. (2013). Introducción al aprendizaje automático. Ingeniería del Lenguaje Natural, 19(2),
285–288.
7. Luger, W. (2004). Jorge; rastrojo, inteligencia artificial: Estructuras y estrategias para
Resolución de problemas complejos, 5ª ed. Benjamín/Cummings.
8. Makridakis, S. (2017). La próxima revolución de la Inteligencia Artificial (IA): Su impacto en
sociedad y empresas. Futuros, 90, 46–60.
9. Johnston, J. (2010). El encanto de la vida maquínica: cibernética, vida artificial y la nueva IA.
Cambridge, Massachusetts Londres, Inglaterra: The MIT Press.
10. Preboste, RKF (1998). Glosario de términos. Aprendizaje automático, 30. Springer EE. UU.
11. Le Roux, A., Bengio, N. y Fitzgibbon, N. (2012). Mejora de los métodos de primer y segundo orden modelando la
incertidumbre. En Optimización para Aprendizaje Automático, S. In Sra, Suvrit; Nowozin y SJ Wright, Eds. MIT Press,
2012, pág. 404.
12. Siegel, E. (2013). Análisis predictivo: el poder de predecir quién hará clic, comprará, mentirá o morirá, primero
edición Wiley.
13. Hand, DJ y Adams, Nuevo México (2015). Minería de datos en Wiley StatsRef: referencia de estadísticas en línea
(págs. 1 a 7). Chichester, Reino Unido: John Wiley & Sons Ltd.
14. Hilbert, M. y López, P. (2011). La capacidad tecnológica del mundo para almacenar, comunicar,
y computar información. Ciencia (80), 332 ( 6025), 60–65, 2011.
15. Hashem, IAT, Yaqoob, I., Anuar, NB, Mokhtar, S., Gani, A. y Ullah Khan, S. (2015). El surgimiento de 'big data' en la
computación en la nube: revisión y temas abiertos de investigación. Sistemas de información, 47, 98–115.

16. Barlow, HB (1989). Aprendizaje sin supervisión. Computación neuronal, 1(3), 295–311. 17. van Otterlo,
M. y Wiering, M. (2012). Aprendizaje por refuerzo y procesos de decisión markov.
En Aprendizaje por Refuerzo. Adaptación, aprendizaje y optimización, van OM Wiering M., Ed. Springer, Berlín,
Heidelberg, págs. 3–42.
18. Nilsson, Nueva Jersey (2005). Introducción al aprendizaje automático: un borrador inicial de un libro de texto propuesto.
Aprendizaje automático, 56(2), 387–399.
19. Das, P., Bhattacharyay, BK y Datta, S. (2006). Un estudio comparativo para el modelado de la clasificación de chapas
de acero laminadas en caliente utilizando un enfoque estadístico y sistemas de redes neuronales. Materiales y
procesos de fabricación, 21(8), 747–755.
20. Mannila, H. (1996). Minería de datos: aprendizaje automático, estadísticas y bases de datos. En Actas de la 8ª
Conferencia Internacional sobre Gestión de Bases de Datos Científicas y Estadísticas, págs. 2–9.
21. Montgomery, GGVDC y Peck, EA (2012). Introducción al análisis de regresión lineal,
5ª ed. Wiley.
22. Perry, SO (2002). Manual de procesamiento de señales de redes neuronales. Revista de la Sociedad Acústica de
América, 111(6), 2525–2526.
23. Prajapati, DK y Tiwari, M. (2017). Uso de redes neuronales artificiales (ANN) para determinar los parámetros de la
superficie de extracción, la fricción y el desgaste durante la prueba tribot de pasador sobre disco. Materiales clave de
ingeniería, 739, 87–95.
24. Estivill-Castro, V. (2002). ¿Por qué tantos algoritmos de agrupamiento? ACM SIGKDD Exploraciones
Boletín, 4(1), 65–75.
25. LeCun, Y., Bengio, Y. y Hinton, G. (2015). Aprendizaje profundo. Naturaleza, 521 (7553), 436–444.
26. Li, X. y Wu, X. (2015). Construcción de redes neuronales recurrentes profundas basadas en la memoria a corto plazo
para el reconocimiento de voz de gran vocabulario. En 2015 IEEE International Conference on Acoustics, Speech and
Signal Processing (ICASSP), págs. 4520–4524.
27. Sze, V., Member, S., Chen, Y., Member, S. y Yang, T., Procesamiento eficiente de redes neuronales profundas: tutorial
y encuesta, págs. 1–32.
28. Choi, E., Schuetz, A., Stewart, WF y Sun, J. (2017). Uso de modelos de redes neuronales recurrentes para la detección
temprana de la aparición de insuficiencia cardíaca. Revista de la Asociación Estadounidense de Informática Médica,
24(2), 361–370.
Machine Translated by Google

Identificación del modelo de red neuronal


Estudios para Predecir Tensiones
Residuales de una Placa de Acero
Basados en un Ruido de Barkhausen No Destructivo
Medición

Tero Vuolio, Olli Pesonen, Aki Sorsa y Suvi Santa-aho

Resumen En este trabajo se realiza un estudio comparativo sistemático entre vías


seleccionadas para la identificación de un modelo de red neuronal para la predicción de la
tensión residual del acero basado en la medición no destructiva del ruido de Barkhausen. Él
Los enfoques comparados son la selección directa determinista con y sin filtro y un enfoque
basado en algoritmos genéticos estocásticos. Todos los algoritmos hacen uso de la máquina
de aprendizaje extremo como base del modelo. El objetivo principal es proponer un
procedimiento sistemático para identificar un modelo de predicción para el sistema considerado.
Los resultados de este estudio muestran que el enfoque algorítmico podría considerarse
necesario no solo para reducir el esfuerzo de selección del modelo, sino también para
seleccionar modelos con un alto rendimiento de predicción. También se encontró que el
algoritmo genético propuesto anteriormente por los autores es aplicable para seleccionar un
modelo de buena generalización para el sistema, pero el rendimiento de las técnicas de
selección determinista también es comparable al algoritmo genético.

T.Vuolio (B)
Unidad de Investigación de Metalurgia de Procesos, Universidad de Oulu, PO Box 4300, 90014 Oulu, FI, Finlandia
Correo electrónico: tero.vuolio@oulu.fi

O. Pesonen
Ingeniería Química y Ambiental, Universidad de Oulu, PO Box 4300, 90014 Oulu, FI, Finlandia

A. Sorsa
Department of Process and Environmental Engineering, University of Oulu, PO Box 4300,
90014 Oulu, FI, Finlandia

S. Santa-aho
Ciencia de los Materiales e Ingeniería Ambiental, Universidad de Tampere, PO Box 589, 33014
Tampere, Finlandia

© Los autores, bajo licencia exclusiva de Springer Nature Suiza AG 2022 S. Datta y 29
JP Davim (eds.), Machine Learning in Industry, Management and Industrial Engineering,
https://doi.org/10.1007/978-3 -030-75847-9_2
Machine Translated by Google

30 T.Vuolio et al.

1. Introducción

La tensión residual es un factor importante a evaluar en una placa de acero fabricada, ya que la
tensión de tracción puede causar una falla inesperada bajo una tensión externa, mientras que la
tensión de compresión mejora la resistencia a la fatiga. La medición del ruido de Barkhausen es un
método interesante para la evaluación de la tensión residual porque la medición no es destructiva y
es rápida y, por lo tanto, se adapta a las aplicaciones en línea [17]. Esto, sin embargo, requiere
modelos que vinculen las características de la señal del ruido de Barkhausen con la propiedad del
material de interés. Sin embargo, la identificación de tal dependencia no es sencilla porque se ha
observado que el ruido de Barkhausen depende de varias propiedades del material y tensión residual
[4]. Los efectos de estos factores se acumulan en la señal medida, oscureciendo el efecto de un
solo factor de interés. Además, las dependencias son complejas y no lineales. El ruido de Barkhausen
también es un fenómeno estocástico y, por ello, solo son reproducibles las propiedades promediadas
de las señales medidas. Dependiendo del número de repeticiones de medición, la incertidumbre
puede ser significativa al aplicar la medición de ruido de Barkhausen [26].

Los modelos predictivos entre el ruido de Barkhausen y la tensión residual se pueden encontrar
en la literatura. Algunos ejemplos son los siguientes: Se identificó un modelo de regresión lineal
múltiple en Sorsa et al. [23] para tensión residual y dureza. Las características de los modelos se
seleccionaron con un algoritmo de selección directa. Un estudio similar se llevó a cabo en Sorsa et
al. [24]. Las características fueron seleccionadas con un algoritmo genético precedido por un
algoritmo de proyección sucesiva, disminuyendo la dimensionalidad de los datos. Se aplicó un
modelo PLSR en Sorsa et al. [25] para predecir la tensión residual a partir de las mediciones de BN.
La identificación del modelo PLSR fue precedida por la eliminación de características.
La eliminación de características conduce a mejores resultados, especialmente con datos de prueba.
Ganei et al. [7] encontraron que un polinomio de segundo orden describía la relación entre BN y las
propiedades del material. En Sorsa et al. [29], se ajustó un modelo de regresión no lineal a los datos
de las muestras nitruradas para predecir la tensión residual. La selección de características se llevó
a cabo con un algoritmo de eliminación hacia atrás. Wang et al. [28] aplicaron redes neuronales
artificiales para predecir el estrés residual. Seleccionaron las características de entrada manualmente.
Ganei et al. [8] utilizó un sistema neurodifuso adaptativo con características seleccionadas
manualmente para predecir las propiedades del material en función de las mediciones de BN.
Además, se deriva un modelo teórico entre BN y estrés residual [15]. El modelo describe la
frecuencia de BN y muestra cómo se ve afectada por la tensión residual. El modelo teórico necesita
una medida de la permeabilidad magnética.
Los conjuntos de datos obtenidos de la señal de ruido de Barkhausen son multivariantes, no
lineales, colineales y normalmente contienen un número limitado de observaciones. La no linealidad
surge de la complejidad del fenómeno y, por lo tanto, muchas características candidatas suelen
extraerse de la señal, lo que hace que los datos sean multivariantes. Estas características
establecen altos requisitos, especialmente para las etapas de identificación y validación del modelo.
También es bien sabido que el propio entorno de producción, las propiedades cambiantes del
material y la incertidumbre de la medición introducen variaciones en los datos, lo que complica un
poco la situación y debe tenerse en cuenta.
Machine Translated by Google

Estudios de identificación de modelos de redes neuronales para predecir el estrés residual... 31

2 Identificación del modelo

En este estudio, el esquema de modelado se divide en cinco pasos consecutivos, que son (1) extracción
de características, (2) selección de características, (3) selección de la estructura del modelo, (4)
entrenamiento del modelo final y (5) evaluación del rendimiento del modelo (Hastie et al. [12]. El
diagrama de flujo de selección del modelo se presenta en la Fig. 1. Las siguientes secciones y
subsecciones proporcionan los detalles de estos pasos. El resultado del modelo de predicción se puede
presentar de forma general como [12]:

E(y|X,ÿ) = f (X, ÿ), (1)

donde E(y | X) es el valor esperado para la variable de salida dado el conjunto de entrada X, f (X, ÿ) es
la forma funcional del modelo, ÿ es el vector de parámetros del modelo. La identificación del modelo de
predicción simplemente significa la selección de un modelo que predice los resultados del sistema con
la precisión adecuada. En el caso de problemas de regresión, el resultado a predecir se define en el
espacio continuo. Dado que los modelos de predicción se identifican de tal manera que se minimiza el
error de predicción, se puede considerar que el procedimiento de identificación en sí entra en la
categoría de aprendizaje supervisado. En el aprendizaje supervisado, el mejor modelo se elige en
función de la función objetivo derivada.
En problemas de regresión, los criterios habituales se basan en un error de predicción al cuadrado.
La función objetivo para la identificación del modelo puede considerarse multiobjetivo, ya que sigue
los principios de la Navaja de Occam, es decir, el mejor modelo es el que predice el comportamiento del
sistema con la menor complejidad. Este principio está fuertemente conectado con el conocido concepto
de compensación de sesgo-varianza.
Esta compensación se puede simplificar con la siguiente base de reglas intuitiva:

Fig. 1 El diagrama de flujo de selección del modelo


Machine Translated by Google

32 T.Vuolio et al.

(1) Los modelos que tienen un gran error de predicción y baja complejidad, tienen alta
sesgo, pero baja varianza.
(2) Los modelos que tienen un error de predicción pequeño, pero una complejidad alta, tienen un
sesgo pequeño, pero una varianza baja.

Sin embargo, el rendimiento de predicción de un modelo es más una cuestión de capacidad de


generalización que de minimizar el error del entrenamiento; para que un modelo sea generalizable,
tiene que funcionar bien en un conjunto de datos fuera de la muestra, que, en este estudio, se
denomina conjunto de validación externa. Para mejorar la capacidad de generalización, se han
propuesto numerosas alternativas para la selección de modelos y se analizan más, por ejemplo, en las
siguientes referencias [1, 16]; Schwenk [19, 22]. En este estudio, los métodos aplicados se basan en
la validación cruzada y la regularización del modelo.

2.1 Extracción de características

El ruido de Barkhausen en sí mismo es bastante inútil y, por lo tanto, para la predicción, generalmente
se calcula un conjunto de características que representan las características de la señal. Luego se
identifican los modelos de predicción entre estas características y la propiedad material de interés. Las
características tradicionales son el valor RMS (raíz cuadrática media) y la altura, anchura y posición
del llamado perfil de ruido de Barkhausen. Sin embargo, se pueden usar varias otras funciones, como
diferentes valores estadísticos, parámetros de ciclo de histéresis, factores, entropías, normas
generalizadas, etc. Además, las características generalmente se calculan a partir de la señal en el
dominio del tiempo, mientras que la extracción de características también se puede extender al dominio
de la frecuencia. Obviamente, en la etapa de extracción de características, el número de características
candidatas se dispara fácilmente y pueden surgir problemas de colinealidad. Debido a esto, la selección
de características debe llevarse a cabo [9, 10].

2.2 Selección de características

La selección de características a menudo se considera como el paso más exigente desde el punto de
vista computacional en la identificación del modelo [9]. La selección de características se lleva a cabo
principalmente para reducir la complejidad del modelo y, por lo tanto, mejora la generalización. Sin
embargo, se logra una mejor interpretabilidad de los modelos con la selección de características, los
métodos de selección de características se pueden categorizar de varias maneras, la división principal
generalmente se realiza entre la selección de características manual y automática. El primero de ellos
considera el uso del conocimiento experto en la selección, mientras que el segundo introduce el uso
de enfoques algorítmicos. En lo que respecta a los algoritmos de selección de características, estos se
pueden dividir en contenedores y filtros y en enfoques deterministas y estocásticos. Los enfoques de
filtro se basan en la clasificación de características sin modelo, y los contenedores estiman la utilidad
de las características en función de la función objetivo [9].
La principal diferencia entre los enfoques determinista y estocástico es que el
Machine Translated by Google

Estudios de identificación de modelos de redes neuronales para predecir el estrés residual... 33

los algoritmos deterministas terminan en la misma solución con las mismas condiciones iniciales,
mientras que los enfoques estocásticos no lo hacen.
En referencia a la compensación de sesgo-varianza, el paso de selección de características es
crucial. Para encontrar esta compensación, este estudio utiliza la suma del error cuadrático estimado con
el método de submuestreo aleatorio repetido en el ciclo de validación interno como función objetivo. En
el método de submuestreo aleatorio repetido, los datos se dividen repetidamente en conjuntos de
entrenamiento y validación interna sin reemplazo, y el error de modelado se evalúa en función de la
función de error especificada para cada una de las repeticiones divididas. La estimación del error del
modelo se toma como el promedio de estas repeticiones de validación cruzada. En otras palabras, la
función objetivo es la siguiente:

norte

1 minJ = min (2)


e(ycv,j, yˆcv,j),
Nj
=1

donde J es la función objetivo, N son las repeticiones de validación cruzada, e es la función de error
especificada, ycv es la tensión residual observada para el conjunto de validación interna e yˆcv. es el
resultado previsto para el conjunto de validación interna. En este estudio, la función de error utilizada es
la suma del error cuadrático promediado sobre N repeticiones divididas. Si no se utiliza la validación
cruzada, el error se calcula basándose únicamente en el conjunto de entrenamiento.

2.2.1 Selección manual

Si las variables de entrada para el modelo se seleccionan haciendo uso del conocimiento del dominio, a
menudo se lo denomina selección manual en la literatura. Burnham y Anderson [2] sugieren que la
selección manual debe preferirse como estrategia de selección, ya que el conocimiento del dominio
contiene información valiosa del sistema que los datos no revelan fácilmente [2]. En este estudio, el
trabajo de Santa-aho et al. [21] y Sorsa et al. [24] se utilizó para extraer el conocimiento del dominio. En
este estudio se utiliza la selección manual para seleccionar el modelo final en base a las estadísticas de
las pruebas repetidas realizadas con los algoritmos de búsqueda.

2.2.2 Selección avanzada codiciosa (FS)

El algoritmo de selección directa voraz es una técnica de selección de características, que parte de un
vector de características lleno de ceros, es decir, de un modelo vacío. Durante la búsqueda, las
características se agregan al modelo de manera codiciosa, lo que significa que para cada iteración, el
modelo actualizado que produce el mejor resultado se selecciona como estado inicial para la próxima
iteración. Este procedimiento continúa hasta que se cumple un criterio de parada especificado. En este
estudio, el criterio de parada se define como la mejora explícita del rendimiento del modelo. El principal
problema de la selección delantera, así como
Machine Translated by Google

34 T.Vuolio et al.

Tabla 1 El algoritmo de selección directa utilizado en este estudio

Notas M = Número total de funciones en el conjunto, k = Número de funciones en el modelo actual

los otros enfoques deterministas, es que tiende a quedarse en un óptimo local. Esto podría
significar, por ejemplo, que el modelo que se selecciona con el algoritmo no contiene todas
las características relevantes o, por el contrario, contiene una cantidad significativa de
características redundantes. Además, el número de neuronas ocultas podría ser demasiado
bajo o demasiado alto para estimar la relación entre las entradas y las salidas, lo que podría
resultar en un ajuste insuficiente o excesivo. El pseudocódigo para el algoritmo de selección
se da en la Tabla 1. El enfoque propuesto también se puede encontrar en la literatura como
el algoritmo de escalada de colinas. [14]

2.2.3 Selección hacia adelante con clasificación

En este enfoque, antes de la selección, las características se clasifican según el valor


absoluto de su coeficiente de correlación en orden descendente. Después de la clasificación,
todas las características se agregan o descartan secuencialmente del modelo, dependiendo
de si la adición de la característica candidata mejora el valor de la función objetivo. El objetivo
principal de este enfoque es reducir la complejidad computacional de la selección directa
tradicional. Sin embargo, el enfoque adolece de las mismas limitaciones que el algoritmo
presentado anteriormente.

2.2.4 Algoritmo genético

En este estudio se utilizan algoritmos genéticos como alternativa estocástica a los motores
deterministas. El algoritmo genético ha demostrado su eficacia para resolver tanto
Machine Translated by Google

Estudios de identificación de modelos de redes neuronales para predecir el estrés residual... 35

Problemas de optimización restringidos y no restringidos. El espacio de solución del algoritmo


genético se compone de n vectores cromosómicos, cada uno de los cuales representa una
solución al problema. El algoritmo genético se basa en los principios de la selección natural de
Darwin, ya que utiliza operaciones genéticas simplificadas como selección, cruce y mutación
para mejorar los vectores de solución. El número de genes en el vector cromosómico
corresponde al número total de características del conjunto. En una selección de características
basada en un algoritmo genético, cada cromosoma corresponde a un modelo candidato (o un
modelo de prueba), codificado como un vector binario. En esta representación, los valores de
los genes se definen como x = {0,1}, lo que significa que si el valor de un gen en el vector de
características es 1, la característica correspondiente se incluye en el modelo. Ha sido
demostrado por Deniz y Kiziloz [5] que la inicialización de la población del algoritmo genético
afecta el desempeño de la selección, y una inicialización puramente aleatoria a menudo
funciona mal en el caso de conjuntos de datos con una gran cantidad de características. Por lo
tanto, en este estudio, la población se inicializa de manera que el 50% de la población se
inicializa puramente al azar, y en el último 50%, el número de unos es 10 como máximo. De
esta forma, la búsqueda puede orientarse hacia la selección de modelos más parsimoniosos.
Existen numerosas formas de implementar el algoritmo genético, de las cuales este estudio utiliza los siguiente

(1) Selección de rueda de ruleta,


(2) Cruzamiento con dos puntos de corte, (3)
Mutación de punto y una mutación de segmento,
(4) Elitismo para un solo individuo.

El tamaño de la población, así como la tasa de cruce y mutación, es un hiperparámetro muy


importante para la convergencia del algoritmo. En este estudio, la probabilidad de mutación
evoluciona de forma determinista dentro de las generaciones, y la probabilidad de cruce se
establece como constante pC = 0,9. Los otros hiperparámetros, es decir, el número de
individuos y las propiedades de la función objetivo se discuten con más detalle en la sección
de Resultados y Discusión. Se puede encontrar una descripción más detallada del algoritmo y
la evaluación de su desempeño en problemas de identificación de modelos de redes neuronales
[27].

2.3 Selección de la estructura de la red neuronal

Extreme Learning Machine (ELM) se utiliza como base del modelo en la fase de selección de
funciones. Esto se debe a que la complejidad computacional del entrenamiento ELM es muy
pequeña en comparación con los algoritmos de retropropagación [13]. En los enfoques
deterministas, el número de neuronas ocultas se seleccionó con la búsqueda en cuadrícula,
que es prácticamente la única forma de implementar la selección de neuronas ocultas dentro
de la búsqueda determinista, ya que el algoritmo requiere la estructura del modelo que se
quiere evaluar. Este problema aumenta drásticamente la complejidad temporal de los
algoritmos, ya que la búsqueda en cuadrícula exige un ciclo adicional a la implementación. En
el caso del algoritmo genético, existen algunas alternativas para la selección de neuronas
ocultas, entre ellas, la búsqueda en grillas, ordenando los modelos con diferente número de neuronas ocultas a
Machine Translated by Google

36 T.Vuolio et al.

selección [3] o simplemente realizando la búsqueda con número constante de neuronas ocultas [5].
También es posible incluir y codificar el número de neuronas ocultas en los individuos. Para reducir la
carga computacional, el número de neuronas ocultas se expresó como un valor entero único. Por esto,
cada individuo es esencialmente una red completamente conectada con un cierto número de neuronas
ocultas. Por lo tanto, la codificación del algoritmo genético es una hibridación de codificación binaria y
entera, donde la parte binaria codifica el vector de características y la parte entera codifica la estructura
de la red [27]. La codificación basada en números enteros utiliza el cruce binario simulado [20] y la
mutación Mäkinen-Periaux-Toivonen [18].

2.4 Entrenamiento del modelo final

El entrenamiento del modelo final se lleva a cabo con el algoritmo de regularización bayesiano, que ha
demostrado su eficacia para mejorar la generalización de los modelos de redes neuronales para
conjuntos de datos pequeños. En la regularización, la varianza de los parámetros del modelo se minimiza
simultáneamente con el error de predicción, lo que da como resultado modelos más estables, que por lo
tanto se generalizan mejor a conjuntos de datos fuera de la muestra. La descripción detallada del
algoritmo se proporciona en Foresee y Hagan [6].

2.5 Evaluación del rendimiento del modelo

El desempeño del modelo se evaluó haciendo uso del coeficiente de determinación (R2) y el error
absoluto medio (MAE). Los detalles para calcular las métricas se pueden encontrar, por ejemplo, en
Harrell [11]. La tendencia al sobreajuste se evaluó simplemente calculando las métricas correspondientes
para el conjunto de entrenamiento y prueba.

3 Conjunto de datos considerado

Las mediciones de ruido de Barkhausen se llevaron a cabo para un conjunto de muestras que se
mecanizaron a partir de acero laminado en frío de baja aleación RAEX400. Las muestras se endurecieron
por cementación y luego se templaron con diferentes temperaturas y duraciones de templado para
obtener diferentes condiciones de dureza superficial. Luego, las muestras se sometieron a una carga de
flexión para lograr diferentes estados de tensión en las superficies de la muestra.
En total, se registraron 98 puntos de datos de las muestras, incluido el ruido de Barkhausen y las
mediciones de tensión residual. Se puede encontrar una descripción más completa de las muestras, su
preparación y mediciones en Santa-aho et al. [21].
Después de la extracción de características de la señal de ruido de Barkhausen, el conjunto de datos
general contiene 48 características candidatas, lo que hace que la cantidad de modelos candidatos sea
extremadamente alta en comparación con la cantidad de puntos de datos. Para complicar la búsqueda,
Machine Translated by Google

Estudios de identificación de modelos de redes neuronales para predecir el estrés residual... 37

el número de características candidatas se duplicó de modo que las filas de la réplica exacta
del conjunto de características se aleatorizaron y adjuntaron dentro del conjunto original, lo que
hace que la cantidad total de características sea 96. En consecuencia, dado que la complejidad
de la búsqueda exhaustiva es nHN,max · N·(2nÿ1) con la función objetivo propuesta, lo que
significa que para un óptimo global explícito, 7.92·1028· nHN,max modelos tendrían que ser
evaluados, cada uno para N repeticiones de subconjuntos de datos en el bucle de validación
interna, teniendo en cuenta que hay nHN,max neuronas ocultas en la cuadrícula de búsqueda,
en función de las cuales se selecciona la estructura de la red neuronal. Es obvio que este
elevado número de modelos no es posible evaluarlo en un tiempo factible. En general, el
número excesivo de modelos disponibles resalta la necesidad de algoritmos de selección de
características en el caso de conjuntos de datos industriales.

4. Resultados y discusión

Para estudiar comparativamente el rendimiento de los algoritmos de identificación de modelos,


se llevó a cabo un experimento. Los algoritmos determinísticos se probaron con diferentes
parámetros de función objetivo, es decir, números de divisiones de bucle de validación interna
(N = [0 1 10 20 50]), fracción de datos en la validación interna (l = [0 0,2 0,35 0,5]) y número
máximo de neuronas ocultas en la cuadrícula de búsqueda (NumHN,max = [1 5 12 20]).
Esto da como resultado 49 niveles de diseño experimental para los algoritmos deterministas.
Debido a la complejidad computacional y la gran cantidad de otros hiperparámetros, las
variables de diseño para el algoritmo genético se redujeron a dos (l = [0.35 0.5] y N = [1 20 50]).
El número de neuronas ocultas se fijó en NumHN,max = 20, es decir, la población inicial
contenía individuos con 1–20 neuronas. El número de individuos en la población fue npop =
200. El número máximo de generaciones se fijó en genmax = 100. Esto se debe principalmente
a que se encontró en el estudio anterior de los presentes autores [27] que el uso de la validación
cruzada como la función objetivo mejora drásticamente el rendimiento del algoritmo, y para un
gran número de características candidatas, es beneficioso utilizar una población suficientemente
grande.
Antes de los experimentos, el conjunto de validación externa se extrajo de los datos. La
división se hizo con estratificación. Para cubrir todo el rango de medición del conjunto de
prueba, se seleccionó clasificando los datos en orden descendente con respecto a la tensión
residual medida, después de lo cual se seleccionó cada séptima muestra para la validación
externa. Cada uno de los algoritmos se ejecutó 10 veces con diferentes parámetros, y los
detalles de los modelos y las métricas de rendimiento se registraron sistemáticamente. Para
evaluar el rendimiento de selección de modelo de los algoritmos, se propuso una escala de
rendimiento discretizada simple. La escala de rendimiento se determinó evaluando la usabilidad
del modelo en aplicaciones prácticas. Cabe señalar que la escala se utilizó únicamente para los
modelos finales, es decir, para modelos entrenados con Regularización Bayesiana. La escala
de desempeño se presenta en la Tabla 2.
Machine Translated by Google

38 T.Vuolio et al.

Tabla 2 Criterios de
Prueba MAE [MPa] Categoría de rendimiento del modelo
evaluación discretizada del
<50 Excelente
desempeño del modelo
[50, 80] Decente

>80 Malo

4.1 Las funciones seleccionadas

La selección avanzada codiciosa seleccionó modelos más parsimoniosos en promedio (3,6


características), mientras que la selección avanzada con clasificación seleccionó 4,1 características
en promedio en 49 experimentos, con 10 repeticiones para cada uno. En la Fig. 2, se presentan los
histogramas del número seleccionado de características. Como se ve en la figura, el modo de
búsqueda voraz tiene dos características, mientras que, para la selección directa con filtro, el modo
tiene cuatro características seleccionadas. Entre todos los modelos excelentes, las características
más comunes que se presentaron en los resultados de búsqueda deterministas fueron la relación
señal/ruido (86 %), la densidad del espectro de potencia (53 %), la entropía de la señal (36 %), la
desviación estándar de la señal (27 %). %) y raíz cuadrada media de la señal (18%).
Ninguno de los algoritmos seleccionó consistentemente las características aleatorias, aunque la
selección directa con filtro las seleccionó ocasionalmente. La Figura 3 presenta las características
seleccionadas para los algoritmos deterministas para todas las repeticiones de la prueba, a partir de
las cuales se puede ver que las características aleatorias (características 48–94) se seleccionan muy
raramente.
En promedio, el algoritmo genético seleccionó 6,6 características en 60 repeticiones (seis
experimentos con 10 repeticiones cada uno). En casos raros (cinco casos, es decir, 8%), el algoritmo
genético divergió a un subconjunto relativamente grande (~ 30–50 características). El histograma del
número seleccionado de características con el algoritmo genético se presenta en la Fig. 4. En el caso
del algoritmo genético, las cinco características principales fueron la relación señal-ruido.

Fig. 2 Histogramas para el número de características seleccionadas adquiridas con los algoritmos deterministas
Machine Translated by Google

Estudios de identificación de modelos de redes neuronales para predecir el estrés residual... 39

Fig. 3 Ocurrencia de las características para todos los experimentos para los algoritmos deterministas. Hit-rate (%) es el
porcentaje de ocurrencias con respecto a todas las repeticiones de la prueba

Fig. 4 Histogramas para el número de características seleccionadas adquiridas con el algoritmo genético. El histograma
se cuenta sin los casos divergentes
Machine Translated by Google

40 T.Vuolio et al.

(92,9 %), área del espectro (35,7 %), raíz cuadrada media de la señal (35,7 %), área del bucle de
histéresis (28,6 %), desviación estándar de la señal (28,6 %). Sin embargo, el 60% de estos
ocurrieron cuando el número de repeticiones divididas se estableció en N = 1. Por lo tanto, el riesgo
de divergencia podría reducirse con el aumento de las repeticiones de validación cruzada, para
evitar que un subconjunto mal generalizado sea altamente clasificado solo por casualidad. Además,
el riesgo de divergencia en grandes conjuntos de características puede reducirse inicializando la
población para que contenga un pequeño número de unos y dejando que el algoritmo converja en
una única solución, evitando así una convergencia prematura. Sin embargo, esto aumenta
significativamente el tiempo de cálculo del algoritmo para los casos en que la población inicial está
muy lejos del óptimo. Además, se encontró que la consistencia de la búsqueda podría mejorarse
con la validación cruzada que, sin embargo, aumenta la carga computacional del algoritmo. Las
características seleccionadas están solo parcialmente de acuerdo con los estudios anteriores, Sorsa
et al. [23]. Sin embargo, Sorsa et al. [23] utilizó la regresión lineal múltiple como base del modelo,
que no es fácil de comparar con las redes neuronales debido a las diferentes estructuras del modelo.

En total, el 50% de los modelos identificados en todos los experimentos con los algoritmos
deterministas fueron al menos decentes (MAEtest < 80 MPa), mientras que de los modelos
encontrados con el algoritmo genético, el 70% se consideraron al menos decentes. Sin embargo,
cabe señalar que el diseño experimental no fue similar para los algoritmos estocástico y determinista.
Para los mismos parámetros computacionales, es decir, número de repeticiones de validación
cruzada y fracción de datos para validación interna, el 68 % de los modelos identificados con
selección directa con clasificación fueron al menos decentes, mientras que, para la selección directa
voraz, el porcentaje correspondiente fue del 61 %. .
Un análisis más detallado de los experimentos realizados con algoritmos deterministas muestra
que ambos algoritmos seleccionan modelos excelentes para el 12% de todos los casos. Para una
selección directa con clasificación, si se utilizó una validación cruzada o no validada como función
objetivo, el 9,9% de los modelos fueron excelentes. Si en su lugar se utilizó una validación cruzada
repetida, el 13,4% de los modelos fueron excelentes. Del mismo modo, para la selección directa
codiciosa, el 9,9 % (validación cruzada o sin validación cruzada) y el 14,4 % (submuestreo aleatorio
repetido) de los modelos fueron excelentes.
Además, se construyó un modelo de regresión logística para analizar el efecto de los
hiperparámetros computacionales sobre el riesgo de seleccionar un modelo excelente. Se encontró
que para ambos algoritmos solo el número de neuronas ocultas tuvo un efecto estadísticamente
significativo en la clase de desempeño del modelo, cuando se usó un nivel de riesgo de ÿ = 0.05 en
la prueba de hipótesis. De hecho, si se filtran los resultados de búsqueda con el máximo número de
neuronas ocultas por debajo de 20, el porcentaje de modelos excelentes ronda el 19% para la
selección directa con ranking y el 17% para la selección directa voraz.
Esto indica que el riesgo de inadecuación puede reducirse ampliando la cuadrícula de búsqueda
con respecto a un número de neuronas ocultas. Junto con la cantidad de neuronas ocultas, el
método de entrenamiento tuvo un impacto significativo en el rendimiento del modelo; si los pesos de
la capa oculta no se entrenaron (el modelo es la máquina de aprendizaje extremo), solo entre el
0,7% y el 3,5% de los modelos fueron excelentes. Sin embargo, los parámetros computacionales
tuvieron un efecto sobre la convergencia del algoritmo genético; De manera similar, como en nuestro
trabajo anterior [27], el uso de validación cruzada disminuyó la desviación estándar de las
características seleccionadas. En la Fig. 5, el efecto del número de repeticiones de validación cruzada
Machine Translated by Google

Estudios de identificación de modelos de redes neuronales para predecir el estrés residual... 41

Fig. 5 Número seleccionado de neuronas ocultas en el modelo final en función de las repeticiones de validación cruzada
en el ciclo de validación interno. Los resultados se obtienen con Forward Selection con ranking

Las funciones del número de neuronas seleccionadas en los mejores modelos se ilustran en el
caso de la selección directa con clasificación. La fracción de datos retenidos en la estimación del
error de validación interna se establece en l = 0,5 y el número máximo de neuronas ocultas es
NumHN,max = 20. Se ve en la figura que el número de neuronas ocultas, así como el estándar
la desviación entre las repeticiones disminuye con el número de repeticiones de validación
cruzada. Este resultado indica parcialmente que el mayor número de repeticiones de validación
cruzada aumenta la repetibilidad de la búsqueda, siempre que la fracción de los datos retenidos
en la división se elija con cuidado.
La ilustración de la compensación sesgo-varianza se presenta en la Fig. 6. A partir de la
figura, se ve claramente que a medida que aumenta la complejidad del modelo con respecto al
ancho de la red, el error para el conjunto de validación interna no sigue el error obtenido. para el
conjunto de entrenamiento y comienza a aumentar si hay más de 10 neuronas en el modelo.
Este comportamiento es una prueba explícita de sobreajuste de la red. Este asunto destaca la
necesidad de una validación cruzada interna durante la fase de selección de características, ya
que el error de entrenamiento es claramente una estimación muy optimista del rendimiento
hipotético del error del modelo para el conjunto de validación externa, aunque el riesgo asociado
a la selección de modelos excelentes era no encontrado dependiente de los parámetros computacionales.
Machine Translated by Google

42 T.Vuolio et al.

Fig. 6 Los valores de la función objetivo para los conjuntos de entrenamiento y validación interna para la
población final del algoritmo genético. Las estimaciones de error se calculan para Extreme Learning Machine

4.2 Selección final del modelo y evaluación del


rendimiento del modelo

El modelo final se eligió de tal manera que las características que aparecían con mayor frecuencia
entre el conjunto de modelos excelentes se eligieron para el modelo final. En consecuencia, el
estudio del modelo final constaba de un conjunto de cinco características (área de bucle de
histéresis, área de espectro, desviación estándar de la señal, relación señal/ruido y raíz cuadrada
media) y 11 neuronas ocultas. Las cifras de mérito correspondientes fueron R2 = 0,97 y MAE =
36,8 MPa para los datos de prueba. En la Fig. 7, se presentan las tensiones residuales previstas
para la placa de acero. Como se ve a partir de la distribución de las predicciones para el conjunto
de validación externa, la generalización del modelo puede considerarse muy buena. En otras
palabras, los resultados de predicción para la validación externa y el conjunto de entrenamiento
fueron consistentes y, por lo tanto, se espera que el modelo se comporte de manera consistente
también para datos hipotéticos no vistos previamente. Sin embargo, la selección del modelo, así
como el modelo de calibración final, obviamente se beneficiarían de más datos. Aún así, los
resultados de este estudio parecen convincentes.
Machine Translated by Google

Estudios de identificación de modelos de redes neuronales para predecir el estrés residual... 43

Fig. 7 Tensión residual medida y predicha de una placa de acero. El modelo ejemplificado se identifica con base en los
resultados del Algoritmo Genético

5 Observaciones finales y recomendaciones

En este estudio, se aplicaron tres algoritmos de selección de modelos implementados para adaptarse a la
selección de modelos de redes neuronales para predecir una tensión residual de una placa de acero
basada en una medición de ruido de Barkhausen no destructiva. Los resultados de este estudio muestran
que los algoritmos de identificación de modelos pueden ayudar al modelador en la tarea de selección de
modelos, al resolver problemas de regresión relevantes para la industria, incluso para conjuntos de datos pequeños.
Independientemente del algoritmo en uso, se necesita un ajuste sistemático de los parámetros
computacionales para obtener resultados razonables. Se muestra que todos los algoritmos pueden
seleccionar un conjunto relativamente bueno de características para predecir una tensión residual de una
placa de acero, pero si el criterio de excelencia se establece en MAE < 50 MPa, es bastante raro que se
encuentren modelos excelentes. Sin embargo, si el criterio para un modelo aplicable se establece en
decente (con una discretización similar a la de este estudio), alrededor del 60-72 % de los modelos
identificados, independientemente del algoritmo, son aplicables en las condiciones de este estudio. Cabe
señalar que el criterio de discretización adecuado depende en gran medida de la aplicación final, así como
de los datos experimentales. También se notó que el uso de la validación cruzada como función objetivo
en la selección del modelo es beneficioso independientemente de la complejidad computacional, ya que es
obvio que el error de entrenamiento es una estimación optimista del rendimiento de la predicción del
modelo. Sin embargo, los parámetros de validación cruzada, es decir, el número de repeticiones divididas
y la fracción de datos retenidos en la división deben elegirse con cuidado. Se observó que al aumentar el
número de divisiones, se podría mejorar la consistencia de la selección para el determinista
Machine Translated by Google

44 T.Vuolio et al.

algoritmos De lo contrario, existe el riesgo de selección coincidente. Por lo tanto, el


rendimiento de los algoritmos de selección de modelos puede considerarse al menos
razonable, pero no debe subestimarse la importancia del conocimiento del dominio. En
trabajos futuros, es obvio que el rendimiento de los modelos se beneficiaría de más datos.

Referencias

1. Akaike, H. (1974). Una nueva mirada a la identificación del modelo estadístico. Transacciones IEEE en
Control automático, 19(6), 716–723.
2. Burnham, DR y Anderson, KP (2002). Selección de modelos e inferencia multimodelo: A
enfoque teórico-práctico de la información. Nueva York: Springer.
3. Chyzhyk, D., Savio, A. y Grana, M. (2014). Selección evolutiva de funciones de envoltura ELM para CAD de la
enfermedad de Alzheimer en resonancia magnética cerebral anatómica. Neurocomputación, 2014, 73–80.
4. Davut, K. y Gür, G. (2007). Monitoreo de los cambios microestructurales durante el revenido del acero SAE 5140
templado por ruido magnético de Barkhausen. Revista de evaluación no destructiva, 26, 107–113.

5. Deniz, A. y Kiziloz, H. (2019). En la generación de población inicial en la selección de subconjuntos de características.


Sistemas expertos con aplicaciones, 137, 11–21.
6. Prever, F. y Hagan, M. (1997). Aproximación de Gauss-Newton al aprendizaje bayesiano.
Actas de la Conferencia Internacional Conjunta sobre Redes Neuronales, págs. 1930–1935.
7. Ghanei, S., Saheb Alam, A., Kashefi, M. y Mazinani, M. (2014). Caracterización no destructiva de la microestructura y
propiedades mecánicas del acero de doble fase recocido intercríticamente mediante la técnica de ruido magnético de
Barkhausen. Ciencia e ingeniería de materiales A, 607, 253–260.
8. Ghanei, S., Vafaeenezhad, H., Kashefi, M., Eivani, AR y Mazinani, M. (2015). Diseño de un sistema experto basado en
analizador de inferencia neuro-fuzzy para la caracterización microestructural en línea mediante END magnético.
Revista de magnetismo y materiales magnéticos, 379, 131–136.

9. Guyon, I. y Elisseeff, A. (2003). Una introducción a la selección de características y variables. Revista de investigación
de aprendizaje automático, 3, 1157–1182.
10. Guyon, I. y Elisseeff, A. (2006). Una introducción a la extracción de características. En Extracción de características
(págs. 1–25). Springer, Berlín, Heidelberg.
11. Harrell, FE (2015). Estrategias de modelado de regresión: con aplicaciones a modelos lineales,
regresión logística y ordinal, y análisis de supervivencia. Saltador.
12. Hastie, T., Tibshirani, R. y Friedman, J. (2017). Los elementos del aprendizaje estadístico: datos
Minería, inferencia y predicción (2017), Serie Springer en estadística.
13. Huang, GB, Zhu, QY y Siew, CK (2006). Máquina de aprendizaje extremo: Teoría y
aplicaciones Neurocomputación, 70(1–3), 489–501.
14. Kohavi, R. y John, GH (1997). Contenedores para la selección de subconjuntos de características. Inteligencia artificial,
97(1–2), 273–324.
15. Kypris, O., Nlebedin, IC y Jiles, DC (2014). Un modelo para el espectro de frecuencia de Barkhausen en función de la
tensión aplicada. Diario de Física Aplicada, 115, 083906.
16. Malvas, CL (2000). Algunos comentarios sobre Cp. Tecnometría, 42(1), 87–94.
17. Moorthy, V., Shaw, B., Mountford, P. y Hopkins, P. (2005). Técnica de emisión magnética de Barkhausen para la
evaluación de la alteración de tensiones residuales por rectificado en acero En36 cementado.
Acta Materialia, 53, 4997–5006.
18. Mäkinen, R., Periaux, J. y Toivanen, J. (1999). Optimización de forma multidisciplinar en aerodinámica y
electromagnético mediante algoritmos genéticos. Revista internacional de métodos numéricos en fluidos, 30, 149–159.

19. Nowak, RD (1997). Estimación óptima de señales mediante validación cruzada . Cartas de procesamiento de señales
IEEE, 4(1), 23–25.
Machine Translated by Google

Estudios de identificación de modelos de redes neuronales para predecir el estrés residual... 45

20. Ripon, KSN, Kwong, S. y Man, KF (2007). Un algoritmo genético de gen saltador de codificación real
(RJGGA) para optimización multiobjetivo. Ciencias de la Información, 177, 632–654.
21. Santa-Aho, S., Vippola, M., Saarinen, T., Isakov, M., Sorsa, A., Lindgren, M., et al. (2012).
Caracterización del ruido de Barkhausen durante la flexión elástica y la carga de tracción-compresión de
muestras cementadas y revenidas, 47, 6420–6428.
22. Schwenk, H. y Bengio, Y. (2000). Potenciación de redes neuronales. Computación neuronal, 12(8),
1869–1887.
23. Sorsa, A., Leiviskä, K., Santa-aho, S. y Lepistö, T. (2012). Predicción cuantitativa de tensión residual y
dureza en acero de cementación basada en la medición del ruido de Barkhausen. END y E International,
46, 100–106.
24. Sorsa, A., Leiviskä, K., Santa-aho, S., Vippola, M. y Lepistö, T. (2013). Un procedimiento eficiente para
identificar el modelo de predicción entre la tensión residual y el ruido de Barkhausen. Revista de evaluación
no destructiva, 32(4), 341–349.
25. Sorsa, A., Isokangas, A., Santa-aho, S., Vippola, M., Lepistö, T. y Leiviskä, K. (2014). Predicción de
tensiones residuales usando regresión de mínimos cuadrados parciales en señales de ruido de Barkhausen.
Revista de evaluación no destructiva, 33(1), 43–50.
26. Tomkowski, R., Sorsa, A., Santa-Aho, S., Lundin, P. y Vippola, M. (2019). Evaluación estadística de la
prueba de ruido de Barkhausen (BNT) para muestras molidas, Sensores 19, número de artículo 4717.

27. Vuolio, T., Visuri, V.-V., Sorsa, A., Ollila, S. y Fabritius, T. (2020). Aplicación de un algoritmo de selección
de modelos basado en un algoritmo genético para la identificación de desulfuración de metales calientes
basada en carburos. Applied Soft Computing Journal, 92, número de artículo 106330.
28. Wang, P., Zhu, L., Zhu, Q., Ji, X., Wanga, H., Tian, G., et al. (2013). Una aplicación de la red neuronal de
retropropagación para la detección de tensiones en el acero basada en la teoría del ruido de Barkhausen.
NDT y E International, 55, 9–14.
29. Sorsa, A., Santa-aho, S., Aylott, C., Shaw, BA, Vippola, M. y Leiviskä, K. (2019). Predicción de profundidad
de caja de muestras nitruradas con medición de ruido de Barkhausen. Metales, 9(3), 325.
Machine Translated by Google

Optimización basada en datos de Blast


Proceso de fabricación de hierro en horno usando
Aprendizaje profundo evolutivo

Bashista Kumar Mahanta, Rajesh Jha y Nirupam Chakraborti

Resumen Las técnicas de optimización se aplican ampliamente en el proceso de fabricación de


hierro y acero para resolver problemas complicados relacionados con el proceso. Estos métodos y
los modelos creados a través de ellos se utilizan habitualmente en este campo para conocer las
condiciones operativas óptimas en términos de coste, calidad, cantidad y eficacia del proceso. Los
diversos parámetros del alto horno, como la distribución de la carga, el enriquecimiento de oxígeno,
la mejora de la productividad, la composición del gas superior, la calidad de la producción de metal
caliente, etc., son muy difíciles de optimizar de forma eficaz. En los últimos tiempos se han aplicado
con bastante éxito modelos basados en datos de diversa naturaleza para este propósito, donde los
enfoques evolutivos han tenido un impacto significativo en la optimización simultánea de múltiples
objetivos en problemas relacionados con la industria siderúrgica. En este capítulo se discute la
implementación de varias estrategias evolutivas, que se aplican recientemente en este dominio
para abordar algunos problemas del mundo real.

1. Antecedentes

La demanda mundial de acero aumenta día a día. Para satisfacer la demanda, la ruta de fabricación
de hierro de alto horno se utiliza en todas partes del mundo. Esta ruta se utiliza para producir
alrededor del 94% del hierro total consumido por la industria siderúrgica. Se han realizado un gran
número de innovaciones tecnológicas y cambios de diseño para la operación del alto horno para
mejorar la calidad, la tasa de producción y la reducción del costo del proceso. Para cumplir con la
aspiración global, la optimización actúa como una herramienta importante en la operación del alto horno.
Esto ayuda a producir acero de buena calidad a través de una estrategia operativa mejorada [1,
2]. Cuando se inicia el proceso o se prevén cambios en el mismo, la optimización

BK Mahanta · N. Chakraborti (B)


Departamento de Ingeniería Metalúrgica y de Materiales, Instituto Indio de Tecnología,
Kharagpur, India
R. Jha
Departamento de Ingeniería Mecánica y de Materiales, Universidad Internacional de Florida, Miami,
Florida, EE. UU.

© Los autores, bajo licencia exclusiva de Springer Nature Suiza AG 2022 S. Datta y 47
JP Davim (eds.), Machine Learning in Industry, Management and Industrial Engineering,
https://doi.org/10.1007/978-3 -030-75847-9_3
Machine Translated by Google

48 BK Mahanta et al.

y los métodos de minería de datos se pueden aplicar al sistema para determinar los
parámetros optimizados para una operación suave del alto horno [3]. La enorme estructura
del alto horno, a pesar de décadas de análisis y estudios, a menudo se comportó como una
caja negra, donde varios procesos complicados que se establecen durante la operación
desafiaron una explicación adecuada. Hasta 1950 se sabía muy poco sobre la estructura
interna del horno en funcionamiento. Una imagen completa y realista surgió cuando los
investigadores japoneses congelaron un alto horno en funcionamiento haciendo fluir
nitrógeno líquido a través de las toberas y posteriormente diseccionaron la estructura total.
Examinaron a fondo los comportamientos físicos y químicos dentro del horno e informaron
sus hallazgos al mundo [4]. En una etapa temprana, se desarrollaron modelos matemáticos
y analíticos para explicar los fenómenos de los altos hornos. Los modelos matemáticos de
dimensión cero se desarrollaron inicialmente utilizando el proceso como una entidad
principal [5]. Estos fueron seguidos por modelos que dividieron el horno en varias divisiones
a las que se atribuyeron diferentes reacciones químicas y fenómenos de transporte. Las
relaciones termodinámicas se determinaron utilizando condiciones térmicas y químicas [6].
Con el fin de comprender la variación de la temperatura y la composición química del gas
sólido a lo largo del eje vertical del horno, inicialmente se iniciaron modelos unidimensionales
[7]. A continuación, estos modelos se ampliaron dividiendo el horno en un número finito de
particiones. Las velocidades de las reacciones químicas se combinaron con las ecuaciones
de transferencia de calor y masa y las expresiones resultantes se utilizaron para calcular la
composición y la temperatura en varias secciones. Este concepto se amplió posteriormente
a modelos bidimensionales y tridimensionales utilizando dinámica de fluidos computacional
y estrategias relacionadas [8–13]. Estos modelos enfrentaron dificultades durante la
interpretación de los resultados y los valores evaluados a menudo no están cerca del valor
de la interfaz, ya que el fenómeno de transporte real y la química del proceso son muy
complicados dentro del horno. Sin considerar directamente la física del proceso y sin
involucrar directamente las ecuaciones termodinámicas y de transporte, las nuevas técnicas
de modelado basadas en datos han evolucionado en los últimos años. A través de tales
enfoques, los investigadores pueden utilizar la gama de información que los altos hornos
modernos capturan de forma rutinaria durante sus operaciones continuas y, en su mayoría,
estas estrategias son lo suficientemente inteligentes y eficientes para lograr los objetivos
necesarios a través de la informática compleja. En la etapa inicial del modelado basado en
datos, las técnicas informáticas, incluidas las redes neuronales artificiales y el modelado de
lógica difusa, generalmente se aplicaban a la descripción de los procesos del alto horno.
Estos modelos demostraron ser una forma conveniente de calcular las soluciones de
descenso para varios problemas de alto horno y proporcionaron alternativas descriptivas
para cumplir con los requisitos deseados y, lo que es más importante, podrían abordar los problemas no lin
Un modelo preciso basado en conceptos completos siempre es crucial para comprender
los procesos y operaciones existentes en un alto horno y estas técnicas de modelado
contribuyeron significativamente a ello. En los últimos tiempos, el hardware computacional
se volvió tremendamente avanzado, lo que convirtió a la computación de alto rendimiento
en una herramienta poderosa en este dominio. Además, la llegada de técnicas de
vanguardia, como los algoritmos evolutivos, estableció una nueva plataforma para resolver
problemas industriales complejos, incluidos los relacionados con los altos hornos. Por su sencillez y versati
Machine Translated by Google

Optimización basada en datos de hierro de alto horno … 49

naturaleza, estos algoritmos tienen algunas ventajas claras sobre otras técnicas de optimización.
En tiempos recientes, los enfoques evolutivos se utilizan significativamente en este dominio para
resolver problemas de muchos objetivos.
Los problemas de optimización de muchos objetivos (MaOP) son problemas de casos
especiales en el dominio de la optimización donde se abordan más de tres objetivos de manera
eficiente. Dichos problemas son omnipresentes en la ciencia, la ingeniería y la industria y se
pueden formular de tal manera que las soluciones se obtengan después de la evaluación de
múltiples criterios en conflicto [19-21]. Los problemas de optimización de muchos objetivos se han
enfrentado a múltiples desafíos, ya que incluyen la búsqueda de soluciones de Pareto en el
hiperespacio multidimensional, la estrategia de búsqueda y la visualización de soluciones en
múltiples frentes agregan otro nivel de dificultad en este dominio [22]. El problema de optimización
con múltiples números de objetivos y variables de decisión se define como problemas de
optimización de muchos objetivos a gran escala. Cuando se adoptan enfoques evolutivos para
resolver problemas de muchos objetivos, se conocen como algoritmos evolutivos de optimización
de muchos objetivos (MaOEA) [23–25]. Inicialmente, estos algoritmos han seguido un enfoque
basado en la descomposición. Se plantean varios desafíos durante la resolución de estos
problemas. Las dificultades se abordan como representación escalable de soluciones y diseño de
algoritmos de visualización, y una matriz para evaluar el resultado. Para hacerlos eficientes, en
este dominio se implementan métodos de búsqueda guiada y enfoques de configuración de
parámetros [26]. Los MaOEA se clasifican principalmente en categorías principales, como
enfoques relajados basados en dominancia, basados en indicadores, basados en agregación,
basados en preferencias, basados en referencias y basados en reducción dimensional. Más
detalles se proporcionan en otra parte [22].

1.1 Desafíos en la Optimización Multiobjetivo


por Técnicas Evolutivas

Los investigadores han experimentado con una amplia gama de algoritmos de optimización
multiobjetivo y muchos objetivos para resolver problemas no lineales. Inicialmente, han modificado
los algoritmos existentes para aumentar la capacidad de modo que pueda manejar tres o cuatro
objetivos simultáneamente. Li et al. [27] identificó las dificultades que surgen al abordar problemas
de optimización de muchos objetivos. La situación se vuelve difícil cuando aumenta el número de
objetivos, donde la comparación de soluciones no dominadas conduce a una situación desafiante.
La visualización también se vuelve difícil cuando más de tres objetivos están asociados con un
problema. En el enfoque basado en Pareto, la presión de selección surge debido a múltiples
objetivos. En el enfoque basado en la agregación, el vector de peso juega un factor crucial. En el
enfoque basado en indicadores, el indicador de rendimiento, la distancia generacional (GA) y la
distancia generacional invertida (IGD) se utilizan en el hipervolumen para calcular las métricas de
rendimiento intensivas [28]. Esto conduce a un alto costo computacional que hace que los
enfoques basados en indicadores dificulten la normalización de numerosos objetivos. En el
enfoque del conjunto de referencia, la tarea difícil está relacionada con la construcción del conjunto
de referencia y crea un equilibrio entre
Machine Translated by Google

50 BK Mahanta et al.

convergencia y diversidad en el conjunto de referencia. La selección del modelo de preferencia


necesita la participación frecuente de un tomador de decisiones para obtener información de
preferencia, que es un tema clave en el modelo basado en preferencias. Estos son los enfoques
recientes que se utilizan en problemas de optimización de muchos objetivos. Los desafíos se
eliminan agregando nuevas ideas y modificando regularmente los algoritmos existentes de
acuerdo con el diseño, la condición y la estructura del problema.
Este capítulo está organizado de la siguiente manera. Proporciona una visión general del alto
horno en su parte inicial. A continuación, se analizan varios algoritmos evolutivos que se aplican
en el proceso de fabricación de hierro en altos hornos. A continuación, se incluye una breve
descripción de un modelo evolutivo multiobjetivo, que se aplica actualmente en este campo. El
objetivo principal de esta aplicación es encontrar el número múltiple de soluciones en el espacio
de objetivos múltiples. El enfoque principal de este capítulo es dilucidar los modelos basados en
datos aplicados en este campo práctico y resaltar cómo ayudan a resolver problemas difíciles en
tiempo real. Finalmente, se extraen conclusiones sobre los resultados de este estudio y se evalúa
la capacidad de resolución de los algoritmos evolutivos en el escenario actual, y al final se
destacan algunos problemas futuros prospectivos.

2 Alto Horno

Un alto horno es una enorme estructura columnar, donde el mineral de óxido de hierro se utiliza
como materia prima, se agrega fundente y coque, luego se funde y produce arrabio como salida.
El intercambio de calor y las reacciones químicas dentro del horno juegan un papel importante
para producir el metal caliente. Para generar la temperatura de fusión adecuada, se inyecta aire,
a menudo enriquecido con oxígeno, a través de una serie de toberas ubicadas en la parte inferior
del horno. La energía necesaria y el gas CO reductor se generan principalmente a través de la
combustión y gasificación del coque presente en el horno. En los altos hornos modernos [4] , se
utilizan tolvas con diferentes ángulos para descargar la materia prima y el fundente desde la parte
superior conocida como garganta del horno. Debajo de la garganta, las materias primas se apilan
capa por capa hasta unos pocos metros de profundidad, donde el diámetro de esta área aumenta
gradualmente y esa porción se llama eje. Justo después del eje, el diámetro se mantiene constante
hasta una cierta profundidad denominada región del vientre. En esta región se llevan a cabo
reacciones químicas e intercambio de calor y el mineral de hierro se convierte en hierro líquido
fundido. Desde el vientre hacia abajo del horno se conoce como región bosh. El chorro caliente
(nitrógeno, oxígeno) y los inyectantes (carbón pulverizado, petróleo) se introducen desde esta
región, que está rodeada por un número específico de toberas. Una tobera es una boquilla de
cobre enfriada que se utiliza para suministrar la cantidad requerida de calor y reactivos de reacción
necesarios para el proceso de fusión. El número de toberas varía de 12 a 42, según el tamaño del
horno [2]. En la región más baja del horno, está presente el hogar, donde el hierro y la escoria se
acumulan por separado en estado fundido. De arriba a abajo del horno, el volumen total se divide
en varias zonas. La parte superior del horno es la zona de grumos, donde entran los materiales
de entrada y se apilan una capa tras otra. El proceso de reducción se lleva a cabo en una zona
cohesiva, donde el hierro
Machine Translated by Google

Optimización basada en datos de hierro de alto horno … 51

Fig. 1 Alto Horno [14]

El mineral (Fe2O3) se convierte en wüstita (FexO) al reaccionar con el monóxido de carbono


ascendente (CO) y se convierte en dióxido de carbono (CO2) después de la reacción completa.
El mineral de hierro se ablanda y se derrite aquí. El raceway comienza justo debajo de la zona
cohesiva, donde tiene lugar la gasificación del coque. En otras palabras, el coque se convierte
en CO al reaccionar con CO2 en presencia de nitrógeno inerte. En la región de bosh, el coque
sin reducir se acumula formando la denominada zona de hombre muerto. La última zona se
denomina hogar. Un alto horno típico se presenta esquemáticamente en la Fig. 1.

2.1 Modelado y optimización de altos hornos

La idea principal del modelado de altos hornos basado en datos es analizar continuamente
todos los datos del proceso para ejecutar y sugerir la acción adecuada siguiendo la guía de
los tomadores de decisiones en tiempo real. Ayuda a aumentar la eficiencia del sistema y
ayuda a lograr sus diversos objetivos. Como sabemos que el alto horno es una estructura
compleja, por lo tanto, es necesario controlar una gran cantidad de parámetros para garantizar
su buen funcionamiento. Los objetivos como el costo, la tasa de producción, la calidad y la
eficiencia del proceso dependen de múltiples variables, que deben optimizarse simultáneamente.
En los últimos tiempos se ha aplicado la optimización multiobjetivo [29] para lograrlo. El
modelado de optimización de muchos objetivos ayuda a encontrar una serie de soluciones
óptimas que pertenecen a un conjunto óptimo de Pareto [30], lo que ayuda de manera muy
significativa a mejorar el proceso de toma de decisiones. En tales procesos de optimización,
los modelos evolutivos basados en datos han jugado un papel importante.
Machine Translated by Google

52 BK Mahanta et al.

3 modelos evolutivos basados en datos

En el trabajo de optimización relacionado con los modelos basados en datos de alto horno, el
algoritmo genético Predator-Prey (PPGA), la red neuronal evolutiva (EvoNN), la programación
genética biobjetiva (BioGP), la red neuronal profunda evolutiva (EvoDN2) y el vector de
referencia basado en restricciones El algoritmo evolutivo (cRVEA) se ha utilizado con éxito para
una serie de problemas integrados relacionados con plantas siderúrgicas [31–38].
Estos algoritmos son lo suficientemente eficientes para calcular múltiples soluciones, que se
utilizan en el proceso de operación. Más detalles se proporcionan a continuación.

3.1 Algoritmo genético depredador-presa (PPGA)

PPGA [14] es uno de los algoritmos más eficientes que se han utilizado en trabajos de
optimización de altos hornos. El algoritmo depredador-presa emula la matanza y la supervivencia
de los animales que habitan en un bosque. Se genera una cuadrícula computacional en la que
se colocan aleatoriamente las soluciones candidatas en forma de presas. De la misma manera,
los depredadores también se colocan aleatoriamente en la red y su tarea designada es aniquilar
a las presas más débiles. Cada depredador está asociado con una suma ponderada particular
de las funciones objetivo. Hay ciertas limitaciones asignadas al movimiento de los depredadores,
por ejemplo, pueden moverse solo un número específico de pasos alrededor de un vecindario,
que también está específicamente definido. El depredador mata a la presa presente en el
vecindario que tiene la peor forma física. Una vez que la presa muere, se elimina de la red. Si
una sola presa está presente en el vecindario del depredador, entonces se la mata por defecto.
El depredador se moverá en una dirección aleatoria si su vecindario está vacío. El procedimiento
anterior continúa hasta que se completa el número predeterminado de generaciones. Los
operadores genéticos como el cruce y la mutación se utilizan para producir nuevos individuos
en cada generación. La presencia simultánea de depredadores que favorecen cada objetivo
permite que coexistan soluciones de compensación en el espacio informático. En lugar de
asociar un objetivo a cada depredador, los asociamos con diferentes vectores de peso para
mantener la diversidad en la solución y obtener buenas soluciones en el frente de Pareto. En la
Fig. 2 se muestra una cuadrícula bidimensional depredador-presa .

3.2 Red neuronal evolutiva (EvoNN)

En EvoNN, se utiliza una población de redes neuronales en el proceso de evolución para


encontrar el equilibrio óptimo entre la precisión del entrenamiento y la complejidad de las redes.
Se utiliza un criterio de información de Akaike corregido (AICc) [14] para encontrar el modelo
más adecuado a partir de las soluciones pertenecientes a una aproximación de la frontera de
Pareto calculada por este algoritmo [33]. Aquí la complejidad está determinada por el número
total de pesos asociados con el sistema de red, conectando las entradas a
Machine Translated by Google

Optimización basada en datos de hierro de alto horno … 53

Presa

Depredador

Fig. 2 Predator-Prey en cuadrícula bidimensional

los nodos ocultos. En EvoNN la estructura de trabajo se compone de dos niveles, es decir, el nivel
inferior y el nivel superior. La evolución tiene lugar en la parte inferior, donde se utiliza PPGA para
optimizar las redes neuronales. En este proceso, el cruce se define como el intercambio de
conexiones entre dos redes neuronales, mientras que la mutación se realiza perturbando los
pesos. La cantidad de cambio depende de los valores de dos pesos seleccionados al azar de
conexiones similares. La parte superior de la red, es decir, la capa de salida, utiliza una función
de transferencia lineal y se optimiza utilizando el enfoque de mínimo escudero lineal (LLSQ) [14,
15]. Esto asegura la convergencia matemática en la etapa de salida. Más detalles se proporcionan
en otra parte [17].

3.3 Programación genética bioobjetiva (BioGP)

En BioGP [16, 17] se utiliza una población de árboles binarios en lugar de una red neuronal en el
proceso de evolución para entrenar los datos con el fin de encontrar los resultados óptimos. Una
estrategia de programación genética (GP) [39, 40] permite construir cualquier función basada en
la base de datos en cuestión, utilizando operadores matemáticos como suma, resta, división,
multiplicación, etc., como valores de nodo en un árbol, junto con el variables y constantes como
valores establecidos terminales. A diferencia de la programación genética convencional, aquí se
produce un compromiso de Pareto [16] entre la precisión del entrenamiento y la complejidad de
los árboles GP. La complejidad del árbol GP se decide a partir del nivel de profundidad y la
extensión de las raíces construidas por el usuario. Como se indicó anteriormente, en los árboles
binarios utilizados aquí, los operadores del conjunto de funciones se ubican en los nodos, mientras
que las variables y las constantes se ubican en el conjunto de terminales. La entrada del sistema
se puede modelar mediante la evolución de la función matemática y también se puede aplicar una
condición lógica cuando sea necesario. Los árboles se seleccionan en función del error de
escudero medio raíz mínimo (RSME) [17]. Sin embargo, el árbol con un error mínimo puede dar
lugar a un sobreajuste; por otro lado, un error grande puede infraajustar los datos y omitir el valor
de tendencia importante en el conjunto de datos. Aquí, en BioGP, se utiliza el algoritmo PPGA en
el trabajo de optimización y se agregan varios árboles más pequeños a través de un procedimiento basado en LLS
Un árbol GP típico se muestra en la Fig. 3.
Machine Translated by Google

54 BK Mahanta et al.

X2 +2
Funcional
Nodo
+

*
2

Terminal
Nodo X
X

Fig. 3 Un árbol GP típico

3.4 Red neuronal profunda evolutiva (EvoDN2)

En el modelado de altos hornos basado en datos, a menudo el mayor desafío es manejar un


gran volumen de datos para los cuales EvoNN y BioGP son inadecuados. El algoritmo EvoDN2
[41, 42] ha sido desarrollado para remediar este gran problema de manejo de datos.
Esta es una estrategia de modelado inteligente que puede acomodar conjuntos de datos más
grandes con múltiples números de variables de entrada. En los últimos tiempos, debido a su
eficiente y aumentada capacidad de manejo de datos, esta técnica se ha aplicado para resolver
los problemas típicos en los altos hornos. En la arquitectura de red neuronal profunda evolutiva,
se forma una subred utilizando múltiples números de capas ocultas, donde cada capa consta
de diferentes números de nodos. Varias de estas subredes se agregan y, de manera similar a
EvoNN y BioGP, la convergencia final se obtiene a través de un algoritmo basado en LLSQ.
Puede manipular de manera eficiente a la población y capturar muchas características
intrincadas mediante una estrategia de modelado inteligente, lo que nuevamente involucra las
compensaciones entre la precisión y la complejidad de las redes. Las entradas del conjunto de
datos se introducen en las subredes de forma aleatoria, lo que garantiza que cada variable de
entrada se utilice al menos una vez. Cada subred, como se indicó anteriormente, consta de
más de una capa oculta según la elección del usuario. Cuanto mayor es el número de capas,
mayor es la precisión, pero se produce a expensas de una mayor complejidad. Esto se puede
eludir aumentando el número de subredes y manteniéndolas individualmente pequeñas. Las
técnicas de cruce y mutación utilizadas en EvoNN son ineficientes en el caso de EvoDN2, en
la arquitectura de la red hay varias capas con un número variable de nodos ocultos. Debido al
mayor tamaño de la red y al mayor conjunto de datos, la aplicación del cruce y la mutación de
tipo EvoNN haría que EvoDN2 fuera muy complejo desde el punto de vista computacional y
prácticamente haría inviable la gran tarea de optimización. Esto condujo al desarrollo de nuevos cruces y muta
Machine Translated by Google

Optimización basada en datos de hierro de alto horno … 55

Fig. 4 Esquemas de una Red Neuronal Profunda Evolutiva típica

estrategias detalladas en otra parte [41]. Estas modificaciones eliminan drásticamente la


complejidad temporal del proceso y se logran resultados similares mediante el uso de procesos
matemáticos más simples en comparación con las técnicas anteriores [14]. Durante el cruce entre
dos individuos, se intercambia un número aleatorio de conexiones generando un número aleatorio,
y el intercambio se realiza en paralelo, a la vez, sin pasar por cada conexión y verificando la
probabilidad de cruce aleatoriamente. Esto es similar al proceso cruzado anterior de EvoNN pero
actúa de manera más eficiente. En el proceso de mutación se utiliza una versión ligeramente
alterada de la técnica de mutación autoadaptativa. Los resultados finales de todas las subredes se
acumulan y mapean contra los parámetros de salida utilizando el método de mínimos cuadrados
lineales. Una figura esquemática de red neuronal profunda se presenta en la Fig. 4.

3.5 Algoritmo Evolutivo del Vector de Referencia (RVEA)

El algoritmo RVEA se ha desarrollado recientemente para resolver varios objetivos, es decir, más
de tres objetivos en el proceso de optimización [43]. En PPGA se utiliza un procedimiento basado
en la dominancia en el proceso de selección, mientras que en el algoritmo evolutivo del vector de
referencia se utiliza una colección de vectores de referencia adaptativos para alcanzar el frente de
Pareto. En este algoritmo se utiliza una distancia penalizada por ángulo (APD) para el proceso de
selección, lo que permite que sus vectores de referencia converjan hacia el frente de Pareto.
Aquí, el proceso de búsqueda se guía mediante el uso de un conjunto de vectores de referencia
en el espacio objetivo. La inicialización de los vectores de referencia se realiza de acuerdo con un
diseño de red canónica y se distribuye uniformemente en el hiperespacio objetivo [36, 44] y después
Machine Translated by Google

56 BK Mahanta et al.

un número prescrito de generaciones, como es de esperar, converge a un frente óptimo. Al


principio de cada generación se mide la distancia angular de cada individuo a los vectores de
referencia y correspondientemente se asignan al vector de referencia más cercano. La
asignación de individuo a vector de referencia se muestra en la Fig. 5.
Luego se usa APD para seleccionar un individuo para cada vector de referencia. La
convergencia y la diversidad en gran parte del proceso de optimización de objetivos se
adoptan en APD, que es dinámicamente, un enfoque de escalarización equilibrada para
manejar los múltiples objetivos para el número prescrito de generaciones de manera bastante
eficiente. Dos cosas son importantes en el enfoque APD. Uno es el criterio de convergencia
donde se mide la distancia entre las soluciones candidatas y el punto ideal y el otro se conoce
como criterio de diversidad donde se tiene en cuenta la importancia del ángulo agudo, que se
mide entre la solución enfocada y el vector de referencia. .
El cruce, la mutación y la adaptación de los vectores de referencia continúan en cada
generación hasta que se completa el proceso de terminación. En la Fig. 6 se muestra un
vector para el nuevo frente óptimo. Para la normalización de los vectores de referencia, se
utiliza una estrategia adaptativa para configurar los vectores de referencia de tal manera que
puedan manejar funciones objetivo no escalables. Esta estrategia reconstruye los vectores de
referencia según los rangos de las funciones objetivo y asegura una distribución uniforme de
las soluciones candidatas en el espacio objetivo.

Fig. 5 Asignación del individuo a los vectores de referencia


Machine Translated by Google

Optimización basada en datos de hierro de alto horno … 57

Fig. 6 a Los vectores de referencia uniformemente espaciados con un frente de Pareto simétrico dan como resultado
soluciones de Pareto uniformemente densas, b Vector de referencia uniformemente espaciado con una distribución
asimétrica de soluciones de Pareto que no es deseable, c La distribución equitativa se logra mediante la adaptación del vector de referencia

4 Manejo de una fabricación de hierro en un alto horno del mundo real


Problema al usar enfoques evolutivos

4.1 Objetivo y alcance

En esta sección, se describirán las aplicaciones del algoritmo de aprendizaje profundo


evolutivo EvoDN2 para generar los modelos de entrenamiento en un escenario de alto horno,
junto con los modelos construidos a partir de otros enfoques evolutivos basados en datos
como BioGP y EvoNN. Los procesos de alto horno se representarán como un problema de
series de tiempo, donde el valor actual de los parámetros involucrados tiene ciertas contribuciones de
Machine Translated by Google

58 BK Mahanta et al.

los mismos parámetros utilizados en el pasado. Tales situaciones se considerarían ampliamente y se


incorporarían a los parámetros variables con desfase temporal. Usando esto, se demostrará cómo se
pueden producir resultados mucho mejores en términos de modelado y optimización de los complejos
procesos de alto horno dependientes del tiempo. El enfoque principal ha sido utilizar el nuevo EvoDN2
para imitar ese reactor y estudiar cómo se comparan los resultados con los algoritmos existentes,
EvoNN y BioGP en particular. También se demostrará el uso de cRVEA para la optimización de
objetivos obtenidos a través de los modelos entrenados, seguido de un análisis detallado de los
hallazgos.

4.2 Preparación de datos

En este trabajo de investigación, los datos operativos consisten en información de entrada y salida
diaria, incluidos los valores medidos y calculados, de un alto horno operativo.
Al estudiar los parámetros de proceso individuales, se desarrolla una estrategia basada en datos.
Los parámetros influyentes que afectan directa o indirectamente al sistema se consideran como
variables de decisión y las funciones importantes desde el punto de vista del proceso, que dependen
de estas variables se toman como los objetivos que requieren ser optimizados. El conjunto de datos
operativos que se utiliza aquí consta de ocho variables de entrada y cuatro objetivos de salida. La
hoja de datos industriales proporcionó cinco años consecutivos de información operativa. Estos datos
se manejan de manera eficiente mediante la eliminación de los valores atípicos y la adición de los
valores de entrada y salida que faltan mediante el uso de un enfoque K-Nearest Neighbors (KNN)
[45, 46]. El conjunto de datos contiene variables que describen información sobre las propiedades
físicas y químicas de los materiales de entrada, los parámetros de control, los agentes reductores y
el estado interno del alto horno. Al considerar estas variables y objetivos, se derivan modelos basados
en datos para su posterior optimización.
Las variables de decisión operativas en el alto horno se toman como (i) basicidad, (ii) volumen de
explosión caliente, (iii) presión de explosión caliente, (iv) temperatura de explosión caliente, (v)
mineral de hierro en la carga, (vi) sinterización en la carga, (vii) tasa de coque y (viii) silicio en el metal caliente.
La cantidad de distribución de las variables de entrada depende del proceso y del estado de
funcionamiento del horno. Los objetivos influenciados se toman como (i) relación CO/CO2 (ii)
enriquecimiento de oxígeno, (iii) productividad y (iv) temperatura de llama adiabática de la pista
(RAFT). En la Tabla 1 se presentan los rangos de los datos brutos disponibles para un período
operativo de cinco años de la planta siderúrgica.

4.3 Modelado de series de tiempo

El modelado de series temporales [47] funciona como un procedimiento eficaz para tratar el análisis
de datos pasados con el fin de predecir resultados futuros. Para que esta estrategia sea efectiva, los
datos anteriores deben manejarse con cuidado y se necesita un estudio adecuado para desarrollar
un modelo exacto que represente la estructura inherente de los datos recopilados. Luego, el modelo
se usa para generar un valor futuro para la serie que se va a pronosticar. Esto es esencialmente predecir
Machine Translated by Google

Optimización basada en datos de hierro de alto horno … 59

Tabla 1 Rango de datos utilizados en el modelo basado en datos

Parámetros de entrada Rango de datos

Año 1 Año 2 año 3 año 4 año 5

Basicidad (X1), relación 0,87–1,07 0,89–1,06 0,56–1,11 0,61–1,27 0,7–1,23

Volumen de chorro caliente (X2), 1097–2686 832–2660 900–2660 1530–2660 710–2630


Nm3

Presión de chorro caliente (X3), 1,14–2,72 0,73–2,68 1,65–2,78 1,9–2,84 1.15–2.89


kg/cm2

Temperatura de explosión caliente 914–1203 963–1209 850–1200 1000–1214 830–1200


(X4), ºC

Mineral de hierro (X5), monte 0,24–0,811 0,36–0,813 0,433–0,932 0,365–738 0,192–1,348

Sinterizado (X6), Mt 0,34–1,52 0,807–2,04 0,873–2,04 0,849–1,245 0,77–2,54

Coca-Cola (X7), Kg/thm 360–745 337–1105 313–983 307–606 273–884

Si (X8), % 0,25–1,98 0,02–1,98 0,28–2,73 0,29–1,27 0,15–3,22

CO/CO2 (Y1), relación 1,12–1,70 1,12–1,64 1,02–1,63 1,09–1,30 1.08–3.87

Enriquecimiento de O2 (Y2), 0,04–68,85 0,009–69,25 0,002–4,80 0,08–5,61 0,009–5,15


Nm3/thm

Productividad (Y3), 0,14–2,49 0,75–2,41 0,136–2,83 1,16–2,90 0,064–2,93


t/día/m3

BALSA (Y4), 0C 2010–2330 1950–2575 1860–2510 2000–2410 2040–2566

la tendencia futura mediante la comprensión del pasado. Esta técnica ha sido ampliamente utilizada
en áreas tan diversas como la banca, la actividad económica, así como en la industria, la ciencia y
la ingeniería. Recientemente, las redes neuronales artificiales (ANN) y la programación genética
(GP) [48] han recibido una atención significativa en la previsión de series temporales. Estas
técnicas son capaces de manejar datos no lineales sin ningún requisito previo sobre la distribución
estadística que sigue la observación: estas técnicas están basadas en datos y, al mismo tiempo,
son autoadaptativas por naturaleza. En el contexto de la fabricación de hierro en altos hornos,
dichos procedimientos se agregan a EvoNN, EvoDN2 y BioGP en el proceso de entrenamiento
para reducir el error y aumentar el coeficiente de correlación.

4.4 Formulación de optimización de muchos objetivos

Las funciones objetivo se muestran en la Tabla 2. El objetivo de este trabajo es minimizar la


relación CO/CO2 . La emisión de CO y CO2 se debe básicamente a la quema de coque y
combustible dentro del alto horno [49, 50]. El coque actúa como un agente reductor, también ayuda
a aumentar la temperatura de la llama adiabática, pero la combustión incorrecta del coque aumenta
la cantidad de CO sin reaccionar en el gas superior, lo que lleva a un uso ineficiente del gas
reductor y del combustible. Del mismo modo, puede dar lugar a un aumento de la cantidad de
CO2, lo que es indeseable desde el punto de vista medioambiental. El enriquecimiento de oxígeno
es necesario para reducir la tasa de emisión de este gas contaminante, al mismo tiempo que aumenta la llama adia
Machine Translated by Google

60 BK Mahanta et al.

Tabla 2 Formulación de la función Tarea


Objetivos
objetivo
CO/CO2 (Y1) Minimizar

Enriquecimiento de O2 (Y2) Minimizar

Productividad (Y3) Maximizar

BALSA (Y4) Maximizar

temperatura y por lo tanto tiene un impacto positivo en la productividad. El enriquecimiento de oxígeno


generalmente se realiza en tres niveles. Menos del 28 % se considera el nivel inferior, entre el 28 % y el
45 % es el nivel medio y más del 45 % se considera el nivel superior [51].
La tecnología de enriquecimiento de oxígeno afecta directamente el costo del proceso. Como era de
esperar, un mayor enriquecimiento de oxígeno en un proceso implica un mayor costo. Por otro lado,
para generar una mayor cantidad de calor se necesita una mayor cantidad de oxígeno. La temperatura
de llama adiabática de la pista (RAFT) controla la velocidad de reacción química en el proceso de
combustión y reducción en el alto horno [52]. Sin embargo, en condiciones operativas, mantener la
temperatura óptima de la llama suele ser un gran desafío.
La caída de la temperatura de la llama afecta directamente la capacidad de fusión y el proceso de
reducción. Debido a este efecto, el balance de calor térmico del proceso también se reduce, lo que hace
que el sistema sea inestable. Significa que RAFT debe maximizarse para lograr la condición óptima. En
este estudio se consideraron otros tres objetivos, como se muestra en la Tabla 2, de los cuales uno
requería la maximización y los dos restantes eran candidatos a la minimización. Estos cuatro objetivos
están interrelacionados entre sí y durante su optimización simultánea; cualquier mejora en un objetivo
impacta directamente en los restantes. Manejar este tipo de objetivos en conflicto en un proceso
conduce a la difícil tarea de calcular su optimización de Pareto. Aquí tratamos de formular un esquema
de optimización de objetivos múltiples de acuerdo con los requisitos del proceso de fabricación de hierro
en altos hornos.

4.5 Construcción de Metamodelos

En este estudio, la construcción de metamodelos basados en datos implica una tarea de optimización
bioobjetiva de su precisión y complejidad, y esto se realiza considerando varios niveles de restricciones.
El entrenamiento se lleva a cabo utilizando los datos no lineales y con ruido, por separado para cada
objetivo, durante un número prescrito de generaciones.
Se generan dos tipos de modelos de entrenamiento. Uno es sin considerar el desfase de tiempo otro
con consideración de desfase de tiempo. Los modelos de entrenamiento se generan por separado para
la relación CO/CO2, el enriquecimiento de oxígeno, la RAFT y la productividad. En EvoNN y EvoDN2,
se utiliza el criterio de información de Akaike corregido para encontrar el mejor modelo entre los
generados en el proceso de entrenamiento, pero en el caso de BioGP, el modelo con menos error de
entrenamiento se selecciona automáticamente después del proceso de entrenamiento. La precisión
frente a las complejidades del modelo se determina a partir de los resultados de salida de los modelos de entrenamiento.
Machine Translated by Google

Optimización basada en datos de hierro de alto horno … 61

Fig. 7 a–d Modelos de entrenamiento para CO/CO2, Enriquecimiento de oxígeno, Productividad y RAFT
usando EvoNN

Un resultado típico se muestra en la Fig. 7 , donde cada punto denota un modelo separado con su
topología y arquitectura únicas.
Durante el trabajo de formación, los datos industriales se ejecutan hasta el número prescrito de
generaciones. Después de completar el entrenamiento, se genera una compensación de Pareto
entre la precisión y la complejidad de los modelos. En EvoNN y EvoDN2, el modelo de la frontera
de Pareto se selecciona sobre la base del valor AICc más bajo y, en el caso de BioGP, se
selecciona el árbol que produce el menor error de entrenamiento. Los parámetros de los modelos
basados en datos que se establecen para el entrenamiento del individuo se muestran en las Tablas 3 y 4.

4.6 Entrenamiento y Coeficientes de Correlación

En las optimizaciones evolutivas de muchos objetivos, se utilizan varios algoritmos como EvoNN,
BioGP y EvoDN2 para generar modelos de entrenamiento a partir de los datos reales del alto horno.
Aquí, la información física sobre el proceso se genera solo a través de los datos de la planta sin
utilizar ningún modelo teórico. Estos datos que se acumulan durante la operación de rutina del
horno pueden no haber pertenecido siempre al específico
Machine Translated by Google

62 BK Mahanta et al.

Tabla 3 Parámetros de los


Parámetros Algoritmo EvoNN Algoritmo BioGP
modelos basados en datos usando
EvoNN y BioGP Número de 150 100
generaciones
Rango máximo 20 20

Número máximo de raíces N/A 5

Profundidad máxima N/A 5

Intervalo de matanza 7 7

Número de presas 500 500

Número de depredadores 50 50

Tamaño de la cuadrícula 60*60 60*60

Nodos ocultos 5 N/A

Tabla 4 Parámetros del modelo


Parámetros Algoritmo EvoDN2
basado en datos utilizando
EvoDN2 Número de generaciones 100

Número de subredes 3

Número de nodos ocultos 9,8,8


Rango máximo 20

Intervalo de matanza 5

Número de presas 100

Número de depredadores 40

Tamaño de la cuadrícula 20*20

rangos deseables, a veces se producen fluctuaciones por encima o por debajo de dichos límites
debido a varios factores, incluida la complejidad de la reacción y el comportamiento del material que
se encuentra dentro del horno. Para predecir un modelo exacto a partir de estos datos no lineales y
ruidosos, es necesario un entrenamiento inteligente a través de los algoritmos mencionados
anteriormente. Estas estrategias están configuradas de tal manera que pueden desarrollar un modelo
novedoso, que no se ajusta ni por encima ni por debajo de los datos reales; por lo tanto, lo más
probable es que surja un modelo representativo real. Una vez superado el aprendizaje, la
correspondencia entre los datos operativos industriales y los datos generados por el modelo siempre
se puede evaluar a través del coeficiente de correlación.
Los parámetros discutidos anteriormente se utilizan en el proceso de entrenamiento para generar
el modelo de entrenamiento. Después del trabajo de entrenamiento, se evalúan los resultados de
salida. En las Figs. 8, 9 y 10.

Al analizar estas curvas de entrenamiento y correlación, queda claro que los datos generados a
partir de los modelos entrenados no se ajustan por debajo ni por encima de los datos industriales.
En la mayoría de los casos, el coeficiente de correlación resultante del entrenamiento individual de
los objetivos resultó ser superior al 60%. De las tres estrategias EvoDN2,
Machine Translated by Google

Optimización basada en datos de hierro de alto horno … 63

Fig. 8 a–d Cifras de coeficiente de correlación y entrenamiento generadas por el modelo basado en datos (BioGP)

como era de esperar, había mostrado una mejor correlación incluso entonces se evitó cualquier ajuste
muy ajustado, ya que eso podría llevar a capturar el ruido en los datos. Aquí los modelos de entrenamiento
se generan considerando dos métodos, uno utilizando variables de retardo de tiempo y otro sin retardo
de tiempo. El resultado del entrenamiento evaluado desde el concepto de lapso de tiempo es de 5 a 8%
mejor que el resultado generado sin lapso de tiempo en términos de los valores de correlación.
Los resultados se muestran en la Tabla 5. En este trabajo por lo tanto los modelos generados con
desfase temporal fueron utilizados posteriormente en el trabajo de optimización.

4.7 Respuesta de variable única (RVS)

El comportamiento de cada variable de decisión y sus características influyentes en los objetivos se


pueden determinar en estos modelos a través de un procedimiento simple conocido como respuesta de
variable única (SVR) [53, 54]. Como estas variables se afectan significativamente entre sí, con mayor
frecuencia es fundamental aislar el papel real que desempeña un individuo
Machine Translated by Google

64 BK Mahanta et al.

Fig. 9 a–d Cifras de coeficientes de correlación y entrenamiento generadas por el modelo basado en datos (EvoNN)

parámetro. Esta estrategia simple fue desarrollada e incorporada en nuestro trabajo para evaluar la
característica confiable de cualquier parámetro individual con los demás.
Implicó proporcionar alguna perturbación arbitraria pero sistemática a cada variable a la vez, en el
modelo entrenado, manteniendo el resto de las variables de decisión restringidas en el nivel base. La
respuesta correspondiente de la salida se registra y examina.
La perturbación arbitraria incluye aumentos y disminuciones en el valor de la variable que se examina,
lo que incluye cambios bruscos, así como cambios lentos y graduales, junto con algunas regiones
constantes. Si el objetivo muestra una respuesta similar a la entrada, entonces se considera que está
directamente correlacionado (+ve respuesta) con la salida, de manera similar, para una respuesta
inversa de tendencia exactamente opuesta al patrón de salida, se asume una correlación inversa
(respuesta ÿve). A veces no se pudo detectar tal correlación y tales casos también se notan
sistemáticamente. En pocas ocasiones se encuentran patrones tanto de +ve como de ÿve, lo que se
describe como una respuesta mixta. El comportamiento individual de cada variable con respecto a la
salida se conoce como respuesta de variable única.
Mediante el uso de EvoNN, BioGP y EvoDN2 se genera una respuesta variable única de todas las
variables. En cada modelo las variables consideradas son la basicidad, el volumen del alto horno, la
presión del chorro caliente, la temperatura del chorro caliente, las cantidades de mineral de hierro, sinterizado,
Machine Translated by Google

Optimización basada en datos de hierro de alto horno … sesenta y cinco

Fig. 10 a–d Cifras de coeficientes de correlación y entrenamiento generadas por el modelo basado en datos (EvoDN2)

coque, SiO2 y el porcentaje de silicio en el metal caliente, que inciden directamente en objetivos como
relación CO/CO2, enriquecimiento de oxígeno, productividad y RAFT. Los resultados evaluados del
modelo significan la influencia de las variables individuales sobre un objetivo particular durante la
operación del horno. El resultado de los resultados muestra que las tendencias de comportamiento de
las variables se pueden clasificar como +ve, ÿve, mixto y sin respuesta. Algunas curvas de respuesta
típicas generadas a través de este procedimiento se muestran en la Fig. 11, donde 1 para respuesta
directa, ÿ1 para respuesta inversa, 2 para respuesta mixta y 0 para ninguna respuesta. De las figuras
se obtiene una clara visualización de la señal de entrada con la salida.

A partir del modelo EvoNN, los resultados evaluados muestran que la basicidad no tiene impacto en
la relación CO/CO2 , -ve impacto en el enriquecimiento de oxígeno, +ve impacto en la productividad y
respuesta mixta a la temperatura de llama adiabática de la vía de carrera (RAFT). En BioGP, el modelo
de entrenamiento del resultado evaluado muestra una respuesta negativa en el caso de la relación CO/
CO2, sin impacto detectado en el enriquecimiento de oxígeno, un impacto negativo en la productividad
y una respuesta mixta a la temperatura de llama adiabática. En EvoDN2, la misma variable muestra una
respuesta negativa a la relación CO/CO2 , una respuesta negativa al enriquecimiento de oxígeno, un
impacto mixto en la productividad y un impacto positivo en RAFT. En la mayoría de los casos, la variable
de entrada y la salida muestran un tipo de respuesta similar, pero en algunos casos se comportan de
manera diferente de un modelo a otro. Esto se debe principalmente a que SVR es un método aproximado y
Tabla
5
Coeficientes
de
correlación
con
ysin
desfase
temporal
para
diferentes
modelos
evolutivos
5 4 3 2 1 año
modelo
EvoDN2
0.99 EvoNN
0.99 BioGP EvoDN2
0,53 EvoNN
0.38 BioGP EvoDN2
0,74 EvoNN
0.65 BioGP EvoDN2
0,56 EvoNN
0.50 BioGP EvoDN2
0,74 EvoNN
0.64 BioGP
0.99 0.32 0,60 0.49 0,61 CO/
CO2
(Y1)
O2
(Y2)
Productividad
(Y3)
RAFT
(Y4)
CO/
CO2
(Y1')
O2
(Y2')
Productividad
(Y3')
RAFT de
correlación
sin
desfase
temporal
(Y4') Coeficiente
0.87 0.86 0.83 0.81 0.75 0.73 0.75 0,68 0,69 0.52 0.48 0.39 0.78 0.73 0,63
0,95 0,94 0,93 0.79 0.76 0.71 0.92 0.89 0.89 0.92 0.90 0.89 0,95 0,93 0.92
0,63 0.58 0,56 0,65 0.54 0,55 0.70 0,62 0.58 0,53 0.36 0.40 0.33 0.32 0.34
0.99 0.99 0.99 0,69 0.59 0.39 0.98 0.98 0.97 0.72 0,63 0,60 0.81 0.71 0,63 Coeficiente
de
correlación
con
el
desfase
temporal
0.92 0.86 0.84 0.86 0.80 0.72 0.98 0.97 0.97 0.70 0.59 0.52 0.85 0.78 0.70
086
0.97 0,94 0,93 0.89 0.81 0.81 0..97 0,95 0,95 0.96 0,94 0.92 0.92 0.87
0.75 0,68 0,62 0.71 0.59 0,61 0.79 0,67 0,65 0,62 0.47 0,46 0.52 0.36 0.36
BK Mahanta et al. 66
Machine Translated by Google
Machine Translated by Google

Optimización basada en datos de hierro de alto horno … 67

Fig. 11 a–d Las cifras de respuesta de variable única generadas a partir de EvoNN

Además, a menudo, una estrategia en particular no es capaz de capturar todas las tendencias de los
datos disponibles. Las respuestas generadas por el modelo se resumen en la Tabla 6. Los resultados son

Tabla 6 Respuestas de una sola variable generadas a partir de modelos evolutivos

Respuesta de variable única (RVS)


EvoNN Y1 Y2 Y3 Y4 BioGP Y1 Y2 Y3 Y4 EvoDN2 Y1 Y2 Y3 Y4

X11 0 ÿ1 1 2 X11 ÿ1 0 1 2 X11 ÿ1 ÿ1 2 1

X12 0 ÿ1 2 0 X12 ÿ1 0 2 0 X12 2 ÿ1 2 2

X13 0 ÿ1 0 1 X13 ÿ1 0 1 0 X13 ÿ1 2 0 2

X21 0 2 2 0 X21 ÿ1 ÿ1 2 0 X21 ÿ1 ÿ1 1 2

X22 0 2 ÿ1 ÿ1 X22 0 2 2 0 X22 2 2 2 ÿ1

X23 0 0 2 2 X23 1 0 0 2 X23 2 ÿ1 2 2


Machine Translated by Google

68 BK Mahanta et al.

muy conveniente para identificar las tendencias durante la operación real del horno. De esta
forma, todas las variables de entrada se han contrastado con todos los objetivos y sus tendencias
y comportamiento se examinan adecuadamente. A partir de este punto, Xij denotará el j-ésimo
valor retardado en el tiempo de la variable Xi.

4.8 Trabajo de optimización

La optimización juega un papel importante para generar soluciones útiles en la práctica a partir
de los modelos, que se evalúan a partir de los algoritmos de entrenamiento EvoNN, BioGP y
EvoDN2. Aquí se utilizan redes neuronales especialmente construidas, programación genética y
redes neuronales profundas para encontrar un modelo óptimo adecuado a partir del número de
tales modelos presentes en la frontera de Pareto del algoritmo de entrenamiento respectivo. A
continuación, los modelos óptimos seleccionados se utilizan en la tarea de optimización
multiobjetivo que ya se muestra en la Tabla 2. Como es evidente en esa tabla, aquí se consideran
cuatro objetivos a la vez. En este problema de muchos objetivos, se utiliza el algoritmo evolutivo
del vector de referencia para calcular el resultado. Los modelos de entrenamiento óptimo
individuales de todos los objetivos se procesan mediante un algoritmo evolutivo de vector de
referencia basado en restricciones (cRVEA). Como se mencionó anteriormente, este algoritmo
utiliza vectores de referencia distribuidos uniformemente y las soluciones candidatas en el
problema se asignan a los vectores de referencia adecuados y la población cambia de forma evolutiva estándar.
Se selecciona un individuo para cada vector de referencia según la distancia penalizada con el
ángulo (APD). Cualquier convergencia y divergencia individual se decide desde APD, como se
discutió anteriormente. En este proceso de optimización, se aplican cuatro pasos básicos, a
saber, la generación de vectores de referencia, la asignación de vectores de referencia
individuales, la selección y adaptación de vectores de referencia en el proceso de evaluación
para encontrar las soluciones más adecuadas. Los modelos obtenidos a través de EvoNN,
BioGP y EvoDN2 se procesan a través de este proceso de optimización. A continuación, se
analizan en detalle los resultados y las figuras multidimensionales generadas a través de este
algoritmo.
El resultado optimizado generado a partir de los datos industriales contiene información
diaria durante cinco años consecutivos. Para fines de optimización, los modelos basados en
datos se construyen año a año. El año individual de los datos se indica como Año1 a Año5.
Todos estos datos se entrenan y modelan por separado utilizando EvoNN, BioGP y EvoDN2.
En cada caso, los modelos se seleccionaron de sus respectivos frentes de Pareto que consisten
en un compromiso entre complejidad y precisión del entrenamiento. El algoritmo cRVEA se
aplica en este problema de muchos objetivos, donde, como se mencionó anteriormente, la
relación CO/CO2 , el enriquecimiento de oxígeno, la productividad y la RAFT se consideran
como objetivos para el problema. Estos objetivos se optimizan simultáneamente al considerar
los datos de entrenamiento por años. Aquí los objetivos se designan como Y1, Y2, Y3 y Y4 para
una referencia rápida. Los objetivos entrenados son utilizados en el proceso de optimización,
generando resultados en un espacio multidimensional. Las Figuras 12 y 13 muestran resultados
optimizados para Year1 y Year2 en un espacio de muchos objetivos. En la Fig. 12, los resultados
optimizados generados a partir del algoritmo cRVEA mediante el uso de datos entrenados Year1 de EvoNN,
Machine Translated by Google

Optimización basada en datos de hierro de alto horno … 69

Fig. 12 Resultados cRVEA optimizados generados usando un EvoNN, b BioGP yc EvoDN2 en los datos de
entrenamiento del año 1

Se presentan BioGP y EvoDN2. Estos algoritmos también se han aplicado a los modelos obtenidos
de los otros conjuntos de datos.
Los algoritmos evolutivos que se ocupan de varios objetivos requieren métodos viables para
visualizar y representar de manera útil un conjunto multidimensional de soluciones. El trazado de
coordenadas paralelas [55], que funciona bien para datos de gran dimensión, se ha utilizado con
frecuencia en tales ocasiones. Para mostrar un conjunto de puntos en un espacio multidimensional,
las coordenadas paralelas los mapean en un gráfico 2D, donde se trazan varios ejes paralelos,
normalmente de forma vertical y equiespaciada. Estos ejes verticales representan los objetivos y
están correctamente escalados. Dibujar un lugar geométrico de los valores objetivos de una solución
particular representada de esta manera permite su visualización simple pero efectiva. Por lo tanto,
el trazado paralelo proporciona una idea clara sobre el resultado obtenido. Aquí las Figs. 14 y 15
muestran los gráficos paralelos para resultados optimizados utilizando los modelos para los datos del año 1 y el año 2
Machine Translated by Google

70 BK Mahanta et al.

Fig. 13 Resultados cRVEA optimizados generados usando un EvoNN, b BioGP yc EvoDN2 en datos de
entrenamiento del año 2

4.9 Análisis de resultados

Los resultados obtenidos del proceso de optimización mediante el uso de cRVEA se presentan
en la Tabla 7. Dado que se obtiene una gran cantidad de soluciones óptimas de Pareto, en la
tabla solo se indican sus valores máximos y mínimos, con el fin de comparar los rangos
correspondientes en los datos originales. colocar. El análisis de los resultados se basa en tres
cosas. En primer lugar, se realiza una comparación de los resultados optimizados año a año
obtenidos de todas las técnicas de modelado basadas en datos con los datos industriales reales.
En segundo lugar, se evalúan varias soluciones de Pareto generadas a partir de la optimización
de modelos entrenados desde conjuntos de datos del año 1 al año 5 y sus rangos de soluciones.
En tercer lugar, se realiza un análisis integral de las soluciones de Pareto generadas a partir del
conjunto de datos total de cinco años y se explora su impacto en el proceso de toma de decisiones.
Recordemos que durante el proceso de optimización se ha aplicado el algoritmo cRVEA a
los objetivos como relación CO/CO2, enriquecimiento de oxígeno, productividad y RAFT, donde
todos ellos se optimizan simultáneamente. Los datos industriales originales
Machine Translated by Google

Optimización basada en datos de hierro de alto horno … 71

Fig. 14 Gráficos paralelos de resultados optimizados generados a partir de un EvoNN, b BioGP yc EvoDN2 usando datos
de entrenamiento del Año 1

indican que desde el año 1 hasta el año 5 todos los rangos de objetivos son bastante
altos, lo que no conduce a un rendimiento muy eficiente, y destaca aún más la necesidad
de optimización. De la Tabla 7 se ve que en los datos originales el rango de relación CO/
CO2 se obtiene entre 0.02 y 3.27, el enriquecimiento de oxígeno se encuentra entre 0.01
y 69.25 Nm3/thm, la productividad se da entre 0.04 a 2.93 mt/d/m3 y la temperatura de
llama adiabática de la pista de rodadura se registra entre 1860 y 2575 °C. Estos son los
rangos totales de variación de los objetivos individuales que ya están tabulados con
detalles. De acuerdo con la formulación de optimización, el objetivo, como la relación CO/
CO2 y el enriquecimiento de oxígeno, debe minimizarse, por otro lado, la productividad y
la RAFT deben maximizarse. Estas estrategias se siguen dentro del algoritmo cRVEA
para encontrar soluciones óptimas. En el caso inicial, los modelos entrenados por BioGP
de todos los objetivos se ejecutan a través del algoritmo cRVEA. El resultado optimizado
evaluado muestra que el rango de soluciones para la relación CO/CO2 se genera entre 1
y 1,59, el enriquecimiento de oxígeno se encuentra entre 0,03 y 29,5 Nm3/thm, la
productividad se encuentra entre 1,13 y 2,94 mt/d/m3 y la RAFT se encuentra en entre 2078 y 2554,47 °C
Machine Translated by Google

72 BK Mahanta et al.

Fig. 15 Gráficos paralelos de resultados optimizados generados a partir de un EvoNN, b BioGP yc EvoDN2 usando datos
de entrenamiento del año 2

los resultados óptimos generados a partir de los datos entrenados de EvoNN también están
dentro del rango. El rango de soluciones para la relación CO/CO2 se genera entre 1 y 1,52, el
enriquecimiento de oxígeno se encuentra entre 0 y 25 Nm3/thm, la productividad se encuentra
entre 1,08 y 2,84 mt/d/m3 y la RAFT se encuentra entre 2031 y 2583,41 °C . El resultado
optimizado para los datos entrenados de EvoDN2 también se produjo dentro del límite
requerido. El rango de soluciones para la relación CO/CO2 está entre 1 y 1,61, el
enriquecimiento de oxígeno está entre 0 y 22 Nm3/thm, la productividad está entre 1,2 y 2,83
mt/d/m3 y la RAFT está entre 2100,3 y 2596,39 °C. Los rangos de solución optimizada Year1
y Year2 se muestran en las Figs. 16 y 17 donde se encuentra fácilmente disponible una
visualización clara de la dispersión de los resultados optimizados con respecto a los datos industriales originale
Un examen detallado de las soluciones óptimas generadas a partir de los modelos
entrenados mediante el uso de un algoritmo evolutivo de vector de referencia basado en
restricciones indica que el rango de soluciones y el número de puntos de Pareto varían
significativamente de un algoritmo a otro. Estos puntos óptimos satisfacen el racional de
optimización definido anteriormente. Como era de esperar, en un problema de minimización,
los valores objetivos se desvían hacia su límite inferior y ocurre lo contrario para un problema
de maximización, donde los valores objetivo optimizados se desvían hacia el rango máximo de los datos indus
Machine Translated by Google

Optimización basada en datos de hierro de alto horno … 73

Tabla 7 Resultados evaluados utilizando el algoritmo cRVEA

Algoritmo de año Objetivos

Y1 (CO/CO2) Y2 (O2) Y3 (Productividad) Y4 (BALSA)


Mín. Máx. Mín. Máx. Mín. Máx. Mín. máx.

1 Datos originales 1,12 1,70 .04 68.85 0.14 2.49 2010.00 2330.00
Hoja

BioGP_cRVEA 0,99 1,58 2,72 29,49 1,53 2.93 2079.90 2490.02

EvoNN_cRVEA 1.06 1,65 1,08 19,17 1,24 2.83 2031.00 2401.94

EvoDN2_cVEA 1.19 1.51 3,41 21,89 1,3 2.6 2212.36 2268.78

2 Datos originales 1,12 1,64 0,01 69,25 0,75 2.41 1950 2575
Hoja

BioGP_cRVEA 1.22 1,38 0,98 28,69 1,15 2.16 2274.39 2561.47

EvoNN_cRVEA 1.15 1,38 1,19 24,49 1,26 2.24 2253.64 2578.32

EvoDN2_cVEA 1.28 1,61 1,08 21,06 1,25 2.66 2310.37 2563.43

3 Datos originales 1.02 1,63 0,002 4,80 0,14 2.83 1860.00 2510.00
Hoja

BioGP_cRVEA 1.27 1.59 0.21 3,49 1,13 2.09 2225.47 2508.94

EvoNN_cRVEA 1.22 1,41 0,06 3,35 1,16 2.08 2292.65 2509.32

EvoDN2_cRVEA 1 1,35 0,08 2,22 1,73 2.17 2222.39 2596.39

4 Datos originales 1,09 1,30 0,08 5,61 1,16 2.90 2000.00 2410.00
Hoja

BioGP_cRVEA 1,05 1,20 0,03 3,98 1,35 2.90 2123.38 2543.51

EvoNN_cRVEA 1.01 1.14 .001 3.84 1.32 2.82 2104.33 2583.41

EvoDN2_cVEA 1.10 1.27 0.21 5,08 1,21 2.82 2100.30 2491.93

5 Datos originales 1,08 3,87 0,01 5,15 0,07 2.93 2040.00 2566.00
Hoja

BioGP_cRVEA 1.19 1,59 0,33 5,00 1,16 2.12 2233.57 2553.54

EvoNN_cRVEA 1.15 1,51 0,02 2,94 1,08 2.31 2100.60 2325.51

EvoDN2_cRVEA 1,08 1,60 0,12 4,61 1,24 2.36 2339.57 2560.39

usado. En este problema, el enriquecimiento de oxígeno en la hoja de datos industriales está


en el rango de 0 y 69 Nm3/thm, que debe minimizarse de acuerdo con nuestra formulación.
Al observar todos los modelos, observamos que las soluciones optimizadas se agrupan en un
rango más estrecho hacia el lado mínimo del espacio objetivo: en los modelos EvoNN, el
rango optimizado está entre 0 y 25 Nm3/thm, para los modelos BioGP el rango correspondiente
está entre 0 y 30 Nm3/thm, mientras que en el caso de los modelos EvoDN2 las soluciones
óptimas se encuentran entre 0 y 22 Nm3/thm. En este caso, el modelo BioGP optimizado
logró una mejor difusión en comparación con las otras estrategias. De la misma manera,
también se pueden comparar los resultados de productividad, que se quiere maximizar. Las
soluciones de Pareto con su rango y número de conteos para los cinco años se muestran en
las Figs. 18, 19 y 20. El proceso de optimización cRVEA y las soluciones de Pareto que
se generan mediante el uso de este algoritmo consta de cuatro objetivos y ocho variables y cada una de estas
Machine Translated by Google

74 BK Mahanta et al.

Fig. 16 Gama de soluciones optimizadas del año 1

Fig. 17 Gama de soluciones optimizadas del año 2


Machine Translated by Google

Optimización basada en datos de hierro de alto horno … 75

Fig. 18 Soluciones de Pareto y rango generado a partir de datos entrenados de EvoNN usando cRVEA

Fig. 19 Soluciones de Pareto y rango generados a partir de datos entrenados por BioGP usando cRVEA
Machine Translated by Google

76 BK Mahanta et al.

Fig. 20 Soluciones de Pareto y rango generado a partir de datos entrenados de EvoDN2 usando cRVEA

Las variables se utilizan con dos retrasos de tiempo adicionales. Estos atributos están
representados en un hiperespacio multidimensional. Según el presente análisis, todos los
objetivos optimizados caen en el rango factible, lo cual es importante desde la perspectiva
operativa industrial. Del mismo modo, todas las variables siguen su ejemplo. Las variables que
se utilizan aquí están organizadas como X11, X12, X13, X21, X22, X23, X31, X32, X33, X41,
X42, X43, X44, X51, X52, X53, X61, X62, X63, X71, X72 , X73, X81, X82 y X83. Esta es la
representación en serie temporal de la basicidad variable (X1), Volumen de chorro caliente
(X2), Presión de chorro caliente (X3), Temperatura de chorro caliente (X4), Mineral de hierro
(X5), Sinterizado (X6), Coque (X7) y Silicio (X8). El número de soluciones de Pareto
desarrolladas por el algoritmo cRVEA consta de tres series de datos timelag1, timelag2 y los
datos en tiempo real indicados por el número 3. Después de la optimización, todos los datos de
series temporales con sus variables y objetivos se obtienen dentro de límites aceptables.
satisfaciendo el requisito de este trabajo. La Tabla 8 representa los resultados de la serie
temporal completa después del proceso de optimización y la Fig. 21 presenta todas las
soluciones de Pareto, que se pueden visualizar fácilmente para identificar el número de soluciones en el conjun

4.9.1 Papel de la toma de decisiones en el problema de optimización de


muchos objetivos

La metodología sugerida aquí proporciona una serie de soluciones óptimas, de las cuales un
tomador de decisiones (DM), generalmente una persona familiarizada con los detalles operativos
Machine Translated by Google

Optimización basada en datos de hierro de alto horno … 77

Tabla 8 Resultados de la serie temporal después del proceso de optimización

Optimizador: cRVEA
Rango variable Número de Número de Número de Número de
soluciones soluciones soluciones soluciones
óptimas (Y1) óptimas (Y2) óptimas (Y3) óptimas (Y4)
X11 0,71–1,21 302 250 192 162
X12 0,71–1,21 284 232 176 147
X13 0,71–1,21 287 235 181 152
X21 1500–2650 312 270 210 179
X22 1500–2650 263 234 185 158
X23 1500–2650 247 219 179 156
X31 1,75–2,75 265 228 180 155
X32 1,75–2,75 278 243 189 159
X33 1,75–2,75 253 226 174 149
X41 900–1200 248 196 147 123
X42 900–1200 222 172 120 95
X43 900–1200 201 150 102 81
X51 0.3–1 303 264 202 173
X52 0.3–1 302 263 204 175
X53 0.3–1 287 247 195 168
X61 0,75–1,5 268 242 194 169
X62 0,75–1,5 251 227 180 156
X63 0,75–1,5 263 228 177 151
X71 300–700 275 241 198 166
X72 300–700 231 208 170 139
X73 300–700 233 213 175 148
X81 0,25–2 320 272 213 178
X82 0,25–2 308 259 204 171
X83 0,25–2 310 263 207 175

del alto horno, debe seleccionar la opción más adecuada, empleando algún criterio adicional, si es
necesario. Esto es para enfatizar que la toma de decisiones es un proceso de selección importante
entre el número de alternativas disponibles durante el curso de acción en un escenario de muchos
objetivos. Los tomadores de decisiones identifican la más adecuada entre el conjunto de soluciones que
satisface la restricción dictada por el entorno, el proceso y los recursos. En este trabajo, los diagramas
de Pareto proporcionan información para la toma de decisiones, al representar las soluciones en un
hiperespacio multidimensional que contiene ocho variables y cuatro objetivos. Para un tomador de
decisiones, esto a menudo es una tarea muy desafiante, ya que existe una gran cantidad de atributos
que crean dificultades para la elección coherente.
Para un operador de alto horno, estas soluciones de Pareto con parcelas paralelas pueden proporcionar
Machine Translated by Google

78 BK Mahanta et al.

cRVEA

350

300

250
Y1
200
Y2
150
Y3
100
Y4
soluciones
óptimas
Número
de
50

0
0.3-1 0.3-1 0.3-1
0.25-2 0.25-2 0.25-2

0,75-1,5 0,75-1,5 0,75-1,5 300-700 300-700 300-700

0,71-1,21 0,71-1,21 0,71-1,21 1,75-2,75 1,75-2,75 1,75-2,75 900-1200 900-1200 900-1200

1500-2650 1500-2650 1500-2650

X11X12X13X21X22X23X31X32X33X41X42X43X51X52X53X61X62X63X71X72X73X81X82X83
Variable con rango

Fig. 21 Número de soluciones de Pareto en conjunto óptimo y los rangos variables generados por cRVEA

fuente importante para evaluar la decisión operativa, ya que cada entrada en el conjunto de
soluciones multidimensionales es una solución óptima. Una persona que esté suficientemente
familiarizada con la operación del alto horno debe examinar y analizar cuidadosamente todos los
resultados en los gráficos paralelos y, a partir de ahí, de acuerdo con los requisitos específicos de la
producción, puede formular una recomendación o tomar directamente las medidas necesarias, si es
necesario. autorizado.

5 Conclusión y perspectiva futura

Este capítulo ha discutido la implementación de técnicas de modelado basadas en datos en una


situación única de fabricación de hierro en altos hornos, donde estas técnicas se aplican de manera
eficiente para resolver un problema de optimización de muchos objetivos. En este trabajo se utilizan
varios enfoques evolutivos como EvoNN, BioGP y EvoDN2 para desarrollar modelos óptimos basados
en datos. Se utiliza un algoritmo evolutivo basado en restricciones para acceder a los modelos óptimos
con el fin de evaluar las soluciones óptimas para el problema.
Las soluciones de Pareto se generaron dentro de los rangos aceptables del espacio objetivo,
satisfaciendo los requisitos de operación regular de la planta y entregaron resultados significativos
considerando todos los atributos utilizados. Los resultados son lo suficientemente significativos como
para que la operación de la planta pueda mejorarse mediante la variación periódica de los parámetros de entrada.
Por lo tanto, las soluciones óptimas se pueden aplicar de manera efectiva en la estrategia operativa y
la planificación del proceso de fabricación de hierro en altos hornos. Manejar una serie de datos de
tiempo de problemas de muchos objetivos es un trabajo difícil, pero nuestra investigación indica
claramente que los metamodelos construidos durante este estudio podrían manejar los cinco años no lineales.
Machine Translated by Google

Optimización basada en datos de hierro de alto horno … 79

datos ruidosos con la precisión adecuada y los resultados se calculan dentro del espacio
objetivo aceptable de la operación de la planta.
En el futuro, una gran cantidad de problemas en tiempo real en la fabricación de hierro en
altos hornos deben manejarse con técnicas avanzadas. Es probable que el algoritmo EvoDN2
discutido aquí sea una herramienta muy útil para eso. También es necesario desarrollar
versiones mejoradas de estos algoritmos para optimizar el proceso a un ritmo más rápido.
Se debe desarrollar alguna métrica basada en el rendimiento adecuada para optimizaciones
de muchos objetivos, que podría usarse con alta precisión en los algoritmos híbridos para
procesar un gran volumen de datos durante el trabajo operativo en tiempo real. En otras
palabras, en el futuro, enfoques similares deberían poder proporcionar información viable
para el control del sistema in situ, además de la toma de decisiones fuera de línea en la
industria del hierro y el acero.

Referencias

1. El Libro Blanco del Acero, Asociación Mundial del Acero, 2012. ISBN 978-2-930069-67-8.
2. Geerdes, M., Chaigneau, R., Kurunov, J., Lingiardi, O. y Ricketti, J. (2015). Explosión moderna
horno de hierro haciendo una introducción. IOS Press, Universidad de Delft.
3. Omori, Y. (1987). Fenómeno y modelado de altos hornos. Londres: Elsevier.
4. Ghosh, A. y Chatterjee, A. (2008). Teoría y práctica de la siderurgia. Delhi: PHI
aprendizaje privado limitado.
5. Muchi, I. (1967). Modelo matemático de alto horno. Transacción del Instituto del Hierro y el Acero de Japón, 7,
223–233.
6. Rist, A. y Meysson, N. (1967). Una representación dual del balance de masa y calor del alto horno. Revista de
metales, 19, 50–59.
7. Kilpinen, A. (1988). Un modelo en línea para la estimación de la zona de fusión en un alto horno.
Ciencias de la ingeniería química, 43, 1813–1818.
8. Nath, NK (2002). Simulación de flujo de gas en alto horno para diferentes distribuciones de carga y forma de
zona cohesiva. Procesos de materiales y fabricación, 17, 671–681.
9. Dong, XF, Pinson, D., Zhang, SJ, Yu, AB y Zulli, P. (2006). Flujo de gas y polvo en un alto horno con diferentes
formas de zona cohesiva . Modelado matemático aplicado, 30, 1293–1309.
10. Hatano,M., & Kurita, KA (1992). Modelo matemático de alto horno con distribución radial de flujo de gas,
transferencia de calor y reacción considerada. Transacción del Instituto del Hierro y el Acero de Japón, 22, 448–
456.
11. Zhou, Z., Zhu, H., Yu, A., Wright, B., Pinson, D. y Zulli, P. (2005). Simulación de partículas discretas
de flujo sólido en un alto horno modelo. ISIJ Internacional, 45, 1828–1837.
12. Decastro, JA, Nogami, H. y Yagi, J. (2002). Modelado matemático tridimensional multifásico del modelo basado
en multifluidos. ISIJ Internacional, 42, 44–52.
13. Adema, A., DEM. Modelado CFD del Alto Horno de Fabricación de Hierro. TU Delft, 2014, Universidad
Tecnológica de Delft.
14. Pettersson, F., Chakraborti, N. y Saxén, H. (2007). Una red neuronal multiobjetivo basada en un algoritmo
genético aplicada a datos de alto horno ruidosos. Computación suave aplicada, 70, 387–397.
15. Agrawal, A., Tiwari, U., Pettersson, F., Das, S., Saxén, H. y Chakraborti, N. (2010). Análisis de datos de altos
hornos utilizando una red neuronal evolutiva y un algoritmo genético multiobjetivo.
Fabricación de hierro y fabricación de acero, 37, 353–359.
16. Giri, BK, Pettersson, F., Saxen, H. y Chakraborti, N. (2013). La programación genética evolucionó a través de
algoritmos biobjetivos aplicados a un alto horno. Materiales y procesos de fabricación, 28, 776–882.
Machine Translated by Google

80 BK Mahanta et al.

17. Mahanta, BK y Chakraborti, N. (2018). Modelado evolutivo basado en datos y optimización multiobjetivo del conjunto
de datos ruidosos en el proceso de fabricación de hierro en altos hornos. Steel Research International, 89, 1–11.

18. Mitra, T., Pettersson, F., Saxén, H. y Chakraborti, N. (2016). Optimización de la carga de Altos Hornos mediante
algoritmos evolutivos y genéticos multiobjetivo. Materiales y procesos de fabricación, 32, 1179–1188.

19. Fleming, PJ, Purshouse, RC y Lygoe, RJ (2005). Optimización multiobjetivo: una


perspectiva del diseño de ingeniería. EMO, 5, 14–32.
20. Wagner, T., Beume, N. y Naujoks, B. (2007). Métodos basados en Pareto, agregación e indicadores en la
optimización de muchos objetivos. En Optimización multicriterio evolutiva Springer Berlin/ Heidelberg, 742–756.

21. Zou, X., Chen, Y., Liu, M. y Kang, L. (2008). Un nuevo algoritmo evolutivo para resolver problemas de optimización
de muchos objetivos. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 38(5), 1402–
1412.
22. Chand, S. y Wagner, M. (2015). Optimización evolutiva de muchos objetivos: una guía de inicio rápido. Surveys in
Operations Research and Management Science, 20(2), 35–42.
23. Ishibuchi, H., Tsukamoto, N. y Nojima, Y. (2008). Optimización evolutiva de muchos objetivos: una breve revisión.
En Computación Evolutiva, 2008. CEC 2008. (Congreso Mundial IEEE sobre Inteligencia Computacional).
Congreso IEEE, 2419–2426.
24. Li, B., Li, J., Tang, K. y Yao, X. (2015). Algoritmos evolutivos de muchos objetivos: una encuesta.
Encuestas de computación ACM (CSUR), 48(1), 13.
25. Zhang, X., Tian, Y., Cheng, R. y Jin, Y. (2016). Un algoritmo evolutivo basado en agrupamiento de variables de
decisión para la optimización de muchos objetivos a gran escala. Transacciones IEEE en computación evolutiva.

26. Narukawa, K. y Rodemann, T. (2012). Examinar el rendimiento de muchos algoritmos evolutivos de optimización
objetiva en una aplicación del mundo real. En Computación Genética y Evolutiva (ICGEC), Sexta Conferencia
Internacional (IEEE) de 2012, 316–319.
27. Li, M., Yang, S., Liu, X. y Shen, R. (2013). Un estudio comparativo sobre algoritmos evolutivos
para la optimización de muchos objetivos. En EMO, 261-275.
28. Ishibuchi, H., Masuda, H., Tanigaki, Y. y Nojima, Y. (2015). Cálculo de la distancia modificada en distancia
generacional y distancia generacional invertida. Conferencia internacional sobre optimización multicriterio evolutiva,
Springer, Cham, 110–125.
29. Mahanta, BK y Chakraborti, N. (2020). Optimización de tres objetivos de conjuntos de datos ruidosos en el proceso
de fabricación de hierro en altos hornos utilizando algoritmos evolutivos. Materiales y procesos de fabricación,
35(6), 677–686.
30. Zou, X., Chen, Y., Liu, M. y Kang, L. (200). Un nuevo algoritmo evolutivo para resolver muchos problemas de
optimización objetiva. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 38(5), 1402–
1412.
31. Miettinen, K. (2012). Optimización multiobjetivo no lineal. Ciencia y negocios de Springer
medios, 12.
32. Poli, R., Langdon, WB y Mcphee, NF (2008). Una guía de campo para la programación genética.
Publicado a través de http://lulu.com.
33. Pettersson, F., Biswas, A., Sen, P., Saxén, H. y Chakraborti, N. (2009). Análisis de datos de lixiviación para mineral
de manganeso de bajo grado utilizando redes neuronales y algoritmos genéticos multiobjetivo.
Fabricación de materiales. Procesos, 24, 320–330.
34. Mondal, DN, Sarangi, K., Petterson, F., Sen, PK, Saxén, H. y Chakraborti, N. (2011).
Separación de Cu-Zn por membrana líquida soportada analizada a través de algoritmos genéticos multiobjetivo.
Hidrometalurgia, 107, 112–123.
35. Hodge, BM, Pettersson, F. y Chakraborti, N. (2006). Reevaluación de las condiciones óptimas de operación para el
extremo primario de una planta siderúrgica integrada utilizando algoritmos genéticos multiobjetivo y equilibrio de
Nash. Steel Research International, 77(7), 459–461.
36. Chugh, T., Jin, Y., Miettinen, K., Hakanen, J. y Sindhya, K. (2016). Un algoritmo evolutivo guiado por un vector de
referencia asistido por sustituto para una optimización de muchos objetivos computacionalmente costosa. IEEE
Transactions on Evolutionary, 22(1), 129–142.
Machine Translated by Google

Optimización basada en datos de hierro de alto horno … 81

37. Chowdhury, S., Chakraborti, N. y Sen, PK (2020). Estudios de optimización energética para plantas siderúrgicas
integradas empleando diversas rutas siderúrgicas: Modelos y enfoque basado en algoritmos evolutivos.
Revisión de procesamiento de minerales y metalurgia extractiva, 1–12.
38. Mahanta, BK y Chakraboti, N. (2019). Computación evolutiva en hierro de alto horno
haciendo. en optimización en la industria. Springer, Cham, 211–252.
39. Collet, P. (2007). Programación genética en manual de investigación sobre la naturaleza Computación
independiente para economía y gestión. Rennrd, JP (ed.), Idea: Hershey, 59–73.
40. Jha, R., Sen, PK y Chakraborti, N. (2014). Algoritmo genético multiobjetivo y modelos de programación genética
para minimizar las tasas de entrada de carbono en un alto horno en comparación con un enfoque analítico
convencional. Steel Research International, 85(2), 219–232.
41. Roy, S. y Chakraborti, N. (2020). Desarrollo de una red neuronal profunda evolutiva para la investigación de
materiales. En Actas complementarias de la 149.ª reunión anual y exposición de TMS 2020, Springer, Cham,
817–828.
42. Roy, S., Saini, BS, Chakrabarti, D. y Chakraborti, N. (2020). Propiedades mecánicas de aceros microaleados
estudiadas utilizando una red neuronal profunda evolutiva. Materiales y procesos de fabricación, 35(6), 611–
624.
43. Cheng, R. y Jin, Y. (2016). Un algoritmo evolutivo guiado por vector de referencia para muchas optimizaciones
objetivas. IEEE, 20, 773–790.
44. Chugh, T., Chakraborti, N., Sindhya, K. y Jin, Y. (2017). Un algoritmo evolutivo multiobjetivo asistido por
sustitutos basado en datos aplicado a muchos problemas objetivos de optimización de altos hornos. Materiales
y procesos de fabricación, 32(10), 1172–1178.
45. Li, B., Yu, S. y Lu, Q. (2003). Un algoritmo de vecino más cercano mejorado para la categorización de texto,
arXiv preprint cs/0306099.
46. Jiang, S., Pang, G., Wu, M. y Kuang, L. (2012). Un algoritmo K-vecino más cercano mejorado para la
categorización de texto. Sistemas expertos con aplicaciones, 39(1), 1503–1509.
47. Qi, M. y Zhang, GP (2008). Modelado y pronóstico de series temporales de tendencias con redes neuronales.
Transacciones IEEE en redes neuronales, 19(5), 808–816.
48. Cortez, P., Rocha, M. y Neves, J. (2001). Algoritmos genéticos y evolutivos para la predicción de series
temporales. En Conferencia internacional sobre aplicaciones industriales, de ingeniería y otras de sistemas
inteligentes aplicados Springer, Berlín, Heidelberg, 393–402.
49. Jenkins, B. y Mullinger, P. (2011). Hornos industriales y de proceso: Principios, diseño y funcionamiento. Elsevier.

50. Ryman, C. (2007). Sobre el uso de métodos de integración de procesos: evaluación de las estrategias de
emisión de energía y CO2 en la fabricación de hierro en altos hornos y la fabricación de acero al oxígeno,
tesis doctoral, Luleå tekniska universitet.
51. Du, SW, Yeh, CP, Chen, WH, Tsai, CH y Lucas, JA (2015). Características de combustión del carbón pulverizado
dentro de la pista de rodadura del alto horno en varias operaciones de inyección y formas de enriquecimiento
de oxígeno. Combustible, 143, 98–106.
52. Mandal, GK, Sau, DC, Suchandan K. Das y Bandyopadhyay, D. (2014). Un modelo de equilibrio térmico y de
materiales en estado estacionario para un alto horno de fabricación de hierro y su validación con datos
operativos. Transacciones del Instituto Indio de Metales, 67, 209–221.
53. Govindan, D., Chakraborty, S. y Chakraborti, N. (2010). Análisis del flujo de fluidos en colada continua mediante
redes neuronales evolutivas y algoritmos genéticos multiobjetivo. Steel Research International, 81(3), 197–203.

54. Chakraborti, N. (2013). Modelado evolutivo basado en datos. En Informática para la ciencia de los materiales.
e ingeniería, Butterworth-Heinemann, 71–95.
55. Li, M., Zhen, L. y Yao, X. (2017). Cómo leer muchos conjuntos de soluciones objetivas en paralelo
coordenadas. Facultad de Ciencias de la Computación, Universidad de Birmingham, Reino Unido.
Machine Translated by Google

Una breve evaluación del aprendizaje automático en sondas


de detección industrial

R. Biswas

Resumen El aprendizaje automático ha recorrido un largo camino desde sus inicios. Ha revolucionado
totalmente el escenario industrial. Durante décadas, existe una clara evidencia del uso de sofisticados
sistemas digitales de control y monitoreo por parte de los operadores industriales. Estos implican
una multitud de sensores con funcionalidades definidas. Mediante la adopción del aprendizaje
automático, su manejo se vuelve mucho más fácil. En este capítulo, se destacan las diferentes
estrategias adoptadas a través del aprendizaje automático. Además, se describen los desafíos de la
integración efectiva de datos industriales, incluidos los de sensores, para ML estándar. Aparte de
esto, este capítulo evalúa a los lectores sobre el mantenimiento predictivo; acompañado de
recomendaciones.

Palabras clave Aprendizaje automático · Sensores · Supervisado · Clústeres ·


Mantenimiento predictivo · Clústeres · Etiquetas · Característica · Datos

1. Introducción

La población mundial está creciendo a un ritmo alarmante. Según el medidor mundial, la población
mundial asciende a 7.800 millones de personas a partir de ahora. Con el aumento de la población
día a día, la demanda de productos también está aumentando. La tasa de crecimiento siempre
estará aumentando sin ningún signo de estancamiento. En consecuencia, la necesidad de productos
esenciales es directamente proporcional al núm. de los consumidores Ahora, para satisfacer la
demanda de productos, tenemos que depender mucho de las piezas de maquinaria relacionadas
con la fabricación. Con maquinaria pesada, se requiere desplegar mano de obra para su control y
operación. Además, las piezas pesadas de maquinaria suelen estar vinculadas a la fabricación a
pequeña escala. Independientemente de sus dimensiones, se debe realizar un mantenimiento
regular de las piezas de maquinaria, lo que permite una oportuna

R. Biswas (B)
Laboratorio de Óptica Aplicada y Fotónica, Departamento de Física, Universidad de Tezpur, Tezpur, Assam, India
Correo electrónico: rajib@tezu.ernet.in

© Los autores, bajo licencia exclusiva de Springer Nature Suiza AG 2022 S. Datta y JP 83
Davim (eds.), Machine Learning in Industry, Management and Industrial Engineering,
https://doi.org/10.1007/978-3 -030-75847-9_4
Machine Translated by Google

84 R. Biswas

la producción como el procesamiento. Ahora, surge el problema principal. Si el nro. de componentes


aumenta, entonces la complejidad también aumenta. La situación se vuelve más torpe si el no. de varios
montajes de sensores/sondas también.
Los procesos industriales abarcan una amplia gama de componentes constitucionales. Desde la
producción a nivel del suelo hasta la entrega de productos, existen varios pasos subyacentes.
Por ejemplo, si tenemos una unidad de producción de alimentos, tenemos que someternos
secuencialmente al procesamiento de las materias primas hasta el empaque final de los productos. Sin
embargo, en el medio, es esencial realizar un mantenimiento regular de limpieza de los equipos de
sobremesa. Esta parte de limpieza es en sí misma un trabajo tedioso que se puede hacer manualmente
o mediante un conjunto de sondas variadas. En caso de limpieza manual, es necesario desmontar todos
los componentes, seguido de un minucioso montaje de los mismos. En consecuencia, se instalan
sensores dedicados para fines de limpieza. Del mismo modo, en el caso de las industrias químicas que
se ocupan de la mezcla gas-líquido, es muy esencial vigilar de cerca la mezcla adecuada a través de
esquemas sensoriales aliados para que se puedan lograr las condiciones deseadas. Todos estos casos
convergen en un punto en el que las sondas de sensores industriales que se basan en diferentes
métodos son parte integral del sistema. Mientras tanto, estos diferentes métodos de sensores exhiben
una amplia gama de diversidad hasta el momento en sus factores operativos, a saber, la velocidad de
acceso a los datos y la cobertura de monitoreo del área espacial. No hace falta mencionar que un solo
método para administrar estos sensores no tiene sentido. Igualmente importante es el hecho de que
tenemos que explorar métodos de análisis de datos apropiados para que la medición registrada con el
sistema bajo inspección pueda vincularse de manera efectiva. Con un creciente no. de puntos nodales
(es decir, sensores), emergen datos voluminosos que resultan ser multidimensionales. En este momento,
el monitoreo individual de todos los datos para percibir la salud de la maquinaria es una tarea hercúlea.
Mientras tanto, si el sistema de producción en general está experimentando un declive gradual que
conduce a un mal funcionamiento, debería haber un mecanismo para revisarlo y detenerlo.

Para lidiar con condiciones tan exacerbadas, el aprendizaje automático aparece como un salvador
[1–11]. El aprendizaje automático ha demostrado ser una herramienta robusta para el análisis de datos.
Últimamente, se ha convertido en una parte integral de una industria. Mientras tanto, el advenimiento de
los avances tecnológicos conduce a una abrumadora demanda de producción rentable. Como resultado,
hay un cambio de paradigma hacia la automatización de componentes relacionados con la producción.
Al mismo tiempo, la calidad de la producción se convierte en otra preocupación. Precisamente, en el
largo plazo para lograr la ultraautomatización con una reducción de costos óptima simultánea, la
inteligencia artificial industrial y el aprendizaje automático emergen como rescatadores [6–16]. Se
pueden considerar como uno de los factores impulsores que añaden un impulso extra a la
ultraautomatización [17–20]. Este capítulo ofrece una descripción general del modus operandi del
aprendizaje automático en relación con las sondas industriales. Destaca varias cuestiones clave de ML
relacionadas con la preparación de datos para la gestión de los mismos para lograr un funcionamiento
adecuado. Además, el mantenimiento predictivo a través de ML se describe de manera integral y se
acompaña de futuras recomendaciones.
Machine Translated by Google

Una breve evaluación del aprendizaje automático en la detección industrial ... 85

2 Diagrama de flujo funcional de ML

Con la disponibilidad inmediata de datos junto con la provisión de almacenamiento y captura


fáciles, AI y ML brindan un amplio alcance de utilización de datos para mejorar el rendimiento
de la producción, asegurando así la calidad y una mejor seguridad del personal involucrado. En
tales casos, los fabricantes diseñan el ML, con la ayuda de la IA de manera sistemática. En
primer lugar, hay varias sondas/sensores industriales que producen una gran cantidad de
datos. Para implementar ML, tenemos que seguir ciertos pasos. El primer paso es el
pretratamiento de los datos. Después de eso, tenemos que idear la extracción de características/
reconocimiento de patrones y la reducción de dimensiones. Luego le sigue el modelado del
sistema (como el mantenimiento predictivo). La Figura 1 ilustra el diagrama de flujo de Industrial ML [18–20].

2.1 Pretratamiento de datos

Por lo general, las máquinas industriales están equipadas con multitud de sensores o sondas.
Para construir un enfoque de ML efectivo, es imperativo que los datos colosales generados por
los sensores se pulan mediante un tratamiento previo de datos. En consecuencia, podemos
adoptar algunos de los procesos de pretratamiento de datos, como la eliminación de ruido, la
eliminación de la línea de base, los datos periféricos, así como la normalización de los datos [3–9].
Cada uno de estos procesos es necesario para optimizar el aprendizaje automático. Elaboramos
cada uno de ellos, que son los siguientes [3–9].

2.1.1 Borrado de ruido

Es un hecho común que varios sensores pertenecientes a la industria generarán un gran


conjunto de datos. Por lo tanto, no hay duda de que habrá una proliferación de ruido. Una vez
más, las series temporales constituyen el componente principal de los datos de los sensores.
En consecuencia, está destinado a estar contaminado por el ruido. Para borrar el ruido, existen
varias técnicas. Podemos citar el análisis de Fourier y el análisis wavelet. Wavelet es un poco ventajoso

Máquina
modelado

Fig. 1 Flujo de trabajo de aprendizaje automático correspondiente a sondas industriales


Machine Translated by Google

86 R. Biswas

ya que maneja datos tanto en el dominio del tiempo como en el de la frecuencia. Como resultado, la serie temporal se
puede dividir en dominios de alta y baja frecuencia. A menudo, el ruido acompaña al dominio de alta frecuencia. En tal
caso, la señal se puede filtrar y mejorar si establecemos un nivel de umbral en la parte de alta frecuencia mediante la
alteración de los coeficientes de wavelet en el mismo dominio. Además, también se puede recurrir al análisis
autorregresivo [6–10].

2.1.2 Eliminación de la línea de base

La eliminación de la línea de base es otra forma efectiva de pretratar los datos. A menudo, la señal no está correctamente
alineada y presenta características bastante caóticas. Esto conduce a la representación de datos falsos, así como a la
mala interpretación. Para eliminarlo, se inspecciona el espectro en busca de puntos clave de referencia, seguido de la
construcción del modelo de referencia. Una vez que termina, la línea de base se resta de la serie temporal, lo que da
como resultado una señal corregida y proporcionada. El algoritmo de aprendizaje adaptativo es una de las técnicas más
utilizadas para lograrlo [10-12].

2.1.3 Detección de valores atípicos

La erradicación del ruido no es el fin en la gestión de los datos proporcionados por los sensores. Igualmente importante
es la identificación adecuada de los valores atípicos que prevalecen en los datos del sensor. Cuando están presentes,
crean dificultad en el análisis sensorial preciso. Para empezar, los valores atípicos se refieren a puntos de anomalías u
observaciones que no encajan en la tendencia de los datos, o podemos referirnos a observaciones dudosas. Si no se
identifican correctamente, pueden conducir a un modelado erróneo de los sistemas. Existen herramientas estadísticas
ampliamente aceptadas como el análisis de regresión; en donde, se mantiene un valor residual estandarizado como
escala comparativa. Además, un mapa de autoorganización, que se basa en la separación de puntos de datos, es otra
herramienta que se puede utilizar en sistemas no lineales. Sin embargo, tenemos que usarlo con precaución.

A veces, ciertos puntos de datos exhiben una desviación considerable de la mayoría, superando así también a los
valores atípicos. Para lidiar con sistemas no lineales tan complejos, podemos usar redes neuronales de función de base
radial (RBFNN). Vale la pena mencionar que la exclusión de los valores atípicos del análisis puede dificultarnos la
comprensión de las características ocultas y el comportamiento de la operación, ya que los valores atípicos son
diferentes del ruido [13–16].

2.1.4 Normalización de datos

El último paso para el tratamiento previo de los datos es la normalización, que se puede dividir en dos categorías, a
saber, local y global. Mientras que la normalización local se refiere a la escala de la unidad, la normalización global
generalmente procede con la asociación de variables de sensor relativas. La idea detrás de esto es que no permite que
las variables de menor magnitud sean eclipsadas por las de mayor magnitud. Esto también puede
Machine Translated by Google

Una breve evaluación del aprendizaje automático en la detección industrial... 87

amplificar el ruido o la información irrelevante inherente a los datos del sensor que puede resultar
complicado para el modelado general del sistema [14–17].

2.2 Reconocimiento de patrones y reducción de dimensiones

Una vez que los datos se tratan previamente, surge otro componente vital para ML. No es otro que la
extracción de características lo que allana el camino para reducir el tamaño de la dimensión. En este
momento, hemos aprendido que las piezas de maquinaria industrial están asociadas con un gran no.
de sondas Estas sondas o sensores producen datos voluminosos. Con la ayuda de los desarrollos
modernos, surgen muchos sensores novedosos que se involucran en piezas de maquinaria industrial
complejas. Los datos generados por ellos son de alta calidad y precisión. Dado que varios sensores
están conectados, los datos producidos serán multidimensionales y de gran capacidad. Por lo tanto,
se vuelve imperativo analizar estos datos colosales a través de ciertas técnicas especializadas. Entre
ellos, la extracción de características y la reducción de dimensiones son uno de los más utilizados.
Como dice el nombre, identifica patrones definidos y, luego del reconocimiento de patrones, la
herramienta de análisis procede a reducir las dimensiones. Por ejemplo, si tenemos p dimensiones
como resultado de los datos del sensor, entonces lo asignamos a otra dimensión reducida de q a
través de la extracción de patrones distintivos [17–20]. Así, podemos escribir f: Mp ÿ Mq (p q). Debido
a la adopción de este paso único, se produce una reducción sustancial de las cargas computacionales
del siguiente paso
datos
de modelado
redundantes
delen
sistema.
suspenso
Mientras
a través
tanto,
de este
también
paso.
podemos
Para visualizar
mantenereste
el ruido
paso,y los
podemos mencionar varios algoritmos como el análisis multivariante y el análisis de componentes
principales.

2.3 Modelado de máquinas

Como sabemos, toda operación de fabricación es inútil si no se realiza el mantenimiento adecuado a


tiempo. Sucede que algunas funciones de utilidad de una planta de fabricación pueden salirse de
servicio debido a la falta de mantenimiento. En tales casos, existe una necesidad inminente de un
mecanismo que pueda al menos predecir la no funcionalidad o el retraso en la operación. En
consecuencia, aparece el término mantenimiento predictivo como parte integral del modelado de
máquinas. Esto se puede considerar como un cambio de juego total ya que el costo/gasto de las
operaciones puede bajar a un nivel considerable. Anteriormente, se ha visualizado a través del control
del supervisor y la adquisición de datos (SCADA). Precisamente, SCADA se refiere a la arquitectura
del sistema de control. Al estar compuesto por computadoras, comunicaciones de datos en red e
interfaces gráficas de usuario (GUI), desempeña un papel vital en la supervisión y el mantenimiento
de controladores lógicos programables (PLC) y controladores discretos proporcionales-integrales-
derivativos (PID). Esto tiene un vínculo directo con las plantas.
Machine Translated by Google

88 R. Biswas

o maquinaria. Mientras tanto, SCADA también se traduce en operaciones relacionadas con los
procesos de construcción, que son únicamente impulsados por proyectos. Si observamos el
procedimiento operativo de SCADA, existen ciertas restricciones. Como contiene un par de
niveles en su arquitectura, existe toda posibilidad de retraso de datos/brecha de comunicación
entre los niveles. Aparte de eso, los flujos de trabajo de supervisión se basan principalmente en roles estáticos.
Como resultado, no puede atender directamente a un sistema dinámico. En otras palabras,
podemos denominar SCADA como semimanual. Como tal, el comportamiento de la máquina es
parcialmente fijo, lo que brinda un pequeño margen de detección de anomalías. Otro punto digno
de mención es que las piezas de maquinaria se basan en patrones, que exhiben un comportamiento
dinámico. Este tipo de patrón de alteración pasa desapercibido en el caso de SCADA. Además,
los datos contextuales relacionados con el proceso de fabricación son demasiado grandes para
ser manejados por SCADA. Tomemos un ejemplo. Supongamos que uno de los diversos sensores
de una unidad de producción detecta repentinamente un aumento anormal de la temperatura.
Cuando el enfoque de supervisión está basado en reglas estáticas, no puede identificar el
problema real. Siendo ajeno a la esterilización en curso de la maquinaria, SCADA puede hacer
sonar una alarma que puede ser un caso de falso positivo. En tales situaciones, podemos tener
la utilidad de ML. Los algoritmos de ML prosperan para sincronizar la maquinaria y el flujo de
producción. Para que esto suceda, debe haber una entrada de tecnología operativa (OT), así
como datos de tecnología de la información (TI). El OT abarca datos de la planta de producción,
sensores, controladores lógicos programables, SCADA e historiadores, mientras que TI incluye
planificación de recursos empresariales, comportamientos y calidad, que se acompaña además
de datos del sistema de ejecución de maquinaria. Con una convergencia de datos de OT y TI, ML
puede ayudar en el mantenimiento adecuado. Ahora, cuando pasamos a la Inteligencia Artificial
Industrial, la imagen se vuelve más sofisticada. La adición adicional en términos de "Entrenamiento"
hace que ML sea capaz de detectar anomalías. Además, ayuda en la prueba de correlaciones
para identificar patrones a partir de una gran fuente de datos. Al estar dotado de la capacidad de
manejar el análisis de una gran cantidad de datos en tiempo real, ofrece respuestas factibles
correspondientes a cualquier problema inminente. Al hacerlo, cada activo y sistema está bajo un
escrutinio constante, lo que resulta en el diagnóstico previo de falla o mal funcionamiento. Con la
ayuda de los gemelos digitales, ML puede ofrecer información para futuras acciones.
Aquí, los gemelos digitales se refieren a réplicas de dispositivos físicos en el espacio virtual con
el único objetivo de ejecutar simulaciones antes del despliegue del tipo real. Como tales, funcionan
en sinergia con ML e AI [19, 20].

Habilitación del análisis predictivo de calidad con aprendizaje automático

La prevención del tiempo de inactividad no puede considerarse el objetivo final de la IA. Mantener
la calidad del rendimiento/producción es otra prioridad principal. ML puede ayudarnos en el
pronóstico del deterioro de la calidad. En consecuencia, se puede evitar el desperdicio de materias
primas en caso de que haya indicios de reducción de escala de los productos. Por lo tanto, ahorra
un tiempo valioso invertido en la producción de productos inferiores.
Podemos dividir el ML en dos categorías principales, a saber, supervisado y no supervisado.
aprendiendo. Todo el proceso se representa en la Fig. 2.
Machine Translated by Google

Una breve evaluación del aprendizaje automático en la detección industrial... 89

Fig. 2 Árbol de aprendizaje automático para mantenimiento predictivo

2.3.1 Aprendizaje automático supervisado

Esta se trata como una de las técnicas más utilizadas en el proceso de fabricación. Por lo general,
lo lleva a uno a un objetivo predefinido. Supongamos que alimentamos la entrada y, por lo tanto,
queremos tener la salida. Ahora, nuestro trabajo principal sería explorar la función de mapeo que
vincularía estas dos variables. Como tal, el aprendizaje automático supervisado requiere la
proliferación de muchas D, a saber, entrada de datos, entrenamiento y definición de datos, y
visualizaciones de datos a través de algoritmos selectivos. La idea principal detrás de esto es
construir una función de mapeo en un nivel de precisión prescrito, otorgando así la capacidad de
predecir salidas a la llegada de nuevas entradas en el sistema. El esquema de ML supervisado se
ilustra en la Fig. 3.
Para empezar, el algoritmo selectivo se ingresa a través de un conjunto de datos de
entrenamiento. Luego, después de varias iteraciones, se logra el resultado definido. Mientras tanto,
cuando se alcanza el nivel deseado de aprendizaje, el proceso de aprendizaje cesa. Como se
discutió en la sección anterior, se señala que el aprendizaje automático supervisado ayuda al
mantenimiento predictivo, que es de suma importancia en la fabricación. Esto se puede lograr a
través de dos formas, a saber, clasificación y regresión. Aunque, la realización se ejecuta en
diferentes niveles, ambos procesos tienen el mismo objetivo de mapear la función que conecta los
datos de entrada y salida. Cuando nos referimos a datos de entrada, nos referimos a datos
relacionados con el proceso de fabricación. Por otro lado, los datos de salida abarcan fallas de
piezas, sobrecalentamiento, retraso de tiempo, etc., como posibles resultados conocidos.

a) Clasificación

La clasificación relaciona atributos especiales con un conjunto de datos bien definido. Aunque se
limita a una respuesta de valor booleano, resulta muy beneficioso para lograr una precisión de nivel
superior. Por ejemplo, podemos citar clasificaciones atribuidas a los filtros de correo electrónico,
que separan los correos electrónicos no deseados de los útiles. Para ejecutar la clasificación, podemos
Machine Translated by Google

90 R. Biswas

Fig. 3 Esquema de aprendizaje automático supervisado

adoptar algoritmos que comprendan regresión logística y redes neuronales artificiales. En el caso del
sector industrial, el mantenimiento predictivo contiene una multitud de clasificaciones, ya que tiene
que lidiar con varias causas plausibles de falla de la máquina, detección de grietas, así como fallas
en el funcionamiento de los componentes como alertas de sensores aliados. En tal escenario, se
aplican clasificaciones de clases múltiples para estos posibles resultados que describen problemas
potenciales relacionados con el equipo. Con este objetivo, se evalúa en función de varias variables
que incorporan el estado de la máquina, el mal funcionamiento, etc.

(b) Regresión

La regresión es una de las otras formas en que se realiza el mantenimiento predictivo basado en ML.
Es aplicable cuando existen datos que se encuentran dentro de un rango. La regresión se usa cuando
existen datos dentro de un rango recopilado de sensores. La regresión ayuda a evaluar un factor
importante, es decir, la vida útil restante de un activo. El activo aquí implica cualquier componente o
conjunto de la maquinaria. A través de RUL podemos tener información a priori de la duración del
armado del siguiente componente/ensamblaje.
En general, la regresión lineal se adopta como el algoritmo de aprendizaje automático de uso común,
lo que genera resultados fáciles de interpretar. Como ejemplo de actividad basada en regresión,
podemos citar el ejemplo de la eliminación de incrustaciones de material alimentario de una plataforma
de sobremesa. Este ensuciamiento surge como uno de los obstáculos para la limpieza de equipos
con miras a mantener la higiene en la producción de alimentos. Podemos adoptar un modelo de
regresión de redes neuronales para pronosticar el ensuciamiento que queda en la superficie que
puede eliminarse posteriormente a través de mecanismos de limpieza efectivos.
Machine Translated by Google

Una breve evaluación del aprendizaje automático en la detección industrial ... 91

2.3.2 Aprendizaje automático no supervisado

Como dice el nombre, este proceso de ML es muy diferente del anterior en el sentido de que
no posee ningún resultado predefinido/esperado. En el ML anterior, tenemos la libertad de
entrenar el algoritmo en sintonía con el resultado esperado. Sin embargo, cuando no estamos
seguros del resultado, se puede recurrir al aprendizaje automático no supervisado. Para
improvisar ML no supervisado, también podemos implementar el agrupamiento y la preparación
de datos.

(a) Agrupación

Sucede que los científicos de datos se encuentran en un dilema cuando la fuente de información
que representa los datos no está definida. Aparte de esto, el resultado ya es desconocido. En
tales casos, se puede llevar a cabo la agrupación para salvar esta situación. A través de la
formación de grupos de datos comunes que comparten atributos definidos, es posible que ML
explore los patrones ocultos. Además, otra característica maravillosa de la agrupación es que
ayuda a disminuir las porciones no deseadas. Más apropiadamente, podemos llamarlo ruido, lo
que implica parámetros irrelevantes que se encuentran dentro de los datos mientras manejamos
variables de datos colosales.

(b) Preparación de datos

Ahora entramos en otro dominio importante del mantenimiento predictivo. Hasta ahora, hemos
entendido que ML depende en gran medida de los datos. El tipo de datos, así como la calidad,
siguen siendo parte integral de ML, lo que garantiza la participación correcta de los usuarios
finales. Simplifiquemos la discusión tomando el ejemplo de la falla de la máquina monitoreada
por el mantenimiento predictivo. Cuando comenzamos a trabajar en eventos de falla, tenemos
que capitalizar datos anteriores sobre el rendimiento de la maquinaria, además de
complementarlos con registros de mantenimiento. Todo tipo de estos conjuntos de datos
históricos nos permitirán prever cualquier evento que se produzca en el futuro, correspondiente a la maquinaria
Como sabemos, una máquina de producción puede durar varios años según el uso y el
mantenimiento. Esto da como resultado datos históricos para esa duración. Ahora, la principal
preocupación se cuela. Que los datos históricos se remonten al menos al período en el que
hay evidencia del proceso de deterioro de la máquina. Una vez que recopilamos esta
información, debemos tener en posesión otra información estática. Por otra información
estática, nos referimos a las características de la máquina, las propiedades mecánicas, las
propiedades de utilidad habituales, así como las condiciones ambientales de funcionamiento.
Después de acumularlos, tenemos que cubrir los aspectos importantes, que juegan un papel
decisivo en el diseño de la estrategia de mantenimiento predictivo. En consecuencia, algunos
aspectos clave que requieren atención urgente son los siguientes:

(a) Identificación de fallas relacionadas con una máquina o sistema.


(b) Selección de eventos de falla que requieren predicción. (c)
Caracterización de los eventos de falla con respecto a su ocurrencia como una disminución
repentina y constante. (d) Diagnosticar los componentes conectados a los eventos de
falla.
Machine Translated by Google

92 R. Biswas

(e) Parámetros medibles que significan el estado de salud del componente o de la máquina. (f) Fijar
la precisión y frecuencia de las mediciones.

Teniendo en cuenta estas preocupaciones, podemos ver que tiene que haber una sinergia entre
especialistas de dominio y científicos de datos.

3 Encuesta

En las secciones anteriores, analizamos en detalle los diversos algoritmos de ML, que proporcionan
una base para el mantenimiento predictivo. Dirijamos nuestra atención a la tendencia actual que
adoptan los investigadores, así como a las prácticas adoptadas por las industrias.
En consecuencia, en la Tabla 1, enumeramos muchos trabajos recientes que ejecutan diferentes tipos
de tareas mediante el aprendizaje automático mediante la adopción de diversos algoritmos. La Fig. 4
muestra una ilustración esquemática de sondas industriales para la adaptación de ML. Por ejemplo,
Forte et al. [21] desarrollaron una metodología para monitorear el régimen de mezcla gas-líquido dentro
de las mezclas gas-líquido y gas-sólido-líquido. Para ello, acumularon datos del sensor piezoeléctrico
de emisión acústica. marinar

Tabla 1 Sondas industriales asistidas por ML


SL. no. sonda industrial Regresión logística de Precisión Referencias
algoritmos de

1 Piezoeléctrico acústico aprendizaje automático, 90% (regresión [21]


sensor máquina de vectores de soporte logística)
(SVM), k-vecino más
cercano (k-NN) y árbol de
decisión

2 ultrasónico y óptico Regresión logística 97–98% en [22]


sensor predicción
3 Enlaces LOS/NLOS Clasificación supervisada – [23]

4 Sondas de temperatura, Máquinas de vectores soporte 98.1 [24]


presión y vibraciones (SVM) y la Multicapa
Perceptrón (MLP)
5 –
Sonda de corriente de Foucault Análisis cuantitativo de [25]
imágenes
6 –
Sensor de imagen CMOS modelo Random Forest [26]

7 Sensores ultrasónicos Regresión 96.1 [27]

8 Sensores de perforación Análisis de componentes [28]


principales
9 Sondas ultrasónicas Clasificadores 100% [29]

10 red neuronal profunda [30]

11 Transductores ultrasónicos Admite clasificadores de – [31]


de largo alcance máquinas vectoriales
Machine Translated by Google

Una breve evaluación del aprendizaje automático en la detección industrial... 93

Fig. 4 Ilustración esquemática de sondas industriales para adaptar ML

el análisis en tres regímenes de flujo diferentes, lograron un nivel de precisión del 90% del régimen
operativo tanto en presencia como en ausencia de partículas suspendidas en la mezcla.

En otro trabajo, Simeone et al. [22] habían informado de un mecanismo eficaz de vigilancia y
limpieza de alimentos. Como sabemos, la limpieza adecuada es obligatoria para mantener la higiene en
la industria alimentaria. Sin embargo, requiere una gran cantidad de agua y otros elementos esenciales.
Para optimizar dichos procesos, Simeone et al. utilizó sondas ópticas y ultrasónicas para producir
señales personalizadas y procesamiento de imágenes para ejecutar de manera efectiva el proceso de
limpieza. A través del modelo de regresión de redes neuronales, pudieron predecir el área y el volumen
con una precisión del 98 % y el 97 %, respectivamente. Una vez más, las sondas y los actuadores
inalámbricos son parte integral del establecimiento de un IoT industrial.
Sin embargo, las condiciones variables dan como resultado una pérdida de transmisión entre los nodos.
Mientras tanto, surgen disparidades incontrolables en el enlace de radio en el caso de la línea de visión
así como en el caso de no línea de visión. Para hacer frente a este problema, Bombino et al. [23] ejecutó
un algoritmo ML supervisado con complejidad variable para la inferencia del estado del enlace de radio
mediante la activación de los efectos de la frecuencia de muestreo limitada, la profundidad de bits y el
filtrado de promedio móvil. Por lo tanto, pudieron lograr con éxito una clasificación precisa de los enlaces
de radio LoS/NLoS. En otra hazaña, Orrù et al. [24] informó sobre un modelo de aprendizaje automático
(ML) simple y fácil de implementar para la predicción temprana de fallas de una bomba centrífuga en la
industria del petróleo y el gas. Señalaron que el esquema es económico y confiable. Usando dos
algoritmos de ML que compiten, a saber.
SVM y percepción multicapa, recopilaron datos de sondas de temperatura, presión y vibración y, por lo
tanto, lograron identificar fallas potenciales con alta precisión, lo que generó alertas de predicción de
fallas. Zhang et al. [25] divulgaron una sonda de prueba de corriente de Foucault (EC) en la que
utilizaron bobinas que transportaban corrientes trifásicas como excitación y, para la detección, utilizaron
sensores integrados de magnetorresistencia de túnel (TMR) que miden el campo magnético como
receptor. A través del análisis cuantitativo de imágenes con la ayuda de ML, pudieron mostrar una
excelente sensibilidad en la detección de defectos en las alineaciones horizontales y verticales. Además,
la adaptación de una red neuronal artificial les ayudó a predecir defectos ubicados en el rango de 1 mm.
En otro
Machine Translated by Google

94 R. Biswas

trabajo, Hussain et al. [26] ideó un analizador de partículas, basado únicamente en la dispersión de la luz.
Implementaron una configuración de haz colimado utilizando una cámara electrónica de consumo y
aprendizaje automático. Mediante el uso de un filtro espacial angular de factor de forma pequeño,
acumularon imágenes de alta resolución improvisadas con ML. Este enfoque los llevó a predecir con
precisión el diámetro medio del volumen; allanando así el camino para su uso fuera de un laboratorio
estándar, por ejemplo, en el monitoreo de procesos industriales en línea y en línea.
Mientras tanto, Bowler y colaboradores [27] desarrollaron un procedimiento de aprendizaje automático
mediante la adquisición y el procesamiento de señales relacionadas con la fuerza de empuje, el par, la
emisión acústica y la vibración durante la perforación. En realidad, fue un enfoque multisensorial. Mediante
el uso sólido del análisis de componentes principales, así como la extracción de características, lograron
diagnosticar con precisión el desgaste del flanco de la herramienta. En otro campo de la mezcla, Caggiano
et al. [28] adoptaron sensores ultrasónicos para predecir estados de mezcla. Con una combinación
sinérgica de SVM y clasificadores de regresión, pudieron descifrar mezclas de cuatro niveles, así como el
tiempo restante antes de lograr la mezcla por completo. Según su informe, hay precisiones de clasificación
de hasta el 96,3 % para la mezcla de miel y agua y del 92,5 % para la mezcla de masa de harina y agua.
Simultáneamente, se encontró que los valores de R2 para ambos modelos de regresión eran notables.
En otro trabajo de Escrig et al., se demostró que los equipos de producción de alimentos y bebidas se
pueden monitorear de forma rutinaria mediante el uso de mediciones ultrasónicas y una variedad de
clasificaciones diferentes de aprendizaje automático. Sería posible llegar a una predicción del material de
incrustación en tuberías de plástico y metal con una precisión cercana al 100 %. El trabajo en realidad
podría considerarse como una gran ayuda para reducir los gastos de mantenimiento. Munir et al. [30]
demostró un enfoque de red neuronal basada en datos. Demostraron que los defectos en podrían
clasificarse con gran precisión mediante la adopción de sondas ultrasónicas en las que no hay necesidad
manual previa de extracción de características. De manera similar, la predicción de fallas en las industrias
de petróleo y tuberías es muy importante. Si no se maneja con cuidado, puede causar interrupciones de
la producción a los sectores aliados. Para implementar un método de prueba completa, Lee et al. [31]
demostró un sistema de predicción de fallas para oleoductos y gasoductos. Como sondas, utilizaron
transductores ultrasónicos de largo alcance. A través del enfoque de clasificación de Euclidean-Support
Vector Machines, pudieron mostrar un mecanismo para tomar una decisión sobre la integridad de la
tubería en un entorno de monitoreo continuo.

Según su informe, la precisión de clasificación de SVM es independiente de la función del kernel y de los
datos que emanan de la simulación de tuberías y defectos. Todos estos trabajos se resumen en la Tabla
1.

4 Observaciones finales y recomendaciones

Es bastante evidente que AI y ML en la industria han producido cambios benéficos considerables, que
eventualmente conducen a una mayor eficiencia. En consecuencia, allana el camino para nuevas
oportunidades de negocio, acompañadas de la apertura de más vías.
Vale la pena mencionar que cuando ML está equipado con IoT, esto permite a los fabricantes facilitar la
productividad y reducir los gastos asociados con el mantenimiento. Los modelos supervisados pueden
ser explotados para adquirir percepciones de
Machine Translated by Google

Una breve evaluación del aprendizaje automático en la detección industrial... 95

los datos. La información obtenida hasta ahora ayuda tanto en el pronóstico como en la predicción.
La predicción no solo garantiza un proceso de fabricación fluido y eficiente, sino que también
minimiza los costos relacionados con el mantenimiento y prohíbe la degradación de la calidad de los
productos. También es importante recordar que las técnicas de ML prosperan para explorar
características ocultas, que están implícitas en sistemas complejos. Estos sistemas complejos son
a menudo de naturaleza engañosa junto con leyes físicas esquivas. Como resultado, ML debe tener
una agenda autoajustable continua con capacidad cognitiva; aunque, ML está acompañado por IA
y algoritmos estadísticos avanzados. Podemos enfatizar que debe existir la existencia de un proceso
de validación y un posible proceso de actualización de los parámetros del modelo. Igualmente
importantes son algunos otros problemas, como la adaptabilidad, el período de capacitación, el nivel
de umbral y la configuración de precisión para procesos de ML robustos. Como no podemos
descartar la posibilidad de interferencia entre ellos, debe haber una integración sinérgica para
producir un ML eficaz para el sensor/sonda para la industria.
Si podemos recurrir a la implementación de modelos ML, que son de naturaleza transferible, sería
una gran ayuda para el diseño de sondas industriales, ya que podemos anular la posibilidad de una
reorientación completa de un nuevo entorno o sistema. El desarrollo de modelos de aprendizaje
automático transferibles es otra dirección atractiva para el diseño de sensores novedosos, ya que
puede evitar una reorientación completa para un nuevo sistema o entorno. Sin embargo, todo esto
debe complementarse con algoritmos novedosos, lo que podría dar como resultado un análisis de
sensor mejorado para lograr un entorno de aprendizaje automático saludable.

Referencias

1. Obispo, CM (2006). Reconocimiento de patrones y aprendizaje automático. Nueva York: Springer.


2. Berrueta, LA, Alonso-Salces, RM y Heberger, K. (2007). Reconocimiento de patrones supervisado
en análisis de alimentos. Revista de cromatografía A, 1158, 196–214.
3. Addison, PS (2002). El manual ilustrado de transformadas de wavelet: teoría introductoria y aplicaciones en ciencia,
ingeniería, medicina y finanzas. Londres: Publicación del Instituto de Física.

4. Cappadona, S., Levander, F., Jansson, M., James, P., Cerutti, S. y Pattini, L. (2008).
Método basado en ondículas para la caracterización y el rechazo del ruido en cromatografía líquida de alta resolución
acoplada a espectrometría de masas. Química analítica, 80, 4960–4968.
5. Krebs, MD, Tingley, RD, Zeskind, JE, Kang, JM, Holmboe, ME y Davis, CE
(2005). El modelado autorregresivo de datos de sensores analíticos puede producir clasificadores en el espacio de
parámetros del coeficiente predictor. Bioinformática, 21, 1325–1331.
6. Ubeyli, ED y Guler, I. (2004). Análisis espectral de señales Doppler de la arteria carótida interna mediante métodos FFT,
AR, MA y ARMA. Computadoras en Biología y Medicina, 34, 293–306.
7. Pearson, GA (1977). Algoritmo general de reconocimiento de línea base y de aplanamiento de línea base. Diario
de resonancia magnética, 27, 265–272.
8. Espósito, A. y D'Andria, P. (2003). Un algoritmo de aprendizaje adaptativo para el ruido de ECG y la eliminación de deriva
de la línea de base. Redes neuronales, 2859, 139–147.
9. Shusterman, V., Shah, SI, Beigel, A. y Anderson, KP (2000). Mejora de la precisión de la corrección de la línea de base del
ECG: Filtrado selectivo y eliminación del error residual. Computadoras e Investigación Biomédica, 33, 144–160. Algoritmos
2008, 1, 148 10. Krebs, MD, Tingley, RD, Zeskind, JE, Holmboe, ME, Kang, JM y Davis, CE

(2006). Alineación de datos de cromatografía de gases-espectrometría de masas mediante la selección de puntos de


referencia de mezclas químicas complejas. Chemometrics and Intelligent Laboratory Systems, 81, 74–81.
Machine Translated by Google

96 R. Biswas

11. Krebs, MD, Kang, JM, Cohen, SJ, Lozow, JB, Tingley, RD y Davis, CE (2006).
Alineación bidimensional de los datos del espectrómetro de movilidad diferencial. Sensores y actuadores B, 119,
475–482.
12. Crowe, CM (1989). Test de máxima potencia para la detección de errores graves en las restricciones del proceso.
Revista Aiche, 35, 869–872.
13. Mah RSH y Tamhane, AC (1982). Detección de errores graves en los datos del proceso. Aiche
Revista, 28, 828–830.
14. Prescott, P. (1975). Prueba aproximada para valores atípicos en modelos lineales. Tecnometría, 17, 129–132.
15. Muñoz, A., & Muruzábal, J. (1998). Mapas autoorganizados para la detección de valores atípicos. Neurocomputación,
18, 33–60.
16. Zhao, WX, Chen, DZ y Hu, SX (2004). Detección de valores atípicos y un algoritmo robusto de BP contra valores
atípicos. Informática e ingeniería química, 28, 1403–1408.
17. Wold, S., Esbensen, K. y Geladi, P. (1987). Análisis de componentes principales. Quimiometría y
Sistemas de Laboratorio Inteligentes, 2.
18. file:///E:/Book%20Chapter%20on%20Ml/Machine%20Learning%20and%20AI%20in%20 Manufacturing%20-
%20The%20Complete%20Guide.html. Consultado el 1 de agosto de 2020.
19. Moraru, A., Pesko, M., Porcius, M., Fortuna, C. y Mladenic, D. (2010). Uso de aprendizaje automático en datos de
sensores. Revista de informática y tecnología de la información—CIT, 18(4), 341– 347.

20. Zhao, W., Bhushan, A., Santamaria, AD, Simon, MG y Davis, CE (2008). Aprendizaje automático: una herramienta
crucial para el diseño de sensores. Algoritmos, 1, 130–152. https://doi.org/10.3390/a10 20130.

21. Forte, G., Alberini, F., Simmons, M. y Stitt, HE Uso de emisión acústica en combinación con aprendizaje automático:
Monitoreo de la mezcla de gas y líquido en tanques agitados. Revista de Fabricación Inteligente. https://doi.org/
10.1007/s10845-020-01611-z 22. Simeone, A., Woolley, E., Escrig, J. y Watson, NJ Limpieza industrial inteligente:
un enfoque multisensor que utiliza la regresión basada en el aprendizaje automático 23. Bombino, A., Grimaldi, S.,
Mahmood, A . y Gidlund, M. (2020). Clasificación asistida por aprendizaje automático de enlaces de radio LoS/NLoS
en IoT industrial. IEEE Explore 24. Orrù, PF, Zoccheddu, A., Sassu, L., Mattia, C., Cozza, R. y Arena, SA (2020). Enfoque
de aprendizaje automático que utiliza algoritmos MLP y SVM para la predicción de fallas de una bomba centrífuga
en la industria del petróleo y el gas. Sostenibilidad, 12, 4776. https://doi.org/10.3390/su12114776.

25. Zhang, N., Ye, C., Peng, L. y Tao, Y. Sonda de corriente de Foucault con excitación trifásica y sensores TMR de matriz
integrada. Transacciones IEEE sobre electrónica industrial. https://doi.org/10. 1109/empate.2020.2989704.

26. Hussain, et al. (2020). Analizador de tamaño de partículas ultracompacto que utiliza un sensor de imagen CMOS y
luz de aprendizaje automático. Ciencia y Aplicaciones, 9, 21.
27. Bowler, AL, Bakalis, S. y Watson, NJ (1813). Monitorización de procesos de mezcla mediante sensores ultrasónicos y
aprendizaje automático. Sensores, 2020, 20. https://doi.org/10.3390/s20071813.
28. Caggiano, A., Angelone, R., Napolitano, F., Nele, L. y Teti, R. (2018). Reducción de la dimensionalidad de las
características sensoriales mediante el análisis de componentes principales para el aprendizaje automático ANN en
el monitoreo del estado de la herramienta de perforación CFRP. Procedia CIRP, 78, 307–312.
29. Escrig, J., Woolley, E., Simeone, A. y Watson, NJ (2020). Supervisión de la limpieza de incrustaciones de alimentos
en tuberías mediante mediciones ultrasónicas y aprendizaje automático. Control de Alimentos.
30. Munir, N., Kim, HJ, Song, SJ y Kang, SS (2018). Investigación de red neuronal profunda con abandono para
clasificación de fallas ultrasónicas en soldaduras. Revista de ciencia y tecnología mecánicas, 32, 3073–3080.

31. Lee, LH, Rajkumar, R., Lo, LH, Wan, CH e Isa, D. (2013). Sistema de predicción de fallas de oleoductos y gasoductos
que utiliza transductores ultrasónicos de largo alcance y enfoque de clasificación de máquinas de vectores de
soporte euclidiano. Sistemas expertos con aplicaciones, 40, 1925–1934.
Machine Translated by Google

Minería del Génesis de los defectos de la astilla


A través de teorías de conjuntos ásperos y difusos

Itishree Mohanty, Partha Dey y Shubhabrata Datta

Resumen La causa real del defecto de la cinta es difícil de determinar, ya que el defecto suele revelarse
después de que se completa el proceso de laminado (caliente/frío). En este trabajo se investiga la génesis
del defecto de la astilla en láminas de acero laminadas en frío utilizando dos herramientas populares de
inteligencia computacional utilizadas en la minería de datos, a saber, las teorías de conjunto aproximado y
conjunto difuso. Se ha recopilado una cantidad sustancial de datos desde la etapa de fabricación del acero
hasta el laminado final del producto con el objetivo de extraer conocimiento útil sobre las posibles causas
de la formación de astillas. Mientras que la teoría de conjuntos aproximados ayuda a seleccionar las
variables importantes a las que se puede atribuir la causa del defecto en forma de reglas, estas reglas
reciben una forma lingüística a través de funciones de pertenencia difusa.
Por lo tanto, una base de reglas evoluciona en forma de un sistema de inferencia difuso que constituye
algunas variables importantes, que sirve como un modelo perceptivo para predecir la gravedad de los
defectos de la astilla en el acero laminado en frío. La validación del sistema difuso se realiza mediante
ensayos industriales reales.

1. Introducción

Con el rápido desarrollo de los aparatos electrónicos y la industria del automóvil, la necesidad de utilizar
productos de alta gama sin comprometer significativamente la rigidez de la lámina ha adquirido una
importancia considerable [1]. Una de las características más importantes de las chapas laminadas en frío
es su calidad superficial. Superficie

I.
Investigación y desarrollo de Mohanty, Tata Steel Limited, Jamshedpur, Jharkhand 831007,
India Correo electrónico: iti.mohanty@tatasteel.com

P. Dey
Departamento de Ingeniería Mecánica, Academia de Tecnología, Hooghly 712121, India

S. Datta (B)
Departamento de Ingeniería Mecánica, Instituto SRM de Ciencia y Tecnología (anteriormente
conocido como Universidad SRM), Kattankulathur 603203, Tamil Nadu, India Correo
electrónico: shubhabp@srmist.edu.in

© Los autores, bajo licencia exclusiva de Springer Nature Suiza AG 2022 S. Datta y 97
JP Davim (eds.), Machine Learning in Industry, Management and Industrial
Engineering, https://doi.org/10.1007/978-3 -030-75847-9_5
Machine Translated by Google

98 I. Mohanty et al.

la calidad y la limpieza del material del sustrato deben cumplir requisitos estrictos, especialmente cuando se
utilizan como paneles exteriores de automóviles y en latas de bebidas o alimentos. Mientras que las láminas
delgadas laminadas se someten a rebordeado, como en la fabricación de latas, el borde rebordeado puede
rasgarse si hay inclusiones gruesas. El proceso de producción de alta velocidad de tiras continuas de acero
conduce a la generación de imperfecciones en la calidad de la tira. Esto a menudo crea problemas en la
producción que contribuyen a la mala calidad del producto laminado terminado [2, 3].
Los defectos pueden surgir de un alto contenido de inclusiones no metálicas en la etapa de fabricación del
acero o pueden ser causados durante los procesos posteriores posteriores, como la fundición, el
recalentamiento, el laminado en caliente/frío o el estirado. Las inclusiones pueden ser partículas de óxido,
polvo de fundición, agregados de alúmina, refractarios, etc. [4].
Las astillas son defectos superficiales en tiras de acero que aparecen como aletas de metal alargadas
con algún material atrapado debajo de estas aletas. Los materiales con alto punto de fusión se aglomeran
en el acero durante la fundición y quedan atrapados en la etapa de solidificación inicial de la fundición.
Después del laminado de las láminas de acero, estos materiales aparecen como defectos en cualquiera de
las superficies del acero [5]. Aparece paralelo a la dirección de laminación y normalmente se distribuye
irregularmente sobre el ancho de la banda. Dichos defectos generalmente no se detectan durante las etapas
de procesamiento inmediatas y finalmente aparecen en el producto terminado durante la inspección final.
Esta característica de camuflaje todavía ha mantenido la causa de la formación de astillas en su mayoría
esquiva para la comunidad industrial y académica y ha hecho de su eliminación y reducción uno de los
principales problemas en el dominio del procesamiento del acero. Si bien se han propuesto previamente
modelos que pueden predecir la transferencia de calor [6] y las características microestructurales finales [7]
durante el laminado en caliente o estimar su textura durante el laminado en frío [8, 9]. Estos modelos no
abordan los problemas de la astilla. Una razón probable por la que la causa del defecto de la astilla no se ha
investigado adecuadamente en el mundo académico y las medidas para prevenirlo no se pueden adoptar en
la industria son las complejas interacciones que tienen lugar entre diferentes variables en las sucesivas fases
del proceso de fabricación del acero [10]. ].

Si bien la producción de acero es un proceso realmente complicado que ha evolucionado desde el


caldero de la revolución industrial y se ha perfeccionado durante los últimos dos siglos, el desarrollo de la
velocidad informática en las últimas dos décadas ha provocado otra revolución, donde prácticamente
cualquier proceso desde las interacciones moleculares hasta el origen del universo se pueden simular in
silico, lo que da como resultado que se decodifiquen fenómenos complicados a través de cálculos simples
que se aproximan a la compleja realidad. Varios métodos de inteligencia computacional han visto aplicaciones
en la industria del acero, con redes neuronales [10-12] y algoritmos genéticos que se utilizan con éxito para
diseñar láminas de acero laminadas en frío que conducen al logro de las propiedades mecánicas deseadas
[13].
Las teorías de conjuntos aproximados [14, 15] y de conjuntos difusos [16] son dos métodos de inteligencia
computacional que también se han aplicado con éxito en el dominio del diseño de materiales para diseñar
materiales para lograr rendimientos específicos. La teoría de conjuntos aproximados es conocida por su
capacidad para reducir la dimensionalidad de los conjuntos de datos mediante la selección de características
importantes [17], mientras que la teoría de conjuntos difusos puede describir categorías objetivas para que
sean perceptibles subjetivamente [18]. Los conjuntos ásperos y borrosos son dos aspectos, dos perspectivas
diferentes de modelar la imprecisión y la incertidumbre en situaciones de la vida real. Los espacios de
aproximación de la teoría de conjuntos aproximados asignan múltiples pertenencias a un punto de datos,
mientras que los conjuntos borrosos se ocupan de pertenencias paralelas. explotando su
Machine Translated by Google

Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 99

reciprocidad y complementariedad, los investigadores han tratado de integrar las teorías de conjuntos
aproximados y borrosos en una sola teoría matemática, a menudo denominada modelos aproximados-borrosos [19].
En el presente trabajo, el conjunto aproximado se ha utilizado para seleccionar las variables importantes
de los parámetros de composición y proceso de las diferentes etapas del proceso de fabricación de láminas
de acero para formar reglas significativas si-entonces-si no, mientras que la teoría de conjuntos difusos asigna
funciones de pertenencia difusas a cada uno de los variables seleccionadas, evolucionando así un sistema
de inferencia difuso (FIS) [20, 21]. El FIS se puede implementar en el taller de producción para monitorear y
advertir al departamento de control de calidad en cada etapa de procesamiento y fabricación de acero con
respecto a las trampas que podrían conducir a defectos de la cinta. El FIS ayudará a las personas que
trabajan en el sitio de producción a comprender o percibir mejor el proceso de control debido a su modo
lingüístico de expresar una regla, mientras que las funciones seleccionadas y las reglas derivadas del
conjunto aproximado ayudan a que cada regla sea breve y limite el número de reglas. reglas para unos
pocos. Como paso final de evaluación de los resultados obtenidos, se han utilizado algunos datos adicionales
de la industria siderúrgica para validar el modelo, donde la naturaleza real de los defectos de la astilla podría
predecirse mediante las reglas aproximadas-borrosas desarrolladas en este trabajo con suficiente precisión.

2 conjunto de datos

Después de la recopilación y asimilación, los datos se limpian para eliminar los valores incompletos e
incoherentes. La versión final del conjunto de datos limpio contiene 245 observaciones, cada una de las
cuales representa diferentes láminas de acero con diferentes composiciones procesadas en diferentes
condiciones ambientales y que muestran diferentes niveles de gravedad del defecto de la astilla. Hay 45
variables de entrada y una sola variable de salida. El nombre, abreviatura, media y desviación estándar de
cada variable se dan en la Tabla 1.

3. Metodología

3.1 valor p

Un valor p es una medida estadística que proporciona la cantidad de evidencia presente en el conjunto de
datos que permite rechazar la explicación más común para el conjunto de datos.
Puede considerarse como la probabilidad de obtener un resultado al menos tan extremo como el observado,
dado que la hipótesis nula es cierta. La hipótesis nula se considera el escenario más plausible que se puede
utilizar para explicar un conjunto de datos. Siempre se asume que la hipótesis nula es verdadera a menos
que se demuestre lo contrario. Una hipótesis alternativa predice lo contrario de la hipótesis nula y se dice que
es verdadera si se demuestra que la hipótesis nula es falsa [22].

Un valor p ayuda a determinar la importancia del resultado. Todas las pruebas de hipótesis usan un valor
p para calcular la fuerza de la evidencia (lo que dicen los datos sobre
Machine Translated by Google

100 I. Mohanty et al.

Tabla 1 Estadísticas básicas de los datos para análisis de defectos de cinta


SL. no. Nombre de atributo (unidad) Abreviatura Desv estándar promedio

Variables de entrada

1 Temperatura de salida del molino de desbaste (ÿC) RMET 1086 dieciséis

2 Tiempo de retención de losa (min) tiempo de ret. 194 91

3 Temperatura de caída de la losa (ÿC) SDOT 1209 23

4 Espesor laminado en caliente (mm) conocimiento de recursos humanos 3.8 0.8

5 Contenido de oxígeno del horno de recalentamiento (% en peso) HR O2 2.2 1.03

6 Duración de la purga (min) Purg dur 30 6.48

7 Casting duración (min) Cast dur 53 7.79

8 Flujo de argón (Nm3/min) Flujo de aire 6.7 2.21

9 Contrapresión de argón (kg/cm2) Ar BP 0.15 0.11

10 No calor. en la artesa Calor DT 5 4.43

11 Recalentamiento de la artesa (ÿC) TD SH 28.4 6.74

12 Fluctuación máxima del nivel de moho (%) Mlf máx. 75 3.26

13 Fluctuación promedio del nivel de moho (%) promedio de mlf 69.7 0,45

14 Posición mínima del tope (%) Stp min 63,9 9.68

15 Posición máxima del tope (%) Stp máx. 69,9 8.72

dieciséis
Posición media del tope (%) Promedio paso a paso
67.2 8.48

17 Velocidad mínima de fundición (mm/min) Velocidad mín. 1150 238.2

18 Velocidad media de fundición (mm/min) Velocidad media 1226 182.15

19 Peso mínimo de la artesa (t) TD peso mínimo 26 3.37

20 Peso medio de la artesa (t) TD peso medio 27 2.02

21 Patrón de adición de aluminio Al patrón 1.4 0,56


Agregar

22 Al2O3 (% en peso) Al2O3 9.84 13.3

23 CaO (% en peso) CaO 49.21 6.43

24 Hierro (% en peso) Fe 15.83 7.07

25 MgO (% en peso) MgO 2.01 2.069

26 MnO (% en peso) MnO 1.15 1.58

27 P2O5 (% en peso) P2O5 2.31 1.43

28 Azufre (escoria) (% en peso) S slg 0.056 0.07

29 SiO2 (% en peso) SiO2 11.64 4.3

30 Carbono (% en peso) C 0.02 0.02

31 Manganeso (% en peso) Minnesota 0.18 0.13

32 Azufre (acero líquido) (% en peso) S líquido 0.007 0.002

33 Fósforo (% en peso) PAG 0.015 0.012

34 Silicio (% en peso) Si 0.006 0.008

35 Aluminio (% en peso) Alabama 0.039 0.008

36 AlS (% en peso) ELA 0.037 0.009

(continuado)
Machine Translated by Google

Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 101

Tabla 1 (continuación)
SL. no. Nombre de atributo (unidad) Abreviatura Desv estándar promedio

Variables de
37 entrada Cromo (% en peso) cr 0.026 0.004

38 Molibdeno (% en peso) Mes 0.001 0.0006

39 Níquel (% en peso) Ni 0.011 0.001

40 Vanadio (% en peso) V 0.001 0.0003

41 Titanio (% en peso) ti 0.024 0.02

42 Niobio (% en peso) Nótese bien 0.002 0.006

43 Cobre (% en peso) cobre 0.16 2.38

44 Boro (% en peso) B 0.001 0.0003

45 Nitrógeno (% en peso) norte 17.9 15.54

Variable de salida
46 Severidad de astilla Gravedad 3.44 1.01

la población). El valor p ayuda a determinar si las hipótesis son correctas o no. Está directamente
relacionado con el nivel de significación, que es un componente importante para determinar si los datos
obtenidos son estadísticamente significativos o no. La interpretación correcta del valor p es muy
importante. El valor p es un número que se encuentra entre 0 y 1. Un valor p pequeño (ÿ0.05) implica una
fuerte evidencia en contra de la hipótesis nula que obliga a rechazar la hipótesis nula. Un valor p grande
(>0.05) implica evidencia débil contra la hipótesis nula, obliga a no rechazar la hipótesis nula. Los valores
de p que están muy cerca del límite (0.05) podrían ir en cualquier dirección.

3.2 Modelo de conjunto aproximado

La Teoría de Conjuntos Ásperos (RST) fue propuesta por Pawlak [23]. El paradigma se ocupa de la
clasificación y el análisis de información incierta, imprecisa o incompleta y la extracción de conocimiento
de conjuntos de datos de la vida real que tienen estas características naturales. Se considera como uno
de los enfoques más sólidos en el análisis de datos.
Los principios básicos que subyacen a RST consisten en una aproximación inferior y superior de
conceptos en un conjunto de puntos de datos, que definen el dominio de interés.
Un conjunto de datos (o sistema de información) I consiste esencialmente en un conjunto (o universo)
U que contiene varias observaciones (u objetos), cada observación aquí representa una lámina definida
de lámina de acero laminado en frío. Todo objeto se caracteriza por valores definidos para cada uno de
los atributos condicionales del conjunto A, según los cuales se determina el valor de un atributo de
decisión d . Usando el formalismo de la lógica booleana, un algoritmo RST típico busca un conjunto
mínimo de atributos en base al cual el atributo de decisión puede evaluarse con la misma precisión que
el conjunto completo de atributos A. Este conjunto esencial de atributos R se denomina reducción.
Machine Translated by Google

102 I. Mohanty et al.

Aproximación superior de X

Aproximación inferior de X
a2

Región límite de X

el concepto x

a1

Fig. 1 Diferentes nociones de conjunto aproximado

Al definir un concepto (o clasificar elementos como pertenecientes a una etiqueta de clase


definida) con la ayuda de información incompleta, RST incorpora las nociones de aproximación
inferior y aproximación superior, que, a diferencia del concepto real, se pueden conocer
definitivamente. Una aproximación inferior normalmente contiene objetos que definitivamente
pertenecen a un concepto, mientras que una aproximación superior contiene objetos que
posiblemente sean parte del concepto. El concepto X está acotado por las aproximaciones
inferior y superior, las cuales son dos conjuntos aproximados diferentes. Formalmente,

Xinferior : R(X) = {Y ÿ U/R | Y ÿ X = ÿ}

Xsuperior : R(X) = {Y ÿ U/R | YÿX } _

Entre estas dos regiones se encuentra la región límite BNR(X). Estas regiones se pueden
representar gráficamente en dos dimensiones (correspondientes a dos atributos a1 y a2 en R)
en la Fig. 1.
El conjunto aproximado (RS) es una herramienta excelente para reducir la dimensionalidad
de los datos al eliminar información redundante, tanto en términos de número de observaciones
como de variables (o atributos). El poder de RS se ilustra por su capacidad para formar un
mecanismo de clasificación (también llamado sistema de decisión) donde el resultado (o atributo
de decisión) de una observación puede predecirse a partir de sus variables de entrada (o
atributos condicionales) con la ayuda de if- luego gobierna utilizando el número mínimo de
atributos.
El objetivo del clasificador RS es enmarcar reglas de la forma ÿ ÿÿ donde ÿ
es el antecedente y ÿ es su consecuente. Una regla típica toma la forma:

Si a1 = c1 y a2 = c2 y... ap = cp entonces d = f , (1)

ÿ ÿ

donde a1, a2,..., ap ÿ R son p atributos condicionales diferentes que toman los valores c1, c2,...,
cp, y al atributo de decisión d se le asigna el valor categórico f . Una regla
Machine Translated by Google

Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 103

sigue siendo simple e inteligible en la medida en que el número de descriptores p en la regla se


limita a unos pocos. Esto se justifica cuando el tamaño del reducto es pequeño, ya que p ÿ | R |
Para que una regla sea fiable, tiene que estar basada en un buen número de observaciones.

Sin embargo, cada observación es diferente de la otra en términos de los valores de sus diversos
atributos, ya sean condicionales o de decisión.
Para obtener reglas de naturaleza general, es necesario dividir el rango de cada variable en
varios sub-rangos y formar reglas basadas no en un solo valor de cualquier atributo, sino en un
rango de valores de una variable (por ejemplo, ai ) denotado por la categoría Este proceso de
ci . partición de variables continuas en categorías discretas se denomina discretización [15]. La
discretización se considera uno de los pasos cruciales de preprocesamiento en la síntesis de
reglas de decisión a partir de datos con atributos de valor real. El problema de la discretización
de los atributos condicionales es NP-difícil y se ha invertido un gran esfuerzo en encontrar
heurísticas efectivas para resolver este problema. Se han propuesto diferentes métodos de
varios campos relacionados, como la estadística, la teoría de la información, la inteligencia
artificial, el reconocimiento de patrones y la lógica formal, para abordar la tarea de discretización
[24]. En el presente documento, la discretización de los atributos condicionales se ha realizado
simultáneamente con la tarea de encontrar la reducción para el conjunto de datos utilizando el
algoritmo de discreducción dinámica [25]. El algoritmo se basa en múltiples muestras de los
datos, donde cada muestra vota por una discreducción de candidato (un posible valor de corte
para la discretización de un atributo en particular). Los votos emitidos en cada atributo se suman
y la parte de los recortes en cada atributo se decide a través del principio de representación
proporcional. Los candidatos más votados forman los límites de discretización de cada atributo,
y los atributos que obtienen uno o más recortes se incluyen en la reducción. Por lo tanto, se
respeta debidamente la interdependencia de la discretización y la selección de atributos a través
de la representación proporcional, y los errores experimentales o el ruido en los datos se filtran
mediante votos de muestra. Sin embargo, la discretización del atributo condicional suele
realizarse a priori sobre la base de una simple regla general: el número de objetos en cada
intervalo debe ser más o menos igual. Esto permite que cada regla recolecte suficientes objetos
para apoyarla. El atributo de decisión en la presente investigación es categórico desde su inicio,
pero con algunas categorías que contienen muy pocos objetos. Por lo tanto, se fusionan algunas
categorías para formar clases más amplias con el objetivo de lograr la paridad en sus respectivas
alturas (es decir, el número de objetos en cada clase).

Hay dos aspectos importantes a considerar al seleccionar una regla. A partir de una
consideración, la regla construida sobre la premisa de muchas observaciones, puede ser válida
aun cuando sea contradicha por algunas observaciones. Formalmente, algunos objetos en I
pueden coincidir con el antecedente de la regla, pero no satisfacer el consecuente de la regla.
Por lo tanto, la probabilidad con la que se puede llegar a la conclusión, dada la condición, se vuelve importante.
La precisión de una regla da una medida de cuán confiable es la regla para sacar una conclusión
particular sobre la base de su evidencia pertinente [26]. Desde una consideración diferente, una
regla solo puede representar una imagen parcial de la información inherente a ella. Se acepta
que una regla es lo suficientemente fuerte si tiene una buena proporción de objetos en su apoyo.
La cobertura de una regla mide la parte de la premisa que utiliza para sacar la conclusión en
cuestión [27].
Machine Translated by Google

104 I. Mohanty et al.

La precisión y cobertura de una regla se calcula como

||ÿ|| ÿ ||ÿ|| ||ÿ|| ||


Precisión = (2)
ÿ|| ÿ ||ÿ|| ||

ÿ||
Cobertura = (3)

donde ||ÿ|| y ||ÿ|| son los objetos en los que coinciden el antecedente y el consecuente de una regla, y
· es la cardinalidad de
detodo conjunto. Es deseable que una regla sea precisa y que tenga un alto grado
cobertura.

3.3 Sistema de inferencia borrosa (FIS)

La lógica difusa está más cerca en espíritu del pensamiento humano y del lenguaje natural que el
sistema lógico aristotélico convencional. Es básicamente una lógica polivalente basada en un
razonamiento intuitivo. La filosofía difusa da la bienvenida a la tolerancia y la aproximación en lugar
de la precisión y la exactitud, lo que permite que reine la noción de verdad parcial con valores de
verdad que se encuentran en cualquier lugar entre completamente falso (0) y completamente verdadero
(1). De esta manera, la incertidumbre en los datos y la imprecisión en el conocimiento se representan
matemáticamente a través de un formalismo [28]. La teoría de conjuntos borrosos fue presentada por
primera vez por Lotfi A. Zadeh en la década de 1960 como un medio para modelar la incertidumbre del lenguaje natural
Más tarde, el área de aplicación de la lógica difusa se expandió en un amplio espectro que abarca
productos de consumo, instrumentos electrónicos para automóviles, monitoreo de tráfico y diferentes
sistemas de control.
La lógica difusa es extremadamente adecuada para modelar sistemas donde el conocimiento
impreciso se expresa en reglas lingüísticas si-entonces que involucran atributos categóricos en lugar
de expresiones matemáticas exactas (valores reales). También es aplicable a situaciones que
involucran procesos altamente complejos donde los comportamientos no se comprenden bien. En
particular, los problemas en los que cualquier solución factible es aceptable y la precisión más allá de
un cierto nivel no agrega ningún mérito adicional, se manejan de manera eficiente mediante la lógica
difusa. Tal situación prevalece bastante en los sistemas de materiales complicados, donde las
soluciones exactas son a menudo intratables y las situaciones prácticas establecen el límite al que se
puede implementar una medida precisa. Sin embargo, los esfuerzos realizados para comprender
diferentes fenómenos en el campo del modelado de materiales utilizando FIS aún están lejos de ser
encomiables. Los defectos superficiales del acero dependen de un gran número de factores, muchos
de los cuales son interdependientes debido al dinamismo inherente a los procesos que conducen a su
formación. Además, la mayoría de estos factores están cargados de incertidumbres y ambigüedades.
Estas son las principales razones por las que es realmente difícil predecir la gravedad de los defectos
superficiales que se forman en el acero durante el procesamiento. En esta situación, se puede
considerar apropiado un enfoque de modelado difuso basado en reglas que relacione las posibles
causas de la formación de astillas con la gravedad del defecto. Se prevé que tal
Machine Translated by Google

Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 105

un enfoque revelaría algunos de los principales fenómenos subyacentes en la génesis de los defectos
de la cinta en la producción de acero laminado en caliente o en frío.
El Sistema de Inferencia Difusa (FIS) es una forma de mapear un espacio de entrada a un
espacio de salida utilizando una colección de funciones de membresía difusa y reglas para razonar
acerca de los datos. Un FIS consta de tres componentes, a saber, el fuzzificador, el motor de inferencia
con una base de reglas difusas y el defuzzificador. El propósito de la fuzzificación es asignar las
entradas a valores borrosos entre 0 y 1 utilizando un conjunto de funciones de membresía de entrada.
Las reglas difusas se emplean para desarrollar las salidas difusas a partir de las entradas difusas.
Luego, las salidas se combinan para obtener una distribución de salida difusa en el agregador y,
finalmente, llegan a una única salida nítida a través del proceso de defuzzificación [29].

Para el problema en estudio, el defecto de la astilla no surge de repente, ni es efecto de una razón
o factor aislado. Es el resultado de muchos procesos relacionados, como la fabricación de acero, el
recalentamiento del horno, el laminado en caliente y el laminado en frío, que interactúan en diferentes
proporciones, y solo unos pocos de los muchos niveles paramétricos posibles producen un cierto
grado de gravedad del defecto de la cinta. Para cualquier atributo en particular, no hay un valor de
umbral basado en el cual se tome una decisión sobre la condición del acero.
hoja, ya sea defectuosa o no defectuosa, se puede tomar. Problemas de este tipo pueden
ser modelado utilizando sistemas de inferencia borrosa más de cerca.
Los dos métodos más comunes para desarrollar un FIS son los métodos de Sugeno y Mamdani.
La diferencia básica entre los dos radica en la forma de obtener salidas nítidas a partir de entradas
difusas. El FIS tipo Mamdani es ampliamente aceptado para aplicaciones de soporte de decisiones,
ya que su base de reglas es fácil de interpretar y de naturaleza intuitiva [30, 31]. En el presente
estudio se ha utilizado el método Mamdani para desarrollar el modelo FIS debido a su eficiencia en la
captura del conocimiento experto de una manera intuitiva y similar a la humana. Un Mamdani FIS
consta de cinco capas: capa difusa, capa de producto, capa de implicación, capa de agregación y
capa de desfuzzificación. En la primera capa, los valores de entrada nítidos se convierten en valores
borrosos mediante los MF de entrada para determinar el grado en que estas entradas pertenecen a
cada uno de los conjuntos borrosos apropiados. En este caso, se utilizan MF gaussianas para las
entradas. En la segunda capa se calcula la fuerza de disparo de cada regla. La fuerza de cada regla
se determina evaluando las expresiones de pertenencia en el antecedente de la regla. Esto se logra
mediante los MF de entrada en la capa 1. Si una regla difusa dada tiene más de un antecedente, se
utiliza el operador difuso ("Y" u "O") para llegar a un solo número. Para evaluar la disyunción de los
antecedentes de la regla se utiliza la operación difusa “OR” la cual viene dada por

ÿAÿB(X) = máx(ÿA(X), ÿB(X)) (4)

Para evaluar la conjunción de los antecedentes de la regla, la operación difusa “AND”


se utiliza que viene dada por

ÿAÿB(X) = min(ÿA(X), ÿB(X)) (5)

donde X es la variable de proceso y A y B son las variables lingüísticas.


Machine Translated by Google

106 I. Mohanty et al.

Fig. 2 Un sistema de Difuso


Conjunto de normas
inferencia difusa (FIS) típico con el Inferencia
conjunto de reglas y el agregador/ w1 Y es B1 Sistema
X1 es A1
desfuzzificador para obtener una
salida nítida a partir de entradas
nítidas o difusas
w2 Y es B2 Salida
X2 es A2 Y
nítida

Crujiente
o Desborrador
X w3 Y es B3
X3 es A3
Entradas
difusas Difuso

... ... agregador

wn Y es Bn
Xn es un

Después de evaluar los antecedentes, el resultado se aplica a la función de pertenencia del


consecuente. Las funciones de pertenencia de todos los consecuentes de la regla se combinan
en un único conjunto borroso. Se aplica un método de defuzzificación en el conjunto borroso
agregado para encontrar un punto. El método de centroide más popular se ha utilizado como
técnica de defuzzificación (Fig. 2).

4. Resultados y discusión

4.1 Resultados del valor p

Se ha realizado una limpieza de datos previa al análisis del núcleo, debido a la presencia de ruido
en los datos recogidos de la planta. Los datos se sometieron principalmente a análisis de valor p.
El parámetro más importante es el que tiene el valor de p más bajo y el parámetro menos
importante es el que tiene el valor de p más alto. De las 45 variables tomadas, 21 se consideran
importantes desde la perspectiva de los criterios mencionados en la Secc. 3.1. Se alistan en la
Tabla 2 con sus respectivos valores de p. Se supone que las otras variables que tienen un valor
p alto tienen una influencia insignificante en la formación de astillas. Hay algunos hallazgos
interesantes desde una perspectiva metalúrgica en este punto. La formación de sulfuros debido a
la presencia de Mn y S en la Tabla 2 puede concebirse como una fuente importante de inclusiones
en el acero, lo que puede considerarse como una posible causa de la formación de astillas. La
exclusión de S a través de la escoria (S Slg), la presencia de MnO y el patrón de adición de Al
(adición de Al) son algunas de las variables importantes responsables de la formación de óxido
durante la fabricación del acero. Se requiere más Al para la desoxidación, mientras que la
concentración de oxígeno disuelto dicta la cantidad de
Machine Translated by Google

Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 107

Tabla 2 Variables significativas con p-valor


SL. no. Variables valor p
1 HRtk 0.016

2 promedio de mlf 0.025

3 ti 0.034

4 S 0.061

5 Flujo de aire 0.081

6 MgO 0.101

7 Minnesota 0.11

8 SiO2 0.118

9 tiempo de ret. 0.172

10 HR O2 0.175

11 PAG 0.175

12 RMET 0.192

13 Ni 0.197
14 B 0.243

15 norte 0.302

dieciséis Fe O 0.312

17 Al patrón agregar 0.32

18 Nótese bien 0.34

19 peso TD Promedio 0.379

20 TD SH 0.38

21 MnO 0.397

aluminio durante el roscado. Como resultado, se forma una mayor cantidad de productos de
desoxidación como la alúmina. Por lo tanto, la evidencia fáctica sugiere que la formación de astillas
podría no tener ninguna dependencia de la cantidad de contenido de Al. Más bien depende del patrón
de adición de Al que está asociado con la formación de óxido de aluminio y su posible atrapamiento.
El atrapamiento de partículas refractarias desprendidas de la pared del molde es el resultado de la
fluctuación del nivel del molde durante la colada continua, lo que conduce al atrapamiento del fundente
del molde en la región subsuperficial de la hebra de solidificación.
Pueden generarse defectos de astilla en las láminas laminadas en frío [32] a partir de estas inclusiones
atrapadas. Pero el hallazgo importante es que, no la fluctuación máxima, sino el valor promedio es el
factor decisivo que determina la gravedad de los defectos de la cinta. Por lo tanto, se puede decir que
un valor más alto de la fluctuación promedio del molde impacta significativamente en la fluctuación
bastante repentina de la fabricación de acero. Podemos encontrar lo mismo en el caso del peso de la
artesa, donde el peso promedio, en lugar del peso mínimo, es significativo.
El contenido de oxígeno del horno de recalentamiento y el tiempo de retención sugieren la posibilidad
de formación y atrapamiento de óxido durante el laminado. El fenómeno de la oxidación interna, que
conduce a la formación de incrustaciones de óxido de hierro, es muy común en el caso de la astilla, lo
que sugiere que se desarrollan defectos en la losa durante la etapa de recalentamiento en el horno. Él
Machine Translated by Google

108 I. Mohanty et al.

la oxidación interna que es una característica predominante de los defectos de la cinta, sugiere que la
región defectuosa podría haber estado expuesta a una temperatura alta durante un período bastante
largo, lo cual es plausible en un horno de recalentamiento. Una temperatura más alta de descarga o un
tiempo de retención más largo de los desbastes en el horno de recalentamiento a menudo implican la
producción de más incrustaciones, con una mayor necesidad de agua de enfriamiento y un mayor riesgo
de dañar los trenes de laminación (debido a tensiones térmicas o acumulación de incrustaciones en la
superficie interna del horno) . El espesor del producto laminado en caliente parece ser el factor más importante.
Sin embargo, por otro lado, la velocidad de colada y/o la posición del tope no parecen tener ningún
efecto sobre el defecto de la cinta. Para resumir los hallazgos más importantes de esta sección: la causa
de la formación de astillas puede atribuirse a diferentes factores distribuidos a lo largo de todo el proceso
de producción de láminas laminadas en frío, en lugar de que una etapa particular del proceso de
producción sea responsable de ello. .

4.2 Resultados del conjunto aproximado

La reducción se calcula utilizando los procedimientos explicados en detalle en la Secc. 3.2. Las variables
en la reducción lograda en el proceso con el número de cortes se muestran en la Tabla 3. Se ve aquí
que Rough Set podría reducir el número de variables importantes a 21. El conjunto de 45 entradas
podría reducirse a 13 variables por el procedimiento de selección de características utilizando el valor p
como se menciona en la Tabla 3. Pero es interesante notar que estas 13 variables no son un subconjunto
estricto de las 21 variables seleccionadas solo con el conjunto aproximado.

Solo 7 de los atributos se encuentran comunes en ambos casos, y son Ar flow, Mn, MgO, RET time,
RH O2, RMET y TD SH. Fácilmente podría decirse que

Tabla 3 Variables y cortes seleccionados en la reducción de los datos completos con 45 atributos
SL. no. Variables Nº de cortes Cortar valores

1 RMET 3 1043, 1077, 1094


2 Tiempo de retención 1 170
3 SDOT 3 1189, 1202, 1223
4 HR O2 2 1,57, 1,98
5 Flujo de aire 1 7
6 TD SH 1 21
7 Stp máx. 1 66.62
8 Velocidad mínima 1 1070
9 CaO 1 50
10 MgO 1 0.58
11 Minnesota 1 0.38
12 ELA 1 0.08
13 cobre 1 0.029
Machine Translated by Google

Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 109

Tabla 4 Variables y cortes seleccionados en la reducción de los 21 atributos con p-valor < 0,05
SL. no. Variables Nº de cortes Cortar valores

1 RMET 3 1078, 1099, 1110


2 Rettime 1 170
3 conocimiento de recursos humanos 1 3
4 HR O2 3 1.29, 1.98, 3.09
5 Flujo de aire 1 21

6 Fe O 1 18.02
7 Minnesota 1 0.38
8 ti 1 0.068

9 norte
1 25

Tabla 5 Los atributos finalmente seleccionados en el reducto junto con los límites de categoría
SL. no. Variables Nº de L METRO H VH
categorías
1 RMET 4 (ÿÿ, 1078] (ÿÿ, (1078, 1099] (1099, 1110] (1110,ÿ) (170,ÿ)
2 Tiempo de 2 – –
170]
retención

3 SDOT 4 (ÿÿ, 1189] (1189, 1202] (1202, 1223] (1223,ÿ)


4 HRtk 2 – –
(ÿÿ, 3] (3,ÿ)
5 HR O2 4 (ÿÿ, 1,29] (1.29, 1.98] (1.98, 3.09] (3.09,ÿ)
6 Flujo de aire 2 – –
(ÿÿ, 7] (7,ÿ)
7 CaO 2 – –
(ÿÿ, 50] (ÿÿ, (50,ÿ)
8 – –
MgO2 0,58] (0.58,ÿ)
9 2 – –
Minnesota
(ÿÿ, 0,38] (ÿÿ, (0.38,ÿ)
10 S 2 –
0,005] – (0.005,ÿ)

estas variables son las más importantes ya que han sido identificadas por ambos métodos.
Entre estas variables, algunas se dirigen hacia la formación de óxido en el cuerpo metálico antes o después
del laminado en caliente. Para obtener una selección más estrecha de reducción, el algoritmo se aplica a los
datos que consisten en 21 parámetros seleccionados anteriormente. Aquí se encuentra que el número de
variables en la reducción se reduce a 9. Estos 9 atributos (junto con los cortes correspondientes) se describen
en la Tabla 4. Si se comparan estas 9 variables con las 13 variables de la Tabla 3 seleccionadas directamente
de todas variables a través del análisis de conjunto aproximado, se verá que solo 5 variables son comunes
en ambos casos. Esas cinco variables son flujo de Ar, Mn, RMET, tiempo RET y RH O2.

Los ejercicios anteriores de selección de reducción a través de análisis de fraguado aproximado han
proporcionado una guía definitiva para seleccionar las variables relacionadas con la formación de astillas en
láminas laminadas en frío. Teniendo en cuenta los dos conjuntos de reducción dados anteriormente, los
resultados del análisis estadístico y el conocimiento del dominio disponible, se elige el conjunto final de 10
variables importantes como se describe en la Tabla 5.
Machine Translated by Google

110 I. Mohanty et al.

El valor de Severity se determina para una regla dándole el valor sugerido por la mayoría de los objetos en
los que se activa la regla (véanse las Ecs. 2 y 3).
Se asignan etiquetas lingüísticas adecuadas a cada intervalo. La precisión y cobertura
(en %) se dan, respectivamente, entre corchetes al final de cada regla.
A continuación se proporciona una lista principal de 7 reglas generadas con al menos un 80 % de precisión y
un 15 % de cobertura:

Conjunto de
reglas 1 1. Si RMET = L, SDOT = L, HR tk = H, RH O2 = M, CaO = L entonces Gravedad = M [85,0,
15.6]
2. Si RMET = L, SDOT = L, HR tk = H, RH O2 = M, CaO = L, S = H entonces Gravedad =
H [81.0, 15.6]
3. Si RMET = L, Ret Time = H, SDOT = H, HRtk = L, RH O2 = M, Ar flow = L, Mn = L, S = H entonces
Gravedad = M [82.6, 17.4]
4. Si RMET = L, Ret Time = H, SDOT = H, HRtk = H, RH O2 = M, Ar flow = L, Mn = L, S = L entonces
Gravedad = M [82.6, 17.4]
5. Si RMET = M, Ret Time = H, SDOT = VH, HRtk = L, RH O2 = M, CaO = L, MgO = L, Mn = H y S = L
entonces Gravedad = H [83.3, 15.4]
6. Si RMET = H, Ret Time = H, SDOT = L, RH O2= M, Ar flow = H, CaO = L, MgO =
H y Mn = H luego Gravedad = M [85.7, 16.5]
7. Si RMET = VH, SDOT = M, HRtk = L, Ar flow = L, MgO = H, Mn = H y S = H
entonces Gravedad = H [83.3, 15.4]

La lista completa de 171 reglas no se proporciona aquí, ya que ocupará un espacio innecesario sin agregar
ninguna información importante. Si el número de reglas es alto, la cobertura total será mejor, lo que definiría el
sistema de manera más completa. Pero será difícil encontrar conocimiento útil y perceptible a partir de series de
reglas abarrotadas [33]. Entonces, desde el punto de vista de la extracción de conocimiento, se prefiere un
conjunto de reglas más corto para obtener una comprensión más clara del sistema. Un estudio detallado de las 7
reglas enumeradas anteriormente describe claramente los efectos de los atributos en la interacción y combinación
mutua. En su conjunto, las reglas dan una idea holística sobre el papel de las variables en la determinación de la
gravedad de los defectos de la cinta en chapas de acero laminadas en frío.

Queda claro a partir de este análisis que tanto la fabricación de acero como el proceso de laminación en
caliente tienen una contribución sustancial hacia la formación de defectos en la cinta en la etapa de acabado de
los productos. Elementos como la tasa de flujo de argón se pueden ajustar cambiando la geometría de la boquilla
y las condiciones relacionadas con la fundición para tener un compromiso factible entre llevar el flujo caliente a la
superficie y evitar demasiada turbulencia en la superficie. A su vez, esto afecta el atrapamiento de inclusiones en
el acero líquido. Las inclusiones provenientes de muchas fuentes, incluido el flujo de argón, las inclusiones de
óxido generadas durante los procesos de fabricación de acero se transportan con el acero que ingresa a la
cavidad del molde y el arrastre de escoria. Si el acero líquido no se limpia en esta etapa, se hace un esfuerzo
para eliminarlo en la etapa de desbaste durante el desbastado. Estas inclusiones superficiales conducen a astillas
en el producto final. El alto contenido de azufre ha resultado ser un parámetro significativo en este análisis. Esto
se debe a que la dirección del flujo del acero fundido se encuentra a lo largo de la interfaz de las fases sólida y
líquida, provocada por la agitación electromagnética en el molde. Este
Machine Translated by Google

Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 111

posteriormente reduce las burbujas formadas en la interfaz de la cubierta solidificada al inhibir el


desarrollo de orificios nasales en la subsuperficie de la losa. Los espiráculos se inhiben aún más por
un contenido de azufre relativamente más bajo. También se puede inferir de este análisis que RMET,
SDOT y el contenido de oxígeno del horno de recalentamiento RH O2 son los principales
contribuyentes a la formación de astillas. El control mejorado de la atmósfera del horno permite tener
un contenido de oxígeno más estable dentro del horno. Sin embargo, la mayoría de los metales
experimentan algún tipo de oxidación en la superficie, lo que resulta en una pérdida de material que
conduce a un acabado superficial deficiente. Al mejorar el proceso de recalentamiento, el defecto de
la cinta puede reducirse amigablemente.
Después de identificar los parámetros más influyentes, un sistema de inferencia borrosa (FIS)
se desarrolla en base a las reglas seleccionadas para predecir la gravedad del defecto.

4.3 Desarrollo del Modelo FIS

Sobre la base del conjunto de reglas desarrollado utilizando la teoría de conjuntos aproximados, se
desarrollan tres modelos basados en reglas difusas [34, 35] con 7 reglas, 34 reglas y 171 reglas, respectivamente.
Las reglas que se derivaron usando un algoritmo de conjunto aproximado son las entradas para
construir un motor de inferencia difuso usando funciones de membresía. Las funciones de
membresía son las que definen cómo cada espacio de entrada se mapea en un valor de
membresía (o grado de membresía) entre 0 y 1. Se deriva principalmente de los valores de corte
que se dan en la Tabla 5. En base a eso se mapean las variables en diferentes grupos como bajo
(L), medio (M), alto (H) y muy alto (VH). Aquí se utiliza la función de pertenencia gaussiana
generalizada. Esta función depende de dos parámetros llamados media y varianza, que se
calcula poniendo en la ecuación los valores de corte y el valor mínimo y máximo de los atributos

ÿ
(x ÿ c)2

y = mi 2ÿ2 (6)

ÿ (x ÿ c)2 2
ÿÿ= (7)
ln y

donde (c,ÿ) es un conjunto de centros distintos y vectores de ancho de una curva de pertenencia.
Las diez entradas se denotan como

ÿ (flujo de Ar)
A
donde A ÿ {L, H} (8)

µ(CaO)
B
donde B ÿ {L, H} (9)

µ(MgO) donde C ÿ {L, H} (10)


C

µ(Mn)
D
donde D ÿ {L, H} (11)

µ(S)
mi
donde E ÿ {L, H} (12)
Machine Translated by Google

112 I. Mohanty et al.

ÿ(HR tk) donde F ÿ {L, H} (13)


F

µ(HR O2) donde G ÿ {L, M, H} (14)


GRAMO

ÿ(SDOT) donde H ÿ {L, M, H, VH} (15)


H

ÿ (tiempo de ret.) donde yo ÿ {L, H} (dieciséis)


yo

µ(RMET) donde J ÿ {L, M, H, VH} (17)


j

La Figura 3 muestra las funciones de pertenencia de algunas de las variables de entrada


generadas usando los cortes encontrados en los análisis RS en el método anterior. La figura 4
muestra lo mismo para las variables de salida. Cada regla derivada de la teoría de conjuntos
aproximados representa una relación difusa entre las entradas y la gravedad del defecto. Las reglas de inferencia con

(a) (b) (C)


bajo elevado bajo elevado bajo elevado
1 1 1

0.8 0.8 0.8

0.6 0.6 pertenencia


grado
de
0.6
pertenencia
grado
de

pertenencia
grado
de

0.4 0.4 0.4

0.2 0.2 0.2

0 0 0
30 35 40 45 50 55 60 0 2 4 6 8 10 0.1 0.2 0.3 0.4 0.5
CaO Flujo de argón Minnesota

(d) (mi) (F)


bajo medio alto muy alto bajo medicina elevado muy alto bajo 1 medicina elevado
1 1

0.8 0.8 0.8

0.6
pertenencia
grado
de

0.6 pertenencia
grado
de
0.6 pertenencia
grado
de

0.4 0.4 0.4

0.2 0.2 0.2

0 0 0

1140 1160 1180 1200 1220 1240 1260 1280 1300 1040 1050 1060 1070 1080 1090 1100 1110 1120 1 2 3 4 5
SDOT RMET Contenido de HR O2

Fig. 3 Funciones de pertenencia para a CaO, b Flujo de Ar, c Mn, d SDOT, e RMET, f RH O2

Fig. 4 Función de pertenencia para Bajo 1 Medicina Muy alto


Elevado
la gravedad del defecto

0.8

0.6

0.4
pertenencia
grado
de

0.2

1 2 3 4 5 6 7
todos los defectos
Machine Translated by Google

Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 113

Tabla 6 Forma tabular del conjunto de reglas 1

Regla # Flujo de Ar CaO MgO Mn S HRtk RHO2 SDOT Ret time RMET Gravedad
1 L HML LM
2 L H HML LM
3 L L H LMH H LM
4 L L L HMH H LM
5 L LHL LM VH HMH
6 H L S.S ML H HM
7 L HHH L METRO VH H

La conexión de estas entradas con la salida consta de cuatro funciones de pertenencia (baja, media, alta y muy
alta). Las reglas difusas siempre se escriben en forma de "Si (entrada 1 es función de pertenencia 1) y/o (entrada
2 es función de pertenencia 2) y es función de pertenencia de salida)", que se proporciona en…
forma
entonces
tabular(salida
en la
Tabla 6. Los resultados de varias reglas se suman para generar un conjunto de "salidas difusas".

Usando el operador de conjunción (AND) en los antecedentes de las reglas, se calcula la fuerza de disparo de la
regla. El antecedente de cada regla describe en qué medida se aplica la regla, mientras que la conclusión asigna
una función difusa a la variable de salida.
Después de combinar la consecuencia de las reglas mediante la combinación de la fuerza de la regla y la función
de pertenencia de salida, se logra la distribución de salida.
Por último, es necesario llegar a una única salida nítida del FIS. Este número nítido se obtiene en un proceso
conocido como defuzzificación. Convierte la salida difusa del motor de inferencia en nítida utilizando funciones
de pertenencia análogas a las utilizadas por el fuzzificador. Aquí se ha utilizado el método del centroide como
defuzzificación, donde el valor nítido de la variable de salida se calcula encontrando el valor de la variable del
centro de gravedad de la función de pertenencia para el valor borroso. Da el centro del área bajo la curva.

4.4 Predicción FIS

Las reglas desarrolladas por los análisis RS y la función de pertenencia desarrollada se utilizan para crear un
sistema de inferencia difuso (FIS) para predecir la gravedad de las astillas, donde los diez atributos finalmente
seleccionados como importantes se utilizan como parámetros de entrada y la gravedad del defecto es considerado
como salida. Para los tres conjuntos de reglas, como se describió anteriormente, se desarrollan tres FIS
separados. Los gráficos de superficie que muestran el papel de las variables, generados utilizando el FIS a partir
de 171 reglas, se muestran en la Fig. 5.
Los gráficos de superficie generados en algunos casos resultan ser bastante complicados. Pero las tendencias
generales de los gráficos muestran que además de los parámetros de rodadura relacionados con la formación
de óxido en la superficie, el contenido de CaO y S juega un papel importante. Estos estudios
Machine Translated by Google

114 I. Mohanty et al.

3.6 3.6
3.5

3.4 DefectoGravedad
3.4 3.45
DefectoGravedad
DefectoGravedad

3.4
3.2 3.2
3.35

60 0.02
6
50 10 60 0.015 0.5
4 50 0.4
40 5 0.01 0.3
2 40 0.2
CaO 30 30 0.005 0.1
0 Flujo de argón MgO (% en peso) CaO (% en peso) Azufre (% en peso) Manganeso (% en peso)

3.5 3.54 4

3.52
3.4
3.8
3.5
Gravedad
defecto
del
3.3 Gravedad
defecto
del
Gravedad
defecto
del

3.48
3.6
3.2 3.46

3.1 3.44
3.4

1120 1120
600 5 1100 1100 1300
4 1080 600 1080 1250
400 3
2 1060 400 1060 1200
Tiempo de 200 1 1040 1040 1150
200
retención de Recalentamiento del contenido de O2 Temperatura de salida del molino de desbaste Tiempo de retención de losa (min.) Temperatura de salida de la losa
Temperatura de salida del molino de desbaste (deg.
(grado
losa (min.) C) C)

Fig. 5 Gráfica de superficie de la gravedad del defecto frente a flujo de CaO y Ar, b CaO y MgO c S y Mn, d tiempo Ret y RH
O2, e RMET y tiempo Ret, f RMET y SDOT

Fig. 6 Gráfica de la gravedad


prevista del defecto frente a la
gravedad real del defecto en el caso
de las reglas 171

utilizando el punto FIS hacia la producción de acero limpio junto con el control de los parámetros
de laminación en caliente, en la dirección de reducir la formación de capa de óxido.
Las predicciones de los tres Sistemas de Inferencia Fuzzy se muestran en las Figs. 6, 7 y 8.
No hay mucho que comparar entre las predicciones, ya que en todos los casos las deficiencias
son similares. Parece que las predicciones para una severidad más alta son consistentes en todos
los casos, mientras que es bastante pobre en el caso de una severidad más baja, particularmente
en el caso del nivel de severidad 1. Esta observación parece esperada ya que en el caso de una
severidad más baja del defecto se vuelve más difícil evaluar la causa del defecto. En esta situación
las relaciones entre las variables son oscuras y difíciles de expresar a través de las reglas. En el
caso de las reglas generadas a partir de los análisis RS, se pudo encontrar que el número de
reglas para condiciones de baja severidad es bastante bajo. Por lo tanto, los FIS generados no
podrían usarse con éxito para detectar la baja gravedad de los defectos.
Machine Translated by Google

Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 115

Fig. 7 Gráfica de la gravedad


prevista del defecto frente a la gravedad
real del defecto en el caso de 34 reglas

Fig. 8 Gráfica de la gravedad


prevista del defecto frente a la gravedad
real del defecto en el caso de 7 reglas

5 ensayos experimentales para la validación

Para la verificación experimental del modelo anterior para predecir la severidad de los defectos, se
recolectan cinco muestras con diferente composición e historial de proceso.
Las muestras se limpiaron y se realizaron estudios bajo microscopía electrónica de barrido (SEM) junto
con análisis EDX. Se informan micrografías representativas y análisis químicos de las astillas para los
cinco casos. La Tabla 7 muestra el historial de composición y proceso de las muestras junto con su
gravedad. El nivel (bajo, medio, etc.) de los atributos según los análisis RS se describen entre paréntesis.

La Tabla 8 muestra el resultado de los análisis EDX que describen la composición química de los
defectos de la cinta. Las composiciones químicas indican claramente que las astillas son básicamente
óxidos de diferentes elementos. La existencia de Ca en todos los casos indica claramente que el CaO de
la escoria juega un papel importante en la formación de la escoria, que también fue identificado por los
esfuerzos de extracción de datos. En la Tabla 7, se ve que el Cao en la escoria es alto para todos los
casos. Aquí, la principal diferencia entre las tres composiciones de la astilla es que el contenido de Al, Si,
Mn y Fe variaba de un caso a otro. Aunque el SiO2 no se identificó como un parámetro importante,
parece tener presencia en dos de los tres casos. De manera similar , Al2O3 es otro óxido, que tiene
algún papel que desempeñar.
Por lo tanto, el resultado experimental también indica que la formación de astillas no es el efecto de
ningún atributo en particular o ningún proceso en particular. Es un efecto acumulativo de diferentes
óxidos, incluidos los óxidos de hierro, que pueden surgir durante el proceso de laminación en caliente.
Estos óxidos son el resultado de la difusión de oxígeno y la precipitación de FeO bajo condiciones de alta
Machine Translated by Google

116 I. Mohanty et al.

Tabla 7 Historial de composición y proceso de las muestras


Muestra # Flujo de Ar CaO MgO Mn S HR tk RH O2 SDOT Ret time RMET Gravedad
1 5.9 68,21 2,83 0.18 0,006 2,8 3.81 1141 381 1040 2

(L) (H) (L) (L) (H) (L) (H) (L) (H) (L) (METRO)

2 7.2 58,26 5,01 0.18 0,007 2,6 1.49 1202 142 1060 3

(H) (H) (H) (L) (H) (L) (L) (METRO) (L) (METRO) (H)
3 5.3 50,35 2,45 0.17 0,006 3,0 5.80 1209 159 1096 2

(L) (H) (H) (L) (H) (L) (H) (H) (L) (H) (METRO)

4 4.6 58,34 4,24 0.14 0.005 4.0 4.92 1142 201 1106 2

(L) (H) (H) (L) (L) (H) (H) (L) (H) (H) (METRO)

5 5.1 32.11 4.31 0.50 0,007 3,8 5.11 1153 403 1055 3

(L) (L) (H) (L) (H) (H) (H) (L) (H) (METRO) (H)

Tabla 8 Resultado de los análisis EDX de las muestras


Muestra # O N/A Alabama Si k California Minnesota Fe

1 49.78 5.92 5.45 15.93 15.49 1.63 5.80

2 39.26 6.11 13.79 0.71 1.32 12.63 20.26 5.92

3 28.08 1.71 1.22 10.11 0.42 18.53 0,61 39.32


4 24.77 2.59 2.66 5.31 0.35 5.21 1.99 57.12

5 29.21 1.21 10.72 3.19 0.44 4.25 15.55 35.43

temperatura. Estos precipitados se encuentran en estado sólido, compuestos principalmente por FeO, a
menudo acompañados de MnO y SiO2.
En los casos de las muestras 3, 4 y 5, la cantidad de Fe en las astillas es bastante alta, lo que indica la
presencia de óxidos de hierro. La figura 9a-e muestra las apariencias físicas de las astillas bajo SEM. Una
vez que se detecta la oxidación interna, eso podría ayudar a separar algunas de las fuentes probables de
formación de astillas y a identificar el origen plausible de las astillas. Se sabe que los óxidos internos se
forman solo a temperaturas elevadas donde la concentración de oxígeno es lo suficientemente alta y se
exponen durante un período de tiempo bastante prolongado. Dichas temperaturas generalmente ocurren
durante el proceso de fundición de desbastes, recalentamiento de desbastes, antes del laminado en caliente
y también en las primeras etapas del laminado en caliente o desbaste.

6. Conclusión

Se emplearon dos herramientas de inteligencia computacional de última generación, a saber, las teorías de
conjuntos ásperos y borrosos, para determinar la causa de los defectos de la astilla en la formación de
láminas de acero laminadas en frío o en caliente. Mientras que la Teoría de conjuntos aproximados (RST)
ayuda a determinar las variables importantes responsables de la formación de astillas además de la evidencia
estadística, se utiliza un sistema de información difusa (FIS) definido sobre reglas derivadas de RST para predecir
Machine Translated by Google

Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 117

Fig. 9 Aspectos físicos de cinco


muestras de astilla bajo SEM
Machine Translated by Google

118 I. Mohanty et al.

la gravedad de los defectos. La validación del modelo basado en datos se realiza a través de ensayos experimentales
seleccionados en la industria. El estudio puede concluir con las siguientes observaciones resumidas.

1. A pesar de un estudio riguroso, la causa raíz de la formación de astillas no parece fácil de determinar. Las astillas en
la superficie de las tiras de acero laminado en frío pueden deberse a inclusiones extrañas o debido a la formación
de óxidos de hierro.
2. Las variables importantes pertenecen a todas las fases del procesamiento del acero, lo que lleva a la conclusión de
que ninguna variable de proceso o etapa de procesamiento en particular podría identificarse como el caldero
independiente de defectos de la astilla.

3. Las reglas generadas muestran claramente que tanto el proceso de fabricación del acero como el recalentamiento o
el desbaste juegan un papel fundamental en la formación de la astilla. En algunos casos, no es un solo factor, sino
una gran cantidad de factores diferentes que actúan juntos y dan lugar a defectos de la astilla de diversa gravedad.

4. Entre las variables del proceso, los parámetros de laminación en caliente como el contenido de oxígeno en el horno
de recalentamiento (RH O2), la temperatura de salida del desbaste plano (SDOT) y la temperatura de salida del tren
de desbaste (RMET) parecen desempeñar funciones más determinantes y sensibles en la generación de astillas.

5. Si bien el valor p es una medida estadística clásica para juzgar la importancia de los parámetros de un anfitrión en la
predicción de alguna variable objetivo donde su interdependencia es más bien lineal, la reducción de conjunto
aproximado es capaz de seleccionar los parámetros importantes cuando el modo o patrón de dependencia no es
conocido.
6. Las reglas derivadas a través del análisis de conjunto aproximado brindan un conjunto de reglas con cardinalidad o
longitud variables, que se pueden usar para predecir la clase de una variable objetivo.
7. El Sistema de Inferencia Difusa es una herramienta sólida para predecir la gravedad de
astillas de un conjunto de entrenamiento de tamaño razonable.
8. La limitación del modelo Rough-Fuzzy en la predicción de defectos de menor gravedad en la cinta se puede atribuir a
la incertidumbre manifiesta en el sistema, aunque requiere una investigación más profunda.

Referencias

1. Raja, BV (2006). Situación de la industria de chapas de acero laminadas en frío en la India. Steel World: VELA.
2. Bleck, W., Bode, R. y Hahn, FJ (1990). Procesamiento, propiedades y aplicación de aceros libres de intersticiales. En R. Pradhan
(Ed.), Metalurgia de productos de acero desgasificados al vacío (págs. 73–90).
Warrendale, Pensilvania: TMS.
3. Tokunaga, Y. y Yamada, M. (1985). Método para la producción de chapa de acero laminada en frío.
Tener una capacidad de embutición súper profunda. Patente de EE. UU. 4, 504, 326.
4. Sanam, V., Patra, PK, Siddabathula, S., Das, R. y Usharani, V. (2009). Reducción de astillas por inclusiones no metálicas en
colada continua. Conferencia y exposición sobre ciencia y tecnología de materiales de 2009, págs. 1031–1041.

5. Gao, WF (2012). Formación y prevención de defectos de astilla en la superficie de laminados en frío


banda. Investigación de materiales avanzados, 402, 221–226.
Machine Translated by Google

Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 119

6. Saha, JK, Kundu, S., Chandra, S., Sinha, SK, Singhal, U. y Das, AK: modelado matemático del enfriamiento de los rodillos
y la tensión superficial de los rodillos. ISIJ Internacional, 45(11), 1641–1650 (2005).
El Instituto del Hierro y el Acero de Japón.
7. Kundu, S., Mukhopadhyay, A., Chatterjee, S. y Chandra, S. (2004). Modelado de microestructura y transferencia de calor
durante el enfriamiento controlado de alambrón bajo en carbono. ISIJ Internacional, 44(7), 1217–1223.

8. Kundu, S. (2009). Predicción de la textura de transformación en condiciones de laminación complejas. Compañero


rials Science and Engineering: A, 516(1–2), 290–296.
9. Lenka, S., Kundu, S., Chandra, S. y Singh, S. (2013). Efecto de la recalescencia en la microestructura y transformación de
fase en acero de alto carbono. Ciencia y tecnología de materiales, 29(6), 715– 725.

10. Mohanty, I., Bhattacherjee, D.: Red neuronal artificial y su aplicación en la industria del acero.
En: Enfoques computacionales para el diseño de materiales: aspectos teóricos y prácticos, págs.
267–300. IGI Global (2016).
11. Mohanty, I., Bhattacharjee, D. y Datta, S. (2011). Diseño de láminas de acero laminadas en frío con propiedades de tracción
optimizadas utilizando ANN y GA. Ciencia de materiales computacionales, 50(8), 2331–2337.

12. Mohanty, I., Datta, S. y Bhattacharjee, D. (2008). Correlación composición-procesamiento-propiedad de láminas de acero
laminadas en frío usando redes neuronales. Materiales y procesos de fabricación, 24(1), 100–105.

13. Mohanty, I., Sarkar, S., Jha, B., Das, S. y Kumar, R. (2014). Sistema de predicción de propiedades mecánicas en línea para
acero laminado en caliente. Fabricación de hierro y fabricación de acero , 41(8), 618–627.
14. Dey, S., Datta, S., Chattopadhyay, P. y Sil, J. (2008). Modelado de las propiedades del acero viaje utilizando afis: un enfoque
distribuido. Ciencia de materiales computacionales, 43(3), 501–511.
15. Dey, S., Dey, P., Datta, S. y Sil, J. (2009). Enfoque de conjunto aproximado para predecir la resistencia y la ductilidad del
acero de viaje. Materiales y procesos de fabricación, 24(2), 150–154.
16. Datta, S. y Banerjee, M. (2005). Modelado neuro-borroso de la resistencia de aceros hsla procesados termomecánicamente.
Revista india de física, 79, 473–483.
17. Jelonek, J., Krawiec, K. y Slowi ´nski, R. (1995). Reducción aproximada de atributos y sus dominios para redes neuronales.
Inteligencia computacional, 11(2), 339–347.
18. Zimmermann, HJ (2011). Teoría de conjuntos borrosos y sus aplicaciones. Ciencia y negocios de Springer
Medios de comunicación.

19. Pal, SK y Mitra, P. (2004). Generación de casos utilizando conjuntos aproximados con representación difusa.
IEEE Transactions on Knowledge and Data Engineering, 16(3), 293–300.
20. Jang, JS (1993). Anfis: sistema de inferencia difusa basado en redes adaptativas. Transacciones IEEE
on Systems, Man, and Cybernetics, 23(3), 665–685.
21. Majumdar, G., Oraon, B., Laha, A., Ghosh, S., Mohanty, I. y Datta, S. (2010). Desarrollo de reglas basadas en la influencia
de los parámetros de soldadura en el proceso fcaw a partir del modelo ann. Revista internacional de mecatrónica y
sistemas de fabricación, 3(1–2), 155–164.
22. Ernst, MD, et al. (2004). Métodos de permutación: una base para la inferencia exacta. ciencia estadistica,
19(4), 676–685.
23. Pawlak, Z. (1982). Conjuntos ásperos. Revista internacional de informática y ciencias de la información,
11(5), 341–356.
24. Bazan, JG, Nguyen, HS, Nguyen, SH, Synak, P., Wróblewski, J.: Algoritmos de conjunto aproximado en problemas de
clasificación. En Métodos y aplicaciones de fraguado aproximado (págs. 49–88). Springer (2000).
25. Dey, P., Dey, S., Datta, S. y Sil, J. (2011). Discreducción dinámica usando conjuntos aproximados. Aplicado
Informática blanda, 11(5), 3887–3897.
26. Silverstein, C., Brin, S. y Motwani, R. (1998). Más allá de las canastas de mercado: generalización de las reglas de
asociación a las reglas de dependencia. Minería de datos y descubrimiento de conocimientos, 2(1), 39–68.
27. Duntsch, I. y Gediga, G. (2000). Análisis de datos de conjunto aproximado: un camino hacia el descubrimiento de
conocimiento no invasivo. Methodos Publisher, Londres, Reino Unido.
28. Zadeh, LA (1965). Conjuntos borrosos. Información y Control, 8(3), 338–353.
29. Negoi¸tÿa, CV y Ralescu, DA (1975). Aplicaciones de conjuntos borrosos al análisis de sistemas. Saltador.
Machine Translated by Google

120 I. Mohanty et al.

30. Guney, K. y Sarikaya, N. (2009). Comparación de los modelos de sistemas de inferencia difusos de mamdani y sugeno
para el cálculo de la frecuencia resonante de antenas microstrip rectangulares. Progreso en la investigación
electromagnética, 12, 81–104.
31. Kaur, A. y Kaur, A. (2012). Comparación de sistemas de inferencia difusa tipo mamdani y tipo sugeno para sistemas de
aire acondicionado. Revista internacional de computación blanda e ingeniería (IJSCE), 2(2), 323–325.

32. Záhumensk `y, P. y Merwin, M. (2008). Evolución de los defectos artificiales desde los desbastes hasta los productos
laminados. Revista de Tecnología de Procesamiento de Materiales, 196(1–3), 266–278.
33. Wu, WZ, Mi, JS y Zhang, WX (2003). Conjuntos ásperos difusos generalizados. Información
Ciencias, 151, 263–282.
34. Ross, TJ, et al. (2004). Lógica difusa con aplicaciones de ingeniería (vol. 2). Wiley en línea
Biblioteca
35. Setnes, M., Babuska, R., Kaymak, U. y van Nauta Lemke, HR (1998). Medidas de similitud en la simplificación de la base
de reglas difusas. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 28(3), 376–386 (1998).
Machine Translated by Google

Estudios de aprendizaje automático en materiales


Ciencias

Barbara Mrzygÿód, Krzysztof Regulski y Andrzej Opali ´nski

Resumen La investigación en ciencia de los materiales comienza en los laboratorios con la prueba de
las propiedades de los metales y sus aleaciones, las propiedades del material según el tipo de aditivos
y la microestructura, así como los cambios en estas propiedades que tienen lugar bajo la influencia del
procesamiento. El siguiente paso es el modelado y simulación de procesos para investigar la posibilidad
de su control y seguimiento en condiciones de producción. Algunos estudios se relacionan con un
proceso en curso, y luego la investigación se enfoca en el control de calidad del proceso, la optimización
y la detección de irregularidades y defectos del producto. En todas las etapas de la investigación, es
posible aplicar los métodos de aprendizaje automático en la medida elegida por el analista o experto.
Estos métodos se pueden utilizar para obtener conocimiento sobre los fenómenos que ocurren, la
planificación de la investigación y el diseño de procesos de producción (de acuerdo con el 4º paradigma
de la ciencia), pero también pueden ser modelos basados en datos dada la posibilidad de control
autónomo de un aspecto seleccionado. de producción (de acuerdo con la idea de la 4ª revolución
industrial). Este documento presenta una descripción general de los métodos de aprendizaje automático
basado en ejemplos tomados del campo de la ciencia de los materiales discutidos en términos de
formalización de materiales, procesos y conocimientos.

Palabras clave Descubrimiento de conocimiento · Minería de datos · Ciencia de datos ·


Aprendizaje automático · Ingeniería del conocimiento · Ontologías · Ciencia de materiales

1 Introducción: El 4º Paradigma de la Ciencia en el 4º


Revolución industrial

La ciencia se puede definir mediante cuatro paradigmas: primero: evidencia empírica, segundo: teoría
científica, tercero: ciencia computacional y cuarto: ciencia de datos [1]. Entrando en la era de la Industria
4.0, forzando el control automático y la toma de decisiones autónoma en los sistemas físicos cibernéticos,
los dos últimos paradigmas adquieren un nuevo significado. Así como no hay

B. Mrzygÿód (B) · K. Regulski · A. Opali ´nski


AGH Universidad de Ciencia y Tecnología, al. Mickiewicza 30, 30-059 Cracovia, Polonia Correo
electrónico: mrzyglod@agh.edu.pl

© Los autores, bajo licencia exclusiva de Springer Nature Suiza AG 2022 S. Datta y JP 121
Davim (eds.), Machine Learning in Industry, Management and Industrial Engineering,
https://doi.org/10.1007/978-3 -030-75847-9_6
Machine Translated by Google

122 B. Mrzygód et al.

modelado numérico sin cálculos informáticos, no hay toma de decisiones autónoma sin aprendizaje
automático. La ciencia de datos define el arte del procesamiento de datos y la adquisición de
conocimientos. Las posibilidades que nos brinda el aprendizaje automático parecen proporcionar nuevos
instrumentos de investigación que, como un microscopio alguna vez, pueden proporcionar conocimientos
bastante nuevos de muchos científicos. Esto no siempre está asociado (aunque es la forma más obvia
y fiable) con la obtención de nuevos datos directamente de los procesos industriales. A menudo, los
datos de estudios experimentales ya realizados, debidamente sintetizados y combinados, pueden
proporcionar nuevas conclusiones y resultados durante la extracción del archivo existente. Sin embargo,
esto no sería posible sin el procedimiento estructurado para la obtención de estos datos proporcionado
por el régimen de ciencia de datos, así como una interpretación posterior a través del prisma del
conocimiento del dominio.
El apoyo a la decisión, que es el paradigma de la Industria 4.0, se aplica tanto a la producción como
al procesamiento de metales. Considerando el concepto de Industria 4.0 desde la perspectiva de la
metalurgia, las características de esta área son importantes. Al percibir la industria metalúrgica a través
del prisma de los procesos, debe tenerse en cuenta que la producción es complicada y consta de
muchas etapas, una gran cantidad de parámetros del proceso determinan la calidad del producto y los
fenómenos que ocurren durante el procesamiento del material generalmente no son -lineal y difícil de
modelar utilizando métodos deterministas (numéricos). Dondequiera que los procesos metalúrgicos no
se puedan modelar usando herramientas CAx, es decir, modelos deterministas (numéricos), o donde
sea demasiado costoso computacionalmente y consuma mucho tiempo, se pueden crear modelos
estocásticos para respaldar la toma de decisiones usando técnicas de minería de datos.

Los proyectos en el ámbito de la Industria 4.0, actualmente implantados en plantas de fabricación


de productos metálicos, se refieren a sistemas multinivel, donde la capa de integración de datos de
medida y control de calidad se integra con la capa de control y seguimiento de procesos y con la capa
de soporte de decisiones. En tales sistemas, los problemas están relacionados no solo con el problema
de la escala, es decir, BigData, sino también con la integración de los modelos de datos y aprendizaje
automático que se refieren a las mediciones de calidad.
La mayoría de las veces, los datos del proceso y los datos sobre los indicadores de calidad provienen
de diferentes fuentes, con diferentes muestreos, puntos de referencia y diferentes medios de
identificación. Los desafíos también radican en la creación de arquitecturas apropiadas de sistemas de
sensores, generalmente inalámbricos, conectados en la red IoT, integración de varios formatos de
datos, creación de conjuntos de entrenamiento y, después de la implementación de modelos basados
en datos, implementación en el proceso y apoyo a las decisiones.
Los métodos de aprendizaje automático utilizados en la ciencia de los materiales no se pueden
implementar sin una infraestructura de hardware y software adecuada que garantice la eficiencia y
eficacia de su funcionamiento y la seguridad de los datos sobre los que operan. La mayoría de las veces
se implementan como parte de sistemas de TI operados e integrados con la infraestructura del entorno
específico para un sector industrial dado.
Dependiendo de este contexto, las características específicas de tales sistemas pueden diferir, pero se
puede distinguir un modelo universal que representa la estructura de tales sistemas.
Por lo general, consta de tres capas principales y su diagrama se presenta en la Fig. 1. La capa más
alta en este tipo de sistema está compuesta por las interfaces, que permiten al usuario ingresar datos
en el sistema, administrar este sistema y aplicar el resultados devueltos por los métodos utilizados en
los sistemas. Los datos pueden ser ingresados al sistema en base a la
Machine Translated by Google

Estudios de aprendizaje automático en ciencia de materiales 123

Fig. 1 Infraestructura de hardware y software de los sistemas de aprendizaje automático en la Industria 4.0

interfaz gráfica de usuario, donde el administrador del sistema o el experto en tecnología ingresan datos
basados en conjuntos de formularios dedicados previamente preparados.
El segundo grupo de métodos no requiere intervención humana directa. El primer paso puede ser
obtener datos basados en las hojas de datos electrónicas proporcionadas (p. ej., resultados
experimentales o de investigación). Los métodos automáticos generalmente requieren el uso de
complementos dedicados (bibliotecas de software automáticas que permiten la adquisición de datos de
sistemas de TI externos). El tercer grupo de métodos de adquisición de datos se basa en sensores de
hardware, que alimentan directamente la capa de la base de datos. Los métodos de automático
Machine Translated by Google

124 B. Mrzygód et al.

la adquisición de datos suele utilizar la funcionalidad implementada en la segunda capa del sistema
(capa de lógica empresarial), como los analizadores de datos sin procesar, necesarios para obtener
datos limpios, normalizados y filtrados de las fuentes en las que operan. Estos tipos de mecanismos
además aseguran la consistencia e integridad de los datos y monitorean las fuentes para su
disponibilidad. La capa de lógica empresarial del sistema de TI también incluye los componentes clave
de los métodos de aprendizaje automático. Según el método utilizado en el sistema, estos pueden ser
métodos de entrenamiento, prueba, validación de métodos de clasificación, redes neuronales o árboles
de decisión, u otros métodos, como la máquina de vectores de soporte (SVM) o el algoritmo de
agrupamiento discutido en este estudio. Por otro lado, los componentes de este nivel utilizan como
base para su funcionamiento la estructura y contenido de la tercera capa inferior que opera en este
tipo de sistema de información.
Es una capa relacionada con los modelos de almacenamiento de datos e información. Podemos
encontrar en estos modelos que tanto los datos sin procesar que se originan en, por ejemplo, sensores
o mediciones de corriente, datos colocados en un modelo universal, resultantes de la operación de
mecanismos de análisis, como datos típicos de métodos de aprendizaje automático específicos,
generados con el propósito de optimizar y procesamiento efectivo de datos por estos métodos. Los
resultados de la operación de dichos sistemas se devuelven al usuario desde la capa de lógica
comercial (como los resultados de los métodos ML) a la capa superior del sistema (capa de interfaz),
donde generalmente se presentan en la interfaz gráfica de usuario (para el sistema). usuarios) o en
formato digital (p. ej., en forma de servicios web) para su posterior uso automático en sistemas de
producción más complejos (operando según, p. ej., el modelo Industry 4.0). Este tipo de esquema
general de la arquitectura del sistema se puede ampliar para incluir componentes adicionales, lo que
permite su integración con fuentes de datos adicionales y específicas, y también para que estén
disponibles en un proceso de procesamiento de información más amplio.
Como puede verse a partir de las consideraciones anteriores, el cuarto paradigma de la ciencia en
la cuarta revolución industrial es principalmente la adquisición, el procesamiento y el almacenamiento
de datos, la extracción de datos, el modelado de datos y, en consecuencia, la implementación de
modelos basados en datos. Este estudio se centra principalmente en la creación de modelos y
aprendizaje automático y también en la posterior formalización del conocimiento adquirido para su posterior uso y
reutilizar.

2 métodos

Por lo general, la literatura relacionada con los métodos de aprendizaje automático enumera los
métodos en la división supervisada y no supervisada [2–4]. El aprendizaje supervisado permite la
predicción de variables cualitativas (clasificación) o cuantitativas (regresión). Esta situación ocurre
cuando tenemos los resultados (respuestas y medidas) de una variable dependiente y somos capaces
de formular hipótesis adecuadas. En la ciencia de los materiales, el ejemplo más común de aprendizaje
supervisado es la predicción de las propiedades de los materiales en función de su especificidad en
forma de microestructura o composición química. Cuando buscamos objetos similares, grupos de
señales o áreas de densidad similar, estamos hablando de métodos de aprendizaje no supervisado;
tales ejemplos pueden
Machine Translated by Google

Estudios de aprendizaje automático en ciencia de materiales 125

se encuentran en el análisis morfológico, en la agrupación de materiales con características


similares, o en el reconocimiento de la composición de fase de las microestructuras. En este
artículo se discutirán ejemplos de tales estudios. En casos particulares, sin embargo, los
métodos de diferentes grupos se utilizan generalmente como soluciones combinadas o híbridas.
Además, como grupo separado de métodos aplicados de inteligencia artificial, se describirán
varios formalismos de representación del conocimiento que tienen diferentes propiedades en
términos de su posterior uso y reutilización. Se utilizaron modelos en forma de reglas (símbolos)
como resultado de algoritmos de inducción de reglas, así como modelos de inferencia de lógica
difusa o modelos en forma subsimbólica de modelos neuronales o neuro-difusos que terminan en ontologías.

3 Materiales-Procesos-Formalización del conocimiento

Este artículo adopta el orden de las secuencias de investigación desde los materiales
(laboratorio) pasando por los procesos (condiciones parcialmente controladas) hasta la
implementación de modelos en forma de modelos de inferencia. Cada bloque de investigación
tiene condiciones diferentes y muchas veces el punto de vista del analista es diferente, así como
el propósito del modelado. El artículo resume muchos años de trabajo sobre la aplicación de
métodos de aprendizaje automático en la adquisición de conocimiento tecnológico y su
formalización para las necesidades de la ingeniería de materiales y la metalurgia. La Tabla 1
resume las aplicaciones de estas técnicas, que se ampliarán más adelante en el artículo.

Tabla 1 Ejemplos de aplicaciones de métodos de aprendizaje automático en ciencia de materiales

Materiales Procesos Formalización del conocimiento

Aproximación de propiedades Optimización de procesos Creación de bases de conocimiento


basada en: • composición química mediante la identificación del para el control de procesos: • inducción
• parámetros de procesamiento • impacto de los parámetros a través de un conjunto de reglas • estructuras

microestructura de: • descubrimiento de dependencias de datos para decisión

entre parámetros de proceso • estudio soporte de sistemas


de la fuerza de la influencia de los
componentes del proceso • verificación
de las reglas

obtenido algorítmicamente en el rango


de la variable óptima

Identificación de componentes Modelado de la variabilidad de Metamodelado usando lógica


de aleación y clasificación de materiales. discretos y continuos descriptiva: • ontologías de
parámetros: • dominio • integración de datos
predicción del contenido de humedad en heterogéneos • reutilización de
la arena de moldeo • predicción de componentes de conocimiento

defectos de productos metálicos •


previsión del desgaste de herramientas
Machine Translated by Google

126 B. Mrzygód et al.

Para llevar a cabo la investigación en el área de la metalurgia que se presenta en la Tabla 1, se


utilizaron una serie de técnicas en el campo de la minería de datos, el aprendizaje automático y la
formalización del conocimiento. La primera etapa de la metodología propuesta de adquisición y
formalización del conocimiento es la obtención de datos en una forma que permita su posterior
procesamiento. Los datos de los estudios presentados provienen de diferentes fuentes, es decir, (1)
datos experimentales sobre materiales; (2) datos del proceso de producción y formación de metales;
y (3) datos de documentos de texto, la mayoría de las veces archivos PDF que contienen artículos
científicos del campo discutido. Los datos de las fuentes (1) y (2) se caracterizan por una especificidad
similar: generalmente son datos numéricos almacenados en muchas hojas de cálculo y archivos de
texto; su procesamiento requiere que se integren y combinen en una base de datos. Esta operación
incluye transformación, limpieza e integración de datos basada en el conocimiento experto. Este
proceso puede llamarse adquisición e integración de datos. En conjunto, las etapas de trabajo
relacionadas con la creación de modelos y la extracción de conocimiento conforman las etapas de
creación de una base de conocimiento semántico integrada destinada a apoyar el proceso de toma
de decisiones. La adquisición de conocimiento algorítmico consiste en crear modelos basados en
datos (modelos basados en datos). Estos modelos se utilizan para reflejar la dependencia de los
parámetros y cuantificar su influencia mutua. La variable de decisión (dependiente) es elegida por
los expertos y descrita en función de la variabilidad de esta característica en función de los cambios
que se produzcan en los demás parámetros. Las relaciones estocásticas pueden reflejarse en forma
de modelos de regresión, en forma de reglas 'SI-ENTONCES', o en una forma subsimbólica como en
el caso de las redes neuronales artificiales. En la investigación realizada, en particular, se utilizaron
los siguientes algoritmos:

• inducción de árboles de decisión: CART, CHAID, random forest y boosted trees, • análisis de
conglomerados (k-means), • teoría de conjuntos aproximados, • aprendizaje automático: SVM y
redes neuronales.

Los modelos obtenidos se pueden utilizar para la inferencia en los sistemas de soporte de
decisiones. Son modelos de inferencia en términos de sistemas de gestión del conocimiento. Difieren
en la estructura, a menudo también en la precisión, pero se complementan entre sí y brindan al
usuario final varias posibilidades de uso. El lector encontrará una discusión sobre su funcionalidad y
los beneficios de usar métodos particulares en las publicaciones mencionadas anteriormente.
El marco que completa la investigación relacionada con la extracción de conocimiento a partir de
datos es la formalización de este conocimiento.

4 Materiales

Esta sección dedicada a los materiales dará ejemplos de investigaciones sobre la aproximación de
propiedades basadas en composición química, parámetros de procesamiento o microestructura y
también de investigaciones relacionadas con la identificación de componentes de aleaciones y
clasificación de materiales. Se utilizaron las siguientes herramientas: (1) herramientas estadísticas,
regresión, (2) modelos de regresión por partes, (3) MARSplines, (4) árboles de decisión, (5)
Machine Translated by Google

Estudios de aprendizaje automático en ciencia de materiales 127

bosque aleatorio, (6) árboles potenciados, (7) redes neuronales artificiales, (8) máquina de vectores
de soporte (SVM), (9) teoría de conjuntos aproximados, (10) agrupamiento y, finalmente, (11) modelos
neurodifusos [5, 6].
El problema más frecuente desde la perspectiva de la ingeniería de materiales es predecir las
propiedades futuras del producto terminado para controlar y optimizar el proceso. La calidad del
producto se puede determinar directamente estimando las propiedades mecánicas o indirectamente
estimando la composición química y la microestructura. La idea de Industria 4.0 propone monitorear el
proceso tecnológico comparando las operaciones actuales con el resultado esperado, calculado en
paralelo a partir del modelo virtual para mantener el nivel de calidad esperado. En otras palabras, es
la predicción constante de los resultados de las operaciones en curso. En este sentido, la creación de
modelos predictivos se basa, primero, en la búsqueda de dependencias entre parámetros de proceso
y luego en el uso de un algoritmo que, analizando estas dependencias, será capaz de predecir el valor
desconocido de los parámetros esenciales para la eficiencia del proceso (variable dependiente). La
investigación de materiales a menudo se basa en el estudio de las propiedades mecánicas y en un
intento de predecir estas propiedades conociendo la composición química, la microestructura o los
parámetros de procesamiento de un material determinado.

La adquisición de conocimientos sobre los cambios en la microestructura de las siluminas después


de la introducción de elementos de aleación (Mo, Cr, W y V) podría ser un ejemplo de la aplicación de
técnicas de aprendizaje automático en la ciencia de los materiales. Durante la investigación se
desarrolló el procedimiento para el análisis de pequeños conjuntos de datos experimentales para
modelos de múltiples etapas, múltiples variables y múltiples variables. El desarrollo del procedimiento
de votación utilizando los resultados de estudios experimentales permitió la creación de modelos de
árboles de decisión, cuya calidad se mejoró con la discretización. El procedimiento implicó una
combinación de aprendizaje supervisado con aprendizaje supervisado: agrupamiento y árboles de
decisión. El análisis de conglomerados se utilizó para nivelar la multidimensionalidad del vector de
salida (resolviendo el problema de muchas variables dependientes: multivariable).
El uso de discretización tanto de variables dependientes como de predictores ha demostrado ser
efectivo. Esto resultó en un procedimiento de clasificación de varios pasos usando discretización y
análisis de conglomerados. La investigación también mostró que en cada etapa del proceso de toma
de decisiones del analista, el procedimiento realizado requiere una búsqueda continua de las
herramientas disponibles y la inferencia en un nivel más sofisticado que las técnicas tradicionales de
aprendizaje automático. Lo importante es el equilibrio entre la facilidad de uso y la eficiencia en la
obtención de conocimientos de pequeñas colecciones. Los DT son especialmente útiles con problemas
altamente no lineales y conjuntos de datos pequeños, y entre las diversas herramientas, los árboles
proporcionan el conocimiento más simple de interpretar. La eficiencia de los árboles se puede
incrementar mediante la discretización previa de las variables. El uso del análisis de conglomerados
permitió encontrar patrones a un nivel más general que las variables individuales, lo que confirma la
tesis de que la granularidad adecuada de la información permite encontrar patrones incluso en
conjuntos de datos pequeños. Los resultados de la investigación permitieron crear una base de
conocimiento que permite tomar decisiones, mejorar la calidad y acortar el tiempo de prueba de
materiales [5]. Los estudios han demostrado que la predicción de las propiedades de la composición
química se puede mejorar significativamente mediante el uso de análisis de conglomerados para segmentar el
Machine Translated by Google

128 B. Mrzygód et al.

Tabla 2 Predicción de la calidad de las propiedades de la aleación al probar las propiedades del material

MSE RMSE MAE R R2

Predicción de la calidad de la propiedad de aleación 0.004 0,060 0,020 0,753 0,568


basada en la composición química (clasificación)

Predicción de la calidad de las propiedades de la aleación mediante 85.020 9.220 6.160 0.994 0.989
el análisis de conglomerados (pruebas)

Predicción de la calidad de las propiedades de la aleación 107.570 10.370 6.190 0.993 0.986
mediante el análisis de conglomerados (validación)

espacio de resultados (R2 = 0,986). Los resultados presentados en la Tabla 2 se refieren a un


procedimiento de clasificación en dos etapas basado en variables discretizadas de la composición de la silumina.
La aplicación de la teoría del conjunto aproximado en el análisis de datos sobre cambios de
propiedades debido al tratamiento térmico de una aleación de bronce experimental es otro ejemplo de
aplicación de aprendizaje automático [6]. El mecanismo de inferencia que respalda la selección de
parámetros y modificadores de tratamiento térmico apropiados para obtener las propiedades de bronce
deseadas se basó en la inducción de reglas y árboles de decisión con algoritmos que utilizan la teoría de
conjuntos aproximados y también en el análisis exploratorio de los resultados de la investigación, incluidos
análisis estadístico y análisis de varianza (ANOVA). El uso de la herramienta en forma de conjuntos
aproximados resolvió el problema de la granularidad de la información, así como el problema de la
incertidumbre e incompletitud de los datos en condiciones de señales discretas y puntuales.

También se descubrió que las herramientas de aprendizaje automático son útiles en el análisis
comparativo de las propiedades de los materiales. Se utilizaron varias herramientas de aprendizaje
automático para resolver el problema de seleccionar material para la fabricación de un producto con
propiedades mecánicas dadas. Los modelos de clasificadores permitieron apoyar las decisiones
tecnológicas en la etapa de diseño de productos de fundición, en especial los tipos de Hierro Dúctil y
hierro fundido—ADI y hierro fundido nodular con carburos. El análisis se llevó a cabo de dos maneras.
Por un lado, se investigó el problema de clasificación en base a datos de propiedades sin procesar y, por
otro lado, se introdujo una mejora en este método mediante el uso de un análisis de conglomerados
preliminar basado en propiedades, lo que hace que la clasificación no solo sea más gruesa sino también
más errónea. -Libre, fue estudiado. La solución así obtenida combina las ventajas de los DTs, ANN, SVM
y kNN.
Estos estudios se ampliaron con la investigación sobre el desarrollo de un análisis exploratorio de
datos microestructurales de grafito-hierro compactado (CGI) con el fin de obtener conocimiento sobre la
formación de ausferrita [6]. Se han desarrollado reglas para estimar el contenido de ausferrita en función
de la composición química. Los modelos se desarrollaron utilizando (1) herramientas estadísticas,
regresión: GLM, (2) árboles potenciados por regresión: BT, (3) bosque aleatorio: RF, (4) redes neuronales
artificiales, (5) modelos de regresión por partes: PR, (6) el algoritmo CART y (7) MARSplines. El
procedimiento consistió en la creación de modelos posteriores sobre conjuntos de datos seleccionados
secuencialmente. Se puede comparar con la creación de un bosque aleatorio y los llamados "aprendices
débiles". Los resultados obtenidos para los modelos individuales se muestran en la Tabla 3.

Con el proceso de filtrado de datos, la precisión de los modelos ha cambiado. Después de quitar los
casos que eran fáciles de aprender (que no contenían ausferrita), los modelos
Machine Translated by Google

Estudios de aprendizaje automático en ciencia de materiales 129

Tabla 3 La calidad de la predicción en conjuntos de datos reducidos iterativamente


MSE MAE RMSE R R2

ANA(180) 22,9 2.9 4.8 0.99 0.99

ANA(72) 34.2 4.2 5.8 0.97 0,93

BT(180) 30.1 3.4 5.5 0.99 0.98

CART (submodelo de perlita) 55.4 3.9 7.4 0.79 0,62

GLM(180) 48.7 3.3 7.0 0.99 0.97

MARS (basado en microestructura) 2.3 0.9 1.5 0.998 0.995

RP(180) 40,0 3.2 6.3 0.99 0.98

RP(72) 51.8 4.6 7.2 0,94 0.89

FR(180) 130.8 7.2 11.4 0.97 0,94

empeoraron los factores de ajuste, pero al mismo tiempo mejoró la precisión en la predicción de los
contenidos reales (Tabla 3). En el ejemplo de los árboles potenciados, se puede ver claramente el
cambio debido a la reducción del conjunto de datos. En el conjunto completo, el algoritmo determinó
más de 800 árboles, arrojando un error de 30, mientras que en el conjunto reducido, unos 320 árboles
fueron suficientes, pero el error MSE casi se duplicó. Múltiples estudios sobre la importancia de la
influencia de factores individuales en varios modelos de regresión nos permitieron seleccionar las
variables más importantes que influyen en el contenido de ausferrita en varias áreas de variabilidad
de parámetros [7]. La investigación es un ejemplo del uso de varios algoritmos de aprendizaje
automático en la adquisición de conocimiento sobre la microestructura CGI.
El uso de múltiples algoritmos, así como el análisis utilizando dos escenarios, es decir, tanto la
clasificación basada en datos brutos como el análisis de conglomerados previamente realizado,
permitieron comparar los resultados de estos procedimientos. Los resultados se resumen en las
Tablas 4 y 5, de donde se deduce claramente que el análisis de conglomerados más temprano
mejora la calidad de la clasificación. Además, el estudio ha demostrado que en situaciones en las
que la precisión es más importante que la interpretabilidad, las redes neuronales artificiales y el
método de máquina de vectores de soporte dan resultados mucho mejores que los árboles de decisión.
El documento también presenta un ejemplo del uso de datos fuente experimentales para construir
modelos que predicen la composición volumétrica de los componentes individuales de la
microestructura (ferrita, perlita, carburos, martensita, ausferrita y austenita) de

Tabla 4 Resultados del uso de varios algoritmos de aprendizaje automático en la clasificación de microestructuras
Métodos ANA kNN CARRO CHAID MVS

Forma física: ÿ2 17.8 22.3 3.7 0.1 9.2

Aptitud: G2 43.8 32.5 17.0 2.1 26,8

Incompatibilidad (%) 13.8 48.0 50.5 73.7 42.0

86.2 – 31.6 46.4 90,9


Capacitación (%)

63.3 – – – 58.0
Prueba (%)

Validando (%) 60.0 41.2 52.1 52.1 82,9


Machine Translated by Google

130 B. Mrzygód et al.

Tabla 5 Resultados del uso de varios


Clústeres CARRITO SVM ANA
algoritmos de aprendizaje automático
Forma física: ÿ2 3.1 0.21 0.12
en la clasificación de microestructuras
después de la agrupación Aptitud: G2 42,9 4.2 6.12

Incompatibilidad (%) 9.8 1.38 2.07

Capacitación (%) 97,9 98.7 97,9


– 99.9 99.9
Prueba (%)

Validando (%) 97.6 99.02 99.9

Hierro con grafito compactado (CGI). El conjunto de datos utilizado para entrenar los modelos
se recopiló como resultado de la observación y las mediciones del contenido de componentes
individuales de la microestructura CGI en relación con el contenido de aditivos de aleación
individuales (molibdeno, níquel y cobre) introducidos en diferentes proporciones para
diferentes paredes de fundición de espesor [7]. El algoritmo híbrido neural-difuso se utilizó
para construir el modelo predictivo: ANFIS (Adaptive Neuro-Fuzzy Inference System) [8]. La
investigación permitió desarrollar un motor de inferencia difuso (FIS) que contiene 108 reglas
difusas del tipo SUGENO en las que las premisas se refieren a los conjuntos difusos
desarrollados y las conclusiones son dependencias funcionales entre las variables adoptadas.
La Figura 2 muestra los parámetros del modelo FIS (Entradas/Salidas) determinados en el
proceso de aprendizaje utilizando el algoritmo ANFIS.

aporte entrada mf reglas

Cu, % En el modelo se generaron 108 reglas. La


forma general de la regla se presenta en
fórmula:

Ni, %

El ejemplo de la regla:

SI (Cu es S) y (Ni es S) y (Mo es M) y (el


meses, %
espesor es 3)
ENTONCES ausferrita = 822,8 Cu + 7,893
Ni - 79,92 Mo + 76,91 espesor -90,33

grosor,
milímetro

Fig. 2 Los parámetros del modelo FIS (Entradas/Salidas) determinados en el proceso de aprendizaje utilizando el algoritmo
ANFIS
Machine Translated by Google

Estudios de aprendizaje automático en ciencia de materiales 131

El sistema desarrollado permitió (con un error de entrenamiento del 5% y un error de prueba de


alrededor del 9%) a sus usuarios predecir el contenido de un componente seleccionado en la
microestructura de hierro de grafito compactado. El modelo desarrollado puede ser utilizado en la
selección de la composición química del hierro con grafito compactado (CGI) y, en consecuencia,
liquidar el gasto o reducir el costo de los estudios experimentales destinados a demostrar la
posibilidad de producir hierro fundido con una microestructura de matriz ausferrítica.

La investigación realizada mostró un potencial muy alto del sistema de inferencia neural-difusa
adaptativa (ANFIS). Basado en datos de medición, permite la optimización (ajuste) de los
parámetros del modelo difuso. Los modelos borrosos permiten la generalización del conocimiento
contenido en los datos de medición ruidosos y su presentación en una forma comprensible para un
ser humano.

5 Procesos

Los modelos de procesos que son el resultado de algoritmos de aprendizaje automático tienen un
patrón de trabajo similar al enfoque relacionado con el estudio de las propiedades de los materiales.
En cada caso, la tarea de los modelos es, por un lado, permitir la previsión (para un parámetro de
decisión específico) y, por otro lado, evaluar cómo los parámetros de entrada del proceso individual
cambian el valor de salida (análisis de sensibilidad).
El uso de árboles de decisión se basó en la investigación del proceso de producción de pernos
dentro de la cadena de producción. Con base en los datos del proceso, fue posible desarrollar, por
ejemplo, modelos de árboles de decisión CART y CHAID [6]. El análisis de los datos del proceso
permitió evaluar la importancia (la fuerza de influencia) de las variables en la clase de calidad del
perno. El logro fue la generación de reglas que permitieron la detección de posibles defectos de
producción. El uso de árboles de decisión permitió la interpretación del modelo (como un todo o en
fragmentos, reglas individuales) por parte de un ser humano. Este es un aspecto muy importante
de la minería de datos y, lamentablemente, no se puede realizar con otras técnicas. Sin embargo,
la transparencia de los modelos obtenidos con la ayuda de la inducción del árbol de decisión a
menudo se produce a costa de una precisión reducida o un ajuste excesivo del modelo (teniendo
en cuenta desviaciones insignificantes). Sin embargo, los estudios han demostrado que esta
herramienta se puede utilizar en el control de procesos como apoyo a la decisión con una precisión
de hasta el 94%.
El método de inducción del árbol de decisiones también se utilizó en la investigación sobre el
proceso de laminación de bandas de acero de dos fases con el fin de optimizarlo [9]. Se presenta
una solución que permite estudiar la influencia de los parámetros individuales del proceso (22
variables independientes en el modelo, incluida la temperatura de carga, los tiempos de
interoperación para seis pases, la velocidad de rotación de los rodillos, el coeficiente de
transferencia de calor, etc.) en los parámetros de salida ( temperatura de laminación en pasadas
individuales y tamaño de grano). Los resultados del análisis estadístico y exploratorio se
compararon con los resultados del análisis de sensibilidad [10]. Se ha demostrado que la aplicación
de las técnicas propuestas permite obtener los mismos resultados utilizando solo el 1% de los datos necesarios par
Machine Translated by Google

132 B. Mrzygód et al.

análisis de sensibilidad por técnicas computacionales convencionales. Esta solución permite un


análisis rápido, incluso en tiempo real.
Otro ejemplo de modelado basado en datos es la prueba de humedad de la arena de moldeo [11].
Como parte de esta investigación, se desarrolló un método para mejorar la calidad del proceso de
preparación de arena de moldeo basado en la predicción de humedad. La investigación exploratoria
permitió descubrir la relación entre los parámetros responsables de las propiedades de la arena de
moldeo. Se desarrolló un enfoque de dos pasos para el ajuste de la predicción (utilizando tanto la
inducción de árboles como el análisis de conglomerados) y se demostró que es eficaz para evaluar el
contenido de humedad en la arena de moldeo. De esta manera, se descubrió el conocimiento en
forma de reglas, necesario en la construcción de bases de conocimiento para los sistemas de apoyo
a la decisión en el diagnóstico de la unión de la arena de moldeo.
En la investigación sobre el análisis de la durabilidad de las herramientas de forja, se utilizaron la
lógica difusa y las redes neuronales artificiales para desarrollar sistemas que predicen el desgaste de
las herramientas de forja para el proceso de forja en matriz seleccionado [12–16]. Actualmente, los
costos de las herramientas de forja constituyen una parte significativa de los costos totales de
producción de forja, toda investigación dirigida a aumentar la durabilidad de las herramientas de forja
y reducir su participación en los costos de producción es importante. El sistema desarrollado permite
calcular el desgaste de la herramienta para los valores dados de sus parámetros operativos y estima
la intensidad de ocurrencia [%] de los mecanismos típicos de destrucción de la herramienta (es decir,
fatiga termomecánica, desgaste mecánico, desgaste abrasivo). desgaste y deformación plástica).
Como fuente de datos, se utilizaron los resultados de muchos años de investigación experimental y
modelado numérico, que se referían al impacto de los factores de entrada seleccionados del proceso
de forjado en las características de desgaste de la herramienta. Estos estudios incluyeron, entre otros,
los siguientes temas: observación del desempeño del proceso de forja, análisis macroscópico
combinado con escaneo de las superficies de trabajo de la herramienta, mediciones de microdureza,
análisis de microrrugosidad y modelado numérico del proceso de forja. Las variables explicativas
(entradas) fueron el número de piezas forjadas, las presiones, la temperatura en las superficies de
herramientas seleccionadas, la trayectoria de fricción y el tipo de capa protectora aplicada en la
herramienta. Las variables explicadas (de salida) incluyeron el desgaste de la herramienta (pérdida
geométrica de material [mm]) y la contribución porcentual de los principales mecanismos destructivos.
En este estudio, se consideraron muchos métodos formales.
Como punto de partida, se utilizaron los resultados de muchos años de investigación industrial
recogidos en la base de datos desarrollada. Teniendo en cuenta el hecho de que los resultados de
las pruebas de materiales y las simulaciones por computadora suelen ser incompletos y pueden estar
cargados de errores (medición y simulación), el análisis se llevó a cabo principalmente con el uso de
métodos formales, que en su naturaleza permiten la modelización basada en incertidumbre. y datos
incompletos. La investigación se llevó a cabo utilizando lógica difusa [12], el algoritmo neuro-difuso
ANFIS [13] y las redes neuronales artificiales [14–16]. El esquema de investigación desarrollado para
el sistema de predicción del desgaste de herramientas de forja se muestra en la Fig. 3.

El mejor ajuste y el error más pequeño se obtuvieron al usar redes neuronales artificiales [14–16].
En el sistema desarrollado funcionan nueve redes neuronales, cinco de ellas determinan el valor de
la pérdida geométrica del material para herramientas que trabajan con diferentes capas protectoras
(Fig. 4a–e), y cuatro redes definen la intensidad de la ocurrencia de mecanismos destructivos ( Fig.
5a–d).
Machine Translated by Google

Estudios de aprendizaje automático en ciencia de materiales 133

Fig. 3 Esquema de estudios desarrollados para diseñar un sistema que predice el desgaste de herramientas de forja

El sistema desarrollado con el uso de redes neuronales artificiales permite el análisis y


predicción de la durabilidad de los troqueles de forja con la identificación de zonas críticas y
mecanismos de destrucción.
Un sistema de este tipo no es solo fuente de valiosos conocimientos científicos sino, sobre
todo, una herramienta práctica para ingenieros de procesos y tecnólogos que trabajan en la
industria de la forja.

6 Formalización del conocimiento: desarrollo del conocimiento


Bases e Integración Semántica

En el modelado de procesos, a menudo se utilizan bases de datos de materiales. Para tomar


decisiones y predecir el futuro en los procesos productivos se utiliza el conocimiento que
consiste no sólo en datos sino, sobre todo, en todas las habilidades tecnológicas. Los trabajos
descritos anteriormente mostraron que el conocimiento sobre los procesos también se puede
adquirir automáticamente con el uso del aprendizaje automático. Para aprovechar al máximo el
potencial de los métodos aplicados de la inteligencia artificial, el conocimiento adquirido en
forma de reglas, modelos o patrones debe guardarse, preservarse o codificarse. Para que el
conocimiento conservado sea más comprensible para los humanos y procesable para las
máquinas, es necesario describirlo adecuadamente.
Parte del trabajo de investigación de los autores trata sobre los métodos de formalización
del conocimiento. Se presentó el proceso de descubrimiento e inferencia de conocimiento
utilizando modelos de aprendizaje automático y técnicas semánticas (ontología) para formalizar
el conocimiento y codificarlo en bases de conocimiento semántico. El uso de técnicas de
desarrollo de ontologías, es decir, modelado semántico, se puede presentar en el ejemplo de
ontología para la descripción de modelos multiescala de procesamiento termomecánico de aleaciones [17].
El modelo semántico, u ontología, permite la validación de modelos multiescala por
Machine Translated by Google

134 B. Mrzygód et al.

Fig. 4 Una lista simplificada de redes neuronales artificiales que operan en el sistema: ANN para pérdida de
material (desgaste) para herramientas que trabajan con capas protectoras: a nitruradas, b acolchadas, c
híbridas Cr/CrN, d híbridas Cr/AlCrTiN y e híbrido Cr/AlCrTiSiN

examinar la integridad de las variables de entrada. Una descripción de este tipo es también una
herramienta para la comunicación inequívoca entre ingenieros y programadores.
Se desarrolló un sistema que permite la catalogación automática basada en ontologías y la
búsqueda sustantiva de documentos de texto del repositorio de documentos relacionados con la
tecnología de procesamiento de metales. Esta solución permite la creación de una base de
conocimiento semántico en el campo de la metalurgia y el procesamiento de metales con el uso
de técnicas de adquisición y codificación de artefactos informáticos reutilizables generados a
partir de documentos. La metodología incluye un algoritmo TF-iDF para determinar el poder
discriminante de las palabras, indexación semántica LSI oculta para agrupar documentos,
creación de grupos de sinónimos e integración con ontología mediante la asignación de clases a grupos temático
Machine Translated by Google

Estudios de aprendizaje automático en ciencia de materiales 135

Fig. 5 Una lista simplificada de redes neuronales artificiales que operan en el sistema: ANN para mecanismos destructivos:
a fatiga termomecánica, b desgaste abrasivo, c deformación plástica y d fatiga mecánica

El desarrollo del sistema obligó al proceso de formalización del conocimiento, que es un


elemento indispensable en la creación de sistemas de apoyo a la decisión. La solución
consistió en la adaptación de clasificadores basados en la teoría de conjuntos aproximados y
análisis de asociaciones en la minería de textos de documentos referentes a la tecnología de
producción y procesamiento de metales [18].

7. Conclusiones

La metodología desarrollada proporciona una herramienta universal para la adquisición de


conocimiento, ofreciendo, por un lado, la precisión de las redes neuronales o máquinas de
vectores soporte, y, por otro lado, la intuición y transparencia de los árboles de decisión,
combinado con la posibilidad de in- Análisis profundo de dependencias. Las bases de
conocimiento creadas de esta manera, formalizadas utilizando los últimos métodos de
representación del conocimiento, satisfacen las necesidades de los usuarios y participantes
de la Industria 4.0 en la mayor medida posible. También se ha demostrado que se pueden
utilizar en la producción de varios tipos de materiales con características muy específicas. La
investigación realizada ha demostrado que es posible utilizar los mismos métodos de
inteligencia artificial (aprendizaje automático) para modelar varios procesos en el área de
procesamiento de metales. Gracias a la investigación realizada, fue posible proponer un conjunto de herramie
Machine Translated by Google

136 B. Mrzygód et al.

resolver y modelar varios problemas, a menudo complejos, del procesamiento de metales, mientras
se adquieren conocimientos sobre ellos en una forma que sea tanto comprensible por humanos
como procesable por máquinas, lo cual es una condición necesaria para respaldar la idea de
Industria 4.0.

Agradecimientos Este estudio se realizó como parte de la investigación fundamental financiada por el Ministerio
de Ciencia y Educación Superior, subvención no. 16.16.110.663.

Referencias

1. Hola, T., Tansley, S., Tolle, K. (2009). El cuarto paradigma: descubrimiento científico intensivo en datos.
Investigación de Microsoft, ISBN: 978-0-9825442-0-4.
2. Mueller, T., Kusne, AG y Ramprasad, R. (2016). Aprendizaje automático en ciencia de materiales: avances
recientes y aplicaciones emergentes. Reseñas en química computacional, 29, 186–273.
3. Bartók, AP, Poelking, C., Bernstein, N., Kermode, JR, Csányi, G. y Ceriotti, M. (2017).
El aprendizaje automático unifica el modelado de materiales y moléculas. Avances científicos, 3(12).
4. Butler, KT, Davies, DW, Cartwright, H., Isayev, O. y Walsh, A. (2018). Aprendizaje automático
para la ciencia molecular y de materiales. Naturaleza, 559 (7715), 547–555.
5. Regulski, K., Wilk-Koÿodziejczyk, D., Kluska-Nawarecka, S., Szymczak, T., Gumienny, G. y Jaskowiec, K.
(2019). Discretización multietapa y agrupación en clasificación multivariable del impacto de los elementos
de aleación en las propiedades de la silumina hipoeutéctica. Archivos de Ingeniería Civil y Mecánica, 19(1),
114–126.
6. Regulski, K. (2020). Minería de datos y aprendizaje automático en aspectos de adquisición de conocimiento
sobre la producción y procesamiento de metales para las necesidades de la Industria 4.0. Hutnik 2020(4).
https://doi.org/10.15199/24.2020.4.3.
7. Mrzygÿód, B., Gumienny, G., Wilk-Koÿodziejczyk, D., et al. (2019). Aplicación de métodos seleccionados de
inteligencia artificial en un sistema de predicción de la microestructura de hierro grafito compactado. Revista
de ingeniería y rendimiento de materiales, 28, 3894–3904. https://doi.org/10. 1007/s11665-019-03932-4.

8. Jang, J.-SR (1993). ANFIS: sistema de inferencia difusa basado en red adaptativa. IEEE Transactions on
Systems Man and Cybernetics, 23(3p.), 665–685. https://doi.org/10.1109/21. 256541.

9. Regulski, K., Wilk-Koÿodziejczyk, D., Szymczak, T., Gumienny, G., Gietka, T., Pirowski, Z., et al. (2019).
Métodos de minería de datos para la predicción de propiedades de aleaciones de Al-Si de múltiples
componentes basadas en curvas de enfriamiento. Revista de ingeniería y rendimiento de materiales
(JMEP), 28, 7431–7444. https://doi.org/10.1007/s11665-019-04442-z.
10. Szeliga, D., Kusiak, J. y Rauch, ÿ. (2012) Análisis de sensibilidad como soporte para el diseño de tecnología
de laminación en caliente de flejes de acero bifásicos. En: J. Kusiak, J. Majta y D. Szeliga (Eds.), Metal
Forming 2012: Proceedings of the 14th International Conference on Metal Forming (pp. 1275–1278).
Weinheim: Wiley-VCH Verlag GmbH & Co. KGaA (Steel Research International).
11. Rauch, ÿ., Kusiak, J. y Regulski, K. (2020). Inteligencia artificial en la industria del acero: desde la fundición
hasta el producto final. En: The Metal Forming Conference MEFORM (págs. 11–14). ISBN 978-3-86012-632-5.

12. Gronostajski, Z., Hawryluk, M. y Kaszuba, M., et al. (2016). El sistema experto que apoya la evaluación de
la durabilidad de las herramientas de forja. Revista internacional de tecnología de fabricación avanzada,
82, 1973–1991. https://doi.org/10.1007/s00170-015-7522-3.
13. Hawryluk, M., Mrzygÿód, B. (2016). Aplicación de Adaptative Neuro-Fuzzy Inference System (ANFIS) para
predecir el desgaste de herramientas de forja. En: Metal 2016: 25 International Conference on Metallurgy
and Materials (S. 90), mayo de 2016, Brno, República Checa, UE: lista de resúmenes.
Ostrava: TANGER Ltd., cop. 2016. ISBN: 978-80-87294-66-6.
Machine Translated by Google

Estudios de aprendizaje automático en ciencia de materiales 137

14. Mrzygÿód, B., Hawryluk, M., Gronostajski, Z., Opali ´nski, A., Kaszuba, M., Polak, S., et al.
(2018). Análisis de durabilidad de herramientas de forja tras diferentes variantes de tratamiento superficial mediante un
sistema de ayuda a la decisión basado en redes neuronales artificiales. Archivos de Ingeniería Civil y Mecánica, 18(4),
1079–1091. https://doi.org/10.1016/j.acme.2018.02.010.
15. Hawryluk, M. y Mrzyglod, B. (2018). Un sistema de análisis y predicción de la pérdida de material de herramienta de forja
aplicando redes neuronales artificiales. Journal of Mining and Metallurgy, Sección B: Metallurgy, 54(3), 323–337. https://
doi.org/10.2298/JMMB180417023H.
16. Mrzygÿód, B., Hawryluk, M., Janik, M., et al. (2020). Análisis de sensibilidad de las redes neuronales artificiales en un
sistema de predicción de durabilidad de herramientas de forja a piezas forjadas en acero C45.
Revista internacional de tecnología de fabricación avanzada, 109, 1385–1395. https://doi. org/10.1007/s00170-020-05641-
y.
17. Macioÿ, P. y Regulski, K. (2016). Desarrollo de descripción semántica para modelos multiescala de tratamiento
termomecánico de aleaciones metálicas. The Journal of The Minerals JOM, 68, 2082– 2088.

18. Regulski, K. (2017). Formalización del conocimiento tecnológico en el campo de la metalurgia utilizando herramientas de
clasificación de documentos apoyadas con técnicas semánticas. Archivos de metalurgia y materiales, 62 (2), 715–720.
Machine Translated by Google

Replicación precisa y en tiempo real


de las ecuaciones que gobiernan los
sistemas físicos con CNN de
transposición: para la Industria 4.0 y los
gemelos digitales

Hritik Narayan y Arya K. Bhattacharya

Resumen El teorema de aproximación universal proporciona la base teórica para arquitecturas


similares a perceptrones para representar la funcionalidad de funciones matemáticas
complicadas con cualquier grado de precisión deseado. Entre las más complejas de tales
funciones se encuentran las ecuaciones gobernantes de procesos físicos como las ecuaciones
de Navier-Stokes y Maxwell. La representación precisa de fenómenos físicos complejos a
través de la simulación numérica de tales ecuaciones gobernantes es un desafío, y es un
desafío concomitante para las redes neuronales artificiales (ANN) aprender la funcionalidad de
estas ecuaciones a partir de los datos generados a partir de tales simulaciones. Hay un gran
valor práctico de dicho análisis: la mayoría de los subprocesos en la industria se pueden
describir mediante versiones aproximadas de estas ecuaciones, su solución en tiempo real
permitirá un monitoreo, control y pronósticos significativamente más informativos y precisos de
los procesos en ejecución. Los arreglos de sensores instalados en los límites físicos de los
dominios de proceso pueden proporcionar entradas cruciales para arquitecturas similares a
ANN que pueden transformar estos valores aislados en condiciones de campo detalladas.
Siempre que estos mecanismos similares a ANN puedan exhibir las siguientes propiedades:
que respondan en el proceso en tiempo real, sus soluciones son casi tan precisas como las de
las simulaciones numéricas fuera de línea de las ecuaciones gobernantes de las que aprenden
las relaciones funcionales y, lo que es más importante, puede mapear unas pocas entradas de
puntuación en alrededor de dos órdenes de magnitud más de salidas. El desarrollo de tales
arquitecturas abrirá perspectivas completamente nuevas de aplicación de ANN a la industria
moderna. Aquí, presentamos arquitecturas convolucionales similares a NN basadas
principalmente en transponer convoluciones y otras características de diseño que satisfacen
las tres propiedades cruciales. Estos se demuestran en dos dominios de aplicación diferentes
de las ecuaciones reducidas de Navier-Stokes, que contienen altas no linealidades y discontinuidades abruptas

Palabras clave Red neuronal convolucional · Redes neuronales · Convoluciones


transpuestas · Supervisión de procesos en tiempo real · Simulaciones de procesos ·
Ecuaciones diferenciales que rigen los procesos físicos

H. Narayan · AK Bhattacharya (B)


Escuela de Ingeniería Ecole Centrale, Universidad de Mahindra, Hyderabad 500043, India

© Los autores, bajo licencia exclusiva de Springer Nature Suiza AG 2022 S. Datta y 139
JP Davim (eds.), Machine Learning in Industry, Management and Industrial
Engineering, https://doi.org/10.1007/978-3 -030-75847-9_7
Machine Translated by Google

140 H. Narayan y AK Bhattacharya

1. Introducción

Las ecuaciones que gobiernan procesos físicos complejos se expresan con mayor frecuencia como
conjuntos de ecuaciones diferenciales parciales acopladas en unas pocas variables definitorias, como,
por ejemplo, las ecuaciones de Navier-Stokes de mecánica de fluidos [25], las ecuaciones de
electromagnética de Maxwell [18], ecuaciones constitutivas ecuaciones de mecánica de sólidos, etc. La
complejidad de estas ecuaciones inhibe las soluciones de forma cerrada incluso para las geometrías más
simples, y deben resolverse numéricamente, generalmente en una cuadrícula en el campo que se ajusta
a los límites espaciales. En estos límites, se proporcionan las condiciones conocidas, por ejemplo, los
valores de algunas de las variables, a partir de las cuales se extrae la solución de campo en los puntos
de la cuadrícula mediante simulación [3, 8] utilizando esquemas numéricos apropiados.
Estas simulaciones invariablemente consumen mucho tiempo, descartando soluciones precisas en
cualquier tiempo cercano al tiempo real.
De acuerdo con el Teorema de Aproximación Universal, probado de forma independiente por
Cybenko [7] y Hornick et al. [14], cualquier tipo de red neuronal artificial con al menos una capa oculta y
funciones de activación no lineales es capaz de replicar cualquier función matemática arbitrariamente
complicada con el grado de precisión deseado. La implicación oculta es que hay suficientes datos
extraídos de la función matemática disponibles para que la red neuronal artificial (ANN) aprenda esta
funcionalidad.
Combinando los aspectos anteriores, si se pueden lograr simulaciones numéricas precisas para
fenómenos físicos arbitrariamente complejos descritos por las ecuaciones de gobierno correspondientes,
entonces, en principio, los datos de simulación resultantes se pueden usar para entrenar variantes de
ANN para representar las funcionalidades encapsuladas en estas ecuaciones. No hace falta decir que
estos dos pasos ejemplifican importantes desafíos tecnológicos abiertos. También se puede cuestionar
el valor utilitario del segundo paso.
Para muchos escenarios y dominios de aplicación, la solución precisa de problemas físicos complejos
en tiempo real puede conducir a mejoras cuánticas a niveles tecnocomerciales. Por ejemplo, en Industria
4.0, que representa la manifestación completa de IoT (Internet de las cosas) en la industria de procesos
y fabricación [17, 24], cada subproceso individual en la cadena de producción debe monitorearse y
controlarse para obtener el máximo rendimiento. Teniendo en cuenta cualquier subproceso individual,
los valores de las variables relevantes que definen el proceso pueden conocerse en sus límites físicos a
partir de sensores, pero los valores en el interior del campo permanecen desconocidos en tiempo real.
Si estos pudieran extraerse, se mejoraría significativamente el seguimiento y control, se definirían con
mayor precisión los subprocesos inmediatos aguas arriba y aguas abajo de la cadena y se mejoraría la
eficiencia productiva de toda la cadena.

La solución numérica de las ecuaciones gobernantes de la física del subproceso es el mecanismo más
relevante para extraer los valores de las variables en el interior del campo, pero como se mencionó
anteriormente, son inalcanzables en tiempos reales del proceso.
Esto nos lleva al valor utilitario del mencionado segundo paso. Las simulaciones realizadas en las
ecuaciones de gobierno que representan los procesos físicos en cuestión con grados relevantes de
precisión pueden usarse para entrenar variantes de ANN, que luego, en las fases de producción, pueden
tomar valores de los sensores para generar condiciones detalladas en el interior del campo. Esto se
puede lograr en la práctica siempre que las variantes ANN sean
Machine Translated by Google

Replicación precisa y en tiempo real de las ecuaciones gobernantes... 141

diseñados, entrenados y satisfacen tres condiciones cruciales. Estos son: (a) cualquier paso hacia
adelante a través de la ANN debe ejecutarse en tiempo real del proceso, idealmente unos pocos
milisegundos, (b) los niveles de precisión deben ser muy altos con métricas representativas como, por
ejemplo, el error porcentual absoluto medio (MAPE) de la orden. del 2% o menos, y (c) el número de
entradas será (aproximadamente) el número de puntos de la cuadrícula de contorno en la simulación
original, mientras que el número de salidas será el número de puntos de la cuadrícula de campo, y
este último estará invariablemente en menos un orden de magnitud superior en número.
La condición (c) es el mayor desafío, ya que la mayoría (casi todas) las variantes de ANN en
diversos dominios de aplicación están diseñadas con una cantidad de salidas menor o igual que la
cantidad de entradas. En la mayoría de los casos, las salidas son significativamente menores que el
número de entradas. La combinación de las condiciones (b) y (c) hace que esto sea un desafío profundo.
Hemos utilizado arquitecturas de redes neuronales convolucionales (CNN) basadas en transponer
convoluciones y otros patrones de diseño para escalar desde un pequeño número de entradas a
grandes salidas, más grandes en dos órdenes de magnitud. Esto se logra manteniendo los niveles de
error (MAPE) en torno al 2% y menos, demostrado en dos problemas complejos altamente no lineales
con fuertes discontinuidades de campo del dominio de la mecánica de fluidos. Teniendo en cuenta el
requisito (a), una de nuestras prioridades de diseño ha sido mantener pequeño el número total de
parámetros. Un aspecto común a casi todas las arquitecturas de CNN (una o más capas completamente
conectadas que preceden a la capa de salida) crean una explosión en la cantidad de parámetros, pero
aún así son un elemento esencial necesario para lograr la precisión. Nuestras arquitecturas eliminan
por completo esta capa totalmente conectada sin comprometer la precisión.

Las contribuciones técnicas de este trabajo incluyen:

• Sintetizar arquitecturas convolucionales transpuestas con características de diseño específicas que


pueden aprender la funcionalidad de los sistemas con salidas dos órdenes de magnitud más que
el número de entradas.
• Arquitecturas que evitan cualquier capa prefinal completamente conectada y, por lo tanto, requieren
aproximadamente un orden de magnitud menos de parámetros en comparación con las ANN o
CNN convencionales, para reproducir niveles comparables de precisión. • Combinando lo anterior,
completando la tubería para explotar los avances bajo la Industria 4.0 para realizar monitoreo,
pronósticos, control y optimización instantáneos y precisos de procesos industriales y Gemelos
Digitales.

El resto del documento está estructurado de la siguiente manera. La sección 2 analiza algunos
desarrollos relacionados con la actualidad. La Sección 3 presenta dos dominios de aplicación que
demuestran tanto la relevancia como la validez conceptual de estas arquitecturas.
La Sección 4 describe los principios arquitectónicos y su prueba de concepto en los dominios de
aplicación seleccionados. Finalmente, se presentan las conclusiones.
Machine Translated by Google

142 H. Narayan y AK Bhattacharya

2 Trabajo relacionado e importancia en la industria

En esta sección, presentamos una breve descripción de los desarrollos relacionados actuales en
el área de replicación o aumento de soluciones numéricas de ecuaciones gobernantes de
procesos físicos con técnicas basadas en aprendizaje automático. A esto le sigue una breve
explicación de Transpose Convolutions y pasos fraccionarios y luego una discusión de algunos
matices cruciales para crear mapeos en tiempo real desde sensores de proceso hasta soluciones
de interior de campo en escenarios industriales.

2.1 Desarrollos relacionados

Ha habido una cantidad significativa de trabajo desde los primeros días de Machine Learning para
usar diferentes tipos de ANN para simular las ecuaciones que rigen diferentes procesos físicos;
Adie [1] y Brunton et al. [6] proporciona revisiones bastante exhaustivas de las aplicaciones de
las técnicas de aprendizaje automático en diferentes áreas de la ingeniería y la ciencia
computacional.
Un conjunto de aplicaciones activas de ANN se encuentra en el área de cierre de turbulencia
en dinámica de fluidos computacional. Las ecuaciones completas de Navier-Stokes (DNS) no
necesitan un cierre de turbulencia, pero su resolución requiere muchos recursos y tiempo. El
siguiente nivel y los dos siguientes de aproximaciones, a saber, Large Eddy Simulation (LES) y
Reynolds Averaged Navier-Stokes' (RANS), dividen los componentes de velocidad en una parte
media y otra fluctuante (turbulenta), lo que implica que el número de parámetros aumenta en tres,
que deben resolverse a través de modelos de "cierre" que se suman al conjunto original de
ecuaciones. Las ANN se han utilizado de diferentes maneras para proporcionar estos cierres [2,
11]. Sinaí et al. [23] aprenda estos modelos como ANN capacitadas en soluciones de DNS
precisas. Duraisamy et al. [12] proporcionan una revisión exhaustiva del estado del arte.

Kim et al. [15] han utilizado modelos generativos entrenados en conjuntos precisos pero
pequeños de datos de simulación CFD para sintetizar velocidades 2-D y 3-D plausibles y libres
de divergencias. Xie et al. [29] desarrolló una Red Adversaria Generativa para aprender la
dinámica espacial y temporal de los flujos turbulentos, a partir de datos limitados que,
curiosamente, se toman de un solo paso.
Hay un conjunto de técnicas que aplican el Operador de Koopman [16, 19] de diferentes
maneras para la resolución de características de flujo no estacionario. Morton et al. [20] aplicaron
modelos ANN basados en el operador de Koopman para aprender la dinámica forzada y no
forzada del flujo de aire sobre un cilindro directamente a partir de datos CFD, y luego usaron
estos enfoques basados en el aprendizaje para el diseño del controlador para manipular las
características del flujo detrás del cilindro.
Brunton et al. [5] siguió un enfoque novedoso para "descubrir" las ecuaciones que gobiernan
los sistemas físicos a partir de los datos, al considerar que las ecuaciones están compuestas por
términos diferenciales tomados de un grupo que puede extraerse utilizando técnicas de aprendizaje
automático manteniendo un nivel óptimo de complejidad.
Machine Translated by Google

Replicación precisa y en tiempo real de las ecuaciones gobernantes ... 143

2.2 Transponer circunvoluciones

En una CNN normal, el flujo de datos entre dos "mapas de activación" cualesquiera se encuentra
en la dirección de entrada (de la red) a salida, generalmente acompañado de una reducción del
área del mapa. Hipotéticamente, si el flujo de datos fuera en la dirección opuesta, esto se llamaría
"desconvolución" o, más correctamente, "transposición de convolución". Este concepto hipotético
solo ayuda a comprender que las circunvoluciones transpuestas permiten la expansión del área del
mapa.
La Figura 1 muestra lo que se puede llamar una transposición de una convolución, que puede
verse como una convolución estándar con un filtro de tamaño 3 (ambas dimensiones iguales)
moviéndose con un paso de 2 sobre el segmento de imagen superior de color verde de tamaño 5,
dando como resultado un mapa de tamaño 2 (segmento de imagen inferior de color azul) usando la
fórmula [21]

tamaño_antiguo + almohadilla_1 + almohadilla_2 ÿ


tamaño_filtro tamaño_nuevo = + 1. zancada (1)

Alternativamente, esto se puede ver como una transposición de la convolución estándar anterior,
cuando se mapea en la dirección ascendente de los segmentos azul a verde cuando los dos
rellenos de cero son de tamaño 2, la zancada es 1 y, lo que es más importante, el tamaño (del
segmento azul) se ha inflado de 2 a 3 añadiendo una capa de cero rellenos internos. La inserción
de estos números en (1) da new_size como 5, que es el tamaño del mapa resultante.
El paso de uno del filtro en condiciones de un relleno de cero interno implica que se necesitan
dos pasos de filtro para pasar de un píxel real no trivial al siguiente.
Por lo tanto, esto puede verse realmente como medio paso y, por lo tanto, el término
"circunvoluciones fraccionalmente zancadas". Se puede notar que esto es recíproco de la longitud
de la zancada en la circunvolución hacia adelante. Este trabajo utiliza circunvoluciones de
transposición y experimentó con rellenos internos con movimientos de filtro de paso fraccionado en ciertas capas.

Fig. 1 Ilustración de los conceptos de transposición de circunvoluciones y pasos fraccionarios Esta figura
reproducida de Dimoulin y Visin [9] (en dominio público)
Machine Translated by Google

144 H. Narayan y AK Bhattacharya

2.3 Mapeo en tiempo real de los sensores a los valores del interior del campo

Como se indicó anteriormente, uno de los objetivos de este trabajo es demostrar el principio de
funcionamiento de un mecanismo de canalización que recoge valores variables de sensores ubicados
en los límites físicos de un proceso, los utiliza como entradas para una arquitectura tipo ANN, y calcula
los valores de las variables en los puntos de la cuadrícula de campo como salidas, todo dentro de
ciclos en tiempo real.
Sin embargo, los datos de muestra generados a partir de simulaciones de las ecuaciones que
gobiernan la física del proceso tendrán los valores límite en los puntos de la cuadrícula límite (de la
simulación), y no es posible que las ubicaciones de los sensores en el sistema físico se coloquen
exactamente con estos. puntos de la cuadrícula límite. Por lo tanto, se necesita un paso intermedio
entre la generación de muestras simuladas y su uso como datos de entrenamiento para la ANN,
donde los valores de las variables de los puntos de la cuadrícula límite se interpolan en las ubicaciones
precisas de los sensores, y estos valores de las variables interpoladas ubicadas en los sensores se
interpolan. los que servirán como insumos para la capacitación de la ANN.

De lo anterior se deduce que la ANN está diseñada para recibir los valores del sensor como
entradas y generar la solución en los puntos de cuadrícula del interior del campo como salidas. La
cantidad de sensores será significativamente menor que la cantidad de puntos de cuadrícula de límite,
lo que sirve para amplificar el desafío del factor (c) discutido en la Secc. 1.
La Figura 2 ilustra el tipo de escenarios que estamos tratando de modelar. Es una vista de una
mitad simétrica de una sección ancha del molde de enfriamiento primario del proceso de colada
continua de fabricación de acero [26, 27]. Aquí, el acero fundido pasa a través de un molde de
enfriamiento y el calor se extrae continuamente a través de los límites del molde revestidos de cobre
utilizando una fina red de tuberías con agua que fluye, que están incrustadas en la placa de cobre. El
acero líquido (zona amarilla) se solidifica a medida que se acerca a las placas de cobre, y la capa que
toca (casi) las placas es sólida pero blanda (roja). Las ecuaciones que gobiernan en el interior del
molde representan un acoplamiento de procesos de mecánica de fluidos, solidificación y transferencia
de calor; sus simulaciones solo se pueden lograr fuera de línea y son bastante complejas [28, 30]. Sin
embargo, hay una serie de termopares (sensores de temperatura) incrustados en las placas de cobre,
que proporcionan lecturas continuas de temperatura (no visibles en la Fig. 2). Las variaciones de
temperatura en tiempo real manifiestan todas las variaciones internas del proceso dentro del molde.

Las simulaciones numéricas fuera de línea del proceso interno considerando un espectro de
condiciones generarán datos que se pueden usar para entrenar arquitecturas similares a ANN. Las
simulaciones se pueden realizar en cuadrículas que se extienden desde los límites del molde (placas
de cobre) hasta el interior del campo. Las temperaturas son uno de los parámetros de simulación.
Las temperaturas en los puntos de la cuadrícula límite se pueden interpolar en las ubicaciones de los
sensores, y el entrenamiento ANN tomará estas temperaturas ubicadas en los sensores como entrada
y uno o más valores de parámetros (como temperaturas, velocidades, presiones) en los puntos de la
cuadrícula de campo como salidas. Tras el entrenamiento, la ANN se puede poner en modo de
producción, cuando los valores escaneados de los sensores se pueden mapear casi instantáneamente
en valores computados en todo el interior del campo, lo que crea un gran avance en el monitoreo, el
control y la optimización de las operaciones.
Machine Translated by Google

Replicación precisa y en tiempo real de las ecuaciones gobernantes ... 145

Fig. 2 Condiciones en el interior


y en los límites de la
proceso de colada continua de
fabricación de acero, figura
reproducida de Thomas [26], con
permiso. Se pueden encontrar más
detalles del proceso de colada
continua en https://en.wikipedia. org/
wiki/Transmisión_continua

La misma filosofía discutida anteriormente en el ejemplo específico de una planta de colada


continua para acero se puede aplicar en múltiples escenarios en diversas industrias y
procesos.

3 Dominios de aplicación para la demostración de conceptos

Se consideran dos dominios de aplicación donde los datos generados a partir de simulaciones
numéricas de las ecuaciones gobernantes relevantes de los procesos físicos subyacentes se
utilizan para entrenar nuestras arquitecturas CNN, como se discutió en secciones anteriores.
Ambos son del campo de la mecánica de fluidos, representan fenómenos altamente no lineales
y se seleccionan para poseer características específicas que juntas permiten la demostración
de todas las características especiales de la representación CNN que son los aspectos
distintivos de este desarrollo.
Machine Translated by Google

146 H. Narayan y AK Bhattacharya

3.1 Flujo potencial comprimible sobre una placa plana


en la incidencia

Comenzando con las ecuaciones de Navier-Stokes y despreciando sucesivamente la viscosidad y la


vorticidad de campo, se puede llegar a la ecuación de potencial total [4, 13], que se escribe
como

ÿÿ
+ÿ· ÿÿÿ = 0, (2)
ÿt

donde ÿ y ÿ representan el potencial de densidad y velocidad, respectivamente. La forma estacionaria


de (2) se puede representar como una ecuación de Poisson

ÿÿÿ · ÿÿ ÿ2 ÿ
= (3)
ÿ

con densidad expresada como

ÿÿ1 1 ÿ ÿ1

+ M2 ÿ{1 ÿ ÿÿ · ÿÿ} ÿ = 1 (4)


2

el subíndice ÿ se refiere a las condiciones en flujo libre, M denota el número de Mach, ÿ la relación de
calores específicos. La velocidad v = ÿÿ y la densidad ÿ se han normalizado
de flujocon
libre
respecto
Vÿ y ÿÿ.a sus valores

Las ecuaciones (3) y (4) representan un sistema no lineal acoplado. Se convierten a sus diferentes
formas y se resuelven para el flujo sobre una placa plana en varios ángulos de incidencia ÿ y corriente
libre Mach Mÿ utilizando el esquema de cuadrícula que se ilustra en la Fig. 3. El centro de la cuadrícula
es la placa plana que se muestra en rojo. con espesor exagerado; el espesor geométrico real es
efectivamente cero. Alrededor de la placa hay una cuadrícula rectangular con líneas j paralelas al eje x
y líneas i paralelas al eje y; i y j son los números de índice de las líneas e (i, j) denotan los índices de
los puntos de intersección en el campo en el que se calcula el potencial ÿ en las simulaciones. Hay un
total de 3498 puntos de este tipo en el campo.

Se puede ver que la placa se extiende desde i =17 a 37 y está ubicada en j =29 y 30; las dos últimas
líneas se fusionan y en principio corresponden a las superficies superior e inferior de la placa. Hay un
total de 42 puntos en las superficies donde se aplican las condiciones de contorno para realizar las
simulaciones numéricas y luego, como veremos, sirven como entradas a la CNN que se entrena a partir
de los datos generados por estas simulaciones.
Tenga en cuenta que la CNN calcula los valores de campo, con un total de 3498, como sus salidas.
Se realizan una serie de simulaciones numéricas para generar un conjunto de muestras de datos
para el entrenamiento de la CNN. Se realiza una travesía sobre seis valores de Mÿ de 0,1 a 0,6, a
intervalos de 0,1 (Mach 1 tiene un valor aproximado de 330 m/s). En cada valor de Mach, la dirección
de flujo libre, es decir, el valor de ÿ, se barre en el rango de ÿ10ÿ a +10ÿ
Machine Translated by Google

Replicación precisa y en tiempo real de las ecuaciones gobernantes... 147

Fig. 3 Rejilla rectangular para simulación de flujo incidente sobre una placa plana. Alpha (ÿ) y Vinf (Vÿ) representan
el ángulo de incidencia y la velocidad del flujo de corriente libre en relación con la placa plana (que se muestra en
rojo). Las líneas ortogonales de la cuadrícula representan la malla para la simulación numérica.

a intervalos de 0,1ÿ, dando un total de 201 valores. Así, un número total de muestras generadas a
todas las velocidades son 1206, que servirán como datos de entrenamiento y validación para la
CNN.
Este dominio de aplicación representa patrones de flujo no lineales complejos donde la
complejidad aumenta considerablemente con Mÿ y |ÿ|. Nos hemos detenido justo antes de las
combinaciones que generan bolsas supersónicas y formaciones de choque, ya que la suposición
isoentrópica de la ecuación de potencial total no es estrictamente válida en estas condiciones,
aunque todavía se pueden modelar de forma aproximada utilizando varios esquemas numéricos
[4, 13]. El objetivo de esta aplicación es demostrar una de las capacidades centrales de nuestras
arquitecturas CNN, a saber, calcular salidas que son dos órdenes de magnitud más grandes que
las entradas, con alta precisión y en tiempo real.

3.2 Impactos fuertes y resolución de arrastre


axial sobre el ala ONERA-M6

Seleccionamos este caso porque comprende algunas características muy específicas muy
diferentes a las de otros datos de muestra de capacitación y validación utilizados en otras
aplicaciones de aprendizaje automático, y muy relevantes para las arquitecturas de CNN y las
funcionalidades concomitantes que tenemos en mente. Esto se relaciona con un ala de avión
diseñada específicamente para servir como punto de referencia para el desarrollo de simulaciones
numéricas de las ecuaciones de Navier-Stokes, con características desafiantes como un doble
impacto en la superficie superior de la misma sección y las consiguientes separaciones de la capa
límite que se manifiestan en agudos. Cambios en el arrastre de fricción de la piel. Esta ala fue probada en Schmitt y
Machine Translated by Google

148 H. Narayan y AK Bhattacharya

Fig. 4 Disposición e instrumentación del ala ONERA M6, de la fig. B1-1 de Schmitt y Charpin [22], en
dominio público

Los principales aspectos del diseño se muestran en la Fig. 4; intentaremos explicar algunos
aspectos de la aerodinámica del núcleo.
Los sensores de presión se colocan en siete secciones del ala ubicadas (y/ b también
denominado ÿ) como se muestra en la tabla de la Fig. 4, donde b indica la envergadura del ala e y
se extiende desde '0' en la base del ala hasta 1 en la punta. Hay 34 sensores en cada una de las
primeras cuatro secciones y 45 en las últimas tres, distribuidos entre las superficies superior e
inferior como se muestra en la tabla. En un caso de flujo de Mÿ = 0,84 y ÿ = 3,06°, se forman
fuertes choques dobles (severas discontinuidades en las variables del proceso) en la mayoría de
las secciones, lo que da como resultado separaciones de la capa límite y variaciones pronunciadas
en la fricción superficial. Estos pueden verse en Diskin et al. [10] y también en https://
turbmodels.larc.nasa.gov/onerawingnumerics_val_sa. html, donde los símbolos negros indican las
lecturas del sensor de los coeficientes de presión Cp) y las líneas rosas indican los resultados de
las simulaciones CFD. Las simulaciones son de una clase específica de modelos de turbulencia
en las ecuaciones completas de Navier-Stokes (ver https://cfl3d.larc.nasa.gov/ ); las relaciones
matemáticas entre el coeficiente de fricción de la piel Cf,x y el coeficiente de presión Cp son
extremadamente complejas y encapsulan un espectro de fenómenos físicos.
Hemos creado muestras de entrenamiento y prueba tomando las medidas del sensor obtenidas
de https://www.grc.nasa.gov/WWW/wind/valid/m6wing/m6wing.html como entradas y las
simulaciones CFL3D, obtenidas de here1, como salidas. En cada sección, hay 33 entradas (valor
del sensor) y 368 salidas. Tomamos dos conjuntos de salidas en cada sección, para Cp y para
Cf,x, y creamos dos conjuntos de datos de muestra separados para dos CNN diferentes. Es
importante destacar que tratamos cada sección en sí misma como una muestra de entrenamiento,
consideramos la sección en ÿ = 0.65 como una muestra de prueba y eliminamos la muestra

1https://turbmodels.larc.nasa.gov/Onerawingnumerics_val/SA/CFL3D_OM6_A3p06_CPCF.dat.
Machine Translated by Google

Replicación precisa y en tiempo real de las ecuaciones gobernantes... 149

en ÿ = 0.99 porque las características de flujo en la punta son muy diferentes al resto.
Eso nos deja con solo cinco muestras de datos de entrenamiento, lo cual es extremadamente insuficiente.
Aumentamos esto parcialmente creando tres nuevas secciones interpoladas en ÿ = 0.32, 0.55 y 0.72,
linealmente a partir de secciones vecinas. Usando estas ocho muestras, investigamos si es posible crear
CNN con 33 entradas y 368 salidas cada una, que pueden capturar la funcionalidad integrada en
relaciones discontinuas, no lineales y altamente complejas con alta precisión.

Existe aún otra dimensión en este dominio de aplicación. Esta es una representación exacta del
desafío de la utilidad práctica (discutido en la Sección 2.3), a saber, recoger datos de un puñado de
sensores que capturan un parámetro de proceso específico y ver si esto se puede usar en una CNN
diseñada específicamente para reproducir un rango de diferentes parámetros en puntos distribuidos en el
interior del campo que son al menos un orden (de magnitud) más en número, con precisión y en tiempo
real. Los parámetros se relacionan a través de ecuaciones de gobierno altamente complejas que se
simulan para generar datos de entrenamiento limitados para la CNN.

4 principios de las arquitecturas CNN para relevantes


Dominios de aplicación

Uno puede recordar las tres propiedades deseadas de las CNN que satisfarán los requisitos de
rendimiento cruciales en los dominios técnicos considerados: que mapearán desde las entradas del
proceso hasta las salidas uno o dos órdenes de magnitud más en número, exhibirán una alta precisión y
se ejecutarán bien. dentro de los tiempos reales del proceso (y, por lo tanto, utilizar un número mínimo de
parámetros). Aquí, destacamos los principios seguidos en el diseño de arquitecturas CNN que satisfacen
estos requisitos y siguen siendo válidos en todos los dominios de aplicación.

4.1 Principios arquitectónicos

Para la clase de problemas técnicos que pretendemos atender, invariablemente los tamaños de salida
son casi iguales o mayores que los tamaños de entrada en todas las dimensiones consideradas (ejes).
En consecuencia, utilizamos convoluciones de transposición con rellenos externos de ceros y tamaños de
filtro bastante grandes para aumentar gradualmente, capa por capa, el tamaño. Además, es probable que
la forma del mapa de salida sea bastante diferente de la forma del mapa de entrada, lo que se manifiesta
en una variación significativa entre las relaciones de aspecto de los dos.
Nuevamente, usamos diferentes rellenos de cero externos y tamaños de filtro a lo largo de los diferentes
ejes para transformar gradualmente, a través de las capas, la forma de entrada a la de la salida. En
ocasiones, en algunas de las capas, especialmente las cercanas a la salida, conservamos la forma y el
tamaño en dos o más mapas de activación con el objetivo de construir el número total de parámetros para
alcanzar los niveles de precisión deseados.
Machine Translated by Google

150 H. Narayan y AK Bhattacharya

Una consideración importante en nuestro diseño ha sido la eliminación completa de capas


totalmente conectadas, especialmente aquellas ubicadas inmediatamente antes de la salida, ya
que tienden a aumentar de manera muy significativa el número total de parámetros. Sin embargo,
también mejoran la precisión de la solución, ya que estas capas totalmente conectadas garantizan
que cada píxel de la primera capa de entrada influya en todos los nodos de la capa de salida. Uno
puede recordar que en las arquitecturas CNN típicas, un píxel tiene un cono de influencia que se
expande gradualmente a través de las capas, la tasa de expansión es proporcional al tamaño del
filtro, pero eso no garantiza que cada píxel de entrada influya en cada nodo de salida. De esto se
ocupa la última capa completamente conectada. Para eliminar capas totalmente conectadas y
garantizar la precisión, hemos utilizado filtros deliberadamente grandes que permiten una
expansión más rápida de la zona de influencia de cada nodo de entrada para extenderse sobre la
totalidad de los nodos en el mapa de salida.
Es pertinente señalar aquí que convergimos en estos principios de diseño arquitectónico
anteriores a través de una serie de experimentos realizados en arquitecturas alternativas.
Casi todos estos experimentos se realizaron sobre el problema del flujo sobre una placa plana, y
destacamos brevemente algunos de ellos.
La versión lineal más simple del problema de la placa plana se obtiene ajustando la densidad
a una constante (es decir, flujos incompresibles), eliminando así automáticamente la ecuación.
(4) y convirtiendo (3) a la ecuación de Laplace

ÿ2 ÿ = 0 (5)

primero se resolvió numéricamente para generar datos de exactamente la misma estructura


descrita en la Secc. 3.1. Esto se usó para entrenar una arquitectura de red neuronal feedforward
convencional que se muestra en la Fig. 5. Este trabajo se informa en Sahil y Bhattacharya [21].
Las capas de entrada y salida tienen 42 y 3498 nodos, respectivamente. hay dos escondidos

Fig. 5 Esquema de la estructura ANN convencional. Tenga en cuenta que una cantidad de salidas es dos
órdenes más que la cantidad de entradas
Machine Translated by Google

Replicación precisa y en tiempo real de las ecuaciones gobernantes... 151

capas cada una con 20 nodos, y todos los nodos de capa ocultos y de salida utilizan la función de
activación tanh(.). El número de parámetros en esta arquitectura es de unos 76.000.
El error porcentual absoluto medio (MAPE) obtenido fue del 1,2 %.
A continuación, se simuló la ecuación de potencial no lineal completa para generar datos de
estructura exactamente similar. Esto se usó para entrenar la arquitectura ANN idéntica que se
muestra en la Fig. 5. Pudimos obtener un MAPE de 2.2%. El aumento del error manifiesta la mayor
complejidad de la ecuación subyacente, especialmente la transición de modelar una función lineal a
una no lineal.
El siguiente conjunto de investigaciones se realizó en arquitecturas CNN unidimensionales,
donde las 42 entradas, las 3498 salidas, los mapas de activación de capas intermedias, los filtros y
los rellenos estaban todos en una sola dimensión. Estos estaban nuevamente en la versión
linealizada de la ecuación de potencial completo, utilizada como línea de base para probar diseños alternativos.
La arquitectura de mejor rendimiento se muestra en la Fig. 6, que utilizó dos rellenos cero
intermedios y pasos fraccionarios de 1/3 y, lo que es más importante, una capa semifinal totalmente
conectada, que aumentó la cantidad de parámetros libres a casi 10 millones. Por supuesto, esto fue
una violación de nuestros objetivos de diseño, pero el propósito en esta etapa experimental fue
explorar si las CNN pueden cumplir nuestros objetivos. Obtuvimos un MAPE de 2.3%, que fue peor
que nuestra arquitectura totalmente conectada. La eliminación de la capa totalmente conectada
prefinal redujo significativamente el número de parámetros pero empeoró los niveles de convergencia
y error. En este punto, detuvimos nuestra experimentación con CNN 1-D y pasamos a arquitecturas
2-D.
Dentro de los diseños 2-D, investigamos varios patrones arquitectónicos alternativos que
incluyen pasos fraccionarios, agrupación máxima y secuencias de capas convolucionales,

Fig. 6 Arquitectura CNN unidimensional con una capa prefinal totalmente conectada
Machine Translated by Google

152 H. Narayan y AK Bhattacharya

pero, en última instancia, esto condujo a un rendimiento subóptimo en comparación con el


obtenido siguiendo los principios descritos anteriormente en esta sección. Los principios de
diseño exitosos se reflejan en las Tablas 1 y 2, que proporcionan los detalles arquitectónicos
de las dos CNN, donde la primera atiende al caso de flujo potencial sobre una placa plana, y
la segunda al arrastre por fricción superficial y otras variables para transónica. fluir sobre el ala
ONERA M6.
Aquí, describimos brevemente la estructura de las Tablas 1 y 2 que definen las
arquitecturas de las CNN que representan la placa plana y el ala M6. Las filas representan las
capas en secuencia, siendo la primera la capa de entrada. En la primera columna, TCn denota
el número de capa de convolución transpuesta n. La segunda columna proporciona las dos
dimensiones de la entrada. La siguiente columna proporciona el relleno de ceros externo
aplicado en los dos ejes, separados por un punto y coma, y el tamaño del relleno en los dos
lados de cada eje. Las dimensiones del filtro se muestran en la siguiente columna. La última columna proporcio

Tabla 1 Arquitectura CNN para flujo de potencial completo sobre placa plana

Capa Aporte acolchado externo Tamaño del filtro Producción

TC1 (2, 21) (4,0), (4,0) (5,1) (6,21)


TC2 (6, 21) (9, 0), (9, 0) (10, 1) (15, 21)
TC3 (15, 21) (14, 7), (14, 7) (15, 8) (29, 28)
TC4 (29, 28) (15, 15), (14, 14) (30, 30) (29, 28)
TC5 (29, 28) (15, 15), (14, 14) (30, 30) (29, 28)
TC6 (29, 28) (15, 15), (15, 15) (16, 16) (44, 43)
TC7 (44, 43) (21, 21), (22, 22) (44, 44) (44, 43)
TC8 (44, 43) (16, 16), (16, 16) (17, 17) (60, 59)
TC9 (60, 59) (29, 29), (30, 29) (60, 59) (60, 59)
TC10 (60, 59) (29, 29), (30, 29) (60, 59) (60, 59)
TC11 (60, 59) (29, 29), (30, 29) (60, 59) (60, 59)

Tabla 2 Arquitectura CNN para flujo transónico sobre ala Onera M6

Capa Acolchado externo Tamaño del filtro Salida

TC1 Entrada (3, 11) (0, 9), (0, 9) (1, 10) (3, 20)
TC2 (3, 20) (0, 19), (0, 19) (1, 20) (3, 39)
TC3 (3, 39) (0, 39), (0, 39) (1, 40) (3, 78)
TC4 (3, 78) (1, 49), (1, 49) (2, 50) (4, 127)
TC5 (4, 127) (2, 63), (1, 63) (4, 127) (4, 127)
TC6 (4, 127) (0, 59, (0, 59) (1, 60) (4, 186)
C1 –
(4, 186) (3, 3) (2, 184)
TC7 (2, 184) (1, 91), (0, 92) (2, 184) (2, 184)
TC8 (2, 184) (1, 91), (0, 92) (2, 184) (2, 184)
TC9 (2, 184) (1, 91), (0, 92) (2, 184) (2, 184)
Machine Translated by Google

Replicación precisa y en tiempo real de las ecuaciones gobernantes... 153

dimensiones de salida, que nuevamente aparecen como las dimensiones de entrada en la siguiente
capa. Tenga en cuenta que la CNN en la Tabla 1 mantiene un canal en toda la red, mientras que la
CNN en la Tabla 2 usa dos canales que se combinan en la capa final. La relación entre la salida y
la entrada a lo largo de cada dirección axial viene dada por la ecuación. (1), que además incorpora
acolchado, tamaño de filtro y zancada. Siempre hemos usado un paso de 1, evitando pasos
fraccionarios. Puede encontrar información relacionada sobre circunvoluciones transpuestas y
pasos fraccionarios en Dimoulin y Visin [9].

4.2 Presentación de Resultados

La CNN representada en la Tabla 1 se usa para predecir casos de prueba para pares específicos
de Mÿ y ÿ para el caso de flujo potencial sobre una placa plana. Esto tiene un total de solo 15,047
parámetros y la precisión alcanzada después de 15,000 épocas es un valor MAPE (Error porcentual
absoluto medio) de 2.4% en los casos de validación.
Esta CNN usa Leaky-ReLU (ÿ = 0.05) como activación en todas las capas excepto en la última
capa donde se usa sigmoide. Se utiliza el optimizador de Adam con amsgrad para entrenar el
algoritmo, con lr = 0,005 y ÿ1 = 0,9, ÿ2 = 0,999. El algoritmo de entrenamiento alterna entre tamaños
de mini lotes de 20 y 100 por cada 500 épocas. No se emplean técnicas de abandono.

Los resultados se presentan para un caso de Mÿ = 0.6 y ÿ = 9° en la Fig. 7. Este es un caso de


flujo fuertemente no lineal, casi supersónico. Unos pocos puntos de la cuadrícula junto a la superficie
superior del borde de ataque tienen un número de Mach local de aproximadamente 1, es decir, el
umbral supersónico. La técnica de simulación numérica no puede prima facie manejar bolsillos
supersónicos; sin embargo, en esta condición de flujo, las componentes x e y descompuestas de la
velocidad permanecen individualmente subsónicas. Las Figuras 7a yb presentan la componente x
de la velocidad de la simulación original y su réplica por la CNN, respectivamente, en forma de
gráficos de contorno. Las figuras 7c y d hacen lo mismo para la componente y de la velocidad. Si
bien la representación de la CNN no es perfecta, ha capturado todas las características principales
de los componentes de la velocidad del campo, especialmente aquellos que se encuentran cerca
de los límites de las placas. Se ven pequeñas perturbaciones en las regiones del interior del campo.
Las Figuras 8a yb muestran la resolución de los parámetros de flujo sobre el ala ONERA M6
por la CNN que se muestra en la Tabla 2, con solo 6667 parámetros. La CNN aprende la relación
entre 33 valores de coeficientes de presión en las ubicaciones de los sensores distribuidos en ocho
secciones en la superficie del ala (33 sensores en cada sección) y 368 valores de coeficientes de
presión y coeficientes de arrastre por fricción superficial, cada uno distribuido en la superficie en las
secciones correspondientes. obtenido de simulaciones realizadas en el programa CFL3D (ver Diskin
et al. [10]).
En el caso de flujo considerado de Mÿ = 0,84 y ÿ = 3,06°, se forman grandes bolsas supersónicas
en la superficie superior del ala y en el campo, que terminan en fuertes choques duales. Estos
choques desencadenan la separación de la capa límite con caídas muy pronunciadas en el
coeficiente de arrastre por fricción de la piel. Estos fenómenos involucran fuertes acoplamientos no
lineales entre múltiples características de flujo y resolverlos a través de simulaciones numéricas es
un desafío. Las Figuras 8a y b comparan las salidas de CNN con simulaciones CFL3D
Machine Translated by Google

154 H. Narayan y AK Bhattacharya

Fig. 7 una componente vx, x de la velocidad, simulada utilizando nuestra simulación CFD, para el caso Mÿ = 0,6 (es
decir , Vÿ aproximadamente 198 m/s) y ÿ = 9°. Los ejes x e y representan distancias normalizadas contra la longitud
de la placa plana, con origen en su borde de ataque. Los contornos de color representan velocidades en metros/seg,
de acuerdo con la barra de color vertical de la derecha. b vx , componente x de la velocidad, predicha usando nuestra
CNN. c vy, componente y de la velocidad, simulado usando nuestra simulación CFD. d vy, componente y de la
velocidad, predicha usando nuestra CNN. a–d Resultados para el flujo de potencial total sobre una placa plana en la incidencia

para los coeficientes de arrastre de presión y fricción de la piel, respectivamente, en una sección
de prueba ÿ = 0.65, que no se usa para entrenamiento. La Figura 8a también muestra los valores
del sensor en ubicaciones discretas. Superficialmente, puede parecer que la Fig. 8a interpola las
presiones de las entradas del sensor a puntos finamente distribuidos en la superficie. Este no es el caso.
Las salidas de CNN (como funciones de las entradas) se aprenden de las simulaciones CFL3D,
que resuelven a partir de ecuaciones fundamentales de gobierno y desconocen las lecturas de los
sensores y las usan únicamente para la validación. La CNN aprende la relación funcional entre las
lecturas del sensor de presiones solamente y los valores simulados de presiones (Fig. 8a) y la
fricción de la piel (Fig. 8b).
Uno puede apreciar que la relación funcional entre las presiones de dos fuentes diferentes es
más fácil de aprender que la relación entre las presiones y el arrastre por fricción de la piel, que
implica múltiples relaciones de causa y efecto de variables a través de ecuaciones. Mientras que la
Fig. 8a muestra una representación bastante precisa, la Fig. 8b revela que las fuertes caídas en los
dos puntos de separación de la capa límite, que representan fenómenos no lineales extremos, no
se capturan con mucha precisión. Es pertinente recordar aquí
Machine Translated by Google

Replicación precisa y en tiempo real de las ecuaciones gobernantes ... 155

Fig. 8 a Cp predicho versus


Simulaciones CFL3D y

mediciones de sensores. b Cf,x


predicho frente a simulaciones
CFL3D. a–b Resultados en la
sección ÿ = 0,65 en el ala ONERA
M6

que usamos solo ocho muestras de datos de entrenamiento para 6667 parámetros, y se espera
que surjan problemas de ajuste insuficiente (sesgo). Esa es otra faceta del desafío para este caso.
Los pequeños movimientos que se ven en las soluciones de CNN son posiblemente una
consecuencia de esto.
Además de la arquitectura y la precisión, el tercer aspecto crucial es el tiempo de cálculo para
un solo paso hacia adelante desde la entrada hasta la salida. En una implementación que usa
tensorflow-1.15.0 y keras-2.3.1, en un sistema NVIDIA DGX-1 que utiliza una sola GPU Tesla V100,
una ejecución de muestra única de FP CNN toma 1 ms, mientras que una ejecución de muestra
única de M6 CNN tarda 3 ms. Estos están bien dentro de los ciclos de proceso en tiempo real en la
producción industrial o cálculos asociados como en Digital Twins.
Machine Translated by Google

156 H. Narayan y AK Bhattacharya

5. Conclusiones

Este trabajo incorpora innovaciones en dos dominios diferentes, la Inteligencia Artificial,


específicamente las Arquitecturas de Redes Neuronales, y la Industria 4.0 y los Gemelos
Digitales, desarrollos en el primero que facilitan el segundo.
En relación con la arquitectura y el diseño de las redes neuronales convolucionales, ha
logrado una relación de tamaño de salida a entrada de aproximadamente dos órdenes de
magnitud, lo que es un avance significativo en este dominio técnico. Esto se obtiene utilizando
transponer circunvoluciones junto con ciertos principios específicos de diseño.
Es importante destacar que lo anterior se logra mientras se elimina por completo una capa
prefinal totalmente conectada, lo que reduce el rendimiento computacional al aumentar la
cantidad de parámetros, lo que reduce los tiempos de cálculo en aproximadamente un orden
de magnitud con un compromiso mínimo en la precisión. Esto por sí solo puede considerarse
un gran avance en este campo.
Los desarrollos anteriores hacen que esto sea un habilitador de una característica muy
deseable en la Industria 4.0, incluidos los Gemelos Digitales, a saber, monitoreo, pronósticos
y control informados y precisos en tiempo real de sistemas y procesos complejos. Las entradas
de parámetros específicos adquiridos de sensores colocados en los límites físicos de dichos
procesos se pueden utilizar para obtener una imagen completa del estado instantáneo del total.
proceso.

Agradecimientos Esta investigación fue parcialmente financiada por el Departamento de Ciencia y Tecnología,
India, Subvención No. DST/ICPS/CPS-Individual/2018/318(G). Los autores también agradecen el apoyo brindado por
algunos estudiantes universitarios anteriores de Mahindra Ecole Centrale.

Referencias

1. Adié, J. (2018). Aprendizaje profundo para ciencia computacional e ingeniería. Recuperado el 30 de septiembre
de 2020 de http://on-demand.gputechconf.com/gtc/2018/presentation/S8242-Yang-Juntao-paper.pdf .

2. Barone, MF, et al. (2017). Modelos de aprendizaje automático de errores en predicciones de simulación de
grandes remolinos de fluctuaciones de presión superficial. En AIAA 2017-3979, en la 47ª Conferencia de
Dinámica de Fluidos AIAA.
3. Bartoli, ALD, Andreis, GS y Pereira, FN (2015). Modelado y simulación de flujos reactivos. Elsevier. ISBN:
978-0-12-802974-9.
4. Bhattacharya, AK y Arora, NL (1994, febrero). Una ecuación integral híbrida: esquema de volumen finito para el
flujo de potencial transónico en configuraciones complejas. Revista aeronáutica, 34–48.

5. Brunton, SL, Proctor, JL y Kutz, JN (2016). Descubrir ecuaciones de gobierno a partir de datos mediante la
identificación escasa de sistemas dinámicos no lineales. Actas de la Academia Nacional de Ciencias, 113(15),
3932–3937. https://doi.org/10.1073/pnas.1517384113.
6. Brunton, SL, Noack, B. y Koumoutsakos, P. (2020). Aprendizaje automático para mecánica de fluidos.
Revisión anual de mecánica de fluidos, 52, 477–508. https://doi.org/10.1146/annurev-fluid-010 719-060214.

7. Cybenko, G. (1989). Aproximaciones por superposición de una función Sigmoidal. Matemáticas de Control,
Señales y Sistemas, 2, 303–314.
Machine Translated by Google

Replicación precisa y en tiempo real de las ecuaciones gobernantes... 157

8. Dede, EM, Lee, J. y Nomura, T. (2014). Simulación multifísica. Londres: Springer. https://
doi.org/10.1007/978-1-4471-5640-6.
9. Dimoulin, V. y Visin, F. (2018, enero). Una guía de aritmética de convolución para el aprendizaje profundo.
arXiv:1603.07285v2, https://arxiv.org/abs/1603.07285, Consultado el 30 de septiembre de 2020.
10. Diskin, B., et al. (2018). Convergencia de red para flujos turbulentos de referencia tridimensionales.
En AIAA Paper 2018-1102, Reunión de Ciencias Aeroespaciales de AIAA de 2018.
11. Duraisamy, K., Zhang, ZJ y Singh, AP (2015). Nuevos enfoques en el modelado de turbulencias y transiciones
utilizando técnicas basadas en datos. En AIAA 2015-1284, 53ª Reunión de Ciencias Aeroespaciales de AIAA.

12. Duraisamy, K, Iaccarino, G. y Xiao, H. (2019, enero). Modelado de turbulencia en la era de los datos. Revisión anual
de mecánica de fluidos, 51, 357–377. https://doi.org/10.1146/annurev-fluid 010518-040547.

13. Holst, TL (1995, julio). Solución numérica de la ecuación de potencial completo utilizando una cuadrícula de quimera
Acercarse. En NASA-TM-110360.
14. Hornik, K., Stinchcombe, M. y White, H. (1989). Las redes feedforward multicapa son
aproximadores universales. Redes neuronales, 2, 359–366.
15. Kim, B., et al. (2019). Fluidos profundos: una red generativa para simulaciones de fluidos parametrizados.
En P. Alliez y F. Pellacini (Eds.), EUROGRAHICS. Wiley.
16. Koopman, BO (1931). Sistemas hamiltonianos y transformación en el espacio de Hilbert. Actas
de la Academia Nacional de Ciencias, 17(5), 315–318.
17. Lade, P. y Srinivasan, S. (2017, mayo-junio) Análisis de fabricación e Internet industrial
de cosas. Sistemas inteligentes IEEE, 74–79.
18. Maxwell, JC (1865). Una teoría dinámica del campo electromagnético. Filosófico
Transacciones de la Royal Society, 165, 459–512.
19. Mezic, I. (2013). Análisis de flujos de fluidos mediante propiedades espectrales del operador de Koopman.
Revisión anual de mecánica de fluidos, 45, 357–378. https://doi.org/10.1146/annurev-fluid-011 212-140652.

20. Morton, J., et al. (2018). Modelado dinámico profundo y control de flujos de fluidos no estacionarios. en el 32
Conferencia sobre Sistemas de Procesamiento de Información Neural, NeurIPS.
21. Sahil, K. y Bhattacharya, AK (2019). Reproducción precisa de simulaciones de ecuaciones gobernantes de procesos
en entornos de Industria 4.0 con ANN para monitoreo y control mejorados. En 2019 Serie de simposios IEEE sobre
inteligencia computacional. https://doi.org/10. 1109/ssci44817.2019.9003058.

22. Schmitt, V. y Charpin, F. (1979, mayo). Distribuciones de presión en el ONERA-M6-Wing en números de máquina
transónicos. Base de datos experimental para la evaluación de programas informáticos. Informe del Grupo de
Trabajo 04 del Panel de Dinámica de Fluidos, AGARD-AR-138.
23. Sinaí, YB, et al. (2019, julio). Aprendizaje de discretizaciones basadas en datos para ecuaciones diferenciales
parciales. Actas de la Academia Nacional de Ciencias, 116(31). https://doi.org/10.1073/ pnas.1814058116.

24. Stankovic, JA (2014). Direcciones de investigación para el Internet de las cosas. IEEE Internet of Things Journal,
1(1), 3–9.
25. Stokes, GG (1843). Sobre algunos casos de movimiento de fluidos. Transacciones de Cambridge
Sociedad filosófica, 8, 105–137.
26. Thomas, BG (2002). Modelado de la colada continua de acero: pasado, presente y futuro.
J. Metallurgical and Materials Trans, 33B, 795–812.
27. Thomas, BG (2005). Modelado de defectos de colada continua relacionados con el flujo del fluido del molde. En 3er
Congreso Internacional de Ciencia y Tecnología de Fabricación de Acero, Charlotte, NC, 9–12 de mayo de 2005
(págs. 847–861). Warrendale, Pensilvania: AIST.
29. Xie, Y., et al. (2018, agosto). tempoGAN: una GAN volumétrica temporalmente coherente para el flujo de fluidos de
superresolución. Transacciones de ACM en Gráficos, 37(4). https://doi.org/10.1145/3197517. 3201304.

28. Yang, H., Vanka, SP y Thomas, BG (2019). Modelado matemático del flujo multifásico en colada continua de acero.
ISIJ Internacional, 59(6), 956–972. https://doi.org/10.2355/isijin ternational.ISIJINT-2018-743.
Machine Translated by Google

158 H. Narayan y AK Bhattacharya

30. Zappula, MLS, et al. (2020, abril). Modelado multifísico de colada continua de acero inoxidable.
Revista de tecnología de procesamiento de materiales, 278. https://doi.org/10.1016/j.jmatprotec.
2019.116469.
Machine Translated by Google

Aprendizaje profundo basado en la visión


Inspección Automatizada: Estado Actual y
Perspectivas Futuras

R. Senthilnathan

Resumen El aprendizaje profundo ha influido en casi todos los dominios principales de la ciencia,
la tecnología y los campos de la ingeniería. La revolución del aprendizaje profundo comenzó con la
precisión innovadora obtenida en un problema de visión por computadora. La inspección basada en
visión artificial ha sido una de las aplicaciones pioneras de la visión artificial para aplicaciones
industriales. La adopción del aprendizaje profundo para aplicaciones de visión artificial tomó algún
tiempo y, aunque la tasa de adopción actual es satisfactoria, se observa que aún queda un largo
camino por recorrer. El contenido del capítulo está destinado a principiantes y gerentes que están
evaluando la aplicación de técnicas de aprendizaje profundo para la inspección automatizada
basada en visión. Este capítulo presenta información detallada sobre los méritos y las limitaciones
de las técnicas de aprendizaje profundo para tareas de inspección automatizadas, especialmente
en comparación con la ruta de aprendizaje no profundo. También se analizan los diversos aspectos
de la puesta en marcha, como las trampas importantes con las que hay que tener cuidado antes de
elegir el aprendizaje profundo, el software de aprendizaje profundo, el hardware de aprendizaje
profundo, los tipos de redes de aprendizaje profundo y sus inferencias y las posibles aplicaciones en varios tipos de i

Palabras clave Inspección automatizada · Aprendizaje profundo · Visión artificial · Visión artificial
· Hardware de visión · Redes neuronales profundas · Software de visión

1 Introducción a la visión artificial y la visión artificial

La visión es uno de los sentidos más importantes en seres biológicos como los mamíferos que han
dirigido y acelerado el progreso de la evolución durante millones de años.
La cantidad de información percibida de la visión humana como un sentido es tan vasta y compleja
que la naturaleza desarrolló una porción separada en el cerebro llamada corteza visual.
El sistema de visión en los humanos es tan complejo que existe una estrategia descentralizada para
el procesamiento, concretamente a la altura de los ojos, los nervios ópticos y la corteza visual. El
proceso de imitar la visión biológica con cámaras y computadoras es el objetivo principal de

R. Senthilnathan (B)
Departamento de Ingeniería Mecatrónica, Instituto SRM de Ciencia y Tecnología,
Kattankulathur, India Correo electrónico: senthilr4@srmist.edu.in

© Los autores, bajo licencia exclusiva de Springer Nature Suiza AG 2022 S. Datta y 159
JP Davim (eds.), Machine Learning in Industry, Management and Industrial
Engineering, https://doi.org/10.1007/978-3 -030-75847-9_8
Machine Translated by Google

160 R. Senthilnathan

el campo de la visión artificial. La aplicación de la visión artificial a las industrias que realizan algún tipo
de operaciones de fabricación se denomina visión artificial. Aunque la visión artificial se está aplicando
a entornos conocidos en contraste con la visión por computadora, tiene sus desafíos que enfrentar. La
mayoría de estos desafíos surgen de los requisitos de productividad y robustez para un rendimiento
24 × 7. Las aplicaciones de la visión en las industrias se pueden clasificar en términos generales en
los siguientes cuatro tipos, popularmente abreviados como GIGI:

• Calibración: se ocupa de medidas geométricas, ubicaciones, la distancia entre dos o más puntos,
etc. • Identificación: se ocupa de atribuir un nombre a un objeto en función de su apariencia, lectura
de códigos de datos 2D, características impresas en piezas, etc. • Orientación: Se ocupa de localizar
la posición, orientación, obtener la información

requerido para autómatas tales como robots, etc.


• Inspección: se ocupa de encontrar fallas, ausencia de componentes cruciales de un sistema,
partes rotas y otras irregularidades, etc.

Este capítulo trata los diversos aspectos del uso del aprendizaje profundo para aplicaciones de
visión artificial. Se hace especial énfasis en la inspección automatizada mediante imágenes y videos
que contienen información sobre el mundo real. Los otros tres tipos de aplicaciones se tocan en un
nivel superficial en aras de la exhaustividad.

1.1 Inspección automatizada basada en visión

La inspección es una parte integral importante de cualquier sistema de fabricación. La inspección tiene
como objetivo rechazar las piezas no conformes y garantizar piezas de buena calidad. La inspección
visual tradicional que requiere mucha mano de obra ha sido reemplazada con éxito por sistemas de
visión artificial en las industrias desde las últimas tres décadas. Un sistema de visión artificial para
inspección detecta cualquiera de las características presentadas en la Fig. 1.

2 Introducción al aprendizaje profundo

La inteligencia artificial y específicamente el aprendizaje profundo han cobrado un tremendo impulso


en esta década y se están volviendo cada vez más poderosos. El aprendizaje profundo es una rama
del aprendizaje automático que ha dominado esta década en términos de nuevas aplicaciones en
varios campos de la ciencia, la ingeniería y la tecnología que tradicionalmente se consideraban
difíciles, si no imposibles. El aprendizaje profundo utiliza redes neuronales con múltiples capas ocultas;
de ahí la palabra profundo. En la Fig. 2 se ilustra una red neuronal simple con dos capas ocultas.

Más allá de la palabra profundo, el potencial significativo del aprendizaje profundo radica en su capacidad para
realizar un aprendizaje de representación de características, que es una diferencia contrastante con el aprendizaje automático.
Machine Translated by Google

Aprendizaje profundo en inspección automatizada basada en visión... 161

Fig. 1 Tipos de percepciones en la inspección automatizada basada en visión

Fig. 2 Ilustración de una red


simple de dos capas ocultas

enfoques de aprendizaje que requieren la extracción de características mediante algoritmos


personalizados. El aprendizaje de representación de características permite que las redes de
aprendizaje profundo creen el conjunto correcto de características en función de los datos disponibles
y la tarea que se espera que realice. Esta capacidad única de aprendizaje profundo es la razón
principal de su precisión excepcional en una variedad de aplicaciones que tradicionalmente se consideraban difíciles s
Machine Translated by Google

162 R. Senthilnathan

no imposible. Los enfoques de aprendizaje automático basados en funciones no eran tan precisos como el
aprendizaje profundo, ya que las funciones extraídas por los ingenieros se limitan al conocimiento de las matemáticas
inventadas por los humanos. Por ejemplo, no existe una característica adecuada que pueda distinguir entre un
rasguño (un defecto) y una línea adscrita que se hace intencionalmente en la superficie de un objeto. Algunas de las
características que modelan los métodos de aprendizaje profundo durante el proceso de aprendizaje aún deben
definirse con las matemáticas existentes.
Esta capacidad ilimitada le da al enfoque de aprendizaje profundo una gran ventaja en aplicaciones como la
conducción autónoma, que es un problema completamente desestructurado que requiere representaciones
distinguibles de los diversos objetos en la escena para crear un límite de clasificación.

Los algoritmos de aprendizaje profundo (en general, todos los algoritmos de aprendizaje automático) pueden ser
clasificados en los siguientes cinco tipos basados en el proceso de aprendizaje:

• Aprendizaje supervisado: asigna datos de entrada con etiquetas conocidas anotadas por humanos. • Aprendizaje
no supervisado: Aprende el patrón inherente en los datos no etiquetados. • Aprendizaje semisupervisado: utiliza
datos de entrada parcialmente etiquetados y la mayoría sin etiquetar. • Aprendizaje por refuerzo: Aprende a
maximizar sus objetivos en función de la entrada

datos.

• Transferencia de aprendizaje: reutiliza un modelo que se aprendió de diferentes conjuntos de datos para
un conjunto de datos completamente nuevo o un ajuste fino del existente.

En el espectro de aplicaciones, las aplicaciones de servicio adoptaron rápidamente el aprendizaje profundo en


campos como automóviles sin conductor, vigilancia, análisis de video, aplicaciones web, etc. Las industrias se
mostraron muy escépticas sobre su funcionalidad en la primera mitad de la década a partir de 2012. –13 durante el
cual se lograron los hitos más importantes en tareas relacionadas con la visión, como la clasificación de imágenes
(El avance de Alexnet [1]). Las impresiones industriales sobre el aprendizaje profundo se pueden clasificar en
términos generales en cualquiera de las siguientes:

• El aprendizaje profundo es un disruptor de la industria.


• El aprendizaje profundo es el siguiente paso en la cadena evolutiva tecnológica.

2.1 Visión tradicional versus aprendizaje profundo


para la inspección basada en la visión

La visión artificial convencional se puede ver en dos manifestaciones. Uno, métodos completamente basados en
reglas y, en segundo lugar, métodos de aprendizaje automático basados en funciones manuales. Los métodos
basados en reglas no emplean ningún método de aprendizaje automático y utilizan códigos duros para extraer
características, analizarlas y tomar decisiones basadas en ellas. Las reglas para la clasificación son creadas por el
ser humano en función de las múltiples pruebas y ajustes de los datos y el código, respectivamente. Los métodos
clásicos de visión artificial de aprendizaje automático utilizan métodos como máquinas de vectores de soporte, redes
neuronales superficiales clásicas, etc., donde el patrón es aprendido por un algoritmo basado en las características
hechas a la medida por el
Machine Translated by Google

Aprendizaje profundo en inspección automatizada basada en visión... 163

humano. En cualquier caso, las características de los datos (imágenes y videos) son extraídas por humanos y
procesadas posteriormente para tomar decisiones. Las reglas para la clasificación son creadas por el algoritmo
de aprendizaje basado en las características de entrada extraídas por las matemáticas redactadas por
humanos.
La tabla presenta una diferencia centrada en las reglas entre las técnicas de visión artificial asistidas por
visión tradicional y las asistidas por aprendizaje profundo (Tabla 1).
El aprendizaje profundo tiene una diferencia fundamental en la forma en que se construyen las reglas,
donde las características necesarias para construir las reglas y las propias reglas son generadas por la propia
red. Este cambio de paradigma en el enfoque define las ventajas y limitaciones del aprendizaje profundo.

Desde la perspectiva de la inspección, los puntos importantes de comparación entre el aprendizaje


profundo con visión humana y la visión artificial tradicional se pueden observar en la Tabla 2.

La Fig. 3 captura la ventaja de usar el aprendizaje profundo sobre la visión artificial tradicional en términos
de la complejidad de las aplicaciones y la cantidad de inversión requerida [2].

Al igual que la visión artificial tradicional, el aprendizaje profundo no es una tecnología que pueda resolver
"cualquier cosa en cualquier lugar". Algunas de las preguntas clave que se deben hacer antes de implementar
el aprendizaje profundo incluyen las siguientes.

¿Dónde usarlo?

El aprendizaje profundo no es una herramienta de medición. En las industrias, uno de los tipos de aplicación
más importantes es la metrología y la medición. Dado que las redes de aprendizaje profundo aprenden el
patrón de los datos, su rendimiento es muy bueno para las inferencias semánticas en lugar de las medidas
mecánicas puras como la forma, las primitivas geométricas como el diámetro, el área, etc. Las aplicaciones
que utilizan la apariencia de los objetos como la característica principal de el interés por la identificación, la
inspección, etc. son los que podrían beneficiarse enormemente de la forma de resolución del aprendizaje
profundo.

Tabla 1 Visión humana versus aprendizaje profundo

El aspecto de la comparación donde el aprendizaje profundo visión humana


es una ventaja

Consistencia No está bien. Principalmente atribuido a múltiples


inspectores en turnos de trabajo y fatiga de individuos

Fiabilidad No está bien. Escalar la actividad de inspección


y la capacidad de reproducir buenos resultados en otras
líneas no es fiable

Velocidad No está bien. Aunque es subjetivo, el aprendizaje


profundo puede identificar defectos en milisegundos, lo
que respalda la inspección de alta velocidad y los casos
de uso de gran rendimiento.
Machine Translated by Google

164 R. Senthilnathan

Tabla 2 Visión artificial tradicional versus aprendizaje profundo

El aspecto de la comparación donde el aprendizaje Visión artificial tradicional


profundo es una ventaja

Complejidad de las aplicaciones La inspección y clasificación complejas pueden ser


difíciles debido a las limitaciones de las matemáticas
existentes para crear límites de clasificación en el
hiperespacio.

Configurabilidad La creación rápida de prototipos y el desarrollo


son difíciles debido a la necesidad de modificar
las reglas y otros parámetros de varios algoritmos que
deben ajustarse manualmente.

Invariancias Extremadamente propenso a errores cuando se


producen variaciones en las condiciones de imagen,
como iluminación, contraste, ruido de la cámara,
transformaciones de objetos de interés, desorden de
fondo, etc. Carece de la capacidad de generalización
del aprendizaje profundo

Fig. 3 Inspección de visión artificial tradicional versus inspección asistida por aprendizaje profundo

¿Cuáles deberían ser los datos para entrenar redes de aprendizaje profundo?

El aprendizaje profundo es un enfoque basado en datos. Los datos son el requisito principal. Aunque hay un
dicho popular que dice que "cuanto más se alimentan los datos al aprendizaje profundo, mejor es su
rendimiento", existe una condición subyacente que debe cumplirse con el
Machine Translated by Google

Aprendizaje profundo en inspección automatizada basada en visión... 165

declaración para ser verdad. Los datos recopilados para entrenar redes de aprendizaje profundo
deben poder capturar todas las posibilidades del mundo real en términos de formas, tamaños,
transformaciones rígidas, transformaciones de similitud, cambios de fondo (si los hay), color,
movimientos relativos, oclusiones (si corresponde), etc. Los datos recopilados para los sistemas de
inspección automatizados basados en visión deben contener todos los atributos de la escena en las
proporciones adecuadas según corresponda para cualquier aplicación dada. La palabra proporción
está relacionada con la probabilidad de ocurrencia de los atributos enumerados en la condición del
mundo real. Un mayor peso de un atributo específico puede crear un sesgo indebido durante el
entrenamiento. Una de las formas efectivas de abordar este problema es generar los datos necesarios
para la capacitación a partir del proceso real en las industrias en lugar de maquetas de laboratorio.
Esto garantiza una alta fidelidad de los datos en términos de qué tan bien representan la información
del mundo real tanto en términos de cantidad como de calidad. El otro lado de los datos, aparte de la
parte de adquisición, es la anotación, especialmente en un marco de aprendizaje supervisado, que es
la mayoría de los que se usan en los sistemas de visión artificial. La eliminación de cualquier forma
de sesgo es uno de los procesos no triviales involucrados en llevar los datos a una forma lista para el entrenamiento.

¿Cómo entrenar el sistema?

Los datos por sí solos no son suficientes. Las redes de aprendizaje profundo aprenden a partir de
datos que son buenas representaciones de la información del mundo real sujeta a fondo al
procedimiento de entrenamiento adoptado. Los enfoques sistemáticos adoptados en la capacitación
son una de las razones principales del desempeño actual del aprendizaje profundo. Dichos
procedimientos son formas de explotar todo el potencial de la filosofía del aprendizaje profundo.
Estos incluyen la estrategia para crear conjuntos de pruebas de validación de trenes, ajuste de
hiperparámetros, parada temprana, programación de hiperparámetros como la tasa de aprendizaje
durante el entrenamiento, etc. En la gran mayoría de los casos de redes de aprendizaje profundo
utilizadas en aplicaciones como clasificación y detección, el porcentaje de error final se reduce solo
debido a la estrategia de entrenamiento adoptada en comparación con las matemáticas nativas que
constituyen la arquitectura de la red.

¿Qué tan rápido se ejecutan los algoritmos de aprendizaje profundo?

Las redes de aprendizaje profundo utilizadas para la visión artificial son grandes. La naturaleza misma
de las redes de aprendizaje profundo, indiferente al tipo de datos que manejan, es la gran cantidad
de cálculos involucrados. Esto se puede ver en múltiples manifestaciones, a saber: número de capas
de neuronas, número de neuronas, tipos de cálculos involucrados (por ejemplo, combinaciones
lineales simples, circunvoluciones 2-D, etc.), tipo de procedimiento de aprendizaje (como propagación
hacia atrás), etc. Aunque el tiempo de capacitación no es una preocupación real para el despliegue
industrial, el tiempo necesario para generar una inferencia para cualquier dato dado es extremadamente
vital para influir en la productividad de la industria. Durante la inferencia, la mayoría de las redes de
aprendizaje profundo solo implican una propagación hacia adelante que implica cientos de miles de
operaciones matriciales. Este proceso demanda una gran cantidad de recursos computacionales. Esto
requiere computadoras rápidas y en tiempo real con la capacidad de paralelizar el procesamiento.
Con la llegada de las GPU modernas, esto es muy posible con muchos productos de software y
hardware personalizados para acelerar las inferencias de aprendizaje profundo. A pesar de estos
avances, las velocidades superiores a 500 partes por minuto son muy difíciles de lograr con las
grandes redes de aprendizaje profundo utilizadas.
Machine Translated by Google

166 R. Senthilnathan

Fig. 4 Características de las aplicaciones

para detección Como referencia, tal hito se logró hace una década en la visión artificial clásica.

¿Puede la industria confiar en los resultados de un algoritmo de aprendizaje profundo?

El aprendizaje profundo se recibe con escepticismo. Con un nivel de madurez de casi más de cinco años de
adopción en la industria, el aprendizaje profundo todavía se considera una tecnología que puede fallar. La
razón principal de esto es el hecho de que no existe una explicación clara de cómo las redes neuronales de
aprendizaje profundo llegan a una determinada inferencia. Esto a menudo se ve como una falta de
transparencia.
Dados todos los puntos de comparación, debe entenderse que, con todos los beneficios del aprendizaje
profundo, todavía existen muchas limitaciones fundamentales. Esto también significa que la visión artificial
tradicional no está obsoleta. Todavía tienen aplicaciones potenciales donde el aprendizaje profundo no es
viable debido a la falta de generación de datos para la capacitación y, en principio; es posible que la aplicación
no se pueda resolver utilizando enfoques basados en datos, por ejemplo, medidas geométricas. La Fig. 4
presenta las diversas características de las aplicaciones que pueden emplear el aprendizaje profundo y
aquellas que pueden resolverse satisfactoriamente utilizando la ruta tradicional de visión artificial.

Estas características de aplicación de la visión tradicional y el aprendizaje profundo pueden ser aplicables
para una variedad de aplicaciones en industrias que se ilustran en la Fig. 5 [3].

3 métodos de aprendizaje profundo en visión artificial

Una forma de clasificación de las redes de aprendizaje profundo se basa en la naturaleza de la anotación
sobre los datos y la inferencia generada por la red. En general, la visión
Machine Translated by Google

Aprendizaje profundo en inspección automatizada basada en visión... 167

Fig. 5 Tipos de aplicaciones

Las tareas pueden involucrar los siguientes problemas al tratar con las diversas propiedades que deben
extraerse sobre los objetos en la imagen:

• Clasificación de imágenes: asociar una imagen a alguna clase de objeto sin ubicar
eso.

• Reconocimiento de Objetos: Saber qué tipo de objetos hay disponibles en la imagen. • Localización de
objetos: Ubicación de los objetos. • Detección de Objetos: Reconocimiento + Localización. • Objeto/
Imagen/ Segmentación Semántica: Asociación de cada píxel a algún objeto

clase.

Entre las tareas antes mencionadas, las siguientes son los diversos tipos de métodos
basado en el aprendizaje profundo utilizado en aplicaciones industriales:

Clasificación de imágenes

La clasificación de imágenes es la tarea más simple entre los tipos de métodos. En un marco de aprendizaje
supervisado, el problema de clasificación de imágenes contiene una imagen con un objeto etiquetado (por lo
general, las imágenes del mismo objeto se guardan en un solo directorio, en el que el nombre del directorio
ayudaría a crear etiquetas). Esto ahorra tiempo en comparación con otros métodos en los que se requiere una
intervención a nivel de imagen durante el proceso de anotación. En el caso de utilizar la clasificación de
imágenes para la inspección automatizada, las imágenes de muestra de las buenas y las imágenes de los
distintos tipos de piezas defectuosas se agrupan en carpetas individuales. Algunas de las redes populares de
aprendizaje profundo para la tarea de clasificación de imágenes incluyen AlexNet [1], VGG [4], Googlenet [5] y
ResNet [6].

Detección de objetos

La detección de objetos localiza las clases de objetos entrenados dentro de una imagen y los identifica a través
de un polígono circundante (comúnmente, un cuadro delimitador rectangular). La detección de objetos es
necesaria en escenarios en los que hay varios objetos disponibles en el campo de
Machine Translated by Google

168 R. Senthilnathan

vista de la cámara. Las partes que se tocan, superponen y ocluyen también deben separarse en casos de uso de
inspección de múltiples objetos. La inferencia de detección de objetos para la inspección de superficies en piezas
metálicas es un ejemplo típico de esta categoría [7]. Varios tipos de defectos superficiales son las clases de objetos
que se entrenan con imágenes y las anotaciones correspondientes para obtener dichos resultados. Las anotaciones
son imágenes y las correspondientes coordenadas del polígono. Se puede apreciar que el proceso de anotación
consume mucho tiempo en comparación con la clasificación de imágenes. Algunas de las redes populares de
aprendizaje profundo para la tarea de clasificación de imágenes incluyen RCNN [8], Fast RCNN [9], Faster RCNN [10],
Mask RCNN [11], Single Shot Detector [12] y YOLO [13] serie de redes .

Segmentación Semántica

Mientras que la detección de objetos localiza defectos en un proceso de inspección dentro de un polígono, con la
segmentación semántica de imágenes, las clases de defectos pueden localizarse con precisión a nivel de píxeles. La
segmentación semántica de imágenes asigna una etiqueta a cada píxel, con el fondo y las regiones que no son de
interés compartiendo una etiqueta de clase. El proceso de etiquetado requiere mucho más tiempo en comparación
con la detección de objetos. Dichas redes se etiquetan mejor con herramientas de software especiales disponibles
que pueden reducir significativamente el tiempo de etiquetado. Algunas de las redes neuronales profundas populares
para tareas de segmentación semántica incluyen U-Net [14], Feature Pyramid Network (FPN) [15] y la familia de redes
DeepLab [16].

Aparte de los tres tipos, a veces un cuarto tipo de método que puede utilizar redes de aprendizaje profundo se
denomina detección de anomalías. La detección de anomalías se puede realizar como un problema de clasificación,
segmentación o detección de imágenes en el que varios productos buenos y muy pocas piezas malas están disponibles
para el entrenamiento. Tal escenario es generalmente la norma en la inspección de superficie automatizada donde la
detección y segmentación de defectos es un requisito. La capacidad de resolver algunas aplicaciones con menos
datos es un atributo especial de la detección de anomalías. A veces, la detección de anomalías puede llevarse a cabo
sin necesidad de etiquetas si las imágenes son de alta calidad en el contexto de capturar significativamente las
diferencias entre las regiones defectuosas y las buenas. En tales casos, solo se requieren unas pocas imágenes, a
veces tan solo 20 imágenes de piezas buenas.

Esto hace que el entrenamiento sea rápido y, por lo tanto, permite la creación rápida de prototipos del código de la
aplicación.

3.1 Desafíos en la adopción del aprendizaje profundo para máquinas


Visión

A continuación se enumeran algunos de los principales desafíos en la adopción del aprendizaje profundo para la
visión artificial.

Cuestiones de propiedad: a diferencia de las aplicaciones de servicio, como la comunidad de automóviles sin
conductor, donde los conjuntos de datos masivos de imágenes y videos anotados están disponibles para el acceso de
la comunidad técnica, la muestra de la aplicación industrial debe ser
Machine Translated by Google

Aprendizaje profundo en inspección automatizada basada en visión ... 169

Fig. 6 Aprendizaje profundo


habilitadores

generado por la industria en cuestión; por lo tanto, la nueva formación es a menudo la opción que hace que el desarrollo
sea costoso en tiempo y dinero. Transferir el aprendizaje es la única salida disponible en tales casos para ahorrar costos
y tiempo.
Desafío de etiquetado: el proceso de etiquetado en la inspección requiere experiencia en la comprensión de las
características mínimas que diferencian las piezas buenas de las defectuosas. Esto a menudo exige que lo lleve a cabo
un operador experimentado, que es un tiempo adicional incluido en la rutina de producción regular. Es posible que las
industrias no estén en condiciones de dedicar ese tiempo.

Requisitos reglamentarios: la mayoría de las industrias que emplean inspección automatizada están sujetas a
estrictos requisitos reglamentarios y de validación, en particular los de ciencias de la vida y farmacéuticos. Esto hace que
las industrias se lo piensen dos veces antes de adoptar el aprendizaje profundo, ya que sus resultados no siempre son
explicables.
Caja negra: dado que el aprendizaje profundo es un método cuyos resultados no se pueden explicar con aritmética y
lógica, los desarrolladores de visión y los usuarios finales generalmente se sienten menos cómodos al ignorar lo que hay
dentro de la caja negra.

3.2 Habilitadores de DL en visión artificial

En el proceso de superar los muchos desafíos que plantea el aprendizaje profundo cuando se pretende utilizar para la
inspección automatizada, pocos facilitadores facilitan el proceso.
Los habilitadores clave para emplear aprendizaje profundo o tareas de inspección automatizadas se presentan en la Fig.
6.
Estos avances altamente personalizados han acelerado la tasa de adopción del aprendizaje profundo para la
inspección automatizada. Los tres habilitadores clave se analizan en la siguiente sección de hardware y software.

3.3 Cartera de proyectos de visión artificial basada en aprendizaje profundo

En la Fig. 7 se presenta una canalización general de un proyecto de aprendizaje profundo para una tarea de inspección
automatizada .
Machine Translated by Google

170 R. Senthilnathan

Fig. 7 Pipeline de proyecto de visión artificial basado en aprendizaje profundo

3.4 Hardware de aprendizaje profundo

El aprendizaje profundo, a diferencia de las aplicaciones tradicionales de visión artificial, requiere hardware
con atributos muy específicos. La naturaleza de la elección del hardware para el aprendizaje profundo
requerido para el entrenamiento y la inferencia es muy diferente. El entrenamiento de aprendizaje profundo es
una tarea altamente computacional debido a los siguientes atributos del proceso de entrenamiento.

• Una gran cantidad de unidades de cómputo (neuronas) por capa • Una


gran cantidad de capas de unidades de cómputo • Una gran cantidad de
iteraciones de actualización de parámetros de aprendizaje, propagación hacia adelante y hacia atrás, lo que
involucra muchas operaciones matriciales • Grandes datos espaciales. Numerosas imágenes y videos son
generalmente la entrada, y son muy grandes en términos del tamaño de la memoria en comparación con los
datos temporales unidimensionales utilizados en aplicaciones que no son de visión.

Todos los factores mencionados anteriormente exigen grandes recursos de computación, como la memoria
de la CPU, la unidad de procesamiento de gráficos, como el hardware de computación paralela masiva y la
gran memoria de la GPU. Dado que el hardware de capacitación no se encarga en la industria, el contenido
restante de esta sección está dedicado al hardware utilizado para la inferencia.

La inferencia de aprendizaje profundo no es tan intensiva en computación como el proceso de


entrenamiento. El requisito es muy diferente. El tiempo de entrenamiento afecta el tiempo de despliegue, no
Machine Translated by Google

Aprendizaje profundo en inspección automatizada basada en visión... 171

productividad. El tiempo de inferencia afecta directamente a la productividad. Esto crea dos requisitos
fundamentales para el hardware de inferencia de aprendizaje profundo, a saber, un comportamiento
rápido y en tiempo real. Los resultados predecibles y deterministas en el tiempo son los dos principales
comportamientos en tiempo real. Aunque tales atributos se logran a través de un sistema operativo en
tiempo real y el código de la aplicación, la elección correcta del hardware para ejecutar dicho software
es muy importante. Hay varias opciones de hardware de inferencia que se enumeran a continuación.
Controladores integrados basados en GPU: microcontroladores basados en ARM con GPU
Los núcleos integrados en un solo circuito integrado están disponibles en forma de factor de forma de
sistema en módulo (SOM). La plataforma Jetson de NVIDIA Corporation es un ejemplo de lo mismo.
Estos SOM operan una versión en tiempo real del sistema operativo Linux con interfaces de hardware
similares a las de una PC. El código de inferencia del algoritmo de aprendizaje profundo para la
inspección automatizada se puede acelerar mediante el uso de GPU integrada con herramientas de
software especiales que hacen que el proceso sea extremadamente rápido.
Controladores basados en FPGA: la matriz de puertas programables en campo es un hardware
totalmente configurable que tendrá una latencia altamente determinista y un comportamiento
perfectamente en tiempo real. Tienen otras ventajas especiales, como un consumo de energía y una
generación de calor extremadamente bajos. Esta categoría de hardware es bastante nueva para
aplicaciones de aprendizaje profundo. El uso de FPGA también brinda al desarrollador el beneficio del
largo ciclo de producción y, dado que no tienen implementación de software a diferencia de otras
opciones de hardware, la red de aprendizaje profundo (como un nuevo tipo de red neuronal convolucional)
como propiedad intelectual está protegida. .
Puertas de enlace industriales: con el crecimiento exponencial en la adopción del aprendizaje
profundo en las industrias, el hardware informático que generalmente se etiqueta como puertas de
enlace de IA se ha vuelto muy popular. Están en algún lugar entre el controlador totalmente integrado y
la PC en términos de sus interfaces de hardware y capacidades informáticas. La puerta de enlace AI de
Pleora y las plataformas EDGE Ai de Adlink son ejemplos típicos de esta categoría de productos.

3.5 Software de aprendizaje profundo

Después de comprender las complejidades de los cálculos involucrados en el aprendizaje profundo, es


natural apreciar la importancia de las herramientas de software utilizadas para el entrenamiento
(desarrollo) y la inferencia, ya que son vitales para el éxito de la aplicación. A continuación se enumeran
algunos de los puntos importantes a considerar antes de seleccionar herramientas de software de
aprendizaje profundo.

• Compatibilidad con el sistema operativo •


Capacidades de compilación multiplataforma, por ejemplo, para puertas de enlace
integradas. • Compatibilidad con la plataforma de hardware • Compatibilidad con lenguajes
de programación comunes como C/C ++/Python • Herramientas configurables para
configurar el proceso de capacitación, p. ej., división de capacitación, validación y prueba, estadísticas
vitales del conjunto de datos, etc. observación del proceso de entrenamiento, por ejemplo, atlas de
visualización
Machine Translated by Google

172 R. Senthilnathan

• Capacidades de aceleración de GPU y herramientas para convertir el código de inferencia a GPU


forma compatible, por ejemplo, NVIDIA TensorRT
• Funciones de registro y guardado, por ejemplo, para pesos, modelo entrenado y puntos de control. •
Superposiciones no destructivas para visualizar los resultados de la inspección. • Funciones de transferencia de
aprendizaje. • Funciones de reutilización de código.

Hay muchas compañías populares de software de visión artificial que tienen sus productos mejorados con
capacidades de aprendizaje profundo. Halcon y Merlic de Mvtec, Sher lock de Dalsa, Matrox Imaging Library de Matrox,
Easysegment de Euresys son algunas de las plataformas populares que ofrecen capacitación de aprendizaje profundo
y soluciones de inferencia compatibles con múltiples plataformas de hardware y sistemas operativos.

4 industrias que utilizan visión artificial basada en aprendizaje profundo

Automotor

Dado que la industria automotriz es la principal unidad de fabricación en la mayoría de los países, es posible realizar
una variedad de tareas de inspección mediante el aprendizaje profundo. Estos incluyen la inspección de varios
subsistemas, como el ensamblaje de llantas, el sujetador de la rueda, el componente de la bolsa de aire, el componente
de la válvula de freno, el componente del cinturón de seguridad, la tela de la bolsa de aire, la pastilla de freno, el cilindro,
el anillo del pistón, el ensamblaje de la transmisión, la inspección de estampado de metal automotriz, etc.

Dispositivos médicos

Detección de dispositivos médicos y clasificación de superficies, detección de errores en rollos de etiquetas, detección

de rayones o partículas sueltas en parches médicos, inspección de calidad de bordado, inspección de soldadura y
colocación de adhesivos, etc. Una de las aplicaciones recientes es la inspección de calidad de máscaras faciales que
implica detección de componentes de máscaras faciales como orejeras, soldaduras de correas, presencia de manchas,
rasgaduras, errores de costura, etc.

Farmacéutica: defectos de pastillas, inspección de blísteres

El aprendizaje profundo en la industria farmacéutica se usa ampliamente para el control de calidad para detectar
defectos en píldoras, inspeccionar botellas y etiquetas, en la clasificación de tabletas, etc.

Productos de consumo

La industria de productos de consumo es una de las más diversas en términos de características visuales de los
productos. El aprendizaje profundo se puede utilizar para una variedad de tareas de inspección en productos de
consumo, como la inspección de calidad del material, la inspección de calidad de etiquetas, la inspección de tapas de
botellas, la inspección de tejido, la detección de productos faltantes, la inspección de sellos de seguridad y
manipulaciones, etc.
Machine Translated by Google

Aprendizaje profundo en inspección automatizada basada en visión ... 173

Industria de alimentos

La industria alimentaria es una de las pioneras en el uso de la inspección automatizada para tareas como la
inspección de contaminantes, la inspección de formas físicas y la inspección de texturas.

Electrónica

En electrónica, el aprendizaje profundo se puede utilizar para la inspección cosmética de cables de circuitos
integrados, la inspección de PCB, como la inspección de soldaduras, la verificación de integridad y la inspección
de pines de conectores. Los dispositivos móviles, como los teléfonos inteligentes y las tabletas, tienen un gran
panel LCD que tiene numerosas posibilidades de defectos que son inspeccionados por los sistemas de visión.
Estos entran en la categoría de inspección de superficie. El aprendizaje profundo se puede utilizar además para
la inspección estética de viviendas y también para el análisis de defectos estéticos [17].

Agricultura

En agricultura, el aprendizaje profundo se puede utilizar para la clasificación de frutas, identificación de plantas,
inspección de hojas, etc.

Logística

Algunas de las aplicaciones potenciales de la visión artificial asistida por aprendizaje profundo aplicadas a la
logística incluyen la clasificación de paquetes, la identificación de etiquetas, la identificación de espacios vacíos
en los estantes, etc.

5 Perspectivas de futuro

Algunas de las direcciones prometedoras de cambios y mejoras que uno puede esperar ver en breve en el
contexto de la influencia del aprendizaje profundo en la inspección automatizada basada en visión incluyen las
siguientes:

Herramientas en la nube

La computación en la nube ha influido en todos los sectores, excepto en el sector manufacturero, en el que se
aplica la visión industrial. Aunque las grandes empresas de fabricación utilizan el almacenamiento en la nube y
las bases de datos, la computación en la nube es una nueva dirección para implementar aplicaciones de visión
artificial basadas en el aprendizaje profundo. Hay plataformas de software, por ejemplo
NeuralVision de Cyth [18], que puede realizar computación basada en la nube para etiquetado, análisis
estadístico de manejo de imágenes, visualizaciones a través de simulación y generación de soluciones. Las
preocupaciones sobre la seguridad y la protección de la propiedad intelectual fueron las principales razones por
las que las industrias no adoptaron las características de la computación en la nube. Con grandes gigantes
tecnológicos como Google y Amazon que ofrecen seguridad cibernética de primer nivel en sus plataformas de
computación en la nube, habrá razones convincentes para usar los recursos de la nube para su computación
involucrada en proyectos de visión artificial basados en aprendizaje profundo.
Machine Translated by Google

174 R. Senthilnathan

6 Tecnología 5G

Con las tecnologías 5G a la vuelta de la esquina, existe una expectativa seria de que la atención de las industrias
pueda volver a las redes de los microprocesadores. Esto podría influir gravemente en la forma en que se
implementan los algoritmos de aprendizaje profundo y su potencial para explotar los beneficios de la red.

Industria 4.0

La revolución de la industria 4.0 y el aprendizaje profundo ocurrieron en paralelo para las industrias.
Después de media década, existe una sensación de convergencia especialmente, ya que la adopción de I4.0
está influyendo en el hardware y el software de aprendizaje profundo con nuevos tipos de datos que se espera
que transmitan y características modernas de conectividad. Esta tendencia continuará creciendo en los próximos
cinco años con más puertas de enlace perimetrales preparadas para IoT que ofrecen la capacidad informática
para ejecutar algoritmos de aprendizaje profundo basados en visión.

Computación cuántica

Con la promesa de que la computación cuántica sea diez o cientos de veces mejor que la computación clásica,
es probable que las tareas intensivas en computación similares al aprendizaje profundo sean las primeras
aplicaciones candidatas para explotar su potencial. Las diversas etapas del entrenamiento de aprendizaje
profundo pueden explotar los principios de la computación cuántica para generar un rendimiento de tiempo
innovador.

Algoritmos complejos

Algoritmos cada vez más complejos en términos de número de capas y el principio subyacente se están
introduciendo en las aplicaciones industriales. Esta tendencia seguirá aumentando a medida que más
investigadores se conviertan en desarrolladores industriales.
Esto significa que la actitud de los desarrolladores es muy diferente a la de los ingenieros de visión clásicos. Se
espera que dichos algoritmos amplíen los límites de la complejidad de la aplicación que se puede resolver en el
marco de inspección automatizada basada en la visión.

Herramientas de código abierto

Las herramientas de código abierto son los líderes en los proveedores de herramientas de software de aprendizaje
profundo, aunque hay disponibles herramientas de software patentadas personalizadas. Actualmente se está
presenciando que las industrias están dispuestas a considerar la implementación de código abierto de los
segmentos de aprendizaje profundo basados en visión de la aplicación más grande si no fuera por la aplicación completa.
El éxito de una empresa radica en su capacidad para reconocer nuevas tecnologías, como el aprendizaje
profundo, que crea un margen para una mayor automatización y su disposición a invertir en ellas. Dicha adopción
de nueva tecnología no es esencialmente un reemplazo completo de las tecnologías convencionales, como la
visión artificial basada en reglas, sino que pueden combinarse sinérgicamente para dar como resultado nuevas
prácticas que darán a las empresas escala, eficiencia, precisión y crecimiento financiero para el mercado. próxima
generación.
Machine Translated by Google

Aprendizaje profundo en inspección automatizada basada en visión ... 175

Referencias

1. Krizhevsky, A., Sutskever, I. y Hinton, GE (2012). Clasificación ImageNet con profundidad


Redes neuronales convolucionales. En NIPS, págs. 1106–1114. 2.
www.cognex.com, (visitado el 25-10-2020). 3. www.mvtec.com, (visitado el
22-10-2020).
4. Simonyan, K. y Zisserman, A. (2015). Redes convolucionales muy profundas para el reconocimiento de imágenes a
gran escala. En Congreso Internacional de Representaciones de Aprendizaje.
5. Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D. y Rabinovich, A.
(2015). Profundizando con las circunvoluciones. En la Conferencia IEEE sobre Visión por Computador y Reconocimiento
de Patrones.
6. Él, K., Zhang, X., Ren, S. y Sun, J. (2016). Aprendizaje residual profundo para el reconocimiento de imágenes.
Conferencia IEEE sobre visión artificial y reconocimiento de patrones.
7. Neuhauser, FM, Bachmann, G. y Hora, P. (2020). Clasificación y detección de defectos superficiales en perfiles de
aluminio extruido mediante redes neuronales convolucionales. Revista Internacional de Material, 13, 591–603.

8. Girshick, R., Donahue, J., Darrell, T. y Malik, J. (2014). Jerarquías de funciones enriquecidas para la detección precisa
de objetos y la segmentación semántica. En Visión por Computador y Reconocimiento de Patrones.
9. Girshick, R. (2015). R-CNN rápido. En Congreso Internacional de Visión por Computador.
10. Ren, S., He, K., Girshick, R. y Sun, J. (2015). R-CNN más rápido: hacia la detección de objetos en tiempo real con redes
de propuestas regionales. En Sistemas de Procesamiento de Información Neural.
11. He, K., Gkioxari, G., Piotr Doll´ar, & Girshick, R. (2017). Máscara R-CNN. En Internacional
Jornada de Visión por Computador.
12. Liu, W., Anguelov, D., Erhan, D., Szegedy, C. y Reed, S. (2015). SSD: detector multibox de disparo único, arXiv preprint
arXiv:1512.02325.
13. Redmon, J., Divvala, S., Girshick, R. y Farhadi, A. (2016). Solo mira una vez: Detección unificada de objetos en tiempo
real. En CVPR.
14. Ronneberger, O., Fischer, P. y Brox, T. (2015). U-net: Redes convolucionales para segmentación de imágenes
biomédicas. Actas Congreso Internacional Computación de Imagen Médica. Comput.- Intervención Asistida, pp. 234–
241.
15. Lin, T., Dollár, P., Girshick, R., He, K., Hariharan, B. y Belongie, S. (2017). Cuenta con redes piramidales para la
detección de objetos. En IEEE Conference on Computer Vision and Pattern Recognition (CVPR), págs. 936–944.

16. Chen, L., Papandreou, G., Kokkinos, I., Murphy, K. y Yuille, AL (2018). DeepLab: segmentación semántica de imágenes
con redes convolucionales profundas, convolución atrosa y CRF totalmente conectados. IEEE Transactions on Pattern
Analysis and Machine Intelligence, 40(4), 834–848.
17. Yuan, ZC, Zhang, ZT y Su, H. (2018). Detección de defectos basada en la visión para cubiertas de vidrio de teléfonos
móviles utilizando redes neuronales profundas. Revista internacional de ingeniería de precisión, 19, 801–810. 18.
www.cyth.com, (visitado el 22-10-2020).
Machine Translated by Google

Mejora del rendimiento en caliente


Proceso de laminado con Novel Neural
Búsqueda arquitectónica

Srinivas Soumitri Miriyala, Itishree Mohanty y Kishalay Mitra

Resumen La infraestructura de vanguardia, las excelentes instalaciones computacionales y la conectividad


ubicua en todas las industrias han llevado a la generación de grandes cantidades de datos de procesos
heterogéneos. Al mismo tiempo, la aplicabilidad del aprendizaje automático y la inteligencia artificial está
experimentando un aumento significativo en la academia y la ingeniería, lo que lleva al desarrollo de una gran
cantidad de recursos y herramientas.
Sin embargo, la cantidad de trabajos de investigación y aplicaciones destinadas a implementar las ciencias
de datos a problemas en las industrias de procesos es mucho menor. El trabajo propuesto tiene como
objetivo llenar el nicho al proponer una construcción sustituta basada en Redes Neuronales Artificiales (ANN,
por sus siglas en inglés) utilizando datos ruidosos extremadamente no lineales, estáticos, de alta dimensión
(32 características) muestreados irregularmente de las corrientes de entrada y salida del proceso de
laminación en caliente en hierro y acero. fabricación de la industria. Aunque las ANN se usan ampliamente
para modelar datos no lineales, la revisión de la literatura ha demostrado que su modelado se rige por
heurística, lo que las hace ineficientes para su uso en industrias de procesos. Este aspecto es de gran
relevancia en la época contemporánea, ya que la optimización de hiperparámetros, el aprendizaje automático
automatizado y la búsqueda de arquitectura neuronal (NAS) constituyen una parte importante de la
investigación actual en ciencias de datos. Proponemos un novedoso algoritmo NAS evolutivo multiobjetivo
para diseñar de manera óptima ANN de avance de múltiples capas al equilibrar los aspectos de parsimonia y
precisión. El problema de programación no lineal entera del diseño ANN se resuelve utilizando el algoritmo
genético de clasificación no dominada codificado en binario (NSGA-II).
Se encontró que las ANN diseñadas para el proceso de laminación en caliente demuestran una precisión de
0,98 (promediada en tres salidas) medida en términos del coeficiente de correlación R2 en el conjunto de
prueba. La construcción exitosa de ANN precisas y óptimas proporciona un modelo único en su tipo para el
proceso de laminación en caliente en la fabricación de hierro y acero.

SS Miriyala · K. Mitra (B)


Laboratorio de optimización global y descubrimiento de conocimientos, Departamento de
Ingeniería Química, Instituto Indio de Tecnología Hyderabad, Sangareddy 502285, Telangana, India
Correo electrónico: kishalay@che.iith.ac.in

Correo electrónico
de SS Miriyala: ch13m15p000002@iith.ac.in

I.
Investigación y desarrollo de Mohanty, Tata Steel Limited, Jamshedpur 831001, Jharkhand,
India Correo electrónico: iti.mohanty@tatasteel.com

© Los autores, bajo licencia exclusiva de Springer Nature Suiza AG 2022 S. Datta y 177
JP Davim (eds.), Machine Learning in Industry, Management and Industrial
Engineering, https://doi.org/10.1007/978-3 -030-75847-9_9
Machine Translated by Google

178 SSMiriyala et al.

industria. El método propuesto puede minimizar las posibilidades de sobreajuste en las ANN y
proporciona un método genérico aplicable a cualquier tipo de datos/modelo de las industrias de
procesos.

Palabras clave Microaleación · Redes neuronales artificiales · Búsqueda de arquitectura


neuronal · Algoritmos evolutivos · Optimización multiobjetivo · Formulación INLP ·
Proceso de laminación en caliente · Modelado sustituto · Optimización de hiperparámetros
· NSGA -II

1. Introducción

La microaleación es un proceso importante en las industrias siderúrgicas, que produce cambios


notables en las propiedades mecánicas del acero [1]. En los últimos tiempos, este proceso ha
ganado una inmensa aplicabilidad, ya que a través de este proceso es posible mejorar la
resistencia del acero sin comprometer su calidad [1].
Una medida importante de la calidad durante el laminado en caliente de aceros microaleados
es la propiedad mecánica, ya que la optimización y el control de las propiedades mecánicas
gobiernan la aplicabilidad del producto final. Las propiedades mecánicas de los aceros
microaleados se determinan tradicionalmente mediante ensayos destructivos. Este procedimiento
es laborioso y costoso. Si bien modelar las propiedades mecánicas es una alternativa, sin
embargo, con la microaleación en su lugar, se vuelve extremadamente desafiante modelar las
propiedades mecánicas utilizando los primeros principios. Sin los modelos implementados, es
casi imposible realizar estudios de optimización y control a nivel industrial debido a la naturaleza
iterativa de estos algoritmos que implican evaluaciones de funciones repetitivas [2]. Por lo tanto,
la necesidad del momento es un modelo adecuado (preferiblemente que no se base en primeros
principios) que mapee las condiciones operativas, las composiciones químicas y otros parámetros
de diseño del proceso de laminación en caliente con las propiedades mecánicas de los aceros
microaleados. Sin embargo, al mismo tiempo, la instrumentación sofisticada, la conectividad
ubicua y la automatización han llevado a la generación de grandes cantidades de datos de
procesos heterogéneos, que permiten la construcción de algoritmos de aprendizaje rápidos y
precisos para emular datos de procesos no lineales de alta dimensión, como los que surgen del
proceso de laminación en caliente en la industria siderúrgica. Por lo tanto, una posible solución
para superar los problemas antes mencionados es agilizar el proceso con Data Science (DS) [3].

La ciencia de datos se define ampliamente como (a) gestión, (b) aprendizaje automático
(ML) y (c) visualización de datos, entre los cuales el aprendizaje automático se encuentra en su
núcleo [4]. La primera tarea trata de organizar, almacenar, acceder y compartir los datos. La
segunda tarea emplea algoritmos matemáticos para capturar la tendencia oculta en los datos,
por ejemplo, desarrollando modelos de predicción, determinando la estructura subyacente de
los datos y desarrollando modelos basados en la experiencia. La tercera tarea consiste en
métodos que pueden presentar los conocimientos de los datos y, a su vez, ayudar a las
organizaciones/industrias a tomar decisiones importantes basadas en el análisis de datos.
Debido a las numerosas ventajas que ofrecen las herramientas basadas en DS, las aplicaciones de DS están m
Machine Translated by Google

Mejora del rendimiento en el proceso de laminación en caliente … 179

en varios dominios de investigación. Algunos de ellos incluyen la cadena de suministro y la


planificación de rutas de vehículos [5], el procesamiento del lenguaje natural [6], el reconocimiento
de imágenes [7], el cambio climático [8], la agricultura [9], la atención médica [10], el diseño de
medicamentos [11], los juegos [12], predicción del mercado de valores [13] y marketing online
[14]. Para no quedarse atrás, el campo de la ingeniería química y de procesos también está
experimentando un crecimiento sustancial debido a los avances tecnológicos en la
experimentación, lo que lleva a la generación de big data [4, 15, 16]. Recientemente, la
comunidad de ingeniería química ha visto los beneficios de DS, como el modelado basado en
datos [17], el control de supervisión inteligente [18], la gestión de sistemas de energía [19], el
análisis de fallas [20], la construcción de mejores modelos para comprender la investigación de
catálisis [ 21], identificación y descubrimiento de cristales [22], modelado y optimización
sustitutos [23], manejo de la incertidumbre en procesos químicos [24], modelado y simulación
molecular [25] , etc. Cuando se trata del área de optimización y control de procesos, una
aplicación popular del aprendizaje automático es el desarrollo de modelos sustitutos basados
en datos para emular el modelo basado en la física de alta fidelidad que cuesta mucho tiempo.
Una vez entrenados con la precisión deseada, estos sustitutos funcionan oscureciendo los
modelos basados en la física que consumen mucho tiempo del optimizador, acelerando así el
arduo proceso de optimización y control. Se sabe que trabajan con una amplia variedad de
algoritmos y procesos de optimización, como se puede ver en [26].
Un ejemplo clásico de modelos sustitutos son las redes neuronales artificiales (ANN),
capaces de modelar el comportamiento no lineal de datos/modelos complicados [27].
Las ANN son ventajosas sobre varias otras clases prominentes de sustitutos o modelos
basados en datos del paradigma del aprendizaje automático. Sin embargo, los problemas
asociados con su diseño y modelado, particularmente aquellos relacionados con la determinación
heurística de la arquitectura, la función de activación y el tamaño de la muestra, degradan
severamente su capacidad como modelos sustitutos [2]. Se lleva a cabo una cantidad
significativa de investigación para aliviar las ANN con estos graves problemas de modelado. Por
ejemplo, [28] presentó un marco basado en el problema de programación no lineal de enteros
mixtos (MINLP) para diseñar ANN [28, 29] probó un enfoque de suma ponderada basado en
metaheurísticas [29], Biothias et al. (2012) presentó un marco de optimización multiobjetivo [30,
31] y ideó un método novedoso basado en una estrategia de muestreo secuencial para
determinar el tamaño de muestra de entrenamiento óptimo de las RNA [31]. Otros trabajos
destacados en el campo de la optimización de hiperparámetros se pueden encontrar en [32–38].
La tendencia reciente mostró el cambio hacia la aplicación de la optimización bayesiana y el
aprendizaje por refuerzo para la determinación de hiperparámetros (principalmente el diseño de
la arquitectura) en redes neuronales [39, 40].
En este trabajo, proponemos una nueva estrategia de búsqueda de arquitectura neuronal
multiobjetivo para superar los problemas asociados con las redes neuronales de avance para
modelar datos de alta dimensión (32 características) obtenidos del proceso de laminación en
caliente en la industria siderúrgica. A diferencia de cualquier otro método propuesto en la
literatura, el trabajo actual se centra en el diseño de ANN y la determinación de la función de
activación óptima, mientras se equilibran los aspectos de sobreajuste y precisión. El algoritmo
propuesto no solo es rápido, lo que lleva a su implementación en tiempo real, sino que también
es genérico para aplicarse a cualquier tipo de datos de la industria sin restricciones en las
dimensiones de entrada-salida y el grado de no linealidad. Dado que los datos se obtienen directamente de la
Machine Translated by Google

180 SSMiriyala et al.

planta, primero se preprocesa para minimizar el ruido de medición y retener solo la información
relevante del proceso. Los datos resultantes se utilizan luego para ejecutar el algoritmo
propuesto capaz de diseñar de manera óptima las RNA. En el trabajo actual, las entradas al
modelo ANN constituyen 29 parámetros que involucran las composiciones químicas, las
propiedades físicas del acero alimentado al laminador y las condiciones de operación del
laminador. Las propiedades mecánicas deseadas en el producto final, como alta resistencia a la
tracción, rendimiento y elongación, constituyen los 3 resultados del modelo ANN.
Las ANN óptimas obtenidas pudieron emular los datos no lineales de alta dimensión con una
precisión del 98 % en el conjunto de prueba (datos no vistos). Si bien el algoritmo para el diseño
de ANN sirve como la principal novedad, una descripción detallada de la construcción de ANN
de múltiples capas, la naturaleza multiobjetivo de la estrategia de búsqueda de arquitectura
neuronal y la aplicación del algoritmo propuesto a datos reales, no lineales, industriales y de
alta dimensión para construir un El modelo basado en datos para permitir la optimización y el
control basados en datos del tren de laminación son otros aspectos destacados del trabajo
propuesto. En el resto del artículo, los detalles del algoritmo propuesto y la descripción del
proceso de laminación en caliente en las industrias siderúrgicas se presentan en la sección
'Formulación', seguidos de los 'Resultados' del diseño ANN y la construcción del modelo antes
de resumir el trabajo en el Apartado 'Conclusiones'.

2 Formulación

2.1 Búsqueda de arquitectura neuronal evolutiva para el


diseño óptimo de ANN

Las ANN son modelos gráficos que fueron diseñados para imitar el funcionamiento del cerebro
humano para realizar las tareas de clasificación y regresión [41]. La unidad básica de
funcionamiento del sistema nervioso llamada célula nerviosa se modela utilizando un nodo que
comprende la unidad de suma y la función de activación para imitar la sinapsis y el núcleo,
respectivamente, como se muestra en la Fig. 1. La unidad de suma daría como resultado una
suma ponderada de entradas al nodo, mientras que la función de activación es responsable de

Fig. 1 Comparación entre Neurona y Nodo


Machine Translated by Google

Mejora del rendimiento en el proceso de laminación en caliente … 181

Fig. 2 Comparación entre el nodo feed-forward (perceptrón) y el nodo de retroalimentación (recurrente)

transformaciones no lineales de los datos. Las ANN son una colección de varios de estos nodos y se

clasifican en términos generales en redes neuronales de retroalimentación y recurrentes en función de las


conexiones de retroalimentación y de retroalimentación, respectivamente, entre los nodos de la red, como se
muestra en la Fig. 2. Mientras que las redes de retroalimentación o retroalimentación Las redes de
perceptrones de múltiples capas se utilizan para modelar datos estáticos, las redes recurrentes están
diseñadas específicamente para emular conjuntos de datos dinámicos. Una tercera categoría denominada
redes neuronales convolucionales también se define en la literatura para modelar conjuntos de datos basados
en imágenes. En este trabajo, tratamos principalmente con datos estáticos y, por lo tanto, solo se analizan
las redes de perceptrones de varias capas en el resto del manuscrito. Los lectores interesados en RNN y
CNN pueden consultar [42, 43], respectivamente, para obtener más detalles.
El conjunto de entradas constituye la capa de entrada desde la que se pasa la información a una serie
de capas ocultas, culminando finalmente en la capa de salida. Una capa oculta es una colección de varios
nodos que funcionan en paralelo. En una red de perceptrones de múltiples capas, la información fluye solo
en dirección hacia adelante para generar las salidas de la ANN. Las salidas generadas por la red se comparan
con las salidas o etiquetas originales (en caso de clasificación) para cuantificar la cantidad de desviación.
Esta medida llamada función de pérdida se minimiza luego ajustando los parámetros entrenables en la red:
los pesos y sesgos como se muestra en la Fig. 3.

La necesidad de salidas o etiquetas para cada conjunto de entradas clasifica el modelado ANN como
aprendizaje automático supervisado. Además, la estructura gráfica de las RNA permite la determinación
analítica de los gradientes de la función de pérdida con respecto a los pesos mediante el procedimiento
denominado backpropagation. Por lo tanto, los algoritmos clásicos de optimización basados en gradientes,
como el descenso más pronunciado [41] o las técnicas newtonianas [41] , se emplean para entrenar las RNA.

Realizar solo entrenamiento con pesas en ANN a menudo puede conducir a una situación en la que ya
no son capaces de interpolar o predecir datos no vistos. Este fenómeno llamado sobreajuste (a los datos de
entrenamiento) generalmente se evita en las ANN dividiendo los datos dados en tres partes: la primera parte
llamada conjunto de entrenamiento se usa para entrenar el modelo ANN, la segunda parte llamada conjunto
de validación se usa para verificar el sobreajuste durante el entrenamiento y la tercera parte llamada conjunto
de prueba se usa para verificar el rendimiento del modelo ANN entrenado en datos no vistos. El procedimiento
para evitar el sobreajuste en las ANN utilizando el conjunto de validación se denomina detención anticipada,
donde el ejercicio de capacitación finaliza cuando se observa que la capacitación adicional no da como
resultado
Machine Translated by Google

182 SSMiriyala et al.

Fig. 3 Una red de perceptrones multicapa con 3 entradas, 2 capas ocultas y 1 salida. Durante el paso hacia adelante, la
información fluye en dirección hacia adelante (de izquierda a derecha) para generar una pérdida L de error cuadrático
medio (MSE) en todos los N puntos de entrenamiento, y durante la propagación hacia atrás, la información fluye de
derecha a izquierda.

mejora de la pérdida de validación o generalmente conduce a un aumento en la pérdida de


validación, lo que sugiere un ajuste excesivo al conjunto de entrenamiento. Mientras que otras
técnicas como la regularización [41] también existen en la literatura para evitar el sobreajuste, la
interrupción anticipada sigue siendo un método fácil y eficaz para garantizar la generalización de
las RNA. La presencia de una gran cantidad de parámetros (pesos y sesgos), un conjunto de
funciones de activación no lineales, un método de entrenamiento eficaz mediante retropropagación
y técnicas para evitar el sobreajuste hacen de las ANN una de las mejores técnicas de ML para
modelar conjuntos de datos de alta dimensión no lineales.
Además de los parámetros habituales en las ANN, también es necesario determinar a priori el
número de capas ocultas, el número de nodos y la función de activación. Denominados
colectivamente hiperparámetros, su estimación, tal como se realizó en un estudio reciente de la
literatura, tiene un papel importante en el control de la eficiencia de los modelos ANN. Siendo de
naturaleza integral, la estimación de hiperparámetros cuando se combina con el ejercicio de
entrenamiento con pesas conduce a la formulación del problema MINLP, que es NP-difícil de resolver.
Por lo tanto, este problema de NAS se aborda de diferentes maneras, entre las cuales la formulación
que implica el aprendizaje por refuerzo [39] y la optimización bayesiana [40] han sido las más
exitosas. En este trabajo, implementamos una estrategia NAS evolutiva para diseñar las ANN
óptimas utilizando una formulación de optimización multiobjetivo. En el método propuesto, la
formulación del MINLP se divide en dos niveles, donde el nivel externo se ocupa de la estimación
de hiperparámetros y el nivel interno del ejercicio de entrenamiento con pesas convencional. Esto
hace que el ejercicio de estimación de hiperparámetros sea una formulación INLP y lo separa de la
formulación PNL del entrenamiento con pesas, pero al mismo tiempo, dado que los dos niveles de
optimización se resuelven en conjunto, también asegura una determinación simultánea de los
hiperparámetros. y parámetros de ANN, haciéndolo así libre de parámetros. Si bien los métodos
como la detención anticipada y la regularización evitan el sobreajuste en el ciclo interno, la
formulación propuesta minimiza aún más las posibilidades de sobreajuste en la optimización del
ciclo externo. Esto se logra al considerar la compensación entre la varianza y el sesgo en los
modelos de ML: el sesgo de considerar un modelo de ML más simple (con menos cantidad de
parámetros) a menudo puede conducir a una gran varianza
Machine Translated by Google

Mejora del rendimiento en el proceso de laminación en caliente … 183

entre los resultados predichos y los valores originales. Por lo tanto, formulamos los objetivos
como minimizar la cantidad de parámetros en ANN (que están correlacionados con la
arquitectura de ANN) y maximizar la precisión del conjunto de prueba para equilibrar los
aspectos de parsimonia y sobreajuste. La arquitectura (número de capas ocultas y número
de nodos en cada capa oculta) y el tipo de función de activación sirven como variables de
decisión en la formulación propuesta para la optimización de hiperparámetros, como se
muestra en la ecuación. 1.

min ni y nTF
ÿR2 prueba y P (1)

1, si i =
tal que, L ÿ ni ÿ ÿi donde L =
1 0, si i > 1

ÿi = 1, 2 ...ÿ; ni , ÿi y ÿ ÿ Z+ y nTF ÿ {1, 2}

ÿ cov Y, Yˆ ÿ
ÿ ÿ

donde,R2 test es la medida de precisión en el conjunto de prueba = ÿ ÿ

var(Y)var Yˆ
ÿ ÿ

Nuevo Testamento Nuevo Testamento Nuevo Testamento

cov Y, Yˆ = NT YiYˆ i ÿ Yˆi yo


yo=0 yo=0 yo=0

2
Nuevo Testamento Nuevo Testamento

var(Y) = NT Y2
i
ÿ

yo
yo=0 yo=0

Y son las salidas originales, Yˆ son las salidas predichas y NT es el número de puntos en
el conjunto de prueba. P es el número total de parámetros en el modelo ANN. ni es el número
de nodos en la capa oculta i y nTF es el parámetro para elegir la función de activación (1 para
tan-sigmoidal y 2 para log-sigmoidal), mientras que ÿi y ÿ son los límites superiores de ni e i,
respectivamente, y Z+ es conjunto de enteros positivos. La naturaleza multiobjetivo de la
formulación propuesta, la formulación INLP y la falta de evaluación de gradiente proporcionaron
un margen para la implementación de algoritmos de optimización evolutiva basados en la
población para resolver el problema NAS. En este trabajo, dado que tenemos dos objetivos en
conflicto y variables de decisión integrales, implementamos el algoritmo genético de clasificación
no dominada codificado en binario (NSGA-II) [44]. El flujo del algoritmo se muestra en la Fig. 4.
Comenzamos inicializando el número de generaciones (Ngen) y el tamaño de la población
(Npop) en NSGA-II. Si bien se puede usar cualquier valor para los límites superiores ÿi y ÿ
(número de nodos en cada capa oculta y número de capas ocultas, respectivamente), en este
trabajo hemos establecido ÿ = 3 y ÿ1 = 8, ÿ2 = 8 y ÿ3 = 7. Dado que se usa el NSGA II binario,
cada variable de decisión se representa mediante una subcadena binaria compuesta por 0 y 1.
Para asegurar valores integrales entre los límites inferiores (como se muestra en la Ec. 1) y los
límites superiores antes mencionados en las variables de decisión, n1, n2 y n3 son
Machine Translated by Google

184 SSMiriyala et al.

Fig. 4 Diagrama de flujo del algoritmo propuesto para NAS evolutivo utilizando NSGA-II

representado con 3 subcadenas binarias de 3 bits de longitud para permitirles crear 8 valores
integrales discretos (n1 será un número entero entre 1 y 8, n2 será un número entero entre 0 y 7
y n3 será un número entero entre 0 y 7 ), y nTF se representa con una cadena binaria de longitud
1 para habilitar la salida binaria. Concatenando estas 4 cadenas binarias horizontalmente, se
crea un solo candidato de 10 bits de largo llamado cromosoma, donde cada bit se llama gen.
Npop, tales cromosomas constituyen la población en una generación de NSGA-II. Por lo tanto,
para un cromosoma determinado, la arquitectura y la elección de activación se decodifican para
crear la ANN, como se demuestra con un ejemplo en la Fig. 4. Una vez que se obtiene la
configuración de la ANN, se realiza la optimización del bucle interno para entrenar los pesos y
probar la red entrenada con un conjunto de prueba y evalúe el R2 correspondiente según la
ecuación. 1. Del mismo prueba
modo, el segundo objetivo, P también puede ser
evaluado para la arquitectura dada contando los pesos y sesgos en la red.
Este ejercicio se repite para todos los candidatos de Npop para completar una generación de
NSGA II. Tras la evaluación exitosa de una generación, todas las soluciones únicas se guardan
en una base de datos para evitar cálculos redundantes en futuras generaciones de NSGA-II.
Machine Translated by Google

Mejora del rendimiento en el proceso de laminación en caliente … 185

Se realizan operaciones de selección, cruce, mutación y elitismo [44] para crear una generación
posterior de poblaciones. Este procedimiento se repite hasta la convergencia del algoritmo NSGA-
II. Finalmente, las soluciones de rango 1 se consideran como el frente de Pareto final en el que
cada punto se correlaciona con una arquitectura ANN. Se puede usar una información de orden
superior adecuada, como la validación cruzada de K-fold [45] o el criterio de información de Akaike
[46] o cualquier otro criterio de evaluación del modelo [44] para seleccionar una arquitectura de la
lista que sirva como la solución ANN final diseñada de manera óptima capaz de máxima precisión
y mínimo sobreajuste.

2.2 Descripción del proceso de laminación en caliente y generación de datos

La predicción de las propiedades mecánicas del acero ha sido objeto de investigación durante las
últimas dos décadas. Tradicionalmente, las propiedades mecánicas deseadas se logran mediante
el conocimiento de la metalurgia de procesos y la experiencia en la industria. Las propiedades
mecánicas del acero dependen no solo de la química inherente, sino también de la microestructura
que se desarrolla durante el proceso de fabricación [47]. En la fabricación de microaleaciones de
acero, la evolución de la microestructura es muy compleja y dinámica, lo que hace que las
predicciones sean menos consistentes. Esto, a su vez, aumenta la cantidad de esfuerzo y tiempo
necesarios para producir acero nuevo con las propiedades deseadas. Con los avances en la
metalurgia física, el procesamiento termomecánico y el uso cada vez mayor de la inteligencia
artificial, se han realizado intentos para desarrollar modelos que puedan aumentar la consistencia
en la predicción de las propiedades mecánicas de los aceros microaleados. Como resultado, varios
grupos de investigación en universidades, laboratorios de investigación del acero [48–50] han
desarrollado varios modelos y ha habido intentos de poner estos modelos en aplicaciones en la
producción de productos de acero. Estos modelos se concentran principalmente en laminación en
caliente, donde las condiciones de procesamiento se controlan de cerca para lograr las propiedades finales.
En el proceso Thin Slab Casting and Rolling (TSCR) o más comúnmente conocido como
Compact Strip Process (CSP) como se muestra en la Fig. 5, primero, el acero fundido se moldea en losas

Fig. 5 Esquema del proceso de tira compacta


Machine Translated by Google

186 SSMiriyala et al.

de espesor de ~50 a 70 mm utilizando una máquina de colada continua de planchón delgado. A


continuación, el acero fundido se cizalla y pasa a través de un horno de igualación a 1150 °C,
donde permanece durante unos 25 min. Luego ingresa al molino de acabado. Debido a la ausencia
del molino de desbaste en este proceso, los granos en la losa a la entrada de la primera caja del
molino de acabado son muy grandes (tamaño de grano promedio ~600 µm). Además, la
microestructura de la losa delgada en esta posición tendrá una microestructura fundida. Se requiere
impartir un procesamiento termomecánico apropiado en el molino de acabado para romper esta
microestructura fundida y reducir el tamaño del grano austenítico. La losa se lamina gradualmente
a medida que pasa por las cajas del tren de acabado. Luego, el acero se enfría mediante el proceso
de enfriamiento laminar y se enrolla a temperatura ambiente. Los datos de entrada que comprenden
las condiciones operativas, las composiciones químicas y los parámetros de diseño se recopilan
directamente de las corrientes de entrada. Las propiedades mecánicas para los datos
correspondientes se obtienen a partir de estudios de laboratorio y análisis de muestras recolectadas
de corrientes de salida. Los datos del proceso se describen en la Tabla 1.

3 Resultados y Discusiones

3.1 Preprocesamiento de datos

El proceso considerado contiene 29 entradas y 3 salidas, como se muestra en la Tabla 1. Los datos
para entrenar las redes neuronales en este estudio se muestrean a intervalos irregulares de las
corrientes de entrada y salida de la industria. Debido a errores en la instrumentación, es seguro
asumir que las posibilidades de que los datos se corrompan con el ruido de la medición son
relativamente altas. Para verificar y confirmar si los datos (particularmente las salidas) son
propensos al ruido, los pasamos a través de un filtro de baja frecuencia, como el promedio móvil.
En general, estos filtros permiten que pasen solo los datos que tienen una frecuencia inferior a un
valor prefijado; sin embargo, no confirman que el componente de alta frecuencia sea ruido. Por lo
tanto, el componente de alta frecuencia resultante se analiza mediante un gráfico de autocorrelación.
Si el análisis muestra que no existe una correlación estadísticamente significativa en los datos, se
puede plantear la hipótesis de que el componente de alta frecuencia es el ruido. Dado que no se
conoce a priori la extensión del ruido que se va a filtrar, se debe realizar una cierta cantidad de
ejercicio de prueba para determinar aproximadamente la cantidad de ruido que se va a filtrar de los
datos. Todo este análisis se realizó en este trabajo para cada función de salida.

La Figura 6 presenta los gráficos de correlación automática de los componentes de alta (ruido)
y baja frecuencia (datos) para las tres salidas. La presencia de datos solo entre las líneas de
confianza del 99 % y el 95 % indica que los datos son ruido blanco. Este rasgo característico se
puede ver en las subfiguras Fig. 6a–c, mientras que es significativamente diferente de las
características observadas en las subfiguras Fig. 6d–f.
Para confirmar que los datos utilizados para trazar las subfiguras Fig. 6a–c son ruido blanco,
trazamos los histogramas como se muestra en la Fig. 7. Estos histogramas (forma gaussiana)
confirman que los datos son de hecho ruido blanco (medición).
Machine Translated by Google

Mejora del rendimiento en el proceso de laminación en caliente … 187

Tabla 1 Descripción de
SL. No. Entradas del modelo ANN Salidas del modelo
insumos y productos considerados en ANN
el trabajo propuesto
1 Espesor de losa Límite elástico
Dimensiones de losa
2 Ancho de losa Resistencia a la
tracción
3 Longitud de losa Alargamiento
4 Composiciones Aluminio
5 Boro

6 Carbón

7 Cromo

8 Cobre
9 Manganeso
10 Nitrógeno
11 Niobio

12 Fosforoso
12 Azufre
14 Silicio

15 Titanio

dieciséis Vanadio

17 Condiciones
de operación Temperatura de entrada

18 Salida

temperatura
19 Duración

20 Terminar de rodar

21 Temperatura

de bobinado

después del laminado

22 Rollo real 1
brecha

23 Rollo real 2
brecha

24 Rollo real 3
brecha

25 Rollo real 4
brecha

26 Rollo real 5
brecha

27 Rollo real 6
brecha

28 Rollo de 6 velocidades

29 Espesor de losa
Machine Translated by Google

188 SSMiriyala et al.

Fig. 6 Gráficas de autocorrelación. Las subfiguras a, b y c son para componentes de alta frecuencia y d, e y
f son para componentes de baja frecuencia para la salida 1, 2 y 3, respectivamente.

Por otro lado, los datos en las subfiguras Fig. 6d-f demuestran un nivel significativo de
correlación. Además, el diagrama de dispersión del componente de baja frecuencia para las
tres salidas en la Fig. 8 indica una media distinta de cero variable, lo que nos permite suponer
que una cantidad estadísticamente significativa de ruido blanco se filtra de los datos medidos,
y el componente restante es verdadero. característica del proceso. La Figura 8 también
demuestra el alcance de la no linealidad en los datos.
Después del procesamiento previo de los datos y el filtrado del ruido, el componente
restante, indicativo de las características del proceso, se utiliza para el modelado ANN. Dado
que el proceso se ejecuta en estado estacionario, se supone que la dinámica de los datos no
cambia con el tiempo (datos no lineales estáticos), lo que nos permite modelarlo utilizando
feed-forward o redes de perceptrones multicapa.

3.2 Búsqueda de arquitectura neuronal

El algoritmo de optimización multiobjetivo propuesto se simula para construir los modelos


ANN. Dado que tenemos 3 salidas en el proceso, se ejecutaron 3 simulaciones de este tipo
para construir 3 modelos ANN de entrada única y salida múltiple (MISO) en lugar de una sola
ANN de entrada múltiple y salida múltiple (MIMO). Dado que los datos son estáticos, las salidas son
Machine Translated by Google

Mejora del rendimiento en el proceso de laminación en caliente … 189

Fig. 7 Las subfiguras a, b y c presentan el histograma de los componentes de alta frecuencia en los datos de las salidas 1,
2 y 3, respectivamente

sin correlación, por lo que no hay diferencia entre la previsibilidad de los modelos MISO y
MIMO ANN. Sin embargo, la construcción de 3 modelos MISO nos permitió reducir la
complejidad en el entrenamiento de ANN y también mejorar la velocidad del algoritmo
NAS evolutivo propuesto. Así, en este trabajo se construyeron 3 modelos MISO ANN.
Como se describió anteriormente, el bucle externo se resolvió utilizando NSGA-II, cuyas credenciales
Machine Translated by Google

190 SSMiriyala et al.

Fig. 8 Las subfiguras a, b y c presentan los diagramas de dispersión de los componentes de baja frecuencia en los datos
para las salidas 1, 2 y 3, respectivamente
Machine Translated by Google

Mejora del rendimiento en el proceso de laminación en caliente … 191

Tabla 2 Configuración de parámetros en NSGA-II


SL. No. Parámetros Valores

1 Variables binarias 4

2 Variables reales 0

3 Generaciones 100

4 Poblaciones 100

5 Probabilidad de cruce 0.9

6 tipo cruzado Uniforme

7 Probabilidad de mutación 0.01

8 Inicialización Aleatorio

9 Límites superior e inferior de las variables de decisión [8 7 7 2] y [1 0 0 1]

se presentan en la Tabla 2. La optimización del bucle interno (entrenamiento con pesas ANN) se
resolvió utilizando el Algoritmo de Levenberg Marquardt (LMA) [41].
Dado que la estrategia NAS propuesta es de naturaleza multiobjetivo con 2 funciones
objetivo, se obtuvieron frentes de Pareto bidimensionales como se muestra en la Fig. 9, donde
cada punto es una arquitectura ANN óptima con una función de activación óptima. La convergencia
del frente de Pareto en cada caso se aseguró iniciando el algoritmo NSGA-II con diferentes
poblaciones aleatorias iniciales y también ejecutando NSGA-II a un número significativamente
grande de generaciones (~ 1000). Ningún cambio en el Pareto final confirmó la convergencia del
algoritmo NAS propuesto.
Se debe seleccionar una única arquitectura ANN de la lista de soluciones de Pareto con el fin
de utilizarla como sustituto del proceso de laminación en caliente. Es necesario aplicar una
información de orden superior (HoI) adecuada para seleccionar una única solución [44].
En este trabajo, elegimos implementar AIC como HoI: se selecciona el modelo ANN con el valor
mínimo de AIC. Esto se debe a que AIC es un criterio de selección de modelo único, que penaliza
a los modelos (ANN en este caso) cuando tienen una gran cantidad de parámetros (pesos y
sesgos en este caso). Al hacer esto, esencialmente encuentra el modelo ANN que está menos
sobreajustado. Otro criterio de evaluación de modelo de estado del arte similar en la literatura
es la validación cruzada K-fold [46]. Sin embargo, su procedimiento computacionalmente intensivo
nos permitió preferir AIC. La lista de soluciones de Pareto junto con los valores AIC se muestran
en las Tablas 3, 4 y 5. Las arquitecturas seleccionadas junto con su rendimiento con respecto al
conjunto de prueba se muestran en la Tabla 6.

3.3 Discusiones y alcance futuro

La evolución de las redes de perceptrones multicapa en este estudio significa la necesidad de


una estrategia de diseño adecuada capaz de descalificar la creencia heurística popular de
considerar solo redes de una sola capa oculta. Además, se puede observar que el algoritmo pudo
encontrar arquitecturas con más de una capa oculta pero
Machine Translated by Google

192 SSMiriyala et al.

La Fig. 9 Las subfiguras a, b y c presentan los frentes de Pareto obtenidos al resolver el algoritmo NAS
propuesto para construir ANN para emular las salidas 1, 2 y 3, respectivamente.
Machine Translated by Google

Mejora del rendimiento en el proceso de laminación en caliente … 193

Tabla 3 Lista de soluciones de Pareto obtenidas al resolver el algoritmo NAS propuesto para la salida 1 junto con
los valores AIC correspondientes. La entrada en negrita indica la arquitectura seleccionada n2 nTF
SL. No. n1 n3 R2prueba PAG RMSE AIC

1 1 0 0 1 0.98333 32 0.051306 ÿ59334.8

2 1 1 0 1 0.98343 34 0.051153 ÿ59390.6

3 1 2 1 1 0.98344 39 0.051137 ÿ59387

4 1 3 1 1 0.98345 42 0.05112 ÿ59387.8

5 1 4 1 1 0.98346 45 0.051101 ÿ59388.9

6 1 5 1 1 0.98347 48 0.051092 ÿ59386.7

7 1 6 1 1 0.98348 51 0.051067 ÿ59390.2

8 1 7 1 1 0.98349 54 0.051055 ÿ59389.2

9 2 1 0 1 0.98639 sesenta y cinco 0.046362 ÿ61295.5

10 2 3 0 1 0.98872 73 0.042199 ÿ63161.3

11 2 5 1 1 0.99003 83 0.03967 ÿ64377.3

Tabla 4 Lista de soluciones de Pareto obtenidas al resolver el algoritmo NAS propuesto para la salida 2 junto con
los valores AIC correspondientes. La entrada en negrita indica la arquitectura seleccionada n2 nTF
SL. No. n1 n3 R2prueba PAG RMSE AIC

1 1 0 0 1 0.98881 32 0.041255 ÿ63695.7

2 1 1 0 1 0.98885 34 0.041173 ÿ63731.5

3 1 1 1 1 0.98886 36 0.041168 ÿ63730

4 1 2 0 1 0.98896 37 0.040979 ÿ63819.8

5 1 2 3 1 0.98914 47 0.040628 ÿ63971.8

6 2 1 0 1 0.99122 sesenta y cinco 0.036576 ÿ66037.5

7 2 2 0 1 0.99275 69 0.03321 ÿ67960.1

8 2 3 0 1 0.99346 73 0.03153 ÿ68990.1

muy pocos nodos en cada capa. Una vez más, esta habilidad desaprueba otra heurística
popular que requiere la presencia de una gran cantidad de nodos en la capa oculta.
A menudo, dicho modelo puede funcionar bien con datos de entrenamiento, pero no se
generaliza debido a la explosión de parámetros. El algoritmo propuesto evitó precisamente
este aspecto al agregar el objetivo conflictivo de minimizar el total de nodos y maximizar la
precisión.
Por lo tanto, esta formulación no solo evitó la aparición de modelos sobreajustados, sino
que también permitió modelos ANN con configuraciones más pequeñas que tienen una
importancia inmensa cuando se implementan en línea, ya que requieren una cantidad
significativamente menor de memoria y tiempo de procesamiento en comparación con ANN
con configuraciones grandes. Sin embargo, esta característica de la estrategia NAS propuesta
no degrada la importancia de las redes neuronales profundas. En cambio, solo demuestra que
el mejor juez para decidir la configuración de la ANN son los datos mismos. Dado que cualquier número de cap
Machine Translated by Google

194 SSMiriyala et al.

Tabla 5 Lista de soluciones de Pareto obtenidas al resolver el algoritmo NAS propuesto para la salida 3 junto con
los valores AIC correspondientes. La entrada en negrita indica la arquitectura seleccionada n2
SL. No. n1 n3 nTF R2prueba PAG RMSE AIC

1 1 0 0 1 0.95485 32 0.084321 ÿ49398.4

2 1 1 0 1 0.95498 34 0.084189 ÿ49425.8

3 1 1 1 1 0.95503 36 0.084144 ÿ49432.5

4 1 3 0 1 0.95569 40 0.08353 ÿ49571.1

5 1 3 3 1 0.95575 52 0.083464 ÿ49562.7

6 2 1 0 1 0.96341 sesenta y cinco 0.075968 ÿ51418.8

7 2 2 0 1 0.9705 69 0.06819 ÿ53571.2

8 2 3 0 1 0.97478 73 0.063036 ÿ55134.9

9 3 2 0 1 0.97513 101 0.062643 ÿ55204.2

10 3 3 6 1 0.97695 133 0.060294 ÿ55904.3

11 3 5 6 1 0.97943 153 0.057064 ÿ56965.6

Tabla 6 Modelos ANN diseñados de manera óptima para emular el proceso de laminación en caliente, obtenidos
utilizando la estrategia NAS evolutiva propuesta Salida. Nº n1 n2 n3 nTF R2

prueba P RMSE Tamaño de muestra para entrenamiento,


validación y prueba
1 2511 0.99003 83 0.03967 10000, 5000, 10000
2 2301 0,99346 73 0,03153 10000, 5000, 10000
3 3561 0,97943 153 0,057064 10000, 5000, 10000

los nodos se pueden explorar utilizando el algoritmo propuesto, creemos que funcionará igual
de bien para redes neuronales profundas siempre que se permita suficiente tiempo de cómputo.
De manera similar, con suficientes recursos de cómputo, el método propuesto también se puede
usar para diseñar de manera óptima redes neuronales recurrentes y RNN profundas que
demuestren las capacidades genéricas de un algoritmo novedoso. Al mismo tiempo, la velocidad
de la estrategia NAS evolutiva propuesta se puede mejorar varias veces en las GPU, ya que
tiene un inmenso alcance de paralelización. Estos aspectos establecen el alcance futuro del
trabajo propuesto.

4. Conclusiones

En el trabajo actual se explora la aplicabilidad de las ANN para construir modelos sustitutos para
datos de procesos heterogéneos no lineales de alta dimensión de la industria siderúrgica. Se
reconoce que las heurísticas relacionadas con el modelado de ANN juegan un papel importante
en su precisión y, por lo tanto, se hace un esfuerzo para eliminar las heurísticas al diseñar ANN.
En este trabajo, propusimos un algoritmo novedoso para construir ANN
Machine Translated by Google

Mejora del rendimiento en el proceso de laminación en caliente … 195

determinando el número óptimo de capas y nodos ocultos en cada capa junto con la
elección óptima de la función de activación. La metodología propuesta fue capaz de
construir ANN multicapa capaces de emular los datos del proceso con un 98 % de
precisión. Si bien se mostró el método para construir redes de avance, se puede
escalar fácilmente a redes neuronales profundas y redes neuronales recurrentes, lo
que lo hace genérico y capaz de trabajar con datos de cualquier dominio.

Referencias

1. Mittal, P., Mohanty, I., Malik, A. y Mitra, K. (2020). Optimización multiobjetivo del proceso de laminación en caliente
del acero: un enfoque híbrido. Materiales y procesos de fabricación, 35(6), 668–676.

2. Miriyala, SS, Mittal, P., Majumdar, S. y Mitra, K. (2016). Estudio comparativo de enfoques sustitutos mientras se
optimizan redes de reacción computacionalmente costosas. Ciencias de la ingeniería química, 140, 44–61.

3. Van Der Aalst, W. (2016). Ciencia de datos en acción. Minería en proceso (págs. 3–23). Saltador,
Berlín, Heidelberg.
4. Venkatasubramanian, V. (2019). La promesa de la inteligencia artificial en la ingeniería química:
¿Está aquí, finalmente. Revista AIChE, 65(2), 466–478.
5. Nowakowski, P., Szwarc, K. y Boryczka, U. (2018). Planificación de rutas de vehículos en la recogida móvil de residuos
electrónicos bajo demanda con el apoyo de algoritmos de inteligencia artificial. Investigación de Transporte Parte D:
Transporte y Medio Ambiente, 63, 1–22.
6. Ahmad, F., Abbasi, A., Li, J., Dobolyi, DG, Netemeyer, RG, Clifford, GD, et al. (2020). Una arquitectura de aprendizaje
profundo para el procesamiento psicométrico del lenguaje natural. ACM Transactions on Information Systems (TOIS),
38(1), 1–29.
7. Moen, E., Bannon, D., Kudo, T., Graf, W., Covert, M. y Van Valen, D. (2019). Aprendizaje profundo
para el análisis de imágenes celulares. Métodos de la naturaleza, 1–14.
8. Ardabili, S., Mosavi, A., Dehghani, M. y Várkonyi-Kóczy, AR (septiembre de 2019). Aprendizaje profundo y aprendizaje
automático en procesos hidrológicos, cambio climático y sistemas terrestres: una revisión sistemática. En Conferencia
Internacional sobre Investigación y Educación Globales (págs. 52–62).
Springer, Cham.
9. Bauer, A., Bostrom, AG, Ball, J., Applegate, C., Cheng, T., Laycock, S., et al. (2019).
Combinación de visión por computadora y aprendizaje profundo para permitir el fenotipado aéreo a ultraescala y la
agricultura de precisión: un estudio de caso de producción de lechuga. Investigación hortícola, 6(1), 1–12.
10. Sajeev, S., Maeder, A., Champion, S., Beleigoli, A., Ton, C., Kong, X. y Shu, M. (2019).
Aprendizaje profundo para mejorar la predicción del riesgo de enfermedades cardíacas. En Aprendizaje automático e
ingeniería médica para la salud cardiovascular e imágenes intravasculares y colocación de stent asistida por
computadora (págs. 96–103). Springer, Cham.
11. Schneider, P., Walters, WP, Plowright, AT, Sieroka, N., Listgarten, J., Goodnow, RA, Fisher, J., Jansen, JM, Duca, JS,
Rush, TS y Zentgraf, M. (2019). Repensar el diseño de fármacos en la era de la inteligencia artificial. Nature Reviews
Drug Discovery, 1–12.
12. Justesen, N., Bontrager, P., Togelius, J. y Risi, S. (2019). Aprendizaje profundo para jugar videojuegos. Transacciones
IEEE en juegos.
13. Naik, N. y Mohan, BR (2019, mayo). Clasificación de movimientos de precios de acciones utilizando técnicas de
aprendizaje automático y profundo: el estudio de caso del mercado de valores indio. En Conferencia internacional
sobre aplicaciones de ingeniería de redes neuronales (págs. 445–452). Springer, Cham.
14. Lu, CY, Suhartanto, D., Gunawan, AI y Chen, BT (2020). Satisfacción del cliente hacia los servicios de compra en línea:
Evidencia de pequeños y medianos restaurantes. Revista internacional de investigación comercial aplicada, 2 (01), 1–
14.
Machine Translated by Google

196 SSMiriyala et al.

15. Piccione, PM (2019). Interacciones realistas entre la ciencia de datos y la ingeniería química en el primer cuarto del
siglo XXI: hechos y una visión. Investigación y diseño de ingeniería química, 147, 668–675.

16. Beck, DA, Carothers, JM, Subramanian, VR y Pfaendtner, J. (2016). Ciencia de datos: aceleración de la innovación
y el descubrimiento en ingeniería química. Revista AIChE, 62(5), 1402– 1416.

17. Qi, C., Fourie, A., Chen, Q., Tang, X., Zhang, Q. y Gao, R. (2018). Modelado basado en datos del proceso de
floculación en el tratamiento de relaves de procesamiento de minerales. Revista de Producción más Limpia, 196,
505–516.
18. Han, H., Zhu, S., Qiao, J. y Guo, M. (2018). Sistema de monitoreo inteligente basado en datos para variables clave
en el proceso de tratamiento de aguas residuales. Revista china de ingeniería química, 26 (10), 2093–2101.

19. Almeshaeiei, E., Al-Habaibeh, A. y Shakmak, B. (2020). Evaluación rápida de sistemas de energía solar fotovoltaica
a microescala utilizando métodos empíricos combinados con redes neuronales de aprendizaje profundo para
apoyar a los fabricantes de sistemas. Revista de Producción más Limpia, 244,.
20. Wu, H. y Zhao, J. (2018). Diagnóstico de fallas de procesos químicos basado en modelos de redes neuronales
convolucionales profundas. Informática e ingeniería química, 115, 185–197.
21. Cocina, JR (2018). Aprendizaje automático en catálisis. Catálisis de la naturaleza, 1(4), 230–232.
22. Ortografía, M. y Glotzer, SC (2018). Aprendizaje automático para la identificación y el descubrimiento de cristales.
Revista AIChE, 64(6), 2198–2206.
23. del Rio-Chanona, EA, Wagner, JL, Ali, H., Fiorelli, F., Zhang, D., & Hellgardt, K. (2019).
Modelado y optimización sustitutos basados en aprendizaje profundo para la producción de biocombustibles de
microalgas y el diseño de fotobiorreactores. Revista AIChE, 65(3), 915–923.
24. Pantula, PD y Mitra, K. (2020). Hacia una optimización robusta y eficiente mediante la segmentación óptima basada
en datos del espacio incierto.Reliability Engineering & System Safety, 197, 106821.
25. Haghighatlari, M. y Hachmann, J. (2019). Avances del aprendizaje automático en modelado y simulación molecular.
Opinión actual en ingeniería química, 23, 51–57.
26. Alizadeh, R., Allen, JK y Mistree, F. (2020). Gestión de la complejidad computacional mediante modelos sustitutos:
una revisión crítica. Investigación en diseño de ingeniería, 31(3), 275–298.
27. Miriyala, SS, Subramanian, VR y Mitra, K. (2018). TRANSFORM-ANN para la optimización en línea de procesos
industriales complejos: proceso de fundición como caso de estudio. Revista europea de investigación operativa,
264(1), 294–309.
28. Dua, V. (2010). Un enfoque de programación de enteros mixtos para la configuración óptima de redes neuronales
artificiales. Investigación y diseño de ingeniería química, 88, 55–60.
29. Carvalho, AR, Ramos, FM y Chaves, AA (2011). Metaheurísticas para el problema de optimización de la arquitectura
de la red neuronal artificial (ANN) feedforward. Informática neuronal y aplicaciones, 20(8), 1273–1284.

30. Boithias, F., Mankibi, M. y Michel, P. (2012). Optimización basada en algoritmos genéticos de la arquitectura de
redes neuronales artificiales para el malestar interior de los edificios y la predicción del consumo de energía.
Simulación de construcción, 5(2), 95–106.
31. Eason, J. y Cremaschi, S. (2014). Muestreo secuencial adaptativo para la generación de modelos sustitutos con
redes neuronales artificiales. Informática e ingeniería química, 68, 220–232.
32. Jones, RD (2001). Una taxonomía de métodos de optimización global basada en superficies de respuesta.
Revista de optimización global, 21, 345–383.
33. Crombecq, K. (2011.) Modelado sustituto de experimentos informáticos con experiencia secuencial
diseño mental.
34. Davis, E. y Ierapetritou, M. (2010). Una estrategia de muestreo basada en el centroide para kriging global
modelado y optimización. AICHE, 56, 220–240.
35. Gorissen, D., Couckuyt, I., Demeester, P., Dhaene, T. y Crombecq, T. (2010). Una caja de herramientas de
modelado sustituto y muestreo adaptativo para el diseño basado en computadora. The Journal of Machine
Learning Research, 11, 2055–8722.
36. Müller, J. y Shoemaker, CA (2014). Influencia de los modelos sustitutos de conjuntos y la estrategia de muestreo
en la calidad de la solución de los algoritmos para problemas de optimización global de caja negra
computacionalmente costosos. Diario de Global, 60(2), 123–144.
Machine Translated by Google

Mejora del rendimiento en el proceso de laminación en caliente … 197

37. Chugh, T., Sindhya, K., Hakanen, J. y Miettinen, K. (2019). Una encuesta sobre el manejo de problemas de
optimización multiobjetivo computacionalmente costosos con algoritmos evolutivos. Informática blanda, 23(9), 3137–
3166.
38. Miriyala, SS y Mitra, K. (2020). Optimización multiobjetivo del proceso de endurecimiento del mineral de hierro utilizando
redes neuronales óptimas. Materiales y procesos de fabricación, 35(5), 537–544.
39. Zoph, B. y Le, QV (2016). Búsqueda de arquitectura neuronal con aprendizaje por refuerzo. preimpresión de arXiv
arXiv:1611.01578.
40. Elsken, T., Metzen, JH y Hutter, F. (2018). Búsqueda de arquitectura neuronal: una encuesta. preimpresión de arXiv
arXiv:1808.05377.
41. Hagan Martin, T., Demuth Howard, B. y Beale Mark, H. (2002). Diseño de redes neuronales.
Universidad de Colorado en Boulder.
42. Tumbas, A. (2012). Etiquetado de secuencias supervisadas. En Etiquetado de secuencias supervisadas con redes
neuronales recurrentes (págs. 5–13). Springer, Berlín, Heidelberg.
43. Bengio, Y., Goodfellow, I. y Courville, A. (2017). Aprendizaje profundo (Vol. 1). Massachusetts,
Estados Unidos: MIT Press.

44. Deb, K. (2001). Optimización Multiobjetivo mediante Algoritmos Evolutivos. Chichester, Reino Unido:
Wiley.
45. Arlot, S. y Celisse, A. (2010). Una encuesta de procedimientos de validación cruzada para la selección de modelos.
Encuestas estadísticas, 4, 40–79.
46. Akaike H, Teoría de la información y una extensión del principio de máxima verosimilitud. En: BN
Petrov, F. Csáki (Eds.), Actas del 2º Simposio Internacional sobre Inf. Teoría, Tsahkadsor, Armenia, URSS, 2 de
septiembre: 8 (1971) 267–281.
47. FB, P. (1978). Metalurgia física y diseño de aceros. Londres: Editores de Ciencias Aplicadas
Limitado.

48. Yada, H., Ruddle, GE y Crawley, AF (1987). proc. En t. Síntoma En Enfriamiento Acelerado de
Acero rolado.
49. Mohanty, I., Chintha, AR y Kundu, S. (2018). Optimización del diseño de aceros microaleados utilizando principios
termodinámicos y modelado basado en redes neuronales. Transacciones metalúrgicas y de materiales A, 49(6),
2405–2418.
50. Mohanty, I., Sarkar, S., Jha, B., Das, S. y Kumar, R. (2014). Sistema de predicción de propiedades mecánicas en línea
para acero IF laminado en caliente. Ironmaking and Steelmaking, 41(8), 618–627.

También podría gustarte