Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Shubhabrata Datta
J. Paulo Davim Editores
Máquina
aprendiendo en
Industria
Machine Translated by Google
Editor de series
Editores
Shubhabrata Datta J. Paulo Davim
Departamento de Ingeniería Mecánica Departamento de Ingeniería Mecánica
Instituto SRM de Ciencia y Tecnología Universidad de Aveiro Aveiro, Portugal
Chennai, Tamil Nadu, India
© Los editores (si corresponde) y los autores, bajo licencia exclusiva de Springer Nature Switzerland AG 2022
Este trabajo está sujeto a derechos de autor. Todos los derechos están licenciados única y exclusivamente por
el Editor, ya sea total o parcialmente el material, específicamente los derechos de traducción, reimpresión, reutilización de
ilustraciones, recitación, radiodifusión, reproducción en microfilmes o en cualquier otra forma física, y transmisión. o
almacenamiento y recuperación de información, adaptación electrónica, software de computadora, o por metodología similar
o diferente ahora conocida o desarrollada en el futuro.
El uso de nombres descriptivos generales, nombres registrados, marcas comerciales, marcas de servicio, etc. en esta
publicación no implica, incluso en ausencia de una declaración específica, que dichos nombres estén exentos de las leyes
y reglamentos de protección pertinentes y, por lo tanto, libres para uso general. usar.
El editor, los autores y los editores pueden asumir con seguridad que los consejos y la información de este libro se
consideran verdaderos y precisos en la fecha de publicación. Ni el editor ni los autores o los editores dan garantía, expresa
o implícita, con respecto al material contenido en este documento o por cualquier error u omisión que pueda haberse
cometido. El editor se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones
institucionales.
Este pie de imprenta de Springer es publicado por la empresa registrada Springer Nature Switzerland AG
La dirección de la empresa registrada es: Gewerbestrasse 11, 6330 Cham, Suiza
Machine Translated by Google
Prefacio
El capítulo introductorio de este libro describe los conceptos básicos de las técnicas más
populares de aprendizaje automático. Explica las diferentes clases de enfoques de aprendizaje
automático y describe brevemente las técnicas de aprendizaje automático basadas en inteligencia
artificial y estadística. Se analizan técnicas como el árbol de decisión, la regresión lineal, el método
de mínimos cuadrados, la red neuronal artificial, las técnicas de agrupación y el aprendizaje profundo.
v
Machine Translated by Google
vi Prefacio
Sistemas de vigilancia en industrias. Se analiza cómo los sensores se pueden usar de manera efectiva
para la integración de datos industriales para ML estándar. La aplicación de ML para buscar la causa
raíz de los defectos de la astilla en el tren de laminación en frío se describe en el Capítulo Exploración
de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos borrosos. Se
describe un caso típico en el que se analiza la génesis del defecto utilizando dos métodos, a saber.
teorías de conjuntos aproximados y conjuntos borrosos. Este capítulo muestra cómo se puede utilizar
la teoría de conjuntos aproximados para seleccionar las variables importantes a las que se puede
atribuir la causa del defecto. Las reglas creadas a partir de los datos se utilizan en el marco difuso
para desarrollar un modelo predictivo. En el capítulo Estudios de aprendizaje automático en ciencia de
materiales se proporciona una descripción general de la aplicación de métodos de aprendizaje
automático en el campo de la ciencia de los materiales con respecto a los materiales, procesos y
formalización del conocimiento .
ML se puede utilizar para desarrollar modelos sustitutos o metamodelos, que pueden reemplazar
modelos analíticos complejos y simulaciones numéricas para optimización, análisis de sensibilidad y
cuantificación de incertidumbre. En el capítulo Replicación precisa y en tiempo real de ecuaciones
gobernantes de sistemas físicos con CNN transpuestas: para Industria 4.0 y gemelos digitales, las
arquitecturas convolucionales similares a NN se utilizan como modelos sustitutos en dos aplicaciones
diferentes de ecuaciones de Navier-Stokes reducidas que contienen altas no linealidades y
discontinuidades abruptas.
El aprendizaje profundo es el último paradigma del aprendizaje automático. El capítulo Aprendizaje
profundo en la inspección automatizada basada en la visión: estado actual y perspectivas futuras del
libro evalúa la aplicación de las técnicas para la inspección automatizada basada en la visión. Aquí se
realiza una discusión detallada sobre las ventajas y desventajas del aprendizaje profundo para tareas
de inspección automatizadas en industrias. El noveno y último capítulo propone un algoritmo novedoso
para diseñar redes neuronales de avance de múltiples capas con parsimonia y precisión utilizando
optimización multiobjetivo.
Es bastante evidente que los autores del presente libro cubrieron varios aspectos y aplicaciones
del aprendizaje automático relevantes para la industria. Los editores expresan su sincero
agradecimiento a los autores por sus excelentes contribuciones. Los editores también expresan su
agradecimiento a todos los revisores que han contribuido inmensamente a mejorar la calidad de los
capítulos. Ambos editores están agradecidos con sus colegas, amigos y familiares. Los editores
también reconocen al equipo de Springer por su excelente trabajo para dar forma a la compilación a la
perfección.
Contenido
viii
Machine Translated by Google
ix
Machine Translated by Google
1. Introducción
El aprendizaje automático (ML) es una subdivisión de la ciencia computacional que avanza desde el
aprendizaje de la clasificación de datos en función de la comprensión adquirida y también del
aprendizaje obtenido sobre los principios basados en la computación de la Inteligencia Artificial (IA).
De manera simple, el aprendizaje automático es entrenar a las computadoras para que aprendan
automáticamente a través de las entradas privadas de ser programadas explícitamente [1]. El término
aprendizaje evolucionó de los humanos y los animales. El aprendizaje animal y automático tiene
bastantes coincidencias. De hecho, muchos métodos en el aprendizaje automático se originan para
marcar los principios del aprendizaje animal y humano mediante modelos computacionales. Por
ejemplo, la habituación es una conducta académica básica en la que un animal, paso a paso, deja de
reaccionar ante un estímulo repetido. Se considera que los perros son un ejemplo perfecto para el
aprendizaje de los animales, donde es capaz de un aprendizaje sustancial si se le entrena para
realizar diversas actividades, como darse la vuelta, sentarse y recoger las cosas, etc.
© Los autores, bajo licencia exclusiva de Springer Nature Suiza AG 2022 S. Datta 1
y JP Davim (eds.), Machine Learning in Industry, Management and Industrial
Engineering, https://doi.org/10.1007/978-3 -030-75847-9_1
Machine Translated by Google
2 A. Vinoth y S. Datta
Con respecto al ejemplo anterior de aprendizaje efectivo, hay pocos ejemplos que puedan
demostrar el aprendizaje automático donde lo usamos en nuestra vida cotidiana de la era moderna.
Asistentes personales virtuales, predicciones de tráfico usando navegación GPS, vigilancia de
múltiples cámaras por IA para detectar el crimen o el comportamiento inusual de las personas, las
redes sociales usan ML para reconocimiento facial y personalización de noticias, refinamiento de
resultados de motores de búsqueda, filtrado de spam de correo electrónico donde un la máquina
memoriza todos los correos electrónicos no deseados etiquetados anteriormente por el usuario y
muchas más aplicaciones donde ML está ampliamente en uso. A través de todas estas aplicaciones,
se entiende que la incorporación de conocimientos previos primará el mecanismo de aprendizaje.
ML también está estrechamente interconectado con las estadísticas computacionales donde
familiariza la elaboración de predicciones [2]. Cualquiera podría preguntarse '¿por qué una máquina
debe aprender algo?' Hay pocos objetivos por los que ML es esencial. Obviamente, acabamos de
mencionar que el logro del aprendizaje en máquinas puede ayudarnos a ver cómo aprenden las criaturas y las perso
Sin embargo, hay pocos detalles de ingeniería esenciales que persisten y algunos de ellos son
• Ciertas tareas no pueden explicarse claramente sin ejemplos; es decir, podemos tener la opción
de identificar conjuntos de entrada/salida, pero no una breve correlación entre las entradas y
las salidas preferidas.
• Es probable que existan relaciones invisibles entre entradas y salidas entre enormes cargas de
datos. Los métodos de aprendizaje automático se pueden utilizar repetidamente para revelar
estas relaciones.
2 Inteligencia Artificial
La inteligencia artificial (IA) denota la replicación del intelecto humano en máquinas que están
codificadas para imitar las actividades humanas. El término también puede aplicarse a cualquier
máquina que exhiba cualidades humanas, por ejemplo, aprendizaje y pensamiento crítico [4]. Una
definición más elaborada describe la IA como "la capacidad de un sistema para descifrar de manera
efectiva la información externa, obtener ganancias de dicha información y utilizar los aprendizajes
para lograr objetivos y tareas explícitos a través de una transformación adaptable". A medida que
avanza la innovación, los estándares anteriores que marcaron AI se vuelven
Machine Translated by Google
anticuado. Por ejemplo, en este momento no se dice que las máquinas que establecen las capacidades necesarias
o identifican texto a través de la identificación de caracteres modelo representan IA, porque este propósito
actualmente se subestima como una función integrada de una computadora.
La inteligencia artificial está evolucionando sin cesar en beneficio de varias empresas.
Las máquinas se conectan utilizando un enfoque interdisciplinario que incluye aritmética, ingeniería de software,
semántica, ciencia del cerebro y mucho más con campos especializados como el estudio artificial de la mente.
Los objetivos de la IA incorporan el aprendizaje, el pensamiento, la comunicación y el reconocimiento.
La IA está excepcionalmente enfocada y está intensamente dividida en subcampos que son muy diferentes
entre sí [5]. Una parte de la clasificación se debe a elementos sociales y culturales: los subcampos se han
desarrollado sobre fundamentos específicos y contribuciones de varios investigadores. La IA también está aislada
por temas específicos limitados.
Algunos subcampos enfatizan la solución de problemas explícitos. Otros se centran en uno de los pocos
procedimientos potenciales o en la utilización de una herramienta específica o en la realización de aplicaciones
particulares. La IA ha sido objeto de buena fe, pero ha resistido tentadoras dificultades. Ahora, se ha convertido
en un aspecto básico del negocio de la innovación, dando el trabajo verdaderamente difícil a una cantidad
significativa de las principales disputas de prueba en el trabajo de software.
A principios del siglo XIX, la investigación de la IA evolucionó de diferentes maneras, como el pensamiento
formal de la computadora digital que podría imitar cualquier posible demostración de derivación numérica en
1943, escribir programas/algoritmos simples para resolver problemas de álgebra, teoremas y hablar inglés en
1956 [6] . El gobierno de EE. UU. comenzó a invertir en investigación de IA en 1960 en el desarrollo de varios
laboratorios en todo el mundo.
Debido a la gran cantidad de fracasos que se produjeron en la investigación hasta 1974, fue difícil obtener
financiación para proyectos de IA. Durante la década de 1980, con la ayuda de unos pocos profesionales, la
investigación en IA se rejuveneció gracias al logro rentable de los sistemas expertos. En la década de 1990 y
principios del siglo XXI, la IA logró sus grandes hazañas cuando se utiliza para logística, extracción de datos,
hallazgos clínicos y muchas otras regiones a lo largo de la industria de la innovación. La búsqueda de algoritmos
de pensamiento crítico más competentes para resolver problemas en pasos secuenciales es una gran necesidad
para la investigación de IA. AI ha hecho algunos progresos en la imitación de este tipo de procesos que resaltan
la necesidad de buenas habilidades de razonamiento, los esfuerzos de exploración de redes neuronales para
recrear las estructuras dentro del cerebro que permiten el ascenso a esta habilidad; Las formas medibles de lidiar
con la IA copian la naturaleza probabilística de la capacidad humana para predecir. La IA a menudo gira en torno
al uso de algoritmos donde hay muchas instrucciones claras que una computadora puede realizar. Un algoritmo
impredecible se basa regularmente en otros algoritmos más sencillos que básicamente cubren la deducción, el
razonamiento y la resolución de problemas.
Las investigaciones clave de la IA son la representación del conocimiento y la ingeniería del conocimiento [7].
Un gran número de los temas que se confían en las máquinas para iluminar necesitarán información extensa
sobre el mundo. El esfuerzo en el desarrollo de trabajos de investigación de IA se basa en el conocimiento de
sentido común que implica grandes extensiones de ingeniería ontológica extensa, ya que deben trabajarse, a
mano, cada idea enrevesada a su vez. Los rasgos comunes de un sistema de IA implican lo siguiente:
planificación, aprendizaje, comunicación, percepción, movimiento y manipulación. En cuanto a la planificación, un
agente inteligente puede imaginar el futuro para hacer predicciones de una mejor manera que
Machine Translated by Google
4 A. Vinoth y S. Datta
3 Análisis de datos
Uno de los enfoques matemáticos y estadísticos del análisis de datos es el análisis de datos
que se centra principalmente en lo que los datos pueden decirnos fuera del modelado adecuado
o la prueba de hipótesis. El análisis de datos practica la inteligencia empresarial y los modelos
analíticos. Business Intelligence (BI) es un arreglo previo de técnicas y herramientas para el
cambio de datos brutos en datos significativos y útiles para las unidades de investigación empresarial.
Los avances de BI se fortalecen para manejar datos sin forma para distinguir, generar y, en
cualquier caso, crear nuevas aperturas comerciales clave. El objetivo de BI es considerar la
comprensión inocente de grandes volúmenes de datos. Uno de los modelos analíticos de
análisis de datos es el análisis exploratorio de datos (EDA) para la investigación de datos y para
llegar a una hipótesis que podría generar una nueva colección de datos e investigaciones. EDA
es notable en relación con el análisis de datos inicial (IDA), que se centra en el escrutinio
Machine Translated by Google
6 A. Vinoth y S. Datta
multilineal • Escalamiento
multidimensional • Razón de
probabilidades • Análisis de
componentes principales
suposiciones esenciales para el ajuste del modelo y la prueba de la teoría, considerando las
cualidades que faltan y los factores cambiantes que varían. En 1961, Tukey caracterizó el
análisis de datos como procedimientos para evaluar datos, políticas para descifrar los resultados
de tales métodos, medios para posicionar los datos para simplificar el análisis exactamente y
todo el hardware y los resultados de los datos estadísticos (numéricos) utilizados para evaluar
los datos. [6]. Estos desarrollos estadísticos, todos apuntalados por Tukey, se concibieron para
agregar a la teoría científica de probar suposiciones medibles, principalmente la prominencia de
la convención de Laplacian en las familias exponenciales [10]. Los objetivos de EDA son
proponer hipótesis, evaluar las expectativas estadísticamente, elegir herramientas/técnicas
estadísticas adecuadas y allanar el camino para una mayor recopilación de datos a través de
estudios o experimentaciones. Algunas de las técnicas gráficas y cuantitativas en EDA se enumeran en la Tabla
El análisis de datos es un amplio campo de estudio. Las cuatro clases esenciales de análisis de
datos como análisis descriptivo, diagnóstico, predictivo y prescriptivo. Cada uno de ellos tiene
un objetivo alternativo y una mejor posición en el curso de la evaluación de datos. Estos son
también los análisis de datos clave en aplicaciones comerciales. La analítica descriptiva admite
estudios de respuesta sobre el paradero. Estos métodos suman enormes conjuntos de datos
para mostrar los resultados a los asociados. Mediante la creación de indicadores clave de
rendimiento (KPI), estas metodologías pueden respaldar los logros o las insatisfacciones de la
ruta. Las medidas, por ejemplo, el retorno de la inversión (ROI) se utilizan en numerosas
empresas. Las dimensiones exactas están diseñadas para rastrear el logro en empresas
inequívocas. Este ciclo necesita la recopilación de datos sustanciales, la organización de los
datos, la investigación de los datos y la concepción de los datos. Este ciclo proporciona
conocimientos básicos sobre logros pasados.
Machine Translated by Google
El análisis de diagnóstico admite la respuesta a consultas sobre por qué ocurrieron las cosas.
Estos métodos complementan análisis descriptivos más fundamentales. Contemplan los
descubrimientos del análisis descriptivo y profundizan más para descubrir la razón. Los
indicadores de rendimiento también se exploran para encontrar el motivo de la mejora. Esto
sucede principalmente en tres etapas:
8 A. Vinoth y S. Datta
Segmentación
de clientes y
Prevención de abandono
Aplicaciones de
la analítica
Sanidad y predictiva
Análisis de mercado
Finanzas y detección de
fraude
directo y
Modelamiento Evaluación de
financiero riesgos y suscripción
Tabla 2 Clasificaciones de
Técnicas de regresión • técnicas de aprendizaje automático
regresión y aprendizaje automático
Modelo de regresión lineal • • Funciones de base radial •
Modelo de elección discreta • Perceptrón multicapa
Regresión logística • Regresión (MLP) •
logística multinomial • Logit vs Otras redes neuronales • K-
probit • Modelos de series vecinos más cercanos • Naive
temporales • Regresión probit • bayes • Modelado predictivo
Clasificación y regresión geoespacial • Máquinas de
vectores de soporte
árboles
Una de las actividades de análisis de datos es la 'Minería de datos'. La minería de datos (la fase de investigación
del proceso 'Descubrimiento de conocimiento en bases de datos—KDD'), una subespecialidad multidisciplinaria
de la ingeniería de software, nada más que el método computacional para determinar patrones en conjuntos de
datos masivos comprende enfoques en la conexión de inteligencia artificial, aprendizaje automático, estadísticas
y sistemas de bases de datos [13]. Se puede confundir el análisis de datos con la minería de datos. La principal
diferencia entre estos dos es la siguiente:
• La minería de datos reconoce y encuentra un diseño oculto en grandes conjuntos de datos, mientras que el
análisis de datos brinda fragmentos de conocimiento o pruebas de hipótesis o modelos a partir de un
conjunto de datos.
• La minería de datos es uno de los eventos en el análisis de datos. El análisis de datos es un conjunto integral
de eventos que se ocupa de la selección, planificación y visualización de datos para extraer conocimientos
o información expresivos. Ambos se componen en ocasiones como una subdivisión de Business Intelligence.
• La formación en minería de datos suele ser sobre datos organizados. El análisis de datos debe ser posible
en datos organizados, semi-organizados o no organizados. • El objetivo de la minería de datos es crear datos
más prácticos mientras que el análisis de datos
La minería de datos incluye seis módulos colectivos de tareas como Detección de anomalías (encontrar
conjuntos de datos desconocidos), Aprendizaje de reglas de asociación (búsqueda de correlación entre
variables), Agrupación (acción de determinar conjuntos y ensamblajes en datos), Clasificación (acción de
simplificar estructuras conocidas a nuevas datos), Regresión (identificar una tarea que crea prototipos de los
datos con el mínimo error) y Resumen (brindar una descripción sólida adicional del conjunto de datos, que
comprende la concepción y la documentación). La amplia gama de aplicaciones de la minería de datos se
centra en los derechos humanos, los juegos, la ciencia y la ingeniería, la minería de datos médicos, la minería
de datos de sensores, la minería de datos visuales, la minería de datos espaciales, la vigilancia, la minería de
datos musicales, la minería de patrones, la cuadrícula de conocimientos, la minería de datos temporales,
minería de datos basada en temas y negocios.
4 grandes datos
Big data es un área que descompone, aísla deliberadamente los datos o, en cualquier caso, logra conjuntos de
datos que son marcadamente masivos o multifacéticos para ser logrados por el software de aplicación de
procesamiento de datos convencional. Grandes encuentros de datos: captura de datos, almacenamiento,
investigación de datos, búsqueda, intercambio, movimiento, representación,
Machine Translated by Google
10 A. Vinoth y S. Datta
consulta, actualización, protección de datos y fuente. La palabra big data se refiere repetidamente
solo a la práctica de análisis predictivo o enfoques innovadores más definidos para extraer el valor de
los datos, y rara vez a un tamaño exacto de conjunto de datos. La precisión en los grandes datos
posiblemente allane el camino para una toma de decisiones más segura y mejores conclusiones
pueden significar una mejor eficiencia operativa, reducciones de costos y amenazas reducidas. Los
investigadores, los líderes empresariales, los expertos clínicos, la publicidad y los gobiernos enfrentan
problemas de forma rutinaria con grandes conjuntos de datos en regiones que abarcan la apariencia
de Internet, la tecnología financiera, la informática metropolitana y la informática comercial. Los
académicos enfrentan restricciones en el trabajo de e-Ciencia, que incluye meteorología, genómica,
conectómica, modelos complejos de ciencia de materiales, ciencia y estudio ecológico. La innovadora
capacidad per cápita del mundo para almacenar datos ha crecido en gran medida como un reloj desde
la década de 1980 a partir de 2012; constantemente se crearon 2,5 exabytes (2,5 × 1018) de datos
[14] , como se ve en la figura 3. La prueba para grandes empresas es adivinar quién debería reclamar
las actividades de big data que abarcan toda la connotación.
Big data es un grupo de datos de varias fuentes, frecuentemente descrito por las 3V, a saber,
Volumen (cantidad de datos), Variedad (categoría de datos) y Velocidad (la tasa a la que ocurre la
generación de datos). Con el tiempo, se han agregado a las descripciones de big data otras V, a
saber, Veracidad (calidad de los datos capturados), Valor (valor comercial de los datos recopilados) y
Variabilidad (inconsistencia que dificulta el proceso).
La gestión de datos es un proceso bastante complejo cuando una gran cantidad de datos provienen
de varias fuentes. Ofrecer una valiosa comprensión de la gestión de datos y
Fig. 3 Evolución y digitalización de la capacidad global de almacenamiento de datos (Tomado de M. Hilbert y P. López,
2011) [14]
Machine Translated by Google
aumentar el contenido correcto, los datos deben manejarse con herramientas modernas (análisis y algoritmos) para
producir información expresiva.
La arquitectura de big data denota el arreglo racional y físico que controla cómo se consume, procesa, almacena,
logra y recupera una cantidad extraordinaria de datos. La arquitectura de big data es la base para el análisis de big
data.
Los mecanismos de arquitectura del análisis de big data contienen naturalmente cuatro capas racionales y ejecutan
cuatro procesos clave, como se muestra en la Fig. 4. 1. Capa de fuentes de big data (administración del procesamiento
por lotes y en tiempo real de big data, como almacenes de datos, aplicaciones SaaS e Internet de las cosas (IoT)), 2.
Capa de administración y almacenamiento (recepción, conversión y almacenamiento de datos al formato adecuado de
la herramienta de análisis de datos), 3. Capa de análisis (extracción de inteligencia comercial o BI de la capa de
almacenamiento) y 4. Capa de consumo (recopila salidas de la capa de análisis y las presenta a la capa de BI
apropiada) [15].
Big data ha originado numerosas aplicaciones en varias áreas. Las áreas clave en las que se utilizan grandes
datos son las siguientes. Sectores gubernamentales y privados, análisis de redes sociales, tecnología, detección de
fraude, análisis de centros de llamadas, banca, agricultura, marketing, teléfonos inteligentes, educación, manufactura,
telecomunicaciones y atención médica.
5 Aprendizaje supervisado
El aprendizaje supervisado implica concluir una función a partir de datos de entrenamiento etiquetados utilizando una
actividad de aprendizaje automático. Los datos de entrenamiento contienen un conjunto de ejemplos de entrenamiento.
En el aprendizaje supervisado, cada muestra es un dúo que involucra un elemento de entrada (generalmente un
vector) y un valor de salida preferido (también conocido como señal de supervisión). Un algoritmo de aprendizaje
supervisado examina los datos de entrenamiento y crea una función contingente que puede utilizarse para representar
nuevas muestras. Una situación ideal permite que el algoritmo defina adecuadamente las etiquetas de clase para
ocurrencias ocultas. Esto necesita que el algoritmo de aprendizaje simplifique desde los datos de entrenamiento hasta
las ocurrencias ocultas de una manera 'realista'. Para resolver una dificultad asignada de aprendizaje supervisado, se
deben seguir los siguientes pasos.
Machine Translated by Google
12 A. Vinoth y S. Datta
Cuatro preocupaciones clave que se deben considerar en el aprendizaje supervisado son (i) Compensación
de sesgo-varianza [10]: un algoritmo de aprendizaje con una pequeña predisposición debe ser 'flexible' para
adaptarse perfectamente a los datos. Pero si el algoritmo de aprendizaje es excesivamente flexible, se adaptará
a cada conjunto de datos de entrenamiento de una manera diferente y, por lo tanto, tendrá una varianza alta, (ii)
Complicación de la función y volumen de datos de entrenamiento: este problema se refiere a la cantidad de
datos de entrenamiento disponibles con la complicación de la función (clasificador o regresión), es decir, más
simple, la función necesita un aprendizaje a partir de una pequeña cantidad de datos donde la función compleja
requiere una gran cantidad de entrenamiento. datos, (iii) dimensionalidad del espacio de entrada: depende de
la dimensión de los vectores de características de entrada, ya que las dimensiones adicionales pueden
complicar el algoritmo de aprendizaje que tendrá más varianza y (iv) Ruido en los valores de salida: este
problema se refiere a la cantidad de ruido en los valores de salida preferidos. Si los valores de salida son
incorrectos debido a errores provocados por el hombre o del sensor, la coincidencia de las muestras de
entrenamiento no será eficiente y provocará un sobreajuste. Existen numerosos algoritmos en uso para
determinar el ruido en las muestras de entrenamiento que preceden al algoritmo de aprendizaje supervisado.
En general, todos los algoritmos de aprendizaje automático tienen un principio común en el que funcionan,
es decir, se definen como el aprendizaje de una función objetivo (f) que mapea la entrada (X) con los valores
de salida (Y) y hace que prediga Y para un nuevo valor de X y la relación se da como sigue en Eq. (1).
Y = f (X) + e (1)
También habrá un error (e) que es independiente de X y este error se considera un error irreducible sin
importar cuán buena obtengamos la función objetivo. Un algoritmo de aprendizaje supervisado también funciona
según este principio. Los algoritmos de aprendizaje más utilizados son la regresión lineal, el bayesiano ingenuo,
la regresión logística, las máquinas de vectores de soporte, el algoritmo del vecino más cercano, las redes
neuronales (MLP), los árboles de decisión, el análisis discriminante lineal y el aprendizaje de similitud.
Las diversas aplicaciones del aprendizaje supervisado se utilizan ampliamente en áreas importantes como
la bioinformática, la quimioinformática, el marketing de bases de datos, el reconocimiento de escritura a mano,
la extracción de información, el reconocimiento de patrones, el reconocimiento de voz, la detección de spam, la
causalidad descendente en el sistema biológico y el reconocimiento de objetos en la visión artificial. , etc.
Machine Translated by Google
6 Aprendizaje no supervisado
El aprendizaje por refuerzo (RL) es una parte del aprendizaje automático que se ocupa de cómo los
agentes de software deben realizar movimientos en un entorno para explotar la idea del rendimiento
acumulativo. Es uno de los tres modelos comunes de aprendizaje automático, junto con el aprendizaje
supervisado y el aprendizaje no supervisado. En comparación con el aprendizaje supervisado, RL no
requiere valores de entrada o salida etiquetados y tampoco necesita ajustar actividades subóptimas, sino
que ayuda a identificar la estabilidad entre la investigación del área inexplorada y la manipulación del
conocimiento existente. Debido a su simplificación, el aprendizaje por refuerzo se considera en varias
disciplinas como la teoría de juegos, la teoría de control, la investigación de operaciones, la teoría de la
información, la optimización basada en simulación, los sistemas multiagente, la inteligencia de enjambre
y las estadísticas. Por ejemplo, en la literatura de investigación y control de operaciones, RL se denomina
programación neurodinámica. Los fallos de atención en RL habían sido deliberados en la teoría del control
óptimo.
Machine Translated by Google
14 A. Vinoth y S. Datta
8 Árbol de decisión
Un árbol de decisión es una técnica de apoyo que ayuda a tomar decisiones utilizando una especie de
prototipo de árbol de opciones y su posible significado, que comprende resultados de eventos fortuitos,
costos de origen y servicio. Muestra un algoritmo de aprendizaje automático supervisado que solo
tiene declaraciones restringidas. Los árboles de decisión generalmente se utilizan en la investigación
de operaciones, especialmente en el análisis de decisiones, para ayudar a encontrar un enfoque más
probable para lograr un objetivo, pero también son una herramienta ampliamente utilizada en el
aprendizaje automático y la minería de datos [18]. Esta técnica tiene como objetivo hacer un modelo
que pronostique el valor de una variable objetivo/salida dependiendo de varios parámetros de entrada.
Das et al. informó la clasificación de placas de acero laminadas en caliente [19], obtenida del análisis
CART, para el control de calidad basado en la composición química. En la figura 5 se muestra un árbol
de decisión similar que muestra la clasificación de la resistencia del acero dulce basada en la composición.
Cualquier modelo de árbol tendrá un nodo raíz que ayude a dividir los datos en dos o más
conjuntos. El atributo clave de este nodo se elige utilizando la técnica de medida de selección de
atributos (ASM). La rama es la parte del árbol de decisión completo, que de otro modo se denominaría
subárbol. Las puntas de flecha se utilizan para distribuir un nodo en dos o más subnodos dependiendo
de las condiciones if-else y el proceso se denomina división. Decisión
gini = 1 ÿn
(p2 ) i
(2)
yo=1
donde pi denota la probabilidad de entropía 'E(s)'. Normalmente, una función con una ganancia
ID3 máxima se utiliza como raíz para la división. Algunos de los algoritmos de árbol de decisión
notables bajo una clasificación amplia son árboles de inferencia condicional, ID3 (dicotomizador
iterativo 3), MARS, C4.5 (sucesor de ID3), CHAID (detector automático de interacción CHi-
cuadrado), CART (clasificación y regresión). árbol), etc
Machine Translated by Google
9 mínimos cuadrados
El método de mínimos cuadrados es una técnica estadística para identificar el mejor ajuste para un
conjunto de puntos de datos al reducir la totalidad de los cuadrados de los residuos de puntos de la
curva. Es un método típico en el análisis de regresión que predice el desempeño de las variables
dependientes en relación con las variables independientes. La aplicación más significativa está en
el ajuste de datos. El mejor ajuste en los mínimos cuadrados limita la totalidad de los residuos
cuadrados siendo la diferencia entre un valor observado y el valor ajustado proporcionado por un
modelo. Cuando el problema tiene muchas incertidumbres en la variable independiente (variable
X), entonces la regresión simple y las técnicas de mínimos cuadrados tienen problemas; en tales
casos, el enfoque necesario para ajustar los modelos de errores en factores se considera mejor
que el de los mínimos cuadrados.
En el análisis de regresión, las variables dependientes se representan en el eje y, mientras
que las variables independientes se representan en el eje x. Estas descripciones darán la ecuación
para la línea de mejor ajuste como se muestra en la Fig. 6, que se determina a partir del método de
mínimos cuadrados. En contradicción con un problema lineal que tiene una solución definida, un
problema de mínimos cuadrados no lineal no tiene una solución definida y generalmente se resuelve
por iteración al aproximarlo como uno lineal. Los mínimos cuadrados polinómicos definen la
diferencia en un valor predicho de la variable dependiente como una función de variable
independiente y las desviaciones del gráfico ajustado. Los métodos de mínimos cuadrados desarrollados en las área
astronomía y geodesia a lo largo del siglo XVIII, donde expertos y estadísticos querían dar
respuestas a los experimentos de circunnavegación de los océanos de la Tierra en la Era de la
Investigación. En 1795, el matemático alemán Carl Friedrich Gauss reveló el proceso del método
de los mínimos cuadrados, pero solo en 1805, fue impreso por primera vez por un matemático
francés Adrien-Marie Legendre, quien lo describió como un método numérico para ajustar
ecuaciones lineales a datos para demostrar un nuevo procedimiento para evaluar datos similares
a los de Laplace para la forma del mundo. Sin embargo, después de 1809, Gauss introdujo un
nuevo desarrollo en el método de los mínimos cuadrados con los principios de probabilidad,
densidad de probabilidad, distribución normal y método de estimación. En 1810, con la base del
trabajo de Gauss, Laplace ideó el teorema del límite central y en 1822, Gauss formuló el teorema
de Gauss-Markov [6]. Asimismo, muchos investigadores han ideado varias formas de implementar
los mínimos cuadrados. Se definirá un problema basado en una función objetivo que tiene variables
de ajuste 'm' de una función modelo definida por el vector 'ÿ' para ajustarse mejor a un conjunto de
datos 'n' que contiene la variable independiente 'xi' y la variable dependiente 'yi' . El ajuste del
modelo viene dado por los residuos 'ri' de la siguiente manera, que es la diferencia entre los
valores reales de 'y' y el valor predicho de 'y' como se indica en la ecuación. (4).
ri = yi ÿ f (xi, ÿ) (4)
Los métodos de mínimos cuadrados determinan la variable óptima reduciendo la suma 'S' de
los residuos cuadrados y se muestra a continuación en la ecuación. (5)
ÿn 2
S=1 (r i ) (5)
yo=1
18 A. Vinoth y S. Datta
10 regresión lineal
La regresión lineal es un método para mostrar la correlación entre una variable dependiente (y) y
una o varias variables independientes (x) [21]. Un modelo que tiene una sola variable independiente
se conoce como regresión lineal simple y en el caso de más de una variable independiente se
conoce como regresión lineal múltiple. Es simplemente diferente de la regresión lineal multivariante
que espera varias variables dependientes asociadas en lugar de una sola variable dependiente. La
regresión lineal enfatiza la distribución de probabilidad restringida de las variables independientes
dada por la función del modelo en lugar de la distribución de probabilidad combinada de todas esas
variables nada más que el área de análisis multivariante. Tiene varias aplicaciones cotidianas que
involucran tanto estadísticas como aprendizaje automático debido a sus modelos basados en
variables linealmente desconocidas que pueden ajustarse fácilmente en lugar de los modelos con
variables no lineales y también es fácil encontrar las propiedades numéricas de los estimadores
posteriores. . Existen varias técnicas que entrenan los modelos lineales y la más familiar se conoce
como mínimos cuadrados, pero existen otros enfoques para ajustar el modelo, por ejemplo, mínimos
cuadrados ordinarios o descenso de gradiente o regularización L1 y regularización L2 [ 6]. Por lo
tanto, los mínimos cuadrados y el modelo lineal están diligentemente relacionados pero no tienen
un significado idéntico.
Un modelo de regresión lineal está representado por una ecuación lineal que conecta un conjunto
particular de variables de entrada (x) que da los resultados de la salida prevista (y) para el conjunto
de x. Se asigna un coeficiente 'ÿ' a cada una de sus entradas en una ecuación lineal como factor de
escala. Además, un coeficiente suplementario agregado llamado coeficiente de sesgo o intersección
que proporciona la línea como en la Fig. 6, que es un ejemplo de una línea de regresión simple,
tiene un grado para moverse libremente en una gráfica 2D. Una ecuación de regresión típica con
una entrada y una salida se da en la ecuación. (6)
y = ÿ0 + ÿ1x (6)
Se han establecido muchas adiciones de regresión lineal que involucran regresión lineal
simple y múltiple, modelos lineales generales, modelos lineales generalizados (GLM), modelos
heteroscedásticos, modelos lineales jerárquicos, modelos de error de medición, etc. Es
fundamental estimar el parámetro y la implicación en la regresión lineal. Algunos de los enfoques
generales de estimación son la estimación de mínimos cuadrados (p. ej., mínimos cuadrados
ordinarios, mínimos cuadrados generalizados, porcentaje de mínimos cuadrados, mínimos
cuadrados totales, etc.), la estimación de máxima verosimilitud (p. ej., regresión de cresta,
regresión de lazo, estimación adaptativa, mínimo desviación absoluta) y otros enfoques de
estimación diversos (p. ej., regresión lineal bayesiana, regresión de componentes principales,
regresión cuantil y regresión de ángulo mínimo). La regresión lineal tiene sus principales
aplicaciones en el campo de las finanzas, la economía, las ciencias ambientales y la epidemiología
para definir las correlaciones adecuadas entre los parámetros.
11 redes neuronales
Una cadena de algoritmos que replican las acciones de un cerebro humano para describir la
correlación entre numerosos conjuntos de datos se denomina Red neuronal (NN). La arquitectura
de la red neuronal es la misma que la del cerebro humano, que tiene 'neuronas' que pueden ser
neuronas biológicas o artificiales que actúan como una función numérica que recopila y clasifica
datos en relación con una arquitectura particular [22]. Desde 1943 hasta finales de 2000, las
redes neuronales han mostrado un tremendo desarrollo en inteligencia artificial.
La evolución de NN se deriva directamente de un modelo computacional llamado lógica de
umbral sobre la base de algoritmos y matemáticas que se enfoca en los procesos genéticos del
cerebro y la aplicación de NN a la IA. Posteriormente se creó un aprendizaje hebbiano basado
en hipótesis y aplicándolo con máquinas tipo B que siguen el aprendizaje no supervisado [11].
Después de lo cual se creó el uso de calculadoras como máquinas computacionales que imitan
la red hebbiana. Se creó un algoritmo de red de aprendizaje informático de dos capas para el
reconocimiento de patrones, seguido del desarrollo de un algoritmo de retropropagación en el
aprendizaje automático que resolvió el problema de NN al resolver el procesamiento del circuito
con notación matemática y el poder de procesamiento de las computadoras anteriores. Otras
evoluciones, como las máquinas de vectores de soporte y algunos métodos más sencillos, como
los clasificadores lineales, superaron a NN en admiración por el aprendizaje automático. Más
tarde, el aprendizaje profundo ha transformado una nueva atención en las redes neuronales.
Desde 2006 y hasta la fecha, los desarrollos de NN son increíbles en la nueva era de la
computación digital, como NN feedforward, memoria a corto plazo (LSTM) en reconocimiento de
patrones, reconocimiento de señales de tráfico, identificación de moléculas para nuevos medicamentos, etc.
Para resolver problemas de inteligencia artificial (IA) se utiliza una red neuronal con neuronas
artificiales denominada red neuronal artificial (ANN) [23]. Cada red tiene una sólida similitud con
los métodos estadísticos como el ajuste de curvas y el análisis de regresión.
Las capas (de entrada, ocultas y de salida) de nodos interrelacionados constituyen una red
neuronal artificial básica, como se muestra en la Fig. 7. Al igual que la regresión lineal múltiple,
cada nodo de una red llamada perceptrón se convierte en una función de transferencia/activación
no lineal al pasar la señal dado por una regresión lineal múltiple, es decir, una neurona de ANN
Machine Translated by Google
20 A. Vinoth y S. Datta
toma una señal, probablemente un número real, luego la procesa y le da la señal a las
neuronas conectadas a ella.
En el curso del proceso de aprendizaje, las neuronas y los conectores generalmente tienen
un peso en cada entrada, es decir, el producto de entradas y pesos en una función de
transferencia que aumenta o disminuye la fuerza de la señal con un nivel de umbral y la señal
pasa solo si la señal acumulada cruza el umbral. Hay diferentes funciones de transferencia en
uso y pocas de ellas son función de transferencia de límite estricto, función de transferencia
lineal pura, funciones de transferencia log-sigmoidea y tan-sigmoidea, etc. Numéricamente,
f(x) es una función de una neurona que es una estructura de otra función g(x) y que además
puede ser una estructura de otras funciones que se denota completamente como una
estructura de una red que muestra las relaciones entre las variables. Una estructura
típicamente utilizada de una función es la función no lineal de suma ponderada que viene
dada por la relación como en la ecuación. (7),
norte
donde U es la función de activación tal como tan-hiperbólica. El aprendizaje de ANN está bajo
tres paradigmas clave, a saber, aprendizaje supervisado, aprendizaje no supervisado y
aprendizaje reforzado, que se explicó en detalle en las sesiones anteriores. El entrenamiento
de las redes neuronales se realiza utilizando los métodos ampliamente utilizados como simulación
Machine Translated by Google
12 Análisis de conglomerados
22 A. Vinoth y S. Datta
Agrupación basada
en centríodos
(algoritmo K-medias) Agrupación basada en densidad
(ÓPTICA y DBSCAN)
Tipos de
Agrupación
Algoritmos
del conjunto de datos se realiza fijando el número de distribuciones gaussianas que se ajustan de forma
aleatoria y las variables se optimizan en iteración para tener un mejor ajuste de datos que cumplirá con
un óptimo local. El agrupamiento basado en la densidad tiene grupos establecidos como partes de
mayor densidad que el resto del conjunto de datos. Los objetos que se encuentran en áreas escasas
que se necesitan para aislar los grupos se toman como puntos de ruido y margen. El método más
familiar de agrupamiento basado en la densidad es DBSCAN, que es lo mismo que el agrupamiento
basado en enlaces, donde depende de la distancia de los puntos de conexión dentro del umbral; a la
inversa, relaciona los puntos que cumplen con los criterios de densidad establecidos como una cantidad
menor de puntos adicionales. objetos dentro de ese radio.
Otro método generalizado de DBSCAN es OPTICS, que ignora la elección de seleccionar un valor
adecuado para la variable de rango y desarrolla una salida jerárquica basada en la agrupación de
enlaces. El algoritmo de agrupamiento basado en cuadrículas se utiliza para conjuntos de datos
multifacéticos que desarrollan una estructura similar a una cuadrícula y comparan la misma por medio
de cuadrículas o celdas. Es un método bastante más rápido y con menor complejidad en computación.
Implica esta secuencia de operaciones: inicialmente divide el conjunto de datos en un número
determinado de celdas, elige una celda al azar y encuentra la densidad de esa celda. Si la densidad de
la celda es superior al umbral, marque dicha celda como un nuevo grupo, calcule la densidad de las
celdas vecinas y, si las celdas vecinas superan el umbral, mantenga la celda en el grupo y este paso
se repite hasta que no queden celdas vecinas con mayor densidad que el umbral. Este proceso se
realiza repetidamente hasta que todas las células pasan.
13 Aprendizaje profundo
El aprendizaje profundo es una de las técnicas generales relacionadas con la inteligencia artificial (IA)
del aprendizaje automático supervisado o no supervisado de datos que no está estructurado y que imita
el manejo de datos por parte del cerebro humano. Muchos de los modelos de aprendizaje profundo se
construyen utilizando redes neuronales artificiales (ANN). También se conoce como red neuronal
profunda. El aprendizaje profundo es un curso de algoritmos de aprendizaje automático que utiliza
múltiples capas en una red para predecir la correlación de las entradas reales con los parámetros de
destino/salida que permiten resolver problemas de optimización en varias aplicaciones prácticas. Las
arquitecturas de aprendizaje profundo se construirán capa por capa, lo que ayuda a separar nociones
y elegir las características que mejoran el rendimiento.
Algunas de las arquitecturas son redes de creencias profundas (DBN), redes neuronales recurrentes
(RNN), redes neuronales convolucionales (CNN) y redes neuronales profundas (DNN). El término
'profundo' se refiere a la cantidad de capas que transforman datos de datos sin procesar (entrada) a
datos de destino (salida) utilizando la profundidad de la ruta de asignación de crédito (CAP) que define
la relación entre los datos sin procesar y de destino [25]. Por ejemplo, la profundidad del CAP en la red
neuronal feedforward es solo una además del número de capas ocultas
Machine Translated by Google
24 A. Vinoth y S. Datta
mientras que en CNN es simplemente ilimitado, ya que una señal puede pasar por una capa más de una
vez [6].
La mayoría de los algoritmos de aprendizaje profundo están estructurados como problemas de
aprendizaje no supervisado donde dichos algoritmos utilizan los datos no etiquetados en lugar del
aprendizaje de supervisión. El mejor ejemplo de una estructura profunda entrenada sin supervisión es la
red de creencias profundas. La Figura 10 representa la revolución del aprendizaje profundo que muestra
por qué el aprendizaje profundo es una subdivisión del aprendizaje automático y, a su vez, es una subdivisión de la IA.
Desde 2012 hasta la fecha, el aprendizaje profundo en ANN ha evolucionado ampliamente a partir de
varios trabajos de diferentes investigadores como objetivo de predicción de fármacos biomoleculares,
detección de efectos mortales de productos químicos ambientales y artículos domésticos, reconocimiento
de imágenes y objetos, visión artificial, reconocimiento de voz y clasificación de imágenes utilizando CNN
y métodos de memoria a largo plazo (LSTM) [26, 27].
Una ANN con varias capas entre las capas de entrada y salida se denomina red neuronal profunda
(DNN). Las relaciones no lineales complejas se pueden modelar utilizando DNN.
La Figura 11 muestra la diferencia entre el número de capas en una ANN y DNN típicas de feedforward.
El funcionamiento de DNN es muy similar a ANN, que se describió en detalle en las sesiones anteriores,
excepto que DNN es un número 'n' de capas ocultas entre las capas de entrada y salida. Por ejemplo, en
el juego de ajedrez por computadora, una computadora puede aprender diferentes movimientos o tácticas
de varias personas y lo mismo puede almacenarse en su base de datos y esas tácticas están determinadas
por varios algoritmos y es por eso que puede denominarse como red neuronal profunda donde el
aprendizaje es más profundo donde ANN no es un método imaginativo donde puede obtener un único
resultado, mientras que DNN podrá resolver los problemas universalmente y puede predecir o concluir
en función de la entrada y la salida deseada. Al igual que ANN, DNN también tiene dos problemas
importantes de tiempo computacional y sobreajuste si no se entrena a fondo.
Aprendizaje
automático
Profundo
Aprendiendo
Machine Translated by Google
El cálculo de varias capas de un DNN con 'n' capas ocultas viene dado por un
relación como en la Ec. (8)
a(n) (x) es la función de preactivación que se muestra en la ecuación. (9) que es un proceso lineal con
la matriz ponderada W(n) y b(n) como sesgo que se fusionará con una variable ÿ
La notación de barra x¯d indica que 'n' unido al vector x y h(l) (x) es el
función de activación/transferencia de capa oculta y viene dada por las Ecs. (10) y (11).
¯
a(n) (x¯) = ÿ(n) xif n =1 (10)
Una red neuronal donde los datos se dirigirán de cualquier manera se clasifica como redes
neuronales de alquiler recurrente (RNN), una división de ANN en la que los enlaces nodales
crean un gráfico enfocado junto a un arreglo temporal que muestra un rendimiento activo
temporal y se utiliza RNN. en una aplicación como modelado de lenguaje. En concreto, un
algoritmo activo que se utiliza para este fin es la memoria a largo plazo. Una red neuronal que
se está utilizando en aplicaciones de visión por computadora para evaluar imágenes pictóricas
son las redes neuronales profundas convolucionales (CNN), que básicamente dependen de la
arquitectura compartida y las características de la traducción constante y también se utilizan
para el reconocimiento automático del habla mediante el modelado de una buena acústica. . Las
CNN son generalmente tipos de perceptrones multicapa que, por lo general, son redes
completamente conectadas en las que cada neurona en una sola capa está unida a todas las neuronas en la cap
Machine Translated by Google
26 A. Vinoth y S. Datta
Esto conduce a una posibilidad de sobreajuste de los datos que se pueden clasificar mediante la
inclusión de algún tipo de método de medición de peso en la pérdida funcional. No es tan extremo
debido a su conectividad de patrones complejos con patrones pequeños y más fáciles para varios
enfoques de regularización.
Hay varias aplicaciones en las que se utilizan conceptos de aprendizaje profundo.
Son descubrimiento de fármacos y toxicología, bioinformática [28], gestión de relaciones con
clientes, reconocimiento de electromiografía (EMG) e imágenes, procesamiento de lenguaje
natural y artes visuales, publicidad móvil, aplicaciones militares y detección de fraudes financieros,
etc. [6 ].
14 Resumen
ML es un método de aprendizaje de los datos basado en los principios de las estadísticas y la IA.
La IA replica el intelecto humano en las computadoras, como el aprendizaje y el pensamiento
crítico. Básicamente, la IA se ocupa de la representación del conocimiento y la ingeniería del
conocimiento. La IA involucra diferentes tipos de enfoques, como algoritmos de búsqueda,
optimización matemática, algoritmos evolutivos, programación lógica y razonamiento automatizado,
métodos probabilísticos para razonamiento incierto, clasificadores y métodos de aprendizaje estadístico.
El análisis de datos que practica la inteligencia empresarial y los modelos analíticos es una de
las principales áreas de aplicación de ML. El análisis de datos tiene cuatro clases, a saber.
analítica descriptiva, diagnóstica, predictiva y prescriptiva. La analítica descriptiva admite estudios
de respuesta sobre el paradero. El análisis de diagnóstico admite la respuesta a consultas sobre
por qué ocurrieron las cosas. El análisis predictivo admite la respuesta a consultas sobre eventos
posteriores. El análisis prescriptivo admite la respuesta a consultas sobre lo que se debe completar.
Referencias
1. Davy Cielen, MA y Meysman, A. (2016). Introducción a la ciencia de datos: Big data, máquina
aprendizaje, y más, utilizando las herramientas de Python. Estados Unidos: Publicaciones de Manning.
2. Langley, P. (2011). La ciencia cambiante del aprendizaje automático. Aprendizaje automático, 82(3), 275–
279.
3. Samek, W., Wiegand, T. y Müller, KR (2017). Inteligencia artificial explicable: comprensión, visualización
e interpretación de modelos de aprendizaje profundo, 1, 39–48.
Machine Translated by Google
4. Shabbir, J. y Anwer, T. (2018). La inteligencia artificial y su papel en el futuro cercano, 14(8), 1–11.
5. Ginsberg, M. (2012). Fundamentos de la inteligencia artificial. San Francisco, California, Estados Unidos:
Morgan Kaufmann Publishers Inc.
6. Dönmez, P. (2013). Introducción al aprendizaje automático. Ingeniería del Lenguaje Natural, 19(2),
285–288.
7. Luger, W. (2004). Jorge; rastrojo, inteligencia artificial: Estructuras y estrategias para
Resolución de problemas complejos, 5ª ed. Benjamín/Cummings.
8. Makridakis, S. (2017). La próxima revolución de la Inteligencia Artificial (IA): Su impacto en
sociedad y empresas. Futuros, 90, 46–60.
9. Johnston, J. (2010). El encanto de la vida maquínica: cibernética, vida artificial y la nueva IA.
Cambridge, Massachusetts Londres, Inglaterra: The MIT Press.
10. Preboste, RKF (1998). Glosario de términos. Aprendizaje automático, 30. Springer EE. UU.
11. Le Roux, A., Bengio, N. y Fitzgibbon, N. (2012). Mejora de los métodos de primer y segundo orden modelando la
incertidumbre. En Optimización para Aprendizaje Automático, S. In Sra, Suvrit; Nowozin y SJ Wright, Eds. MIT Press,
2012, pág. 404.
12. Siegel, E. (2013). Análisis predictivo: el poder de predecir quién hará clic, comprará, mentirá o morirá, primero
edición Wiley.
13. Hand, DJ y Adams, Nuevo México (2015). Minería de datos en Wiley StatsRef: referencia de estadísticas en línea
(págs. 1 a 7). Chichester, Reino Unido: John Wiley & Sons Ltd.
14. Hilbert, M. y López, P. (2011). La capacidad tecnológica del mundo para almacenar, comunicar,
y computar información. Ciencia (80), 332 ( 6025), 60–65, 2011.
15. Hashem, IAT, Yaqoob, I., Anuar, NB, Mokhtar, S., Gani, A. y Ullah Khan, S. (2015). El surgimiento de 'big data' en la
computación en la nube: revisión y temas abiertos de investigación. Sistemas de información, 47, 98–115.
16. Barlow, HB (1989). Aprendizaje sin supervisión. Computación neuronal, 1(3), 295–311. 17. van Otterlo,
M. y Wiering, M. (2012). Aprendizaje por refuerzo y procesos de decisión markov.
En Aprendizaje por Refuerzo. Adaptación, aprendizaje y optimización, van OM Wiering M., Ed. Springer, Berlín,
Heidelberg, págs. 3–42.
18. Nilsson, Nueva Jersey (2005). Introducción al aprendizaje automático: un borrador inicial de un libro de texto propuesto.
Aprendizaje automático, 56(2), 387–399.
19. Das, P., Bhattacharyay, BK y Datta, S. (2006). Un estudio comparativo para el modelado de la clasificación de chapas
de acero laminadas en caliente utilizando un enfoque estadístico y sistemas de redes neuronales. Materiales y
procesos de fabricación, 21(8), 747–755.
20. Mannila, H. (1996). Minería de datos: aprendizaje automático, estadísticas y bases de datos. En Actas de la 8ª
Conferencia Internacional sobre Gestión de Bases de Datos Científicas y Estadísticas, págs. 2–9.
21. Montgomery, GGVDC y Peck, EA (2012). Introducción al análisis de regresión lineal,
5ª ed. Wiley.
22. Perry, SO (2002). Manual de procesamiento de señales de redes neuronales. Revista de la Sociedad Acústica de
América, 111(6), 2525–2526.
23. Prajapati, DK y Tiwari, M. (2017). Uso de redes neuronales artificiales (ANN) para determinar los parámetros de la
superficie de extracción, la fricción y el desgaste durante la prueba tribot de pasador sobre disco. Materiales clave de
ingeniería, 739, 87–95.
24. Estivill-Castro, V. (2002). ¿Por qué tantos algoritmos de agrupamiento? ACM SIGKDD Exploraciones
Boletín, 4(1), 65–75.
25. LeCun, Y., Bengio, Y. y Hinton, G. (2015). Aprendizaje profundo. Naturaleza, 521 (7553), 436–444.
26. Li, X. y Wu, X. (2015). Construcción de redes neuronales recurrentes profundas basadas en la memoria a corto plazo
para el reconocimiento de voz de gran vocabulario. En 2015 IEEE International Conference on Acoustics, Speech and
Signal Processing (ICASSP), págs. 4520–4524.
27. Sze, V., Member, S., Chen, Y., Member, S. y Yang, T., Procesamiento eficiente de redes neuronales profundas: tutorial
y encuesta, págs. 1–32.
28. Choi, E., Schuetz, A., Stewart, WF y Sun, J. (2017). Uso de modelos de redes neuronales recurrentes para la detección
temprana de la aparición de insuficiencia cardíaca. Revista de la Asociación Estadounidense de Informática Médica,
24(2), 361–370.
Machine Translated by Google
T.Vuolio (B)
Unidad de Investigación de Metalurgia de Procesos, Universidad de Oulu, PO Box 4300, 90014 Oulu, FI, Finlandia
Correo electrónico: tero.vuolio@oulu.fi
O. Pesonen
Ingeniería Química y Ambiental, Universidad de Oulu, PO Box 4300, 90014 Oulu, FI, Finlandia
A. Sorsa
Department of Process and Environmental Engineering, University of Oulu, PO Box 4300,
90014 Oulu, FI, Finlandia
S. Santa-aho
Ciencia de los Materiales e Ingeniería Ambiental, Universidad de Tampere, PO Box 589, 33014
Tampere, Finlandia
© Los autores, bajo licencia exclusiva de Springer Nature Suiza AG 2022 S. Datta y 29
JP Davim (eds.), Machine Learning in Industry, Management and Industrial Engineering,
https://doi.org/10.1007/978-3 -030-75847-9_2
Machine Translated by Google
30 T.Vuolio et al.
1. Introducción
La tensión residual es un factor importante a evaluar en una placa de acero fabricada, ya que la
tensión de tracción puede causar una falla inesperada bajo una tensión externa, mientras que la
tensión de compresión mejora la resistencia a la fatiga. La medición del ruido de Barkhausen es un
método interesante para la evaluación de la tensión residual porque la medición no es destructiva y
es rápida y, por lo tanto, se adapta a las aplicaciones en línea [17]. Esto, sin embargo, requiere
modelos que vinculen las características de la señal del ruido de Barkhausen con la propiedad del
material de interés. Sin embargo, la identificación de tal dependencia no es sencilla porque se ha
observado que el ruido de Barkhausen depende de varias propiedades del material y tensión residual
[4]. Los efectos de estos factores se acumulan en la señal medida, oscureciendo el efecto de un
solo factor de interés. Además, las dependencias son complejas y no lineales. El ruido de Barkhausen
también es un fenómeno estocástico y, por ello, solo son reproducibles las propiedades promediadas
de las señales medidas. Dependiendo del número de repeticiones de medición, la incertidumbre
puede ser significativa al aplicar la medición de ruido de Barkhausen [26].
Los modelos predictivos entre el ruido de Barkhausen y la tensión residual se pueden encontrar
en la literatura. Algunos ejemplos son los siguientes: Se identificó un modelo de regresión lineal
múltiple en Sorsa et al. [23] para tensión residual y dureza. Las características de los modelos se
seleccionaron con un algoritmo de selección directa. Un estudio similar se llevó a cabo en Sorsa et
al. [24]. Las características fueron seleccionadas con un algoritmo genético precedido por un
algoritmo de proyección sucesiva, disminuyendo la dimensionalidad de los datos. Se aplicó un
modelo PLSR en Sorsa et al. [25] para predecir la tensión residual a partir de las mediciones de BN.
La identificación del modelo PLSR fue precedida por la eliminación de características.
La eliminación de características conduce a mejores resultados, especialmente con datos de prueba.
Ganei et al. [7] encontraron que un polinomio de segundo orden describía la relación entre BN y las
propiedades del material. En Sorsa et al. [29], se ajustó un modelo de regresión no lineal a los datos
de las muestras nitruradas para predecir la tensión residual. La selección de características se llevó
a cabo con un algoritmo de eliminación hacia atrás. Wang et al. [28] aplicaron redes neuronales
artificiales para predecir el estrés residual. Seleccionaron las características de entrada manualmente.
Ganei et al. [8] utilizó un sistema neurodifuso adaptativo con características seleccionadas
manualmente para predecir las propiedades del material en función de las mediciones de BN.
Además, se deriva un modelo teórico entre BN y estrés residual [15]. El modelo describe la
frecuencia de BN y muestra cómo se ve afectada por la tensión residual. El modelo teórico necesita
una medida de la permeabilidad magnética.
Los conjuntos de datos obtenidos de la señal de ruido de Barkhausen son multivariantes, no
lineales, colineales y normalmente contienen un número limitado de observaciones. La no linealidad
surge de la complejidad del fenómeno y, por lo tanto, muchas características candidatas suelen
extraerse de la señal, lo que hace que los datos sean multivariantes. Estas características
establecen altos requisitos, especialmente para las etapas de identificación y validación del modelo.
También es bien sabido que el propio entorno de producción, las propiedades cambiantes del
material y la incertidumbre de la medición introducen variaciones en los datos, lo que complica un
poco la situación y debe tenerse en cuenta.
Machine Translated by Google
En este estudio, el esquema de modelado se divide en cinco pasos consecutivos, que son (1) extracción
de características, (2) selección de características, (3) selección de la estructura del modelo, (4)
entrenamiento del modelo final y (5) evaluación del rendimiento del modelo (Hastie et al. [12]. El
diagrama de flujo de selección del modelo se presenta en la Fig. 1. Las siguientes secciones y
subsecciones proporcionan los detalles de estos pasos. El resultado del modelo de predicción se puede
presentar de forma general como [12]:
donde E(y | X) es el valor esperado para la variable de salida dado el conjunto de entrada X, f (X, ÿ) es
la forma funcional del modelo, ÿ es el vector de parámetros del modelo. La identificación del modelo de
predicción simplemente significa la selección de un modelo que predice los resultados del sistema con
la precisión adecuada. En el caso de problemas de regresión, el resultado a predecir se define en el
espacio continuo. Dado que los modelos de predicción se identifican de tal manera que se minimiza el
error de predicción, se puede considerar que el procedimiento de identificación en sí entra en la
categoría de aprendizaje supervisado. En el aprendizaje supervisado, el mejor modelo se elige en
función de la función objetivo derivada.
En problemas de regresión, los criterios habituales se basan en un error de predicción al cuadrado.
La función objetivo para la identificación del modelo puede considerarse multiobjetivo, ya que sigue
los principios de la Navaja de Occam, es decir, el mejor modelo es el que predice el comportamiento del
sistema con la menor complejidad. Este principio está fuertemente conectado con el conocido concepto
de compensación de sesgo-varianza.
Esta compensación se puede simplificar con la siguiente base de reglas intuitiva:
32 T.Vuolio et al.
(1) Los modelos que tienen un gran error de predicción y baja complejidad, tienen alta
sesgo, pero baja varianza.
(2) Los modelos que tienen un error de predicción pequeño, pero una complejidad alta, tienen un
sesgo pequeño, pero una varianza baja.
El ruido de Barkhausen en sí mismo es bastante inútil y, por lo tanto, para la predicción, generalmente
se calcula un conjunto de características que representan las características de la señal. Luego se
identifican los modelos de predicción entre estas características y la propiedad material de interés. Las
características tradicionales son el valor RMS (raíz cuadrática media) y la altura, anchura y posición
del llamado perfil de ruido de Barkhausen. Sin embargo, se pueden usar varias otras funciones, como
diferentes valores estadísticos, parámetros de ciclo de histéresis, factores, entropías, normas
generalizadas, etc. Además, las características generalmente se calculan a partir de la señal en el
dominio del tiempo, mientras que la extracción de características también se puede extender al dominio
de la frecuencia. Obviamente, en la etapa de extracción de características, el número de características
candidatas se dispara fácilmente y pueden surgir problemas de colinealidad. Debido a esto, la selección
de características debe llevarse a cabo [9, 10].
La selección de características a menudo se considera como el paso más exigente desde el punto de
vista computacional en la identificación del modelo [9]. La selección de características se lleva a cabo
principalmente para reducir la complejidad del modelo y, por lo tanto, mejora la generalización. Sin
embargo, se logra una mejor interpretabilidad de los modelos con la selección de características, los
métodos de selección de características se pueden categorizar de varias maneras, la división principal
generalmente se realiza entre la selección de características manual y automática. El primero de ellos
considera el uso del conocimiento experto en la selección, mientras que el segundo introduce el uso
de enfoques algorítmicos. En lo que respecta a los algoritmos de selección de características, estos se
pueden dividir en contenedores y filtros y en enfoques deterministas y estocásticos. Los enfoques de
filtro se basan en la clasificación de características sin modelo, y los contenedores estiman la utilidad
de las características en función de la función objetivo [9].
La principal diferencia entre los enfoques determinista y estocástico es que el
Machine Translated by Google
los algoritmos deterministas terminan en la misma solución con las mismas condiciones iniciales,
mientras que los enfoques estocásticos no lo hacen.
En referencia a la compensación de sesgo-varianza, el paso de selección de características es
crucial. Para encontrar esta compensación, este estudio utiliza la suma del error cuadrático estimado con
el método de submuestreo aleatorio repetido en el ciclo de validación interno como función objetivo. En
el método de submuestreo aleatorio repetido, los datos se dividen repetidamente en conjuntos de
entrenamiento y validación interna sin reemplazo, y el error de modelado se evalúa en función de la
función de error especificada para cada una de las repeticiones divididas. La estimación del error del
modelo se toma como el promedio de estas repeticiones de validación cruzada. En otras palabras, la
función objetivo es la siguiente:
norte
donde J es la función objetivo, N son las repeticiones de validación cruzada, e es la función de error
especificada, ycv es la tensión residual observada para el conjunto de validación interna e yˆcv. es el
resultado previsto para el conjunto de validación interna. En este estudio, la función de error utilizada es
la suma del error cuadrático promediado sobre N repeticiones divididas. Si no se utiliza la validación
cruzada, el error se calcula basándose únicamente en el conjunto de entrenamiento.
Si las variables de entrada para el modelo se seleccionan haciendo uso del conocimiento del dominio, a
menudo se lo denomina selección manual en la literatura. Burnham y Anderson [2] sugieren que la
selección manual debe preferirse como estrategia de selección, ya que el conocimiento del dominio
contiene información valiosa del sistema que los datos no revelan fácilmente [2]. En este estudio, el
trabajo de Santa-aho et al. [21] y Sorsa et al. [24] se utilizó para extraer el conocimiento del dominio. En
este estudio se utiliza la selección manual para seleccionar el modelo final en base a las estadísticas de
las pruebas repetidas realizadas con los algoritmos de búsqueda.
El algoritmo de selección directa voraz es una técnica de selección de características, que parte de un
vector de características lleno de ceros, es decir, de un modelo vacío. Durante la búsqueda, las
características se agregan al modelo de manera codiciosa, lo que significa que para cada iteración, el
modelo actualizado que produce el mejor resultado se selecciona como estado inicial para la próxima
iteración. Este procedimiento continúa hasta que se cumple un criterio de parada especificado. En este
estudio, el criterio de parada se define como la mejora explícita del rendimiento del modelo. El principal
problema de la selección delantera, así como
Machine Translated by Google
34 T.Vuolio et al.
los otros enfoques deterministas, es que tiende a quedarse en un óptimo local. Esto podría
significar, por ejemplo, que el modelo que se selecciona con el algoritmo no contiene todas
las características relevantes o, por el contrario, contiene una cantidad significativa de
características redundantes. Además, el número de neuronas ocultas podría ser demasiado
bajo o demasiado alto para estimar la relación entre las entradas y las salidas, lo que podría
resultar en un ajuste insuficiente o excesivo. El pseudocódigo para el algoritmo de selección
se da en la Tabla 1. El enfoque propuesto también se puede encontrar en la literatura como
el algoritmo de escalada de colinas. [14]
En este estudio se utilizan algoritmos genéticos como alternativa estocástica a los motores
deterministas. El algoritmo genético ha demostrado su eficacia para resolver tanto
Machine Translated by Google
Extreme Learning Machine (ELM) se utiliza como base del modelo en la fase de selección de
funciones. Esto se debe a que la complejidad computacional del entrenamiento ELM es muy
pequeña en comparación con los algoritmos de retropropagación [13]. En los enfoques
deterministas, el número de neuronas ocultas se seleccionó con la búsqueda en cuadrícula,
que es prácticamente la única forma de implementar la selección de neuronas ocultas dentro
de la búsqueda determinista, ya que el algoritmo requiere la estructura del modelo que se
quiere evaluar. Este problema aumenta drásticamente la complejidad temporal de los
algoritmos, ya que la búsqueda en cuadrícula exige un ciclo adicional a la implementación. En
el caso del algoritmo genético, existen algunas alternativas para la selección de neuronas
ocultas, entre ellas, la búsqueda en grillas, ordenando los modelos con diferente número de neuronas ocultas a
Machine Translated by Google
36 T.Vuolio et al.
selección [3] o simplemente realizando la búsqueda con número constante de neuronas ocultas [5].
También es posible incluir y codificar el número de neuronas ocultas en los individuos. Para reducir la
carga computacional, el número de neuronas ocultas se expresó como un valor entero único. Por esto,
cada individuo es esencialmente una red completamente conectada con un cierto número de neuronas
ocultas. Por lo tanto, la codificación del algoritmo genético es una hibridación de codificación binaria y
entera, donde la parte binaria codifica el vector de características y la parte entera codifica la estructura
de la red [27]. La codificación basada en números enteros utiliza el cruce binario simulado [20] y la
mutación Mäkinen-Periaux-Toivonen [18].
El entrenamiento del modelo final se lleva a cabo con el algoritmo de regularización bayesiano, que ha
demostrado su eficacia para mejorar la generalización de los modelos de redes neuronales para
conjuntos de datos pequeños. En la regularización, la varianza de los parámetros del modelo se minimiza
simultáneamente con el error de predicción, lo que da como resultado modelos más estables, que por lo
tanto se generalizan mejor a conjuntos de datos fuera de la muestra. La descripción detallada del
algoritmo se proporciona en Foresee y Hagan [6].
El desempeño del modelo se evaluó haciendo uso del coeficiente de determinación (R2) y el error
absoluto medio (MAE). Los detalles para calcular las métricas se pueden encontrar, por ejemplo, en
Harrell [11]. La tendencia al sobreajuste se evaluó simplemente calculando las métricas correspondientes
para el conjunto de entrenamiento y prueba.
Las mediciones de ruido de Barkhausen se llevaron a cabo para un conjunto de muestras que se
mecanizaron a partir de acero laminado en frío de baja aleación RAEX400. Las muestras se endurecieron
por cementación y luego se templaron con diferentes temperaturas y duraciones de templado para
obtener diferentes condiciones de dureza superficial. Luego, las muestras se sometieron a una carga de
flexión para lograr diferentes estados de tensión en las superficies de la muestra.
En total, se registraron 98 puntos de datos de las muestras, incluido el ruido de Barkhausen y las
mediciones de tensión residual. Se puede encontrar una descripción más completa de las muestras, su
preparación y mediciones en Santa-aho et al. [21].
Después de la extracción de características de la señal de ruido de Barkhausen, el conjunto de datos
general contiene 48 características candidatas, lo que hace que la cantidad de modelos candidatos sea
extremadamente alta en comparación con la cantidad de puntos de datos. Para complicar la búsqueda,
Machine Translated by Google
el número de características candidatas se duplicó de modo que las filas de la réplica exacta
del conjunto de características se aleatorizaron y adjuntaron dentro del conjunto original, lo que
hace que la cantidad total de características sea 96. En consecuencia, dado que la complejidad
de la búsqueda exhaustiva es nHN,max · N·(2nÿ1) con la función objetivo propuesta, lo que
significa que para un óptimo global explícito, 7.92·1028· nHN,max modelos tendrían que ser
evaluados, cada uno para N repeticiones de subconjuntos de datos en el bucle de validación
interna, teniendo en cuenta que hay nHN,max neuronas ocultas en la cuadrícula de búsqueda,
en función de las cuales se selecciona la estructura de la red neuronal. Es obvio que este
elevado número de modelos no es posible evaluarlo en un tiempo factible. En general, el
número excesivo de modelos disponibles resalta la necesidad de algoritmos de selección de
características en el caso de conjuntos de datos industriales.
4. Resultados y discusión
38 T.Vuolio et al.
Tabla 2 Criterios de
Prueba MAE [MPa] Categoría de rendimiento del modelo
evaluación discretizada del
<50 Excelente
desempeño del modelo
[50, 80] Decente
>80 Malo
Fig. 2 Histogramas para el número de características seleccionadas adquiridas con los algoritmos deterministas
Machine Translated by Google
Fig. 3 Ocurrencia de las características para todos los experimentos para los algoritmos deterministas. Hit-rate (%) es el
porcentaje de ocurrencias con respecto a todas las repeticiones de la prueba
Fig. 4 Histogramas para el número de características seleccionadas adquiridas con el algoritmo genético. El histograma
se cuenta sin los casos divergentes
Machine Translated by Google
40 T.Vuolio et al.
(92,9 %), área del espectro (35,7 %), raíz cuadrada media de la señal (35,7 %), área del bucle de
histéresis (28,6 %), desviación estándar de la señal (28,6 %). Sin embargo, el 60% de estos
ocurrieron cuando el número de repeticiones divididas se estableció en N = 1. Por lo tanto, el riesgo
de divergencia podría reducirse con el aumento de las repeticiones de validación cruzada, para
evitar que un subconjunto mal generalizado sea altamente clasificado solo por casualidad. Además,
el riesgo de divergencia en grandes conjuntos de características puede reducirse inicializando la
población para que contenga un pequeño número de unos y dejando que el algoritmo converja en
una única solución, evitando así una convergencia prematura. Sin embargo, esto aumenta
significativamente el tiempo de cálculo del algoritmo para los casos en que la población inicial está
muy lejos del óptimo. Además, se encontró que la consistencia de la búsqueda podría mejorarse
con la validación cruzada que, sin embargo, aumenta la carga computacional del algoritmo. Las
características seleccionadas están solo parcialmente de acuerdo con los estudios anteriores, Sorsa
et al. [23]. Sin embargo, Sorsa et al. [23] utilizó la regresión lineal múltiple como base del modelo,
que no es fácil de comparar con las redes neuronales debido a las diferentes estructuras del modelo.
En total, el 50% de los modelos identificados en todos los experimentos con los algoritmos
deterministas fueron al menos decentes (MAEtest < 80 MPa), mientras que de los modelos
encontrados con el algoritmo genético, el 70% se consideraron al menos decentes. Sin embargo,
cabe señalar que el diseño experimental no fue similar para los algoritmos estocástico y determinista.
Para los mismos parámetros computacionales, es decir, número de repeticiones de validación
cruzada y fracción de datos para validación interna, el 68 % de los modelos identificados con
selección directa con clasificación fueron al menos decentes, mientras que, para la selección directa
voraz, el porcentaje correspondiente fue del 61 %. .
Un análisis más detallado de los experimentos realizados con algoritmos deterministas muestra
que ambos algoritmos seleccionan modelos excelentes para el 12% de todos los casos. Para una
selección directa con clasificación, si se utilizó una validación cruzada o no validada como función
objetivo, el 9,9% de los modelos fueron excelentes. Si en su lugar se utilizó una validación cruzada
repetida, el 13,4% de los modelos fueron excelentes. Del mismo modo, para la selección directa
codiciosa, el 9,9 % (validación cruzada o sin validación cruzada) y el 14,4 % (submuestreo aleatorio
repetido) de los modelos fueron excelentes.
Además, se construyó un modelo de regresión logística para analizar el efecto de los
hiperparámetros computacionales sobre el riesgo de seleccionar un modelo excelente. Se encontró
que para ambos algoritmos solo el número de neuronas ocultas tuvo un efecto estadísticamente
significativo en la clase de desempeño del modelo, cuando se usó un nivel de riesgo de ÿ = 0.05 en
la prueba de hipótesis. De hecho, si se filtran los resultados de búsqueda con el máximo número de
neuronas ocultas por debajo de 20, el porcentaje de modelos excelentes ronda el 19% para la
selección directa con ranking y el 17% para la selección directa voraz.
Esto indica que el riesgo de inadecuación puede reducirse ampliando la cuadrícula de búsqueda
con respecto a un número de neuronas ocultas. Junto con la cantidad de neuronas ocultas, el
método de entrenamiento tuvo un impacto significativo en el rendimiento del modelo; si los pesos de
la capa oculta no se entrenaron (el modelo es la máquina de aprendizaje extremo), solo entre el
0,7% y el 3,5% de los modelos fueron excelentes. Sin embargo, los parámetros computacionales
tuvieron un efecto sobre la convergencia del algoritmo genético; De manera similar, como en nuestro
trabajo anterior [27], el uso de validación cruzada disminuyó la desviación estándar de las
características seleccionadas. En la Fig. 5, el efecto del número de repeticiones de validación cruzada
Machine Translated by Google
Fig. 5 Número seleccionado de neuronas ocultas en el modelo final en función de las repeticiones de validación cruzada
en el ciclo de validación interno. Los resultados se obtienen con Forward Selection con ranking
Las funciones del número de neuronas seleccionadas en los mejores modelos se ilustran en el
caso de la selección directa con clasificación. La fracción de datos retenidos en la estimación del
error de validación interna se establece en l = 0,5 y el número máximo de neuronas ocultas es
NumHN,max = 20. Se ve en la figura que el número de neuronas ocultas, así como el estándar
la desviación entre las repeticiones disminuye con el número de repeticiones de validación
cruzada. Este resultado indica parcialmente que el mayor número de repeticiones de validación
cruzada aumenta la repetibilidad de la búsqueda, siempre que la fracción de los datos retenidos
en la división se elija con cuidado.
La ilustración de la compensación sesgo-varianza se presenta en la Fig. 6. A partir de la
figura, se ve claramente que a medida que aumenta la complejidad del modelo con respecto al
ancho de la red, el error para el conjunto de validación interna no sigue el error obtenido. para el
conjunto de entrenamiento y comienza a aumentar si hay más de 10 neuronas en el modelo.
Este comportamiento es una prueba explícita de sobreajuste de la red. Este asunto destaca la
necesidad de una validación cruzada interna durante la fase de selección de características, ya
que el error de entrenamiento es claramente una estimación muy optimista del rendimiento
hipotético del error del modelo para el conjunto de validación externa, aunque el riesgo asociado
a la selección de modelos excelentes era no encontrado dependiente de los parámetros computacionales.
Machine Translated by Google
42 T.Vuolio et al.
Fig. 6 Los valores de la función objetivo para los conjuntos de entrenamiento y validación interna para la
población final del algoritmo genético. Las estimaciones de error se calculan para Extreme Learning Machine
El modelo final se eligió de tal manera que las características que aparecían con mayor frecuencia
entre el conjunto de modelos excelentes se eligieron para el modelo final. En consecuencia, el
estudio del modelo final constaba de un conjunto de cinco características (área de bucle de
histéresis, área de espectro, desviación estándar de la señal, relación señal/ruido y raíz cuadrada
media) y 11 neuronas ocultas. Las cifras de mérito correspondientes fueron R2 = 0,97 y MAE =
36,8 MPa para los datos de prueba. En la Fig. 7, se presentan las tensiones residuales previstas
para la placa de acero. Como se ve a partir de la distribución de las predicciones para el conjunto
de validación externa, la generalización del modelo puede considerarse muy buena. En otras
palabras, los resultados de predicción para la validación externa y el conjunto de entrenamiento
fueron consistentes y, por lo tanto, se espera que el modelo se comporte de manera consistente
también para datos hipotéticos no vistos previamente. Sin embargo, la selección del modelo, así
como el modelo de calibración final, obviamente se beneficiarían de más datos. Aún así, los
resultados de este estudio parecen convincentes.
Machine Translated by Google
Fig. 7 Tensión residual medida y predicha de una placa de acero. El modelo ejemplificado se identifica con base en los
resultados del Algoritmo Genético
En este estudio, se aplicaron tres algoritmos de selección de modelos implementados para adaptarse a la
selección de modelos de redes neuronales para predecir una tensión residual de una placa de acero
basada en una medición de ruido de Barkhausen no destructiva. Los resultados de este estudio muestran
que los algoritmos de identificación de modelos pueden ayudar al modelador en la tarea de selección de
modelos, al resolver problemas de regresión relevantes para la industria, incluso para conjuntos de datos pequeños.
Independientemente del algoritmo en uso, se necesita un ajuste sistemático de los parámetros
computacionales para obtener resultados razonables. Se muestra que todos los algoritmos pueden
seleccionar un conjunto relativamente bueno de características para predecir una tensión residual de una
placa de acero, pero si el criterio de excelencia se establece en MAE < 50 MPa, es bastante raro que se
encuentren modelos excelentes. Sin embargo, si el criterio para un modelo aplicable se establece en
decente (con una discretización similar a la de este estudio), alrededor del 60-72 % de los modelos
identificados, independientemente del algoritmo, son aplicables en las condiciones de este estudio. Cabe
señalar que el criterio de discretización adecuado depende en gran medida de la aplicación final, así como
de los datos experimentales. También se notó que el uso de la validación cruzada como función objetivo
en la selección del modelo es beneficioso independientemente de la complejidad computacional, ya que es
obvio que el error de entrenamiento es una estimación optimista del rendimiento de la predicción del
modelo. Sin embargo, los parámetros de validación cruzada, es decir, el número de repeticiones divididas
y la fracción de datos retenidos en la división deben elegirse con cuidado. Se observó que al aumentar el
número de divisiones, se podría mejorar la consistencia de la selección para el determinista
Machine Translated by Google
44 T.Vuolio et al.
Referencias
1. Akaike, H. (1974). Una nueva mirada a la identificación del modelo estadístico. Transacciones IEEE en
Control automático, 19(6), 716–723.
2. Burnham, DR y Anderson, KP (2002). Selección de modelos e inferencia multimodelo: A
enfoque teórico-práctico de la información. Nueva York: Springer.
3. Chyzhyk, D., Savio, A. y Grana, M. (2014). Selección evolutiva de funciones de envoltura ELM para CAD de la
enfermedad de Alzheimer en resonancia magnética cerebral anatómica. Neurocomputación, 2014, 73–80.
4. Davut, K. y Gür, G. (2007). Monitoreo de los cambios microestructurales durante el revenido del acero SAE 5140
templado por ruido magnético de Barkhausen. Revista de evaluación no destructiva, 26, 107–113.
9. Guyon, I. y Elisseeff, A. (2003). Una introducción a la selección de características y variables. Revista de investigación
de aprendizaje automático, 3, 1157–1182.
10. Guyon, I. y Elisseeff, A. (2006). Una introducción a la extracción de características. En Extracción de características
(págs. 1–25). Springer, Berlín, Heidelberg.
11. Harrell, FE (2015). Estrategias de modelado de regresión: con aplicaciones a modelos lineales,
regresión logística y ordinal, y análisis de supervivencia. Saltador.
12. Hastie, T., Tibshirani, R. y Friedman, J. (2017). Los elementos del aprendizaje estadístico: datos
Minería, inferencia y predicción (2017), Serie Springer en estadística.
13. Huang, GB, Zhu, QY y Siew, CK (2006). Máquina de aprendizaje extremo: Teoría y
aplicaciones Neurocomputación, 70(1–3), 489–501.
14. Kohavi, R. y John, GH (1997). Contenedores para la selección de subconjuntos de características. Inteligencia artificial,
97(1–2), 273–324.
15. Kypris, O., Nlebedin, IC y Jiles, DC (2014). Un modelo para el espectro de frecuencia de Barkhausen en función de la
tensión aplicada. Diario de Física Aplicada, 115, 083906.
16. Malvas, CL (2000). Algunos comentarios sobre Cp. Tecnometría, 42(1), 87–94.
17. Moorthy, V., Shaw, B., Mountford, P. y Hopkins, P. (2005). Técnica de emisión magnética de Barkhausen para la
evaluación de la alteración de tensiones residuales por rectificado en acero En36 cementado.
Acta Materialia, 53, 4997–5006.
18. Mäkinen, R., Periaux, J. y Toivanen, J. (1999). Optimización de forma multidisciplinar en aerodinámica y
electromagnético mediante algoritmos genéticos. Revista internacional de métodos numéricos en fluidos, 30, 149–159.
19. Nowak, RD (1997). Estimación óptima de señales mediante validación cruzada . Cartas de procesamiento de señales
IEEE, 4(1), 23–25.
Machine Translated by Google
20. Ripon, KSN, Kwong, S. y Man, KF (2007). Un algoritmo genético de gen saltador de codificación real
(RJGGA) para optimización multiobjetivo. Ciencias de la Información, 177, 632–654.
21. Santa-Aho, S., Vippola, M., Saarinen, T., Isakov, M., Sorsa, A., Lindgren, M., et al. (2012).
Caracterización del ruido de Barkhausen durante la flexión elástica y la carga de tracción-compresión de
muestras cementadas y revenidas, 47, 6420–6428.
22. Schwenk, H. y Bengio, Y. (2000). Potenciación de redes neuronales. Computación neuronal, 12(8),
1869–1887.
23. Sorsa, A., Leiviskä, K., Santa-aho, S. y Lepistö, T. (2012). Predicción cuantitativa de tensión residual y
dureza en acero de cementación basada en la medición del ruido de Barkhausen. END y E International,
46, 100–106.
24. Sorsa, A., Leiviskä, K., Santa-aho, S., Vippola, M. y Lepistö, T. (2013). Un procedimiento eficiente para
identificar el modelo de predicción entre la tensión residual y el ruido de Barkhausen. Revista de evaluación
no destructiva, 32(4), 341–349.
25. Sorsa, A., Isokangas, A., Santa-aho, S., Vippola, M., Lepistö, T. y Leiviskä, K. (2014). Predicción de
tensiones residuales usando regresión de mínimos cuadrados parciales en señales de ruido de Barkhausen.
Revista de evaluación no destructiva, 33(1), 43–50.
26. Tomkowski, R., Sorsa, A., Santa-Aho, S., Lundin, P. y Vippola, M. (2019). Evaluación estadística de la
prueba de ruido de Barkhausen (BNT) para muestras molidas, Sensores 19, número de artículo 4717.
27. Vuolio, T., Visuri, V.-V., Sorsa, A., Ollila, S. y Fabritius, T. (2020). Aplicación de un algoritmo de selección
de modelos basado en un algoritmo genético para la identificación de desulfuración de metales calientes
basada en carburos. Applied Soft Computing Journal, 92, número de artículo 106330.
28. Wang, P., Zhu, L., Zhu, Q., Ji, X., Wanga, H., Tian, G., et al. (2013). Una aplicación de la red neuronal de
retropropagación para la detección de tensiones en el acero basada en la teoría del ruido de Barkhausen.
NDT y E International, 55, 9–14.
29. Sorsa, A., Santa-aho, S., Aylott, C., Shaw, BA, Vippola, M. y Leiviskä, K. (2019). Predicción de profundidad
de caja de muestras nitruradas con medición de ruido de Barkhausen. Metales, 9(3), 325.
Machine Translated by Google
1. Antecedentes
La demanda mundial de acero aumenta día a día. Para satisfacer la demanda, la ruta de fabricación
de hierro de alto horno se utiliza en todas partes del mundo. Esta ruta se utiliza para producir
alrededor del 94% del hierro total consumido por la industria siderúrgica. Se han realizado un gran
número de innovaciones tecnológicas y cambios de diseño para la operación del alto horno para
mejorar la calidad, la tasa de producción y la reducción del costo del proceso. Para cumplir con la
aspiración global, la optimización actúa como una herramienta importante en la operación del alto horno.
Esto ayuda a producir acero de buena calidad a través de una estrategia operativa mejorada [1,
2]. Cuando se inicia el proceso o se prevén cambios en el mismo, la optimización
© Los autores, bajo licencia exclusiva de Springer Nature Suiza AG 2022 S. Datta y 47
JP Davim (eds.), Machine Learning in Industry, Management and Industrial Engineering,
https://doi.org/10.1007/978-3 -030-75847-9_3
Machine Translated by Google
48 BK Mahanta et al.
y los métodos de minería de datos se pueden aplicar al sistema para determinar los
parámetros optimizados para una operación suave del alto horno [3]. La enorme estructura
del alto horno, a pesar de décadas de análisis y estudios, a menudo se comportó como una
caja negra, donde varios procesos complicados que se establecen durante la operación
desafiaron una explicación adecuada. Hasta 1950 se sabía muy poco sobre la estructura
interna del horno en funcionamiento. Una imagen completa y realista surgió cuando los
investigadores japoneses congelaron un alto horno en funcionamiento haciendo fluir
nitrógeno líquido a través de las toberas y posteriormente diseccionaron la estructura total.
Examinaron a fondo los comportamientos físicos y químicos dentro del horno e informaron
sus hallazgos al mundo [4]. En una etapa temprana, se desarrollaron modelos matemáticos
y analíticos para explicar los fenómenos de los altos hornos. Los modelos matemáticos de
dimensión cero se desarrollaron inicialmente utilizando el proceso como una entidad
principal [5]. Estos fueron seguidos por modelos que dividieron el horno en varias divisiones
a las que se atribuyeron diferentes reacciones químicas y fenómenos de transporte. Las
relaciones termodinámicas se determinaron utilizando condiciones térmicas y químicas [6].
Con el fin de comprender la variación de la temperatura y la composición química del gas
sólido a lo largo del eje vertical del horno, inicialmente se iniciaron modelos unidimensionales
[7]. A continuación, estos modelos se ampliaron dividiendo el horno en un número finito de
particiones. Las velocidades de las reacciones químicas se combinaron con las ecuaciones
de transferencia de calor y masa y las expresiones resultantes se utilizaron para calcular la
composición y la temperatura en varias secciones. Este concepto se amplió posteriormente
a modelos bidimensionales y tridimensionales utilizando dinámica de fluidos computacional
y estrategias relacionadas [8–13]. Estos modelos enfrentaron dificultades durante la
interpretación de los resultados y los valores evaluados a menudo no están cerca del valor
de la interfaz, ya que el fenómeno de transporte real y la química del proceso son muy
complicados dentro del horno. Sin considerar directamente la física del proceso y sin
involucrar directamente las ecuaciones termodinámicas y de transporte, las nuevas técnicas
de modelado basadas en datos han evolucionado en los últimos años. A través de tales
enfoques, los investigadores pueden utilizar la gama de información que los altos hornos
modernos capturan de forma rutinaria durante sus operaciones continuas y, en su mayoría,
estas estrategias son lo suficientemente inteligentes y eficientes para lograr los objetivos
necesarios a través de la informática compleja. En la etapa inicial del modelado basado en
datos, las técnicas informáticas, incluidas las redes neuronales artificiales y el modelado de
lógica difusa, generalmente se aplicaban a la descripción de los procesos del alto horno.
Estos modelos demostraron ser una forma conveniente de calcular las soluciones de
descenso para varios problemas de alto horno y proporcionaron alternativas descriptivas
para cumplir con los requisitos deseados y, lo que es más importante, podrían abordar los problemas no lin
Un modelo preciso basado en conceptos completos siempre es crucial para comprender
los procesos y operaciones existentes en un alto horno y estas técnicas de modelado
contribuyeron significativamente a ello. En los últimos tiempos, el hardware computacional
se volvió tremendamente avanzado, lo que convirtió a la computación de alto rendimiento
en una herramienta poderosa en este dominio. Además, la llegada de técnicas de
vanguardia, como los algoritmos evolutivos, estableció una nueva plataforma para resolver
problemas industriales complejos, incluidos los relacionados con los altos hornos. Por su sencillez y versati
Machine Translated by Google
naturaleza, estos algoritmos tienen algunas ventajas claras sobre otras técnicas de optimización.
En tiempos recientes, los enfoques evolutivos se utilizan significativamente en este dominio para
resolver problemas de muchos objetivos.
Los problemas de optimización de muchos objetivos (MaOP) son problemas de casos
especiales en el dominio de la optimización donde se abordan más de tres objetivos de manera
eficiente. Dichos problemas son omnipresentes en la ciencia, la ingeniería y la industria y se
pueden formular de tal manera que las soluciones se obtengan después de la evaluación de
múltiples criterios en conflicto [19-21]. Los problemas de optimización de muchos objetivos se han
enfrentado a múltiples desafíos, ya que incluyen la búsqueda de soluciones de Pareto en el
hiperespacio multidimensional, la estrategia de búsqueda y la visualización de soluciones en
múltiples frentes agregan otro nivel de dificultad en este dominio [22]. El problema de optimización
con múltiples números de objetivos y variables de decisión se define como problemas de
optimización de muchos objetivos a gran escala. Cuando se adoptan enfoques evolutivos para
resolver problemas de muchos objetivos, se conocen como algoritmos evolutivos de optimización
de muchos objetivos (MaOEA) [23–25]. Inicialmente, estos algoritmos han seguido un enfoque
basado en la descomposición. Se plantean varios desafíos durante la resolución de estos
problemas. Las dificultades se abordan como representación escalable de soluciones y diseño de
algoritmos de visualización, y una matriz para evaluar el resultado. Para hacerlos eficientes, en
este dominio se implementan métodos de búsqueda guiada y enfoques de configuración de
parámetros [26]. Los MaOEA se clasifican principalmente en categorías principales, como
enfoques relajados basados en dominancia, basados en indicadores, basados en agregación,
basados en preferencias, basados en referencias y basados en reducción dimensional. Más
detalles se proporcionan en otra parte [22].
Los investigadores han experimentado con una amplia gama de algoritmos de optimización
multiobjetivo y muchos objetivos para resolver problemas no lineales. Inicialmente, han modificado
los algoritmos existentes para aumentar la capacidad de modo que pueda manejar tres o cuatro
objetivos simultáneamente. Li et al. [27] identificó las dificultades que surgen al abordar problemas
de optimización de muchos objetivos. La situación se vuelve difícil cuando aumenta el número de
objetivos, donde la comparación de soluciones no dominadas conduce a una situación desafiante.
La visualización también se vuelve difícil cuando más de tres objetivos están asociados con un
problema. En el enfoque basado en Pareto, la presión de selección surge debido a múltiples
objetivos. En el enfoque basado en la agregación, el vector de peso juega un factor crucial. En el
enfoque basado en indicadores, el indicador de rendimiento, la distancia generacional (GA) y la
distancia generacional invertida (IGD) se utilizan en el hipervolumen para calcular las métricas de
rendimiento intensivas [28]. Esto conduce a un alto costo computacional que hace que los
enfoques basados en indicadores dificulten la normalización de numerosos objetivos. En el
enfoque del conjunto de referencia, la tarea difícil está relacionada con la construcción del conjunto
de referencia y crea un equilibrio entre
Machine Translated by Google
50 BK Mahanta et al.
2 Alto Horno
Un alto horno es una enorme estructura columnar, donde el mineral de óxido de hierro se utiliza
como materia prima, se agrega fundente y coque, luego se funde y produce arrabio como salida.
El intercambio de calor y las reacciones químicas dentro del horno juegan un papel importante
para producir el metal caliente. Para generar la temperatura de fusión adecuada, se inyecta aire,
a menudo enriquecido con oxígeno, a través de una serie de toberas ubicadas en la parte inferior
del horno. La energía necesaria y el gas CO reductor se generan principalmente a través de la
combustión y gasificación del coque presente en el horno. En los altos hornos modernos [4] , se
utilizan tolvas con diferentes ángulos para descargar la materia prima y el fundente desde la parte
superior conocida como garganta del horno. Debajo de la garganta, las materias primas se apilan
capa por capa hasta unos pocos metros de profundidad, donde el diámetro de esta área aumenta
gradualmente y esa porción se llama eje. Justo después del eje, el diámetro se mantiene constante
hasta una cierta profundidad denominada región del vientre. En esta región se llevan a cabo
reacciones químicas e intercambio de calor y el mineral de hierro se convierte en hierro líquido
fundido. Desde el vientre hacia abajo del horno se conoce como región bosh. El chorro caliente
(nitrógeno, oxígeno) y los inyectantes (carbón pulverizado, petróleo) se introducen desde esta
región, que está rodeada por un número específico de toberas. Una tobera es una boquilla de
cobre enfriada que se utiliza para suministrar la cantidad requerida de calor y reactivos de reacción
necesarios para el proceso de fusión. El número de toberas varía de 12 a 42, según el tamaño del
horno [2]. En la región más baja del horno, está presente el hogar, donde el hierro y la escoria se
acumulan por separado en estado fundido. De arriba a abajo del horno, el volumen total se divide
en varias zonas. La parte superior del horno es la zona de grumos, donde entran los materiales
de entrada y se apilan una capa tras otra. El proceso de reducción se lleva a cabo en una zona
cohesiva, donde el hierro
Machine Translated by Google
La idea principal del modelado de altos hornos basado en datos es analizar continuamente
todos los datos del proceso para ejecutar y sugerir la acción adecuada siguiendo la guía de
los tomadores de decisiones en tiempo real. Ayuda a aumentar la eficiencia del sistema y
ayuda a lograr sus diversos objetivos. Como sabemos que el alto horno es una estructura
compleja, por lo tanto, es necesario controlar una gran cantidad de parámetros para garantizar
su buen funcionamiento. Los objetivos como el costo, la tasa de producción, la calidad y la
eficiencia del proceso dependen de múltiples variables, que deben optimizarse simultáneamente.
En los últimos tiempos se ha aplicado la optimización multiobjetivo [29] para lograrlo. El
modelado de optimización de muchos objetivos ayuda a encontrar una serie de soluciones
óptimas que pertenecen a un conjunto óptimo de Pareto [30], lo que ayuda de manera muy
significativa a mejorar el proceso de toma de decisiones. En tales procesos de optimización,
los modelos evolutivos basados en datos han jugado un papel importante.
Machine Translated by Google
52 BK Mahanta et al.
En el trabajo de optimización relacionado con los modelos basados en datos de alto horno, el
algoritmo genético Predator-Prey (PPGA), la red neuronal evolutiva (EvoNN), la programación
genética biobjetiva (BioGP), la red neuronal profunda evolutiva (EvoDN2) y el vector de
referencia basado en restricciones El algoritmo evolutivo (cRVEA) se ha utilizado con éxito para
una serie de problemas integrados relacionados con plantas siderúrgicas [31–38].
Estos algoritmos son lo suficientemente eficientes para calcular múltiples soluciones, que se
utilizan en el proceso de operación. Más detalles se proporcionan a continuación.
PPGA [14] es uno de los algoritmos más eficientes que se han utilizado en trabajos de
optimización de altos hornos. El algoritmo depredador-presa emula la matanza y la supervivencia
de los animales que habitan en un bosque. Se genera una cuadrícula computacional en la que
se colocan aleatoriamente las soluciones candidatas en forma de presas. De la misma manera,
los depredadores también se colocan aleatoriamente en la red y su tarea designada es aniquilar
a las presas más débiles. Cada depredador está asociado con una suma ponderada particular
de las funciones objetivo. Hay ciertas limitaciones asignadas al movimiento de los depredadores,
por ejemplo, pueden moverse solo un número específico de pasos alrededor de un vecindario,
que también está específicamente definido. El depredador mata a la presa presente en el
vecindario que tiene la peor forma física. Una vez que la presa muere, se elimina de la red. Si
una sola presa está presente en el vecindario del depredador, entonces se la mata por defecto.
El depredador se moverá en una dirección aleatoria si su vecindario está vacío. El procedimiento
anterior continúa hasta que se completa el número predeterminado de generaciones. Los
operadores genéticos como el cruce y la mutación se utilizan para producir nuevos individuos
en cada generación. La presencia simultánea de depredadores que favorecen cada objetivo
permite que coexistan soluciones de compensación en el espacio informático. En lugar de
asociar un objetivo a cada depredador, los asociamos con diferentes vectores de peso para
mantener la diversidad en la solución y obtener buenas soluciones en el frente de Pareto. En la
Fig. 2 se muestra una cuadrícula bidimensional depredador-presa .
Presa
Depredador
los nodos ocultos. En EvoNN la estructura de trabajo se compone de dos niveles, es decir, el nivel
inferior y el nivel superior. La evolución tiene lugar en la parte inferior, donde se utiliza PPGA para
optimizar las redes neuronales. En este proceso, el cruce se define como el intercambio de
conexiones entre dos redes neuronales, mientras que la mutación se realiza perturbando los
pesos. La cantidad de cambio depende de los valores de dos pesos seleccionados al azar de
conexiones similares. La parte superior de la red, es decir, la capa de salida, utiliza una función
de transferencia lineal y se optimiza utilizando el enfoque de mínimo escudero lineal (LLSQ) [14,
15]. Esto asegura la convergencia matemática en la etapa de salida. Más detalles se proporcionan
en otra parte [17].
En BioGP [16, 17] se utiliza una población de árboles binarios en lugar de una red neuronal en el
proceso de evolución para entrenar los datos con el fin de encontrar los resultados óptimos. Una
estrategia de programación genética (GP) [39, 40] permite construir cualquier función basada en
la base de datos en cuestión, utilizando operadores matemáticos como suma, resta, división,
multiplicación, etc., como valores de nodo en un árbol, junto con el variables y constantes como
valores establecidos terminales. A diferencia de la programación genética convencional, aquí se
produce un compromiso de Pareto [16] entre la precisión del entrenamiento y la complejidad de
los árboles GP. La complejidad del árbol GP se decide a partir del nivel de profundidad y la
extensión de las raíces construidas por el usuario. Como se indicó anteriormente, en los árboles
binarios utilizados aquí, los operadores del conjunto de funciones se ubican en los nodos, mientras
que las variables y las constantes se ubican en el conjunto de terminales. La entrada del sistema
se puede modelar mediante la evolución de la función matemática y también se puede aplicar una
condición lógica cuando sea necesario. Los árboles se seleccionan en función del error de
escudero medio raíz mínimo (RSME) [17]. Sin embargo, el árbol con un error mínimo puede dar
lugar a un sobreajuste; por otro lado, un error grande puede infraajustar los datos y omitir el valor
de tendencia importante en el conjunto de datos. Aquí, en BioGP, se utiliza el algoritmo PPGA en
el trabajo de optimización y se agregan varios árboles más pequeños a través de un procedimiento basado en LLS
Un árbol GP típico se muestra en la Fig. 3.
Machine Translated by Google
54 BK Mahanta et al.
X2 +2
Funcional
Nodo
+
*
2
Terminal
Nodo X
X
El algoritmo RVEA se ha desarrollado recientemente para resolver varios objetivos, es decir, más
de tres objetivos en el proceso de optimización [43]. En PPGA se utiliza un procedimiento basado
en la dominancia en el proceso de selección, mientras que en el algoritmo evolutivo del vector de
referencia se utiliza una colección de vectores de referencia adaptativos para alcanzar el frente de
Pareto. En este algoritmo se utiliza una distancia penalizada por ángulo (APD) para el proceso de
selección, lo que permite que sus vectores de referencia converjan hacia el frente de Pareto.
Aquí, el proceso de búsqueda se guía mediante el uso de un conjunto de vectores de referencia
en el espacio objetivo. La inicialización de los vectores de referencia se realiza de acuerdo con un
diseño de red canónica y se distribuye uniformemente en el hiperespacio objetivo [36, 44] y después
Machine Translated by Google
56 BK Mahanta et al.
Fig. 6 a Los vectores de referencia uniformemente espaciados con un frente de Pareto simétrico dan como resultado
soluciones de Pareto uniformemente densas, b Vector de referencia uniformemente espaciado con una distribución
asimétrica de soluciones de Pareto que no es deseable, c La distribución equitativa se logra mediante la adaptación del vector de referencia
58 BK Mahanta et al.
En este trabajo de investigación, los datos operativos consisten en información de entrada y salida
diaria, incluidos los valores medidos y calculados, de un alto horno operativo.
Al estudiar los parámetros de proceso individuales, se desarrolla una estrategia basada en datos.
Los parámetros influyentes que afectan directa o indirectamente al sistema se consideran como
variables de decisión y las funciones importantes desde el punto de vista del proceso, que dependen
de estas variables se toman como los objetivos que requieren ser optimizados. El conjunto de datos
operativos que se utiliza aquí consta de ocho variables de entrada y cuatro objetivos de salida. La
hoja de datos industriales proporcionó cinco años consecutivos de información operativa. Estos datos
se manejan de manera eficiente mediante la eliminación de los valores atípicos y la adición de los
valores de entrada y salida que faltan mediante el uso de un enfoque K-Nearest Neighbors (KNN)
[45, 46]. El conjunto de datos contiene variables que describen información sobre las propiedades
físicas y químicas de los materiales de entrada, los parámetros de control, los agentes reductores y
el estado interno del alto horno. Al considerar estas variables y objetivos, se derivan modelos basados
en datos para su posterior optimización.
Las variables de decisión operativas en el alto horno se toman como (i) basicidad, (ii) volumen de
explosión caliente, (iii) presión de explosión caliente, (iv) temperatura de explosión caliente, (v)
mineral de hierro en la carga, (vi) sinterización en la carga, (vii) tasa de coque y (viii) silicio en el metal caliente.
La cantidad de distribución de las variables de entrada depende del proceso y del estado de
funcionamiento del horno. Los objetivos influenciados se toman como (i) relación CO/CO2 (ii)
enriquecimiento de oxígeno, (iii) productividad y (iv) temperatura de llama adiabática de la pista
(RAFT). En la Tabla 1 se presentan los rangos de los datos brutos disponibles para un período
operativo de cinco años de la planta siderúrgica.
El modelado de series temporales [47] funciona como un procedimiento eficaz para tratar el análisis
de datos pasados con el fin de predecir resultados futuros. Para que esta estrategia sea efectiva, los
datos anteriores deben manejarse con cuidado y se necesita un estudio adecuado para desarrollar
un modelo exacto que represente la estructura inherente de los datos recopilados. Luego, el modelo
se usa para generar un valor futuro para la serie que se va a pronosticar. Esto es esencialmente predecir
Machine Translated by Google
la tendencia futura mediante la comprensión del pasado. Esta técnica ha sido ampliamente utilizada
en áreas tan diversas como la banca, la actividad económica, así como en la industria, la ciencia y
la ingeniería. Recientemente, las redes neuronales artificiales (ANN) y la programación genética
(GP) [48] han recibido una atención significativa en la previsión de series temporales. Estas
técnicas son capaces de manejar datos no lineales sin ningún requisito previo sobre la distribución
estadística que sigue la observación: estas técnicas están basadas en datos y, al mismo tiempo,
son autoadaptativas por naturaleza. En el contexto de la fabricación de hierro en altos hornos,
dichos procedimientos se agregan a EvoNN, EvoDN2 y BioGP en el proceso de entrenamiento
para reducir el error y aumentar el coeficiente de correlación.
60 BK Mahanta et al.
En este estudio, la construcción de metamodelos basados en datos implica una tarea de optimización
bioobjetiva de su precisión y complejidad, y esto se realiza considerando varios niveles de restricciones.
El entrenamiento se lleva a cabo utilizando los datos no lineales y con ruido, por separado para cada
objetivo, durante un número prescrito de generaciones.
Se generan dos tipos de modelos de entrenamiento. Uno es sin considerar el desfase de tiempo otro
con consideración de desfase de tiempo. Los modelos de entrenamiento se generan por separado para
la relación CO/CO2, el enriquecimiento de oxígeno, la RAFT y la productividad. En EvoNN y EvoDN2,
se utiliza el criterio de información de Akaike corregido para encontrar el mejor modelo entre los
generados en el proceso de entrenamiento, pero en el caso de BioGP, el modelo con menos error de
entrenamiento se selecciona automáticamente después del proceso de entrenamiento. La precisión
frente a las complejidades del modelo se determina a partir de los resultados de salida de los modelos de entrenamiento.
Machine Translated by Google
Fig. 7 a–d Modelos de entrenamiento para CO/CO2, Enriquecimiento de oxígeno, Productividad y RAFT
usando EvoNN
Un resultado típico se muestra en la Fig. 7 , donde cada punto denota un modelo separado con su
topología y arquitectura únicas.
Durante el trabajo de formación, los datos industriales se ejecutan hasta el número prescrito de
generaciones. Después de completar el entrenamiento, se genera una compensación de Pareto
entre la precisión y la complejidad de los modelos. En EvoNN y EvoDN2, el modelo de la frontera
de Pareto se selecciona sobre la base del valor AICc más bajo y, en el caso de BioGP, se
selecciona el árbol que produce el menor error de entrenamiento. Los parámetros de los modelos
basados en datos que se establecen para el entrenamiento del individuo se muestran en las Tablas 3 y 4.
En las optimizaciones evolutivas de muchos objetivos, se utilizan varios algoritmos como EvoNN,
BioGP y EvoDN2 para generar modelos de entrenamiento a partir de los datos reales del alto horno.
Aquí, la información física sobre el proceso se genera solo a través de los datos de la planta sin
utilizar ningún modelo teórico. Estos datos que se acumulan durante la operación de rutina del
horno pueden no haber pertenecido siempre al específico
Machine Translated by Google
62 BK Mahanta et al.
Intervalo de matanza 7 7
Número de depredadores 50 50
Número de subredes 3
Intervalo de matanza 5
Número de depredadores 40
rangos deseables, a veces se producen fluctuaciones por encima o por debajo de dichos límites
debido a varios factores, incluida la complejidad de la reacción y el comportamiento del material que
se encuentra dentro del horno. Para predecir un modelo exacto a partir de estos datos no lineales y
ruidosos, es necesario un entrenamiento inteligente a través de los algoritmos mencionados
anteriormente. Estas estrategias están configuradas de tal manera que pueden desarrollar un modelo
novedoso, que no se ajusta ni por encima ni por debajo de los datos reales; por lo tanto, lo más
probable es que surja un modelo representativo real. Una vez superado el aprendizaje, la
correspondencia entre los datos operativos industriales y los datos generados por el modelo siempre
se puede evaluar a través del coeficiente de correlación.
Los parámetros discutidos anteriormente se utilizan en el proceso de entrenamiento para generar
el modelo de entrenamiento. Después del trabajo de entrenamiento, se evalúan los resultados de
salida. En las Figs. 8, 9 y 10.
Al analizar estas curvas de entrenamiento y correlación, queda claro que los datos generados a
partir de los modelos entrenados no se ajustan por debajo ni por encima de los datos industriales.
En la mayoría de los casos, el coeficiente de correlación resultante del entrenamiento individual de
los objetivos resultó ser superior al 60%. De las tres estrategias EvoDN2,
Machine Translated by Google
Fig. 8 a–d Cifras de coeficiente de correlación y entrenamiento generadas por el modelo basado en datos (BioGP)
como era de esperar, había mostrado una mejor correlación incluso entonces se evitó cualquier ajuste
muy ajustado, ya que eso podría llevar a capturar el ruido en los datos. Aquí los modelos de entrenamiento
se generan considerando dos métodos, uno utilizando variables de retardo de tiempo y otro sin retardo
de tiempo. El resultado del entrenamiento evaluado desde el concepto de lapso de tiempo es de 5 a 8%
mejor que el resultado generado sin lapso de tiempo en términos de los valores de correlación.
Los resultados se muestran en la Tabla 5. En este trabajo por lo tanto los modelos generados con
desfase temporal fueron utilizados posteriormente en el trabajo de optimización.
64 BK Mahanta et al.
Fig. 9 a–d Cifras de coeficientes de correlación y entrenamiento generadas por el modelo basado en datos (EvoNN)
parámetro. Esta estrategia simple fue desarrollada e incorporada en nuestro trabajo para evaluar la
característica confiable de cualquier parámetro individual con los demás.
Implicó proporcionar alguna perturbación arbitraria pero sistemática a cada variable a la vez, en el
modelo entrenado, manteniendo el resto de las variables de decisión restringidas en el nivel base. La
respuesta correspondiente de la salida se registra y examina.
La perturbación arbitraria incluye aumentos y disminuciones en el valor de la variable que se examina,
lo que incluye cambios bruscos, así como cambios lentos y graduales, junto con algunas regiones
constantes. Si el objetivo muestra una respuesta similar a la entrada, entonces se considera que está
directamente correlacionado (+ve respuesta) con la salida, de manera similar, para una respuesta
inversa de tendencia exactamente opuesta al patrón de salida, se asume una correlación inversa
(respuesta ÿve). A veces no se pudo detectar tal correlación y tales casos también se notan
sistemáticamente. En pocas ocasiones se encuentran patrones tanto de +ve como de ÿve, lo que se
describe como una respuesta mixta. El comportamiento individual de cada variable con respecto a la
salida se conoce como respuesta de variable única.
Mediante el uso de EvoNN, BioGP y EvoDN2 se genera una respuesta variable única de todas las
variables. En cada modelo las variables consideradas son la basicidad, el volumen del alto horno, la
presión del chorro caliente, la temperatura del chorro caliente, las cantidades de mineral de hierro, sinterizado,
Machine Translated by Google
Fig. 10 a–d Cifras de coeficientes de correlación y entrenamiento generadas por el modelo basado en datos (EvoDN2)
coque, SiO2 y el porcentaje de silicio en el metal caliente, que inciden directamente en objetivos como
relación CO/CO2, enriquecimiento de oxígeno, productividad y RAFT. Los resultados evaluados del
modelo significan la influencia de las variables individuales sobre un objetivo particular durante la
operación del horno. El resultado de los resultados muestra que las tendencias de comportamiento de
las variables se pueden clasificar como +ve, ÿve, mixto y sin respuesta. Algunas curvas de respuesta
típicas generadas a través de este procedimiento se muestran en la Fig. 11, donde 1 para respuesta
directa, ÿ1 para respuesta inversa, 2 para respuesta mixta y 0 para ninguna respuesta. De las figuras
se obtiene una clara visualización de la señal de entrada con la salida.
A partir del modelo EvoNN, los resultados evaluados muestran que la basicidad no tiene impacto en
la relación CO/CO2 , -ve impacto en el enriquecimiento de oxígeno, +ve impacto en la productividad y
respuesta mixta a la temperatura de llama adiabática de la vía de carrera (RAFT). En BioGP, el modelo
de entrenamiento del resultado evaluado muestra una respuesta negativa en el caso de la relación CO/
CO2, sin impacto detectado en el enriquecimiento de oxígeno, un impacto negativo en la productividad
y una respuesta mixta a la temperatura de llama adiabática. En EvoDN2, la misma variable muestra una
respuesta negativa a la relación CO/CO2 , una respuesta negativa al enriquecimiento de oxígeno, un
impacto mixto en la productividad y un impacto positivo en RAFT. En la mayoría de los casos, la variable
de entrada y la salida muestran un tipo de respuesta similar, pero en algunos casos se comportan de
manera diferente de un modelo a otro. Esto se debe principalmente a que SVR es un método aproximado y
Tabla
5
Coeficientes
de
correlación
con
ysin
desfase
temporal
para
diferentes
modelos
evolutivos
5 4 3 2 1 año
modelo
EvoDN2
0.99 EvoNN
0.99 BioGP EvoDN2
0,53 EvoNN
0.38 BioGP EvoDN2
0,74 EvoNN
0.65 BioGP EvoDN2
0,56 EvoNN
0.50 BioGP EvoDN2
0,74 EvoNN
0.64 BioGP
0.99 0.32 0,60 0.49 0,61 CO/
CO2
(Y1)
O2
(Y2)
Productividad
(Y3)
RAFT
(Y4)
CO/
CO2
(Y1')
O2
(Y2')
Productividad
(Y3')
RAFT de
correlación
sin
desfase
temporal
(Y4') Coeficiente
0.87 0.86 0.83 0.81 0.75 0.73 0.75 0,68 0,69 0.52 0.48 0.39 0.78 0.73 0,63
0,95 0,94 0,93 0.79 0.76 0.71 0.92 0.89 0.89 0.92 0.90 0.89 0,95 0,93 0.92
0,63 0.58 0,56 0,65 0.54 0,55 0.70 0,62 0.58 0,53 0.36 0.40 0.33 0.32 0.34
0.99 0.99 0.99 0,69 0.59 0.39 0.98 0.98 0.97 0.72 0,63 0,60 0.81 0.71 0,63 Coeficiente
de
correlación
con
el
desfase
temporal
0.92 0.86 0.84 0.86 0.80 0.72 0.98 0.97 0.97 0.70 0.59 0.52 0.85 0.78 0.70
086
0.97 0,94 0,93 0.89 0.81 0.81 0..97 0,95 0,95 0.96 0,94 0.92 0.92 0.87
0.75 0,68 0,62 0.71 0.59 0,61 0.79 0,67 0,65 0,62 0.47 0,46 0.52 0.36 0.36
BK Mahanta et al. 66
Machine Translated by Google
Machine Translated by Google
Fig. 11 a–d Las cifras de respuesta de variable única generadas a partir de EvoNN
Además, a menudo, una estrategia en particular no es capaz de capturar todas las tendencias de los
datos disponibles. Las respuestas generadas por el modelo se resumen en la Tabla 6. Los resultados son
68 BK Mahanta et al.
muy conveniente para identificar las tendencias durante la operación real del horno. De esta
forma, todas las variables de entrada se han contrastado con todos los objetivos y sus tendencias
y comportamiento se examinan adecuadamente. A partir de este punto, Xij denotará el j-ésimo
valor retardado en el tiempo de la variable Xi.
La optimización juega un papel importante para generar soluciones útiles en la práctica a partir
de los modelos, que se evalúan a partir de los algoritmos de entrenamiento EvoNN, BioGP y
EvoDN2. Aquí se utilizan redes neuronales especialmente construidas, programación genética y
redes neuronales profundas para encontrar un modelo óptimo adecuado a partir del número de
tales modelos presentes en la frontera de Pareto del algoritmo de entrenamiento respectivo. A
continuación, los modelos óptimos seleccionados se utilizan en la tarea de optimización
multiobjetivo que ya se muestra en la Tabla 2. Como es evidente en esa tabla, aquí se consideran
cuatro objetivos a la vez. En este problema de muchos objetivos, se utiliza el algoritmo evolutivo
del vector de referencia para calcular el resultado. Los modelos de entrenamiento óptimo
individuales de todos los objetivos se procesan mediante un algoritmo evolutivo de vector de
referencia basado en restricciones (cRVEA). Como se mencionó anteriormente, este algoritmo
utiliza vectores de referencia distribuidos uniformemente y las soluciones candidatas en el
problema se asignan a los vectores de referencia adecuados y la población cambia de forma evolutiva estándar.
Se selecciona un individuo para cada vector de referencia según la distancia penalizada con el
ángulo (APD). Cualquier convergencia y divergencia individual se decide desde APD, como se
discutió anteriormente. En este proceso de optimización, se aplican cuatro pasos básicos, a
saber, la generación de vectores de referencia, la asignación de vectores de referencia
individuales, la selección y adaptación de vectores de referencia en el proceso de evaluación
para encontrar las soluciones más adecuadas. Los modelos obtenidos a través de EvoNN,
BioGP y EvoDN2 se procesan a través de este proceso de optimización. A continuación, se
analizan en detalle los resultados y las figuras multidimensionales generadas a través de este
algoritmo.
El resultado optimizado generado a partir de los datos industriales contiene información
diaria durante cinco años consecutivos. Para fines de optimización, los modelos basados en
datos se construyen año a año. El año individual de los datos se indica como Año1 a Año5.
Todos estos datos se entrenan y modelan por separado utilizando EvoNN, BioGP y EvoDN2.
En cada caso, los modelos se seleccionaron de sus respectivos frentes de Pareto que consisten
en un compromiso entre complejidad y precisión del entrenamiento. El algoritmo cRVEA se
aplica en este problema de muchos objetivos, donde, como se mencionó anteriormente, la
relación CO/CO2 , el enriquecimiento de oxígeno, la productividad y la RAFT se consideran
como objetivos para el problema. Estos objetivos se optimizan simultáneamente al considerar
los datos de entrenamiento por años. Aquí los objetivos se designan como Y1, Y2, Y3 y Y4 para
una referencia rápida. Los objetivos entrenados son utilizados en el proceso de optimización,
generando resultados en un espacio multidimensional. Las Figuras 12 y 13 muestran resultados
optimizados para Year1 y Year2 en un espacio de muchos objetivos. En la Fig. 12, los resultados
optimizados generados a partir del algoritmo cRVEA mediante el uso de datos entrenados Year1 de EvoNN,
Machine Translated by Google
Fig. 12 Resultados cRVEA optimizados generados usando un EvoNN, b BioGP yc EvoDN2 en los datos de
entrenamiento del año 1
Se presentan BioGP y EvoDN2. Estos algoritmos también se han aplicado a los modelos obtenidos
de los otros conjuntos de datos.
Los algoritmos evolutivos que se ocupan de varios objetivos requieren métodos viables para
visualizar y representar de manera útil un conjunto multidimensional de soluciones. El trazado de
coordenadas paralelas [55], que funciona bien para datos de gran dimensión, se ha utilizado con
frecuencia en tales ocasiones. Para mostrar un conjunto de puntos en un espacio multidimensional,
las coordenadas paralelas los mapean en un gráfico 2D, donde se trazan varios ejes paralelos,
normalmente de forma vertical y equiespaciada. Estos ejes verticales representan los objetivos y
están correctamente escalados. Dibujar un lugar geométrico de los valores objetivos de una solución
particular representada de esta manera permite su visualización simple pero efectiva. Por lo tanto,
el trazado paralelo proporciona una idea clara sobre el resultado obtenido. Aquí las Figs. 14 y 15
muestran los gráficos paralelos para resultados optimizados utilizando los modelos para los datos del año 1 y el año 2
Machine Translated by Google
70 BK Mahanta et al.
Fig. 13 Resultados cRVEA optimizados generados usando un EvoNN, b BioGP yc EvoDN2 en datos de
entrenamiento del año 2
Los resultados obtenidos del proceso de optimización mediante el uso de cRVEA se presentan
en la Tabla 7. Dado que se obtiene una gran cantidad de soluciones óptimas de Pareto, en la
tabla solo se indican sus valores máximos y mínimos, con el fin de comparar los rangos
correspondientes en los datos originales. colocar. El análisis de los resultados se basa en tres
cosas. En primer lugar, se realiza una comparación de los resultados optimizados año a año
obtenidos de todas las técnicas de modelado basadas en datos con los datos industriales reales.
En segundo lugar, se evalúan varias soluciones de Pareto generadas a partir de la optimización
de modelos entrenados desde conjuntos de datos del año 1 al año 5 y sus rangos de soluciones.
En tercer lugar, se realiza un análisis integral de las soluciones de Pareto generadas a partir del
conjunto de datos total de cinco años y se explora su impacto en el proceso de toma de decisiones.
Recordemos que durante el proceso de optimización se ha aplicado el algoritmo cRVEA a
los objetivos como relación CO/CO2, enriquecimiento de oxígeno, productividad y RAFT, donde
todos ellos se optimizan simultáneamente. Los datos industriales originales
Machine Translated by Google
Fig. 14 Gráficos paralelos de resultados optimizados generados a partir de un EvoNN, b BioGP yc EvoDN2 usando datos
de entrenamiento del Año 1
indican que desde el año 1 hasta el año 5 todos los rangos de objetivos son bastante
altos, lo que no conduce a un rendimiento muy eficiente, y destaca aún más la necesidad
de optimización. De la Tabla 7 se ve que en los datos originales el rango de relación CO/
CO2 se obtiene entre 0.02 y 3.27, el enriquecimiento de oxígeno se encuentra entre 0.01
y 69.25 Nm3/thm, la productividad se da entre 0.04 a 2.93 mt/d/m3 y la temperatura de
llama adiabática de la pista de rodadura se registra entre 1860 y 2575 °C. Estos son los
rangos totales de variación de los objetivos individuales que ya están tabulados con
detalles. De acuerdo con la formulación de optimización, el objetivo, como la relación CO/
CO2 y el enriquecimiento de oxígeno, debe minimizarse, por otro lado, la productividad y
la RAFT deben maximizarse. Estas estrategias se siguen dentro del algoritmo cRVEA
para encontrar soluciones óptimas. En el caso inicial, los modelos entrenados por BioGP
de todos los objetivos se ejecutan a través del algoritmo cRVEA. El resultado optimizado
evaluado muestra que el rango de soluciones para la relación CO/CO2 se genera entre 1
y 1,59, el enriquecimiento de oxígeno se encuentra entre 0,03 y 29,5 Nm3/thm, la
productividad se encuentra entre 1,13 y 2,94 mt/d/m3 y la RAFT se encuentra en entre 2078 y 2554,47 °C
Machine Translated by Google
72 BK Mahanta et al.
Fig. 15 Gráficos paralelos de resultados optimizados generados a partir de un EvoNN, b BioGP yc EvoDN2 usando datos
de entrenamiento del año 2
los resultados óptimos generados a partir de los datos entrenados de EvoNN también están
dentro del rango. El rango de soluciones para la relación CO/CO2 se genera entre 1 y 1,52, el
enriquecimiento de oxígeno se encuentra entre 0 y 25 Nm3/thm, la productividad se encuentra
entre 1,08 y 2,84 mt/d/m3 y la RAFT se encuentra entre 2031 y 2583,41 °C . El resultado
optimizado para los datos entrenados de EvoDN2 también se produjo dentro del límite
requerido. El rango de soluciones para la relación CO/CO2 está entre 1 y 1,61, el
enriquecimiento de oxígeno está entre 0 y 22 Nm3/thm, la productividad está entre 1,2 y 2,83
mt/d/m3 y la RAFT está entre 2100,3 y 2596,39 °C. Los rangos de solución optimizada Year1
y Year2 se muestran en las Figs. 16 y 17 donde se encuentra fácilmente disponible una
visualización clara de la dispersión de los resultados optimizados con respecto a los datos industriales originale
Un examen detallado de las soluciones óptimas generadas a partir de los modelos
entrenados mediante el uso de un algoritmo evolutivo de vector de referencia basado en
restricciones indica que el rango de soluciones y el número de puntos de Pareto varían
significativamente de un algoritmo a otro. Estos puntos óptimos satisfacen el racional de
optimización definido anteriormente. Como era de esperar, en un problema de minimización,
los valores objetivos se desvían hacia su límite inferior y ocurre lo contrario para un problema
de maximización, donde los valores objetivo optimizados se desvían hacia el rango máximo de los datos indus
Machine Translated by Google
1 Datos originales 1,12 1,70 .04 68.85 0.14 2.49 2010.00 2330.00
Hoja
2 Datos originales 1,12 1,64 0,01 69,25 0,75 2.41 1950 2575
Hoja
3 Datos originales 1.02 1,63 0,002 4,80 0,14 2.83 1860.00 2510.00
Hoja
4 Datos originales 1,09 1,30 0,08 5,61 1,16 2.90 2000.00 2410.00
Hoja
5 Datos originales 1,08 3,87 0,01 5,15 0,07 2.93 2040.00 2566.00
Hoja
74 BK Mahanta et al.
Fig. 18 Soluciones de Pareto y rango generado a partir de datos entrenados de EvoNN usando cRVEA
Fig. 19 Soluciones de Pareto y rango generados a partir de datos entrenados por BioGP usando cRVEA
Machine Translated by Google
76 BK Mahanta et al.
Fig. 20 Soluciones de Pareto y rango generado a partir de datos entrenados de EvoDN2 usando cRVEA
Las variables se utilizan con dos retrasos de tiempo adicionales. Estos atributos están
representados en un hiperespacio multidimensional. Según el presente análisis, todos los
objetivos optimizados caen en el rango factible, lo cual es importante desde la perspectiva
operativa industrial. Del mismo modo, todas las variables siguen su ejemplo. Las variables que
se utilizan aquí están organizadas como X11, X12, X13, X21, X22, X23, X31, X32, X33, X41,
X42, X43, X44, X51, X52, X53, X61, X62, X63, X71, X72 , X73, X81, X82 y X83. Esta es la
representación en serie temporal de la basicidad variable (X1), Volumen de chorro caliente
(X2), Presión de chorro caliente (X3), Temperatura de chorro caliente (X4), Mineral de hierro
(X5), Sinterizado (X6), Coque (X7) y Silicio (X8). El número de soluciones de Pareto
desarrolladas por el algoritmo cRVEA consta de tres series de datos timelag1, timelag2 y los
datos en tiempo real indicados por el número 3. Después de la optimización, todos los datos de
series temporales con sus variables y objetivos se obtienen dentro de límites aceptables.
satisfaciendo el requisito de este trabajo. La Tabla 8 representa los resultados de la serie
temporal completa después del proceso de optimización y la Fig. 21 presenta todas las
soluciones de Pareto, que se pueden visualizar fácilmente para identificar el número de soluciones en el conjun
La metodología sugerida aquí proporciona una serie de soluciones óptimas, de las cuales un
tomador de decisiones (DM), generalmente una persona familiarizada con los detalles operativos
Machine Translated by Google
Optimizador: cRVEA
Rango variable Número de Número de Número de Número de
soluciones soluciones soluciones soluciones
óptimas (Y1) óptimas (Y2) óptimas (Y3) óptimas (Y4)
X11 0,71–1,21 302 250 192 162
X12 0,71–1,21 284 232 176 147
X13 0,71–1,21 287 235 181 152
X21 1500–2650 312 270 210 179
X22 1500–2650 263 234 185 158
X23 1500–2650 247 219 179 156
X31 1,75–2,75 265 228 180 155
X32 1,75–2,75 278 243 189 159
X33 1,75–2,75 253 226 174 149
X41 900–1200 248 196 147 123
X42 900–1200 222 172 120 95
X43 900–1200 201 150 102 81
X51 0.3–1 303 264 202 173
X52 0.3–1 302 263 204 175
X53 0.3–1 287 247 195 168
X61 0,75–1,5 268 242 194 169
X62 0,75–1,5 251 227 180 156
X63 0,75–1,5 263 228 177 151
X71 300–700 275 241 198 166
X72 300–700 231 208 170 139
X73 300–700 233 213 175 148
X81 0,25–2 320 272 213 178
X82 0,25–2 308 259 204 171
X83 0,25–2 310 263 207 175
del alto horno, debe seleccionar la opción más adecuada, empleando algún criterio adicional, si es
necesario. Esto es para enfatizar que la toma de decisiones es un proceso de selección importante
entre el número de alternativas disponibles durante el curso de acción en un escenario de muchos
objetivos. Los tomadores de decisiones identifican la más adecuada entre el conjunto de soluciones que
satisface la restricción dictada por el entorno, el proceso y los recursos. En este trabajo, los diagramas
de Pareto proporcionan información para la toma de decisiones, al representar las soluciones en un
hiperespacio multidimensional que contiene ocho variables y cuatro objetivos. Para un tomador de
decisiones, esto a menudo es una tarea muy desafiante, ya que existe una gran cantidad de atributos
que crean dificultades para la elección coherente.
Para un operador de alto horno, estas soluciones de Pareto con parcelas paralelas pueden proporcionar
Machine Translated by Google
78 BK Mahanta et al.
cRVEA
350
300
250
Y1
200
Y2
150
Y3
100
Y4
soluciones
óptimas
Número
de
50
0
0.3-1 0.3-1 0.3-1
0.25-2 0.25-2 0.25-2
X11X12X13X21X22X23X31X32X33X41X42X43X51X52X53X61X62X63X71X72X73X81X82X83
Variable con rango
Fig. 21 Número de soluciones de Pareto en conjunto óptimo y los rangos variables generados por cRVEA
fuente importante para evaluar la decisión operativa, ya que cada entrada en el conjunto de
soluciones multidimensionales es una solución óptima. Una persona que esté suficientemente
familiarizada con la operación del alto horno debe examinar y analizar cuidadosamente todos los
resultados en los gráficos paralelos y, a partir de ahí, de acuerdo con los requisitos específicos de la
producción, puede formular una recomendación o tomar directamente las medidas necesarias, si es
necesario. autorizado.
datos ruidosos con la precisión adecuada y los resultados se calculan dentro del espacio
objetivo aceptable de la operación de la planta.
En el futuro, una gran cantidad de problemas en tiempo real en la fabricación de hierro en
altos hornos deben manejarse con técnicas avanzadas. Es probable que el algoritmo EvoDN2
discutido aquí sea una herramienta muy útil para eso. También es necesario desarrollar
versiones mejoradas de estos algoritmos para optimizar el proceso a un ritmo más rápido.
Se debe desarrollar alguna métrica basada en el rendimiento adecuada para optimizaciones
de muchos objetivos, que podría usarse con alta precisión en los algoritmos híbridos para
procesar un gran volumen de datos durante el trabajo operativo en tiempo real. En otras
palabras, en el futuro, enfoques similares deberían poder proporcionar información viable
para el control del sistema in situ, además de la toma de decisiones fuera de línea en la
industria del hierro y el acero.
Referencias
1. El Libro Blanco del Acero, Asociación Mundial del Acero, 2012. ISBN 978-2-930069-67-8.
2. Geerdes, M., Chaigneau, R., Kurunov, J., Lingiardi, O. y Ricketti, J. (2015). Explosión moderna
horno de hierro haciendo una introducción. IOS Press, Universidad de Delft.
3. Omori, Y. (1987). Fenómeno y modelado de altos hornos. Londres: Elsevier.
4. Ghosh, A. y Chatterjee, A. (2008). Teoría y práctica de la siderurgia. Delhi: PHI
aprendizaje privado limitado.
5. Muchi, I. (1967). Modelo matemático de alto horno. Transacción del Instituto del Hierro y el Acero de Japón, 7,
223–233.
6. Rist, A. y Meysson, N. (1967). Una representación dual del balance de masa y calor del alto horno. Revista de
metales, 19, 50–59.
7. Kilpinen, A. (1988). Un modelo en línea para la estimación de la zona de fusión en un alto horno.
Ciencias de la ingeniería química, 43, 1813–1818.
8. Nath, NK (2002). Simulación de flujo de gas en alto horno para diferentes distribuciones de carga y forma de
zona cohesiva. Procesos de materiales y fabricación, 17, 671–681.
9. Dong, XF, Pinson, D., Zhang, SJ, Yu, AB y Zulli, P. (2006). Flujo de gas y polvo en un alto horno con diferentes
formas de zona cohesiva . Modelado matemático aplicado, 30, 1293–1309.
10. Hatano,M., & Kurita, KA (1992). Modelo matemático de alto horno con distribución radial de flujo de gas,
transferencia de calor y reacción considerada. Transacción del Instituto del Hierro y el Acero de Japón, 22, 448–
456.
11. Zhou, Z., Zhu, H., Yu, A., Wright, B., Pinson, D. y Zulli, P. (2005). Simulación de partículas discretas
de flujo sólido en un alto horno modelo. ISIJ Internacional, 45, 1828–1837.
12. Decastro, JA, Nogami, H. y Yagi, J. (2002). Modelado matemático tridimensional multifásico del modelo basado
en multifluidos. ISIJ Internacional, 42, 44–52.
13. Adema, A., DEM. Modelado CFD del Alto Horno de Fabricación de Hierro. TU Delft, 2014, Universidad
Tecnológica de Delft.
14. Pettersson, F., Chakraborti, N. y Saxén, H. (2007). Una red neuronal multiobjetivo basada en un algoritmo
genético aplicada a datos de alto horno ruidosos. Computación suave aplicada, 70, 387–397.
15. Agrawal, A., Tiwari, U., Pettersson, F., Das, S., Saxén, H. y Chakraborti, N. (2010). Análisis de datos de altos
hornos utilizando una red neuronal evolutiva y un algoritmo genético multiobjetivo.
Fabricación de hierro y fabricación de acero, 37, 353–359.
16. Giri, BK, Pettersson, F., Saxen, H. y Chakraborti, N. (2013). La programación genética evolucionó a través de
algoritmos biobjetivos aplicados a un alto horno. Materiales y procesos de fabricación, 28, 776–882.
Machine Translated by Google
80 BK Mahanta et al.
17. Mahanta, BK y Chakraborti, N. (2018). Modelado evolutivo basado en datos y optimización multiobjetivo del conjunto
de datos ruidosos en el proceso de fabricación de hierro en altos hornos. Steel Research International, 89, 1–11.
18. Mitra, T., Pettersson, F., Saxén, H. y Chakraborti, N. (2016). Optimización de la carga de Altos Hornos mediante
algoritmos evolutivos y genéticos multiobjetivo. Materiales y procesos de fabricación, 32, 1179–1188.
21. Zou, X., Chen, Y., Liu, M. y Kang, L. (2008). Un nuevo algoritmo evolutivo para resolver problemas de optimización
de muchos objetivos. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 38(5), 1402–
1412.
22. Chand, S. y Wagner, M. (2015). Optimización evolutiva de muchos objetivos: una guía de inicio rápido. Surveys in
Operations Research and Management Science, 20(2), 35–42.
23. Ishibuchi, H., Tsukamoto, N. y Nojima, Y. (2008). Optimización evolutiva de muchos objetivos: una breve revisión.
En Computación Evolutiva, 2008. CEC 2008. (Congreso Mundial IEEE sobre Inteligencia Computacional).
Congreso IEEE, 2419–2426.
24. Li, B., Li, J., Tang, K. y Yao, X. (2015). Algoritmos evolutivos de muchos objetivos: una encuesta.
Encuestas de computación ACM (CSUR), 48(1), 13.
25. Zhang, X., Tian, Y., Cheng, R. y Jin, Y. (2016). Un algoritmo evolutivo basado en agrupamiento de variables de
decisión para la optimización de muchos objetivos a gran escala. Transacciones IEEE en computación evolutiva.
26. Narukawa, K. y Rodemann, T. (2012). Examinar el rendimiento de muchos algoritmos evolutivos de optimización
objetiva en una aplicación del mundo real. En Computación Genética y Evolutiva (ICGEC), Sexta Conferencia
Internacional (IEEE) de 2012, 316–319.
27. Li, M., Yang, S., Liu, X. y Shen, R. (2013). Un estudio comparativo sobre algoritmos evolutivos
para la optimización de muchos objetivos. En EMO, 261-275.
28. Ishibuchi, H., Masuda, H., Tanigaki, Y. y Nojima, Y. (2015). Cálculo de la distancia modificada en distancia
generacional y distancia generacional invertida. Conferencia internacional sobre optimización multicriterio evolutiva,
Springer, Cham, 110–125.
29. Mahanta, BK y Chakraborti, N. (2020). Optimización de tres objetivos de conjuntos de datos ruidosos en el proceso
de fabricación de hierro en altos hornos utilizando algoritmos evolutivos. Materiales y procesos de fabricación,
35(6), 677–686.
30. Zou, X., Chen, Y., Liu, M. y Kang, L. (200). Un nuevo algoritmo evolutivo para resolver muchos problemas de
optimización objetiva. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 38(5), 1402–
1412.
31. Miettinen, K. (2012). Optimización multiobjetivo no lineal. Ciencia y negocios de Springer
medios, 12.
32. Poli, R., Langdon, WB y Mcphee, NF (2008). Una guía de campo para la programación genética.
Publicado a través de http://lulu.com.
33. Pettersson, F., Biswas, A., Sen, P., Saxén, H. y Chakraborti, N. (2009). Análisis de datos de lixiviación para mineral
de manganeso de bajo grado utilizando redes neuronales y algoritmos genéticos multiobjetivo.
Fabricación de materiales. Procesos, 24, 320–330.
34. Mondal, DN, Sarangi, K., Petterson, F., Sen, PK, Saxén, H. y Chakraborti, N. (2011).
Separación de Cu-Zn por membrana líquida soportada analizada a través de algoritmos genéticos multiobjetivo.
Hidrometalurgia, 107, 112–123.
35. Hodge, BM, Pettersson, F. y Chakraborti, N. (2006). Reevaluación de las condiciones óptimas de operación para el
extremo primario de una planta siderúrgica integrada utilizando algoritmos genéticos multiobjetivo y equilibrio de
Nash. Steel Research International, 77(7), 459–461.
36. Chugh, T., Jin, Y., Miettinen, K., Hakanen, J. y Sindhya, K. (2016). Un algoritmo evolutivo guiado por un vector de
referencia asistido por sustituto para una optimización de muchos objetivos computacionalmente costosa. IEEE
Transactions on Evolutionary, 22(1), 129–142.
Machine Translated by Google
37. Chowdhury, S., Chakraborti, N. y Sen, PK (2020). Estudios de optimización energética para plantas siderúrgicas
integradas empleando diversas rutas siderúrgicas: Modelos y enfoque basado en algoritmos evolutivos.
Revisión de procesamiento de minerales y metalurgia extractiva, 1–12.
38. Mahanta, BK y Chakraboti, N. (2019). Computación evolutiva en hierro de alto horno
haciendo. en optimización en la industria. Springer, Cham, 211–252.
39. Collet, P. (2007). Programación genética en manual de investigación sobre la naturaleza Computación
independiente para economía y gestión. Rennrd, JP (ed.), Idea: Hershey, 59–73.
40. Jha, R., Sen, PK y Chakraborti, N. (2014). Algoritmo genético multiobjetivo y modelos de programación genética
para minimizar las tasas de entrada de carbono en un alto horno en comparación con un enfoque analítico
convencional. Steel Research International, 85(2), 219–232.
41. Roy, S. y Chakraborti, N. (2020). Desarrollo de una red neuronal profunda evolutiva para la investigación de
materiales. En Actas complementarias de la 149.ª reunión anual y exposición de TMS 2020, Springer, Cham,
817–828.
42. Roy, S., Saini, BS, Chakrabarti, D. y Chakraborti, N. (2020). Propiedades mecánicas de aceros microaleados
estudiadas utilizando una red neuronal profunda evolutiva. Materiales y procesos de fabricación, 35(6), 611–
624.
43. Cheng, R. y Jin, Y. (2016). Un algoritmo evolutivo guiado por vector de referencia para muchas optimizaciones
objetivas. IEEE, 20, 773–790.
44. Chugh, T., Chakraborti, N., Sindhya, K. y Jin, Y. (2017). Un algoritmo evolutivo multiobjetivo asistido por
sustitutos basado en datos aplicado a muchos problemas objetivos de optimización de altos hornos. Materiales
y procesos de fabricación, 32(10), 1172–1178.
45. Li, B., Yu, S. y Lu, Q. (2003). Un algoritmo de vecino más cercano mejorado para la categorización de texto,
arXiv preprint cs/0306099.
46. Jiang, S., Pang, G., Wu, M. y Kuang, L. (2012). Un algoritmo K-vecino más cercano mejorado para la
categorización de texto. Sistemas expertos con aplicaciones, 39(1), 1503–1509.
47. Qi, M. y Zhang, GP (2008). Modelado y pronóstico de series temporales de tendencias con redes neuronales.
Transacciones IEEE en redes neuronales, 19(5), 808–816.
48. Cortez, P., Rocha, M. y Neves, J. (2001). Algoritmos genéticos y evolutivos para la predicción de series
temporales. En Conferencia internacional sobre aplicaciones industriales, de ingeniería y otras de sistemas
inteligentes aplicados Springer, Berlín, Heidelberg, 393–402.
49. Jenkins, B. y Mullinger, P. (2011). Hornos industriales y de proceso: Principios, diseño y funcionamiento. Elsevier.
50. Ryman, C. (2007). Sobre el uso de métodos de integración de procesos: evaluación de las estrategias de
emisión de energía y CO2 en la fabricación de hierro en altos hornos y la fabricación de acero al oxígeno,
tesis doctoral, Luleå tekniska universitet.
51. Du, SW, Yeh, CP, Chen, WH, Tsai, CH y Lucas, JA (2015). Características de combustión del carbón pulverizado
dentro de la pista de rodadura del alto horno en varias operaciones de inyección y formas de enriquecimiento
de oxígeno. Combustible, 143, 98–106.
52. Mandal, GK, Sau, DC, Suchandan K. Das y Bandyopadhyay, D. (2014). Un modelo de equilibrio térmico y de
materiales en estado estacionario para un alto horno de fabricación de hierro y su validación con datos
operativos. Transacciones del Instituto Indio de Metales, 67, 209–221.
53. Govindan, D., Chakraborty, S. y Chakraborti, N. (2010). Análisis del flujo de fluidos en colada continua mediante
redes neuronales evolutivas y algoritmos genéticos multiobjetivo. Steel Research International, 81(3), 197–203.
54. Chakraborti, N. (2013). Modelado evolutivo basado en datos. En Informática para la ciencia de los materiales.
e ingeniería, Butterworth-Heinemann, 71–95.
55. Li, M., Zhen, L. y Yao, X. (2017). Cómo leer muchos conjuntos de soluciones objetivas en paralelo
coordenadas. Facultad de Ciencias de la Computación, Universidad de Birmingham, Reino Unido.
Machine Translated by Google
R. Biswas
Resumen El aprendizaje automático ha recorrido un largo camino desde sus inicios. Ha revolucionado
totalmente el escenario industrial. Durante décadas, existe una clara evidencia del uso de sofisticados
sistemas digitales de control y monitoreo por parte de los operadores industriales. Estos implican
una multitud de sensores con funcionalidades definidas. Mediante la adopción del aprendizaje
automático, su manejo se vuelve mucho más fácil. En este capítulo, se destacan las diferentes
estrategias adoptadas a través del aprendizaje automático. Además, se describen los desafíos de la
integración efectiva de datos industriales, incluidos los de sensores, para ML estándar. Aparte de
esto, este capítulo evalúa a los lectores sobre el mantenimiento predictivo; acompañado de
recomendaciones.
1. Introducción
La población mundial está creciendo a un ritmo alarmante. Según el medidor mundial, la población
mundial asciende a 7.800 millones de personas a partir de ahora. Con el aumento de la población
día a día, la demanda de productos también está aumentando. La tasa de crecimiento siempre
estará aumentando sin ningún signo de estancamiento. En consecuencia, la necesidad de productos
esenciales es directamente proporcional al núm. de los consumidores Ahora, para satisfacer la
demanda de productos, tenemos que depender mucho de las piezas de maquinaria relacionadas
con la fabricación. Con maquinaria pesada, se requiere desplegar mano de obra para su control y
operación. Además, las piezas pesadas de maquinaria suelen estar vinculadas a la fabricación a
pequeña escala. Independientemente de sus dimensiones, se debe realizar un mantenimiento
regular de las piezas de maquinaria, lo que permite una oportuna
R. Biswas (B)
Laboratorio de Óptica Aplicada y Fotónica, Departamento de Física, Universidad de Tezpur, Tezpur, Assam, India
Correo electrónico: rajib@tezu.ernet.in
© Los autores, bajo licencia exclusiva de Springer Nature Suiza AG 2022 S. Datta y JP 83
Davim (eds.), Machine Learning in Industry, Management and Industrial Engineering,
https://doi.org/10.1007/978-3 -030-75847-9_4
Machine Translated by Google
84 R. Biswas
Para lidiar con condiciones tan exacerbadas, el aprendizaje automático aparece como un salvador
[1–11]. El aprendizaje automático ha demostrado ser una herramienta robusta para el análisis de datos.
Últimamente, se ha convertido en una parte integral de una industria. Mientras tanto, el advenimiento de
los avances tecnológicos conduce a una abrumadora demanda de producción rentable. Como resultado,
hay un cambio de paradigma hacia la automatización de componentes relacionados con la producción.
Al mismo tiempo, la calidad de la producción se convierte en otra preocupación. Precisamente, en el
largo plazo para lograr la ultraautomatización con una reducción de costos óptima simultánea, la
inteligencia artificial industrial y el aprendizaje automático emergen como rescatadores [6–16]. Se
pueden considerar como uno de los factores impulsores que añaden un impulso extra a la
ultraautomatización [17–20]. Este capítulo ofrece una descripción general del modus operandi del
aprendizaje automático en relación con las sondas industriales. Destaca varias cuestiones clave de ML
relacionadas con la preparación de datos para la gestión de los mismos para lograr un funcionamiento
adecuado. Además, el mantenimiento predictivo a través de ML se describe de manera integral y se
acompaña de futuras recomendaciones.
Machine Translated by Google
Por lo general, las máquinas industriales están equipadas con multitud de sensores o sondas.
Para construir un enfoque de ML efectivo, es imperativo que los datos colosales generados por
los sensores se pulan mediante un tratamiento previo de datos. En consecuencia, podemos
adoptar algunos de los procesos de pretratamiento de datos, como la eliminación de ruido, la
eliminación de la línea de base, los datos periféricos, así como la normalización de los datos [3–9].
Cada uno de estos procesos es necesario para optimizar el aprendizaje automático. Elaboramos
cada uno de ellos, que son los siguientes [3–9].
Máquina
modelado
86 R. Biswas
ya que maneja datos tanto en el dominio del tiempo como en el de la frecuencia. Como resultado, la serie temporal se
puede dividir en dominios de alta y baja frecuencia. A menudo, el ruido acompaña al dominio de alta frecuencia. En tal
caso, la señal se puede filtrar y mejorar si establecemos un nivel de umbral en la parte de alta frecuencia mediante la
alteración de los coeficientes de wavelet en el mismo dominio. Además, también se puede recurrir al análisis
autorregresivo [6–10].
La eliminación de la línea de base es otra forma efectiva de pretratar los datos. A menudo, la señal no está correctamente
alineada y presenta características bastante caóticas. Esto conduce a la representación de datos falsos, así como a la
mala interpretación. Para eliminarlo, se inspecciona el espectro en busca de puntos clave de referencia, seguido de la
construcción del modelo de referencia. Una vez que termina, la línea de base se resta de la serie temporal, lo que da
como resultado una señal corregida y proporcionada. El algoritmo de aprendizaje adaptativo es una de las técnicas más
utilizadas para lograrlo [10-12].
La erradicación del ruido no es el fin en la gestión de los datos proporcionados por los sensores. Igualmente importante
es la identificación adecuada de los valores atípicos que prevalecen en los datos del sensor. Cuando están presentes,
crean dificultad en el análisis sensorial preciso. Para empezar, los valores atípicos se refieren a puntos de anomalías u
observaciones que no encajan en la tendencia de los datos, o podemos referirnos a observaciones dudosas. Si no se
identifican correctamente, pueden conducir a un modelado erróneo de los sistemas. Existen herramientas estadísticas
ampliamente aceptadas como el análisis de regresión; en donde, se mantiene un valor residual estandarizado como
escala comparativa. Además, un mapa de autoorganización, que se basa en la separación de puntos de datos, es otra
herramienta que se puede utilizar en sistemas no lineales. Sin embargo, tenemos que usarlo con precaución.
A veces, ciertos puntos de datos exhiben una desviación considerable de la mayoría, superando así también a los
valores atípicos. Para lidiar con sistemas no lineales tan complejos, podemos usar redes neuronales de función de base
radial (RBFNN). Vale la pena mencionar que la exclusión de los valores atípicos del análisis puede dificultarnos la
comprensión de las características ocultas y el comportamiento de la operación, ya que los valores atípicos son
diferentes del ruido [13–16].
El último paso para el tratamiento previo de los datos es la normalización, que se puede dividir en dos categorías, a
saber, local y global. Mientras que la normalización local se refiere a la escala de la unidad, la normalización global
generalmente procede con la asociación de variables de sensor relativas. La idea detrás de esto es que no permite que
las variables de menor magnitud sean eclipsadas por las de mayor magnitud. Esto también puede
Machine Translated by Google
amplificar el ruido o la información irrelevante inherente a los datos del sensor que puede resultar
complicado para el modelado general del sistema [14–17].
Una vez que los datos se tratan previamente, surge otro componente vital para ML. No es otro que la
extracción de características lo que allana el camino para reducir el tamaño de la dimensión. En este
momento, hemos aprendido que las piezas de maquinaria industrial están asociadas con un gran no.
de sondas Estas sondas o sensores producen datos voluminosos. Con la ayuda de los desarrollos
modernos, surgen muchos sensores novedosos que se involucran en piezas de maquinaria industrial
complejas. Los datos generados por ellos son de alta calidad y precisión. Dado que varios sensores
están conectados, los datos producidos serán multidimensionales y de gran capacidad. Por lo tanto,
se vuelve imperativo analizar estos datos colosales a través de ciertas técnicas especializadas. Entre
ellos, la extracción de características y la reducción de dimensiones son uno de los más utilizados.
Como dice el nombre, identifica patrones definidos y, luego del reconocimiento de patrones, la
herramienta de análisis procede a reducir las dimensiones. Por ejemplo, si tenemos p dimensiones
como resultado de los datos del sensor, entonces lo asignamos a otra dimensión reducida de q a
través de la extracción de patrones distintivos [17–20]. Así, podemos escribir f: Mp ÿ Mq (p q). Debido
a la adopción de este paso único, se produce una reducción sustancial de las cargas computacionales
del siguiente paso
datos
de modelado
redundantes
delen
sistema.
suspenso
Mientras
a través
tanto,
de este
también
paso.
podemos
Para visualizar
mantenereste
el ruido
paso,y los
podemos mencionar varios algoritmos como el análisis multivariante y el análisis de componentes
principales.
88 R. Biswas
o maquinaria. Mientras tanto, SCADA también se traduce en operaciones relacionadas con los
procesos de construcción, que son únicamente impulsados por proyectos. Si observamos el
procedimiento operativo de SCADA, existen ciertas restricciones. Como contiene un par de
niveles en su arquitectura, existe toda posibilidad de retraso de datos/brecha de comunicación
entre los niveles. Aparte de eso, los flujos de trabajo de supervisión se basan principalmente en roles estáticos.
Como resultado, no puede atender directamente a un sistema dinámico. En otras palabras,
podemos denominar SCADA como semimanual. Como tal, el comportamiento de la máquina es
parcialmente fijo, lo que brinda un pequeño margen de detección de anomalías. Otro punto digno
de mención es que las piezas de maquinaria se basan en patrones, que exhiben un comportamiento
dinámico. Este tipo de patrón de alteración pasa desapercibido en el caso de SCADA. Además,
los datos contextuales relacionados con el proceso de fabricación son demasiado grandes para
ser manejados por SCADA. Tomemos un ejemplo. Supongamos que uno de los diversos sensores
de una unidad de producción detecta repentinamente un aumento anormal de la temperatura.
Cuando el enfoque de supervisión está basado en reglas estáticas, no puede identificar el
problema real. Siendo ajeno a la esterilización en curso de la maquinaria, SCADA puede hacer
sonar una alarma que puede ser un caso de falso positivo. En tales situaciones, podemos tener
la utilidad de ML. Los algoritmos de ML prosperan para sincronizar la maquinaria y el flujo de
producción. Para que esto suceda, debe haber una entrada de tecnología operativa (OT), así
como datos de tecnología de la información (TI). El OT abarca datos de la planta de producción,
sensores, controladores lógicos programables, SCADA e historiadores, mientras que TI incluye
planificación de recursos empresariales, comportamientos y calidad, que se acompaña además
de datos del sistema de ejecución de maquinaria. Con una convergencia de datos de OT y TI, ML
puede ayudar en el mantenimiento adecuado. Ahora, cuando pasamos a la Inteligencia Artificial
Industrial, la imagen se vuelve más sofisticada. La adición adicional en términos de "Entrenamiento"
hace que ML sea capaz de detectar anomalías. Además, ayuda en la prueba de correlaciones
para identificar patrones a partir de una gran fuente de datos. Al estar dotado de la capacidad de
manejar el análisis de una gran cantidad de datos en tiempo real, ofrece respuestas factibles
correspondientes a cualquier problema inminente. Al hacerlo, cada activo y sistema está bajo un
escrutinio constante, lo que resulta en el diagnóstico previo de falla o mal funcionamiento. Con la
ayuda de los gemelos digitales, ML puede ofrecer información para futuras acciones.
Aquí, los gemelos digitales se refieren a réplicas de dispositivos físicos en el espacio virtual con
el único objetivo de ejecutar simulaciones antes del despliegue del tipo real. Como tales, funcionan
en sinergia con ML e AI [19, 20].
La prevención del tiempo de inactividad no puede considerarse el objetivo final de la IA. Mantener
la calidad del rendimiento/producción es otra prioridad principal. ML puede ayudarnos en el
pronóstico del deterioro de la calidad. En consecuencia, se puede evitar el desperdicio de materias
primas en caso de que haya indicios de reducción de escala de los productos. Por lo tanto, ahorra
un tiempo valioso invertido en la producción de productos inferiores.
Podemos dividir el ML en dos categorías principales, a saber, supervisado y no supervisado.
aprendiendo. Todo el proceso se representa en la Fig. 2.
Machine Translated by Google
Esta se trata como una de las técnicas más utilizadas en el proceso de fabricación. Por lo general,
lo lleva a uno a un objetivo predefinido. Supongamos que alimentamos la entrada y, por lo tanto,
queremos tener la salida. Ahora, nuestro trabajo principal sería explorar la función de mapeo que
vincularía estas dos variables. Como tal, el aprendizaje automático supervisado requiere la
proliferación de muchas D, a saber, entrada de datos, entrenamiento y definición de datos, y
visualizaciones de datos a través de algoritmos selectivos. La idea principal detrás de esto es
construir una función de mapeo en un nivel de precisión prescrito, otorgando así la capacidad de
predecir salidas a la llegada de nuevas entradas en el sistema. El esquema de ML supervisado se
ilustra en la Fig. 3.
Para empezar, el algoritmo selectivo se ingresa a través de un conjunto de datos de
entrenamiento. Luego, después de varias iteraciones, se logra el resultado definido. Mientras tanto,
cuando se alcanza el nivel deseado de aprendizaje, el proceso de aprendizaje cesa. Como se
discutió en la sección anterior, se señala que el aprendizaje automático supervisado ayuda al
mantenimiento predictivo, que es de suma importancia en la fabricación. Esto se puede lograr a
través de dos formas, a saber, clasificación y regresión. Aunque, la realización se ejecuta en
diferentes niveles, ambos procesos tienen el mismo objetivo de mapear la función que conecta los
datos de entrada y salida. Cuando nos referimos a datos de entrada, nos referimos a datos
relacionados con el proceso de fabricación. Por otro lado, los datos de salida abarcan fallas de
piezas, sobrecalentamiento, retraso de tiempo, etc., como posibles resultados conocidos.
a) Clasificación
La clasificación relaciona atributos especiales con un conjunto de datos bien definido. Aunque se
limita a una respuesta de valor booleano, resulta muy beneficioso para lograr una precisión de nivel
superior. Por ejemplo, podemos citar clasificaciones atribuidas a los filtros de correo electrónico,
que separan los correos electrónicos no deseados de los útiles. Para ejecutar la clasificación, podemos
Machine Translated by Google
90 R. Biswas
adoptar algoritmos que comprendan regresión logística y redes neuronales artificiales. En el caso del
sector industrial, el mantenimiento predictivo contiene una multitud de clasificaciones, ya que tiene
que lidiar con varias causas plausibles de falla de la máquina, detección de grietas, así como fallas
en el funcionamiento de los componentes como alertas de sensores aliados. En tal escenario, se
aplican clasificaciones de clases múltiples para estos posibles resultados que describen problemas
potenciales relacionados con el equipo. Con este objetivo, se evalúa en función de varias variables
que incorporan el estado de la máquina, el mal funcionamiento, etc.
(b) Regresión
La regresión es una de las otras formas en que se realiza el mantenimiento predictivo basado en ML.
Es aplicable cuando existen datos que se encuentran dentro de un rango. La regresión se usa cuando
existen datos dentro de un rango recopilado de sensores. La regresión ayuda a evaluar un factor
importante, es decir, la vida útil restante de un activo. El activo aquí implica cualquier componente o
conjunto de la maquinaria. A través de RUL podemos tener información a priori de la duración del
armado del siguiente componente/ensamblaje.
En general, la regresión lineal se adopta como el algoritmo de aprendizaje automático de uso común,
lo que genera resultados fáciles de interpretar. Como ejemplo de actividad basada en regresión,
podemos citar el ejemplo de la eliminación de incrustaciones de material alimentario de una plataforma
de sobremesa. Este ensuciamiento surge como uno de los obstáculos para la limpieza de equipos
con miras a mantener la higiene en la producción de alimentos. Podemos adoptar un modelo de
regresión de redes neuronales para pronosticar el ensuciamiento que queda en la superficie que
puede eliminarse posteriormente a través de mecanismos de limpieza efectivos.
Machine Translated by Google
Como dice el nombre, este proceso de ML es muy diferente del anterior en el sentido de que
no posee ningún resultado predefinido/esperado. En el ML anterior, tenemos la libertad de
entrenar el algoritmo en sintonía con el resultado esperado. Sin embargo, cuando no estamos
seguros del resultado, se puede recurrir al aprendizaje automático no supervisado. Para
improvisar ML no supervisado, también podemos implementar el agrupamiento y la preparación
de datos.
(a) Agrupación
Sucede que los científicos de datos se encuentran en un dilema cuando la fuente de información
que representa los datos no está definida. Aparte de esto, el resultado ya es desconocido. En
tales casos, se puede llevar a cabo la agrupación para salvar esta situación. A través de la
formación de grupos de datos comunes que comparten atributos definidos, es posible que ML
explore los patrones ocultos. Además, otra característica maravillosa de la agrupación es que
ayuda a disminuir las porciones no deseadas. Más apropiadamente, podemos llamarlo ruido, lo
que implica parámetros irrelevantes que se encuentran dentro de los datos mientras manejamos
variables de datos colosales.
Ahora entramos en otro dominio importante del mantenimiento predictivo. Hasta ahora, hemos
entendido que ML depende en gran medida de los datos. El tipo de datos, así como la calidad,
siguen siendo parte integral de ML, lo que garantiza la participación correcta de los usuarios
finales. Simplifiquemos la discusión tomando el ejemplo de la falla de la máquina monitoreada
por el mantenimiento predictivo. Cuando comenzamos a trabajar en eventos de falla, tenemos
que capitalizar datos anteriores sobre el rendimiento de la maquinaria, además de
complementarlos con registros de mantenimiento. Todo tipo de estos conjuntos de datos
históricos nos permitirán prever cualquier evento que se produzca en el futuro, correspondiente a la maquinaria
Como sabemos, una máquina de producción puede durar varios años según el uso y el
mantenimiento. Esto da como resultado datos históricos para esa duración. Ahora, la principal
preocupación se cuela. Que los datos históricos se remonten al menos al período en el que
hay evidencia del proceso de deterioro de la máquina. Una vez que recopilamos esta
información, debemos tener en posesión otra información estática. Por otra información
estática, nos referimos a las características de la máquina, las propiedades mecánicas, las
propiedades de utilidad habituales, así como las condiciones ambientales de funcionamiento.
Después de acumularlos, tenemos que cubrir los aspectos importantes, que juegan un papel
decisivo en el diseño de la estrategia de mantenimiento predictivo. En consecuencia, algunos
aspectos clave que requieren atención urgente son los siguientes:
92 R. Biswas
(e) Parámetros medibles que significan el estado de salud del componente o de la máquina. (f) Fijar
la precisión y frecuencia de las mediciones.
Teniendo en cuenta estas preocupaciones, podemos ver que tiene que haber una sinergia entre
especialistas de dominio y científicos de datos.
3 Encuesta
En las secciones anteriores, analizamos en detalle los diversos algoritmos de ML, que proporcionan
una base para el mantenimiento predictivo. Dirijamos nuestra atención a la tendencia actual que
adoptan los investigadores, así como a las prácticas adoptadas por las industrias.
En consecuencia, en la Tabla 1, enumeramos muchos trabajos recientes que ejecutan diferentes tipos
de tareas mediante el aprendizaje automático mediante la adopción de diversos algoritmos. La Fig. 4
muestra una ilustración esquemática de sondas industriales para la adaptación de ML. Por ejemplo,
Forte et al. [21] desarrollaron una metodología para monitorear el régimen de mezcla gas-líquido dentro
de las mezclas gas-líquido y gas-sólido-líquido. Para ello, acumularon datos del sensor piezoeléctrico
de emisión acústica. marinar
el análisis en tres regímenes de flujo diferentes, lograron un nivel de precisión del 90% del régimen
operativo tanto en presencia como en ausencia de partículas suspendidas en la mezcla.
En otro trabajo, Simeone et al. [22] habían informado de un mecanismo eficaz de vigilancia y
limpieza de alimentos. Como sabemos, la limpieza adecuada es obligatoria para mantener la higiene en
la industria alimentaria. Sin embargo, requiere una gran cantidad de agua y otros elementos esenciales.
Para optimizar dichos procesos, Simeone et al. utilizó sondas ópticas y ultrasónicas para producir
señales personalizadas y procesamiento de imágenes para ejecutar de manera efectiva el proceso de
limpieza. A través del modelo de regresión de redes neuronales, pudieron predecir el área y el volumen
con una precisión del 98 % y el 97 %, respectivamente. Una vez más, las sondas y los actuadores
inalámbricos son parte integral del establecimiento de un IoT industrial.
Sin embargo, las condiciones variables dan como resultado una pérdida de transmisión entre los nodos.
Mientras tanto, surgen disparidades incontrolables en el enlace de radio en el caso de la línea de visión
así como en el caso de no línea de visión. Para hacer frente a este problema, Bombino et al. [23] ejecutó
un algoritmo ML supervisado con complejidad variable para la inferencia del estado del enlace de radio
mediante la activación de los efectos de la frecuencia de muestreo limitada, la profundidad de bits y el
filtrado de promedio móvil. Por lo tanto, pudieron lograr con éxito una clasificación precisa de los enlaces
de radio LoS/NLoS. En otra hazaña, Orrù et al. [24] informó sobre un modelo de aprendizaje automático
(ML) simple y fácil de implementar para la predicción temprana de fallas de una bomba centrífuga en la
industria del petróleo y el gas. Señalaron que el esquema es económico y confiable. Usando dos
algoritmos de ML que compiten, a saber.
SVM y percepción multicapa, recopilaron datos de sondas de temperatura, presión y vibración y, por lo
tanto, lograron identificar fallas potenciales con alta precisión, lo que generó alertas de predicción de
fallas. Zhang et al. [25] divulgaron una sonda de prueba de corriente de Foucault (EC) en la que
utilizaron bobinas que transportaban corrientes trifásicas como excitación y, para la detección, utilizaron
sensores integrados de magnetorresistencia de túnel (TMR) que miden el campo magnético como
receptor. A través del análisis cuantitativo de imágenes con la ayuda de ML, pudieron mostrar una
excelente sensibilidad en la detección de defectos en las alineaciones horizontales y verticales. Además,
la adaptación de una red neuronal artificial les ayudó a predecir defectos ubicados en el rango de 1 mm.
En otro
Machine Translated by Google
94 R. Biswas
trabajo, Hussain et al. [26] ideó un analizador de partículas, basado únicamente en la dispersión de la luz.
Implementaron una configuración de haz colimado utilizando una cámara electrónica de consumo y
aprendizaje automático. Mediante el uso de un filtro espacial angular de factor de forma pequeño,
acumularon imágenes de alta resolución improvisadas con ML. Este enfoque los llevó a predecir con
precisión el diámetro medio del volumen; allanando así el camino para su uso fuera de un laboratorio
estándar, por ejemplo, en el monitoreo de procesos industriales en línea y en línea.
Mientras tanto, Bowler y colaboradores [27] desarrollaron un procedimiento de aprendizaje automático
mediante la adquisición y el procesamiento de señales relacionadas con la fuerza de empuje, el par, la
emisión acústica y la vibración durante la perforación. En realidad, fue un enfoque multisensorial. Mediante
el uso sólido del análisis de componentes principales, así como la extracción de características, lograron
diagnosticar con precisión el desgaste del flanco de la herramienta. En otro campo de la mezcla, Caggiano
et al. [28] adoptaron sensores ultrasónicos para predecir estados de mezcla. Con una combinación
sinérgica de SVM y clasificadores de regresión, pudieron descifrar mezclas de cuatro niveles, así como el
tiempo restante antes de lograr la mezcla por completo. Según su informe, hay precisiones de clasificación
de hasta el 96,3 % para la mezcla de miel y agua y del 92,5 % para la mezcla de masa de harina y agua.
Simultáneamente, se encontró que los valores de R2 para ambos modelos de regresión eran notables.
En otro trabajo de Escrig et al., se demostró que los equipos de producción de alimentos y bebidas se
pueden monitorear de forma rutinaria mediante el uso de mediciones ultrasónicas y una variedad de
clasificaciones diferentes de aprendizaje automático. Sería posible llegar a una predicción del material de
incrustación en tuberías de plástico y metal con una precisión cercana al 100 %. El trabajo en realidad
podría considerarse como una gran ayuda para reducir los gastos de mantenimiento. Munir et al. [30]
demostró un enfoque de red neuronal basada en datos. Demostraron que los defectos en podrían
clasificarse con gran precisión mediante la adopción de sondas ultrasónicas en las que no hay necesidad
manual previa de extracción de características. De manera similar, la predicción de fallas en las industrias
de petróleo y tuberías es muy importante. Si no se maneja con cuidado, puede causar interrupciones de
la producción a los sectores aliados. Para implementar un método de prueba completa, Lee et al. [31]
demostró un sistema de predicción de fallas para oleoductos y gasoductos. Como sondas, utilizaron
transductores ultrasónicos de largo alcance. A través del enfoque de clasificación de Euclidean-Support
Vector Machines, pudieron mostrar un mecanismo para tomar una decisión sobre la integridad de la
tubería en un entorno de monitoreo continuo.
Según su informe, la precisión de clasificación de SVM es independiente de la función del kernel y de los
datos que emanan de la simulación de tuberías y defectos. Todos estos trabajos se resumen en la Tabla
1.
Es bastante evidente que AI y ML en la industria han producido cambios benéficos considerables, que
eventualmente conducen a una mayor eficiencia. En consecuencia, allana el camino para nuevas
oportunidades de negocio, acompañadas de la apertura de más vías.
Vale la pena mencionar que cuando ML está equipado con IoT, esto permite a los fabricantes facilitar la
productividad y reducir los gastos asociados con el mantenimiento. Los modelos supervisados pueden
ser explotados para adquirir percepciones de
Machine Translated by Google
los datos. La información obtenida hasta ahora ayuda tanto en el pronóstico como en la predicción.
La predicción no solo garantiza un proceso de fabricación fluido y eficiente, sino que también
minimiza los costos relacionados con el mantenimiento y prohíbe la degradación de la calidad de los
productos. También es importante recordar que las técnicas de ML prosperan para explorar
características ocultas, que están implícitas en sistemas complejos. Estos sistemas complejos son
a menudo de naturaleza engañosa junto con leyes físicas esquivas. Como resultado, ML debe tener
una agenda autoajustable continua con capacidad cognitiva; aunque, ML está acompañado por IA
y algoritmos estadísticos avanzados. Podemos enfatizar que debe existir la existencia de un proceso
de validación y un posible proceso de actualización de los parámetros del modelo. Igualmente
importantes son algunos otros problemas, como la adaptabilidad, el período de capacitación, el nivel
de umbral y la configuración de precisión para procesos de ML robustos. Como no podemos
descartar la posibilidad de interferencia entre ellos, debe haber una integración sinérgica para
producir un ML eficaz para el sensor/sonda para la industria.
Si podemos recurrir a la implementación de modelos ML, que son de naturaleza transferible, sería
una gran ayuda para el diseño de sondas industriales, ya que podemos anular la posibilidad de una
reorientación completa de un nuevo entorno o sistema. El desarrollo de modelos de aprendizaje
automático transferibles es otra dirección atractiva para el diseño de sensores novedosos, ya que
puede evitar una reorientación completa para un nuevo sistema o entorno. Sin embargo, todo esto
debe complementarse con algoritmos novedosos, lo que podría dar como resultado un análisis de
sensor mejorado para lograr un entorno de aprendizaje automático saludable.
Referencias
4. Cappadona, S., Levander, F., Jansson, M., James, P., Cerutti, S. y Pattini, L. (2008).
Método basado en ondículas para la caracterización y el rechazo del ruido en cromatografía líquida de alta resolución
acoplada a espectrometría de masas. Química analítica, 80, 4960–4968.
5. Krebs, MD, Tingley, RD, Zeskind, JE, Kang, JM, Holmboe, ME y Davis, CE
(2005). El modelado autorregresivo de datos de sensores analíticos puede producir clasificadores en el espacio de
parámetros del coeficiente predictor. Bioinformática, 21, 1325–1331.
6. Ubeyli, ED y Guler, I. (2004). Análisis espectral de señales Doppler de la arteria carótida interna mediante métodos FFT,
AR, MA y ARMA. Computadoras en Biología y Medicina, 34, 293–306.
7. Pearson, GA (1977). Algoritmo general de reconocimiento de línea base y de aplanamiento de línea base. Diario
de resonancia magnética, 27, 265–272.
8. Espósito, A. y D'Andria, P. (2003). Un algoritmo de aprendizaje adaptativo para el ruido de ECG y la eliminación de deriva
de la línea de base. Redes neuronales, 2859, 139–147.
9. Shusterman, V., Shah, SI, Beigel, A. y Anderson, KP (2000). Mejora de la precisión de la corrección de la línea de base del
ECG: Filtrado selectivo y eliminación del error residual. Computadoras e Investigación Biomédica, 33, 144–160. Algoritmos
2008, 1, 148 10. Krebs, MD, Tingley, RD, Zeskind, JE, Holmboe, ME, Kang, JM y Davis, CE
96 R. Biswas
11. Krebs, MD, Kang, JM, Cohen, SJ, Lozow, JB, Tingley, RD y Davis, CE (2006).
Alineación bidimensional de los datos del espectrómetro de movilidad diferencial. Sensores y actuadores B, 119,
475–482.
12. Crowe, CM (1989). Test de máxima potencia para la detección de errores graves en las restricciones del proceso.
Revista Aiche, 35, 869–872.
13. Mah RSH y Tamhane, AC (1982). Detección de errores graves en los datos del proceso. Aiche
Revista, 28, 828–830.
14. Prescott, P. (1975). Prueba aproximada para valores atípicos en modelos lineales. Tecnometría, 17, 129–132.
15. Muñoz, A., & Muruzábal, J. (1998). Mapas autoorganizados para la detección de valores atípicos. Neurocomputación,
18, 33–60.
16. Zhao, WX, Chen, DZ y Hu, SX (2004). Detección de valores atípicos y un algoritmo robusto de BP contra valores
atípicos. Informática e ingeniería química, 28, 1403–1408.
17. Wold, S., Esbensen, K. y Geladi, P. (1987). Análisis de componentes principales. Quimiometría y
Sistemas de Laboratorio Inteligentes, 2.
18. file:///E:/Book%20Chapter%20on%20Ml/Machine%20Learning%20and%20AI%20in%20 Manufacturing%20-
%20The%20Complete%20Guide.html. Consultado el 1 de agosto de 2020.
19. Moraru, A., Pesko, M., Porcius, M., Fortuna, C. y Mladenic, D. (2010). Uso de aprendizaje automático en datos de
sensores. Revista de informática y tecnología de la información—CIT, 18(4), 341– 347.
20. Zhao, W., Bhushan, A., Santamaria, AD, Simon, MG y Davis, CE (2008). Aprendizaje automático: una herramienta
crucial para el diseño de sensores. Algoritmos, 1, 130–152. https://doi.org/10.3390/a10 20130.
21. Forte, G., Alberini, F., Simmons, M. y Stitt, HE Uso de emisión acústica en combinación con aprendizaje automático:
Monitoreo de la mezcla de gas y líquido en tanques agitados. Revista de Fabricación Inteligente. https://doi.org/
10.1007/s10845-020-01611-z 22. Simeone, A., Woolley, E., Escrig, J. y Watson, NJ Limpieza industrial inteligente:
un enfoque multisensor que utiliza la regresión basada en el aprendizaje automático 23. Bombino, A., Grimaldi, S.,
Mahmood, A . y Gidlund, M. (2020). Clasificación asistida por aprendizaje automático de enlaces de radio LoS/NLoS
en IoT industrial. IEEE Explore 24. Orrù, PF, Zoccheddu, A., Sassu, L., Mattia, C., Cozza, R. y Arena, SA (2020). Enfoque
de aprendizaje automático que utiliza algoritmos MLP y SVM para la predicción de fallas de una bomba centrífuga
en la industria del petróleo y el gas. Sostenibilidad, 12, 4776. https://doi.org/10.3390/su12114776.
25. Zhang, N., Ye, C., Peng, L. y Tao, Y. Sonda de corriente de Foucault con excitación trifásica y sensores TMR de matriz
integrada. Transacciones IEEE sobre electrónica industrial. https://doi.org/10. 1109/empate.2020.2989704.
26. Hussain, et al. (2020). Analizador de tamaño de partículas ultracompacto que utiliza un sensor de imagen CMOS y
luz de aprendizaje automático. Ciencia y Aplicaciones, 9, 21.
27. Bowler, AL, Bakalis, S. y Watson, NJ (1813). Monitorización de procesos de mezcla mediante sensores ultrasónicos y
aprendizaje automático. Sensores, 2020, 20. https://doi.org/10.3390/s20071813.
28. Caggiano, A., Angelone, R., Napolitano, F., Nele, L. y Teti, R. (2018). Reducción de la dimensionalidad de las
características sensoriales mediante el análisis de componentes principales para el aprendizaje automático ANN en
el monitoreo del estado de la herramienta de perforación CFRP. Procedia CIRP, 78, 307–312.
29. Escrig, J., Woolley, E., Simeone, A. y Watson, NJ (2020). Supervisión de la limpieza de incrustaciones de alimentos
en tuberías mediante mediciones ultrasónicas y aprendizaje automático. Control de Alimentos.
30. Munir, N., Kim, HJ, Song, SJ y Kang, SS (2018). Investigación de red neuronal profunda con abandono para
clasificación de fallas ultrasónicas en soldaduras. Revista de ciencia y tecnología mecánicas, 32, 3073–3080.
31. Lee, LH, Rajkumar, R., Lo, LH, Wan, CH e Isa, D. (2013). Sistema de predicción de fallas de oleoductos y gasoductos
que utiliza transductores ultrasónicos de largo alcance y enfoque de clasificación de máquinas de vectores de
soporte euclidiano. Sistemas expertos con aplicaciones, 40, 1925–1934.
Machine Translated by Google
Resumen La causa real del defecto de la cinta es difícil de determinar, ya que el defecto suele revelarse
después de que se completa el proceso de laminado (caliente/frío). En este trabajo se investiga la génesis
del defecto de la astilla en láminas de acero laminadas en frío utilizando dos herramientas populares de
inteligencia computacional utilizadas en la minería de datos, a saber, las teorías de conjunto aproximado y
conjunto difuso. Se ha recopilado una cantidad sustancial de datos desde la etapa de fabricación del acero
hasta el laminado final del producto con el objetivo de extraer conocimiento útil sobre las posibles causas
de la formación de astillas. Mientras que la teoría de conjuntos aproximados ayuda a seleccionar las
variables importantes a las que se puede atribuir la causa del defecto en forma de reglas, estas reglas
reciben una forma lingüística a través de funciones de pertenencia difusa.
Por lo tanto, una base de reglas evoluciona en forma de un sistema de inferencia difuso que constituye
algunas variables importantes, que sirve como un modelo perceptivo para predecir la gravedad de los
defectos de la astilla en el acero laminado en frío. La validación del sistema difuso se realiza mediante
ensayos industriales reales.
1. Introducción
Con el rápido desarrollo de los aparatos electrónicos y la industria del automóvil, la necesidad de utilizar
productos de alta gama sin comprometer significativamente la rigidez de la lámina ha adquirido una
importancia considerable [1]. Una de las características más importantes de las chapas laminadas en frío
es su calidad superficial. Superficie
I.
Investigación y desarrollo de Mohanty, Tata Steel Limited, Jamshedpur, Jharkhand 831007,
India Correo electrónico: iti.mohanty@tatasteel.com
P. Dey
Departamento de Ingeniería Mecánica, Academia de Tecnología, Hooghly 712121, India
S. Datta (B)
Departamento de Ingeniería Mecánica, Instituto SRM de Ciencia y Tecnología (anteriormente
conocido como Universidad SRM), Kattankulathur 603203, Tamil Nadu, India Correo
electrónico: shubhabp@srmist.edu.in
© Los autores, bajo licencia exclusiva de Springer Nature Suiza AG 2022 S. Datta y 97
JP Davim (eds.), Machine Learning in Industry, Management and Industrial
Engineering, https://doi.org/10.1007/978-3 -030-75847-9_5
Machine Translated by Google
98 I. Mohanty et al.
la calidad y la limpieza del material del sustrato deben cumplir requisitos estrictos, especialmente cuando se
utilizan como paneles exteriores de automóviles y en latas de bebidas o alimentos. Mientras que las láminas
delgadas laminadas se someten a rebordeado, como en la fabricación de latas, el borde rebordeado puede
rasgarse si hay inclusiones gruesas. El proceso de producción de alta velocidad de tiras continuas de acero
conduce a la generación de imperfecciones en la calidad de la tira. Esto a menudo crea problemas en la
producción que contribuyen a la mala calidad del producto laminado terminado [2, 3].
Los defectos pueden surgir de un alto contenido de inclusiones no metálicas en la etapa de fabricación del
acero o pueden ser causados durante los procesos posteriores posteriores, como la fundición, el
recalentamiento, el laminado en caliente/frío o el estirado. Las inclusiones pueden ser partículas de óxido,
polvo de fundición, agregados de alúmina, refractarios, etc. [4].
Las astillas son defectos superficiales en tiras de acero que aparecen como aletas de metal alargadas
con algún material atrapado debajo de estas aletas. Los materiales con alto punto de fusión se aglomeran
en el acero durante la fundición y quedan atrapados en la etapa de solidificación inicial de la fundición.
Después del laminado de las láminas de acero, estos materiales aparecen como defectos en cualquiera de
las superficies del acero [5]. Aparece paralelo a la dirección de laminación y normalmente se distribuye
irregularmente sobre el ancho de la banda. Dichos defectos generalmente no se detectan durante las etapas
de procesamiento inmediatas y finalmente aparecen en el producto terminado durante la inspección final.
Esta característica de camuflaje todavía ha mantenido la causa de la formación de astillas en su mayoría
esquiva para la comunidad industrial y académica y ha hecho de su eliminación y reducción uno de los
principales problemas en el dominio del procesamiento del acero. Si bien se han propuesto previamente
modelos que pueden predecir la transferencia de calor [6] y las características microestructurales finales [7]
durante el laminado en caliente o estimar su textura durante el laminado en frío [8, 9]. Estos modelos no
abordan los problemas de la astilla. Una razón probable por la que la causa del defecto de la astilla no se ha
investigado adecuadamente en el mundo académico y las medidas para prevenirlo no se pueden adoptar en
la industria son las complejas interacciones que tienen lugar entre diferentes variables en las sucesivas fases
del proceso de fabricación del acero [10]. ].
Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 99
reciprocidad y complementariedad, los investigadores han tratado de integrar las teorías de conjuntos
aproximados y borrosos en una sola teoría matemática, a menudo denominada modelos aproximados-borrosos [19].
En el presente trabajo, el conjunto aproximado se ha utilizado para seleccionar las variables importantes
de los parámetros de composición y proceso de las diferentes etapas del proceso de fabricación de láminas
de acero para formar reglas significativas si-entonces-si no, mientras que la teoría de conjuntos difusos asigna
funciones de pertenencia difusas a cada uno de los variables seleccionadas, evolucionando así un sistema
de inferencia difuso (FIS) [20, 21]. El FIS se puede implementar en el taller de producción para monitorear y
advertir al departamento de control de calidad en cada etapa de procesamiento y fabricación de acero con
respecto a las trampas que podrían conducir a defectos de la cinta. El FIS ayudará a las personas que
trabajan en el sitio de producción a comprender o percibir mejor el proceso de control debido a su modo
lingüístico de expresar una regla, mientras que las funciones seleccionadas y las reglas derivadas del
conjunto aproximado ayudan a que cada regla sea breve y limite el número de reglas. reglas para unos
pocos. Como paso final de evaluación de los resultados obtenidos, se han utilizado algunos datos adicionales
de la industria siderúrgica para validar el modelo, donde la naturaleza real de los defectos de la astilla podría
predecirse mediante las reglas aproximadas-borrosas desarrolladas en este trabajo con suficiente precisión.
2 conjunto de datos
Después de la recopilación y asimilación, los datos se limpian para eliminar los valores incompletos e
incoherentes. La versión final del conjunto de datos limpio contiene 245 observaciones, cada una de las
cuales representa diferentes láminas de acero con diferentes composiciones procesadas en diferentes
condiciones ambientales y que muestran diferentes niveles de gravedad del defecto de la astilla. Hay 45
variables de entrada y una sola variable de salida. El nombre, abreviatura, media y desviación estándar de
cada variable se dan en la Tabla 1.
3. Metodología
3.1 valor p
Un valor p es una medida estadística que proporciona la cantidad de evidencia presente en el conjunto de
datos que permite rechazar la explicación más común para el conjunto de datos.
Puede considerarse como la probabilidad de obtener un resultado al menos tan extremo como el observado,
dado que la hipótesis nula es cierta. La hipótesis nula se considera el escenario más plausible que se puede
utilizar para explicar un conjunto de datos. Siempre se asume que la hipótesis nula es verdadera a menos
que se demuestre lo contrario. Una hipótesis alternativa predice lo contrario de la hipótesis nula y se dice que
es verdadera si se demuestra que la hipótesis nula es falsa [22].
Un valor p ayuda a determinar la importancia del resultado. Todas las pruebas de hipótesis usan un valor
p para calcular la fuerza de la evidencia (lo que dicen los datos sobre
Machine Translated by Google
Variables de entrada
13 Fluctuación promedio del nivel de moho (%) promedio de mlf 69.7 0,45
dieciséis
Posición media del tope (%) Promedio paso a paso
67.2 8.48
(continuado)
Machine Translated by Google
Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 101
Tabla 1 (continuación)
SL. no. Nombre de atributo (unidad) Abreviatura Desv estándar promedio
Variables de
37 entrada Cromo (% en peso) cr 0.026 0.004
Variable de salida
46 Severidad de astilla Gravedad 3.44 1.01
la población). El valor p ayuda a determinar si las hipótesis son correctas o no. Está directamente
relacionado con el nivel de significación, que es un componente importante para determinar si los datos
obtenidos son estadísticamente significativos o no. La interpretación correcta del valor p es muy
importante. El valor p es un número que se encuentra entre 0 y 1. Un valor p pequeño (ÿ0.05) implica una
fuerte evidencia en contra de la hipótesis nula que obliga a rechazar la hipótesis nula. Un valor p grande
(>0.05) implica evidencia débil contra la hipótesis nula, obliga a no rechazar la hipótesis nula. Los valores
de p que están muy cerca del límite (0.05) podrían ir en cualquier dirección.
La Teoría de Conjuntos Ásperos (RST) fue propuesta por Pawlak [23]. El paradigma se ocupa de la
clasificación y el análisis de información incierta, imprecisa o incompleta y la extracción de conocimiento
de conjuntos de datos de la vida real que tienen estas características naturales. Se considera como uno
de los enfoques más sólidos en el análisis de datos.
Los principios básicos que subyacen a RST consisten en una aproximación inferior y superior de
conceptos en un conjunto de puntos de datos, que definen el dominio de interés.
Un conjunto de datos (o sistema de información) I consiste esencialmente en un conjunto (o universo)
U que contiene varias observaciones (u objetos), cada observación aquí representa una lámina definida
de lámina de acero laminado en frío. Todo objeto se caracteriza por valores definidos para cada uno de
los atributos condicionales del conjunto A, según los cuales se determina el valor de un atributo de
decisión d . Usando el formalismo de la lógica booleana, un algoritmo RST típico busca un conjunto
mínimo de atributos en base al cual el atributo de decisión puede evaluarse con la misma precisión que
el conjunto completo de atributos A. Este conjunto esencial de atributos R se denomina reducción.
Machine Translated by Google
Aproximación superior de X
Aproximación inferior de X
a2
Región límite de X
el concepto x
a1
Entre estas dos regiones se encuentra la región límite BNR(X). Estas regiones se pueden
representar gráficamente en dos dimensiones (correspondientes a dos atributos a1 y a2 en R)
en la Fig. 1.
El conjunto aproximado (RS) es una herramienta excelente para reducir la dimensionalidad
de los datos al eliminar información redundante, tanto en términos de número de observaciones
como de variables (o atributos). El poder de RS se ilustra por su capacidad para formar un
mecanismo de clasificación (también llamado sistema de decisión) donde el resultado (o atributo
de decisión) de una observación puede predecirse a partir de sus variables de entrada (o
atributos condicionales) con la ayuda de if- luego gobierna utilizando el número mínimo de
atributos.
El objetivo del clasificador RS es enmarcar reglas de la forma ÿ ÿÿ donde ÿ
es el antecedente y ÿ es su consecuente. Una regla típica toma la forma:
ÿ ÿ
donde a1, a2,..., ap ÿ R son p atributos condicionales diferentes que toman los valores c1, c2,...,
cp, y al atributo de decisión d se le asigna el valor categórico f . Una regla
Machine Translated by Google
Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 103
Sin embargo, cada observación es diferente de la otra en términos de los valores de sus diversos
atributos, ya sean condicionales o de decisión.
Para obtener reglas de naturaleza general, es necesario dividir el rango de cada variable en
varios sub-rangos y formar reglas basadas no en un solo valor de cualquier atributo, sino en un
rango de valores de una variable (por ejemplo, ai ) denotado por la categoría Este proceso de
ci . partición de variables continuas en categorías discretas se denomina discretización [15]. La
discretización se considera uno de los pasos cruciales de preprocesamiento en la síntesis de
reglas de decisión a partir de datos con atributos de valor real. El problema de la discretización
de los atributos condicionales es NP-difícil y se ha invertido un gran esfuerzo en encontrar
heurísticas efectivas para resolver este problema. Se han propuesto diferentes métodos de
varios campos relacionados, como la estadística, la teoría de la información, la inteligencia
artificial, el reconocimiento de patrones y la lógica formal, para abordar la tarea de discretización
[24]. En el presente documento, la discretización de los atributos condicionales se ha realizado
simultáneamente con la tarea de encontrar la reducción para el conjunto de datos utilizando el
algoritmo de discreducción dinámica [25]. El algoritmo se basa en múltiples muestras de los
datos, donde cada muestra vota por una discreducción de candidato (un posible valor de corte
para la discretización de un atributo en particular). Los votos emitidos en cada atributo se suman
y la parte de los recortes en cada atributo se decide a través del principio de representación
proporcional. Los candidatos más votados forman los límites de discretización de cada atributo,
y los atributos que obtienen uno o más recortes se incluyen en la reducción. Por lo tanto, se
respeta debidamente la interdependencia de la discretización y la selección de atributos a través
de la representación proporcional, y los errores experimentales o el ruido en los datos se filtran
mediante votos de muestra. Sin embargo, la discretización del atributo condicional suele
realizarse a priori sobre la base de una simple regla general: el número de objetos en cada
intervalo debe ser más o menos igual. Esto permite que cada regla recolecte suficientes objetos
para apoyarla. El atributo de decisión en la presente investigación es categórico desde su inicio,
pero con algunas categorías que contienen muy pocos objetos. Por lo tanto, se fusionan algunas
categorías para formar clases más amplias con el objetivo de lograr la paridad en sus respectivas
alturas (es decir, el número de objetos en cada clase).
Hay dos aspectos importantes a considerar al seleccionar una regla. A partir de una
consideración, la regla construida sobre la premisa de muchas observaciones, puede ser válida
aun cuando sea contradicha por algunas observaciones. Formalmente, algunos objetos en I
pueden coincidir con el antecedente de la regla, pero no satisfacer el consecuente de la regla.
Por lo tanto, la probabilidad con la que se puede llegar a la conclusión, dada la condición, se vuelve importante.
La precisión de una regla da una medida de cuán confiable es la regla para sacar una conclusión
particular sobre la base de su evidencia pertinente [26]. Desde una consideración diferente, una
regla solo puede representar una imagen parcial de la información inherente a ella. Se acepta
que una regla es lo suficientemente fuerte si tiene una buena proporción de objetos en su apoyo.
La cobertura de una regla mide la parte de la premisa que utiliza para sacar la conclusión en
cuestión [27].
Machine Translated by Google
ÿ||
Cobertura = (3)
donde ||ÿ|| y ||ÿ|| son los objetos en los que coinciden el antecedente y el consecuente de una regla, y
· es la cardinalidad de
detodo conjunto. Es deseable que una regla sea precisa y que tenga un alto grado
cobertura.
La lógica difusa está más cerca en espíritu del pensamiento humano y del lenguaje natural que el
sistema lógico aristotélico convencional. Es básicamente una lógica polivalente basada en un
razonamiento intuitivo. La filosofía difusa da la bienvenida a la tolerancia y la aproximación en lugar
de la precisión y la exactitud, lo que permite que reine la noción de verdad parcial con valores de
verdad que se encuentran en cualquier lugar entre completamente falso (0) y completamente verdadero
(1). De esta manera, la incertidumbre en los datos y la imprecisión en el conocimiento se representan
matemáticamente a través de un formalismo [28]. La teoría de conjuntos borrosos fue presentada por
primera vez por Lotfi A. Zadeh en la década de 1960 como un medio para modelar la incertidumbre del lenguaje natural
Más tarde, el área de aplicación de la lógica difusa se expandió en un amplio espectro que abarca
productos de consumo, instrumentos electrónicos para automóviles, monitoreo de tráfico y diferentes
sistemas de control.
La lógica difusa es extremadamente adecuada para modelar sistemas donde el conocimiento
impreciso se expresa en reglas lingüísticas si-entonces que involucran atributos categóricos en lugar
de expresiones matemáticas exactas (valores reales). También es aplicable a situaciones que
involucran procesos altamente complejos donde los comportamientos no se comprenden bien. En
particular, los problemas en los que cualquier solución factible es aceptable y la precisión más allá de
un cierto nivel no agrega ningún mérito adicional, se manejan de manera eficiente mediante la lógica
difusa. Tal situación prevalece bastante en los sistemas de materiales complicados, donde las
soluciones exactas son a menudo intratables y las situaciones prácticas establecen el límite al que se
puede implementar una medida precisa. Sin embargo, los esfuerzos realizados para comprender
diferentes fenómenos en el campo del modelado de materiales utilizando FIS aún están lejos de ser
encomiables. Los defectos superficiales del acero dependen de un gran número de factores, muchos
de los cuales son interdependientes debido al dinamismo inherente a los procesos que conducen a su
formación. Además, la mayoría de estos factores están cargados de incertidumbres y ambigüedades.
Estas son las principales razones por las que es realmente difícil predecir la gravedad de los defectos
superficiales que se forman en el acero durante el procesamiento. En esta situación, se puede
considerar apropiado un enfoque de modelado difuso basado en reglas que relacione las posibles
causas de la formación de astillas con la gravedad del defecto. Se prevé que tal
Machine Translated by Google
Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 105
un enfoque revelaría algunos de los principales fenómenos subyacentes en la génesis de los defectos
de la cinta en la producción de acero laminado en caliente o en frío.
El Sistema de Inferencia Difusa (FIS) es una forma de mapear un espacio de entrada a un
espacio de salida utilizando una colección de funciones de membresía difusa y reglas para razonar
acerca de los datos. Un FIS consta de tres componentes, a saber, el fuzzificador, el motor de inferencia
con una base de reglas difusas y el defuzzificador. El propósito de la fuzzificación es asignar las
entradas a valores borrosos entre 0 y 1 utilizando un conjunto de funciones de membresía de entrada.
Las reglas difusas se emplean para desarrollar las salidas difusas a partir de las entradas difusas.
Luego, las salidas se combinan para obtener una distribución de salida difusa en el agregador y,
finalmente, llegan a una única salida nítida a través del proceso de defuzzificación [29].
Para el problema en estudio, el defecto de la astilla no surge de repente, ni es efecto de una razón
o factor aislado. Es el resultado de muchos procesos relacionados, como la fabricación de acero, el
recalentamiento del horno, el laminado en caliente y el laminado en frío, que interactúan en diferentes
proporciones, y solo unos pocos de los muchos niveles paramétricos posibles producen un cierto
grado de gravedad del defecto de la cinta. Para cualquier atributo en particular, no hay un valor de
umbral basado en el cual se tome una decisión sobre la condición del acero.
hoja, ya sea defectuosa o no defectuosa, se puede tomar. Problemas de este tipo pueden
ser modelado utilizando sistemas de inferencia borrosa más de cerca.
Los dos métodos más comunes para desarrollar un FIS son los métodos de Sugeno y Mamdani.
La diferencia básica entre los dos radica en la forma de obtener salidas nítidas a partir de entradas
difusas. El FIS tipo Mamdani es ampliamente aceptado para aplicaciones de soporte de decisiones,
ya que su base de reglas es fácil de interpretar y de naturaleza intuitiva [30, 31]. En el presente
estudio se ha utilizado el método Mamdani para desarrollar el modelo FIS debido a su eficiencia en la
captura del conocimiento experto de una manera intuitiva y similar a la humana. Un Mamdani FIS
consta de cinco capas: capa difusa, capa de producto, capa de implicación, capa de agregación y
capa de desfuzzificación. En la primera capa, los valores de entrada nítidos se convierten en valores
borrosos mediante los MF de entrada para determinar el grado en que estas entradas pertenecen a
cada uno de los conjuntos borrosos apropiados. En este caso, se utilizan MF gaussianas para las
entradas. En la segunda capa se calcula la fuerza de disparo de cada regla. La fuerza de cada regla
se determina evaluando las expresiones de pertenencia en el antecedente de la regla. Esto se logra
mediante los MF de entrada en la capa 1. Si una regla difusa dada tiene más de un antecedente, se
utiliza el operador difuso ("Y" u "O") para llegar a un solo número. Para evaluar la disyunción de los
antecedentes de la regla se utiliza la operación difusa “OR” la cual viene dada por
Crujiente
o Desborrador
X w3 Y es B3
X3 es A3
Entradas
difusas Difuso
wn Y es Bn
Xn es un
4. Resultados y discusión
Se ha realizado una limpieza de datos previa al análisis del núcleo, debido a la presencia de ruido
en los datos recogidos de la planta. Los datos se sometieron principalmente a análisis de valor p.
El parámetro más importante es el que tiene el valor de p más bajo y el parámetro menos
importante es el que tiene el valor de p más alto. De las 45 variables tomadas, 21 se consideran
importantes desde la perspectiva de los criterios mencionados en la Secc. 3.1. Se alistan en la
Tabla 2 con sus respectivos valores de p. Se supone que las otras variables que tienen un valor
p alto tienen una influencia insignificante en la formación de astillas. Hay algunos hallazgos
interesantes desde una perspectiva metalúrgica en este punto. La formación de sulfuros debido a
la presencia de Mn y S en la Tabla 2 puede concebirse como una fuente importante de inclusiones
en el acero, lo que puede considerarse como una posible causa de la formación de astillas. La
exclusión de S a través de la escoria (S Slg), la presencia de MnO y el patrón de adición de Al
(adición de Al) son algunas de las variables importantes responsables de la formación de óxido
durante la fabricación del acero. Se requiere más Al para la desoxidación, mientras que la
concentración de oxígeno disuelto dicta la cantidad de
Machine Translated by Google
Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 107
3 ti 0.034
4 S 0.061
6 MgO 0.101
7 Minnesota 0.11
8 SiO2 0.118
10 HR O2 0.175
11 PAG 0.175
12 RMET 0.192
13 Ni 0.197
14 B 0.243
15 norte 0.302
dieciséis Fe O 0.312
20 TD SH 0.38
21 MnO 0.397
aluminio durante el roscado. Como resultado, se forma una mayor cantidad de productos de
desoxidación como la alúmina. Por lo tanto, la evidencia fáctica sugiere que la formación de astillas
podría no tener ninguna dependencia de la cantidad de contenido de Al. Más bien depende del patrón
de adición de Al que está asociado con la formación de óxido de aluminio y su posible atrapamiento.
El atrapamiento de partículas refractarias desprendidas de la pared del molde es el resultado de la
fluctuación del nivel del molde durante la colada continua, lo que conduce al atrapamiento del fundente
del molde en la región subsuperficial de la hebra de solidificación.
Pueden generarse defectos de astilla en las láminas laminadas en frío [32] a partir de estas inclusiones
atrapadas. Pero el hallazgo importante es que, no la fluctuación máxima, sino el valor promedio es el
factor decisivo que determina la gravedad de los defectos de la cinta. Por lo tanto, se puede decir que
un valor más alto de la fluctuación promedio del molde impacta significativamente en la fluctuación
bastante repentina de la fabricación de acero. Podemos encontrar lo mismo en el caso del peso de la
artesa, donde el peso promedio, en lugar del peso mínimo, es significativo.
El contenido de oxígeno del horno de recalentamiento y el tiempo de retención sugieren la posibilidad
de formación y atrapamiento de óxido durante el laminado. El fenómeno de la oxidación interna, que
conduce a la formación de incrustaciones de óxido de hierro, es muy común en el caso de la astilla, lo
que sugiere que se desarrollan defectos en la losa durante la etapa de recalentamiento en el horno. Él
Machine Translated by Google
la oxidación interna que es una característica predominante de los defectos de la cinta, sugiere que la
región defectuosa podría haber estado expuesta a una temperatura alta durante un período bastante
largo, lo cual es plausible en un horno de recalentamiento. Una temperatura más alta de descarga o un
tiempo de retención más largo de los desbastes en el horno de recalentamiento a menudo implican la
producción de más incrustaciones, con una mayor necesidad de agua de enfriamiento y un mayor riesgo
de dañar los trenes de laminación (debido a tensiones térmicas o acumulación de incrustaciones en la
superficie interna del horno) . El espesor del producto laminado en caliente parece ser el factor más importante.
Sin embargo, por otro lado, la velocidad de colada y/o la posición del tope no parecen tener ningún
efecto sobre el defecto de la cinta. Para resumir los hallazgos más importantes de esta sección: la causa
de la formación de astillas puede atribuirse a diferentes factores distribuidos a lo largo de todo el proceso
de producción de láminas laminadas en frío, en lugar de que una etapa particular del proceso de
producción sea responsable de ello. .
La reducción se calcula utilizando los procedimientos explicados en detalle en la Secc. 3.2. Las variables
en la reducción lograda en el proceso con el número de cortes se muestran en la Tabla 3. Se ve aquí
que Rough Set podría reducir el número de variables importantes a 21. El conjunto de 45 entradas
podría reducirse a 13 variables por el procedimiento de selección de características utilizando el valor p
como se menciona en la Tabla 3. Pero es interesante notar que estas 13 variables no son un subconjunto
estricto de las 21 variables seleccionadas solo con el conjunto aproximado.
Solo 7 de los atributos se encuentran comunes en ambos casos, y son Ar flow, Mn, MgO, RET time,
RH O2, RMET y TD SH. Fácilmente podría decirse que
Tabla 3 Variables y cortes seleccionados en la reducción de los datos completos con 45 atributos
SL. no. Variables Nº de cortes Cortar valores
Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 109
Tabla 4 Variables y cortes seleccionados en la reducción de los 21 atributos con p-valor < 0,05
SL. no. Variables Nº de cortes Cortar valores
6 Fe O 1 18.02
7 Minnesota 1 0.38
8 ti 1 0.068
9 norte
1 25
Tabla 5 Los atributos finalmente seleccionados en el reducto junto con los límites de categoría
SL. no. Variables Nº de L METRO H VH
categorías
1 RMET 4 (ÿÿ, 1078] (ÿÿ, (1078, 1099] (1099, 1110] (1110,ÿ) (170,ÿ)
2 Tiempo de 2 – –
170]
retención
estas variables son las más importantes ya que han sido identificadas por ambos métodos.
Entre estas variables, algunas se dirigen hacia la formación de óxido en el cuerpo metálico antes o después
del laminado en caliente. Para obtener una selección más estrecha de reducción, el algoritmo se aplica a los
datos que consisten en 21 parámetros seleccionados anteriormente. Aquí se encuentra que el número de
variables en la reducción se reduce a 9. Estos 9 atributos (junto con los cortes correspondientes) se describen
en la Tabla 4. Si se comparan estas 9 variables con las 13 variables de la Tabla 3 seleccionadas directamente
de todas variables a través del análisis de conjunto aproximado, se verá que solo 5 variables son comunes
en ambos casos. Esas cinco variables son flujo de Ar, Mn, RMET, tiempo RET y RH O2.
Los ejercicios anteriores de selección de reducción a través de análisis de fraguado aproximado han
proporcionado una guía definitiva para seleccionar las variables relacionadas con la formación de astillas en
láminas laminadas en frío. Teniendo en cuenta los dos conjuntos de reducción dados anteriormente, los
resultados del análisis estadístico y el conocimiento del dominio disponible, se elige el conjunto final de 10
variables importantes como se describe en la Tabla 5.
Machine Translated by Google
El valor de Severity se determina para una regla dándole el valor sugerido por la mayoría de los objetos en
los que se activa la regla (véanse las Ecs. 2 y 3).
Se asignan etiquetas lingüísticas adecuadas a cada intervalo. La precisión y cobertura
(en %) se dan, respectivamente, entre corchetes al final de cada regla.
A continuación se proporciona una lista principal de 7 reglas generadas con al menos un 80 % de precisión y
un 15 % de cobertura:
Conjunto de
reglas 1 1. Si RMET = L, SDOT = L, HR tk = H, RH O2 = M, CaO = L entonces Gravedad = M [85,0,
15.6]
2. Si RMET = L, SDOT = L, HR tk = H, RH O2 = M, CaO = L, S = H entonces Gravedad =
H [81.0, 15.6]
3. Si RMET = L, Ret Time = H, SDOT = H, HRtk = L, RH O2 = M, Ar flow = L, Mn = L, S = H entonces
Gravedad = M [82.6, 17.4]
4. Si RMET = L, Ret Time = H, SDOT = H, HRtk = H, RH O2 = M, Ar flow = L, Mn = L, S = L entonces
Gravedad = M [82.6, 17.4]
5. Si RMET = M, Ret Time = H, SDOT = VH, HRtk = L, RH O2 = M, CaO = L, MgO = L, Mn = H y S = L
entonces Gravedad = H [83.3, 15.4]
6. Si RMET = H, Ret Time = H, SDOT = L, RH O2= M, Ar flow = H, CaO = L, MgO =
H y Mn = H luego Gravedad = M [85.7, 16.5]
7. Si RMET = VH, SDOT = M, HRtk = L, Ar flow = L, MgO = H, Mn = H y S = H
entonces Gravedad = H [83.3, 15.4]
La lista completa de 171 reglas no se proporciona aquí, ya que ocupará un espacio innecesario sin agregar
ninguna información importante. Si el número de reglas es alto, la cobertura total será mejor, lo que definiría el
sistema de manera más completa. Pero será difícil encontrar conocimiento útil y perceptible a partir de series de
reglas abarrotadas [33]. Entonces, desde el punto de vista de la extracción de conocimiento, se prefiere un
conjunto de reglas más corto para obtener una comprensión más clara del sistema. Un estudio detallado de las 7
reglas enumeradas anteriormente describe claramente los efectos de los atributos en la interacción y combinación
mutua. En su conjunto, las reglas dan una idea holística sobre el papel de las variables en la determinación de la
gravedad de los defectos de la cinta en chapas de acero laminadas en frío.
Queda claro a partir de este análisis que tanto la fabricación de acero como el proceso de laminación en
caliente tienen una contribución sustancial hacia la formación de defectos en la cinta en la etapa de acabado de
los productos. Elementos como la tasa de flujo de argón se pueden ajustar cambiando la geometría de la boquilla
y las condiciones relacionadas con la fundición para tener un compromiso factible entre llevar el flujo caliente a la
superficie y evitar demasiada turbulencia en la superficie. A su vez, esto afecta el atrapamiento de inclusiones en
el acero líquido. Las inclusiones provenientes de muchas fuentes, incluido el flujo de argón, las inclusiones de
óxido generadas durante los procesos de fabricación de acero se transportan con el acero que ingresa a la
cavidad del molde y el arrastre de escoria. Si el acero líquido no se limpia en esta etapa, se hace un esfuerzo
para eliminarlo en la etapa de desbaste durante el desbastado. Estas inclusiones superficiales conducen a astillas
en el producto final. El alto contenido de azufre ha resultado ser un parámetro significativo en este análisis. Esto
se debe a que la dirección del flujo del acero fundido se encuentra a lo largo de la interfaz de las fases sólida y
líquida, provocada por la agitación electromagnética en el molde. Este
Machine Translated by Google
Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 111
Sobre la base del conjunto de reglas desarrollado utilizando la teoría de conjuntos aproximados, se
desarrollan tres modelos basados en reglas difusas [34, 35] con 7 reglas, 34 reglas y 171 reglas, respectivamente.
Las reglas que se derivaron usando un algoritmo de conjunto aproximado son las entradas para
construir un motor de inferencia difuso usando funciones de membresía. Las funciones de
membresía son las que definen cómo cada espacio de entrada se mapea en un valor de
membresía (o grado de membresía) entre 0 y 1. Se deriva principalmente de los valores de corte
que se dan en la Tabla 5. En base a eso se mapean las variables en diferentes grupos como bajo
(L), medio (M), alto (H) y muy alto (VH). Aquí se utiliza la función de pertenencia gaussiana
generalizada. Esta función depende de dos parámetros llamados media y varianza, que se
calcula poniendo en la ecuación los valores de corte y el valor mínimo y máximo de los atributos
ÿ
(x ÿ c)2
y = mi 2ÿ2 (6)
ÿ (x ÿ c)2 2
ÿÿ= (7)
ln y
donde (c,ÿ) es un conjunto de centros distintos y vectores de ancho de una curva de pertenencia.
Las diez entradas se denotan como
ÿ (flujo de Ar)
A
donde A ÿ {L, H} (8)
µ(CaO)
B
donde B ÿ {L, H} (9)
µ(Mn)
D
donde D ÿ {L, H} (11)
µ(S)
mi
donde E ÿ {L, H} (12)
Machine Translated by Google
pertenencia
grado
de
0 0 0
30 35 40 45 50 55 60 0 2 4 6 8 10 0.1 0.2 0.3 0.4 0.5
CaO Flujo de argón Minnesota
0.6
pertenencia
grado
de
0.6 pertenencia
grado
de
0.6 pertenencia
grado
de
0 0 0
1140 1160 1180 1200 1220 1240 1260 1280 1300 1040 1050 1060 1070 1080 1090 1100 1110 1120 1 2 3 4 5
SDOT RMET Contenido de HR O2
Fig. 3 Funciones de pertenencia para a CaO, b Flujo de Ar, c Mn, d SDOT, e RMET, f RH O2
0.8
0.6
0.4
pertenencia
grado
de
0.2
1 2 3 4 5 6 7
todos los defectos
Machine Translated by Google
Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 113
Regla # Flujo de Ar CaO MgO Mn S HRtk RHO2 SDOT Ret time RMET Gravedad
1 L HML LM
2 L H HML LM
3 L L H LMH H LM
4 L L L HMH H LM
5 L LHL LM VH HMH
6 H L S.S ML H HM
7 L HHH L METRO VH H
La conexión de estas entradas con la salida consta de cuatro funciones de pertenencia (baja, media, alta y muy
alta). Las reglas difusas siempre se escriben en forma de "Si (entrada 1 es función de pertenencia 1) y/o (entrada
2 es función de pertenencia 2) y es función de pertenencia de salida)", que se proporciona en…
forma
entonces
tabular(salida
en la
Tabla 6. Los resultados de varias reglas se suman para generar un conjunto de "salidas difusas".
Usando el operador de conjunción (AND) en los antecedentes de las reglas, se calcula la fuerza de disparo de la
regla. El antecedente de cada regla describe en qué medida se aplica la regla, mientras que la conclusión asigna
una función difusa a la variable de salida.
Después de combinar la consecuencia de las reglas mediante la combinación de la fuerza de la regla y la función
de pertenencia de salida, se logra la distribución de salida.
Por último, es necesario llegar a una única salida nítida del FIS. Este número nítido se obtiene en un proceso
conocido como defuzzificación. Convierte la salida difusa del motor de inferencia en nítida utilizando funciones
de pertenencia análogas a las utilizadas por el fuzzificador. Aquí se ha utilizado el método del centroide como
defuzzificación, donde el valor nítido de la variable de salida se calcula encontrando el valor de la variable del
centro de gravedad de la función de pertenencia para el valor borroso. Da el centro del área bajo la curva.
Las reglas desarrolladas por los análisis RS y la función de pertenencia desarrollada se utilizan para crear un
sistema de inferencia difuso (FIS) para predecir la gravedad de las astillas, donde los diez atributos finalmente
seleccionados como importantes se utilizan como parámetros de entrada y la gravedad del defecto es considerado
como salida. Para los tres conjuntos de reglas, como se describió anteriormente, se desarrollan tres FIS
separados. Los gráficos de superficie que muestran el papel de las variables, generados utilizando el FIS a partir
de 171 reglas, se muestran en la Fig. 5.
Los gráficos de superficie generados en algunos casos resultan ser bastante complicados. Pero las tendencias
generales de los gráficos muestran que además de los parámetros de rodadura relacionados con la formación
de óxido en la superficie, el contenido de CaO y S juega un papel importante. Estos estudios
Machine Translated by Google
3.6 3.6
3.5
3.4 DefectoGravedad
3.4 3.45
DefectoGravedad
DefectoGravedad
3.4
3.2 3.2
3.35
60 0.02
6
50 10 60 0.015 0.5
4 50 0.4
40 5 0.01 0.3
2 40 0.2
CaO 30 30 0.005 0.1
0 Flujo de argón MgO (% en peso) CaO (% en peso) Azufre (% en peso) Manganeso (% en peso)
3.5 3.54 4
3.52
3.4
3.8
3.5
Gravedad
defecto
del
3.3 Gravedad
defecto
del
Gravedad
defecto
del
3.48
3.6
3.2 3.46
3.1 3.44
3.4
1120 1120
600 5 1100 1100 1300
4 1080 600 1080 1250
400 3
2 1060 400 1060 1200
Tiempo de 200 1 1040 1040 1150
200
retención de Recalentamiento del contenido de O2 Temperatura de salida del molino de desbaste Tiempo de retención de losa (min.) Temperatura de salida de la losa
Temperatura de salida del molino de desbaste (deg.
(grado
losa (min.) C) C)
Fig. 5 Gráfica de superficie de la gravedad del defecto frente a flujo de CaO y Ar, b CaO y MgO c S y Mn, d tiempo Ret y RH
O2, e RMET y tiempo Ret, f RMET y SDOT
utilizando el punto FIS hacia la producción de acero limpio junto con el control de los parámetros
de laminación en caliente, en la dirección de reducir la formación de capa de óxido.
Las predicciones de los tres Sistemas de Inferencia Fuzzy se muestran en las Figs. 6, 7 y 8.
No hay mucho que comparar entre las predicciones, ya que en todos los casos las deficiencias
son similares. Parece que las predicciones para una severidad más alta son consistentes en todos
los casos, mientras que es bastante pobre en el caso de una severidad más baja, particularmente
en el caso del nivel de severidad 1. Esta observación parece esperada ya que en el caso de una
severidad más baja del defecto se vuelve más difícil evaluar la causa del defecto. En esta situación
las relaciones entre las variables son oscuras y difíciles de expresar a través de las reglas. En el
caso de las reglas generadas a partir de los análisis RS, se pudo encontrar que el número de
reglas para condiciones de baja severidad es bastante bajo. Por lo tanto, los FIS generados no
podrían usarse con éxito para detectar la baja gravedad de los defectos.
Machine Translated by Google
Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 115
Para la verificación experimental del modelo anterior para predecir la severidad de los defectos, se
recolectan cinco muestras con diferente composición e historial de proceso.
Las muestras se limpiaron y se realizaron estudios bajo microscopía electrónica de barrido (SEM) junto
con análisis EDX. Se informan micrografías representativas y análisis químicos de las astillas para los
cinco casos. La Tabla 7 muestra el historial de composición y proceso de las muestras junto con su
gravedad. El nivel (bajo, medio, etc.) de los atributos según los análisis RS se describen entre paréntesis.
La Tabla 8 muestra el resultado de los análisis EDX que describen la composición química de los
defectos de la cinta. Las composiciones químicas indican claramente que las astillas son básicamente
óxidos de diferentes elementos. La existencia de Ca en todos los casos indica claramente que el CaO de
la escoria juega un papel importante en la formación de la escoria, que también fue identificado por los
esfuerzos de extracción de datos. En la Tabla 7, se ve que el Cao en la escoria es alto para todos los
casos. Aquí, la principal diferencia entre las tres composiciones de la astilla es que el contenido de Al, Si,
Mn y Fe variaba de un caso a otro. Aunque el SiO2 no se identificó como un parámetro importante,
parece tener presencia en dos de los tres casos. De manera similar , Al2O3 es otro óxido, que tiene
algún papel que desempeñar.
Por lo tanto, el resultado experimental también indica que la formación de astillas no es el efecto de
ningún atributo en particular o ningún proceso en particular. Es un efecto acumulativo de diferentes
óxidos, incluidos los óxidos de hierro, que pueden surgir durante el proceso de laminación en caliente.
Estos óxidos son el resultado de la difusión de oxígeno y la precipitación de FeO bajo condiciones de alta
Machine Translated by Google
(L) (H) (L) (L) (H) (L) (H) (L) (H) (L) (METRO)
2 7.2 58,26 5,01 0.18 0,007 2,6 1.49 1202 142 1060 3
(H) (H) (H) (L) (H) (L) (L) (METRO) (L) (METRO) (H)
3 5.3 50,35 2,45 0.17 0,006 3,0 5.80 1209 159 1096 2
(L) (H) (H) (L) (H) (L) (H) (H) (L) (H) (METRO)
4 4.6 58,34 4,24 0.14 0.005 4.0 4.92 1142 201 1106 2
(L) (H) (H) (L) (L) (H) (H) (L) (H) (H) (METRO)
5 5.1 32.11 4.31 0.50 0,007 3,8 5.11 1153 403 1055 3
(L) (L) (H) (L) (H) (H) (H) (L) (H) (METRO) (H)
temperatura. Estos precipitados se encuentran en estado sólido, compuestos principalmente por FeO, a
menudo acompañados de MnO y SiO2.
En los casos de las muestras 3, 4 y 5, la cantidad de Fe en las astillas es bastante alta, lo que indica la
presencia de óxidos de hierro. La figura 9a-e muestra las apariencias físicas de las astillas bajo SEM. Una
vez que se detecta la oxidación interna, eso podría ayudar a separar algunas de las fuentes probables de
formación de astillas y a identificar el origen plausible de las astillas. Se sabe que los óxidos internos se
forman solo a temperaturas elevadas donde la concentración de oxígeno es lo suficientemente alta y se
exponen durante un período de tiempo bastante prolongado. Dichas temperaturas generalmente ocurren
durante el proceso de fundición de desbastes, recalentamiento de desbastes, antes del laminado en caliente
y también en las primeras etapas del laminado en caliente o desbaste.
6. Conclusión
Se emplearon dos herramientas de inteligencia computacional de última generación, a saber, las teorías de
conjuntos ásperos y borrosos, para determinar la causa de los defectos de la astilla en la formación de
láminas de acero laminadas en frío o en caliente. Mientras que la Teoría de conjuntos aproximados (RST)
ayuda a determinar las variables importantes responsables de la formación de astillas además de la evidencia
estadística, se utiliza un sistema de información difusa (FIS) definido sobre reglas derivadas de RST para predecir
Machine Translated by Google
Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 117
la gravedad de los defectos. La validación del modelo basado en datos se realiza a través de ensayos experimentales
seleccionados en la industria. El estudio puede concluir con las siguientes observaciones resumidas.
1. A pesar de un estudio riguroso, la causa raíz de la formación de astillas no parece fácil de determinar. Las astillas en
la superficie de las tiras de acero laminado en frío pueden deberse a inclusiones extrañas o debido a la formación
de óxidos de hierro.
2. Las variables importantes pertenecen a todas las fases del procesamiento del acero, lo que lleva a la conclusión de
que ninguna variable de proceso o etapa de procesamiento en particular podría identificarse como el caldero
independiente de defectos de la astilla.
3. Las reglas generadas muestran claramente que tanto el proceso de fabricación del acero como el recalentamiento o
el desbaste juegan un papel fundamental en la formación de la astilla. En algunos casos, no es un solo factor, sino
una gran cantidad de factores diferentes que actúan juntos y dan lugar a defectos de la astilla de diversa gravedad.
4. Entre las variables del proceso, los parámetros de laminación en caliente como el contenido de oxígeno en el horno
de recalentamiento (RH O2), la temperatura de salida del desbaste plano (SDOT) y la temperatura de salida del tren
de desbaste (RMET) parecen desempeñar funciones más determinantes y sensibles en la generación de astillas.
5. Si bien el valor p es una medida estadística clásica para juzgar la importancia de los parámetros de un anfitrión en la
predicción de alguna variable objetivo donde su interdependencia es más bien lineal, la reducción de conjunto
aproximado es capaz de seleccionar los parámetros importantes cuando el modo o patrón de dependencia no es
conocido.
6. Las reglas derivadas a través del análisis de conjunto aproximado brindan un conjunto de reglas con cardinalidad o
longitud variables, que se pueden usar para predecir la clase de una variable objetivo.
7. El Sistema de Inferencia Difusa es una herramienta sólida para predecir la gravedad de
astillas de un conjunto de entrenamiento de tamaño razonable.
8. La limitación del modelo Rough-Fuzzy en la predicción de defectos de menor gravedad en la cinta se puede atribuir a
la incertidumbre manifiesta en el sistema, aunque requiere una investigación más profunda.
Referencias
1. Raja, BV (2006). Situación de la industria de chapas de acero laminadas en frío en la India. Steel World: VELA.
2. Bleck, W., Bode, R. y Hahn, FJ (1990). Procesamiento, propiedades y aplicación de aceros libres de intersticiales. En R. Pradhan
(Ed.), Metalurgia de productos de acero desgasificados al vacío (págs. 73–90).
Warrendale, Pensilvania: TMS.
3. Tokunaga, Y. y Yamada, M. (1985). Método para la producción de chapa de acero laminada en frío.
Tener una capacidad de embutición súper profunda. Patente de EE. UU. 4, 504, 326.
4. Sanam, V., Patra, PK, Siddabathula, S., Das, R. y Usharani, V. (2009). Reducción de astillas por inclusiones no metálicas en
colada continua. Conferencia y exposición sobre ciencia y tecnología de materiales de 2009, págs. 1031–1041.
Extracción de la génesis de los defectos de la astilla a través de teorías aproximadas y de conjuntos difusos 119
6. Saha, JK, Kundu, S., Chandra, S., Sinha, SK, Singhal, U. y Das, AK: modelado matemático del enfriamiento de los rodillos
y la tensión superficial de los rodillos. ISIJ Internacional, 45(11), 1641–1650 (2005).
El Instituto del Hierro y el Acero de Japón.
7. Kundu, S., Mukhopadhyay, A., Chatterjee, S. y Chandra, S. (2004). Modelado de microestructura y transferencia de calor
durante el enfriamiento controlado de alambrón bajo en carbono. ISIJ Internacional, 44(7), 1217–1223.
10. Mohanty, I., Bhattacherjee, D.: Red neuronal artificial y su aplicación en la industria del acero.
En: Enfoques computacionales para el diseño de materiales: aspectos teóricos y prácticos, págs.
267–300. IGI Global (2016).
11. Mohanty, I., Bhattacharjee, D. y Datta, S. (2011). Diseño de láminas de acero laminadas en frío con propiedades de tracción
optimizadas utilizando ANN y GA. Ciencia de materiales computacionales, 50(8), 2331–2337.
12. Mohanty, I., Datta, S. y Bhattacharjee, D. (2008). Correlación composición-procesamiento-propiedad de láminas de acero
laminadas en frío usando redes neuronales. Materiales y procesos de fabricación, 24(1), 100–105.
13. Mohanty, I., Sarkar, S., Jha, B., Das, S. y Kumar, R. (2014). Sistema de predicción de propiedades mecánicas en línea para
acero laminado en caliente. Fabricación de hierro y fabricación de acero , 41(8), 618–627.
14. Dey, S., Datta, S., Chattopadhyay, P. y Sil, J. (2008). Modelado de las propiedades del acero viaje utilizando afis: un enfoque
distribuido. Ciencia de materiales computacionales, 43(3), 501–511.
15. Dey, S., Dey, P., Datta, S. y Sil, J. (2009). Enfoque de conjunto aproximado para predecir la resistencia y la ductilidad del
acero de viaje. Materiales y procesos de fabricación, 24(2), 150–154.
16. Datta, S. y Banerjee, M. (2005). Modelado neuro-borroso de la resistencia de aceros hsla procesados termomecánicamente.
Revista india de física, 79, 473–483.
17. Jelonek, J., Krawiec, K. y Slowi ´nski, R. (1995). Reducción aproximada de atributos y sus dominios para redes neuronales.
Inteligencia computacional, 11(2), 339–347.
18. Zimmermann, HJ (2011). Teoría de conjuntos borrosos y sus aplicaciones. Ciencia y negocios de Springer
Medios de comunicación.
19. Pal, SK y Mitra, P. (2004). Generación de casos utilizando conjuntos aproximados con representación difusa.
IEEE Transactions on Knowledge and Data Engineering, 16(3), 293–300.
20. Jang, JS (1993). Anfis: sistema de inferencia difusa basado en redes adaptativas. Transacciones IEEE
on Systems, Man, and Cybernetics, 23(3), 665–685.
21. Majumdar, G., Oraon, B., Laha, A., Ghosh, S., Mohanty, I. y Datta, S. (2010). Desarrollo de reglas basadas en la influencia
de los parámetros de soldadura en el proceso fcaw a partir del modelo ann. Revista internacional de mecatrónica y
sistemas de fabricación, 3(1–2), 155–164.
22. Ernst, MD, et al. (2004). Métodos de permutación: una base para la inferencia exacta. ciencia estadistica,
19(4), 676–685.
23. Pawlak, Z. (1982). Conjuntos ásperos. Revista internacional de informática y ciencias de la información,
11(5), 341–356.
24. Bazan, JG, Nguyen, HS, Nguyen, SH, Synak, P., Wróblewski, J.: Algoritmos de conjunto aproximado en problemas de
clasificación. En Métodos y aplicaciones de fraguado aproximado (págs. 49–88). Springer (2000).
25. Dey, P., Dey, S., Datta, S. y Sil, J. (2011). Discreducción dinámica usando conjuntos aproximados. Aplicado
Informática blanda, 11(5), 3887–3897.
26. Silverstein, C., Brin, S. y Motwani, R. (1998). Más allá de las canastas de mercado: generalización de las reglas de
asociación a las reglas de dependencia. Minería de datos y descubrimiento de conocimientos, 2(1), 39–68.
27. Duntsch, I. y Gediga, G. (2000). Análisis de datos de conjunto aproximado: un camino hacia el descubrimiento de
conocimiento no invasivo. Methodos Publisher, Londres, Reino Unido.
28. Zadeh, LA (1965). Conjuntos borrosos. Información y Control, 8(3), 338–353.
29. Negoi¸tÿa, CV y Ralescu, DA (1975). Aplicaciones de conjuntos borrosos al análisis de sistemas. Saltador.
Machine Translated by Google
30. Guney, K. y Sarikaya, N. (2009). Comparación de los modelos de sistemas de inferencia difusos de mamdani y sugeno
para el cálculo de la frecuencia resonante de antenas microstrip rectangulares. Progreso en la investigación
electromagnética, 12, 81–104.
31. Kaur, A. y Kaur, A. (2012). Comparación de sistemas de inferencia difusa tipo mamdani y tipo sugeno para sistemas de
aire acondicionado. Revista internacional de computación blanda e ingeniería (IJSCE), 2(2), 323–325.
32. Záhumensk `y, P. y Merwin, M. (2008). Evolución de los defectos artificiales desde los desbastes hasta los productos
laminados. Revista de Tecnología de Procesamiento de Materiales, 196(1–3), 266–278.
33. Wu, WZ, Mi, JS y Zhang, WX (2003). Conjuntos ásperos difusos generalizados. Información
Ciencias, 151, 263–282.
34. Ross, TJ, et al. (2004). Lógica difusa con aplicaciones de ingeniería (vol. 2). Wiley en línea
Biblioteca
35. Setnes, M., Babuska, R., Kaymak, U. y van Nauta Lemke, HR (1998). Medidas de similitud en la simplificación de la base
de reglas difusas. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 28(3), 376–386 (1998).
Machine Translated by Google
Resumen La investigación en ciencia de los materiales comienza en los laboratorios con la prueba de
las propiedades de los metales y sus aleaciones, las propiedades del material según el tipo de aditivos
y la microestructura, así como los cambios en estas propiedades que tienen lugar bajo la influencia del
procesamiento. El siguiente paso es el modelado y simulación de procesos para investigar la posibilidad
de su control y seguimiento en condiciones de producción. Algunos estudios se relacionan con un
proceso en curso, y luego la investigación se enfoca en el control de calidad del proceso, la optimización
y la detección de irregularidades y defectos del producto. En todas las etapas de la investigación, es
posible aplicar los métodos de aprendizaje automático en la medida elegida por el analista o experto.
Estos métodos se pueden utilizar para obtener conocimiento sobre los fenómenos que ocurren, la
planificación de la investigación y el diseño de procesos de producción (de acuerdo con el 4º paradigma
de la ciencia), pero también pueden ser modelos basados en datos dada la posibilidad de control
autónomo de un aspecto seleccionado. de producción (de acuerdo con la idea de la 4ª revolución
industrial). Este documento presenta una descripción general de los métodos de aprendizaje automático
basado en ejemplos tomados del campo de la ciencia de los materiales discutidos en términos de
formalización de materiales, procesos y conocimientos.
La ciencia se puede definir mediante cuatro paradigmas: primero: evidencia empírica, segundo: teoría
científica, tercero: ciencia computacional y cuarto: ciencia de datos [1]. Entrando en la era de la Industria
4.0, forzando el control automático y la toma de decisiones autónoma en los sistemas físicos cibernéticos,
los dos últimos paradigmas adquieren un nuevo significado. Así como no hay
© Los autores, bajo licencia exclusiva de Springer Nature Suiza AG 2022 S. Datta y JP 121
Davim (eds.), Machine Learning in Industry, Management and Industrial Engineering,
https://doi.org/10.1007/978-3 -030-75847-9_6
Machine Translated by Google
modelado numérico sin cálculos informáticos, no hay toma de decisiones autónoma sin aprendizaje
automático. La ciencia de datos define el arte del procesamiento de datos y la adquisición de
conocimientos. Las posibilidades que nos brinda el aprendizaje automático parecen proporcionar nuevos
instrumentos de investigación que, como un microscopio alguna vez, pueden proporcionar conocimientos
bastante nuevos de muchos científicos. Esto no siempre está asociado (aunque es la forma más obvia
y fiable) con la obtención de nuevos datos directamente de los procesos industriales. A menudo, los
datos de estudios experimentales ya realizados, debidamente sintetizados y combinados, pueden
proporcionar nuevas conclusiones y resultados durante la extracción del archivo existente. Sin embargo,
esto no sería posible sin el procedimiento estructurado para la obtención de estos datos proporcionado
por el régimen de ciencia de datos, así como una interpretación posterior a través del prisma del
conocimiento del dominio.
El apoyo a la decisión, que es el paradigma de la Industria 4.0, se aplica tanto a la producción como
al procesamiento de metales. Considerando el concepto de Industria 4.0 desde la perspectiva de la
metalurgia, las características de esta área son importantes. Al percibir la industria metalúrgica a través
del prisma de los procesos, debe tenerse en cuenta que la producción es complicada y consta de
muchas etapas, una gran cantidad de parámetros del proceso determinan la calidad del producto y los
fenómenos que ocurren durante el procesamiento del material generalmente no son -lineal y difícil de
modelar utilizando métodos deterministas (numéricos). Dondequiera que los procesos metalúrgicos no
se puedan modelar usando herramientas CAx, es decir, modelos deterministas (numéricos), o donde
sea demasiado costoso computacionalmente y consuma mucho tiempo, se pueden crear modelos
estocásticos para respaldar la toma de decisiones usando técnicas de minería de datos.
Fig. 1 Infraestructura de hardware y software de los sistemas de aprendizaje automático en la Industria 4.0
interfaz gráfica de usuario, donde el administrador del sistema o el experto en tecnología ingresan datos
basados en conjuntos de formularios dedicados previamente preparados.
El segundo grupo de métodos no requiere intervención humana directa. El primer paso puede ser
obtener datos basados en las hojas de datos electrónicas proporcionadas (p. ej., resultados
experimentales o de investigación). Los métodos automáticos generalmente requieren el uso de
complementos dedicados (bibliotecas de software automáticas que permiten la adquisición de datos de
sistemas de TI externos). El tercer grupo de métodos de adquisición de datos se basa en sensores de
hardware, que alimentan directamente la capa de la base de datos. Los métodos de automático
Machine Translated by Google
la adquisición de datos suele utilizar la funcionalidad implementada en la segunda capa del sistema
(capa de lógica empresarial), como los analizadores de datos sin procesar, necesarios para obtener
datos limpios, normalizados y filtrados de las fuentes en las que operan. Estos tipos de mecanismos
además aseguran la consistencia e integridad de los datos y monitorean las fuentes para su
disponibilidad. La capa de lógica empresarial del sistema de TI también incluye los componentes clave
de los métodos de aprendizaje automático. Según el método utilizado en el sistema, estos pueden ser
métodos de entrenamiento, prueba, validación de métodos de clasificación, redes neuronales o árboles
de decisión, u otros métodos, como la máquina de vectores de soporte (SVM) o el algoritmo de
agrupamiento discutido en este estudio. Por otro lado, los componentes de este nivel utilizan como
base para su funcionamiento la estructura y contenido de la tercera capa inferior que opera en este
tipo de sistema de información.
Es una capa relacionada con los modelos de almacenamiento de datos e información. Podemos
encontrar en estos modelos que tanto los datos sin procesar que se originan en, por ejemplo, sensores
o mediciones de corriente, datos colocados en un modelo universal, resultantes de la operación de
mecanismos de análisis, como datos típicos de métodos de aprendizaje automático específicos,
generados con el propósito de optimizar y procesamiento efectivo de datos por estos métodos. Los
resultados de la operación de dichos sistemas se devuelven al usuario desde la capa de lógica
comercial (como los resultados de los métodos ML) a la capa superior del sistema (capa de interfaz),
donde generalmente se presentan en la interfaz gráfica de usuario (para el sistema). usuarios) o en
formato digital (p. ej., en forma de servicios web) para su posterior uso automático en sistemas de
producción más complejos (operando según, p. ej., el modelo Industry 4.0). Este tipo de esquema
general de la arquitectura del sistema se puede ampliar para incluir componentes adicionales, lo que
permite su integración con fuentes de datos adicionales y específicas, y también para que estén
disponibles en un proceso de procesamiento de información más amplio.
Como puede verse a partir de las consideraciones anteriores, el cuarto paradigma de la ciencia en
la cuarta revolución industrial es principalmente la adquisición, el procesamiento y el almacenamiento
de datos, la extracción de datos, el modelado de datos y, en consecuencia, la implementación de
modelos basados en datos. Este estudio se centra principalmente en la creación de modelos y
aprendizaje automático y también en la posterior formalización del conocimiento adquirido para su posterior uso y
reutilizar.
2 métodos
Por lo general, la literatura relacionada con los métodos de aprendizaje automático enumera los
métodos en la división supervisada y no supervisada [2–4]. El aprendizaje supervisado permite la
predicción de variables cualitativas (clasificación) o cuantitativas (regresión). Esta situación ocurre
cuando tenemos los resultados (respuestas y medidas) de una variable dependiente y somos capaces
de formular hipótesis adecuadas. En la ciencia de los materiales, el ejemplo más común de aprendizaje
supervisado es la predicción de las propiedades de los materiales en función de su especificidad en
forma de microestructura o composición química. Cuando buscamos objetos similares, grupos de
señales o áreas de densidad similar, estamos hablando de métodos de aprendizaje no supervisado;
tales ejemplos pueden
Machine Translated by Google
Este artículo adopta el orden de las secuencias de investigación desde los materiales
(laboratorio) pasando por los procesos (condiciones parcialmente controladas) hasta la
implementación de modelos en forma de modelos de inferencia. Cada bloque de investigación
tiene condiciones diferentes y muchas veces el punto de vista del analista es diferente, así como
el propósito del modelado. El artículo resume muchos años de trabajo sobre la aplicación de
métodos de aprendizaje automático en la adquisición de conocimiento tecnológico y su
formalización para las necesidades de la ingeniería de materiales y la metalurgia. La Tabla 1
resume las aplicaciones de estas técnicas, que se ampliarán más adelante en el artículo.
• inducción de árboles de decisión: CART, CHAID, random forest y boosted trees, • análisis de
conglomerados (k-means), • teoría de conjuntos aproximados, • aprendizaje automático: SVM y
redes neuronales.
Los modelos obtenidos se pueden utilizar para la inferencia en los sistemas de soporte de
decisiones. Son modelos de inferencia en términos de sistemas de gestión del conocimiento. Difieren
en la estructura, a menudo también en la precisión, pero se complementan entre sí y brindan al
usuario final varias posibilidades de uso. El lector encontrará una discusión sobre su funcionalidad y
los beneficios de usar métodos particulares en las publicaciones mencionadas anteriormente.
El marco que completa la investigación relacionada con la extracción de conocimiento a partir de
datos es la formalización de este conocimiento.
4 Materiales
Esta sección dedicada a los materiales dará ejemplos de investigaciones sobre la aproximación de
propiedades basadas en composición química, parámetros de procesamiento o microestructura y
también de investigaciones relacionadas con la identificación de componentes de aleaciones y
clasificación de materiales. Se utilizaron las siguientes herramientas: (1) herramientas estadísticas,
regresión, (2) modelos de regresión por partes, (3) MARSplines, (4) árboles de decisión, (5)
Machine Translated by Google
bosque aleatorio, (6) árboles potenciados, (7) redes neuronales artificiales, (8) máquina de vectores
de soporte (SVM), (9) teoría de conjuntos aproximados, (10) agrupamiento y, finalmente, (11) modelos
neurodifusos [5, 6].
El problema más frecuente desde la perspectiva de la ingeniería de materiales es predecir las
propiedades futuras del producto terminado para controlar y optimizar el proceso. La calidad del
producto se puede determinar directamente estimando las propiedades mecánicas o indirectamente
estimando la composición química y la microestructura. La idea de Industria 4.0 propone monitorear el
proceso tecnológico comparando las operaciones actuales con el resultado esperado, calculado en
paralelo a partir del modelo virtual para mantener el nivel de calidad esperado. En otras palabras, es
la predicción constante de los resultados de las operaciones en curso. En este sentido, la creación de
modelos predictivos se basa, primero, en la búsqueda de dependencias entre parámetros de proceso
y luego en el uso de un algoritmo que, analizando estas dependencias, será capaz de predecir el valor
desconocido de los parámetros esenciales para la eficiencia del proceso (variable dependiente). La
investigación de materiales a menudo se basa en el estudio de las propiedades mecánicas y en un
intento de predecir estas propiedades conociendo la composición química, la microestructura o los
parámetros de procesamiento de un material determinado.
Tabla 2 Predicción de la calidad de las propiedades de la aleación al probar las propiedades del material
Predicción de la calidad de las propiedades de la aleación mediante 85.020 9.220 6.160 0.994 0.989
el análisis de conglomerados (pruebas)
Predicción de la calidad de las propiedades de la aleación 107.570 10.370 6.190 0.993 0.986
mediante el análisis de conglomerados (validación)
También se descubrió que las herramientas de aprendizaje automático son útiles en el análisis
comparativo de las propiedades de los materiales. Se utilizaron varias herramientas de aprendizaje
automático para resolver el problema de seleccionar material para la fabricación de un producto con
propiedades mecánicas dadas. Los modelos de clasificadores permitieron apoyar las decisiones
tecnológicas en la etapa de diseño de productos de fundición, en especial los tipos de Hierro Dúctil y
hierro fundido—ADI y hierro fundido nodular con carburos. El análisis se llevó a cabo de dos maneras.
Por un lado, se investigó el problema de clasificación en base a datos de propiedades sin procesar y, por
otro lado, se introdujo una mejora en este método mediante el uso de un análisis de conglomerados
preliminar basado en propiedades, lo que hace que la clasificación no solo sea más gruesa sino también
más errónea. -Libre, fue estudiado. La solución así obtenida combina las ventajas de los DTs, ANN, SVM
y kNN.
Estos estudios se ampliaron con la investigación sobre el desarrollo de un análisis exploratorio de
datos microestructurales de grafito-hierro compactado (CGI) con el fin de obtener conocimiento sobre la
formación de ausferrita [6]. Se han desarrollado reglas para estimar el contenido de ausferrita en función
de la composición química. Los modelos se desarrollaron utilizando (1) herramientas estadísticas,
regresión: GLM, (2) árboles potenciados por regresión: BT, (3) bosque aleatorio: RF, (4) redes neuronales
artificiales, (5) modelos de regresión por partes: PR, (6) el algoritmo CART y (7) MARSplines. El
procedimiento consistió en la creación de modelos posteriores sobre conjuntos de datos seleccionados
secuencialmente. Se puede comparar con la creación de un bosque aleatorio y los llamados "aprendices
débiles". Los resultados obtenidos para los modelos individuales se muestran en la Tabla 3.
Con el proceso de filtrado de datos, la precisión de los modelos ha cambiado. Después de quitar los
casos que eran fáciles de aprender (que no contenían ausferrita), los modelos
Machine Translated by Google
empeoraron los factores de ajuste, pero al mismo tiempo mejoró la precisión en la predicción de los
contenidos reales (Tabla 3). En el ejemplo de los árboles potenciados, se puede ver claramente el
cambio debido a la reducción del conjunto de datos. En el conjunto completo, el algoritmo determinó
más de 800 árboles, arrojando un error de 30, mientras que en el conjunto reducido, unos 320 árboles
fueron suficientes, pero el error MSE casi se duplicó. Múltiples estudios sobre la importancia de la
influencia de factores individuales en varios modelos de regresión nos permitieron seleccionar las
variables más importantes que influyen en el contenido de ausferrita en varias áreas de variabilidad
de parámetros [7]. La investigación es un ejemplo del uso de varios algoritmos de aprendizaje
automático en la adquisición de conocimiento sobre la microestructura CGI.
El uso de múltiples algoritmos, así como el análisis utilizando dos escenarios, es decir, tanto la
clasificación basada en datos brutos como el análisis de conglomerados previamente realizado,
permitieron comparar los resultados de estos procedimientos. Los resultados se resumen en las
Tablas 4 y 5, de donde se deduce claramente que el análisis de conglomerados más temprano
mejora la calidad de la clasificación. Además, el estudio ha demostrado que en situaciones en las
que la precisión es más importante que la interpretabilidad, las redes neuronales artificiales y el
método de máquina de vectores de soporte dan resultados mucho mejores que los árboles de decisión.
El documento también presenta un ejemplo del uso de datos fuente experimentales para construir
modelos que predicen la composición volumétrica de los componentes individuales de la
microestructura (ferrita, perlita, carburos, martensita, ausferrita y austenita) de
Tabla 4 Resultados del uso de varios algoritmos de aprendizaje automático en la clasificación de microestructuras
Métodos ANA kNN CARRO CHAID MVS
63.3 – – – 58.0
Prueba (%)
Hierro con grafito compactado (CGI). El conjunto de datos utilizado para entrenar los modelos
se recopiló como resultado de la observación y las mediciones del contenido de componentes
individuales de la microestructura CGI en relación con el contenido de aditivos de aleación
individuales (molibdeno, níquel y cobre) introducidos en diferentes proporciones para
diferentes paredes de fundición de espesor [7]. El algoritmo híbrido neural-difuso se utilizó
para construir el modelo predictivo: ANFIS (Adaptive Neuro-Fuzzy Inference System) [8]. La
investigación permitió desarrollar un motor de inferencia difuso (FIS) que contiene 108 reglas
difusas del tipo SUGENO en las que las premisas se refieren a los conjuntos difusos
desarrollados y las conclusiones son dependencias funcionales entre las variables adoptadas.
La Figura 2 muestra los parámetros del modelo FIS (Entradas/Salidas) determinados en el
proceso de aprendizaje utilizando el algoritmo ANFIS.
Ni, %
El ejemplo de la regla:
grosor,
milímetro
Fig. 2 Los parámetros del modelo FIS (Entradas/Salidas) determinados en el proceso de aprendizaje utilizando el algoritmo
ANFIS
Machine Translated by Google
La investigación realizada mostró un potencial muy alto del sistema de inferencia neural-difusa
adaptativa (ANFIS). Basado en datos de medición, permite la optimización (ajuste) de los
parámetros del modelo difuso. Los modelos borrosos permiten la generalización del conocimiento
contenido en los datos de medición ruidosos y su presentación en una forma comprensible para un
ser humano.
5 Procesos
Los modelos de procesos que son el resultado de algoritmos de aprendizaje automático tienen un
patrón de trabajo similar al enfoque relacionado con el estudio de las propiedades de los materiales.
En cada caso, la tarea de los modelos es, por un lado, permitir la previsión (para un parámetro de
decisión específico) y, por otro lado, evaluar cómo los parámetros de entrada del proceso individual
cambian el valor de salida (análisis de sensibilidad).
El uso de árboles de decisión se basó en la investigación del proceso de producción de pernos
dentro de la cadena de producción. Con base en los datos del proceso, fue posible desarrollar, por
ejemplo, modelos de árboles de decisión CART y CHAID [6]. El análisis de los datos del proceso
permitió evaluar la importancia (la fuerza de influencia) de las variables en la clase de calidad del
perno. El logro fue la generación de reglas que permitieron la detección de posibles defectos de
producción. El uso de árboles de decisión permitió la interpretación del modelo (como un todo o en
fragmentos, reglas individuales) por parte de un ser humano. Este es un aspecto muy importante
de la minería de datos y, lamentablemente, no se puede realizar con otras técnicas. Sin embargo,
la transparencia de los modelos obtenidos con la ayuda de la inducción del árbol de decisión a
menudo se produce a costa de una precisión reducida o un ajuste excesivo del modelo (teniendo
en cuenta desviaciones insignificantes). Sin embargo, los estudios han demostrado que esta
herramienta se puede utilizar en el control de procesos como apoyo a la decisión con una precisión
de hasta el 94%.
El método de inducción del árbol de decisiones también se utilizó en la investigación sobre el
proceso de laminación de bandas de acero de dos fases con el fin de optimizarlo [9]. Se presenta
una solución que permite estudiar la influencia de los parámetros individuales del proceso (22
variables independientes en el modelo, incluida la temperatura de carga, los tiempos de
interoperación para seis pases, la velocidad de rotación de los rodillos, el coeficiente de
transferencia de calor, etc.) en los parámetros de salida ( temperatura de laminación en pasadas
individuales y tamaño de grano). Los resultados del análisis estadístico y exploratorio se
compararon con los resultados del análisis de sensibilidad [10]. Se ha demostrado que la aplicación
de las técnicas propuestas permite obtener los mismos resultados utilizando solo el 1% de los datos necesarios par
Machine Translated by Google
El mejor ajuste y el error más pequeño se obtuvieron al usar redes neuronales artificiales [14–16].
En el sistema desarrollado funcionan nueve redes neuronales, cinco de ellas determinan el valor de
la pérdida geométrica del material para herramientas que trabajan con diferentes capas protectoras
(Fig. 4a–e), y cuatro redes definen la intensidad de la ocurrencia de mecanismos destructivos ( Fig.
5a–d).
Machine Translated by Google
Fig. 3 Esquema de estudios desarrollados para diseñar un sistema que predice el desgaste de herramientas de forja
Fig. 4 Una lista simplificada de redes neuronales artificiales que operan en el sistema: ANN para pérdida de
material (desgaste) para herramientas que trabajan con capas protectoras: a nitruradas, b acolchadas, c
híbridas Cr/CrN, d híbridas Cr/AlCrTiN y e híbrido Cr/AlCrTiSiN
examinar la integridad de las variables de entrada. Una descripción de este tipo es también una
herramienta para la comunicación inequívoca entre ingenieros y programadores.
Se desarrolló un sistema que permite la catalogación automática basada en ontologías y la
búsqueda sustantiva de documentos de texto del repositorio de documentos relacionados con la
tecnología de procesamiento de metales. Esta solución permite la creación de una base de
conocimiento semántico en el campo de la metalurgia y el procesamiento de metales con el uso
de técnicas de adquisición y codificación de artefactos informáticos reutilizables generados a
partir de documentos. La metodología incluye un algoritmo TF-iDF para determinar el poder
discriminante de las palabras, indexación semántica LSI oculta para agrupar documentos,
creación de grupos de sinónimos e integración con ontología mediante la asignación de clases a grupos temático
Machine Translated by Google
Fig. 5 Una lista simplificada de redes neuronales artificiales que operan en el sistema: ANN para mecanismos destructivos:
a fatiga termomecánica, b desgaste abrasivo, c deformación plástica y d fatiga mecánica
7. Conclusiones
resolver y modelar varios problemas, a menudo complejos, del procesamiento de metales, mientras
se adquieren conocimientos sobre ellos en una forma que sea tanto comprensible por humanos
como procesable por máquinas, lo cual es una condición necesaria para respaldar la idea de
Industria 4.0.
Agradecimientos Este estudio se realizó como parte de la investigación fundamental financiada por el Ministerio
de Ciencia y Educación Superior, subvención no. 16.16.110.663.
Referencias
1. Hola, T., Tansley, S., Tolle, K. (2009). El cuarto paradigma: descubrimiento científico intensivo en datos.
Investigación de Microsoft, ISBN: 978-0-9825442-0-4.
2. Mueller, T., Kusne, AG y Ramprasad, R. (2016). Aprendizaje automático en ciencia de materiales: avances
recientes y aplicaciones emergentes. Reseñas en química computacional, 29, 186–273.
3. Bartók, AP, Poelking, C., Bernstein, N., Kermode, JR, Csányi, G. y Ceriotti, M. (2017).
El aprendizaje automático unifica el modelado de materiales y moléculas. Avances científicos, 3(12).
4. Butler, KT, Davies, DW, Cartwright, H., Isayev, O. y Walsh, A. (2018). Aprendizaje automático
para la ciencia molecular y de materiales. Naturaleza, 559 (7715), 547–555.
5. Regulski, K., Wilk-Koÿodziejczyk, D., Kluska-Nawarecka, S., Szymczak, T., Gumienny, G. y Jaskowiec, K.
(2019). Discretización multietapa y agrupación en clasificación multivariable del impacto de los elementos
de aleación en las propiedades de la silumina hipoeutéctica. Archivos de Ingeniería Civil y Mecánica, 19(1),
114–126.
6. Regulski, K. (2020). Minería de datos y aprendizaje automático en aspectos de adquisición de conocimiento
sobre la producción y procesamiento de metales para las necesidades de la Industria 4.0. Hutnik 2020(4).
https://doi.org/10.15199/24.2020.4.3.
7. Mrzygÿód, B., Gumienny, G., Wilk-Koÿodziejczyk, D., et al. (2019). Aplicación de métodos seleccionados de
inteligencia artificial en un sistema de predicción de la microestructura de hierro grafito compactado. Revista
de ingeniería y rendimiento de materiales, 28, 3894–3904. https://doi.org/10. 1007/s11665-019-03932-4.
8. Jang, J.-SR (1993). ANFIS: sistema de inferencia difusa basado en red adaptativa. IEEE Transactions on
Systems Man and Cybernetics, 23(3p.), 665–685. https://doi.org/10.1109/21. 256541.
9. Regulski, K., Wilk-Koÿodziejczyk, D., Szymczak, T., Gumienny, G., Gietka, T., Pirowski, Z., et al. (2019).
Métodos de minería de datos para la predicción de propiedades de aleaciones de Al-Si de múltiples
componentes basadas en curvas de enfriamiento. Revista de ingeniería y rendimiento de materiales
(JMEP), 28, 7431–7444. https://doi.org/10.1007/s11665-019-04442-z.
10. Szeliga, D., Kusiak, J. y Rauch, ÿ. (2012) Análisis de sensibilidad como soporte para el diseño de tecnología
de laminación en caliente de flejes de acero bifásicos. En: J. Kusiak, J. Majta y D. Szeliga (Eds.), Metal
Forming 2012: Proceedings of the 14th International Conference on Metal Forming (pp. 1275–1278).
Weinheim: Wiley-VCH Verlag GmbH & Co. KGaA (Steel Research International).
11. Rauch, ÿ., Kusiak, J. y Regulski, K. (2020). Inteligencia artificial en la industria del acero: desde la fundición
hasta el producto final. En: The Metal Forming Conference MEFORM (págs. 11–14). ISBN 978-3-86012-632-5.
12. Gronostajski, Z., Hawryluk, M. y Kaszuba, M., et al. (2016). El sistema experto que apoya la evaluación de
la durabilidad de las herramientas de forja. Revista internacional de tecnología de fabricación avanzada,
82, 1973–1991. https://doi.org/10.1007/s00170-015-7522-3.
13. Hawryluk, M., Mrzygÿód, B. (2016). Aplicación de Adaptative Neuro-Fuzzy Inference System (ANFIS) para
predecir el desgaste de herramientas de forja. En: Metal 2016: 25 International Conference on Metallurgy
and Materials (S. 90), mayo de 2016, Brno, República Checa, UE: lista de resúmenes.
Ostrava: TANGER Ltd., cop. 2016. ISBN: 978-80-87294-66-6.
Machine Translated by Google
14. Mrzygÿód, B., Hawryluk, M., Gronostajski, Z., Opali ´nski, A., Kaszuba, M., Polak, S., et al.
(2018). Análisis de durabilidad de herramientas de forja tras diferentes variantes de tratamiento superficial mediante un
sistema de ayuda a la decisión basado en redes neuronales artificiales. Archivos de Ingeniería Civil y Mecánica, 18(4),
1079–1091. https://doi.org/10.1016/j.acme.2018.02.010.
15. Hawryluk, M. y Mrzyglod, B. (2018). Un sistema de análisis y predicción de la pérdida de material de herramienta de forja
aplicando redes neuronales artificiales. Journal of Mining and Metallurgy, Sección B: Metallurgy, 54(3), 323–337. https://
doi.org/10.2298/JMMB180417023H.
16. Mrzygÿód, B., Hawryluk, M., Janik, M., et al. (2020). Análisis de sensibilidad de las redes neuronales artificiales en un
sistema de predicción de durabilidad de herramientas de forja a piezas forjadas en acero C45.
Revista internacional de tecnología de fabricación avanzada, 109, 1385–1395. https://doi. org/10.1007/s00170-020-05641-
y.
17. Macioÿ, P. y Regulski, K. (2016). Desarrollo de descripción semántica para modelos multiescala de tratamiento
termomecánico de aleaciones metálicas. The Journal of The Minerals JOM, 68, 2082– 2088.
18. Regulski, K. (2017). Formalización del conocimiento tecnológico en el campo de la metalurgia utilizando herramientas de
clasificación de documentos apoyadas con técnicas semánticas. Archivos de metalurgia y materiales, 62 (2), 715–720.
Machine Translated by Google
© Los autores, bajo licencia exclusiva de Springer Nature Suiza AG 2022 S. Datta y 139
JP Davim (eds.), Machine Learning in Industry, Management and Industrial
Engineering, https://doi.org/10.1007/978-3 -030-75847-9_7
Machine Translated by Google
1. Introducción
Las ecuaciones que gobiernan procesos físicos complejos se expresan con mayor frecuencia como
conjuntos de ecuaciones diferenciales parciales acopladas en unas pocas variables definitorias, como,
por ejemplo, las ecuaciones de Navier-Stokes de mecánica de fluidos [25], las ecuaciones de
electromagnética de Maxwell [18], ecuaciones constitutivas ecuaciones de mecánica de sólidos, etc. La
complejidad de estas ecuaciones inhibe las soluciones de forma cerrada incluso para las geometrías más
simples, y deben resolverse numéricamente, generalmente en una cuadrícula en el campo que se ajusta
a los límites espaciales. En estos límites, se proporcionan las condiciones conocidas, por ejemplo, los
valores de algunas de las variables, a partir de las cuales se extrae la solución de campo en los puntos
de la cuadrícula mediante simulación [3, 8] utilizando esquemas numéricos apropiados.
Estas simulaciones invariablemente consumen mucho tiempo, descartando soluciones precisas en
cualquier tiempo cercano al tiempo real.
De acuerdo con el Teorema de Aproximación Universal, probado de forma independiente por
Cybenko [7] y Hornick et al. [14], cualquier tipo de red neuronal artificial con al menos una capa oculta y
funciones de activación no lineales es capaz de replicar cualquier función matemática arbitrariamente
complicada con el grado de precisión deseado. La implicación oculta es que hay suficientes datos
extraídos de la función matemática disponibles para que la red neuronal artificial (ANN) aprenda esta
funcionalidad.
Combinando los aspectos anteriores, si se pueden lograr simulaciones numéricas precisas para
fenómenos físicos arbitrariamente complejos descritos por las ecuaciones de gobierno correspondientes,
entonces, en principio, los datos de simulación resultantes se pueden usar para entrenar variantes de
ANN para representar las funcionalidades encapsuladas en estas ecuaciones. No hace falta decir que
estos dos pasos ejemplifican importantes desafíos tecnológicos abiertos. También se puede cuestionar
el valor utilitario del segundo paso.
Para muchos escenarios y dominios de aplicación, la solución precisa de problemas físicos complejos
en tiempo real puede conducir a mejoras cuánticas a niveles tecnocomerciales. Por ejemplo, en Industria
4.0, que representa la manifestación completa de IoT (Internet de las cosas) en la industria de procesos
y fabricación [17, 24], cada subproceso individual en la cadena de producción debe monitorearse y
controlarse para obtener el máximo rendimiento. Teniendo en cuenta cualquier subproceso individual,
los valores de las variables relevantes que definen el proceso pueden conocerse en sus límites físicos a
partir de sensores, pero los valores en el interior del campo permanecen desconocidos en tiempo real.
Si estos pudieran extraerse, se mejoraría significativamente el seguimiento y control, se definirían con
mayor precisión los subprocesos inmediatos aguas arriba y aguas abajo de la cadena y se mejoraría la
eficiencia productiva de toda la cadena.
La solución numérica de las ecuaciones gobernantes de la física del subproceso es el mecanismo más
relevante para extraer los valores de las variables en el interior del campo, pero como se mencionó
anteriormente, son inalcanzables en tiempos reales del proceso.
Esto nos lleva al valor utilitario del mencionado segundo paso. Las simulaciones realizadas en las
ecuaciones de gobierno que representan los procesos físicos en cuestión con grados relevantes de
precisión pueden usarse para entrenar variantes de ANN, que luego, en las fases de producción, pueden
tomar valores de los sensores para generar condiciones detalladas en el interior del campo. Esto se
puede lograr en la práctica siempre que las variantes ANN sean
Machine Translated by Google
diseñados, entrenados y satisfacen tres condiciones cruciales. Estos son: (a) cualquier paso hacia
adelante a través de la ANN debe ejecutarse en tiempo real del proceso, idealmente unos pocos
milisegundos, (b) los niveles de precisión deben ser muy altos con métricas representativas como, por
ejemplo, el error porcentual absoluto medio (MAPE) de la orden. del 2% o menos, y (c) el número de
entradas será (aproximadamente) el número de puntos de la cuadrícula de contorno en la simulación
original, mientras que el número de salidas será el número de puntos de la cuadrícula de campo, y
este último estará invariablemente en menos un orden de magnitud superior en número.
La condición (c) es el mayor desafío, ya que la mayoría (casi todas) las variantes de ANN en
diversos dominios de aplicación están diseñadas con una cantidad de salidas menor o igual que la
cantidad de entradas. En la mayoría de los casos, las salidas son significativamente menores que el
número de entradas. La combinación de las condiciones (b) y (c) hace que esto sea un desafío profundo.
Hemos utilizado arquitecturas de redes neuronales convolucionales (CNN) basadas en transponer
convoluciones y otros patrones de diseño para escalar desde un pequeño número de entradas a
grandes salidas, más grandes en dos órdenes de magnitud. Esto se logra manteniendo los niveles de
error (MAPE) en torno al 2% y menos, demostrado en dos problemas complejos altamente no lineales
con fuertes discontinuidades de campo del dominio de la mecánica de fluidos. Teniendo en cuenta el
requisito (a), una de nuestras prioridades de diseño ha sido mantener pequeño el número total de
parámetros. Un aspecto común a casi todas las arquitecturas de CNN (una o más capas completamente
conectadas que preceden a la capa de salida) crean una explosión en la cantidad de parámetros, pero
aún así son un elemento esencial necesario para lograr la precisión. Nuestras arquitecturas eliminan
por completo esta capa totalmente conectada sin comprometer la precisión.
El resto del documento está estructurado de la siguiente manera. La sección 2 analiza algunos
desarrollos relacionados con la actualidad. La Sección 3 presenta dos dominios de aplicación que
demuestran tanto la relevancia como la validez conceptual de estas arquitecturas.
La Sección 4 describe los principios arquitectónicos y su prueba de concepto en los dominios de
aplicación seleccionados. Finalmente, se presentan las conclusiones.
Machine Translated by Google
En esta sección, presentamos una breve descripción de los desarrollos relacionados actuales en
el área de replicación o aumento de soluciones numéricas de ecuaciones gobernantes de
procesos físicos con técnicas basadas en aprendizaje automático. A esto le sigue una breve
explicación de Transpose Convolutions y pasos fraccionarios y luego una discusión de algunos
matices cruciales para crear mapeos en tiempo real desde sensores de proceso hasta soluciones
de interior de campo en escenarios industriales.
Ha habido una cantidad significativa de trabajo desde los primeros días de Machine Learning para
usar diferentes tipos de ANN para simular las ecuaciones que rigen diferentes procesos físicos;
Adie [1] y Brunton et al. [6] proporciona revisiones bastante exhaustivas de las aplicaciones de
las técnicas de aprendizaje automático en diferentes áreas de la ingeniería y la ciencia
computacional.
Un conjunto de aplicaciones activas de ANN se encuentra en el área de cierre de turbulencia
en dinámica de fluidos computacional. Las ecuaciones completas de Navier-Stokes (DNS) no
necesitan un cierre de turbulencia, pero su resolución requiere muchos recursos y tiempo. El
siguiente nivel y los dos siguientes de aproximaciones, a saber, Large Eddy Simulation (LES) y
Reynolds Averaged Navier-Stokes' (RANS), dividen los componentes de velocidad en una parte
media y otra fluctuante (turbulenta), lo que implica que el número de parámetros aumenta en tres,
que deben resolverse a través de modelos de "cierre" que se suman al conjunto original de
ecuaciones. Las ANN se han utilizado de diferentes maneras para proporcionar estos cierres [2,
11]. Sinaí et al. [23] aprenda estos modelos como ANN capacitadas en soluciones de DNS
precisas. Duraisamy et al. [12] proporcionan una revisión exhaustiva del estado del arte.
Kim et al. [15] han utilizado modelos generativos entrenados en conjuntos precisos pero
pequeños de datos de simulación CFD para sintetizar velocidades 2-D y 3-D plausibles y libres
de divergencias. Xie et al. [29] desarrolló una Red Adversaria Generativa para aprender la
dinámica espacial y temporal de los flujos turbulentos, a partir de datos limitados que,
curiosamente, se toman de un solo paso.
Hay un conjunto de técnicas que aplican el Operador de Koopman [16, 19] de diferentes
maneras para la resolución de características de flujo no estacionario. Morton et al. [20] aplicaron
modelos ANN basados en el operador de Koopman para aprender la dinámica forzada y no
forzada del flujo de aire sobre un cilindro directamente a partir de datos CFD, y luego usaron
estos enfoques basados en el aprendizaje para el diseño del controlador para manipular las
características del flujo detrás del cilindro.
Brunton et al. [5] siguió un enfoque novedoso para "descubrir" las ecuaciones que gobiernan
los sistemas físicos a partir de los datos, al considerar que las ecuaciones están compuestas por
términos diferenciales tomados de un grupo que puede extraerse utilizando técnicas de aprendizaje
automático manteniendo un nivel óptimo de complejidad.
Machine Translated by Google
En una CNN normal, el flujo de datos entre dos "mapas de activación" cualesquiera se encuentra
en la dirección de entrada (de la red) a salida, generalmente acompañado de una reducción del
área del mapa. Hipotéticamente, si el flujo de datos fuera en la dirección opuesta, esto se llamaría
"desconvolución" o, más correctamente, "transposición de convolución". Este concepto hipotético
solo ayuda a comprender que las circunvoluciones transpuestas permiten la expansión del área del
mapa.
La Figura 1 muestra lo que se puede llamar una transposición de una convolución, que puede
verse como una convolución estándar con un filtro de tamaño 3 (ambas dimensiones iguales)
moviéndose con un paso de 2 sobre el segmento de imagen superior de color verde de tamaño 5,
dando como resultado un mapa de tamaño 2 (segmento de imagen inferior de color azul) usando la
fórmula [21]
Alternativamente, esto se puede ver como una transposición de la convolución estándar anterior,
cuando se mapea en la dirección ascendente de los segmentos azul a verde cuando los dos
rellenos de cero son de tamaño 2, la zancada es 1 y, lo que es más importante, el tamaño (del
segmento azul) se ha inflado de 2 a 3 añadiendo una capa de cero rellenos internos. La inserción
de estos números en (1) da new_size como 5, que es el tamaño del mapa resultante.
El paso de uno del filtro en condiciones de un relleno de cero interno implica que se necesitan
dos pasos de filtro para pasar de un píxel real no trivial al siguiente.
Por lo tanto, esto puede verse realmente como medio paso y, por lo tanto, el término
"circunvoluciones fraccionalmente zancadas". Se puede notar que esto es recíproco de la longitud
de la zancada en la circunvolución hacia adelante. Este trabajo utiliza circunvoluciones de
transposición y experimentó con rellenos internos con movimientos de filtro de paso fraccionado en ciertas capas.
Fig. 1 Ilustración de los conceptos de transposición de circunvoluciones y pasos fraccionarios Esta figura
reproducida de Dimoulin y Visin [9] (en dominio público)
Machine Translated by Google
2.3 Mapeo en tiempo real de los sensores a los valores del interior del campo
Como se indicó anteriormente, uno de los objetivos de este trabajo es demostrar el principio de
funcionamiento de un mecanismo de canalización que recoge valores variables de sensores ubicados
en los límites físicos de un proceso, los utiliza como entradas para una arquitectura tipo ANN, y calcula
los valores de las variables en los puntos de la cuadrícula de campo como salidas, todo dentro de
ciclos en tiempo real.
Sin embargo, los datos de muestra generados a partir de simulaciones de las ecuaciones que
gobiernan la física del proceso tendrán los valores límite en los puntos de la cuadrícula límite (de la
simulación), y no es posible que las ubicaciones de los sensores en el sistema físico se coloquen
exactamente con estos. puntos de la cuadrícula límite. Por lo tanto, se necesita un paso intermedio
entre la generación de muestras simuladas y su uso como datos de entrenamiento para la ANN,
donde los valores de las variables de los puntos de la cuadrícula límite se interpolan en las ubicaciones
precisas de los sensores, y estos valores de las variables interpoladas ubicadas en los sensores se
interpolan. los que servirán como insumos para la capacitación de la ANN.
De lo anterior se deduce que la ANN está diseñada para recibir los valores del sensor como
entradas y generar la solución en los puntos de cuadrícula del interior del campo como salidas. La
cantidad de sensores será significativamente menor que la cantidad de puntos de cuadrícula de límite,
lo que sirve para amplificar el desafío del factor (c) discutido en la Secc. 1.
La Figura 2 ilustra el tipo de escenarios que estamos tratando de modelar. Es una vista de una
mitad simétrica de una sección ancha del molde de enfriamiento primario del proceso de colada
continua de fabricación de acero [26, 27]. Aquí, el acero fundido pasa a través de un molde de
enfriamiento y el calor se extrae continuamente a través de los límites del molde revestidos de cobre
utilizando una fina red de tuberías con agua que fluye, que están incrustadas en la placa de cobre. El
acero líquido (zona amarilla) se solidifica a medida que se acerca a las placas de cobre, y la capa que
toca (casi) las placas es sólida pero blanda (roja). Las ecuaciones que gobiernan en el interior del
molde representan un acoplamiento de procesos de mecánica de fluidos, solidificación y transferencia
de calor; sus simulaciones solo se pueden lograr fuera de línea y son bastante complejas [28, 30]. Sin
embargo, hay una serie de termopares (sensores de temperatura) incrustados en las placas de cobre,
que proporcionan lecturas continuas de temperatura (no visibles en la Fig. 2). Las variaciones de
temperatura en tiempo real manifiestan todas las variaciones internas del proceso dentro del molde.
Las simulaciones numéricas fuera de línea del proceso interno considerando un espectro de
condiciones generarán datos que se pueden usar para entrenar arquitecturas similares a ANN. Las
simulaciones se pueden realizar en cuadrículas que se extienden desde los límites del molde (placas
de cobre) hasta el interior del campo. Las temperaturas son uno de los parámetros de simulación.
Las temperaturas en los puntos de la cuadrícula límite se pueden interpolar en las ubicaciones de los
sensores, y el entrenamiento ANN tomará estas temperaturas ubicadas en los sensores como entrada
y uno o más valores de parámetros (como temperaturas, velocidades, presiones) en los puntos de la
cuadrícula de campo como salidas. Tras el entrenamiento, la ANN se puede poner en modo de
producción, cuando los valores escaneados de los sensores se pueden mapear casi instantáneamente
en valores computados en todo el interior del campo, lo que crea un gran avance en el monitoreo, el
control y la optimización de las operaciones.
Machine Translated by Google
Se consideran dos dominios de aplicación donde los datos generados a partir de simulaciones
numéricas de las ecuaciones gobernantes relevantes de los procesos físicos subyacentes se
utilizan para entrenar nuestras arquitecturas CNN, como se discutió en secciones anteriores.
Ambos son del campo de la mecánica de fluidos, representan fenómenos altamente no lineales
y se seleccionan para poseer características específicas que juntas permiten la demostración
de todas las características especiales de la representación CNN que son los aspectos
distintivos de este desarrollo.
Machine Translated by Google
ÿÿ
+ÿ· ÿÿÿ = 0, (2)
ÿt
ÿÿÿ · ÿÿ ÿ2 ÿ
= (3)
ÿ
ÿÿ1 1 ÿ ÿ1
el subíndice ÿ se refiere a las condiciones en flujo libre, M denota el número de Mach, ÿ la relación de
calores específicos. La velocidad v = ÿÿ y la densidad ÿ se han normalizado
de flujocon
libre
respecto
Vÿ y ÿÿ.a sus valores
Las ecuaciones (3) y (4) representan un sistema no lineal acoplado. Se convierten a sus diferentes
formas y se resuelven para el flujo sobre una placa plana en varios ángulos de incidencia ÿ y corriente
libre Mach Mÿ utilizando el esquema de cuadrícula que se ilustra en la Fig. 3. El centro de la cuadrícula
es la placa plana que se muestra en rojo. con espesor exagerado; el espesor geométrico real es
efectivamente cero. Alrededor de la placa hay una cuadrícula rectangular con líneas j paralelas al eje x
y líneas i paralelas al eje y; i y j son los números de índice de las líneas e (i, j) denotan los índices de
los puntos de intersección en el campo en el que se calcula el potencial ÿ en las simulaciones. Hay un
total de 3498 puntos de este tipo en el campo.
Se puede ver que la placa se extiende desde i =17 a 37 y está ubicada en j =29 y 30; las dos últimas
líneas se fusionan y en principio corresponden a las superficies superior e inferior de la placa. Hay un
total de 42 puntos en las superficies donde se aplican las condiciones de contorno para realizar las
simulaciones numéricas y luego, como veremos, sirven como entradas a la CNN que se entrena a partir
de los datos generados por estas simulaciones.
Tenga en cuenta que la CNN calcula los valores de campo, con un total de 3498, como sus salidas.
Se realizan una serie de simulaciones numéricas para generar un conjunto de muestras de datos
para el entrenamiento de la CNN. Se realiza una travesía sobre seis valores de Mÿ de 0,1 a 0,6, a
intervalos de 0,1 (Mach 1 tiene un valor aproximado de 330 m/s). En cada valor de Mach, la dirección
de flujo libre, es decir, el valor de ÿ, se barre en el rango de ÿ10ÿ a +10ÿ
Machine Translated by Google
Fig. 3 Rejilla rectangular para simulación de flujo incidente sobre una placa plana. Alpha (ÿ) y Vinf (Vÿ) representan
el ángulo de incidencia y la velocidad del flujo de corriente libre en relación con la placa plana (que se muestra en
rojo). Las líneas ortogonales de la cuadrícula representan la malla para la simulación numérica.
a intervalos de 0,1ÿ, dando un total de 201 valores. Así, un número total de muestras generadas a
todas las velocidades son 1206, que servirán como datos de entrenamiento y validación para la
CNN.
Este dominio de aplicación representa patrones de flujo no lineales complejos donde la
complejidad aumenta considerablemente con Mÿ y |ÿ|. Nos hemos detenido justo antes de las
combinaciones que generan bolsas supersónicas y formaciones de choque, ya que la suposición
isoentrópica de la ecuación de potencial total no es estrictamente válida en estas condiciones,
aunque todavía se pueden modelar de forma aproximada utilizando varios esquemas numéricos
[4, 13]. El objetivo de esta aplicación es demostrar una de las capacidades centrales de nuestras
arquitecturas CNN, a saber, calcular salidas que son dos órdenes de magnitud más grandes que
las entradas, con alta precisión y en tiempo real.
Seleccionamos este caso porque comprende algunas características muy específicas muy
diferentes a las de otros datos de muestra de capacitación y validación utilizados en otras
aplicaciones de aprendizaje automático, y muy relevantes para las arquitecturas de CNN y las
funcionalidades concomitantes que tenemos en mente. Esto se relaciona con un ala de avión
diseñada específicamente para servir como punto de referencia para el desarrollo de simulaciones
numéricas de las ecuaciones de Navier-Stokes, con características desafiantes como un doble
impacto en la superficie superior de la misma sección y las consiguientes separaciones de la capa
límite que se manifiestan en agudos. Cambios en el arrastre de fricción de la piel. Esta ala fue probada en Schmitt y
Machine Translated by Google
Fig. 4 Disposición e instrumentación del ala ONERA M6, de la fig. B1-1 de Schmitt y Charpin [22], en
dominio público
Los principales aspectos del diseño se muestran en la Fig. 4; intentaremos explicar algunos
aspectos de la aerodinámica del núcleo.
Los sensores de presión se colocan en siete secciones del ala ubicadas (y/ b también
denominado ÿ) como se muestra en la tabla de la Fig. 4, donde b indica la envergadura del ala e y
se extiende desde '0' en la base del ala hasta 1 en la punta. Hay 34 sensores en cada una de las
primeras cuatro secciones y 45 en las últimas tres, distribuidos entre las superficies superior e
inferior como se muestra en la tabla. En un caso de flujo de Mÿ = 0,84 y ÿ = 3,06°, se forman
fuertes choques dobles (severas discontinuidades en las variables del proceso) en la mayoría de
las secciones, lo que da como resultado separaciones de la capa límite y variaciones pronunciadas
en la fricción superficial. Estos pueden verse en Diskin et al. [10] y también en https://
turbmodels.larc.nasa.gov/onerawingnumerics_val_sa. html, donde los símbolos negros indican las
lecturas del sensor de los coeficientes de presión Cp) y las líneas rosas indican los resultados de
las simulaciones CFD. Las simulaciones son de una clase específica de modelos de turbulencia
en las ecuaciones completas de Navier-Stokes (ver https://cfl3d.larc.nasa.gov/ ); las relaciones
matemáticas entre el coeficiente de fricción de la piel Cf,x y el coeficiente de presión Cp son
extremadamente complejas y encapsulan un espectro de fenómenos físicos.
Hemos creado muestras de entrenamiento y prueba tomando las medidas del sensor obtenidas
de https://www.grc.nasa.gov/WWW/wind/valid/m6wing/m6wing.html como entradas y las
simulaciones CFL3D, obtenidas de here1, como salidas. En cada sección, hay 33 entradas (valor
del sensor) y 368 salidas. Tomamos dos conjuntos de salidas en cada sección, para Cp y para
Cf,x, y creamos dos conjuntos de datos de muestra separados para dos CNN diferentes. Es
importante destacar que tratamos cada sección en sí misma como una muestra de entrenamiento,
consideramos la sección en ÿ = 0.65 como una muestra de prueba y eliminamos la muestra
1https://turbmodels.larc.nasa.gov/Onerawingnumerics_val/SA/CFL3D_OM6_A3p06_CPCF.dat.
Machine Translated by Google
en ÿ = 0.99 porque las características de flujo en la punta son muy diferentes al resto.
Eso nos deja con solo cinco muestras de datos de entrenamiento, lo cual es extremadamente insuficiente.
Aumentamos esto parcialmente creando tres nuevas secciones interpoladas en ÿ = 0.32, 0.55 y 0.72,
linealmente a partir de secciones vecinas. Usando estas ocho muestras, investigamos si es posible crear
CNN con 33 entradas y 368 salidas cada una, que pueden capturar la funcionalidad integrada en
relaciones discontinuas, no lineales y altamente complejas con alta precisión.
Existe aún otra dimensión en este dominio de aplicación. Esta es una representación exacta del
desafío de la utilidad práctica (discutido en la Sección 2.3), a saber, recoger datos de un puñado de
sensores que capturan un parámetro de proceso específico y ver si esto se puede usar en una CNN
diseñada específicamente para reproducir un rango de diferentes parámetros en puntos distribuidos en el
interior del campo que son al menos un orden (de magnitud) más en número, con precisión y en tiempo
real. Los parámetros se relacionan a través de ecuaciones de gobierno altamente complejas que se
simulan para generar datos de entrenamiento limitados para la CNN.
Uno puede recordar las tres propiedades deseadas de las CNN que satisfarán los requisitos de
rendimiento cruciales en los dominios técnicos considerados: que mapearán desde las entradas del
proceso hasta las salidas uno o dos órdenes de magnitud más en número, exhibirán una alta precisión y
se ejecutarán bien. dentro de los tiempos reales del proceso (y, por lo tanto, utilizar un número mínimo de
parámetros). Aquí, destacamos los principios seguidos en el diseño de arquitecturas CNN que satisfacen
estos requisitos y siguen siendo válidos en todos los dominios de aplicación.
Para la clase de problemas técnicos que pretendemos atender, invariablemente los tamaños de salida
son casi iguales o mayores que los tamaños de entrada en todas las dimensiones consideradas (ejes).
En consecuencia, utilizamos convoluciones de transposición con rellenos externos de ceros y tamaños de
filtro bastante grandes para aumentar gradualmente, capa por capa, el tamaño. Además, es probable que
la forma del mapa de salida sea bastante diferente de la forma del mapa de entrada, lo que se manifiesta
en una variación significativa entre las relaciones de aspecto de los dos.
Nuevamente, usamos diferentes rellenos de cero externos y tamaños de filtro a lo largo de los diferentes
ejes para transformar gradualmente, a través de las capas, la forma de entrada a la de la salida. En
ocasiones, en algunas de las capas, especialmente las cercanas a la salida, conservamos la forma y el
tamaño en dos o más mapas de activación con el objetivo de construir el número total de parámetros para
alcanzar los niveles de precisión deseados.
Machine Translated by Google
ÿ2 ÿ = 0 (5)
Fig. 5 Esquema de la estructura ANN convencional. Tenga en cuenta que una cantidad de salidas es dos
órdenes más que la cantidad de entradas
Machine Translated by Google
capas cada una con 20 nodos, y todos los nodos de capa ocultos y de salida utilizan la función de
activación tanh(.). El número de parámetros en esta arquitectura es de unos 76.000.
El error porcentual absoluto medio (MAPE) obtenido fue del 1,2 %.
A continuación, se simuló la ecuación de potencial no lineal completa para generar datos de
estructura exactamente similar. Esto se usó para entrenar la arquitectura ANN idéntica que se
muestra en la Fig. 5. Pudimos obtener un MAPE de 2.2%. El aumento del error manifiesta la mayor
complejidad de la ecuación subyacente, especialmente la transición de modelar una función lineal a
una no lineal.
El siguiente conjunto de investigaciones se realizó en arquitecturas CNN unidimensionales,
donde las 42 entradas, las 3498 salidas, los mapas de activación de capas intermedias, los filtros y
los rellenos estaban todos en una sola dimensión. Estos estaban nuevamente en la versión
linealizada de la ecuación de potencial completo, utilizada como línea de base para probar diseños alternativos.
La arquitectura de mejor rendimiento se muestra en la Fig. 6, que utilizó dos rellenos cero
intermedios y pasos fraccionarios de 1/3 y, lo que es más importante, una capa semifinal totalmente
conectada, que aumentó la cantidad de parámetros libres a casi 10 millones. Por supuesto, esto fue
una violación de nuestros objetivos de diseño, pero el propósito en esta etapa experimental fue
explorar si las CNN pueden cumplir nuestros objetivos. Obtuvimos un MAPE de 2.3%, que fue peor
que nuestra arquitectura totalmente conectada. La eliminación de la capa totalmente conectada
prefinal redujo significativamente el número de parámetros pero empeoró los niveles de convergencia
y error. En este punto, detuvimos nuestra experimentación con CNN 1-D y pasamos a arquitecturas
2-D.
Dentro de los diseños 2-D, investigamos varios patrones arquitectónicos alternativos que
incluyen pasos fraccionarios, agrupación máxima y secuencias de capas convolucionales,
Fig. 6 Arquitectura CNN unidimensional con una capa prefinal totalmente conectada
Machine Translated by Google
Tabla 1 Arquitectura CNN para flujo de potencial completo sobre placa plana
TC1 Entrada (3, 11) (0, 9), (0, 9) (1, 10) (3, 20)
TC2 (3, 20) (0, 19), (0, 19) (1, 20) (3, 39)
TC3 (3, 39) (0, 39), (0, 39) (1, 40) (3, 78)
TC4 (3, 78) (1, 49), (1, 49) (2, 50) (4, 127)
TC5 (4, 127) (2, 63), (1, 63) (4, 127) (4, 127)
TC6 (4, 127) (0, 59, (0, 59) (1, 60) (4, 186)
C1 –
(4, 186) (3, 3) (2, 184)
TC7 (2, 184) (1, 91), (0, 92) (2, 184) (2, 184)
TC8 (2, 184) (1, 91), (0, 92) (2, 184) (2, 184)
TC9 (2, 184) (1, 91), (0, 92) (2, 184) (2, 184)
Machine Translated by Google
dimensiones de salida, que nuevamente aparecen como las dimensiones de entrada en la siguiente
capa. Tenga en cuenta que la CNN en la Tabla 1 mantiene un canal en toda la red, mientras que la
CNN en la Tabla 2 usa dos canales que se combinan en la capa final. La relación entre la salida y
la entrada a lo largo de cada dirección axial viene dada por la ecuación. (1), que además incorpora
acolchado, tamaño de filtro y zancada. Siempre hemos usado un paso de 1, evitando pasos
fraccionarios. Puede encontrar información relacionada sobre circunvoluciones transpuestas y
pasos fraccionarios en Dimoulin y Visin [9].
La CNN representada en la Tabla 1 se usa para predecir casos de prueba para pares específicos
de Mÿ y ÿ para el caso de flujo potencial sobre una placa plana. Esto tiene un total de solo 15,047
parámetros y la precisión alcanzada después de 15,000 épocas es un valor MAPE (Error porcentual
absoluto medio) de 2.4% en los casos de validación.
Esta CNN usa Leaky-ReLU (ÿ = 0.05) como activación en todas las capas excepto en la última
capa donde se usa sigmoide. Se utiliza el optimizador de Adam con amsgrad para entrenar el
algoritmo, con lr = 0,005 y ÿ1 = 0,9, ÿ2 = 0,999. El algoritmo de entrenamiento alterna entre tamaños
de mini lotes de 20 y 100 por cada 500 épocas. No se emplean técnicas de abandono.
Fig. 7 una componente vx, x de la velocidad, simulada utilizando nuestra simulación CFD, para el caso Mÿ = 0,6 (es
decir , Vÿ aproximadamente 198 m/s) y ÿ = 9°. Los ejes x e y representan distancias normalizadas contra la longitud
de la placa plana, con origen en su borde de ataque. Los contornos de color representan velocidades en metros/seg,
de acuerdo con la barra de color vertical de la derecha. b vx , componente x de la velocidad, predicha usando nuestra
CNN. c vy, componente y de la velocidad, simulado usando nuestra simulación CFD. d vy, componente y de la
velocidad, predicha usando nuestra CNN. a–d Resultados para el flujo de potencial total sobre una placa plana en la incidencia
para los coeficientes de arrastre de presión y fricción de la piel, respectivamente, en una sección
de prueba ÿ = 0.65, que no se usa para entrenamiento. La Figura 8a también muestra los valores
del sensor en ubicaciones discretas. Superficialmente, puede parecer que la Fig. 8a interpola las
presiones de las entradas del sensor a puntos finamente distribuidos en la superficie. Este no es el caso.
Las salidas de CNN (como funciones de las entradas) se aprenden de las simulaciones CFL3D,
que resuelven a partir de ecuaciones fundamentales de gobierno y desconocen las lecturas de los
sensores y las usan únicamente para la validación. La CNN aprende la relación funcional entre las
lecturas del sensor de presiones solamente y los valores simulados de presiones (Fig. 8a) y la
fricción de la piel (Fig. 8b).
Uno puede apreciar que la relación funcional entre las presiones de dos fuentes diferentes es
más fácil de aprender que la relación entre las presiones y el arrastre por fricción de la piel, que
implica múltiples relaciones de causa y efecto de variables a través de ecuaciones. Mientras que la
Fig. 8a muestra una representación bastante precisa, la Fig. 8b revela que las fuertes caídas en los
dos puntos de separación de la capa límite, que representan fenómenos no lineales extremos, no
se capturan con mucha precisión. Es pertinente recordar aquí
Machine Translated by Google
que usamos solo ocho muestras de datos de entrenamiento para 6667 parámetros, y se espera
que surjan problemas de ajuste insuficiente (sesgo). Esa es otra faceta del desafío para este caso.
Los pequeños movimientos que se ven en las soluciones de CNN son posiblemente una
consecuencia de esto.
Además de la arquitectura y la precisión, el tercer aspecto crucial es el tiempo de cálculo para
un solo paso hacia adelante desde la entrada hasta la salida. En una implementación que usa
tensorflow-1.15.0 y keras-2.3.1, en un sistema NVIDIA DGX-1 que utiliza una sola GPU Tesla V100,
una ejecución de muestra única de FP CNN toma 1 ms, mientras que una ejecución de muestra
única de M6 CNN tarda 3 ms. Estos están bien dentro de los ciclos de proceso en tiempo real en la
producción industrial o cálculos asociados como en Digital Twins.
Machine Translated by Google
5. Conclusiones
Agradecimientos Esta investigación fue parcialmente financiada por el Departamento de Ciencia y Tecnología,
India, Subvención No. DST/ICPS/CPS-Individual/2018/318(G). Los autores también agradecen el apoyo brindado por
algunos estudiantes universitarios anteriores de Mahindra Ecole Centrale.
Referencias
1. Adié, J. (2018). Aprendizaje profundo para ciencia computacional e ingeniería. Recuperado el 30 de septiembre
de 2020 de http://on-demand.gputechconf.com/gtc/2018/presentation/S8242-Yang-Juntao-paper.pdf .
2. Barone, MF, et al. (2017). Modelos de aprendizaje automático de errores en predicciones de simulación de
grandes remolinos de fluctuaciones de presión superficial. En AIAA 2017-3979, en la 47ª Conferencia de
Dinámica de Fluidos AIAA.
3. Bartoli, ALD, Andreis, GS y Pereira, FN (2015). Modelado y simulación de flujos reactivos. Elsevier. ISBN:
978-0-12-802974-9.
4. Bhattacharya, AK y Arora, NL (1994, febrero). Una ecuación integral híbrida: esquema de volumen finito para el
flujo de potencial transónico en configuraciones complejas. Revista aeronáutica, 34–48.
5. Brunton, SL, Proctor, JL y Kutz, JN (2016). Descubrir ecuaciones de gobierno a partir de datos mediante la
identificación escasa de sistemas dinámicos no lineales. Actas de la Academia Nacional de Ciencias, 113(15),
3932–3937. https://doi.org/10.1073/pnas.1517384113.
6. Brunton, SL, Noack, B. y Koumoutsakos, P. (2020). Aprendizaje automático para mecánica de fluidos.
Revisión anual de mecánica de fluidos, 52, 477–508. https://doi.org/10.1146/annurev-fluid-010 719-060214.
7. Cybenko, G. (1989). Aproximaciones por superposición de una función Sigmoidal. Matemáticas de Control,
Señales y Sistemas, 2, 303–314.
Machine Translated by Google
8. Dede, EM, Lee, J. y Nomura, T. (2014). Simulación multifísica. Londres: Springer. https://
doi.org/10.1007/978-1-4471-5640-6.
9. Dimoulin, V. y Visin, F. (2018, enero). Una guía de aritmética de convolución para el aprendizaje profundo.
arXiv:1603.07285v2, https://arxiv.org/abs/1603.07285, Consultado el 30 de septiembre de 2020.
10. Diskin, B., et al. (2018). Convergencia de red para flujos turbulentos de referencia tridimensionales.
En AIAA Paper 2018-1102, Reunión de Ciencias Aeroespaciales de AIAA de 2018.
11. Duraisamy, K., Zhang, ZJ y Singh, AP (2015). Nuevos enfoques en el modelado de turbulencias y transiciones
utilizando técnicas basadas en datos. En AIAA 2015-1284, 53ª Reunión de Ciencias Aeroespaciales de AIAA.
12. Duraisamy, K, Iaccarino, G. y Xiao, H. (2019, enero). Modelado de turbulencia en la era de los datos. Revisión anual
de mecánica de fluidos, 51, 357–377. https://doi.org/10.1146/annurev-fluid 010518-040547.
13. Holst, TL (1995, julio). Solución numérica de la ecuación de potencial completo utilizando una cuadrícula de quimera
Acercarse. En NASA-TM-110360.
14. Hornik, K., Stinchcombe, M. y White, H. (1989). Las redes feedforward multicapa son
aproximadores universales. Redes neuronales, 2, 359–366.
15. Kim, B., et al. (2019). Fluidos profundos: una red generativa para simulaciones de fluidos parametrizados.
En P. Alliez y F. Pellacini (Eds.), EUROGRAHICS. Wiley.
16. Koopman, BO (1931). Sistemas hamiltonianos y transformación en el espacio de Hilbert. Actas
de la Academia Nacional de Ciencias, 17(5), 315–318.
17. Lade, P. y Srinivasan, S. (2017, mayo-junio) Análisis de fabricación e Internet industrial
de cosas. Sistemas inteligentes IEEE, 74–79.
18. Maxwell, JC (1865). Una teoría dinámica del campo electromagnético. Filosófico
Transacciones de la Royal Society, 165, 459–512.
19. Mezic, I. (2013). Análisis de flujos de fluidos mediante propiedades espectrales del operador de Koopman.
Revisión anual de mecánica de fluidos, 45, 357–378. https://doi.org/10.1146/annurev-fluid-011 212-140652.
20. Morton, J., et al. (2018). Modelado dinámico profundo y control de flujos de fluidos no estacionarios. en el 32
Conferencia sobre Sistemas de Procesamiento de Información Neural, NeurIPS.
21. Sahil, K. y Bhattacharya, AK (2019). Reproducción precisa de simulaciones de ecuaciones gobernantes de procesos
en entornos de Industria 4.0 con ANN para monitoreo y control mejorados. En 2019 Serie de simposios IEEE sobre
inteligencia computacional. https://doi.org/10. 1109/ssci44817.2019.9003058.
22. Schmitt, V. y Charpin, F. (1979, mayo). Distribuciones de presión en el ONERA-M6-Wing en números de máquina
transónicos. Base de datos experimental para la evaluación de programas informáticos. Informe del Grupo de
Trabajo 04 del Panel de Dinámica de Fluidos, AGARD-AR-138.
23. Sinaí, YB, et al. (2019, julio). Aprendizaje de discretizaciones basadas en datos para ecuaciones diferenciales
parciales. Actas de la Academia Nacional de Ciencias, 116(31). https://doi.org/10.1073/ pnas.1814058116.
24. Stankovic, JA (2014). Direcciones de investigación para el Internet de las cosas. IEEE Internet of Things Journal,
1(1), 3–9.
25. Stokes, GG (1843). Sobre algunos casos de movimiento de fluidos. Transacciones de Cambridge
Sociedad filosófica, 8, 105–137.
26. Thomas, BG (2002). Modelado de la colada continua de acero: pasado, presente y futuro.
J. Metallurgical and Materials Trans, 33B, 795–812.
27. Thomas, BG (2005). Modelado de defectos de colada continua relacionados con el flujo del fluido del molde. En 3er
Congreso Internacional de Ciencia y Tecnología de Fabricación de Acero, Charlotte, NC, 9–12 de mayo de 2005
(págs. 847–861). Warrendale, Pensilvania: AIST.
29. Xie, Y., et al. (2018, agosto). tempoGAN: una GAN volumétrica temporalmente coherente para el flujo de fluidos de
superresolución. Transacciones de ACM en Gráficos, 37(4). https://doi.org/10.1145/3197517. 3201304.
28. Yang, H., Vanka, SP y Thomas, BG (2019). Modelado matemático del flujo multifásico en colada continua de acero.
ISIJ Internacional, 59(6), 956–972. https://doi.org/10.2355/isijin ternational.ISIJINT-2018-743.
Machine Translated by Google
30. Zappula, MLS, et al. (2020, abril). Modelado multifísico de colada continua de acero inoxidable.
Revista de tecnología de procesamiento de materiales, 278. https://doi.org/10.1016/j.jmatprotec.
2019.116469.
Machine Translated by Google
R. Senthilnathan
Resumen El aprendizaje profundo ha influido en casi todos los dominios principales de la ciencia,
la tecnología y los campos de la ingeniería. La revolución del aprendizaje profundo comenzó con la
precisión innovadora obtenida en un problema de visión por computadora. La inspección basada en
visión artificial ha sido una de las aplicaciones pioneras de la visión artificial para aplicaciones
industriales. La adopción del aprendizaje profundo para aplicaciones de visión artificial tomó algún
tiempo y, aunque la tasa de adopción actual es satisfactoria, se observa que aún queda un largo
camino por recorrer. El contenido del capítulo está destinado a principiantes y gerentes que están
evaluando la aplicación de técnicas de aprendizaje profundo para la inspección automatizada
basada en visión. Este capítulo presenta información detallada sobre los méritos y las limitaciones
de las técnicas de aprendizaje profundo para tareas de inspección automatizadas, especialmente
en comparación con la ruta de aprendizaje no profundo. También se analizan los diversos aspectos
de la puesta en marcha, como las trampas importantes con las que hay que tener cuidado antes de
elegir el aprendizaje profundo, el software de aprendizaje profundo, el hardware de aprendizaje
profundo, los tipos de redes de aprendizaje profundo y sus inferencias y las posibles aplicaciones en varios tipos de i
Palabras clave Inspección automatizada · Aprendizaje profundo · Visión artificial · Visión artificial
· Hardware de visión · Redes neuronales profundas · Software de visión
La visión es uno de los sentidos más importantes en seres biológicos como los mamíferos que han
dirigido y acelerado el progreso de la evolución durante millones de años.
La cantidad de información percibida de la visión humana como un sentido es tan vasta y compleja
que la naturaleza desarrolló una porción separada en el cerebro llamada corteza visual.
El sistema de visión en los humanos es tan complejo que existe una estrategia descentralizada para
el procesamiento, concretamente a la altura de los ojos, los nervios ópticos y la corteza visual. El
proceso de imitar la visión biológica con cámaras y computadoras es el objetivo principal de
R. Senthilnathan (B)
Departamento de Ingeniería Mecatrónica, Instituto SRM de Ciencia y Tecnología,
Kattankulathur, India Correo electrónico: senthilr4@srmist.edu.in
© Los autores, bajo licencia exclusiva de Springer Nature Suiza AG 2022 S. Datta y 159
JP Davim (eds.), Machine Learning in Industry, Management and Industrial
Engineering, https://doi.org/10.1007/978-3 -030-75847-9_8
Machine Translated by Google
160 R. Senthilnathan
el campo de la visión artificial. La aplicación de la visión artificial a las industrias que realizan algún tipo
de operaciones de fabricación se denomina visión artificial. Aunque la visión artificial se está aplicando
a entornos conocidos en contraste con la visión por computadora, tiene sus desafíos que enfrentar. La
mayoría de estos desafíos surgen de los requisitos de productividad y robustez para un rendimiento
24 × 7. Las aplicaciones de la visión en las industrias se pueden clasificar en términos generales en
los siguientes cuatro tipos, popularmente abreviados como GIGI:
• Calibración: se ocupa de medidas geométricas, ubicaciones, la distancia entre dos o más puntos,
etc. • Identificación: se ocupa de atribuir un nombre a un objeto en función de su apariencia, lectura
de códigos de datos 2D, características impresas en piezas, etc. • Orientación: Se ocupa de localizar
la posición, orientación, obtener la información
Este capítulo trata los diversos aspectos del uso del aprendizaje profundo para aplicaciones de
visión artificial. Se hace especial énfasis en la inspección automatizada mediante imágenes y videos
que contienen información sobre el mundo real. Los otros tres tipos de aplicaciones se tocan en un
nivel superficial en aras de la exhaustividad.
La inspección es una parte integral importante de cualquier sistema de fabricación. La inspección tiene
como objetivo rechazar las piezas no conformes y garantizar piezas de buena calidad. La inspección
visual tradicional que requiere mucha mano de obra ha sido reemplazada con éxito por sistemas de
visión artificial en las industrias desde las últimas tres décadas. Un sistema de visión artificial para
inspección detecta cualquiera de las características presentadas en la Fig. 1.
Más allá de la palabra profundo, el potencial significativo del aprendizaje profundo radica en su capacidad para
realizar un aprendizaje de representación de características, que es una diferencia contrastante con el aprendizaje automático.
Machine Translated by Google
162 R. Senthilnathan
no imposible. Los enfoques de aprendizaje automático basados en funciones no eran tan precisos como el
aprendizaje profundo, ya que las funciones extraídas por los ingenieros se limitan al conocimiento de las matemáticas
inventadas por los humanos. Por ejemplo, no existe una característica adecuada que pueda distinguir entre un
rasguño (un defecto) y una línea adscrita que se hace intencionalmente en la superficie de un objeto. Algunas de las
características que modelan los métodos de aprendizaje profundo durante el proceso de aprendizaje aún deben
definirse con las matemáticas existentes.
Esta capacidad ilimitada le da al enfoque de aprendizaje profundo una gran ventaja en aplicaciones como la
conducción autónoma, que es un problema completamente desestructurado que requiere representaciones
distinguibles de los diversos objetos en la escena para crear un límite de clasificación.
Los algoritmos de aprendizaje profundo (en general, todos los algoritmos de aprendizaje automático) pueden ser
clasificados en los siguientes cinco tipos basados en el proceso de aprendizaje:
• Aprendizaje supervisado: asigna datos de entrada con etiquetas conocidas anotadas por humanos. • Aprendizaje
no supervisado: Aprende el patrón inherente en los datos no etiquetados. • Aprendizaje semisupervisado: utiliza
datos de entrada parcialmente etiquetados y la mayoría sin etiquetar. • Aprendizaje por refuerzo: Aprende a
maximizar sus objetivos en función de la entrada
datos.
• Transferencia de aprendizaje: reutiliza un modelo que se aprendió de diferentes conjuntos de datos para
un conjunto de datos completamente nuevo o un ajuste fino del existente.
La visión artificial convencional se puede ver en dos manifestaciones. Uno, métodos completamente basados en
reglas y, en segundo lugar, métodos de aprendizaje automático basados en funciones manuales. Los métodos
basados en reglas no emplean ningún método de aprendizaje automático y utilizan códigos duros para extraer
características, analizarlas y tomar decisiones basadas en ellas. Las reglas para la clasificación son creadas por el
ser humano en función de las múltiples pruebas y ajustes de los datos y el código, respectivamente. Los métodos
clásicos de visión artificial de aprendizaje automático utilizan métodos como máquinas de vectores de soporte, redes
neuronales superficiales clásicas, etc., donde el patrón es aprendido por un algoritmo basado en las características
hechas a la medida por el
Machine Translated by Google
humano. En cualquier caso, las características de los datos (imágenes y videos) son extraídas por humanos y
procesadas posteriormente para tomar decisiones. Las reglas para la clasificación son creadas por el algoritmo
de aprendizaje basado en las características de entrada extraídas por las matemáticas redactadas por
humanos.
La tabla presenta una diferencia centrada en las reglas entre las técnicas de visión artificial asistidas por
visión tradicional y las asistidas por aprendizaje profundo (Tabla 1).
El aprendizaje profundo tiene una diferencia fundamental en la forma en que se construyen las reglas,
donde las características necesarias para construir las reglas y las propias reglas son generadas por la propia
red. Este cambio de paradigma en el enfoque define las ventajas y limitaciones del aprendizaje profundo.
La Fig. 3 captura la ventaja de usar el aprendizaje profundo sobre la visión artificial tradicional en términos
de la complejidad de las aplicaciones y la cantidad de inversión requerida [2].
Al igual que la visión artificial tradicional, el aprendizaje profundo no es una tecnología que pueda resolver
"cualquier cosa en cualquier lugar". Algunas de las preguntas clave que se deben hacer antes de implementar
el aprendizaje profundo incluyen las siguientes.
¿Dónde usarlo?
El aprendizaje profundo no es una herramienta de medición. En las industrias, uno de los tipos de aplicación
más importantes es la metrología y la medición. Dado que las redes de aprendizaje profundo aprenden el
patrón de los datos, su rendimiento es muy bueno para las inferencias semánticas en lugar de las medidas
mecánicas puras como la forma, las primitivas geométricas como el diámetro, el área, etc. Las aplicaciones
que utilizan la apariencia de los objetos como la característica principal de el interés por la identificación, la
inspección, etc. son los que podrían beneficiarse enormemente de la forma de resolución del aprendizaje
profundo.
164 R. Senthilnathan
Fig. 3 Inspección de visión artificial tradicional versus inspección asistida por aprendizaje profundo
¿Cuáles deberían ser los datos para entrenar redes de aprendizaje profundo?
El aprendizaje profundo es un enfoque basado en datos. Los datos son el requisito principal. Aunque hay un
dicho popular que dice que "cuanto más se alimentan los datos al aprendizaje profundo, mejor es su
rendimiento", existe una condición subyacente que debe cumplirse con el
Machine Translated by Google
declaración para ser verdad. Los datos recopilados para entrenar redes de aprendizaje profundo
deben poder capturar todas las posibilidades del mundo real en términos de formas, tamaños,
transformaciones rígidas, transformaciones de similitud, cambios de fondo (si los hay), color,
movimientos relativos, oclusiones (si corresponde), etc. Los datos recopilados para los sistemas de
inspección automatizados basados en visión deben contener todos los atributos de la escena en las
proporciones adecuadas según corresponda para cualquier aplicación dada. La palabra proporción
está relacionada con la probabilidad de ocurrencia de los atributos enumerados en la condición del
mundo real. Un mayor peso de un atributo específico puede crear un sesgo indebido durante el
entrenamiento. Una de las formas efectivas de abordar este problema es generar los datos necesarios
para la capacitación a partir del proceso real en las industrias en lugar de maquetas de laboratorio.
Esto garantiza una alta fidelidad de los datos en términos de qué tan bien representan la información
del mundo real tanto en términos de cantidad como de calidad. El otro lado de los datos, aparte de la
parte de adquisición, es la anotación, especialmente en un marco de aprendizaje supervisado, que es
la mayoría de los que se usan en los sistemas de visión artificial. La eliminación de cualquier forma
de sesgo es uno de los procesos no triviales involucrados en llevar los datos a una forma lista para el entrenamiento.
Los datos por sí solos no son suficientes. Las redes de aprendizaje profundo aprenden a partir de
datos que son buenas representaciones de la información del mundo real sujeta a fondo al
procedimiento de entrenamiento adoptado. Los enfoques sistemáticos adoptados en la capacitación
son una de las razones principales del desempeño actual del aprendizaje profundo. Dichos
procedimientos son formas de explotar todo el potencial de la filosofía del aprendizaje profundo.
Estos incluyen la estrategia para crear conjuntos de pruebas de validación de trenes, ajuste de
hiperparámetros, parada temprana, programación de hiperparámetros como la tasa de aprendizaje
durante el entrenamiento, etc. En la gran mayoría de los casos de redes de aprendizaje profundo
utilizadas en aplicaciones como clasificación y detección, el porcentaje de error final se reduce solo
debido a la estrategia de entrenamiento adoptada en comparación con las matemáticas nativas que
constituyen la arquitectura de la red.
Las redes de aprendizaje profundo utilizadas para la visión artificial son grandes. La naturaleza misma
de las redes de aprendizaje profundo, indiferente al tipo de datos que manejan, es la gran cantidad
de cálculos involucrados. Esto se puede ver en múltiples manifestaciones, a saber: número de capas
de neuronas, número de neuronas, tipos de cálculos involucrados (por ejemplo, combinaciones
lineales simples, circunvoluciones 2-D, etc.), tipo de procedimiento de aprendizaje (como propagación
hacia atrás), etc. Aunque el tiempo de capacitación no es una preocupación real para el despliegue
industrial, el tiempo necesario para generar una inferencia para cualquier dato dado es extremadamente
vital para influir en la productividad de la industria. Durante la inferencia, la mayoría de las redes de
aprendizaje profundo solo implican una propagación hacia adelante que implica cientos de miles de
operaciones matriciales. Este proceso demanda una gran cantidad de recursos computacionales. Esto
requiere computadoras rápidas y en tiempo real con la capacidad de paralelizar el procesamiento.
Con la llegada de las GPU modernas, esto es muy posible con muchos productos de software y
hardware personalizados para acelerar las inferencias de aprendizaje profundo. A pesar de estos
avances, las velocidades superiores a 500 partes por minuto son muy difíciles de lograr con las
grandes redes de aprendizaje profundo utilizadas.
Machine Translated by Google
166 R. Senthilnathan
para detección Como referencia, tal hito se logró hace una década en la visión artificial clásica.
El aprendizaje profundo se recibe con escepticismo. Con un nivel de madurez de casi más de cinco años de
adopción en la industria, el aprendizaje profundo todavía se considera una tecnología que puede fallar. La
razón principal de esto es el hecho de que no existe una explicación clara de cómo las redes neuronales de
aprendizaje profundo llegan a una determinada inferencia. Esto a menudo se ve como una falta de
transparencia.
Dados todos los puntos de comparación, debe entenderse que, con todos los beneficios del aprendizaje
profundo, todavía existen muchas limitaciones fundamentales. Esto también significa que la visión artificial
tradicional no está obsoleta. Todavía tienen aplicaciones potenciales donde el aprendizaje profundo no es
viable debido a la falta de generación de datos para la capacitación y, en principio; es posible que la aplicación
no se pueda resolver utilizando enfoques basados en datos, por ejemplo, medidas geométricas. La Fig. 4
presenta las diversas características de las aplicaciones que pueden emplear el aprendizaje profundo y
aquellas que pueden resolverse satisfactoriamente utilizando la ruta tradicional de visión artificial.
Estas características de aplicación de la visión tradicional y el aprendizaje profundo pueden ser aplicables
para una variedad de aplicaciones en industrias que se ilustran en la Fig. 5 [3].
Una forma de clasificación de las redes de aprendizaje profundo se basa en la naturaleza de la anotación
sobre los datos y la inferencia generada por la red. En general, la visión
Machine Translated by Google
Las tareas pueden involucrar los siguientes problemas al tratar con las diversas propiedades que deben
extraerse sobre los objetos en la imagen:
• Clasificación de imágenes: asociar una imagen a alguna clase de objeto sin ubicar
eso.
• Reconocimiento de Objetos: Saber qué tipo de objetos hay disponibles en la imagen. • Localización de
objetos: Ubicación de los objetos. • Detección de Objetos: Reconocimiento + Localización. • Objeto/
Imagen/ Segmentación Semántica: Asociación de cada píxel a algún objeto
clase.
Entre las tareas antes mencionadas, las siguientes son los diversos tipos de métodos
basado en el aprendizaje profundo utilizado en aplicaciones industriales:
Clasificación de imágenes
La clasificación de imágenes es la tarea más simple entre los tipos de métodos. En un marco de aprendizaje
supervisado, el problema de clasificación de imágenes contiene una imagen con un objeto etiquetado (por lo
general, las imágenes del mismo objeto se guardan en un solo directorio, en el que el nombre del directorio
ayudaría a crear etiquetas). Esto ahorra tiempo en comparación con otros métodos en los que se requiere una
intervención a nivel de imagen durante el proceso de anotación. En el caso de utilizar la clasificación de
imágenes para la inspección automatizada, las imágenes de muestra de las buenas y las imágenes de los
distintos tipos de piezas defectuosas se agrupan en carpetas individuales. Algunas de las redes populares de
aprendizaje profundo para la tarea de clasificación de imágenes incluyen AlexNet [1], VGG [4], Googlenet [5] y
ResNet [6].
Detección de objetos
La detección de objetos localiza las clases de objetos entrenados dentro de una imagen y los identifica a través
de un polígono circundante (comúnmente, un cuadro delimitador rectangular). La detección de objetos es
necesaria en escenarios en los que hay varios objetos disponibles en el campo de
Machine Translated by Google
168 R. Senthilnathan
vista de la cámara. Las partes que se tocan, superponen y ocluyen también deben separarse en casos de uso de
inspección de múltiples objetos. La inferencia de detección de objetos para la inspección de superficies en piezas
metálicas es un ejemplo típico de esta categoría [7]. Varios tipos de defectos superficiales son las clases de objetos
que se entrenan con imágenes y las anotaciones correspondientes para obtener dichos resultados. Las anotaciones
son imágenes y las correspondientes coordenadas del polígono. Se puede apreciar que el proceso de anotación
consume mucho tiempo en comparación con la clasificación de imágenes. Algunas de las redes populares de
aprendizaje profundo para la tarea de clasificación de imágenes incluyen RCNN [8], Fast RCNN [9], Faster RCNN [10],
Mask RCNN [11], Single Shot Detector [12] y YOLO [13] serie de redes .
Segmentación Semántica
Mientras que la detección de objetos localiza defectos en un proceso de inspección dentro de un polígono, con la
segmentación semántica de imágenes, las clases de defectos pueden localizarse con precisión a nivel de píxeles. La
segmentación semántica de imágenes asigna una etiqueta a cada píxel, con el fondo y las regiones que no son de
interés compartiendo una etiqueta de clase. El proceso de etiquetado requiere mucho más tiempo en comparación
con la detección de objetos. Dichas redes se etiquetan mejor con herramientas de software especiales disponibles
que pueden reducir significativamente el tiempo de etiquetado. Algunas de las redes neuronales profundas populares
para tareas de segmentación semántica incluyen U-Net [14], Feature Pyramid Network (FPN) [15] y la familia de redes
DeepLab [16].
Aparte de los tres tipos, a veces un cuarto tipo de método que puede utilizar redes de aprendizaje profundo se
denomina detección de anomalías. La detección de anomalías se puede realizar como un problema de clasificación,
segmentación o detección de imágenes en el que varios productos buenos y muy pocas piezas malas están disponibles
para el entrenamiento. Tal escenario es generalmente la norma en la inspección de superficie automatizada donde la
detección y segmentación de defectos es un requisito. La capacidad de resolver algunas aplicaciones con menos
datos es un atributo especial de la detección de anomalías. A veces, la detección de anomalías puede llevarse a cabo
sin necesidad de etiquetas si las imágenes son de alta calidad en el contexto de capturar significativamente las
diferencias entre las regiones defectuosas y las buenas. En tales casos, solo se requieren unas pocas imágenes, a
veces tan solo 20 imágenes de piezas buenas.
Esto hace que el entrenamiento sea rápido y, por lo tanto, permite la creación rápida de prototipos del código de la
aplicación.
A continuación se enumeran algunos de los principales desafíos en la adopción del aprendizaje profundo para la
visión artificial.
Cuestiones de propiedad: a diferencia de las aplicaciones de servicio, como la comunidad de automóviles sin
conductor, donde los conjuntos de datos masivos de imágenes y videos anotados están disponibles para el acceso de
la comunidad técnica, la muestra de la aplicación industrial debe ser
Machine Translated by Google
generado por la industria en cuestión; por lo tanto, la nueva formación es a menudo la opción que hace que el desarrollo
sea costoso en tiempo y dinero. Transferir el aprendizaje es la única salida disponible en tales casos para ahorrar costos
y tiempo.
Desafío de etiquetado: el proceso de etiquetado en la inspección requiere experiencia en la comprensión de las
características mínimas que diferencian las piezas buenas de las defectuosas. Esto a menudo exige que lo lleve a cabo
un operador experimentado, que es un tiempo adicional incluido en la rutina de producción regular. Es posible que las
industrias no estén en condiciones de dedicar ese tiempo.
Requisitos reglamentarios: la mayoría de las industrias que emplean inspección automatizada están sujetas a
estrictos requisitos reglamentarios y de validación, en particular los de ciencias de la vida y farmacéuticos. Esto hace que
las industrias se lo piensen dos veces antes de adoptar el aprendizaje profundo, ya que sus resultados no siempre son
explicables.
Caja negra: dado que el aprendizaje profundo es un método cuyos resultados no se pueden explicar con aritmética y
lógica, los desarrolladores de visión y los usuarios finales generalmente se sienten menos cómodos al ignorar lo que hay
dentro de la caja negra.
En el proceso de superar los muchos desafíos que plantea el aprendizaje profundo cuando se pretende utilizar para la
inspección automatizada, pocos facilitadores facilitan el proceso.
Los habilitadores clave para emplear aprendizaje profundo o tareas de inspección automatizadas se presentan en la Fig.
6.
Estos avances altamente personalizados han acelerado la tasa de adopción del aprendizaje profundo para la
inspección automatizada. Los tres habilitadores clave se analizan en la siguiente sección de hardware y software.
En la Fig. 7 se presenta una canalización general de un proyecto de aprendizaje profundo para una tarea de inspección
automatizada .
Machine Translated by Google
170 R. Senthilnathan
El aprendizaje profundo, a diferencia de las aplicaciones tradicionales de visión artificial, requiere hardware
con atributos muy específicos. La naturaleza de la elección del hardware para el aprendizaje profundo
requerido para el entrenamiento y la inferencia es muy diferente. El entrenamiento de aprendizaje profundo es
una tarea altamente computacional debido a los siguientes atributos del proceso de entrenamiento.
Todos los factores mencionados anteriormente exigen grandes recursos de computación, como la memoria
de la CPU, la unidad de procesamiento de gráficos, como el hardware de computación paralela masiva y la
gran memoria de la GPU. Dado que el hardware de capacitación no se encarga en la industria, el contenido
restante de esta sección está dedicado al hardware utilizado para la inferencia.
productividad. El tiempo de inferencia afecta directamente a la productividad. Esto crea dos requisitos
fundamentales para el hardware de inferencia de aprendizaje profundo, a saber, un comportamiento
rápido y en tiempo real. Los resultados predecibles y deterministas en el tiempo son los dos principales
comportamientos en tiempo real. Aunque tales atributos se logran a través de un sistema operativo en
tiempo real y el código de la aplicación, la elección correcta del hardware para ejecutar dicho software
es muy importante. Hay varias opciones de hardware de inferencia que se enumeran a continuación.
Controladores integrados basados en GPU: microcontroladores basados en ARM con GPU
Los núcleos integrados en un solo circuito integrado están disponibles en forma de factor de forma de
sistema en módulo (SOM). La plataforma Jetson de NVIDIA Corporation es un ejemplo de lo mismo.
Estos SOM operan una versión en tiempo real del sistema operativo Linux con interfaces de hardware
similares a las de una PC. El código de inferencia del algoritmo de aprendizaje profundo para la
inspección automatizada se puede acelerar mediante el uso de GPU integrada con herramientas de
software especiales que hacen que el proceso sea extremadamente rápido.
Controladores basados en FPGA: la matriz de puertas programables en campo es un hardware
totalmente configurable que tendrá una latencia altamente determinista y un comportamiento
perfectamente en tiempo real. Tienen otras ventajas especiales, como un consumo de energía y una
generación de calor extremadamente bajos. Esta categoría de hardware es bastante nueva para
aplicaciones de aprendizaje profundo. El uso de FPGA también brinda al desarrollador el beneficio del
largo ciclo de producción y, dado que no tienen implementación de software a diferencia de otras
opciones de hardware, la red de aprendizaje profundo (como un nuevo tipo de red neuronal convolucional)
como propiedad intelectual está protegida. .
Puertas de enlace industriales: con el crecimiento exponencial en la adopción del aprendizaje
profundo en las industrias, el hardware informático que generalmente se etiqueta como puertas de
enlace de IA se ha vuelto muy popular. Están en algún lugar entre el controlador totalmente integrado y
la PC en términos de sus interfaces de hardware y capacidades informáticas. La puerta de enlace AI de
Pleora y las plataformas EDGE Ai de Adlink son ejemplos típicos de esta categoría de productos.
172 R. Senthilnathan
Hay muchas compañías populares de software de visión artificial que tienen sus productos mejorados con
capacidades de aprendizaje profundo. Halcon y Merlic de Mvtec, Sher lock de Dalsa, Matrox Imaging Library de Matrox,
Easysegment de Euresys son algunas de las plataformas populares que ofrecen capacitación de aprendizaje profundo
y soluciones de inferencia compatibles con múltiples plataformas de hardware y sistemas operativos.
Automotor
Dado que la industria automotriz es la principal unidad de fabricación en la mayoría de los países, es posible realizar
una variedad de tareas de inspección mediante el aprendizaje profundo. Estos incluyen la inspección de varios
subsistemas, como el ensamblaje de llantas, el sujetador de la rueda, el componente de la bolsa de aire, el componente
de la válvula de freno, el componente del cinturón de seguridad, la tela de la bolsa de aire, la pastilla de freno, el cilindro,
el anillo del pistón, el ensamblaje de la transmisión, la inspección de estampado de metal automotriz, etc.
Dispositivos médicos
Detección de dispositivos médicos y clasificación de superficies, detección de errores en rollos de etiquetas, detección
de rayones o partículas sueltas en parches médicos, inspección de calidad de bordado, inspección de soldadura y
colocación de adhesivos, etc. Una de las aplicaciones recientes es la inspección de calidad de máscaras faciales que
implica detección de componentes de máscaras faciales como orejeras, soldaduras de correas, presencia de manchas,
rasgaduras, errores de costura, etc.
El aprendizaje profundo en la industria farmacéutica se usa ampliamente para el control de calidad para detectar
defectos en píldoras, inspeccionar botellas y etiquetas, en la clasificación de tabletas, etc.
Productos de consumo
La industria de productos de consumo es una de las más diversas en términos de características visuales de los
productos. El aprendizaje profundo se puede utilizar para una variedad de tareas de inspección en productos de
consumo, como la inspección de calidad del material, la inspección de calidad de etiquetas, la inspección de tapas de
botellas, la inspección de tejido, la detección de productos faltantes, la inspección de sellos de seguridad y
manipulaciones, etc.
Machine Translated by Google
Industria de alimentos
La industria alimentaria es una de las pioneras en el uso de la inspección automatizada para tareas como la
inspección de contaminantes, la inspección de formas físicas y la inspección de texturas.
Electrónica
En electrónica, el aprendizaje profundo se puede utilizar para la inspección cosmética de cables de circuitos
integrados, la inspección de PCB, como la inspección de soldaduras, la verificación de integridad y la inspección
de pines de conectores. Los dispositivos móviles, como los teléfonos inteligentes y las tabletas, tienen un gran
panel LCD que tiene numerosas posibilidades de defectos que son inspeccionados por los sistemas de visión.
Estos entran en la categoría de inspección de superficie. El aprendizaje profundo se puede utilizar además para
la inspección estética de viviendas y también para el análisis de defectos estéticos [17].
Agricultura
En agricultura, el aprendizaje profundo se puede utilizar para la clasificación de frutas, identificación de plantas,
inspección de hojas, etc.
Logística
Algunas de las aplicaciones potenciales de la visión artificial asistida por aprendizaje profundo aplicadas a la
logística incluyen la clasificación de paquetes, la identificación de etiquetas, la identificación de espacios vacíos
en los estantes, etc.
5 Perspectivas de futuro
Algunas de las direcciones prometedoras de cambios y mejoras que uno puede esperar ver en breve en el
contexto de la influencia del aprendizaje profundo en la inspección automatizada basada en visión incluyen las
siguientes:
Herramientas en la nube
La computación en la nube ha influido en todos los sectores, excepto en el sector manufacturero, en el que se
aplica la visión industrial. Aunque las grandes empresas de fabricación utilizan el almacenamiento en la nube y
las bases de datos, la computación en la nube es una nueva dirección para implementar aplicaciones de visión
artificial basadas en el aprendizaje profundo. Hay plataformas de software, por ejemplo
NeuralVision de Cyth [18], que puede realizar computación basada en la nube para etiquetado, análisis
estadístico de manejo de imágenes, visualizaciones a través de simulación y generación de soluciones. Las
preocupaciones sobre la seguridad y la protección de la propiedad intelectual fueron las principales razones por
las que las industrias no adoptaron las características de la computación en la nube. Con grandes gigantes
tecnológicos como Google y Amazon que ofrecen seguridad cibernética de primer nivel en sus plataformas de
computación en la nube, habrá razones convincentes para usar los recursos de la nube para su computación
involucrada en proyectos de visión artificial basados en aprendizaje profundo.
Machine Translated by Google
174 R. Senthilnathan
6 Tecnología 5G
Con las tecnologías 5G a la vuelta de la esquina, existe una expectativa seria de que la atención de las industrias
pueda volver a las redes de los microprocesadores. Esto podría influir gravemente en la forma en que se
implementan los algoritmos de aprendizaje profundo y su potencial para explotar los beneficios de la red.
Industria 4.0
La revolución de la industria 4.0 y el aprendizaje profundo ocurrieron en paralelo para las industrias.
Después de media década, existe una sensación de convergencia especialmente, ya que la adopción de I4.0
está influyendo en el hardware y el software de aprendizaje profundo con nuevos tipos de datos que se espera
que transmitan y características modernas de conectividad. Esta tendencia continuará creciendo en los próximos
cinco años con más puertas de enlace perimetrales preparadas para IoT que ofrecen la capacidad informática
para ejecutar algoritmos de aprendizaje profundo basados en visión.
Computación cuántica
Con la promesa de que la computación cuántica sea diez o cientos de veces mejor que la computación clásica,
es probable que las tareas intensivas en computación similares al aprendizaje profundo sean las primeras
aplicaciones candidatas para explotar su potencial. Las diversas etapas del entrenamiento de aprendizaje
profundo pueden explotar los principios de la computación cuántica para generar un rendimiento de tiempo
innovador.
Algoritmos complejos
Algoritmos cada vez más complejos en términos de número de capas y el principio subyacente se están
introduciendo en las aplicaciones industriales. Esta tendencia seguirá aumentando a medida que más
investigadores se conviertan en desarrolladores industriales.
Esto significa que la actitud de los desarrolladores es muy diferente a la de los ingenieros de visión clásicos. Se
espera que dichos algoritmos amplíen los límites de la complejidad de la aplicación que se puede resolver en el
marco de inspección automatizada basada en la visión.
Las herramientas de código abierto son los líderes en los proveedores de herramientas de software de aprendizaje
profundo, aunque hay disponibles herramientas de software patentadas personalizadas. Actualmente se está
presenciando que las industrias están dispuestas a considerar la implementación de código abierto de los
segmentos de aprendizaje profundo basados en visión de la aplicación más grande si no fuera por la aplicación completa.
El éxito de una empresa radica en su capacidad para reconocer nuevas tecnologías, como el aprendizaje
profundo, que crea un margen para una mayor automatización y su disposición a invertir en ellas. Dicha adopción
de nueva tecnología no es esencialmente un reemplazo completo de las tecnologías convencionales, como la
visión artificial basada en reglas, sino que pueden combinarse sinérgicamente para dar como resultado nuevas
prácticas que darán a las empresas escala, eficiencia, precisión y crecimiento financiero para el mercado. próxima
generación.
Machine Translated by Google
Referencias
8. Girshick, R., Donahue, J., Darrell, T. y Malik, J. (2014). Jerarquías de funciones enriquecidas para la detección precisa
de objetos y la segmentación semántica. En Visión por Computador y Reconocimiento de Patrones.
9. Girshick, R. (2015). R-CNN rápido. En Congreso Internacional de Visión por Computador.
10. Ren, S., He, K., Girshick, R. y Sun, J. (2015). R-CNN más rápido: hacia la detección de objetos en tiempo real con redes
de propuestas regionales. En Sistemas de Procesamiento de Información Neural.
11. He, K., Gkioxari, G., Piotr Doll´ar, & Girshick, R. (2017). Máscara R-CNN. En Internacional
Jornada de Visión por Computador.
12. Liu, W., Anguelov, D., Erhan, D., Szegedy, C. y Reed, S. (2015). SSD: detector multibox de disparo único, arXiv preprint
arXiv:1512.02325.
13. Redmon, J., Divvala, S., Girshick, R. y Farhadi, A. (2016). Solo mira una vez: Detección unificada de objetos en tiempo
real. En CVPR.
14. Ronneberger, O., Fischer, P. y Brox, T. (2015). U-net: Redes convolucionales para segmentación de imágenes
biomédicas. Actas Congreso Internacional Computación de Imagen Médica. Comput.- Intervención Asistida, pp. 234–
241.
15. Lin, T., Dollár, P., Girshick, R., He, K., Hariharan, B. y Belongie, S. (2017). Cuenta con redes piramidales para la
detección de objetos. En IEEE Conference on Computer Vision and Pattern Recognition (CVPR), págs. 936–944.
16. Chen, L., Papandreou, G., Kokkinos, I., Murphy, K. y Yuille, AL (2018). DeepLab: segmentación semántica de imágenes
con redes convolucionales profundas, convolución atrosa y CRF totalmente conectados. IEEE Transactions on Pattern
Analysis and Machine Intelligence, 40(4), 834–848.
17. Yuan, ZC, Zhang, ZT y Su, H. (2018). Detección de defectos basada en la visión para cubiertas de vidrio de teléfonos
móviles utilizando redes neuronales profundas. Revista internacional de ingeniería de precisión, 19, 801–810. 18.
www.cyth.com, (visitado el 22-10-2020).
Machine Translated by Google
Correo electrónico
de SS Miriyala: ch13m15p000002@iith.ac.in
I.
Investigación y desarrollo de Mohanty, Tata Steel Limited, Jamshedpur 831001, Jharkhand,
India Correo electrónico: iti.mohanty@tatasteel.com
© Los autores, bajo licencia exclusiva de Springer Nature Suiza AG 2022 S. Datta y 177
JP Davim (eds.), Machine Learning in Industry, Management and Industrial
Engineering, https://doi.org/10.1007/978-3 -030-75847-9_9
Machine Translated by Google
industria. El método propuesto puede minimizar las posibilidades de sobreajuste en las ANN y
proporciona un método genérico aplicable a cualquier tipo de datos/modelo de las industrias de
procesos.
1. Introducción
La ciencia de datos se define ampliamente como (a) gestión, (b) aprendizaje automático
(ML) y (c) visualización de datos, entre los cuales el aprendizaje automático se encuentra en su
núcleo [4]. La primera tarea trata de organizar, almacenar, acceder y compartir los datos. La
segunda tarea emplea algoritmos matemáticos para capturar la tendencia oculta en los datos,
por ejemplo, desarrollando modelos de predicción, determinando la estructura subyacente de
los datos y desarrollando modelos basados en la experiencia. La tercera tarea consiste en
métodos que pueden presentar los conocimientos de los datos y, a su vez, ayudar a las
organizaciones/industrias a tomar decisiones importantes basadas en el análisis de datos.
Debido a las numerosas ventajas que ofrecen las herramientas basadas en DS, las aplicaciones de DS están m
Machine Translated by Google
planta, primero se preprocesa para minimizar el ruido de medición y retener solo la información
relevante del proceso. Los datos resultantes se utilizan luego para ejecutar el algoritmo
propuesto capaz de diseñar de manera óptima las RNA. En el trabajo actual, las entradas al
modelo ANN constituyen 29 parámetros que involucran las composiciones químicas, las
propiedades físicas del acero alimentado al laminador y las condiciones de operación del
laminador. Las propiedades mecánicas deseadas en el producto final, como alta resistencia a la
tracción, rendimiento y elongación, constituyen los 3 resultados del modelo ANN.
Las ANN óptimas obtenidas pudieron emular los datos no lineales de alta dimensión con una
precisión del 98 % en el conjunto de prueba (datos no vistos). Si bien el algoritmo para el diseño
de ANN sirve como la principal novedad, una descripción detallada de la construcción de ANN
de múltiples capas, la naturaleza multiobjetivo de la estrategia de búsqueda de arquitectura
neuronal y la aplicación del algoritmo propuesto a datos reales, no lineales, industriales y de
alta dimensión para construir un El modelo basado en datos para permitir la optimización y el
control basados en datos del tren de laminación son otros aspectos destacados del trabajo
propuesto. En el resto del artículo, los detalles del algoritmo propuesto y la descripción del
proceso de laminación en caliente en las industrias siderúrgicas se presentan en la sección
'Formulación', seguidos de los 'Resultados' del diseño ANN y la construcción del modelo antes
de resumir el trabajo en el Apartado 'Conclusiones'.
2 Formulación
Las ANN son modelos gráficos que fueron diseñados para imitar el funcionamiento del cerebro
humano para realizar las tareas de clasificación y regresión [41]. La unidad básica de
funcionamiento del sistema nervioso llamada célula nerviosa se modela utilizando un nodo que
comprende la unidad de suma y la función de activación para imitar la sinapsis y el núcleo,
respectivamente, como se muestra en la Fig. 1. La unidad de suma daría como resultado una
suma ponderada de entradas al nodo, mientras que la función de activación es responsable de
transformaciones no lineales de los datos. Las ANN son una colección de varios de estos nodos y se
La necesidad de salidas o etiquetas para cada conjunto de entradas clasifica el modelado ANN como
aprendizaje automático supervisado. Además, la estructura gráfica de las RNA permite la determinación
analítica de los gradientes de la función de pérdida con respecto a los pesos mediante el procedimiento
denominado backpropagation. Por lo tanto, los algoritmos clásicos de optimización basados en gradientes,
como el descenso más pronunciado [41] o las técnicas newtonianas [41] , se emplean para entrenar las RNA.
Realizar solo entrenamiento con pesas en ANN a menudo puede conducir a una situación en la que ya
no son capaces de interpolar o predecir datos no vistos. Este fenómeno llamado sobreajuste (a los datos de
entrenamiento) generalmente se evita en las ANN dividiendo los datos dados en tres partes: la primera parte
llamada conjunto de entrenamiento se usa para entrenar el modelo ANN, la segunda parte llamada conjunto
de validación se usa para verificar el sobreajuste durante el entrenamiento y la tercera parte llamada conjunto
de prueba se usa para verificar el rendimiento del modelo ANN entrenado en datos no vistos. El procedimiento
para evitar el sobreajuste en las ANN utilizando el conjunto de validación se denomina detención anticipada,
donde el ejercicio de capacitación finaliza cuando se observa que la capacitación adicional no da como
resultado
Machine Translated by Google
Fig. 3 Una red de perceptrones multicapa con 3 entradas, 2 capas ocultas y 1 salida. Durante el paso hacia adelante, la
información fluye en dirección hacia adelante (de izquierda a derecha) para generar una pérdida L de error cuadrático
medio (MSE) en todos los N puntos de entrenamiento, y durante la propagación hacia atrás, la información fluye de
derecha a izquierda.
entre los resultados predichos y los valores originales. Por lo tanto, formulamos los objetivos
como minimizar la cantidad de parámetros en ANN (que están correlacionados con la
arquitectura de ANN) y maximizar la precisión del conjunto de prueba para equilibrar los
aspectos de parsimonia y sobreajuste. La arquitectura (número de capas ocultas y número
de nodos en cada capa oculta) y el tipo de función de activación sirven como variables de
decisión en la formulación propuesta para la optimización de hiperparámetros, como se
muestra en la ecuación. 1.
min ni y nTF
ÿR2 prueba y P (1)
1, si i =
tal que, L ÿ ni ÿ ÿi donde L =
1 0, si i > 1
ÿ cov Y, Yˆ ÿ
ÿ ÿ
var(Y)var Yˆ
ÿ ÿ
2
Nuevo Testamento Nuevo Testamento
var(Y) = NT Y2
i
ÿ
yo
yo=0 yo=0
Y son las salidas originales, Yˆ son las salidas predichas y NT es el número de puntos en
el conjunto de prueba. P es el número total de parámetros en el modelo ANN. ni es el número
de nodos en la capa oculta i y nTF es el parámetro para elegir la función de activación (1 para
tan-sigmoidal y 2 para log-sigmoidal), mientras que ÿi y ÿ son los límites superiores de ni e i,
respectivamente, y Z+ es conjunto de enteros positivos. La naturaleza multiobjetivo de la
formulación propuesta, la formulación INLP y la falta de evaluación de gradiente proporcionaron
un margen para la implementación de algoritmos de optimización evolutiva basados en la
población para resolver el problema NAS. En este trabajo, dado que tenemos dos objetivos en
conflicto y variables de decisión integrales, implementamos el algoritmo genético de clasificación
no dominada codificado en binario (NSGA-II) [44]. El flujo del algoritmo se muestra en la Fig. 4.
Comenzamos inicializando el número de generaciones (Ngen) y el tamaño de la población
(Npop) en NSGA-II. Si bien se puede usar cualquier valor para los límites superiores ÿi y ÿ
(número de nodos en cada capa oculta y número de capas ocultas, respectivamente), en este
trabajo hemos establecido ÿ = 3 y ÿ1 = 8, ÿ2 = 8 y ÿ3 = 7. Dado que se usa el NSGA II binario,
cada variable de decisión se representa mediante una subcadena binaria compuesta por 0 y 1.
Para asegurar valores integrales entre los límites inferiores (como se muestra en la Ec. 1) y los
límites superiores antes mencionados en las variables de decisión, n1, n2 y n3 son
Machine Translated by Google
Fig. 4 Diagrama de flujo del algoritmo propuesto para NAS evolutivo utilizando NSGA-II
representado con 3 subcadenas binarias de 3 bits de longitud para permitirles crear 8 valores
integrales discretos (n1 será un número entero entre 1 y 8, n2 será un número entero entre 0 y 7
y n3 será un número entero entre 0 y 7 ), y nTF se representa con una cadena binaria de longitud
1 para habilitar la salida binaria. Concatenando estas 4 cadenas binarias horizontalmente, se
crea un solo candidato de 10 bits de largo llamado cromosoma, donde cada bit se llama gen.
Npop, tales cromosomas constituyen la población en una generación de NSGA-II. Por lo tanto,
para un cromosoma determinado, la arquitectura y la elección de activación se decodifican para
crear la ANN, como se demuestra con un ejemplo en la Fig. 4. Una vez que se obtiene la
configuración de la ANN, se realiza la optimización del bucle interno para entrenar los pesos y
probar la red entrenada con un conjunto de prueba y evalúe el R2 correspondiente según la
ecuación. 1. Del mismo prueba
modo, el segundo objetivo, P también puede ser
evaluado para la arquitectura dada contando los pesos y sesgos en la red.
Este ejercicio se repite para todos los candidatos de Npop para completar una generación de
NSGA II. Tras la evaluación exitosa de una generación, todas las soluciones únicas se guardan
en una base de datos para evitar cálculos redundantes en futuras generaciones de NSGA-II.
Machine Translated by Google
Se realizan operaciones de selección, cruce, mutación y elitismo [44] para crear una generación
posterior de poblaciones. Este procedimiento se repite hasta la convergencia del algoritmo NSGA-
II. Finalmente, las soluciones de rango 1 se consideran como el frente de Pareto final en el que
cada punto se correlaciona con una arquitectura ANN. Se puede usar una información de orden
superior adecuada, como la validación cruzada de K-fold [45] o el criterio de información de Akaike
[46] o cualquier otro criterio de evaluación del modelo [44] para seleccionar una arquitectura de la
lista que sirva como la solución ANN final diseñada de manera óptima capaz de máxima precisión
y mínimo sobreajuste.
La predicción de las propiedades mecánicas del acero ha sido objeto de investigación durante las
últimas dos décadas. Tradicionalmente, las propiedades mecánicas deseadas se logran mediante
el conocimiento de la metalurgia de procesos y la experiencia en la industria. Las propiedades
mecánicas del acero dependen no solo de la química inherente, sino también de la microestructura
que se desarrolla durante el proceso de fabricación [47]. En la fabricación de microaleaciones de
acero, la evolución de la microestructura es muy compleja y dinámica, lo que hace que las
predicciones sean menos consistentes. Esto, a su vez, aumenta la cantidad de esfuerzo y tiempo
necesarios para producir acero nuevo con las propiedades deseadas. Con los avances en la
metalurgia física, el procesamiento termomecánico y el uso cada vez mayor de la inteligencia
artificial, se han realizado intentos para desarrollar modelos que puedan aumentar la consistencia
en la predicción de las propiedades mecánicas de los aceros microaleados. Como resultado, varios
grupos de investigación en universidades, laboratorios de investigación del acero [48–50] han
desarrollado varios modelos y ha habido intentos de poner estos modelos en aplicaciones en la
producción de productos de acero. Estos modelos se concentran principalmente en laminación en
caliente, donde las condiciones de procesamiento se controlan de cerca para lograr las propiedades finales.
En el proceso Thin Slab Casting and Rolling (TSCR) o más comúnmente conocido como
Compact Strip Process (CSP) como se muestra en la Fig. 5, primero, el acero fundido se moldea en losas
3 Resultados y Discusiones
El proceso considerado contiene 29 entradas y 3 salidas, como se muestra en la Tabla 1. Los datos
para entrenar las redes neuronales en este estudio se muestrean a intervalos irregulares de las
corrientes de entrada y salida de la industria. Debido a errores en la instrumentación, es seguro
asumir que las posibilidades de que los datos se corrompan con el ruido de la medición son
relativamente altas. Para verificar y confirmar si los datos (particularmente las salidas) son
propensos al ruido, los pasamos a través de un filtro de baja frecuencia, como el promedio móvil.
En general, estos filtros permiten que pasen solo los datos que tienen una frecuencia inferior a un
valor prefijado; sin embargo, no confirman que el componente de alta frecuencia sea ruido. Por lo
tanto, el componente de alta frecuencia resultante se analiza mediante un gráfico de autocorrelación.
Si el análisis muestra que no existe una correlación estadísticamente significativa en los datos, se
puede plantear la hipótesis de que el componente de alta frecuencia es el ruido. Dado que no se
conoce a priori la extensión del ruido que se va a filtrar, se debe realizar una cierta cantidad de
ejercicio de prueba para determinar aproximadamente la cantidad de ruido que se va a filtrar de los
datos. Todo este análisis se realizó en este trabajo para cada función de salida.
La Figura 6 presenta los gráficos de correlación automática de los componentes de alta (ruido)
y baja frecuencia (datos) para las tres salidas. La presencia de datos solo entre las líneas de
confianza del 99 % y el 95 % indica que los datos son ruido blanco. Este rasgo característico se
puede ver en las subfiguras Fig. 6a–c, mientras que es significativamente diferente de las
características observadas en las subfiguras Fig. 6d–f.
Para confirmar que los datos utilizados para trazar las subfiguras Fig. 6a–c son ruido blanco,
trazamos los histogramas como se muestra en la Fig. 7. Estos histogramas (forma gaussiana)
confirman que los datos son de hecho ruido blanco (medición).
Machine Translated by Google
Tabla 1 Descripción de
SL. No. Entradas del modelo ANN Salidas del modelo
insumos y productos considerados en ANN
el trabajo propuesto
1 Espesor de losa Límite elástico
Dimensiones de losa
2 Ancho de losa Resistencia a la
tracción
3 Longitud de losa Alargamiento
4 Composiciones Aluminio
5 Boro
6 Carbón
7 Cromo
8 Cobre
9 Manganeso
10 Nitrógeno
11 Niobio
12 Fosforoso
12 Azufre
14 Silicio
15 Titanio
dieciséis Vanadio
17 Condiciones
de operación Temperatura de entrada
18 Salida
temperatura
19 Duración
20 Terminar de rodar
21 Temperatura
de bobinado
22 Rollo real 1
brecha
23 Rollo real 2
brecha
24 Rollo real 3
brecha
25 Rollo real 4
brecha
26 Rollo real 5
brecha
27 Rollo real 6
brecha
28 Rollo de 6 velocidades
29 Espesor de losa
Machine Translated by Google
Fig. 6 Gráficas de autocorrelación. Las subfiguras a, b y c son para componentes de alta frecuencia y d, e y
f son para componentes de baja frecuencia para la salida 1, 2 y 3, respectivamente.
Por otro lado, los datos en las subfiguras Fig. 6d-f demuestran un nivel significativo de
correlación. Además, el diagrama de dispersión del componente de baja frecuencia para las
tres salidas en la Fig. 8 indica una media distinta de cero variable, lo que nos permite suponer
que una cantidad estadísticamente significativa de ruido blanco se filtra de los datos medidos,
y el componente restante es verdadero. característica del proceso. La Figura 8 también
demuestra el alcance de la no linealidad en los datos.
Después del procesamiento previo de los datos y el filtrado del ruido, el componente
restante, indicativo de las características del proceso, se utiliza para el modelado ANN. Dado
que el proceso se ejecuta en estado estacionario, se supone que la dinámica de los datos no
cambia con el tiempo (datos no lineales estáticos), lo que nos permite modelarlo utilizando
feed-forward o redes de perceptrones multicapa.
Fig. 7 Las subfiguras a, b y c presentan el histograma de los componentes de alta frecuencia en los datos de las salidas 1,
2 y 3, respectivamente
sin correlación, por lo que no hay diferencia entre la previsibilidad de los modelos MISO y
MIMO ANN. Sin embargo, la construcción de 3 modelos MISO nos permitió reducir la
complejidad en el entrenamiento de ANN y también mejorar la velocidad del algoritmo
NAS evolutivo propuesto. Así, en este trabajo se construyeron 3 modelos MISO ANN.
Como se describió anteriormente, el bucle externo se resolvió utilizando NSGA-II, cuyas credenciales
Machine Translated by Google
Fig. 8 Las subfiguras a, b y c presentan los diagramas de dispersión de los componentes de baja frecuencia en los datos
para las salidas 1, 2 y 3, respectivamente
Machine Translated by Google
1 Variables binarias 4
2 Variables reales 0
3 Generaciones 100
4 Poblaciones 100
8 Inicialización Aleatorio
se presentan en la Tabla 2. La optimización del bucle interno (entrenamiento con pesas ANN) se
resolvió utilizando el Algoritmo de Levenberg Marquardt (LMA) [41].
Dado que la estrategia NAS propuesta es de naturaleza multiobjetivo con 2 funciones
objetivo, se obtuvieron frentes de Pareto bidimensionales como se muestra en la Fig. 9, donde
cada punto es una arquitectura ANN óptima con una función de activación óptima. La convergencia
del frente de Pareto en cada caso se aseguró iniciando el algoritmo NSGA-II con diferentes
poblaciones aleatorias iniciales y también ejecutando NSGA-II a un número significativamente
grande de generaciones (~ 1000). Ningún cambio en el Pareto final confirmó la convergencia del
algoritmo NAS propuesto.
Se debe seleccionar una única arquitectura ANN de la lista de soluciones de Pareto con el fin
de utilizarla como sustituto del proceso de laminación en caliente. Es necesario aplicar una
información de orden superior (HoI) adecuada para seleccionar una única solución [44].
En este trabajo, elegimos implementar AIC como HoI: se selecciona el modelo ANN con el valor
mínimo de AIC. Esto se debe a que AIC es un criterio de selección de modelo único, que penaliza
a los modelos (ANN en este caso) cuando tienen una gran cantidad de parámetros (pesos y
sesgos en este caso). Al hacer esto, esencialmente encuentra el modelo ANN que está menos
sobreajustado. Otro criterio de evaluación de modelo de estado del arte similar en la literatura
es la validación cruzada K-fold [46]. Sin embargo, su procedimiento computacionalmente intensivo
nos permitió preferir AIC. La lista de soluciones de Pareto junto con los valores AIC se muestran
en las Tablas 3, 4 y 5. Las arquitecturas seleccionadas junto con su rendimiento con respecto al
conjunto de prueba se muestran en la Tabla 6.
La Fig. 9 Las subfiguras a, b y c presentan los frentes de Pareto obtenidos al resolver el algoritmo NAS
propuesto para construir ANN para emular las salidas 1, 2 y 3, respectivamente.
Machine Translated by Google
Tabla 3 Lista de soluciones de Pareto obtenidas al resolver el algoritmo NAS propuesto para la salida 1 junto con
los valores AIC correspondientes. La entrada en negrita indica la arquitectura seleccionada n2 nTF
SL. No. n1 n3 R2prueba PAG RMSE AIC
Tabla 4 Lista de soluciones de Pareto obtenidas al resolver el algoritmo NAS propuesto para la salida 2 junto con
los valores AIC correspondientes. La entrada en negrita indica la arquitectura seleccionada n2 nTF
SL. No. n1 n3 R2prueba PAG RMSE AIC
muy pocos nodos en cada capa. Una vez más, esta habilidad desaprueba otra heurística
popular que requiere la presencia de una gran cantidad de nodos en la capa oculta.
A menudo, dicho modelo puede funcionar bien con datos de entrenamiento, pero no se
generaliza debido a la explosión de parámetros. El algoritmo propuesto evitó precisamente
este aspecto al agregar el objetivo conflictivo de minimizar el total de nodos y maximizar la
precisión.
Por lo tanto, esta formulación no solo evitó la aparición de modelos sobreajustados, sino
que también permitió modelos ANN con configuraciones más pequeñas que tienen una
importancia inmensa cuando se implementan en línea, ya que requieren una cantidad
significativamente menor de memoria y tiempo de procesamiento en comparación con ANN
con configuraciones grandes. Sin embargo, esta característica de la estrategia NAS propuesta
no degrada la importancia de las redes neuronales profundas. En cambio, solo demuestra que
el mejor juez para decidir la configuración de la ANN son los datos mismos. Dado que cualquier número de cap
Machine Translated by Google
Tabla 5 Lista de soluciones de Pareto obtenidas al resolver el algoritmo NAS propuesto para la salida 3 junto con
los valores AIC correspondientes. La entrada en negrita indica la arquitectura seleccionada n2
SL. No. n1 n3 nTF R2prueba PAG RMSE AIC
Tabla 6 Modelos ANN diseñados de manera óptima para emular el proceso de laminación en caliente, obtenidos
utilizando la estrategia NAS evolutiva propuesta Salida. Nº n1 n2 n3 nTF R2
los nodos se pueden explorar utilizando el algoritmo propuesto, creemos que funcionará igual
de bien para redes neuronales profundas siempre que se permita suficiente tiempo de cómputo.
De manera similar, con suficientes recursos de cómputo, el método propuesto también se puede
usar para diseñar de manera óptima redes neuronales recurrentes y RNN profundas que
demuestren las capacidades genéricas de un algoritmo novedoso. Al mismo tiempo, la velocidad
de la estrategia NAS evolutiva propuesta se puede mejorar varias veces en las GPU, ya que
tiene un inmenso alcance de paralelización. Estos aspectos establecen el alcance futuro del
trabajo propuesto.
4. Conclusiones
En el trabajo actual se explora la aplicabilidad de las ANN para construir modelos sustitutos para
datos de procesos heterogéneos no lineales de alta dimensión de la industria siderúrgica. Se
reconoce que las heurísticas relacionadas con el modelado de ANN juegan un papel importante
en su precisión y, por lo tanto, se hace un esfuerzo para eliminar las heurísticas al diseñar ANN.
En este trabajo, propusimos un algoritmo novedoso para construir ANN
Machine Translated by Google
determinando el número óptimo de capas y nodos ocultos en cada capa junto con la
elección óptima de la función de activación. La metodología propuesta fue capaz de
construir ANN multicapa capaces de emular los datos del proceso con un 98 % de
precisión. Si bien se mostró el método para construir redes de avance, se puede
escalar fácilmente a redes neuronales profundas y redes neuronales recurrentes, lo
que lo hace genérico y capaz de trabajar con datos de cualquier dominio.
Referencias
1. Mittal, P., Mohanty, I., Malik, A. y Mitra, K. (2020). Optimización multiobjetivo del proceso de laminación en caliente
del acero: un enfoque híbrido. Materiales y procesos de fabricación, 35(6), 668–676.
2. Miriyala, SS, Mittal, P., Majumdar, S. y Mitra, K. (2016). Estudio comparativo de enfoques sustitutos mientras se
optimizan redes de reacción computacionalmente costosas. Ciencias de la ingeniería química, 140, 44–61.
3. Van Der Aalst, W. (2016). Ciencia de datos en acción. Minería en proceso (págs. 3–23). Saltador,
Berlín, Heidelberg.
4. Venkatasubramanian, V. (2019). La promesa de la inteligencia artificial en la ingeniería química:
¿Está aquí, finalmente. Revista AIChE, 65(2), 466–478.
5. Nowakowski, P., Szwarc, K. y Boryczka, U. (2018). Planificación de rutas de vehículos en la recogida móvil de residuos
electrónicos bajo demanda con el apoyo de algoritmos de inteligencia artificial. Investigación de Transporte Parte D:
Transporte y Medio Ambiente, 63, 1–22.
6. Ahmad, F., Abbasi, A., Li, J., Dobolyi, DG, Netemeyer, RG, Clifford, GD, et al. (2020). Una arquitectura de aprendizaje
profundo para el procesamiento psicométrico del lenguaje natural. ACM Transactions on Information Systems (TOIS),
38(1), 1–29.
7. Moen, E., Bannon, D., Kudo, T., Graf, W., Covert, M. y Van Valen, D. (2019). Aprendizaje profundo
para el análisis de imágenes celulares. Métodos de la naturaleza, 1–14.
8. Ardabili, S., Mosavi, A., Dehghani, M. y Várkonyi-Kóczy, AR (septiembre de 2019). Aprendizaje profundo y aprendizaje
automático en procesos hidrológicos, cambio climático y sistemas terrestres: una revisión sistemática. En Conferencia
Internacional sobre Investigación y Educación Globales (págs. 52–62).
Springer, Cham.
9. Bauer, A., Bostrom, AG, Ball, J., Applegate, C., Cheng, T., Laycock, S., et al. (2019).
Combinación de visión por computadora y aprendizaje profundo para permitir el fenotipado aéreo a ultraescala y la
agricultura de precisión: un estudio de caso de producción de lechuga. Investigación hortícola, 6(1), 1–12.
10. Sajeev, S., Maeder, A., Champion, S., Beleigoli, A., Ton, C., Kong, X. y Shu, M. (2019).
Aprendizaje profundo para mejorar la predicción del riesgo de enfermedades cardíacas. En Aprendizaje automático e
ingeniería médica para la salud cardiovascular e imágenes intravasculares y colocación de stent asistida por
computadora (págs. 96–103). Springer, Cham.
11. Schneider, P., Walters, WP, Plowright, AT, Sieroka, N., Listgarten, J., Goodnow, RA, Fisher, J., Jansen, JM, Duca, JS,
Rush, TS y Zentgraf, M. (2019). Repensar el diseño de fármacos en la era de la inteligencia artificial. Nature Reviews
Drug Discovery, 1–12.
12. Justesen, N., Bontrager, P., Togelius, J. y Risi, S. (2019). Aprendizaje profundo para jugar videojuegos. Transacciones
IEEE en juegos.
13. Naik, N. y Mohan, BR (2019, mayo). Clasificación de movimientos de precios de acciones utilizando técnicas de
aprendizaje automático y profundo: el estudio de caso del mercado de valores indio. En Conferencia internacional
sobre aplicaciones de ingeniería de redes neuronales (págs. 445–452). Springer, Cham.
14. Lu, CY, Suhartanto, D., Gunawan, AI y Chen, BT (2020). Satisfacción del cliente hacia los servicios de compra en línea:
Evidencia de pequeños y medianos restaurantes. Revista internacional de investigación comercial aplicada, 2 (01), 1–
14.
Machine Translated by Google
15. Piccione, PM (2019). Interacciones realistas entre la ciencia de datos y la ingeniería química en el primer cuarto del
siglo XXI: hechos y una visión. Investigación y diseño de ingeniería química, 147, 668–675.
16. Beck, DA, Carothers, JM, Subramanian, VR y Pfaendtner, J. (2016). Ciencia de datos: aceleración de la innovación
y el descubrimiento en ingeniería química. Revista AIChE, 62(5), 1402– 1416.
17. Qi, C., Fourie, A., Chen, Q., Tang, X., Zhang, Q. y Gao, R. (2018). Modelado basado en datos del proceso de
floculación en el tratamiento de relaves de procesamiento de minerales. Revista de Producción más Limpia, 196,
505–516.
18. Han, H., Zhu, S., Qiao, J. y Guo, M. (2018). Sistema de monitoreo inteligente basado en datos para variables clave
en el proceso de tratamiento de aguas residuales. Revista china de ingeniería química, 26 (10), 2093–2101.
19. Almeshaeiei, E., Al-Habaibeh, A. y Shakmak, B. (2020). Evaluación rápida de sistemas de energía solar fotovoltaica
a microescala utilizando métodos empíricos combinados con redes neuronales de aprendizaje profundo para
apoyar a los fabricantes de sistemas. Revista de Producción más Limpia, 244,.
20. Wu, H. y Zhao, J. (2018). Diagnóstico de fallas de procesos químicos basado en modelos de redes neuronales
convolucionales profundas. Informática e ingeniería química, 115, 185–197.
21. Cocina, JR (2018). Aprendizaje automático en catálisis. Catálisis de la naturaleza, 1(4), 230–232.
22. Ortografía, M. y Glotzer, SC (2018). Aprendizaje automático para la identificación y el descubrimiento de cristales.
Revista AIChE, 64(6), 2198–2206.
23. del Rio-Chanona, EA, Wagner, JL, Ali, H., Fiorelli, F., Zhang, D., & Hellgardt, K. (2019).
Modelado y optimización sustitutos basados en aprendizaje profundo para la producción de biocombustibles de
microalgas y el diseño de fotobiorreactores. Revista AIChE, 65(3), 915–923.
24. Pantula, PD y Mitra, K. (2020). Hacia una optimización robusta y eficiente mediante la segmentación óptima basada
en datos del espacio incierto.Reliability Engineering & System Safety, 197, 106821.
25. Haghighatlari, M. y Hachmann, J. (2019). Avances del aprendizaje automático en modelado y simulación molecular.
Opinión actual en ingeniería química, 23, 51–57.
26. Alizadeh, R., Allen, JK y Mistree, F. (2020). Gestión de la complejidad computacional mediante modelos sustitutos:
una revisión crítica. Investigación en diseño de ingeniería, 31(3), 275–298.
27. Miriyala, SS, Subramanian, VR y Mitra, K. (2018). TRANSFORM-ANN para la optimización en línea de procesos
industriales complejos: proceso de fundición como caso de estudio. Revista europea de investigación operativa,
264(1), 294–309.
28. Dua, V. (2010). Un enfoque de programación de enteros mixtos para la configuración óptima de redes neuronales
artificiales. Investigación y diseño de ingeniería química, 88, 55–60.
29. Carvalho, AR, Ramos, FM y Chaves, AA (2011). Metaheurísticas para el problema de optimización de la arquitectura
de la red neuronal artificial (ANN) feedforward. Informática neuronal y aplicaciones, 20(8), 1273–1284.
30. Boithias, F., Mankibi, M. y Michel, P. (2012). Optimización basada en algoritmos genéticos de la arquitectura de
redes neuronales artificiales para el malestar interior de los edificios y la predicción del consumo de energía.
Simulación de construcción, 5(2), 95–106.
31. Eason, J. y Cremaschi, S. (2014). Muestreo secuencial adaptativo para la generación de modelos sustitutos con
redes neuronales artificiales. Informática e ingeniería química, 68, 220–232.
32. Jones, RD (2001). Una taxonomía de métodos de optimización global basada en superficies de respuesta.
Revista de optimización global, 21, 345–383.
33. Crombecq, K. (2011.) Modelado sustituto de experimentos informáticos con experiencia secuencial
diseño mental.
34. Davis, E. y Ierapetritou, M. (2010). Una estrategia de muestreo basada en el centroide para kriging global
modelado y optimización. AICHE, 56, 220–240.
35. Gorissen, D., Couckuyt, I., Demeester, P., Dhaene, T. y Crombecq, T. (2010). Una caja de herramientas de
modelado sustituto y muestreo adaptativo para el diseño basado en computadora. The Journal of Machine
Learning Research, 11, 2055–8722.
36. Müller, J. y Shoemaker, CA (2014). Influencia de los modelos sustitutos de conjuntos y la estrategia de muestreo
en la calidad de la solución de los algoritmos para problemas de optimización global de caja negra
computacionalmente costosos. Diario de Global, 60(2), 123–144.
Machine Translated by Google
37. Chugh, T., Sindhya, K., Hakanen, J. y Miettinen, K. (2019). Una encuesta sobre el manejo de problemas de
optimización multiobjetivo computacionalmente costosos con algoritmos evolutivos. Informática blanda, 23(9), 3137–
3166.
38. Miriyala, SS y Mitra, K. (2020). Optimización multiobjetivo del proceso de endurecimiento del mineral de hierro utilizando
redes neuronales óptimas. Materiales y procesos de fabricación, 35(5), 537–544.
39. Zoph, B. y Le, QV (2016). Búsqueda de arquitectura neuronal con aprendizaje por refuerzo. preimpresión de arXiv
arXiv:1611.01578.
40. Elsken, T., Metzen, JH y Hutter, F. (2018). Búsqueda de arquitectura neuronal: una encuesta. preimpresión de arXiv
arXiv:1808.05377.
41. Hagan Martin, T., Demuth Howard, B. y Beale Mark, H. (2002). Diseño de redes neuronales.
Universidad de Colorado en Boulder.
42. Tumbas, A. (2012). Etiquetado de secuencias supervisadas. En Etiquetado de secuencias supervisadas con redes
neuronales recurrentes (págs. 5–13). Springer, Berlín, Heidelberg.
43. Bengio, Y., Goodfellow, I. y Courville, A. (2017). Aprendizaje profundo (Vol. 1). Massachusetts,
Estados Unidos: MIT Press.
44. Deb, K. (2001). Optimización Multiobjetivo mediante Algoritmos Evolutivos. Chichester, Reino Unido:
Wiley.
45. Arlot, S. y Celisse, A. (2010). Una encuesta de procedimientos de validación cruzada para la selección de modelos.
Encuestas estadísticas, 4, 40–79.
46. Akaike H, Teoría de la información y una extensión del principio de máxima verosimilitud. En: BN
Petrov, F. Csáki (Eds.), Actas del 2º Simposio Internacional sobre Inf. Teoría, Tsahkadsor, Armenia, URSS, 2 de
septiembre: 8 (1971) 267–281.
47. FB, P. (1978). Metalurgia física y diseño de aceros. Londres: Editores de Ciencias Aplicadas
Limitado.
48. Yada, H., Ruddle, GE y Crawley, AF (1987). proc. En t. Síntoma En Enfriamiento Acelerado de
Acero rolado.
49. Mohanty, I., Chintha, AR y Kundu, S. (2018). Optimización del diseño de aceros microaleados utilizando principios
termodinámicos y modelado basado en redes neuronales. Transacciones metalúrgicas y de materiales A, 49(6),
2405–2418.
50. Mohanty, I., Sarkar, S., Jha, B., Das, S. y Kumar, R. (2014). Sistema de predicción de propiedades mecánicas en línea
para acero IF laminado en caliente. Ironmaking and Steelmaking, 41(8), 618–627.