Está en la página 1de 57

La Ingeniería de Fabricación

y la Minería de datos
Máster en Ingeniería Mecatrónica
Escuela Politécnica Superior
Jaén, 2023
De los datos al conocimiento

• La minería de datos es una técnica


que intenta descubrir patrones en
grandes volúmenes de conjuntos
de datos
• El objetivo general del proceso de
minería de datos consiste en
extraer información de un conjunto
de datos y transformarla en una
estructura comprensible para su
uso posterior
• “Los datos son el petróleo del s. XXI”
Aprendizaje supervisado y
no supervisado
Clustering
• Base de datos de clientes de una compañía telefónica:
Clustering
• Puedo agrupar los clientes en distintos grupos (clusters):
– Grupo 1. Hombres, jóvenes (28 años de media), sin hijos,
con un salario de 1200 € y con un consumo bajo (38.9 € de
media)
– Grupo 2. Hombres, de edad media (47 años), con hijos, con
un salario de 1775 €, y con un consumo alto (99.1 € de
media)
– Grupo 3. Mujeres, jóvenes (33 años de media), con un hijo,
con un salario de 1200 €, y con un consumo moderado (54.8
€ de media)
• Esto permite lanzar campañas personalizadas de
publicidad para cada cliente, ofreciendo productos que
puede ser interesantes para ellos en particular
El Clustering y las
Recomendaciones de Netflix
Algoritmo k-Means (Clustering)
Tecnología de Grupos
Aprendizaje supervisado y
no supervisado
Asociación
Algoritmo “A Priori” (Asociación)
Almacén automático vertical
• Ejemplo real
• Empresa PKS
• Clasificación de referencias:
– Por fabricante (400 h)
– Clasificación ABC (325 h)
– A priori (300 h)
Aprendizaje supervisado y
no supervisado
Clasificación

• Banco: se concede hipoteca/no se concede


• Industria: la pieza es Apta/No apta
• Informática: el correo es SPAM/No lo es
¿Quién se salvó en el Titanic…?

Ng & Soo. Numsense! Data science for the layman. Autoedición. 2017.
¿Cómo funciona el algoritmo Decision Tree?

El algoritmo compara las distintas variables en cada bifurcación y selecciona aquella


que proporciona la mayor ganancia de información
Algoritmo Support Vector Machine
Otro algoritmo de clasificación
Aprendizaje supervisado y
no supervisado
Regresión Lineal
Algoritmo Random Tree
Minería de Datos en Fabricación (I)

Weichert et al. “A review of machine learning for the optimization of production


Processes” The International Journal of Advanced Manufacturing Technology (2019)
104:1889–1902
Minería de Datos en Fabricación (II)

Paturi and Cheruku. “Application and performance of machine learning techniques in


manufacturing sector from the past two decades: A review” Materials Today: Proceedings
38 (2021) 2392–2401
Minería de Datos en Fabricación (III)

Paturi and Cheruku. “Application and performance of machine learning techniques in


manufacturing sector from the past two decades: A review” Materials Today: Proceedings
38 (2021) 2392–2401
WEKA

• Weka es el acrónimo de Waikato Environment for


Knowledge Analysis («entorno para análisis del
conocimiento de la Universidad de Waikato»)
• Plataforma de software para el aprendizaje automático y
la minería de datos escrito en Java y desarrollado en
la Universidad de Waikato.
• Weka es software libre distribuido bajo la licencia GNU-
GPL
Ficheros “.arff”
@relation EDM

@attribute IAL real


@attribute TB real
@attribute TA real
@attribute AJ real
@attribute S real
[…]

@data
8,4,0.6,30,4,8,1,2,2.88,2.437
8,4,0.9,45,8,10,1.1,3,2,3.21
8,4,1.2,60,12,12,1.2,4,2.2,3.76
8,6,0.6,30,8,10,1.1,4,1.84,2.5
Crear un archivo para
WEKA desde Excel

• Excel:
– Configurar el excel con “.” en lugar de “,”
– Guardar el archivo como “csv”
• WordPad:
– Sustituir “;” por “,”
El Explorer de Weka
• Preprocess: visualización y preprocesado de
los datos (aplicación de filtros)
• Classify: algoritmos de clasificación y
regresión
• Cluster: algoritmos de agrupación
• Associate: algoritmos de asociación
• Select Attributes: selección de atributos
• Visualize: visualización de los datos por
parejas de atributos
Algoritmos más Utilizados
Según Witten, Frank y Hall (desarrolladores de WEKA), los
algoritmos más usados son:
• K-means → Clustering
• C4.5 (J48) → Clasificación
• SVM → Aprendizaje Estadístico
• Apriori → Análisis de Asociaciones
• EM → Aprendizaje Estadístico
• PageRank → Link Mining
• Adaboost → Ensemble Learning
• kNN → Clasificación
• Naive Bayes → Clasificación
• CART → Clasificación
Actividad

Mediante una impresora 3D de


tecnología FFF (Fused Filament
Fabrication) se imprimen 480
probetas utilizando
• distintos tipos de filamento,
• distintos ángulos y
• distintos parámetros de
impresión
Actividad

• Se pretende estudiar la influencia de las


variables estudiadas (filamento, el ángulo y los
parámetros de impresión) en la rugosidad
superficial de las piezas impresas
Actividad
• Se pretende estudiar la influencia de las
variables estudiadas (filamento, el ángulo y los
parámetros de impresión) en la rugosidad
superficial de las piezas impresas
• Mediante un rugosímetro, se mide cinco veces
la rugosidad superficial de cada probeta (en
distintas zonas) y se calcula la media
aritmética
Actividad
• Se han usado tres
tipos de filamento:
– PETG
– PETG con 12 % de
fibra de carbono
– PETG con 20 % de
fibra de carbono
Actividad
• Se han impreso piezas con distinta inclinación
respecto a la horizontal:

• Se han empleado dos tipo de extrusores


– Con diámetro = 0.3 mm
– Con diámetro = 0.6 mm
Actividad

• Se han impreso piezas con distinto número de


perímetros:
– Nº de perímetros = 1
– Nº de perímetros = 3
Actividad

• Se han impresos piezas con distinta velocidad


de impresión (PS)
– Velocidad = 30 mm/s
– Velocidad = 60 mm/s
Actividad

• Se han impreso piezas con distinta altura de


capa (LH):
– Altura de capa = 0.1 mm
– Altura de capa = 0.2 mm
Metodología CRISP-DM

Cross Industry Standard Process for Data Mining


Preparación de datos

• Eliminar errores aberrantes (Chauvenet?)


• Eliminar variables que no aportan nada
• Evaluar las variables y decidir cuales son las
que aportan más información
Visualización de los datos
Clasificación
Algoritmos de Clasificación
• Naive Bayes (ejemplo manzana roja)
• SMO (Support Vector Machine)
• MLP (redes neuronales)
• IBk (vecinos más cercanos)
• Random Forest
• J48 (C4.5)
Resultados Algoritmos Clasificación
Kappa Statistic
Árbol de decisión
Regresión
• Regresión lineal
• MLP
• SMOreg
• IBk
• kStar
• M5P
• Random Forest
Resultados Algoritmos Regresión
Valores Reales frente a Predichos
Más información
• Pablo E. Romero
• p62rocap@uco.es
• 957 21 22 35

También podría gustarte