Mineria Datos

La Ingeniería de Fabricación
y la Minería de datos
Máster en Ingeniería Mecatrónica
Escuela Politécnica Superior
Jaén, 2023
De los datos al conocimiento
• La minería de datos es una técnica

que intenta descubrir patrones en
grandes volúmenes de conjuntos
de datos
• El objetivo general del proceso de
minería de datos consiste en
extraer información de un conjunto
de datos y transformarla en una
estructura comprensible para su
uso posterior
• “Los datos son el petróleo del s. XXI”
Aprendizaje supervisado y
no supervisado
Clustering
• Base de datos de clientes de una compañía telefónica:
Clustering
• Puedo agrupar los clientes en distintos grupos (clusters):
– Grupo 1. Hombres, jóvenes (28 años de media), sin hijos,
con un salario de 1200 € y con un consumo bajo (38.9 € de
media)
– Grupo 2. Hombres, de edad media (47 años), con hijos, con
un salario de 1775 €, y con un consumo alto (99.1 € de
media)
– Grupo 3. Mujeres, jóvenes (33 años de media), con un hijo,
con un salario de 1200 €, y con un consumo moderado (54.8
€ de media)
• Esto permite lanzar campañas personalizadas de
publicidad para cada cliente, ofreciendo productos que
puede ser interesantes para ellos en particular
El Clustering y las
Recomendaciones de Netflix
Algoritmo k-Means (Clustering)
Tecnología de Grupos
no supervisado
Asociación
Algoritmo “A Priori” (Asociación)
Almacén automático vertical
• Ejemplo real
• Empresa PKS
• Clasificación de referencias:
– Por fabricante (400 h)
– Clasificación ABC (325 h)
– A priori (300 h)
no supervisado
Clasificación
• Banco: se concede hipoteca/no se concede

• Industria: la pieza es Apta/No apta
• Informática: el correo es SPAM/No lo es
¿Quién se salvó en el Titanic…?
Ng & Soo. Numsense! Data science for the layman. Autoedición. 2017.
¿Cómo funciona el algoritmo Decision Tree?
El algoritmo compara las distintas variables en cada bifurcación y selecciona aquella

que proporciona la mayor ganancia de información
Algoritmo Support Vector Machine
Otro algoritmo de clasificación
no supervisado
Regresión Lineal
Algoritmo Random Tree
Minería de Datos en Fabricación (I)
Weichert et al. “A review of machine learning for the optimization of production

Processes” The International Journal of Advanced Manufacturing Technology (2019)
104:1889–1902
Minería de Datos en Fabricación (II)
Paturi and Cheruku. “Application and performance of machine learning techniques in

manufacturing sector from the past two decades: A review” Materials Today: Proceedings
38 (2021) 2392–2401
Minería de Datos en Fabricación (III)
Paturi and Cheruku. “Application and performance of machine learning techniques in

manufacturing sector from the past two decades: A review” Materials Today: Proceedings
38 (2021) 2392–2401
WEKA
• Weka es el acrónimo de Waikato Environment for

Knowledge Analysis («entorno para análisis del
conocimiento de la Universidad de Waikato»)
• Plataforma de software para el aprendizaje automático y
la minería de datos escrito en Java y desarrollado en
la Universidad de Waikato.
• Weka es software libre distribuido bajo la licencia GNU-
GPL
Ficheros “.arff”
@relation EDM
@attribute IAL real

@attribute TB real
@attribute TA real
@attribute AJ real
@attribute S real
[…]
@data
8,4,0.6,30,4,8,1,2,2.88,2.437
8,4,0.9,45,8,10,1.1,3,2,3.21
8,4,1.2,60,12,12,1.2,4,2.2,3.76
8,6,0.6,30,8,10,1.1,4,1.84,2.5
Crear un archivo para
WEKA desde Excel
• Excel:
– Configurar el excel con “.” en lugar de “,”
– Guardar el archivo como “csv”
• WordPad:
– Sustituir “;” por “,”
El Explorer de Weka
• Preprocess: visualización y preprocesado de
los datos (aplicación de filtros)
• Classify: algoritmos de clasificación y
regresión
• Cluster: algoritmos de agrupación
• Associate: algoritmos de asociación
• Select Attributes: selección de atributos
• Visualize: visualización de los datos por
parejas de atributos
Algoritmos más Utilizados
Según Witten, Frank y Hall (desarrolladores de WEKA), los
algoritmos más usados son:
• K-means → Clustering
• C4.5 (J48) → Clasificación
• SVM → Aprendizaje Estadístico
• Apriori → Análisis de Asociaciones
• EM → Aprendizaje Estadístico
• PageRank → Link Mining
• Adaboost → Ensemble Learning
• kNN → Clasificación
• Naive Bayes → Clasificación
• CART → Clasificación
Actividad
Mediante una impresora 3D de

tecnología FFF (Fused Filament
Fabrication) se imprimen 480
probetas utilizando
• distintos tipos de filamento,
• distintos ángulos y
• distintos parámetros de
impresión
Actividad
• Se pretende estudiar la influencia de las

variables estudiadas (filamento, el ángulo y los
parámetros de impresión) en la rugosidad
superficial de las piezas impresas
Actividad
• Se pretende estudiar la influencia de las
variables estudiadas (filamento, el ángulo y los
parámetros de impresión) en la rugosidad
superficial de las piezas impresas
• Mediante un rugosímetro, se mide cinco veces
la rugosidad superficial de cada probeta (en
distintas zonas) y se calcula la media
aritmética
Actividad
• Se han usado tres
tipos de filamento:
– PETG
– PETG con 12 % de
fibra de carbono
– PETG con 20 % de
fibra de carbono
Actividad
• Se han impreso piezas con distinta inclinación
respecto a la horizontal:
• Se han empleado dos tipo de extrusores

– Con diámetro = 0.3 mm
– Con diámetro = 0.6 mm
Actividad
• Se han impreso piezas con distinto número de

perímetros:
– Nº de perímetros = 1
– Nº de perímetros = 3
Actividad
• Se han impresos piezas con distinta velocidad

de impresión (PS)
– Velocidad = 30 mm/s
– Velocidad = 60 mm/s
Actividad
• Se han impreso piezas con distinta altura de

capa (LH):
– Altura de capa = 0.1 mm
– Altura de capa = 0.2 mm
Metodología CRISP-DM
Cross Industry Standard Process for Data Mining

Preparación de datos
• Eliminar errores aberrantes (Chauvenet?)

• Eliminar variables que no aportan nada
• Evaluar las variables y decidir cuales son las
que aportan más información
Visualización de los datos
Clasificación
Algoritmos de Clasificación
• Naive Bayes (ejemplo manzana roja)
• SMO (Support Vector Machine)
• MLP (redes neuronales)
• IBk (vecinos más cercanos)
• Random Forest
• J48 (C4.5)
Resultados Algoritmos Clasificación
Kappa Statistic
Árbol de decisión
Regresión
• Regresión lineal
• MLP
• SMOreg
• IBk
• kStar
• M5P
• Random Forest
Resultados Algoritmos Regresión
Valores Reales frente a Predichos
Más información
• Pablo E. Romero
• p62rocap@uco.es
• 957 21 22 35

Mineria Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mineria Datos

Cargado por

Copyright:

Formatos disponibles

La Ingeniería de Fabricación

• La minería de datos es una técnica

• Banco: se concede hipoteca/no se concede

El algoritmo compara las distintas variables en cada bifurcación y selecciona aquella

Weichert et al. “A review of machine learning for the optimization of production

Paturi and Cheruku. “Application and performance of machine learning techniques in

Paturi and Cheruku. “Application and performance of machine learning techniques in

• Weka es el acrónimo de Waikato Environment for

@attribute IAL real

Mediante una impresora 3D de

• Se pretende estudiar la influencia de las

• Se han empleado dos tipo de extrusores

• Se han impreso piezas con distinto número de

• Se han impresos piezas con distinta velocidad

• Se han impreso piezas con distinta altura de

Cross Industry Standard Process for Data Mining

• Eliminar errores aberrantes (Chauvenet?)

También podría gustarte