Está en la página 1de 4

Combinación de productos y/o servicios más

cotizados de un taller mecánico a través de la


minería de datos en RapidMiner
Sebastián Abad, Camila Jaramillo, Sofia Pacurucu
Facultad de Ciencia y Tecnología
Universidad del Azuay, Cuenca-Ecuador
sebastianabad1@es.uazuay.edu.ec, cjaramillo@es.uazuay.edu.ec, sofiapacurucu@es.uazuay.edu.ec

Abstract— This document presents a sale proposal based vez la implementación de esos hallazgos sea tan fácil con
on a combination of the most highly valued products and/or un solo click. [1]
services by customers of a mechanical workshop, in order to En cuanto al programa informático usado: RapidMiner,
create a promotional package that benefits both; the clients
es una herramienta que posee un potente entorno de
and the workshop. So that the workshop has knowledge of
those products that cannot be missing in stock, and thus also
programación visual, aplica técnicas de minería de datos,
customers can perform the services that their vehicle requires crea flujos de trabajo analíticos predictivos, extrae
in the fastest way. This work details the procedure and the estadísticas e información clave, construye y entrega los
analysis carried out to achieve this combination, which were mejores modelos. Ofrece también una variedad de
developed in the data mining computer program; In which the algoritmos de preparación de datos y aprendizaje
information from a large database was filtered, using levels of automático que permite maximizar la productividad y la
confidence, support, and operators to obtain a result. ciencia de los datos agilizando la transformación, el
desarrollo y la validación de los datos. [2]
Keywords- proposal, combination, analysis, data, operators.
Teniendo en cuenta la gran herramienta que es
RapidMiner, se empleó dicho software para el desarrollo de
Resumen—Este documento presenta una propuesta de la práctica de mecánica de autos; la cual consiste en ayudar
combinación de los productos y/o servicios más cotizados por a un taller mecánico a apoyarse en este sistema y mediante
los clientes de un taller de mecánica, con el fin de generar un varios operadores transformar gran cantidad de datos en
paquete promocional que beneficie tanto al cliente como a resultados de fácil comprensión. De esta manera, con los
dicho taller; de manera que el taller tenga conocimiento de datos ya procesados, la empresa de mecánica de autos
aquellos productos que no pueden faltar en su stock, y así puede proveer a la compañía de información valiosa como:
también los clientes puedan realizer de la manera más rapida ¿Cuál sería el paquete promocional perfecto de acuerdo a lo
los servicios que requiera su vehículo. En este trabajo se que solicitan los clientes?, ¿Qué es más probable que se
detalla el procedimiento y el análisis realizado para lograr
compre después de solicitar limpieza de inyectores?
dicha combinación, los cuales se desarrollaron en el programa
informático de minería de datos; RapidMiner. En el cual se La comprensión y la preparación de los datos siguen a
filtró la información de una gran base de datos, empleando la comprensión empresarial, y estas fases involucran
niveles de confianza, de soportet, y operadores para obtener actividades como importar, extraer, transformar, limpiar y
un resultado. cargar datos en nuevas bases de datos; y en general obtener
una comprensión profunda de qué son los datos.[3]
Palabras Clave propuesta, combinación, análisis, datos,
operadores.
II. METODOLOGÍA
La práctica se desarrolló de la siguiente manera:
I. INTRODUCCIÓN
A. Nuevo proceso
Estamos en un momento de análisis moderno en el que
Como primer paso, se debe crear un nuevo proceso de
la big data alimenta la explosión de la necesidad de
análisis de datos, lo que produce un cambio a
respuestas. Los datos requieren nuevas formas de
perspectiva de diseño. Se procede a cargar la base de
almacenamiento y recuperación. Los datos por sí solos no
datos en importar data y seleccionar el archivo a
tienen valor, pero los patrones ocultos y los conocimientos
analizar. Se trabaja en la pestaña de diseño.[4]
en los datos son un activo de gran valor. RapidMiner
permite a los no expertos obtener los mismos resultados que B. Selección de operadores
los científicos de datos. Hace posible que los usuarios Todos los pasos de trabajo o bloques de construcción para
obtengan resultados y valores mucho más rápido, y que a su diferentes tareas de análisis o transformación de datos son
llamados operadores.[5] En este caso, se emplearon tres confianza del 0,97 existe una gran probabilidad de que un
operadores. cliente que compre refrigerante seguido de esto adquiera
filtro de aire.
 El operador Numérico a Binominal: mismo que De igual manera un cliente de la mecánica de autos que
cambia el tipo de atributos numéricos a un tipo realice limpieza en inyectores compre después bujías.
binominal (también llamado binario). Este
operador no solo cambia el tipo de atributos
seleccionados pero también mapea todos los
valores de estos atributos a los correspondientes
valores binominales. Los atributos binominales
pueden tener solo dos valores posibles es decir
“verdadero o falso". Si el valor de un atributo está
entre el mínimo especificado y valor máximo, se
vuelve "falso", de lo contrario "verdadero".
 FP-Growth: este operador calcula de manera
eficiente todos los conjuntos de elementos
frecuentes a partir del ExampleSet utilizando la
estructura de datos de árbol FP. Es obligatorio que
todos los atributos del ExampleSet de entrada
deben ser binominales.
E. Cluster tee (k-Means)
 Crear reglas de asociación: genera un conjunto de
reglas de asociación a partir de los conjuntos de La agrupación (Clustering) es el proceso de encontrar
elementos frecuentes. Las reglas de asociación son grupos significativos en los datos. En la agrupación, el
declaraciones “si/entonces” que ayudan a objetivo no es predecir una variable de clase objetivo, sino
descubrir relaciones entre datos aparentemente no simplemente capturar las posibles agrupaciones naturales en
relacionados. Un ejemplo de una regla de los datos. La agrupación en clusters de k-medias es un
asociación sería: “Si un cliente compra huevos, es método de agrupación basado en prototipos en el que el
80% probable que también compre leche”. Una conjunto de datos se divide en k agrupaciones. La
regla de asociación tiene dos partes, un agrupación en clusters de k-means es uno de los algoritmos
antecedente (si) y un consecuente (entonces). [5] de agrupación más simples y más utilizados. [1]
En este caso los clientes de la mecánica de autos se
C. Filtrado agrupan en función del comportamiento de compra mediante
El proceso de filtrado ayuda a proporcionar la un árbol de decisión en el que tomamos como ejemplo 4
flexibilidad. La estructura minera se puede crear en base a agrupaciones de k-means y 4 agrupaciones de x-means. Por
la amplia vista de la fuente de datos. Se pueden crear filtros lo que se puede decir que hay más de 50% de probabilidad
para usar solo una parte de esos datos y no construir una que un cliente que compre bujías también lo haga con un
estructura diferente para cada subconjunto de datos. [6] El refrigerante. Por consiguiente, hay menor o igual
parámetro utilizado en el operador FP-Growth fue min probabilidad del 50% que una persona que compre bujías
support de 0,97. Los parámetros utilizados en el operador también lo haga con presión de llantas. Esto está demostrado
Crear reglas de asociación fueron confianza de 0,8 y lift de en la “Fig. 2”.
0,8; como se muestra en la “Fig. 1”.

Fig. 1. Operadores

III. RESULTADOS
Fig. 2. Árbol de decisión
Al momento de correr el programa, una vez finalizado el
proceso, RapidMiner cambia a la perspectiva del resultado.
Hay varias fuentes desde las que se puede visualizar los F. Itemsets
resultados. Cada resultado se muestra dentro de su propia Para el análisis de los itemsets frecuentes, se usó el
ficha de archivo. [7] operador FP Growth el cual nos muestra una tabla con la
frecuencia en la que los ítems aparecen en las transacciones.
Para un máximo de un ítem se obtuvo que; los ítems más
D. Gráfico
frecuentes son las bujías con un soporte del 0.513, el filtro
Se puede ver el resultado con un mínimo de valor de de aire con un soporte de 0.512 y el aceite de caja con un
criterio modificado para poder visualizar los datos. Los soporte de 0.507. Por el contrario, el ítem con menos
gráficos significan básicamente todas las visualizaciones que frecuencia, resultó ser el refrigerante con un soporte del
muestran nodos y sus relaciones. [7] Basado en una 0.467.
Para un mínimo de dos ítemsets y con una confianza Limpieza de
71 Bujías 0.270 0.534
mínima de 0.8 se obtuvieron 36 sets, de los cuales las inyectores
combinaciones con mayor frecuencia son las bujías y el Limpieza
70 Bujías 0.270 0.527
filtro de aire; con un soporte de 0.262; las bujías y el aceite inyectores
de caja con un soporte de 0.266; las bujías y la limpieza de 69 Aceite caja Bujías 0.266 0.525
inyectores con un soporte de 0.270. El valor considerado en
la confianza mínima dependerá de los intereses de cada 68 Refrigerante Bujías 0.245 0.524
persona, el valor de 0.8 es el más adecuado para el estudio
que se trata de realizar. La variación de este valor hará que 67 Refrigerante Filtro gasolina 0.244 0.522
la cantidad de sets incremente o disminuya.
En el análisis de las reglas de asociación se aplicó el
operador crear reglas de asociación, el mismo que genera
una tabla de reglas de asociación donde se encuentran las IV. DISCUSIÓN
premisas y conclusiones de cada regla, las cuales pueden ser
filtradas por distintas métricas que se pueden considerar Como se pudo comprobar mediante los resultados
dependiendo del análisis que se desea realizar. Para este obtenidos, la minería de datos puede ser usada para
estudio, se filtró por confianza y por soporte; logrando así múltiples análisis. En este caso puntual del taller de
buscar los puntos críticos en los que la empresa tiene que mecánica, fue realmente útil para obtener la combinación
fijarse para llegar a la mejor solución posible. óptima para realizar un paquete promocional. Los productos
y/o servicios que intervienen en este análisis son: aceite de
Para el análisis de las reglas mediante el filtrado por motor, filtro de gasolina, aceite de caja, filtro de aire, bujías,
soporte, se extrajo seis reglas con mayor soporte como se presión de llantas, limpieza de inyectores y líquido
muestra en la “Tabla I”. Estos resultados pueden ser refrigerante. Se cuenta con una base de datos de los
interpretados de una forma más amplia de la que se realizó productos antes mencionados de 999 registros. Como la
previamente en el estudio de la frecuencia de los itemsets, minería de datos puede crear relaciones demasiado grandes
ya que el valor de la confianza nos permite saber con qué y resulta prácticamente imposible validar cada una de ellas,
probabilidad se están dando estas reglas. se emplearon los operadores previamente expuestos.[8]
TABLA I. Tras realizar el análisis de la base de datos, y conseguir
REGLAS
CON
una combinación idónea, el paquete promocional que el
MAYOR PREMISA
CONCLUSIÓ
SOPORTE CONFIANZA
taller de mecánica debe ofrecer a sus clientes es: cambió de
SOPORTE N bujías con limpieza de inyectores y refrigerante con filtro de
XN° DE aire; ya que son los dos productos y/o servicios que por lo
REGLA general quienes asisten al taller, están dispuestos a realizar.
Limpieza Por lo tanto, existe una alta probabilidad que se realice una
70 Bujías 0.270 0.527 limpieza de inyectores una vez comprado bujías y así mismo
inyectores
Limpieza de que se compre un filtro de aire tras comprar primeramente
71
inyectores
Bujías 0.270 0.534 un refrigerante.
61 Bujías Aceite caja 0.266 0.519 Una vez obtenido el paquete, el taller debe tener en
69 Aceite caja Bujías 0.266 0.525 consideración varios aspectos para que el mismo funcione y
genere mayor ganancia y de paso mayor beneficio y
Limpieza
57 Filtro aire
inyectores
0.263 0.514 satisfacción a los posibles clientes potenciales. De esta
manera se involucran varios departamentos de dicho taller,
Limpieza
66 Filtro aire 0.263 0.52 tales como: marketing, compras, ventas y el área de servicio
inyectores
como tal. [9]
Cada itemset fue analizado de acuerdo con las
transacciones correspondientes. El número de transacciones
Por otro lado, para el análisis de las reglas, se procedió a que contiene el item dividido para el total de las
filtrar la tabla por confianza y se extrajo seis reglas con transacciones; es decir, el soporte, está respaldado por todos
mayor confianza como se muestra en la “Tabla II”. Estos los ítems de la mecánica de autos mostrándose en la “Tabla
resultados, son de mayor fiabilidad para la empresa ya que I” y “Tabla II” los más frecuentes. De igual manera con la
al saber que reglas son de mayor probabilidad de ocurrencia, ayuda del programa obtuvimos la confianza comprendida
la empresa puede enfocarse en métodos para que estas reglas por la probabilidad de que ocurra la premisa de cada item
se transformen en transacciones reales. sobre la conclusión. Todos los datos se obtienen de manera
inmediata a través de los operadores utilizados.
TABLA II.
REGLAS
CON
MAYOR PREMISA CONCLUSIÓN SOPORTE CONFIANZA V. CONCLUSIONES
CONFIANZ
A XN° DE En el taller mecánico se pudo evidenciar mediante
REGLA RapidMiner con el operador de crear reglas de asociación y
FP-Growth; que de todos los productos y servicios
72 Refrigerante Filtro aire 0.251 0.537 disponibles la mejor combinación es de bujias con limpieza
de inyectores y refrigerante con filtro de aire; es decir; si un
cliente compra bujias hay una gran probabilidad de que
también realice una limpieza de inyectores. Esta
información es de gran utilidad para el negocio ya que en
base a estos resultados se puede realizar promociones,
mantener en stock ciertos productos y dar seguimiento de
como se están comportando todas las ventas.
Se puede concluir entonces que RapidMiner es una
plataforma de fácil y rápido manejo utilizado para la minería
de datos. RapidMiner puede potenciar cualquier negocio de
cualquier área y proporcionar información de gran utilidad
para la compañía mientras se aplique un uso correcto del
mismo. [10] Es de gran ayuda una herramienta como
RapidMiner en la actualidad ya que la big data se encuentra
en todos lados y sin una interpretación correcta, los datos no
tienen valor. Aprender a manejar RapidMiner sería un gran
paso para cualquier persona en busca de aumentar ganancias
en sus negocios.

REFERENCIAS

[1] V. K. and B. Deshpande, Predictive Analytics and


Data Mining: Concepts and Practice with
RapidMiner. 2015.
[2] M. A. Matute Rivera, “Evaluación de las
herramientas de minería de datos en variables de
contaminación atmosférica,” p. 100, 2018, [Online].
Available:
http://dspace.uazuay.edu.ec/handle/datos/8203.
[3] Andrew Chisholm, Exploring Data with
RapidMiner. Packt, 2013.
[4] H. Crc and M. Hofmann, Data Mining and
Knowledge Discovery Series Edited by. 2006.
[5] F. Akthar, C. Hahne, and O. Reference,
“RapidMiner 5,” p. 990, 2012, [Online]. Available:
http://www.rapid-i.com.
[6] T. Verma, R. Renu, and D. Gaur, “Tokenization
and Filtering Process in RapidMiner,” Int. J. Appl.
Inf. Syst., vol. 7, no. 2, pp. 16–18, 2014, doi:
10.5120/ijais14-451139.
[7] RapidMiner, “RapidMiner Studi o Manual,” 2012,
doi:
http://docs.rapidminer.com/downloads/RapidMiner-
v6-user-manual.pdf.
[8] R. Suárez and D. Amador, “Herramientas de
Minería de Datos - Monografias.com,” 2009,
[Online]. Available:
http://www.monografias.com/trabajos92/herramient
as-mineria-datos/herramientas-mineria-datos.shtml.
[9] D. Álvarez and P. Recalde, “Optimización de
precios en una empresa de retail utilizando la
herramienta rapid miner,” vol. 5, no. 03, pp. 92–
104, 2020, doi: 10.23857/pc.v5i3.1324.
[10] F. González, “Aplicación de técnicas de Minería de
Datos a datos obtenidos por el Centro Andaluz de
Medio Ambiente (CEAMA),” pp. 1–68, 2013,
[Online]. Available:
http://masteres.ugr.es/moea/pages/tfm-
1213/tfm_garciagonzalezfrancisco_1/!

También podría gustarte