Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Facultad de Ingeniería
Escuela de Ingeniería Civil Industrial
Certamen II
Informe Empresa Cuponing
Índice de Tablas
Tabla 1: Descripción de atributos ............................................................................ 6
Tabla 2: Porcentaje de valores nulos ...................................................................... 6
Tabla 3: Peso Chi-Cuadrado ................................................................................... 8
Tabla 4: Rendimiento Árbol de Decisión ................................................................. 9
Tabla 5: Rendimiento K-Nearest Neighbor .............................................................. 9
Tabla 6: Rendimiento Naive Bayes ....................................................................... 10
Tabla 7: Rendimiento Neural Net .......................................................................... 10
Tabla 8: Thershold ................................................................................................ 11
Tabla 9: Matriz de Confusión Caso 1 .................................................................... 12
Tabla 10: Matriz de confusión Caso 2 ................................................................... 13
Tabla 11: Matriz de confusión Caso 3 ................................................................... 14
Tabla 12: Resumen Costos de Clasificacion ......................................................... 14
I. Resumen
Mediante una base de datos de la empresa Cuponing se evaluarán distintos
aspectos para lograr predecir el comportamiento de los clientes en base a las
compras que ellos tienen, el programa a utilizar es RapidMiner. En donde en primera
instancia se limpiará la base de datos, para luego evaluar el desempeño de los
cuatro mejores atributos con cuatro modelos de clasificación, en donde se pueden
clasificar para datos categóricos y numéricos. Finalmente se encontrará e umbral
optimo en base a distintas situaciones de Thershold, posteriormente se analizara la
curva ROC y la matriz de confusión del modelo seleccionado. Para terminar con la
presentación de tres escenarios distintos para analizar el costo de clasificaciones.
1
II. Introducción
El proceso de hurgar en los datos para descubrir conexiones ocultas y
predecir tendencias futuras, conocido algunas veces como descubrimiento de
conocimientos en bases de datos o simplemente como minería de datos. El cual es
el proceso de hallar anomalías, patrones y correlaciones en grandes conjuntos de
datos para predecir resultados. Empleando una amplia variedad de técnicas, puede
utilizar esta información para incrementar sus ingresos, recortar costos, mejorar sus
relaciones con clientes, reducir riesgos y más. (SAS Institute Inc., 2021)
2
III. Objetivos
1. Objetivo General
Procesar una base de datos entrenar, probar y validar modelos de clasificación.
2. Objetivos Específicos
- Conocimiento y descripción de la base de datos.
- Limpieza de la base de datos (eliminación de registros, atributos, imputación de
datos entre otros vistos en clases).
- Transformación de la base de datos y creación de atributos.
- Elección de atributos relevantes para incorporar a un modelo mediante métodos
de filtro.
- Entrenamiento de los 4 modelos de clasificación vistos en clases (Árbol de
decisión, K-Nearest Neighbor, Neural Net, Naive Bayes).
- Identificación del umbral óptimo para la selección del mejor modelo.
- Elaboración de la curva ROC para el mejor modelo seleccionado.
- Identificar el umbral óptimo mediante la incorporación de costos asociados a los
errores de clasificación (Probar a lo menos 3 valores de costos para cada error y
analizar resultados).
3
IV. Desarrollo
1. Conocimiento y descripción de la base de datos
En primer lugar, se recibió la base de datos en donde se lograron identificar
40 atributos entre los cuales están incluidos el label, denominado como target90, es
decir, la variable dependiente o regresiva y el identificador de la base de datos,
denominado como customer number.
4
- Deliverytype: es el tipo de entrega del producto al cliente, siendo 0 envio o 1
entrega en el local.
- Invoicepostcode: indica la dirección de entrega asociada a cada factura.
- Delivpostcode: indica el código postal compartido por las direcciones de
entrega de cada factura.
- Voucher: indica si es que el cliente canjeo o no un cupon. Siendo un 0 en
caso de que no y un 1 si es que si.
- Advertisingdatacode: indica el código de datos publicitario.
- Case: califa el valor de los bienes de cada cliente, entre 1 y 5, siendo 1 bajo
y 5 alto.
- Numberitems: es el número de artículos pedidos por cada cliente.
- Gift: es la opción de regalo con la que cuenta cada cliente, siendo 0 (No) y 1
(Si9.
- Entry: indica la entrada a la tienda, siendo 0 (tienda) o 1 (pareja).
- Points: indica si es que cada cliente a criticado algunos puntos, siendo 0 (No)
o 1 (Si).
- Shippingcosts: indica si es que se incurrieron en gastos de envíos, siendo 0
(No) o 1 (Si).
- Deliverydatepromised: es la fecha de entrega prometida al cliente de su
pedido.
- Deliverydatereal: es la fecha real de entrega al cliente de su pedido.
- Weight: indica el peso del envio.
- Remi: indica la cantidad de artículos remitidos por la tienda.
- Cancel: indica la cantidad de artículos cancelados por la tienda.
- Used: indica la cantidad de artículos usados por la tienda.
- W(i): indica el número de ciertos artículos ordenados en toda la tienda, estos
artículos son: libros, audio libros, libros online, películas, artículos de música,
hardware, artículos impostados y otros. Siendo i=̅̅̅̅̅̅
0,10.
- Target90: es la decisión si es que un cliente volverá a ordenar algun articulo
dentro de los siguientes 90 dias, siendo el label de la base de datos y una
variable nominal dicotómica binaria, siendo 0 (No) o 1 (Si).
5
Tabla 1: Descripción de atributos
Nombre del Atributo Tipo Caracteristica Nombre del Atributo Tipo Caracteristica
Customer Number Entera Nominal Advertisingdatacode Carácter Nominal
Date Fecha Carácter Case Entera Ordinal
Saturation Entera Politomica Numberitems Entera Carácter
Age Entera Carácter Gift Entera Dicotomica
Title Entera Dicotomica Entry Entera Dicotomica
Domain Entera Politomica Points Entera Dicotomica
Country Entera Carácter Shippingcosts Entera Dicotomica
Datecreated Fecha Carácter Deliverydatepromised Fecha Carácter
Newsletter Entera Dicotomica Daliverydatereal Fecha Carácter
Model Entera Politomica Weight Entera Carácter
Paymenttype Entera Politomica Remi Entera Carácter
Deliverytype Entera Dicotomica Cancel Entera Carácter
Invoicepostcode Carácter Nominal Used Entera Carácter
Delivpostcode Carácter Nominal w(i) Entera Carácter i=(0,10)
Voucher Entera Dicotomica Target90 Entera Dicotomica
6
En tercer lugar, por decisión propia se eliminaron las variables llamadas
Country y Points, ya que como variable independiente no aportaban ninguna
importancia al futuro modelo predictor, ya que más del 95% de los datos eran
iguales. Por lo que la información expuesta no ayudaba a la variable regresora.
Y como cuarto lugar, se decidió eliminar todas las variables que identificaban
fechas (Date y Datecreated), ya que no aportaban información además de que la
mayoría de los datos eran incorrectos.
3. Transformación de atributos
La primera transformación que se realizo en la base de datos fue con
respecto al atributo llamado Customer number, el cual dentro de los datos cumple
la función de identificador de cliente (ID único). Tras estudiar el atributo se llegó a la
conclusión que existían datos ilógicos, los cuales no permitían identificar al cliente.
De este modo se eliminó la columna con los datos y se creo un variable con el
mismo nombre, pero con números correlativos de 1 al 10.000, para que de esta
forma se logre identificar a cada cliente con un valor único.
4. Imputación de datos
Luego de la limpieza y transformación de dentro de la base de datos, aun se
encuentra el problema de que por cada columna y fila existen valores perdidos, los
cuales claramente están en un bajo porcentaje. Lo que nos permite realizar un
método de imputación, llamada KNN o K-Imputación del vecino mas cercano. Es
así como se selección un k = 3 para promediar los valores cercanos y reemplazarlos
en la celda faltante, todo esto según el tipo de variable.
7
5. Elección de atributos relevantes
En seguida, a través del programa RapidMiner se procedió a seleccionar los
mejores atributos, con el fin de generar un modelo predictor robusto. Esto se realizó
con el método de la prueba Chi-Cuadrado, el cual a través de la identificar las
relaciones de dependencia entre los atributos, puede identificar cual será más o
menos importante según un peso.
8
Gracias al programa antes mencionado, se lograron obtener los siguientes
datos:
9
Tabla 6: Rendimiento Naive Bayes
7. Umbral optimo
Luego de los valores obtenidos anteriormente, se procederá a obtener el
umbral optimo al modelo Naive Bayes, ya que es el con mejor rendimiento en
comparación con los otros 3 modelos, con un Accuracy = Precision = Recall =
54,07%.
10
Tabla 8: Thershold
8. Curva ROC
Para el modelo seleccionado se obtiene la Curva ROC con un umbral del
0,54, como se puede observar a continuación:
9. Situación de Costos
Para las situaciones de costos se van a evaluar tres casos, para el primer
caso es cuando el error de tipo I y II son iguales. El segundo cuando el error de
tipo I es mayor al de tipo II. Y el tercera cuando el error de tipo II es mayor al del
tipo I.
11
9.1 Caso 1
Representa el mismo costo cuando se cometen los errores tipo I y II, los cuales para
el problema en cuestión se fijarán en $3.000, según los promedios de los costos.
9.2 Caso 2
Representa la proporción doble al cometer el error tipo I con respecto al tipo
II, en este caso $6.000 (error tipo I) y $3.000 (error tipo II).
12
Ilustración 3: Curva ROC Caso 2
9.3 Caso 3
Representa un 50% mas de cometer un error tipo II con respecto al error tipo
I, en este caso $3.000 (error tipo I) y $4.500 (error tipo II).
13
Tabla 11: Matriz de confusión Caso 3
14
V. Conclusión
La elaboración de este informe permitió utilizar técnicas estadísticas para
obtener pronósticos a partir de una voluptuosa base de datos de una empresa, la
cual con la ayuda de los programas de Excel y RapidMiner, además de sus
respectivas funciones y operadores, se lograron limpiar y entrenar en base a
diferentes modelos para poder tomar decisiones acertadas en consecuencia de los
objetivos de la empresa Cuponing.
15
VI. Bibliografía
16