Está en la página 1de 43

MODELADO EN MINERÍA DE DATOS

GRUPO: CLLAM

AUTORES:

LUIS ALFONSO QUINTERO CÓDIGO 100090770.

EDISON ANDRÉS TAFUR CÓDIGO 100221931.

CARLOS GIOVANNY MARTÍNEZ MONROY CÓDIGO 100056109.

LILIANA MARCELA CORTES PULIDO CÓDIGO 100065762.

MARIA ANGELICA RAMOS CÓDIGO 100169349.

ASESOR: SANDRA LUENGAS APONTE

INSTITUCIÓN UNIVERSITARIA POLITÉCNICO GRANCOLOMBIANO

FACULTAD DE INGENIERÍA, DISEÑO E INNOVACIÓN

ESPECIALIZACIÓN EN GERENCIA DE PROYECTOS EN INTELIGENCIA DE

NEGOCIOS

BOGOTÁ, D.C. 2022


Contenido
TABLA DE ILUSTRACIONES ............................................................................ 4

Comprensión Del Negocio....................................................................................... 7


Áreas dentro de la Empresa ............................................................................. 7

Objetivos Gerencia ........................................................................................... 7

Objetivo Administrativa..................................................................................... 7

Objetivo Comercial ........................................................................................... 7

Indicadores......................................................................................................... 7

Áreas afectadas por la minería de datos ......................................................... 8

Planteamiento del Problema ............................................................................. 8

Evaluación .......................................................................................................... 9

Alcance de la MD ............................................................................................... 9

Plan Proyecto de MD ....................................................................................... 10

Comprensión De Los Datos .................................................................................. 11


Recolección inicial........................................................................................... 11

Descripción ...................................................................................................... 12

Tabla de órdenes de compra ......................................................................... 12

Tabla de socios de negocio............................................................................ 13

Exploración ...................................................................................................... 14

Calidad .............................................................................................................. 15

Selección .......................................................................................................... 15
Nivel I ............................................................................................................. 15

Nivel II ............................................................................................................ 16

Nivel III ........................................................................................................... 16

Exclusión de datos ......................................................................................... 16

Preparación De Los Datos .................................................................................... 17


SEGUNDA ENTREGA – MODELADO DE DATOS............................................... 30
Creación de módulo de lectura de datos ....................................................... 30

Llamado de la data........................................................................................... 31

Filtro de columnas ........................................................................................... 32

Módulo de normalización ................................................................................ 33

Módulo denormalizador y color manager ...................................................... 35

Módulo pie chart (Local) ................................................................................. 36

Visualización de esquemas ............................................................................ 37

Parametrización de ROC Curve ...................................................................... 38

Visualización de curvas de ROC .................................................................... 39

Esquema final del modelo............................................................................... 42

Bibliografía ............................................................................................................ 43
TABLA DE ILUSTRACIONES

Ilustración 1 Flujo de comprensión de datos ......................................................... 11

Ilustración 2 Muestra de datos .............................................................................. 17

Ilustración 3 Extracción de datos........................................................................... 17

Ilustración 4 Creación de proyecto ........................................................................ 18

Ilustración 5 Hallazgos .......................................................................................... 19

Ilustración 6 Ajuste Registro .................................................................................. 19

Ilustración 7 Inquietudes campo N/A ..................................................................... 20

Ilustración 8 Inquietudes Campo Premio ............................................................... 21

Ilustración 9 Grupos en columnas ......................................................................... 21

Ilustración 10 Grupos en columnas articulo........................................................... 22

Ilustración 11 Identificación de registros ............................................................... 23

Ilustración 12 Ajustes manuales Iconograma ........................................................ 23

Ilustración 13 Ajustes manuales Marpico .............................................................. 23

Ilustración 14 Gruopos en columna impresión ...................................................... 24

Ilustración 15 Ajustes columna impresión ............................................................. 24

Ilustración 16 Operaciones en base 1 ................................................................... 25

Ilustración 17 Operaciones en base 2 ................................................................... 25

Ilustración 18 Operaciones en base 3 ................................................................... 26

Ilustración 19 Operaciones en bsase 4 ................................................................. 26

Ilustración 20 Operaciones en base 5 ................................................................... 27


Ilustración 21 Eliminación de columnas vacias ..................................................... 27

Ilustración 22 Normalización de variables ............................................................. 28

Ilustración 23 Integración de bases ....................................................................... 28

Ilustración 24 Transformación de datos ................................................................ 28

Ilustración 25 reemplazar nulos y eliminación de errores ..................................... 29

Ilustración 26 Excel Reader................................................................................... 30

Ilustración 27 Local File System ............................................................................ 31

Ilustración 28 Table Contains ................................................................................ 32

Ilustración 29 Column Filter ................................................................................... 33

Ilustración 30 Normalizer ....................................................................................... 34

Ilustración 31 Normalizer Data .............................................................................. 34

Ilustración 32 K.Means .......................................................................................... 35

Ilustración 33 Denormalizer - Color Manager ........................................................ 36

Ilustración 34 Pie Chart (Local) ............................................................................. 37

Ilustración 35 Diagram Pie Chart Local ................................................................. 38

Ilustración 36 ROC Curve...................................................................................... 38

Ilustración 37 Clusters ........................................................................................... 39

Ilustración 38 Roc Curve 0 .................................................................................... 40

Ilustración 39 Roc Curve 1 .................................................................................... 40

Ilustración 40 Roc Curve 2 .................................................................................... 41

Ilustración 41 Roc Curve 3 .................................................................................... 41

Ilustración 42 Roc Curve 4 .................................................................................... 42


Ilustración 43 Modelado Final................................................................................ 42
Comprensión Del Negocio

Publicaciones S.A.S es una compañía dedicada a la comercialización,

distribución y venta de productos promocionales publicitarios de excelente calidad

y un precio competitivo en el mercado los cuales dan solución a las necesidades

de posicionamiento, cobertura e identidad de marca e imagen; buscando siempre

ofrecer la mejor calidad de sus productos, y así lograr la satisfacción de sus

clientes.

Áreas dentro de la Empresa

Objetivos Gerencia

Mejorar la calidad de los productos con estándares, y normas que ayuden a

mejorar el resultado final del articulo entregado.

Identificar los clientes que han dejado de adquirir productos en la trayectoria

de la empresa y poder darles una bonificación o incentivo con el fin de lograr

restablecer una relación comercial.

Objetivo Administrativa

Proporcionar un servicio más eficiente en cuanto los tiempos de entrega,

calidad del producto y una relación más directa con el cliente en posventa.

Objetivo Comercial

Buscar nuevos clientes que sean constantes y que permitan generar más

ingresos a la empresa.

Indicadores

Los Indicadores establecidos para el rendimiento de la minería de datos

son:
- Porcentaje de quejas por productos de mala calidad.

- Porcentaje de nuevos clientes perdidos.

- Tiempos de entrega acordados Fecha Orden – Fecha de facturado.

- Porcentaje de nuevos clientes por cada uno de los comerciales.

Áreas afectadas por la minería de datos

De acuerdo con los objetivos planteados la afectación se dará de manera

positiva, ya que se beneficiará el sector comercial, en cuanto los nuevos clientes a

adquirir y los que dejaron de utilizar los servicios, dándole un mejor manejo

administrativo en cuanto tiempo - entrega y así poder organizar una base de datos

eficiente.

Planteamiento del Problema

Identificar la causa de la pérdida de clientes en los últimos cinco años:

En este momento la empresa no cuenta con una solución efectiva para

hacerle frente a el problema, lo cual no es posible determinar las ventajas o

desventajas, se sugiere evaluar y utilizar la metodología de minería de datos, con

el fin de poder identificar el motivo de la pérdida de clientes y una vez identificadas

las causas poder crear estrategias que le permitan a la empresa el desarrollo de

nuevas estrategias que le permitan recuperar clientes perdidos y de igual manera

atraer nuevos clientes.

El problema es que a lo largo de los últimos cinco años se ha evidenciado

que varios clientes han dejado de adquirir productos.

Se pretende que con la implementación de practica de minería de datos, se

logre identificar los clientes perdidos, la causa, la identificación de los mismos, de


esta manera crear estrategias comerciales y de marketing que permitan recuperar

los clientes perdidos, así como la atracción de nuevos clientes.

- Las desventajas en la implementación de MD son:

- Los riesgos de utilización de nuevos softwares.

- Capacitaciones de sus empleados.

- Resistencia al cambio por parte de los empleados.

- No adherencia a las nuevas estrategias que se plantee la compañía para la

recuperación de los clientes y captación de nuevos clientes, por parte de

todas las áreas de la empresa.

Evaluación

Se cuenta con información en diferentes bases de datos la cual cuenta con

datos de los últimos cinco atrás donde se evidencia nombre y número de

identificación del cliente, producto adquirido, nombre del comercial, orden de

compra, número de factura, valor de compra y valor de venta, estos datos nos

permitirán evaluarlos para cumplir con el objetivo planteado y establecer posibles

soluciones al problema, el equipo de trabajo pondrá en práctica los conocimientos

adquiridos para bridar soluciones a la empresa.

Alcance de la MD

La proyección de la minería de datos es extraer la información de los

clientes en cuanto a perfiles de la empresa, si se mantiene en el mercado, si ha

buscado otros proveedores, para poder realizar una estrategia de mercadeo que

ayude a volver a retomar a contratar con la empresa, o si por efectos de pandemia

las preferencias de los clientes cambiaron y los productos ofertados por la


empresa ya no representan un alternativa para que nuestros clientes fortalezcan

la recordación de marcas entres sus clientes, de ser así lograr identificar hacia que

mercado u opciones migraron los clientes perdidos.

Unificar una única base de datos, y convertirla en conocimiento de los

clientes perdidos, que se mantienen y los nuevos clientes, para hacerles un

seguimiento, donde se busque integrara toda la información relevante para poder

realizar un plan estratégico a la empresa

Plan Proyecto de MD

ACTIVIDAD DURACIÓN
Compresión del negocio Se realizaron reuniones del grupo en las cuales,
se selecciono la empresa y se compartió la
información de la misma para el desarrollo de la
actividad.
Comprensión de los datos Se revisan las bases de datos proporcionadas
por la empresa, se valida información registrada
en cada una de ellas, se realiza verificación de
los datos con los siguientes hallazgos:
Diferencias en escritura, falta de datos claves
para ser utilizados como llave primaria ejemplo
clientes sin Nit, datos incompletos de
vendedores, clientes y proveedores.
Preparación de datos Se selecciona herramienta para la limpieza de
los datos, se decide trabajar con OPEN REFINE.
Modelado Para el modelado de los datos se utilizó la
POWER QUERY.
Comprensión De Los Datos

Esta etapa consiste en la recolección y análisis previo de los datos para

establecer el conjunto de recursos que nos servirán para brindar solución a la

problemática planteada. De esta manera lograremos identificar si la data

suministrada por la empresa es suficiente para la obtención de proyecciones y

respuestas o si por el contrario se debe solicitar información complementaria.

Ilustración 1 Flujo de comprensión de datos

Recolección inicial

La data inicial entregada por la compañía Publiopciones contaba con un

aproximado de 600 registros por año y trazabilidad de los últimos 5 años, la

información relacionada en las tablas iba en función a los artículos vendidos en


este periodo y el tipo de tercero que generó la orden de compra. Se realizó la

validación general de los datos y se identificó que hacía falta información relevante

que nos permitiera perfilar de manera adecuada los terceros involucrados en cada

línea, por lo cual, fue necesario solicitar una segunda base de datos que nos

permitiera enlazar información relevante de los terceros.

A partir de lo anterior, se inició enlazando las 2 bases de datos a las cuales

teníamos acceso y unificándolas para su adecuado manejo, garantizando que la

información fuera lo más completa posible y de esta manera llegar al perfilamiento

requerido.

Descripción

Debido al uso de dos tablas con características diferentes, fue necesario

evaluar cada tabla unitariamente y luego determinar la manera de unificación. A

continuación, describiremos las características de cada tabla.

Tabla de órdenes de compra

Esta tabla cuenta con información detallada de los pedidos realizados por

los terceros, discrimina en cada línea el tipo de articulo, la cantidad y el valor

facturado por cada concepto. Esta tabla asocia cada línea de la ODC a la

información principal del socio de negocio.

La información que contiene esta tabla a nivel de columnas es la siguiente:

- VENDEDOR

- ORDEN

- CLIENTE

- ARTICULO
- CANTIDAD

- PROVEEDOR

- LOGO

- IMPRESOR

- VALOR ARTE

- ROTULO REMISION

- $ENVIO

- FACTURA

- FACTURA ANTES DE IVA

- FACTURA PROVEEDOR

Tabla de socios de negocio

Esta tabla cuenta con los detalles de los clientes activos e inactivos que

tienen o han tenido relación con la razón social de la compañía. Contamos con

cerca de 220 registros que enlazados a la tabla anterior, nos permitirán establecer

un perfil de compradores adecuado para la compañía, así como determinar el

perfil de aquellos que han desertado.

La información que contiene esta tabla a nivel de columnas es la siguiente:

- TIPO

- DOCUMENTO

- NÚMERO DE IDENTIFICACIÓN

- DÍGITO DE VERIFICACIÓN

- PRIMER APELLIDO

- SEGUNDO APELLIDO
- PRIMER NOMBRE

- SEGUNDO NOMBRE

- EMPRESA

- CONTACTO

- TELEFONO

- CORREO ELECTRONICO

- PAÍS

- CIUDAD

- DIRECCIÓN

Exploración

Teniendo en cuenta qué para enlazar las diferentes tablas es necesario

hacer a través de un campo obligatorio y que el campo NIT no se encuentra en la

primera base de datos, fue necesario enlazarlas mediante un campo de segundo

nivel que fue el nombre del tercero.

Al realizar en cruce de las bases podemos identificar que la unión de los

campos de cada tabla nos permite establecer la manera en la cual el tipo de

cliente se relaciona con el tipo de artículos que compran y las cantidades.

Adicionalmente, es posible establecer una relación entre los clientes

inactivos y el tipo de artículos que compraron cuando estaban activos, de esta

manera será posible establecer una proyección de los clientes con mayor riesgo

que se retiren del mercado y por ende afecte las ventas de la compañía.
Calidad

Mediante el análisis realizado es necesario establecer que hay columnas

que no pueden estar vacías o con datos erróneos, es decir, hay campos de primer

nivel que exigen que la calidad de la información sea de primera. Un ejemplo de

esto es el nombre del proveedor en las ordenes de compra, ya que sin estos

campos no será posible enlazar toda la información necesaria. En los campos en

los cuales tengamos incongruencia de la información, deberán ser omitidos,

perdiendo relacionamiento de la data y afectando la muestra.

Existen campos de segundo y tercer nivel que, si bien afecta que estén

vacíos o incompletos, podemos corregir o alimentar la información mediante

comparativas o asociándolos a comportamientos de tendencia, en estos casos la

información apoyará al perfilamiento de los clientes, pero en un menor grado de

exactitud.

Selección

La selección de los datos fue realiza de acuerdo con su nivel de impacto en

el proceso, por lo cual, se dividieron en 3 subgrupos que nos permitieron

garantizar el cumplimiento del objetivo planteado.

Nivel I

Sobre la tabla de órdenes de compra se establece el número de orden de

compra y su información principal de valor unitario, articulo y fecha de generación;

para la tabla de socios de negocio el nombre del proveedor, NIT, tipo de persona y

ciudad nos permite armar el primer esquema de los datos.


Nivel II

Los datos secundarios que aportan al perfilamiento, pero que no son

restrictivos ocupan esta distinción, los campos de segundo nivel son el vendedor,

el impresor, el valor del arte, el valor de la factura e impuestos, el logo y el país del

tercero.

Nivel III

Los datos de tercer nivel y que son los que aportan en menor nivel al

cumplimiento del objetivo son aquellos que nos permiten obtener un nivel de

distinción unitario, pero no agruparlos en tendencias. En este nivel encontramos

los campos restantes, destacando personas de contacto, dirección, rótulo

remisión, factura, $envío, entre otros.

Exclusión de datos

Los datos excluidos son aquellos que no generan ningún valor al ejercicio a

realizar, para el caso de nuestra compañía solo encontramos el dígito de

verificación en la tabla de socios de negocio, ya que es una columna que no

enlaza ninguna información relevante y se usa para efectos netamente tributarios.

La empresa nos entrega archivo en Excel con Datos históricos de clientes

vendedores y ventas en 6 pestañas desde el año 2017 al 2022:


Preparación De Los Datos

Ilustración 2 Muestra de datos

Extracción para trabajar de archivo base entregada:

Ilustración 3 Extracción de datos

Se crea el proyecto donde el programa identifica 3891 registros y se van a

visualizar en bloques de a 10:


Ilustración 4 Creación de proyecto

Hallazgos en la base:

- nombres sin apellidos.

- Faltan número de nit en clientes.

- no todos los nombres tienen tildes,

- mayúsculas y minúsculas.

- No se cuenta con llave (número de identificación del vendedor).

- Datos sin puntos y sin puntos.

- Proveedor sin número de Identificación.


COLUMNA VENDEDOR:

Ilustración 5 Hallazgos

Registro como LILIANA y otro como LILIANA CORTES DEFINIR SI ES LA MISMA

PERSONA. (SE AJUSTA ES LA MISMA)

Ilustración 6 Ajuste Registro


Se identifica registro N/A en vendedor (¿a que corresponde?):

Ilustración 7 Inquietudes campo N/A

Se identifica registro premio (¿a que corresponde?):


Ilustración 8 Inquietudes Campo Premio

COLUMNA CLIENTE: Se identifican 22 grupos que presentan información con

diferencias cada uno de ellos con sus registros identificados:

Ilustración 9 Grupos en columnas


COLUMNA ARTICULO: Se identifican 329 grupos que presentan información con

diferencias cada uno de ellos con sus registros identificados:

Ilustración 10 Grupos en columnas articulo

COLUMNA PROVEEDOR: Se identifican 2 grupos que presentan información con

diferencias cada uno de ellos con sus registros identificados:


Ilustración 11 Identificación de registros

Y adicional 1 a 1 se identificados registros para ajustes manuales:

Ilustración 12 Ajustes manuales Iconograma

Ilustración 13 Ajustes manuales Marpico

COLUMNA IMPRESOR: Se identifican 5 grupos que presentan información con

diferencias cada uno de ellos con sus registros identificados:


Ilustración 14 Gruopos en columna impresión

Ilustración 15 Ajustes columna impresión

MODIFICACIONES:

Se realizan en total 60 operaciones en la base:


Ilustración 16 Operaciones en base 1

Ilustración 17 Operaciones en base 2


Ilustración 18 Operaciones en base 3

Ilustración 19 Operaciones en bsase 4


Ilustración 20 Operaciones en base 5

La base modificada queda con un total de 3743 registros 148 registros depurados.

Procedemos a eliminar columnas vacías:

Ilustración 21 Eliminación de columnas vacias


Normalizamos las variables de escala, configuramos su tipo de dato:

Ilustración 22 Normalización de variables

En nuestra fuente de datos 2 tenemos mas información para integrar variables y

anexar registros:

Ilustración 23 Integración de bases

Transformamos datos de tal manera que quede mayúscula la primera letra de

cada texto:

Ilustración 24 Transformación de datos


Reemplazamos los valores nulos y quitamos errores en los registros:

Ilustración 25 reemplazar nulos y eliminación de errores


SEGUNDA ENTREGA – MODELADO DE DATOS

Creación de módulo de lectura de datos

Se crea Excel Reader en el programa KNIME, la cual nos permitirá analizar

el comportamiento de las variables.

Ilustración 26 Excel Reader


Llamado de la data

En Excel Reader dar clik y se busca la base de datos llamada ¨preparación

de datos¨

Ilustración 27 Local File System

Se observa que la base cargada aparece nombre del vendedor, número de

orden, Nit, nombre del cliente, articulo adquirido, cantidad a comprar, proveedor

del artículo etc.


Ilustración 28 Table Contains

Filtro de columnas

Se procede a seleccionar las columnas que no se van a utilizar en el

modelamiento, las cuales son: Logo, Rotulo remisión, Transportadora y Guía, ya

que estas variables no aportan al planteamiento del problema.


Ilustración 29 Column Filter

Módulo de normalización

Se procede a normalizar la información, se trae el icono normalizer, el cual

se enlaza con el icono Column Filter.


Ilustración 30 Normalizer

En el icono normalizer dar clik en configure, donde se normalizaran los

datos.

Ilustración 31 Normalizer Data


Módulo K-means

Se trae el icono K. Means el cual se enlaza con Normalizer,

automáticamente trae las variables numéricas y quedan por fuera las que no se

van a considerar como una variable.

Ilustración 32 K.Means

Módulo denormalizador y color manager

Se trae el icono denormalizer el cual va a garantizar que lo que salga del

modelo regrese a su estado natural enlazándolo con normalizer y K. Means.

Adicional se trae el icono Color Manager para analizar las gráficas.


Ilustración 33 Denormalizer - Color Manager

Módulo pie chart (Local)

Se trae el icono Pie Chart local, se enlaza con color manager, clik en

configurar, se selecciona display all rowns, clik en execute and open Views.
Ilustración 34 Pie Chart (Local)

Visualización de esquemas

Al dar clik en execute and open Views se refleja el diagrama en torta donde

se observan los 5 segmentos, el 0 con 0,8%, el 1 con el 37,49%, el 2 con 29,84%,

el 3 con 28,25% y el 4 con 3,61%. Se identifican 3 grandes tendencias y 2

pequeñas.
Ilustración 35 Diagram Pie Chart Local

Parametrización de ROC Curve

Se trae el icono Roc Curve y se enlaza con K. Means.

Ilustración 36 ROC Curve


A cada Cluster se le crea un icono y se enlazan con K. Means. Luego se

configura cada cluster con cada una de las 5 variables.

Ilustración 37 Clusters

Visualización de curvas de ROC

Se podrá visualizar cada una de las curvas dando clik en Views ROC

Curves, como se muestra en Ilustración 38, Ilustración 39, Ilustración 40,

Ilustración 41 y Ilustración 42
Ilustración 38 Roc Curve 0

Ilustración 39 Roc Curve 1


Ilustración 40 Roc Curve 2

Ilustración 41 Roc Curve 3


Ilustración 42 Roc Curve 4

Esquema final del modelo

Como resultado damos a conocer el modelado para el análisis de segmentación.

Ilustración 43 Modelado Final


Bibliografía

https://openrefine.org/

https://support.microsoft.com/es-es/office/acerca-de-power-query-en-excel-

7104fbee-9e62-4cb9-a02e-5bfb1a6c536a

https://healthdataminer.com/data-mining/crisp-dm-una-metodologia-para-mineria-

de-datos-en-salud/#:~:text=referencia%20CRISP%2DDM.-

,Comprensi%C3%B3n%20del%20negocio.,efecto%20real%20en%20la%20

organizaci%C3%B3n.

https://www.mikelnino.com/2016/11/crisp-dm-metodologia-data-mining-

comprension-negocio-business-understanding.html

https://www.ibm.com/docs/es/spss-modeler/18.4.0?topic=understanding-data-

overview

https://www.dataprix.com/es/metodologia-crisp-dm-mineria-datos/preparacion-

datos

También podría gustarte