Documentos de Académico
Documentos de Profesional
Documentos de Cultura
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Metodología CRISP-DM
Minería de datos
Colombia
Marzo 07 de 2023
pág. 1
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
TABLA DE CONTENIDO
1 INTRODUCCION 6
2 JUSTIFICACION 7
3 COMPRENSION DEL NEGOCIO 8
3.1 SITUACION ACTUAL 8
3.2 OBJETIVOS DEL NEGOCIO 10
3.2.1 OBJETIVO GENERAL 10
3.2.2 OBJETIVOS ESPECIFICOS 10
3.3 OBJETIVO DE MINERIA DE DATOS 10
3.3.1 OBJETIVO GENERALE 10
3.3.2 OBJETIVOS ESPECIFICOS 10
4 COMPRENSION DE DATOS 11
4.1 RECOLECTAR LOS DATOS INICIALES 11
4.2 DESCRIPCIÓN DE DATOS 12
4.2.1 Variable Nivel Socioeconómico 13
4.2.2 Variable Genero 14
4.2.3 Variable Estado Civil 15
4.2.4 Variable Edad 16
4.2.5 Variable Nivel de escolaridad 17
4.2.6 Variable Municipio 18
4.2.7 Variable Fecha de alta 19
4.2.8 Variable Grupo de cliente 20
4.2.9 Variable Reportado en Centrales de Riesgo 21
4.3 EXPLORACIÓN DE DATOS 22
4.4 VERIFICAR LA CALIDAD DE LOS DATOS 22
5 PREPARACION DE DATOS 23
pág. 2
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
pág. 3
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
INDICE DE GRAFICOS
INDICE DE TABLAS
pág. 4
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
INDICE DE ILUTRACIONES
ILUSTRACIÓN 1: PASO 1 27
ILUSTRACIÓN 2: PASO 2 28
ILUSTRACIÓN 3: PASO 3 28
ILUSTRACIÓN 4:PASO 4 29
ILUSTRACIÓN 5: PASO 5 29
ILUSTRACIÓN 6:PASO 6 30
ILUSTRACIÓN 7: PASO 7 30
ILUSTRACIÓN 8: PASO 8 31
ILUSTRACIÓN 9: PASO 9 31
ILUSTRACIÓN 10: PASO 10 32
ILUSTRACIÓN 11: PASO 11 33
ILUSTRACIÓN 12:PASO 12 33
ILUSTRACIÓN 13:PASO 13 34
ILUSTRACIÓN 14: PASO 14 34
ILUSTRACIÓN 15:PASO 15 35
ILUSTRACIÓN 16: PASO 16 36
ILUSTRACIÓN 17:PASO 17 36
ILUSTRACIÓN 18:PASO 18 37
ILUSTRACIÓN 19:PASO 19 38
ILUSTRACIÓN 20: PASO 20 39
ILUSTRACIÓN 21:PASO 21 40
ILUSTRACIÓN 22:PASO 22 40
ILUSTRACIÓN 23:PASO 23 41
pág. 5
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
1 INTRODUCCION
pág. 6
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
2 JUSTIFICACION
pág. 7
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
El banco, para su producto CREDIUNO tiene su objetivo comercial enfatizado a enviar sus asesores
hasta donde sus clientes se encuentren (En especial lugares apartados y de difícil acceso) y les
brindan atención cercana y personalizada sin salir de casa.
A través de un proceso 100% digital los clientes tendrán rápida aprobación y desembolsos en
máximo 24 horas.
Entregan el dinero rápido sin costos adicionales, pueden unificar sus deudas con el banco,
comprando su cartera con otras entidades financieras a tasas especiales, a personas reportadas en
centrales de riesgo y con ingresos incluso por debajo del SMLVM. Montos hasta de 192 Salarios
Mínimos Mensuales Legales Vigentes y con plazos de gago de hasta 144 meses.
Los clientes o potenciales clientes no tienen que salir de casa para resolver sus inquietudes, el
Banco cuenta con diversos canales para atenderles desde donde se encuentren.
La destinación de los créditos se divide entre remodelar sus hogares, unificar sus deudas, invertir en
sus negocios, asegurar el estudio de sus hijos o nietos y libre inversión.
En la entidad financiera se utilizaría la minería de datos para aumentar su base de clientes y posibles
comparadores mejorando su eficiencia y toma de decisiones. La minería de datos les permite
obtener una comprensión más profunda de sus clientes y del mercado, lo que les permite identificar
pág. 8
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
La información con que se cuenta puede ser suficiente para obtener resultados relevantes mediante
el análisis de las bases a través de la minería de datos. En caso contrario la compañía cuenta con la
posibilidad de completar o adquirir nuevas bases de datos para complementar el ejercicio de
análisis.
Además, la minería de datos también está ayudando a los bancos a mejorar la eficiencia
operacional, reducir el riesgo y mejorar la satisfacción del cliente. Por ejemplo, pueden utilizar la
minería de datos para identificar las características de buenos clientes potenciales o patrones en la
conducta incluyendo sus preferencias, comportamientos de gasto y patrones de uso de productos
financieros.
DEBILIDADES OPORTUNIDADES
pág. 9
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
pág. 10
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
4 COMPRENSION DE DATOS
Esta fase está compuesta por la recolección de los datos del proyecto con el fin de conocer la
problemática del mismo, identificando las distintas hipótesis de solución.
pág. 11
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Descripción de los datos obtenidos. Con la base de datos podemos visualizar los diferentes
aspectos:
CLASIFICACION DE VARIABLES
4 EDAD (Años) 18-24 / 25-35 / 36-45 / 46-55 / 56-65 / +66 Cualitativa Ordinal
FECHA DE NACIMIENTO
6 1970-1980 / 1981-1990 / 1991-2000 Cualitativa Ordinal
(Año)
REPORTADO EN
10 N-S Cualitativa Nominal
CENTRALES DE RIESGO
pág. 12
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
NSE % Total
pág. 13
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Nivel Socioeconomico
32% Bajo
Medio
68%
pág. 14
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Genero
32% Femenino
Masculino
68%
pág. 15
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Variable % Total
pág. 16
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Estado Civil
24% Casado
Union Libre
Soltero
53%
23%
pág. 17
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Promedio de Edad 30 40 49 60 69 79 54
Edad
Total Promedio de Edad %
200 18.92% 20%
18.02%
180 17.22% 18%
15.72%
160 14.91% 15.22% 16%
140 14%
120 12%
100 10%
80 8%
60 6%
40 4%
20 2%
30 40 49 60 69 79
0 0%
Variable % Total
pág. 18
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Nivel de escolaridad
Total %
360 36%
35.34%
350 35%
340 34%
32.93%
330 33%
310 31%
300 30%
290 29%
pág. 19
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Variable % Total
Armenia 8,41% 84
Bucaramanga 8,11% 81
Cartagena 8,41% 84
pág. 20
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Tabla 8: Municipio
Variable Municipio
Total %
Cartagena 8% 84
Bucaramanga 8% 81
Armenia 8% 84
Variable % Total
ene 9,21% 92
feb 8,31% 83
mar 7,81% 78
abr 9,41% 94
may 8,61% 86
jun 7,21% 72
pág. 21
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
jul 8,61% 86
ago 8,71% 87
sep 7,11% 71
oct 9,11% 91
nov 8,01% 80
dic 7,91% 79
Fecha de alta
Total %
100 9% 9% 9% 10%
9% 9% 9%
90 8% 8%
8% 8% 9%
80 7% 7% 8%
70 7%
60 6%
50 5%
40 4%
30 3%
20 2%
10 1%
0 0%
ene feb mar abr may jun jul ago sep oct nov dic
Variable % Total
pág. 22
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
A 20,82% 208
B 19,02% 190
C 19,02% 190
D 20,32% 203
E 20,82% 208
Grupo de cliente
Total %
210 21% 21% 2 1%
205 20%
200 2 0%
195
19% 19%
190 1 9%
185
180 1 8%
A B C D E
pág. 23
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Variable Total %
N 497 49,75%
S 502 50,25%
50.3% 503
5 0 .2 0 %
502
5 0 .1 0 %
501
5 0 .0 0 %
500
4 9 .9 0 %
499
4 9 .8 0 %
49.7% 498
4 9 .7 0 %
497
4 9 .6 0 %
496
4 9 .5 0 %
495
4 9 .4 0 %
494
N S
pág. 24
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
A través de la diferente información que podemos visualizar en la base de datos, se puede generar la
diferente exploración de datos, esto implica la aplicación de pruebas de estadísticas básicas las
cuales revelan las propiedades de los datos permitiendo determinar la consistencia y la completitud
de los datos
Luego de revisar la base de datos podemos afirmar que las bases de datos son completas y cumplen
con el objetivo del proyecto, el dato no presenta inconsistencias o errores notables, ni valores fuera
de rango por lo que no hay riesgo de ruido en el proceso de minería de datos.
pág. 25
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
5 PREPARACION DE DATOS
En esta fase es condición indispensable la realización y comprensión comercial y de los datos en sí,
ya que de esta manera se puede reducir de manera significativa los gastos indirectos relacionados.
Una vez que tengamos toda la información completa de la Base de Datos y realizado los
correspondientes análisis y validaciones necesarias para asegurar la calidad de los mismos, a través
de la fase anterior de comprensión de los mismos, comenzaremos con la etapa de preparación de los
datos para adaptarlos a las técnicas de Data Mining que se utilizaran posteriormente.
En esta etapa trabajaremos temas generales de selección de datos, como limpieza de la información,
generación de variables adicionales, cambios en los formatos e integración de las diversas fuentes
de datos.
pág. 26
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
CLASIFICACION DE VARIABLES
REPORTADO EN CENTRALES
9 N-S Nominal
DE RIESGO
pág. 27
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
La base de datos utilizada para nuestro proyecto, es una data con información puntual de usuarios
adscritos al sistema subsidiado de salud en el país, la cual es recaudada por las diferentes IPS de
atención primaria y droguerías de la red que suministran los medicamentos dentro del plan, esta
data, es categorizada y consolidada en el área de Datawerehouse del ADES, con cobertura en todo
el territorio nacional. Data que posteriormente es valorada y clasificada de acuerdo a su ubicación
geográfica, nivel socioeconómico e ingresos mensuales o según el puntaje SISBEN con el cual esté
calificado el usuario en sistema.
El proyecto busca clasificar y definir los municipios donde se ubiquen la mayor cantidad de
potenciales clientes de los productos de crédito que maneja el banco dentro de su portafolio, y con
base en ello, planear la operación y correrías de las unidades móviles de la compañía financiera,
encargada de hacer aperturas y toma de datos para la evaluación de asignación de crédito, por lo
anterior y su relevancia se denominara la variable Y, la cual depende de las variables X que en este
caso son, el nivel socioeconómico, su reporte o no en las centrales de riesgo, la categoría, la
jerarquía y el tipo de registro.
Para el proyecto se decidió utilizar la herramienta de KNIME, gracias a su menú amable con el
usuario, y su facilidad de manejo.
pág. 28
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
A través de una tabla dinámica aplicada a la base, se prueban cada uno de los criterios recorridos en
el análisis.
pág. 29
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Ilustración 1: Paso 1
pág. 30
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Ilustración 2: Paso 2
Escribimos al nombre con el cual vamos a nombrar el proyecto y la localización del archivo en el
PC.
Ilustración 3: Paso 3
pág. 31
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Nos aparece el cuerpo del proyecto en blanco, y en la parte inferior izquierda en NODE
REPOSITORY, se seleccionan los nodos que utilizaremos para nuestro proyecto.
Ilustración 4:Paso 4
pág. 32
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Ilustración 5: Paso 5
Cargamos el documento de Excel, el cual nos muestra, que empezamos con una base de datos. De
24155 datos y 31 columnas.
Ahora agregamos el nodo de filtrar columnas y lo enlazamos con el anterior de Excel reader.
Ilustración 6:Paso 6
En este nodo filtramos las columnas que necesitamos y observamos la variable dependiente.
pág. 33
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Ilustración 7: Paso 7
Ilustración 8: Paso 8
pág. 34
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
En este nodo normalizamos las columnas que poseen un formato diferente, en este caso,
normalizamos la columna de número de tarjetas de crédito y salario promedio, con el fin de contar
con el mismo formato de tiempo, donde le adjudicamos un máximo y un mínimo.
Ilustración 1: Paso 9
pág. 35
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
pág. 36
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Allí seleccionamos el porcentaje que entrara al nodo de la técnica de clasificación, en nuestro caso
escogimos el 70%.
pág. 37
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Ilustración 12:Paso 12
En esta imagen observamos que 699 datos saldrán por la parte de arriba) el cual corresponden al
70% de los datos) con 8 columnas, y por la parte de abajo salon 300 daros, (los cuales pertenecen al
30% de datos faltantes).
Ilustración 13:Paso 13
pág. 38
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Allí podemos observar, el cual para nuestro análisis se despliega de la siguiente forma.
pág. 39
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
En el cual, con el primer parámetro de tipo de registro observamos que, el impacto que predomina y
por consiguientes clientes con alta favorabilidad para el banco de adjudicar su producto, son
aquellos con ingresos mensuales por encima de los $900.000. Así mismo observamos que para los
potenciales clientes con ingresos menores a $900.000 tienen alta favorabilidad de puesta de
producto mientras no estén reportados en centrales de riesgo. Con esta información podemos filtrar
los clientes en la base que cumplan con estas características para consolidar su ubicación. Las
variables que son relevantes para esta regla de decisión son entonces “Ingresos Mensuales” y
“Reportado en Centrales de Riesgo S/N” correspondientemente se comporta el ranking de estas
variables.
Para seguir con el proceso de predicción, ahora vamos a buscar el nodo de predictor de árbol de
decisión, y vamos a unir parte superior del nodo con la parte azul del nodo de árbol de decisión, y la
fecha de abajo la vamos a unir con el 30% de casos sobrantes del nodo de partitioning.
Para obtener la predicción, vamos a unir el predictor de arbol de decisión con el nodo de scorer.
pág. 40
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Ilustración 17:Paso 17
Allí desplegamos la matriz de confusión, y observamos que la predicción de ocurrencia que lleguen
casos de impacto es de 100% con un porcentaje de error del 0%.
pág. 41
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Ilustración 18:Paso 18
pág. 42
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Ilustración 19:Paso 19
En este nodo, la plataforma KNIME, realiza la respectiva progresión logistica, allí vamos a
seleccionar el nodo de predictor de regresión logistica, y lo vamos a unir en la parte de la salida azul
con la salida del nodo de regresión lineal, y en la parte de abajo lo vamos a unir con el 30% de los
datos que salen del nodo de partitioning, y por último lo unimos con el nodo de scorer, para obtener
predicción.
pág. 43
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Según la matriz de confusión de la regresión lineal, afirma en una ocurrencia del 95.333% que los
casos que llegaran son de impacto con un error de ocurrencia de un 4,667%.
Ilustración 21:Paso 21
pág. 44
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Este nodo lo vamos a unir con el nodo de predicción, el cual es el predictor de Naive Bayes, el cual
en la parte superior estará unido con la salida de datos del Naive Bayes Learnes, y en la parte de
abajo lo vamos a unir con el 30% de datos que salen del nodo de partitioning, y lo vamos a unir con
un nodo de scorer.
Ilustración 22:Paso 22
Por último, con la matriz de confusión del Naive Bayes podemos observar que la posibilidad de
ocurrencia, que prediga la llegada de casos de impacto es de 98.333% con un porcentaje de error del
1.667%.
pág. 45
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
Ilustración 23:Paso 23
pág. 46
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
pág. 47
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
9 CONCLUSIONES
pág. 48
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD
MINERIA DE DATOS
10 BIBLIOGRAFIA
https://www.iic.uam.es/innovacion/metodologia-crisp-dm-ciencia-de-datos/
chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/http://www.oldemarrodriguez.com/
yahoo_site_admin/assets/docs/Documento_CRISP-DM.2385037
pág. 49