Está en la página 1de 49

FACULTAD DE NEGOCIOS,

GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

CAPTACIÓN DE CLIENTES CON DIFICULTADES DE ACCESO PARA BANCO PARA


PRODUCTO CREDIUNO

Metodología CRISP-DM

Francisco Javier Moreno Romero Código 100182492

Jaime Roa Castilla Código 100013727

Ricardo Mayorga Jaimes Código 100082291

Carlos Arturo Hernández Mosquera Código 100311550

Politécnico Gran colombiano

Minería de datos

Tutor: Fernando Bomba

Colombia

Marzo 07 de 2023

pág. 1
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

TABLA DE CONTENIDO

1 INTRODUCCION 6
2 JUSTIFICACION 7
3 COMPRENSION DEL NEGOCIO 8
3.1 SITUACION ACTUAL 8
3.2 OBJETIVOS DEL NEGOCIO 10
3.2.1 OBJETIVO GENERAL 10
3.2.2 OBJETIVOS ESPECIFICOS 10
3.3 OBJETIVO DE MINERIA DE DATOS 10
3.3.1 OBJETIVO GENERALE 10
3.3.2 OBJETIVOS ESPECIFICOS 10
4 COMPRENSION DE DATOS 11
4.1 RECOLECTAR LOS DATOS INICIALES 11
4.2 DESCRIPCIÓN DE DATOS 12
4.2.1 Variable Nivel Socioeconómico 13
4.2.2 Variable Genero 14
4.2.3 Variable Estado Civil 15
4.2.4 Variable Edad 16
4.2.5 Variable Nivel de escolaridad 17
4.2.6 Variable Municipio 18
4.2.7 Variable Fecha de alta 19
4.2.8 Variable Grupo de cliente 20
4.2.9 Variable Reportado en Centrales de Riesgo 21
4.3 EXPLORACIÓN DE DATOS 22
4.4 VERIFICAR LA CALIDAD DE LOS DATOS 22
5 PREPARACION DE DATOS 23

pág. 2
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

5.1 SELECCIÓN DE DATOS 23


5.2 LIMPIEZA DE DATOS 23
5.3 INTEGRACION DE DATOS 24
5.4 FORMATEO DE DATOS 24
6 MODELADO METODOLOGÍA CRISP-DM 25
6.1 SELECCIÓN DE TÉCNICAS DE MODELADO 25
7 CLASIFICACION DE LA BASE DE DATOS. 26
7.1 SELECCIÓN DE TÉCNICAS DE MODELADO 26
7.2 GENERACIÓN DE UN DISEÑO DE COMPROBACIÓN 26
7.3 GENERACIÓN DEL MODELO 27
7.3.1 Cargue de base de datos a la plataforma kmine 27
7.3.2 Árbol de decisión 34
7.3.3 Regresión lineal 38
7.3.4 Naive bayes 39
7.4 Evaluación del modelo 41
8 EVALUACIÓN E IMLEMENTEACIÓN 42
9 CONCLUSIONES 43
10 BIBLIOGRAFIA ……………………………………………………………………………………………………………………. 44

pág. 3
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

INDICE DE GRAFICOS

GRAFICO 1: VARIABLE NIVEL SOCIOECONÓMICO 13


GRAFICO 2: VARIABLE GENERO 14
GRAFICO 3: VARIABLE ESTADO CIVIL 15
GRAFICO 4:VARIABLE EDAD 16
GRAFICO 5. VARIABLE NIVEL DE ESCOLARIDAD 17
GRAFICO 6: VARIABLE MUNICIPIO 18
GRAFICO 7: VARIABLE FECHA DE ALTA 19
GRAFICO 8:VARIABLE GRUPO CLIENTE 20
GRAFICO 9. REPORTADO EN CENTRALES DE RIESGO 21

INDICE DE TABLAS

TABLA 1: ANÁLISIS ENTIDAD FINANCIERA 9


TABLA 2: DESCRIPCIÓN DE VARIABLES 12
TABLA 3: NIVEL SOCIOECONÓMICO 13
TABLA 4: VARIABLE GENERO 14
TABLA 5: VARIABLE ESTADO CIVIL 15
TABLA 6:VARIABLE EDAD 16
TABLA 7: VARIABLE NIVEL DE ESCOLARIDAD 17
TABLA 8: MUNICIPIO 18
TABLA 9: VARIABLE FECHAD DE ALTA 19
TABLA 10: VARIABLE GRUPO DE CLIENTE 20
TABLA 11: VARIABLE REPORTADO EN CENTRALES DE RIESGO 21
TABLA 12: CLASIFICACIÓN DE VARIABLES 24

pág. 4
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

INDICE DE ILUTRACIONES

ILUSTRACIÓN 1: PASO 1 27
ILUSTRACIÓN 2: PASO 2 28
ILUSTRACIÓN 3: PASO 3 28
ILUSTRACIÓN 4:PASO 4 29
ILUSTRACIÓN 5: PASO 5 29
ILUSTRACIÓN 6:PASO 6 30
ILUSTRACIÓN 7: PASO 7 30
ILUSTRACIÓN 8: PASO 8 31
ILUSTRACIÓN 9: PASO 9 31
ILUSTRACIÓN 10: PASO 10 32
ILUSTRACIÓN 11: PASO 11 33
ILUSTRACIÓN 12:PASO 12 33
ILUSTRACIÓN 13:PASO 13 34
ILUSTRACIÓN 14: PASO 14 34
ILUSTRACIÓN 15:PASO 15 35
ILUSTRACIÓN 16: PASO 16 36
ILUSTRACIÓN 17:PASO 17 36
ILUSTRACIÓN 18:PASO 18 37
ILUSTRACIÓN 19:PASO 19 38
ILUSTRACIÓN 20: PASO 20 39
ILUSTRACIÓN 21:PASO 21 40
ILUSTRACIÓN 22:PASO 22 40
ILUSTRACIÓN 23:PASO 23 41

pág. 5
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

1 INTRODUCCION

En la actualidad gran parte de las empresas presentan inconvenientes en el momento de tomar


decisiones con el objetivo de buscar estrategias competitivas, que permitan aumentar la innovación,
productividad y a su vez generar cambios constantes en el producto, lo que les permita establecer
las necesidades del cliente y satisfacerla al máximo; cuando se tienen grandes cantidades de datos e
información almacenada y guardada de forma incorrecta, lo que genera que muchos de estos datos y
especificaciones no sean utilizados debidamente, con el fin de crear estrategias que contribuyan a la
formación de industrias competitivas e innovadoras. Gracias a herramientas especializadas en la
inteligencia de negocios, se manejan diferentes elementos que permiten incrementar la eficiencia y
de esta forma tener argumentos sustentables para la toma de decisiones.

La minería de datos se ha convertido en una herramienta estratégica para la toma de decisiones de


mercadeo, producción, organización y demás factores en la empresa, que de cierta manera la hacen
más competitiva.

pág. 6
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

2 JUSTIFICACION

Con el presente proyecto, buscamos abordar la necesidad de mantener y organizar la información de


una base de datos correspondiente a una entidad financiera, sin embargo, contener la información de
los clientes es de vital importancia para conocer el segmento de mercado escogido por la compañía
y así establecer las estrategias indicadas para poder llegar a sus ubicaciones geográficas, realizando
la exportación de uno de sus productos estrella en el nicho de mercado adecuado, es decir con
menor gasto operacional y mayor utilidad neta. se va a tomar una muestra de clientes para evaluar y
realizar el seguimiento del proyecto que permita no repetir información y realizar la organización
debida y evaluar los resultados obtenidos.

pág. 7
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

3 COMPRENSION DEL NEGOCIO

El banco, para su producto CREDIUNO tiene su objetivo comercial enfatizado a enviar sus asesores
hasta donde sus clientes se encuentren (En especial lugares apartados y de difícil acceso) y les
brindan atención cercana y personalizada sin salir de casa.

A través de un proceso 100% digital los clientes tendrán rápida aprobación y desembolsos en
máximo 24 horas.

Entregan el dinero rápido sin costos adicionales, pueden unificar sus deudas con el banco,
comprando su cartera con otras entidades financieras a tasas especiales, a personas reportadas en
centrales de riesgo y con ingresos incluso por debajo del SMLVM. Montos hasta de 192 Salarios
Mínimos Mensuales Legales Vigentes y con plazos de gago de hasta 144 meses.

Los clientes o potenciales clientes no tienen que salir de casa para resolver sus inquietudes, el
Banco cuenta con diversos canales para atenderles desde donde se encuentren.

La destinación de los créditos se divide entre remodelar sus hogares, unificar sus deudas, invertir en
sus negocios, asegurar el estudio de sus hijos o nietos y libre inversión.

Sin embargo, la cobertura de zona de clientes y el presupuesto de puesta de créditos en el mercado


para este producto en especial, no se cumplen desde la pandemia, motivo por el cual se pretende
usar la base datos adjunta para alcanzar las proyecciones

3.1 SITUACION ACTUAL

En la entidad financiera se utilizaría la minería de datos para aumentar su base de clientes y posibles
comparadores mejorando su eficiencia y toma de decisiones. La minería de datos les permite
obtener una comprensión más profunda de sus clientes y del mercado, lo que les permite identificar

pág. 8
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

oportunidades de crecimiento y mejorar la efectividad de sus estrategias de marketing y creación de


nuevos productos.

La información con que se cuenta puede ser suficiente para obtener resultados relevantes mediante
el análisis de las bases a través de la minería de datos. En caso contrario la compañía cuenta con la
posibilidad de completar o adquirir nuevas bases de datos para complementar el ejercicio de
análisis.

Además, la minería de datos también está ayudando a los bancos a mejorar la eficiencia
operacional, reducir el riesgo y mejorar la satisfacción del cliente. Por ejemplo, pueden utilizar la
minería de datos para identificar las características de buenos clientes potenciales o patrones en la
conducta incluyendo sus preferencias, comportamientos de gasto y patrones de uso de productos
financieros.

A continuación, análisis de debilidades y oportunidades de la entidad financiera

DEBILIDADES OPORTUNIDADES

No se cuenta con información centralizada de los


usuarios y clientes de la compañía que permita una Recurso humano suficiente destinado para
búsqueda fácil, ágil y certera al evitar la mejorar la analítica de los datos.
redundancia.
La herramienta de información con que se cuenta
Existe un Plan de desarrollo para mejorar los
no cubre las necesidades para la correcta recepción
servicios de la herramienta en el área comercial.
y tratamiento de los datos.
Al tratarse de un área nueva aún carece de Se cuenta con Políticas de compañía para el
conocimiento para la implementación de fortalecimiento de las áreas dedicadas al
estrategias de comercio digital. comercio digital.
La base de datos con la que cuenta el área sobre Se tiene la posibilidad de trabajar bases de datos
usuarios y clientes actuales no brinda los datos externas de la compañía, construyendo o
suficientes para poder realizar campañas de comprando bases legal y debidamente

pág. 9
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

marketing efectivas constituidas


Tabla 1: Análisis entidad financiera

3.2 OBJETIVOS DEL NEGOCIO

3.2.1 OBJETIVO GENERAL


✔ Aumentar la suscripción de nuevos clientes para el producto CREDIUNO en un 15% en la
entidad financiera para el año 2023, a través del análisis de datos de una matriz
suministrada por el SISBEN, generada en la recopilación de información a pacientes que
diligencian sus datos en el momento de reclamar sus medicamentos a nivel Nacional. Lo
anterior con el fin de contactar por diferentes medios a los clientes potenciales y
presentarles un portafolio financiero para cumplir las proyecciones comerciales,
inicialmente de captación.

3.2.2 OBJETIVOS ESPECIFICOS


✔ Detección oportunidades upselling para ofrecer productos financieros adicionales a sus
clientes que puedan ser de interés para ellos.
✔ Mejora en la eficiencia de la adquisición de clientes
✔ Conocimiento del cliente para obtener una comprensión más profunda de sus necesidades,
incluyendo sus preferencias, comportamientos de gasto y patrones de uso de productos
financieros.
✔ Predecir los clientes más dispuestos a solicitar un crédito con un 60% de precisión.
✔ Identificar los clientes de mayor valor en función de los montos de créditos efectivos en los
últimos 6 meses.
✔ Identificar variables que se tienen y variables requeridas para la base de datos

3.3 OBJETIVO DE MINERIA DE DATOS

pág. 10
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

3.3.1 OBJETIVO GENERALE


✔ Crear un modelo predictivo de los potenciales clientes para determinar la probabilidad de
adquisición del producto CREDIUNO en la entidad financiera, con la clasificación de datos
incluyendo sus ingresos económicos y patrones de uso de productos financieros lo anterior
con el fin de identificar sus ubicaciones geográficas y de tal manera coordinar las correrías
de las unidades móviles para llegar a los cliente de manera eficiente.

3.3.2 OBJETIVOS ESPECIFICOS


✔ Identificar variables que influyen en la selección de clientes con mayor favorabilidad para
el banco en asignación del producto y así clasificar dichos clientes y utilizar su ubicación
para las correrías comerciales.
✔ Determinar el modelo que mejor pronostique las características y patrones de uso de
productos financieros.
✔ Predicción de la propensión de adquisición con modelos de análisis predictivo para
identificar los clientes potenciales a comprar o suscribirse en la entidad financiera

4 COMPRENSION DE DATOS

Esta fase está compuesta por la recolección de los datos del proyecto con el fin de conocer la
problemática del mismo, identificando las distintas hipótesis de solución.

4.1 RECOLECTAR LOS DATOS INICIALES

Es la adecuación de datos iniciales y su adecuación para el procesamiento, para la elaboración de


este proyecto trabajaremos con una base datos donde contamos con más de 500 registros de clientes

pág. 11
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

4.2 DESCRIPCIÓN DE DATOS

Descripción de los datos obtenidos. Con la base de datos podemos visualizar los diferentes
aspectos:

CLASIFICACION DE VARIABLES

ITEM VARIABLE CATEGORIA / UNIDAD TIPO ESCALA

1 NIVEL SOCIOECONOMICO Bajo / Medio / Alto Cualitativa Ordinal

2 GENERO Femenino / Masculino Cualitativa Nominal

3 ESTADO CIVIL Soltero / Casado / Unión Libre Cualitativa Nominal

4 EDAD (Años) 18-24 / 25-35 / 36-45 / 46-55 / 56-65 / +66 Cualitativa Ordinal

5 NIVEL DE ESCOLARIDAD Primaria / Bachillerato / Profesional Cualitativa Ordinal

FECHA DE NACIMIENTO
6 1970-1980 / 1981-1990 / 1991-2000 Cualitativa Ordinal
(Año)

7 MUNICIPIO Departamento Cualitativa Nominal

8 FECHA DE ALTA (Año) 2005-2010 / 2011-2015 / 2016-2021 Cualitativa Ordinal

9 GRUPO DE CLIENTES A/B/C/D/E Cualitativa Nominal

REPORTADO EN
10 N-S Cualitativa Nominal
CENTRALES DE RIESGO

11 RANGO DE SMLMV Pesos Cuantitativo Continua

Tabla 2: Descripción de variables

pág. 12
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

A continuación, se realiza el análisis de las variables

4.2.1 Variable Nivel Socioeconómico


El nivel bajo con un 49% puede tener un impacto negativo al momento de adquirir algún producto
en la entidad financiera debido a que el poder adquisitivo es poco

NSE % Total

Bajo 32,03% 320

Medio 67,97% 679

Total general 100,00% 999

Tabla 3: Nivel Socioeconómico

pág. 13
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

Nivel Socioeconomico

32% Bajo
Medio

68%

Grafico 1: Variable Nivel Socioeconómico

4.2.2 Variable Genero


Se observa que la población el 58,36% son mujeres y los hombres en menor proporción, pero no
muy alejado siendo casi equitativo

Variable Femenino Masculino Total general

% 68,17% 31,83% 100,00%

Total 681 318 999

pág. 14
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

Tabla 4: Variable Genero

Genero

32% Femenino
Masculino

68%

Grafico 2: Variable Genero

pág. 15
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

4.2.3 Variable Estado Civil


Se identifica que el 53% de la población es casado y los otros dos ítem son equivalentes, siendo
pasivo para poder lograr el objetivo de la compañía

Variable % Total

Casado 53,25% 532

Unión Libre 22,72% 227

Soltero 24,02% 240

Total general 100,00% 999

pág. 16
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

Tabla 5: Variable estado civil

Estado Civil

24% Casado
Union Libre
Soltero
53%

23%

Grafico 3: Variable Estado Civil

4.2.4 Variable Edad


Se observa que las edades de la base de datos, podemos decir que son equivalentes entre los grupos
de en un promedio en el porcentaje más alto es de 49 años

Variable 25-34 35-44 45-54 55-64 65-74 75-84 Total

% 17,22% 18,02 18,92% 14,91 15,22% 15,72 100,00%


% % %

pág. 17
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

Promedio de Edad 30 40 49 60 69 79 54

Total 172 180 189 149 152 157 999

Tabla 6:Variable Edad

Edad
Total Promedio de Edad %
200 18.92% 20%

18.02%
180 17.22% 18%

15.72%
160 14.91% 15.22% 16%

140 14%

120 12%

100 10%

80 8%

60 6%

40 4%

20 2%

30 40 49 60 69 79
0 0%

25-34 35-44 45-54 55-64 65-74 75-84

Grafico 4:Variable Edad

4.2.5 Variable Nivel de escolaridad


Se entiende los niveles de escolaridad el 35% son profesionales, observando un panorama positivo
para la compañía

Variable % Total

pág. 18
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

Bachillerato 32,93% 329

Primaria 31,73% 317

Profesional 35,34% 353

Total general 100,00% 999

Tabla 7: Variable Nivel de Escolaridad

Nivel de escolaridad
Total %

360 36%

35.34%

350 35%

340 34%

32.93%
330 33%

320 31.73% 32%

310 31%

300 30%

290 29%

Bachillerato Primaria Profecional

Grafico 5. Variable nivel de escolaridad

4.2.6 Variable Municipio


Se observa que la mayor cantidad de población es de Bogotá con un 26% y la menor son de
Bucaramanga con un 8%

pág. 19
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

Variable % Total

Armenia 8,41% 84

Bogotá 26,23% 262

Bucaramanga 8,11% 81

Cali 15,12% 151

Cartagena 8,41% 84

Cúcuta 17,12% 171

Medellín 16,62% 166

Total general 100,00% 999

pág. 20
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

Tabla 8: Municipio

Variable Municipio
Total %

Medellin 17% 166

Cucuta 17% 171

Cartagena 8% 84

Cali 15% 151

Bucaramanga 8% 81

Bogota 26% 262

Armenia 8% 84

Grafico 6: Variable municipio

4.2.7 Variable Fecha de alta


Se observa que en todos los meses hay un porcentaje similar de altas en la población

Variable % Total

ene 9,21% 92

feb 8,31% 83

mar 7,81% 78

abr 9,41% 94

may 8,61% 86

jun 7,21% 72

pág. 21
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

jul 8,61% 86

ago 8,71% 87

sep 7,11% 71

oct 9,11% 91

nov 8,01% 80

dic 7,91% 79

Total general 100,00% 999

Tabla 9: Variable Fechad de Alta

Fecha de alta
Total %
100 9% 9% 9% 10%

9% 9% 9%
90 8% 8%
8% 8% 9%

80 7% 7% 8%

70 7%

60 6%

50 5%

40 4%

30 3%

20 2%

10 1%

0 0%

ene feb mar abr may jun jul ago sep oct nov dic

Grafico 7: Variable Fecha de Alta

4.2.8 Variable Grupo de cliente


Se puede afirmar que la población tiene el mismo nivel de ingresos

Variable % Total

pág. 22
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

A 20,82% 208

B 19,02% 190

C 19,02% 190

D 20,32% 203

E 20,82% 208

Total general 100,00% 999

Tabla 10: Variable grupo de cliente

Grupo de cliente
Total %
210 21% 21% 2 1%

205 20%

200 2 0%

195
19% 19%
190 1 9%

185

180 1 8%

A B C D E

Grafico 8:Variable Grupo Cliente

pág. 23
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

4.2.9 Variable Reportado en Centrales de Riesgo


Los reportados en las centrales son equivalentes

Variable Total %

N 497 49,75%

S 502 50,25%

Total general 999 100,00%

Tabla 11: Variable Reportado en Centrales de Riesgo

Reportado en Centrales de Riesgo


Total %
5 0 .3 0 %

50.3% 503

5 0 .2 0 %
502

5 0 .1 0 %
501

5 0 .0 0 %
500

4 9 .9 0 %
499

4 9 .8 0 %

49.7% 498

4 9 .7 0 %
497

4 9 .6 0 %
496

4 9 .5 0 %
495

4 9 .4 0 %
494
N S

Grafico 9. Reportado en centrales de riesgo

pág. 24
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

4.3 EXPLORACIÓN DE DATOS

A través de la diferente información que podemos visualizar en la base de datos, se puede generar la
diferente exploración de datos, esto implica la aplicación de pruebas de estadísticas básicas las
cuales revelan las propiedades de los datos permitiendo determinar la consistencia y la completitud
de los datos

4.4 VERIFICAR LA CALIDAD DE LOS DATOS

Luego de revisar la base de datos podemos afirmar que las bases de datos son completas y cumplen
con el objetivo del proyecto, el dato no presenta inconsistencias o errores notables, ni valores fuera
de rango por lo que no hay riesgo de ruido en el proceso de minería de datos.

pág. 25
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

5 PREPARACION DE DATOS

En esta fase es condición indispensable la realización y comprensión comercial y de los datos en sí,
ya que de esta manera se puede reducir de manera significativa los gastos indirectos relacionados.
Una vez que tengamos toda la información completa de la Base de Datos y realizado los
correspondientes análisis y validaciones necesarias para asegurar la calidad de los mismos, a través
de la fase anterior de comprensión de los mismos, comenzaremos con la etapa de preparación de los
datos para adaptarlos a las técnicas de Data Mining que se utilizaran posteriormente.

En esta etapa trabajaremos temas generales de selección de datos, como limpieza de la información,
generación de variables adicionales, cambios en los formatos e integración de las diversas fuentes
de datos.

5.1 SELECCIÓN DE DATOS


Se seleccionó de la lista de 10 atributos como se especifica en la Tabla Ilustración 6: Selección de
datos Los registros seleccionados fueron:

Selección de elementos: El proyecto se limitará a 999 registros de la base de datos que se


selecciono

5.2 LIMPIEZA DE DATOS


Para filtrar los datos que no sean relevantes para poder cumplir nuestro objetivo se analizó cada
variable para saber cuánto era el aporte y se identificaron las siguientes que no aportan información
además de ser infamativa y fueron las siguientes ID clientes, Fecha de Alta, fecha de nacimiento
y correo electrónico, número de teléfono, esto es muy importante y hay que realizarlo
regularmente para identificar posibles variables que no estén aportando en el proyecto.

pág. 26
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

5.3 INTEGRACION DE DATOS


En este punto nos permite agrupar tablas o campos que se encuentren relacionadas, entre sí para
hacer más fácil la comprensión de la misma. Ademas podemos concluir que se podrían integrar los
siguientes datos con otras bases de datos existentes en la compañía como lo son:

Edad / Nivel socioeconómico / Grupo de clientes / Reporte en centrales de riesgo

5.4 FORMATEO DE DATOS


En la siguiente tabla se muestra las variables que se utilizaran después de realizado el proceso de
filtrado desde la tabla inicial

CLASIFICACION DE VARIABLES

ITEM VARIABLE CATEGORIA / UNIDAD ESCALA

1 NIVEL SOCIOECONOMICO Bajo / Medio / Alto Ordinal

2 GENERO Femenino / Masculino Nominal

3 ESTADO CIVIL Soltero / Casado / Unión Libre Nominal

4 EDAD (Años) 18-24 / 25-35 / 36-45 / 46-55 / 56-65 / +66 Ordinal

5 NIVEL DE ESCOLARIDAD Primaria / Bachillerato / Profesional Ordinal

7 MUNICIPIO Departamento Nominal

8 GRUPO DE CLIENTES A/B/C/D/E Nominal

REPORTADO EN CENTRALES
9 N-S Nominal
DE RIESGO

Tabla 12: Clasificación de Variables

pág. 27
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

6 MODELADO METODOLOGÍA CRISP-DM

6.1 SELECCIÓN DE TÉCNICAS DE MODELADO

La base de datos utilizada para nuestro proyecto, es una data con información puntual de usuarios
adscritos al sistema subsidiado de salud en el país, la cual es recaudada por las diferentes IPS de
atención primaria y droguerías de la red que suministran los medicamentos dentro del plan, esta
data, es categorizada y consolidada en el área de Datawerehouse del ADES, con cobertura en todo
el territorio nacional. Data que posteriormente es valorada y clasificada de acuerdo a su ubicación
geográfica, nivel socioeconómico e ingresos mensuales o según el puntaje SISBEN con el cual esté
calificado el usuario en sistema.

El proyecto busca clasificar y definir los municipios donde se ubiquen la mayor cantidad de
potenciales clientes de los productos de crédito que maneja el banco dentro de su portafolio, y con
base en ello, planear la operación y correrías de las unidades móviles de la compañía financiera,
encargada de hacer aperturas y toma de datos para la evaluación de asignación de crédito, por lo
anterior y su relevancia se denominara la variable Y, la cual depende de las variables X que en este
caso son, el nivel socioeconómico, su reporte o no en las centrales de riesgo, la categoría, la
jerarquía y el tipo de registro.

Para el proyecto se decidió utilizar la herramienta de KNIME, gracias a su menú amable con el
usuario, y su facilidad de manejo.

pág. 28
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

7 CLASIFICACION DE LA BASE DE DATOS.

7.1 SELECCIÓN DE TÉCNICAS DE MODELADO

Se realiza la preparación de la base de datos, asegurando la veracidad de la información, la calidad


de los datos, evitando espacios nulos y procurando nombrar las columnas de una forma debida. Se
establece en la base de datos cual criterio se manejará como variable Y. la cual será la variable
dependiente de las variables X. y con esto llegar a predecir cual será el perfil mínimo que tendrá un
cliente según la plataforma para aceptar su solicitud de crédito.

7.2 GENERACIÓN DE UN DISEÑO DE COMPROBACIÓN

A través de una tabla dinámica aplicada a la base, se prueban cada uno de los criterios recorridos en
el análisis.

pág. 29
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

7.3 GENERACIÓN DEL MODELO

7.3.1 Cargue de base de datos a la plataforma kmine


Abrimos la plataforma de KMINE y damos click en la parte superior derecha en FILE seguido de
NEW.

Ilustración 1: Paso 1

Seleccionamos NEW KNIME WORKFLOW.

pág. 30
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

Ilustración 2: Paso 2

Escribimos al nombre con el cual vamos a nombrar el proyecto y la localización del archivo en el
PC.

Ilustración 3: Paso 3

pág. 31
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

Y por último se da clic a FINISH.

Nos aparece el cuerpo del proyecto en blanco, y en la parte inferior izquierda en NODE
REPOSITORY, se seleccionan los nodos que utilizaremos para nuestro proyecto.

Ilustración 4:Paso 4

Vamos a traer el nodo de lector de documento de Excel, ya que es el formato en

el que tenemos la base de datos.

pág. 32
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

Ilustración 5: Paso 5

Cargamos el documento de Excel, el cual nos muestra, que empezamos con una base de datos. De
24155 datos y 31 columnas.

Ahora agregamos el nodo de filtrar columnas y lo enlazamos con el anterior de Excel reader.

Ilustración 6:Paso 6

En este nodo filtramos las columnas que necesitamos y observamos la variable dependiente.

pág. 33
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

Ilustración 7: Paso 7

Luego seleccionamos el nodo de Normalizer, el cual lo conectaremos con el nodo de filtrar


columnas.

Ilustración 8: Paso 8

pág. 34
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

En este nodo normalizamos las columnas que poseen un formato diferente, en este caso,
normalizamos la columna de número de tarjetas de crédito y salario promedio, con el fin de contar
con el mismo formato de tiempo, donde le adjudicamos un máximo y un mínimo.

Ilustración 1: Paso 9

pág. 35
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

Ilustración 10: Paso 10

Después de normalizar la columna, se selecciona el nodo de partitioning, con el fin de destinar un


porcentaje de datos a la técnica predictiva de clasificación y a al otro porcentaje de datos lo
utilizamos para unirlo a la predicción de la técnica predictiva en este caso

pág. 36
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

Ilustración 11: Paso 11

Allí seleccionamos el porcentaje que entrara al nodo de la técnica de clasificación, en nuestro caso
escogimos el 70%.

pág. 37
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

Ilustración 12:Paso 12

En esta imagen observamos que 699 datos saldrán por la parte de arriba) el cual corresponden al
70% de los datos) con 8 columnas, y por la parte de abajo salon 300 daros, (los cuales pertenecen al
30% de datos faltantes).

Ilustración 13:Paso 13

pág. 38
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

7.3.2 Árbol de decisión


Para aplicar esta técnica, vamos a seleccionar el nodo de árbol de decisión del repositorio y lo
vamos a conectar con la salida del 70% de los datos del nodo

Ilustración 14: Paso 14

Allí podemos observar, el cual para nuestro análisis se despliega de la siguiente forma.

pág. 39
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

En el cual, con el primer parámetro de tipo de registro observamos que, el impacto que predomina y
por consiguientes clientes con alta favorabilidad para el banco de adjudicar su producto, son
aquellos con ingresos mensuales por encima de los $900.000. Así mismo observamos que para los
potenciales clientes con ingresos menores a $900.000 tienen alta favorabilidad de puesta de
producto mientras no estén reportados en centrales de riesgo. Con esta información podemos filtrar
los clientes en la base que cumplan con estas características para consolidar su ubicación. Las
variables que son relevantes para esta regla de decisión son entonces “Ingresos Mensuales” y
“Reportado en Centrales de Riesgo S/N” correspondientemente se comporta el ranking de estas
variables.

Para seguir con el proceso de predicción, ahora vamos a buscar el nodo de predictor de árbol de
decisión, y vamos a unir parte superior del nodo con la parte azul del nodo de árbol de decisión, y la
fecha de abajo la vamos a unir con el 30% de casos sobrantes del nodo de partitioning.

4) Análisis e interpretación de acuerdo a los objetivos planteados

Ilustración 16: Paso 16

Para obtener la predicción, vamos a unir el predictor de arbol de decisión con el nodo de scorer.

pág. 40
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

Ilustración 17:Paso 17

Allí desplegamos la matriz de confusión, y observamos que la predicción de ocurrencia que lleguen
casos de impacto es de 100% con un porcentaje de error del 0%.

pág. 41
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

Ilustración 18:Paso 18

7.3.3 Regresión lineal


Vamos al repositorio y escogemos el nodo do regresión logistica, y lo unimos con la salida del 70%
de los datos del nodo de partitioning.

pág. 42
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

Ilustración 19:Paso 19

En este nodo, la plataforma KNIME, realiza la respectiva progresión logistica, allí vamos a
seleccionar el nodo de predictor de regresión logistica, y lo vamos a unir en la parte de la salida azul
con la salida del nodo de regresión lineal, y en la parte de abajo lo vamos a unir con el 30% de los
datos que salen del nodo de partitioning, y por último lo unimos con el nodo de scorer, para obtener
predicción.

Ilustración 20: Paso 20

pág. 43
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

Según la matriz de confusión de la regresión lineal, afirma en una ocurrencia del 95.333% que los
casos que llegaran son de impacto con un error de ocurrencia de un 4,667%.

7.3.4 Naive bayes


Este algoritmo, proporciona una manera fácil de construir modelos con un comportamiento muy
bueno debido a su simplicidad.

Para ejecutario vamos al repositorio de la plataforma y vamos a seleccionar el nodo de Naive


Bayes, y lo vamos a unir con la salida de datos del nodo de partitionig del 70%.

Ilustración 21:Paso 21

pág. 44
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

Este nodo lo vamos a unir con el nodo de predicción, el cual es el predictor de Naive Bayes, el cual
en la parte superior estará unido con la salida de datos del Naive Bayes Learnes, y en la parte de
abajo lo vamos a unir con el 30% de datos que salen del nodo de partitioning, y lo vamos a unir con
un nodo de scorer.

Ilustración 22:Paso 22

Por último, con la matriz de confusión del Naive Bayes podemos observar que la posibilidad de
ocurrencia, que prediga la llegada de casos de impacto es de 98.333% con un porcentaje de error del
1.667%.

pág. 45
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

Para terminar, podemos observar todo el proyecto construido de la siguiente forma.

Ilustración 23:Paso 23

7.4 Evaluación del modelo


Para evaluar el árbol decisión, se identifico las variables del problema, y se enumeraron todos los
factores, luego se procedió a priorizar los criterios de decisión, y se identifico la importancia de
cada uno, se observaron las variables de una forma ordenada y gráfica, la cual nos lleva a una mejor
interpretación de los datos, al observar el árbol de decisión se profundiza en los datos mas
convenientes y relevantes y al final evaluando la efectividad de la decisión se toma como mejor
modelo el árbol de decisión para la clasificación ya que el nivel de ocurrencia es de 100% mayor al
que se muestra en la regresión lineal, y Naives Bayes.

pág. 46
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

8 EVALUACIÓN E IMPLEMENTACIÓN DEL MODELO

pág. 47
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

9 CONCLUSIONES

● Uno de los principales aprendizajes de este trabajo corresponde a la determinación de la


integración de cada una de las etapas de la metodología mencionada CRISP-DM
● A pesar de la intención del Banco a través de su producto CREDIUNO de apoyar a la
población con difícil acceso a financiación bancaria, evidenciamos en el árbol de decisión
que solo quienes cumplen con las características definidas por la matriz tienen alta
favorabilidad para el banco al convertirlos en clientes.
● La clasificación de los usuarios registrados en la base de datos será una herramienta valiosa
en la programación de las rutas comerciales a nivel nacional, haciendo más eficaz el
ejercicio.
● El volumen de clientes potenciales en determinada zona, puede ser la razón válida de
apertura de nuevas sucursales.

pág. 48
FACULTAD DE NEGOCIOS,
GESTION Y SOSTENIBILIDAD

MINERIA DE DATOS

10 BIBLIOGRAFIA

https://www.iic.uam.es/innovacion/metodologia-crisp-dm-ciencia-de-datos/

chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/http://www.oldemarrodriguez.com/
yahoo_site_admin/assets/docs/Documento_CRISP-DM.2385037

pág. 49

También podría gustarte