Está en la página 1de 25

1

Proyecto De Investigación Formativa


Modelado en Minería de Datos
Metodología CRISP-DM

Jeferson Stiven Guzmán Guzmán COD 100212135


Juan Camilo Pineda COD
Oscar Eduardo Vargas Polo COD 100112069

EQUIPO FÉNIX

Presentado a:
SANDRA LUENGAS APONTE

Institución Universitaria Politécnico Grancolombiano


Posgrado
Bogotá, D.C.
Diciembre 6 de 2022

Contenido

COMPRESIÓN DEL NEGOCIO..........................................................................................4


2

Objetivos Gerenciales............................................................................................................4

Objetivo administrativo..........................................................................................................4

Objetivo comercial.................................................................................................................4

Indicadores.............................................................................................................................5

Areas afectadas por la minería de datos.................................................................................5

Planteamiento del problema...................................................................................................5

Evaluación..............................................................................................................................6

Alcance de la MD...................................................................................................................6

PLAN PROYECTO DE MD.................................................................................................6

Recolección inicial.............................................................................................................7

Descripción........................................................................................................................7

Exploración........................................................................................................................8

Selección............................................................................................................................9

Exclusión de datos..............................................................................................................9

Preparación de los datos.....................................................................................................9

Ilustración 1..................................................................................................................10

Ilustración 2..................................................................................................................10

Ilustración 3..................................................................................................................11

Ilustración 4..................................................................................................................12

Ilustración 5..................................................................................................................13

Ilustración 6..................................................................................................................13

Ilustración 7..................................................................................................................13
3

Ilustración 8..................................................................................................................14

Ilustración 9..................................................................................................................15

Ilustración 10................................................................................................................15

Ilustración 11................................................................................................................16

Ilustración 12................................................................................................................17

Ilustración 17................................................................................................................20

Ilustración 18................................................................................................................21

Ilustración 19................................................................................................................21

Ilustración 20................................................................................................................22

EVALUACION....................................................................................................................23

Determinar próximos pasos..................................................................................................24

DISTRIBUCION.................................................................¡Error! Marcador no definido.

Las Fuentes de Datos...........................................................¡Error! Marcador no definido.

La gobernabilidad del Modelo.............................................¡Error! Marcador no definido.

Paso a paso de la integración del modelo con sus sistemas:¡Error! Marcador no definido.

¿Cómo se va medir el rendimiento y validez del modelo?. .¡Error! Marcador no definido.

¿Cómo se va terminar, en qué momento el modelo ya no es viable seguirlo aplicando,

porque ya expiró? ¿Qué pasará cuando el modelo expire?.......¡Error! Marcador no definido.

CONCLUSION....................................................................................................................25

BIBLIOGRAFIA..................................................................................................................26
4

COMPRESIÓN DEL NEGOCIO

Cosesam es una corporación que ejerce la vocería y defensa de las secretarias de salud a
nivel nacional, promoviendo con humanismo, calidad y equidad la integración
interinstitucional e intersectorial, mediante el intercambio de experiencias y alianzas
estratégicas que faciliten e impulsen el fortalecimiento de la capacidad de gestión de los
afiliados a COSESAM, garantizando el cumplimiento de sus derechos y la protección de la
salud a la población colombiana. COSESAM ofrece talleres, foros, seminarios, apoyo
logístico en conversatorios convocatoria de eventos de formación a los trabajadores de todas
las jerarquías al interior de la empresa y realiza publicaciones de temas de interés para el
sector salud en diferentes medios de comunicación y difusión.

Áreas dentro de la Empresa

Objetivos Gerenciales

 Mejorar la conectividad de nuestra empresa principal con nuestros areas rurales,


para así lograr, que nuestros servicios cumplan con estándares y normas que
ayuden a mejorar el resultado final del servicio entregado.
 Identificar los clientes que han dejado de adquirir nuestros servicios en la
trayectoria de la empresa y poder brindarles un incentivo con el fin de lograr
restablecer una nueva relacion comercial.

Objetivo administrativo

 Proporcionar un servicio más eficiente en cuanto los tiempos de comunicación,


calidad de servicio y una relacion más directa con nuestros clientes

Objetivo comercial

 Buscar nuevos clientes que sean constantes y que permitan generar más
ingresos a la compañía.

Indicadores

Los indicadores establecidos para el rendimiento de la minería de datos son:


5

 Porcentajes de fallas de conectividad entre empresa matriz y los clientes rurales


 Porcentaje de nuevos clientes perdidos
 Tiempo de entrega acordados fecha orden.
 Porcentaje de nuevos clientes por cada uno de nuestros asociados en las areas
rurales.

Areas afectadas por la minería de datos

Teniendo en cuenta los objetivos planteados la afectación que buscamos es de carácter


positivo, ya que se lograra beneficiar el sector comercial, en cuanto a la mejora de
conectividad con los nuevos clientes en las zonas rurales, generando así un mejor manejo
administrativo en cuanto a los tiempo- entrega y así poder realizar una base de datos más
eficiente para la resolución de los problemas presentados.

Planteamiento del problema

Identificar la afectación que tiene la mala conectividad respecto a la perdida de clientes en


los últimos tres años:

Debemos tener en cuenta que en estos momentos la compañía no cuenta con una solución
efectiva para hacerle frente al problema, lo cual no es posible determinar las diferentes
ventajas o desventajas que se pueden llegar a presentar. Por tal motivo, se sugiere realizar una
evaluación y utilizar la metodología de minería de datos, con el fin de poder identificar el
motivo por el cual se está perdiendo cliente por la mala conectividad en el área seleccionado y
una vez identificadas las causas poder crear estrategias que le permita a la compañía el
desarrollo de nuevas estrategias para mejorar la comunicación con los clientes perdidos y
atraer a nuevos a la compañía.

Igualmente, a lo largo de los últimos años se ha evidenciado que varios clientes han dejado
de adquirir productos por la mala conectividad que han tenido con la empresa matriz. Por lo
cual se pretende que, con la implementación de la metodología de minería de datos, se logre
identificar los clientes perdidos y las causas exactas. De esta manera se logre crear estrategias
comerciales y de marketing que permitan recuperar a los clientes y lograra atacar a nuevos
nichos de mercados.

Desventajas en la implementación de MD son:

 Los riesgos que traen la utilización de nuevo software.


6

 Capacitaciones para nuestros empleados


 Falta de adaptación por parte de nuestro personal

Evaluación

Se cuenta con información en diferentes bases de datos, la cual cuenta con datos de los
últimos años donde se evidencian diferentes características que nos permitirá realizar una
evaluación detallada para cumplir con el objetivo planteado y establecer posibles soluciones
al problema, dando paso a que el equipo de trabajo pondrá en práctica los conocimientos
adquiridos para brindar distintas soluciones a la compañía.

Alcance de la MD

La proyección de la minería de datos es extraer la información de los clientes en cuanto a


perfiles de la empresa, si se sigue manteniendo en el mercado, si ha buscado algún otro
proveedor. Generando así, que se logre realizar una estrategia de mercadeo que ayude a
atracción de los clientes a nuestra compañía.

Finalmente se buscará unificar una única base de datos y convertirla en conocimiento de


los clientes afectados, los que aún se mantienen y los nuevos clientes. Dando paso a un
seguimiento donde se busque integrar toda la información relevante para poder realizar el plan
estratégico de COSESAM.

PLAN PROYECTO DE MD

Comprensión de los datos

En esta etapa realizaremos la recolección y análisis previo de los datos para establecer el
conjunto de recursos que nos brindara solución a la problemática planteada. De esta manera
lograremos identificar si la data suministrada por la empresa es suficiente para la obtención de
las respuestas o si por el contrario se debe solicitar alguna información complementaria.

Recolección inicial

La data inicial entregada por la compañía cosesam contaba con aproximadamente 800
registros por año y trazabilidad de los últimos 3 años. La información relacionada en las
tablas iba en función de los beneficiarios obtenidos en este periodo y el tipo de educación que
deseaban adquirir.
7

Teniendo en cuenta lo anterior, se realizó la validación general de los datos y se logró


identificar que la base de datos cumplía con toda la información relevante que nos permitiría
perfilar de manera adecuada los terceros involucrados en cada área.

Descripción

Debido al uso de esta base de datos fue necesario evaluar cada uno de los datos
proporcionados y luego determinar la manera analizarlos para su debido desarrollo.

La información que contiene esta tabla a nivel de columnas es la siguiente:

 Fecha de registro
 Tipo de identificación
 Cedula
 Nombre
 Primer apellido
 Segundo apellido
 Genero
 Estrato
 Fecha de nacimiento
 Edad
 Numero de celular
 Correo
 Departamento de residencia
 Municipio de residencia
 Barrio
 Dirección
 Caracterización del beneficiario
 Nit de la empresa
 Nombre de la empresa
 Dirección de la empresa
 Teléfono de la empresa
 Persona de contacto
 Tamaño de la empresa
 Sector económico
8

 Clasificación de la empresa
 Nombre del curso al cual quiere inscribirse
 Departamento al cual quiere inscribirse

Exploración

En este aspecto tenemos que tener en cuenta que para enlazar las diferentes tablas es
necesario hacer a través de un campo obligatorio el cual el número de identificación (cedula).

Al realizar el cruce de las bases podemos identificar que la unión de los campos de cada
tabla nos permite establecer la manera en la cual el beneficiario se ha relacionado con el tipo
de curso o acción de formación que ofrece la compañía y evidenciar su participación en los
diferentes años.

Selección

En esta fase se realizó de acuerdo con su nivel de impacto en el proceso, por el cual, se
dividieron 3 subgrupos que nos permitieron garantizar el cumplimiento del objetivo
planteado.

Nivel 1: sobre la tabla de beneficiarios se establece el número de orden de registro, su


información principal, departamento y empresa en la que labora.

Nivel 2: los datos secundarios aportan al perfilamiento del beneficiario, pero que no son
restrictivos ocupan esta distinción. Los campos de segundo nivel son su edad, dirección.
Acción de formación.

Nivel 3: los datos de tercer nivel son los que aportan en menor nivel al cumplimiento del
objetivo en este caso el departamento donde realizara la acción de formación, el tamaño de la
empresa y la cantidad de personas que laboran en esta misma.

Exclusión de datos

En esta fase los datos que fueron excluidos son aquellos que no generan ningún valor al
ejercicio a realizar, para el caso de nuestra compañía solo encontramos la fecha de registro, ya
9

que es una columna que no enlaza ninguna información relevante y se usa para efectos
netamente de control. La empresa nos entrega archivo en Excel con Datos históricos de
beneficiarios de los últimos años:

Preparación de los datos

Ilustración 1

Extracción para trabajar de archivo base entregada:


10

Ilustración 2

Se logra crear el proyecto donde el programa identifica 2054 registros y se van a visualizar
en bloques de a 20:

Ilustración 3

Hallazgos en la base de datos seleccionada:

 No todos los nombres tienen tildes.


 Mayúsculas y minúsculas.
 Numero de celular en formato erróneo.
 Datos sin puntos.

COLUMNA NOMBRE DE BENEFICIARIO


11

Ilustración 4

Registro como Adriana aparece doble vez, se revisa si es la misma persona, pero no porque
posee diferente apellido y diferente cedula.
12

Ilustración 5

Ilustración 6

Se identifica un registro de 0 en la edad de uno de los beneficiarios

Ilustración 7

Se realiza la corrección de los datos erróneos en la edad:


13

Ilustración 8

COLUMNA DE NOMBRE DE BENEFICIARIO: se identificaron 20 grupos que


presentan información con diferencias cada uno de ellos con sus registros identificados.
14

Ilustración 9

Columna de nombre de la empresa: se identificaron 13 grupos que presentan información


con diferencias cada uno de ellos con sus registros identificados.

Ilustración 10

Modificaciones:

Se realizan un total de 15 operaciones en la base:


15

Ilustración 11

La base modificada queda con un total de 2000 registros y 54 registros depurados


procedemos a eliminar columnas vacías.
16

Ilustración 12

Se realiza la última revisión de los valores nulos y se desarrolla la corrección pertinente.

Ilustración 13
17

Finalmente se realiza la exportación a un SQL para su debido desarrollo y aumento en la


base de datos con una correcta recolección de datos en pro de la compañía.

MODELADO EN KMINE

Ilustración 14

Se realiza el modelado en el programa de kmine, donde se elabora el cargue del nudo de


xls de la base de datos correspondiente a la evaluación.

Il
ustración 15
18

En esta fase del proceso se hace la revisión de que todo el cargue de la base de datos se
diera de forma efectiva para su ejecución.

Ilustración 16

Se agrega un nudo de match fórmula para realizar la verificación del año de nacimiento
para así lograr verificar que nuestros beneficiarios este inscribiendo sus datos correctamente
dando paso a tener una base limpia y asertiva.
19

Ilustración 17

Se realiza el traslado a un archivo csl con el nudo de math para la correcta verificación de
los datos proporcionados.

ARBOL DE DECISION

Para el desarrollo del proyecto y alcanzar los objetivos propuestos por la empresa de
Cosesam se realizó un modelado de árbol de decisión para lograr determinar la oportunidad
20

en adquirir nuevos beneficiarios para la compañía.

Ilustración 18

Se desarrolla el modelado de oportunidades según cada departamento para lograr


determinar que departamentos se encuentran mejor ubicados y atraídos por los beneficiarios al
momento de adquirir una de nuestras acciones de formación.

Ilustración 19

A continuación, se evidencia el modelado del árbol de decisiones


21

Ilustración 20

Ilustración 21

En esta última ilustración se evidencia la oportunidad de clientes según su fecha de inicio


para la atracción de nuevas acciones de formación.
22

EVALUACION

Evaluar los resultados

En esta fase procedemos a evaluar lo realizado en el modelo, teniendo en cuenta el


cumplimiento de los criterios de éxito de los objetivos comerciales presentados por Cosesam
y los objetivos planteados desde minería de datos. Además, considerarse la efectividad y
veracidad del modelado y que se haya ejecutado correctamente sobre los datos.

Sin embargo, es necesario revisar el proceso, a partir de los resultados obtenidos para de
ser necesario corregir oportunamente algún error que se haya cometido y pasado por alto.
Debemos tener en cuenta que se pueden emplear múltiples herramientas para interpretar los
resultados.

En caso de que el modelo este correcto se procede con el despliegue del modelo, de
acuerdo a lo anterior y a los objetivos planteados se obtiene lo siguiente.

Objetivo general de minería de datos: Diseñar un modelo de segmentación de clientes de


la empresa Cosesam mediante minería de datos que permitan catalogar a sus beneficiarios
según su participación en nuestras areas rurales correspondiente a la acción de formación.

Objetivos Acción de Se cumplió con


Se cumplió
específicos de MD cumplimiento MD

Diseñar el Implementación
SI
modelo de minería del modelo a través
SI
de datos con los de la plataforma
datos disponibles. kmine

Identificar los
departamentos que
más participación Revisión del
SI SI
han tenido en las árbol de decisiones
acciones de
formación.

Identificar a Identificación de SI SI
partir de las fechas resultados a través
23

de inicio que
departamentos se del árbol de
encuentran más decisiones
interesados

Realizar la
corrección y
verificación de los
Implementación
datos
del programa SI NO
proporcionados para
openrefine
la elaboración de
una base de datos
acertiva

Determinar próximos pasos

Con lo anteriormente expuesto podemos determinar que el modelado a través de la técnica


de segmentación cumplió y se enlazaron correctamente con los objetivos planteados al inicio
del proyecto. De acuerdo con lo anterior se propone como siguientes pasos:

Actividades:

 Presentación del modelo de minería de datos a los directivos.


 Oficializar los 6 departamentos que poseen más participación identificados en el
modelo y sus fechas de inicio.
 Re- diseñar las ofertas o portafolios de servicios acorde a la necesidad de cada
segmento.
 Realizar un despliegue comercial efectivo
 Realizar un lanzamiento del plan estratégico contemplando los segmentos y sus
correspondientes ofertas de valor

CONCLUSION

En conclusión, como se ha podido comprobar, esta técnica es de mucha utilidad en varios


campos y los inconvenientes han sido minimizados, en gran medida, gracias a los avances de
24

la informática. Porque la predicción requiere de cierta dosis de intuición, pero también de


determinados procedimientos y, entre ellos, algunos estadísticos, cuando se utilice esta
técnica, no hay que perder de vista sus limitaciones y, aunque estas se minimizan bastante
utilizando procedimientos informáticos, nunca van a desaparecer.

Por lo demás, un árbol de decisión permite ver de forma sencilla y práctica cuál es el mejor
camino a seguir para llegar al objetivo de nuestro. Para obtener información precisa y
detallada, la minería de datos aproxima el objetivo y puede eliminar de raíz las problemáticas
que se plantearon. No obstante, es un engranaje donde cada fase del proyecto debe estar
alineada y corregida pues es el insumo de la etapa siguiente, por ello es que la recolección de
los datos es tanto o igual de importante a la etapa final pues asegura un excelente resultado al
estar perfectamente alineados.

BIBLIOGRAFIA

 https://openrefine.org/.com
25

 https://healthdataminer.com/data-mining/crisp-dm-una-metodologia-para-mineria-de-
datos-en-salud/#:~:text=referencia%20CRISP-DM.-,Comprensi%C3%B3n%20del
%20negocio.,efecto%20real%20en%20la%20organizaci%C3%B3n
 https://www.ibm.com/docs/es/spss-modeler/18.4.0?topic=understanding-data-
overview.com

También podría gustarte