Entrega 2 Mineria de Datos

MODELADO EN MINERÍA DE DATOS
AUTORES:
EYNSO GUILLERMO GUAYARA VALENCIA, CÓDIGO 1511980812
KAREN ANGELICA BORJA BAUTISTA, CÓDIGO 1311980406
NELSON ORLANDO CHAUTA ARENAS, CÓDIGO 100124485
CLAUDIA PATRICIA ÁVILA GARAY, CÓDIGO 2012010392
WBALDO GUTIERREZ RUEDA, CÓDIGO 192201030
TUTOR: CAMILO GUILLERMO REY TORRES
INSTITUCIÓN UNIVERSITARIA POLITÉCNICO GRANCOLOMBIANO
ESPECIALIZACIÓN EN GERENCIA DE PROYECTOS EN INTELIGENCIA DE

NEGOCIOS
BOGOTÁ, D.C. 2020

1. COMPRENSIÓN DEL NEGOCIO
1.1. Determinación de los Objetivos Comerciales
La Empresa objetivo sobre la cuál vamos a desarrollar nuestro proyecto de

minería de datos, se dedica a la recepción y soporte de las fallas técnicas que se
puedan presentar sobre los sistemas de software y hardware que radica la Empresa
Cliente en el aplicativo Aranda.
Establecer acuerdos de niveles de servicio con el propósito de que se cumplan

unos tiempos acordes a la categorización de los casos, según su complejidad y
urgencia.
1.2. Evaluación de la situación
En la actualidad, dentro de los objetivos comerciales, la escala de prioridad y

asignación de tiempos para dar respuesta a los requerimientos que se reciben por la
aplicación Aranda, no se ajusta a las necesidades del Cliente.
La base de datos utilizada es una data con información puntual de los casos
atendidos en la mesa de ayuda de la compañía gubernamental, la cual es recibida por
diferentes canales, estos requerimientos son categorizados en la mesa de ayuda
según:
 El área a la que pertenezca, la cual es valorada con un nivel de impacto

 Según la trascendencia que posea el usuario en los procesos
 Según el nivel de complejidad de la solicitud del usuario,
Los cuales son atendidos en un número determinado de horas dependiendo del

estudio y procedimiento que el analista necesite ejecutar para su resolución.
Después de validar la metodología de trabajo y los datos con los que se cuentan,
concluimos que la técnica de clasificación es el modelo adecuado para el desarrollo de
nuestro proyecto teniendo en cuenta lo indicado en la lectura fundamental Unidad 1 /
Escenario 1 Introducción a la minería de datos “buscan crear unas funciones y reglas
que permitan ubicar futuros individuos u objetos en grupos ya predeterminados,
partiendo de que al pasar por la función, las variables dependientes o explicativas, diga
la probabilidad de que ese individuo u objeto pertenezca a determinado grupo”.
1.3. Establecimiento de los Objetivos de Minería de Datos
El proyecto busca predecir el impacto de los casos que llegarán a la mesa de

ayuda, por esta razón el impacto se denominará la variable Y, la cual depende de las
variables X que en este caso son, el número determinado de horas de respuesta, la
categoría, la jerarquía, el tipo de registro y el usuario analista.
Clasificar las solicitudes teniendo en cuenta las variables antes mencionadas,

con el fin de establecer tiempos de respuesta que se ajusten a las necesidades de la
Empresa Cliente y a los estándares de calidad.
2. COMPRENSIÓN DE LOS DATOS
 ESTADO DEL ARTE
MINISTERIO DE MINAS Y ENERGÍA
Historia
El ministerio de Minas y Energías nace en Colombia como consecuencia directa

al a Segunda Guerra mundial, ya que el conflicto internacional ocasionó problemas
económicos que afectó seriamente el desarrollo y progreso del país.
Con el decreto 968 del 18 de mayo de 1940 se estableció oficialmente el

Ministerio de Minas y Petróleos. Durante los años siguientes el ministerio fue
modificado hasta llegar a ser el Ministerio de Mina y Energías.
Con decretos adicionales del año 1973 el Ministerio se reorganizó, permitiéndole

tener facultades ejecutivas en el sector minero y energético del país, permitiéndole al
gobierno tener un desarrollo óptimo de los recursos naturales renovables y no
renovables, que abastecen de energía el país.
Visión
El Ministerio de Minas y Energía será reconocido por la formulación de políticas

que garanticen el desarrollo y aprovechamiento eficiente de los recursos mineros y
energéticos en Colombia, su explotación, abastecimiento y exportación de excedentes,
trabajando con eficiencia, innovación, calidad de su gestión y promoción de la
responsabilidad social y ambiental.
Misión
Formular y adoptar políticas dirigidas al aprovechamiento sostenible de los

recursos mineros y energéticos para contribuir al desarrollo económico y social del
país.
Hidrocarburos
El área de hidrocarburos del Ministerio de Minas y Energías apoya la

implementación de las políticas que involucran a las distintas operaciones de
exploración y explotación de hidrocarburos a los largo y ancho del territorio nacional,
formulando los lineamientos relacionados con la gestión integral del petróleo, gas y
biocombustibles. La dirección de Hidrocarburos se encarga de proyectar los planes,
programas y proyectos de desarrollo del sector de hidrocarburos. Dentro de sus tareas
se encuentra la preparación de reglamentos técnicos, la regulación del transporte de
crudos, el diseñar de mecanismos para la distribución de combustibles y el seguimiento
a las concesiones de áreas de servicios exclusivo de gas natural, entre otras funciones.
2.1. Recolección de Datos
Los usuarios de hidrocarburos en el territorio colombiano utilizan un sistema de

mesa de ayuda, para hacer diferente tipo de requerimientos al Ministerio de Minas y
energías, esto desde solicitar algún tipo de combustible líquido o gaseoso, hasta la
autorización para la creación de nuevas EDS (Estación de servicio).
En este sistema de mesa de ayuda se generan una gran cantidad de casos, los
cuales deben ser recibidos, estudiados y respondidos dependiendo de su criticidad e
impacto dentro de la operación de cada usuario, una vez se ha dado una respuesta se
debe buscar la solución al incidente que causó el caso y una vez ha sido solucionado
se debe cerrar.
Tomando una muestra de los casos de enero de 2020 a septiembre de 2020, se

pueden encontrar 24.155 casos registrados, los cuales tienen niveles de impacto dada
por el usuario que lo genera, una urgencia definida también por el usuario y una
prioridad que se genera de manera automática.
Al tener los usuarios la potestad de colocar esta información vital en los casos,
se producen desviaciones en la información, ya que lo que para una persona es vital,
para otra puede ser un problema con prioridad media o baja.
2.1.1 Variables para el análisis
Se requiere un análisis que nos proporcione el tiempo promedio de respuesta de

los casos, dependiendo de la prioridad, urgencia e impacto que cada uno de estos
tienen. De este análisis podemos saber cuál es el requerimiento más solicitado y el
usuario que más requerimientos genera.
Para este análisis las variables necesarias son Impacto, Prioridad, Urgencia,
Categoría, Usuario y Tiempo de Solución Real en Minutos.
Una vez se tengan estos datos, se deben cruzar con los ANS (acuerdo nivel de
servicio), para verificar si se cumplen o si es necesario hacer ajustes a la gestión de la
mesa de ayuda.
2.1.2 Variables a Excluir

Todas las demás variables que se tienen dentro de la base de datos se van a
excluir de este análisis. No porque no tengan información relevante, sino porque para el
análisis actual no se requieren o no es posible incluirlas.
2.1.3 Cantidad de Registros
Los registros que se tienen para el análisis hacen parte de una base de datos de
24.155 casos, los cuales nos dan suficiente información para hacer un análisis del
comportamiento de estos.
Estos casos se tomaron de enero a septiembre, de manera que se tuvieran

meses con los efectos de la pandemia y mese en donde no se hubiera iniciado la
cuarentena, así se pueden medir y promediar los casos.
2.2. Descripción de Datos
Las variables que se van a tener en cuenta para el análisis se clasifican de la

siguiente manera:
VARIABLE TIPO
Impacto Nominal
Prioridad Nominal
Urgencia Nominal
Categoría Cadena
Usuario Cadena
Tiempo de solución Real en Minutos Continua
Fuente: Elaboración propia del estudiante
2.3 Categorización de las variables de cadena
Las variables en cadena pueden tomar
La variable categoría, que es de tipo cadena, solo puede tomar los siguientes valores:
CATEGORÍAS DE CASOS
ACTIVACIÓN O INACTIVACIÓN USUARIO
ACTIVAR O INACTIVAR USUARIO
ACTUALIZACIÓN DATOS DE AGREMIACIÓN
ACTUALIZACIÓN DATOS DE GENERALES
ACTUALIZACIÓN DE DATOS GENERALES
ACTUALIZACIÓN DE DOCUMENTACIÓN
ACTUALIZACIÓN DE REPRESENTANTE LEGAL
ACTUALIZACIÓN DE RESOLUCIONES
ACTUALIZACIÓN DE RESOLUCIONES
ACTUALIZACIÓN DE TANQUES Y PRODUCTO
ACTUALIZAR CONTRATO SUMINISTRO DE COMBUSTIBLE
ACTUALIZAR CORREO ELECTRÓNICO
ACTUALIZAR CORREO ELECTRÓNICO
ACTUALIZAR DATOS DE AGREMIACIÓN
ACTUALIZAR DATOS DE CONTACTO
ACTUALIZAR REPRESENTANTE LEGAL
AGREGAR PRODUCTO PARA DECLARACIÓN
AJUSTE DE CUMPLIDOS ZF
AJUSTE DE CUMPLIDOS ZONA DE FRONTERA
AJUSTE DE INFORMACIÓN CUMPLIDO
AJUSTE SOBRE ORDENES DE PEDIDO
ANULACIÓN O RECHAZO ORDEN DE PEDIDO
APLICATIVO MÓVIL GNCV
APLICATIVO SICOM
APLICATIVO WEB SERVICE
ASIGNACIÓN DE CUPOS ZF
AUTORIZACIÓN DE CUPOS A PRECIO NACIONAL
AUTORIZACIÓN DE CUPOS A PRECIO NACIONAL
CAMBIO DE DIRECCIÓN
CAMBIO DE DIRECCIÓN NOMENCLATURA Y/O CORRESPONDENCIA
CAMBIO DE DISTRIBUIDOR MAYORISTA
CAMBIO DE NIT / RAZÓN SOCIAL
CAMBIO DE NIT Y RAZÓN SOCIAL
CAMBIO DE OPERADOR
CAMBIO DE ORGANISMO CERTIFICADOR
CAMBIO DE PROPIETARIO
CAMBIO DE PROPIETARIO Y OPERADOR
CAMBIO DE REPRESENTANTE LEGAL
CAMBIO DISTRIBUIDOR MAYORISTA
CAMBIO TEMPORAL DE MAYORISTA
CAPACIDAD DISCO
CAPACITACIÓN CERTIFICADO DE CAPACITACIÓN CLDP
CAPACITACIÓN CERTIFICADOS DE CAPACITACIÓN GNCV
CAPACITACIÓN COMERCIALIZADOR INDUSTRIAL CLDP
CAPACITACIÓN ESTACIÓN DE SERVICIO PÚBLICA CLDP
CAPACITACIÓN ESTACIONES DE SERVICIO GNCV
CAPACITACIÓN GNCV
CAPACITACIÓN GRUPO PRIMAX Y ENTIDADES CLDP
CAPACITACIÓN MINORISTAS CLDP
CAPACITACIÓN TALLER DE CONVERSIÓN GNCV
CERTIFICADO DE CAPACITACIÓN CLDP
CESIONES DE CUPO
CIERRE ORDEN DE PEDIDO
CÓDIGO SICOM GNCV
CONFIGURACIÓN DE PRODUCTOS PARA COMPRA Y VENTA
CONFIGURACIÓN DE TANQUES
CONSULTA ESTADO DE RADICADO O TICKET
CONSULTA ESTADO DE RADICADOS ASIGNADOS POR EL MME
CONSULTA DE GESTION Y ANALISIS DE INFORMACION
CONSULTA DE GESTIÓN Y ANÁLISIS DE INFORMACIÓN
CONSULTA ESTADO DEL VEHICULO NACIONAL
CONSULTA ESTADO TICKET
CONSULTA TICKET
CONSULTAS GENERALES
CONTINGENCIAS
CONTRATO PROVEEDORES
CREACIÓN CÓDIGO SICOM GNCV
CREACIÓN USUARIO GNCV
CREACIÓN Y/O ACTUALIZACIÓN DE CONTRATO CLIENTES PARA
COMERCIALIZADOR INDUSTRIAL
CREAR CÓDIGO SICOM
CREAR CÓDIGO SICOM
CREDENCIALES ARANDA
CRUCE DE INFORMACIÓN CON MAYORISTAS
DATOS GENERALES
DECLARACIÓN DE INFORMACIÓN
DECLARACIÓN DE INFORMACIÓN (CORRECCIONES E
INCONSISTENCIAS)
DESBLOQUEO O ACTIVACION DE EDS
DISPOSICIÓN Y/O ACTUALIZACIÓN DE TANQUES
DUPLICIDAD ORDENES DE PEDIDO
ELIMINAR VALIDACIÓN
ENCUESTA SICOM
ERROR EN LA VALIDACIÓN DE USUARIOS Y CONTRASEÑAS
FALLA CORREO ELECTRÓNICO
FALLA INGRESO A SICOM GNCV
FALLA INGRESO A SICOM LÍQUIDOS
FALLA TRANSMISIÓN DATOS WEB SERVICE SICOM GNCV
FALLA TRANSMISIÓN DATOS WEB SERVICE SICOM LÍQUIDOS
GAS GNCV
GENERACIÓN ORDENES DE PEDIDO
GESTOR P8
INCONVENIENTES APLICACIÓN BI
INCONVENIENTES CUPOS ZDF
INCONVENIENTES FUNCIONALES SICOM GNCV
INCONVENIENTES INGRESO AMBIENTE DE PRUEBAS GNCV
INCONVENIENTES INGRESO AMBIENTE DE PRUEBAS SICOM
INCONVENIENTES TÉCNICOS AGENTE DE LA CADENA
INCONVENIENTES TÉCNICOS AGENTE DE LA CADENA GNCV
INCONVENIENTES TÉCNICOS DEL AGENTE DE LA CADENA SICOM
GNCV
INDISPONIBILIDAD DEL HOME DE SICOM
INDISPONIBILIDAD DEL MODULO TRANSACCIONAL DE SICOM GNCV
INDISPONIBILIDAD DEL PORTAL TRANSACCIONAL DE SICOM LÍQUIDOS
INFORMACIÓN GENERAL
LÍQUIDOS
NO PERMITE CAMBIAR ESTADO DE LAS ÓRDENES DE PEDIDO
NO PERMITE CAMBIAR ESTADO DE ÓRDENES DE PEDIDO WEB
SERVICE
ORDENES DE PEDIDO
PLANTILLA SOLICITUD DE DATOS DEL VEHÍCULO GNCV
POR LÍQUIDOS
POR SICOM GNCV
POR SICOM LÍQUIDOS
PROBLEMAS DE TRANSMISIÓN DE DATOS
PROBLEMAS DE TRANSMISIÓN DE DATOS
PUBLICACIÓN DE INFORMACIÓN
REDISTRIBUCIÓN DE CUPOS ZF
REDISTRIBUCIÓN DE CUPOS ZF
REGISTRO DE PRECIO ACTUAL
REGISTRO DE PRECIO ACTUAL (REGISTRO E INCONVENIENTES)
REGISTRO INICIAL DE AGENTE
RENOVACIÓN CERTIFICADO DE CONFORMIDAD
RENOVACIÓN CERTIFICADO DE CONFORMIDAD
RENOVACIÓN PÓLIZAS DE RESPONSABILIDAD CIVIL
RENOVACIÓN PÓLIZAS DE RESPONSABILIDAD CIVIL
RENOVACIÓN PÓLIZAS VEHICULARES
RENUNCIA A TÉRMINOS DE CUPO ZF
RENUNCIA A TÉRMINOS DE CUPO ZF
REPORTE PARA LA CONCILIACIÓN DE INFORMACIÓN ENTRE AGENTES
REPORTES DE INFORMACIÓN
REPORTES DE INFORMACIÓN SOLICITADOS POR LOS AGENTES
REPORTES DE INFORMACIÓN SOLICITADOS POR MME
RESTABLECER CONTRASEÑA
RESTABLECER CONTRASEÑA SICOM
RESTABLECER CORREO ELECTRÓNICO
RESTABLECER CORREO ELECTRÓNICO GNCV
RESTABLECIMIENTO DE CONTRASEÑA DE USUARIO WEB SERVICE
RESTABLECIMIENTO DE CONTRASEÑAS DE USUARIO DE WEB
SERVICE
RESTABLECIMIENTO DE CORREO ELECTRÓNICO
SEGURIDAD PERIMETRAL.
SEGURIDAD SO LINUX o WINDOWS
SOLICITUD CAPACITACIÓN COMERCIALIZADOR DE EQUIPOS
SOLICITUD CAPACITACIÓN COMERCIALIZADOR INDUSTRIAL
SOLICITUD CAPACITACIÓN DE ORGANISMO CERTIFICADOR
SOLICITUD CAPACITACIÓN DE ORGANISMO
CERTIFICADOR(INSPECTOR)
SOLICITUD CAPACITACIÓN DE TALLER DE CONVERSIÓN
SOLICITUD CAPACITACIÓN EDS GNCV
SOLICITUD CAPACITACIÓN EDS PUBLICA
SOLICITUD CAPACITACIÓN GRUPO PRIMA Y ENTIDADES
SOLICITUD CAPACITACIÓN MINORISTAS
SOLICITUD CREACIÓN USUARIO GNCV
SOLICITUD DE AJUSTE DE INFORMACIÓN CUMPLIDO
SOLICITUD ESPECIAL DIRIGIDA AL MME
SOLICITUDES MIN ENERGÍA
VALIDACIÓN CERTIFICADO DE CONFORMIDAD GNCV
VALIDACIÓN DE CERTIFICADO DE CONFORMIDAD GNCV
VEHÍCULOS Y AUTORIZACIONES COMERCIALIZADOR INDUSTRIAL
VENTANA MANTENIMIENTO APLICACIÓN WEB SERVICE
VENTANA MANTENIMIENTO APLICACIÓN WEB SERVICE SICOM
LÍQUIDOS
2.3. Entendimiento de las variables:

Impacto: La variable de impacto en la base de datos que se va a analizar solo
puede tomar los valores Alto, Medio y Bajo. En este momento la estadística es la
siguiente:
 Alto: 4.648 casos que representan el 19.24% del total.

 Medio: 19.391 casos que representan el 80.28% del total.
 Bajo: 116 casos que representan el 0.48% del total
Prioridad: La variable prioridad solo puede tomar los valores: Low,

Medium, High y Critical. Esta tiene un comportamiento alto en los casos medios y
altos y muy bajos en los casos bajos y críticos.
Urgencia: La urgencia indica el nivel de severidad que puede presentar los

casos para el usuario, lo que para uno es crítico, para otro puede ser algo de urgencia
media o baja. En el gráfico se ve el comportamiento de esta variable.

Categoría: En el punto anterior se hizo una descripción detallada de esta
variable y de sus posibles valores.
Usuarios: Son los registrados en Aranda y los que únicamente generan los
tickets.
Tiempo de Solución Real en Minutos: Esta variable es la que nos permite

enlazar el análisis ya que, dependiendo de los tiempos establecidos en los ANS
(ACUERDO NIVEL SERVICIO) para cada prioridad, se sabe si se están cumpliendo los
objetivos o si estos están desfazados.
2.4. Calidad de Datos:
Gracias a que los datos son tomados en el software de mesa de ayuda de

Aranda, se tienen la mayoría de los campos con la información requerida, son muy
pocos los campos en donde no hay algún dato o los que tengan un dato errado.
En el caso de las variables escogidas para hacer el análisis, las

correspondientes a Impacto, Urgencia y Prioridad se tienen al 100%. La Variable
categoría puede tomas uno de 156 valores, descritos en la tabla anexa y no se tienen
ninguno de los 24.155 casos sin su respectiva información.
La Variable Tiempo de Solución Real en Minutos tiene 7.143 campos con valor
cero, lo que equivale al 29,57% de los casos. Haciendo un estudio con la realidad, se
puede determinar que, dentro de este Universo de casos, hay unos cancelados, lo que
justifica el cero. También hay casos que están en gestión con el funcionario o con otra
entidad, lo que significa que no se ha cerrado y por lo tanto no tiene una fecha de
solución.
La variable Usuario, que también hace parte importante del análisis solo tiene un
registro en donde no aparece, todos los demás registros tienen este campo. Al tener
una base de datos con gran cantidad de registros, un campo en blanco no representa
una parte muy significativa, ni va a generar desviaciones representativas en las
estadísticas.
Ya que los datos han sido tomados en un software especializado en esta tarea,
la calidad que se tiene es bastante alta, se presentan muy pocos casos con problemas,
los cuales no producirán cambios en los resultados del análisis
PREPARACIÓN DE LOS DATOS
3.1. Selección de Datos
La base de datos que se tiene para hacer el análisis es bastante amplia, de

manera que hay campos que se pueden aprovechar para el análisis, pero también hay
algunas que por el momento es mejor no tener en cuenta.
VARIABLE USO RAZÓN

Tipo de caso No  
Número de caso No  
Muestra el tipo de caso que el usuario está
Categoría Si generando
Jerarquía No  
Servicios No  
Descripción No  
Nombre autor No  
Nombre del receptor No  
Especialista No  
Grupo de especialista No  
Estado No  
Razón No  
Usuario Si Es quien solicita el servicio
Alias del usuario No  
Fecha de registro No  
MES No  
Tipo de registro No  
Fecha de cierre No  
Fecha real de solución No  
Grado de afectación que genera el caso en la
Impacto Si operación
Indica la velocidad que se debe tener para
Urgencia Si responder y solucionar el caso
Calculo que nos da el grado de atención que
Prioridad Si requiere el caso
Nombre del ANS
(ACUERDO NIVEL
SERVICIO) No  
Tiempo de solución real Tiempo que se tomaron los agentes en dar
MINUTOS Si solución al caso
Tiempo Solución Real
Horas No  
> o < 72 HORAS No  
Comentario de la solución No  
Correo del cliente No  
# RADICADO P8 No  
Fuente elaboración propia
En el punto 2.2 se hizo una descripción de cada una de las variables, razón por
la que en esta sección solo se dirá cuales se tienen en cuenta para el análisis y cuales
quedan excluidas. Esto se hace tomando como base el objetivo de la investigación y
los resultados que se están esperando.
2.4. Limpieza de Datos
La base de datos que se tomó para hacer el análisis es bastante completa, tiene
una cantidad de registros bastante alta, lo que permite tener un punto de vista mucho
más acertado y cercano a la realidad.
Por venir de un software de mesa de ayuda como Aranda, ha pasado por

bastantes validaciones, lo que impide que información redundante, datos cruzados,
valores fuera de rango y hasta valores incompletos estén prácticamente ausentes.
Se deben validar algunos registros, como el tiempo de solución en minutos en

cero, pero esto no es debido a un error, si no a la misma dinámica y tiempo de vida que
debe tener cada uno de los casos generados en la mesa de ayuda. También existen
valores muy altos, que se pensaría están desfasados en esta variable, pero revisando
los casos puntuales se determina que es debido a que un tercero se tardó más de los
esperado en alguna respuesta o que alguno de los agentes especialistas dejó un caso
olvidado al que no le dio cierre dentro de un tiempo oportuno.
En cuanto a las restricciones de valores que deben tener algunas de las

variables nominales seleccionadas para el estudio, se verificaron y el nuevamente el
software de mesa de ayuda no permitió que quedaran campos vacíos o con
información fuera de dichos valores preestablecidos.
2.5. Construcción de nuevos datos
Hasta este momento del análisis, teniendo en cuenta la cantidad de registros con
los que se cuenta, las validaciones que el software de mesa de ayuda tiene al momento
de generar un nuevo caso y la calidad de los datos, no es necesario generar nuevas
variables o nuevos datos, los cálculos de tiempo, que en este caso son prioritarios, ya
hacen parte de la información suministrada y es suficiente para cumplir con el objetivo
del análisis.
2.6. Integración de datos
En este caso particular no es necesario hacer integración de ningún tipo, ya que

toda la información viene de una sola base datos.
2.7. Formato de datos
Para poder explicar el formato de los datos primero es necesario aclarar dos cosas:
 La primera que el modelo escogido para realizar el análisis es el de clasificación,

ya que el objetivo es categorizar cada uno de los casos generados en la mesa
de ayuda, para obtener los tiempos de ejecución de estos y luego poderlos
comparar con ANS (ACUERDO NIVEL SERVICIO) preestablecidos. Al tener
este modelo, los datos entregados por el ente gubernamental son suficientes
para generar el análisis.
 La segunda es que la herramienta seleccionada para ejecutar el análisis por
medio de los algoritmos programados en ella es Rapidminer, ya que cuenta con
un menú amable con el usuario y su manejo tiene mucha facilidad para personas
acostumbradas al funcionamiento de Excel.
Por estas dos razones, los datos que se tiene no se deben modificar ni formatear
de ninguna manera, ya que son admitidos por la herramienta tal y como están, dan la
claridad suficiente para poder generar el análisis y al finalizar permitirán hacer los
comparativos que son el objetivo de este proyecto de minería de datos
3. MODELADO METODOLOGÍA CRISP-DM
3.1. Selección de técnicas de modelado
La base de datos utilizada para nuestro proyecto, es una data con información
puntual de los casos atendidos en una mesa de ayuda de una compañía
gubernamental, la cual es recibida por diferentes medios de atención, esta data, es
categorizada en la mesa de ayuda según el área a la que pertenezca el requerimiento,
la cual es valorada con un nivel de impacto, según la trascendencia que posea el
usuario en los procesos y según el nivel de complejidad de la solicitud del usuario, la
cual es atendida en un número determinado de horas dependiendo del nivel de análisis
y procedimientos que el analista necesite ejecutar para su resolución.
El proyecto busca clasificar o predecir el impacto de los casos que llegaran a la

mesa de ayuda, por esta razón el impacto se denominara la variable Y, la cual depende
de las variables X que en este caso son, el número determinado de horas de
respuesta, la categoría, la jerarquía y el tipo de registro.
Para el proyecto se decidió utilizar la herramienta de RAPIDMINER, gracias a su

menú amable con el usuario, y su facilidad de manejo.
4. CLASIFICACION DE LA BASE DE DATOS.
4.1. Selección de técnicas de modelado
Se realiza la preparación de la base de datos, asegurando la veracidad de la

información, la calidad de los datos, evitando espacios nulos y procurando nombrar las
columnas de una forma debida. Se establece en la base de datos cual criterio se
manejará como variable Y, la cual será la variable dependiente de las variables X, y
con esto llegar a predecir cual será el nivel de impacto que tendrá un caso según la
plataforma por a que ingrese y el número de resolución en horas que se utilicen.
4.2. Generación de un diseño de comprobación
XXXXXXXXXXXXXXXXXXXXXXXX
4.3. Generación del modelo
CARGUE DE BASE DE DATOS A LA PLATAFORMA KMINE
Abrimos la plataforma de KMINE y damos click en la parte superior derecha en FILE

seguido de NEW.
Seleccionamos NEW KNIME WORKFLOW.

Escribimos el nombre con el cual vamos a nombrar el proyecto y la localización
del archivo en el PC.
Y por último se da clic a FINISH.
Nos aparece el cuerpo del proyecto en blanco, y en la parte inferior izquierda en

NODE REPOSITORY, se seleccionan los nodos que utilizaremos para nuestro
proyecto.
Vamos a traer el nodo de lector de documento de Excel, ya que es el formato en

el que tenemos la base de datos.
Cargamos el documento de Excel, el cual nos muestra, que empezamos con una
base de datos. De 24155 datos y 31 columnas.
Ahora agregamos el nodo de filtrar columnas y lo enlazamos con el anterior de

Excel reader.
En este nodo filtramos las columnas que necesitamos y observamos la variable

dependiente.
Luego seleccionamos el nodo de Normalizer, el cual lo conectaremos con el

nodo de filtrar columnas.
En este nodo normalizamos las columnas que poseen un formato diferente, en
este caso, normalizamos la columna de tiempo de solución real en horas, con el fin de
contar con el mismo formato de tiempo, donde le adjudicamos un máximo y un mínimo.
Después de normalizar la columna, se selecciona el nodo de partitioning, con el

fin de destinar un porcentaje de datos a la técnica predictiva de clasificación y a al otro
porcentaje de datos lo utilizamos para unirlo a la predicción de la técnica predictiva en
este caso
Allí seleccionamos el porcentaje que entrara al nodo de la técnica de

clasificación, en nuestro caso escogimos el 70%.
En esta imagen observamos que 16908 datos saldrán por la parte de arriba) el
cual corresponden al 70% de los datos) con 5 columnas, y por la parte de abajo salen
7247 daros, (los cuales pertenecen al 30% de datos faltantes).
ARBOL DE DECISIÓN
Para aplicar esta técnica, vamos a seleccionar el nodo de árbol de decisión del
repositorio y lo vamos a conectar con la salida del 70% de los datos del nodo
partitioning.
Alli podemos observar el árbol de decisión el cual para nuestro análisis se despliega de
la siguiente forma.
En el cual, con el primer parámetro de tipo de registro observamos que, el impacto que
predomina es el MEDIO, presentándose ganador en 4 de 6 parámetros presentados.
Desglosando cada parámetro podemos observar que:
En el parámetro de correo electrónico, los casos que se atienden menor o igual a

0.0002 horas son de impacto medio, y que los casos atendido mayor a 0,0002 horas,
también pertenecen a un impacto medio.
En el parámetro portal cliente, los casos que son atendidos menor o igual a 0,0151
horas pertenecen a impacto medio, y los atendidos mayor a 0,0151 horas también
pertenecen a impacto medio.
Por el parámetro de llamada, los casos que entran y son atendidos menor o igual a
0,0254 horas, son de impacto medio, y que los casos que se solucionan mayor a
0,0254 horas son de impacto medio.
Por el parámetro P8 (Correspondencia física), se observa que los casos atendidos

menor o igual a 0,097 horas serán de impacto medio, y los casos atendido mayor a
0,097 horas también de tratan de impacto medio
En el parámetro PLATAFORMA DE GNCV, los casos que entran y son contestados
menor o igual a 1x34-5 horas, son de impacto medio, y los casos que son atendidos
mayor a 1x34-5 horas, son de impacto alto.
Para seguir con el proceso de predicción, ahora vamos a buscar el nodo de predictor
de árbol de decisión, y vamos a unir parte superior del nodo con la parte azul del nodo
de árbol de decisión, y la fecha de abajo la vamos a unir con el 30% de casos
sobrantes del nodo de partitioning.
Para obtener la predicción, vamos a unir el predictor de árbol de decisión con el nodo
de scorer.
Alli desplegamos la matriz de confusión, y observamos que la predicción de ocurrencia
que lleguen casos de impacto medio es de 80,088% con un porcentaje de error del
19,912%.
REGRESION LINEAL
Vamos al repositorio y escogemos el nodo de regresión logística, y lo unimos con la

salida del 70% de los datos del nodo de partitioning.
En este nodo, la plataforma KNIME, realiza la respectiva progresión logística, allí

vamos a seleccionar el nodo de predictor de regresión logística, y lo vamos a unir en la
parte de la salida azul con la salida del nodo de regresión lineal, y en la parte de abajo
lo vamos a unir con el 30 % de los datos que salen del nodo de partitioning, y por último
lo unimos con el nodo de scorer, para obtener predicción.
Según la matriz de confusión de la regresión lineal, afirma en una ocurrencia del

79,578% que los casos que llegaran son de impacto medio con un error de ocurrencia
de un 20,244%.
NAIVE BAYES
Este algoritmo, proporciona una manera fácil de construir modelos con un

comportamiento muy bueno debido a su simplicidad.
Para ejecutarlo vamos al repositorio de la plataforma y vamos a seleccionar el nodo de
Naive Bayes, y lo vamos a unir con la salida de datos del nodo de partitionig del 70%.
Este nodo lo vamos a unir con el nodo de predicción, el cual es el predictor de Naive
Bayes, el cual en la parte superior estará unido con la salida de datos del Naive Bayes
Learnes, y en la parte de abajo lo vamos a unir con el 30% de datos que salen del nodo
de partitioning, y lo vamos a unir con un nodo de scorer.
Por último, en la matriz de confusión del Naive Bayes podemos observar que la
posibilidad de ocurrencia, que prediga la llegada de casos de impacto medio es de
79,15% con un porcentaje de error del 20,84%.
Para terminar, podemos observar todo el proyecto construido de la siguiente forma.

4.7. Evaluación del modelo
Para evaluar el árbol decisión, se identifico las variables del problema, y se enumeraron
todos los factores, luego se procedió a priorizar los criterios de decisión, y se identifico
la importancia de cada uno, se observaron las variables de una forma ordenada y
gráfica, la cual nos lleva a una mejor interpretación de los datos, al observar el árbol de
decisión se profundiza en los datos mas convenientes y relevantes y al final evaluando
la efectividad de la decisión se toma como mejor modelo el árbol de decisión para la
clasificación ya que el nivel de ocurrencia es de 80.08% mayor al que se muestra en la
regresión lineal, y Naives Bayes.

Entrega 2 Mineria de Datos

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Entrega 2 Mineria de Datos

Cargado por

Copyright:

Formatos disponibles

MODELADO EN MINERÍA DE DATOS

EYNSO GUILLERMO GUAYARA VALENCIA, CÓDIGO 1511980812

KAREN ANGELICA BORJA BAUTISTA, CÓDIGO 1311980406

NELSON ORLANDO CHAUTA ARENAS, CÓDIGO 100124485

CLAUDIA PATRICIA ÁVILA GARAY, CÓDIGO 2012010392

WBALDO GUTIERREZ RUEDA, CÓDIGO 192201030

TUTOR: CAMILO GUILLERMO REY TORRES

INSTITUCIÓN UNIVERSITARIA POLITÉCNICO GRANCOLOMBIANO

ESPECIALIZACIÓN EN GERENCIA DE PROYECTOS EN INTELIGENCIA DE

BOGOTÁ, D.C. 2020

1.1. Determinación de los Objetivos Comerciales

La Empresa objetivo sobre la cuál vamos a desarrollar nuestro proyecto de

Establecer acuerdos de niveles de servicio con el propósito de que se cumplan

1.2. Evaluación de la situación

En la actualidad, dentro de los objetivos comerciales, la escala de prioridad y

 El área a la que pertenezca, la cual es valorada con un nivel de impacto

Los cuales son atendidos en un número determinado de horas dependiendo del

1.3. Establecimiento de los Objetivos de Minería de Datos

El proyecto busca predecir el impacto de los casos que llegarán a la mesa de

Clasificar las solicitudes teniendo en cuenta las variables antes mencionadas,

2. COMPRENSIÓN DE LOS DATOS

 ESTADO DEL ARTE

MINISTERIO DE MINAS Y ENERGÍA

El ministerio de Minas y Energías nace en Colombia como consecuencia directa

Con el decreto 968 del 18 de mayo de 1940 se estableció oficialmente el

Con decretos adicionales del año 1973 el Ministerio se reorganizó, permitiéndole

El Ministerio de Minas y Energía será reconocido por la formulación de políticas

Formular y adoptar políticas dirigidas al aprovechamiento sostenible de los

El área de hidrocarburos del Ministerio de Minas y Energías apoya la

2.1. Recolección de Datos

Los usuarios de hidrocarburos en el territorio colombiano utilizan un sistema de

Tomando una muestra de los casos de enero de 2020 a septiembre de 2020, se

2.1.1 Variables para el análisis

Se requiere un análisis que nos proporcione el tiempo promedio de respuesta de

2.1.2 Variables a Excluir

2.1.3 Cantidad de Registros

Estos casos se tomaron de enero a septiembre, de manera que se tuvieran

2.2. Descripción de Datos

Las variables que se van a tener en cuenta para el análisis se clasifican de la

2.3 Categorización de las variables de cadena

Las variables en cadena pueden tomar

2.3. Entendimiento de las variables:

 Alto: 4.648 casos que representan el 19.24% del total.

Prioridad: La variable prioridad solo puede tomar los valores: Low,

Urgencia: La urgencia indica el nivel de severidad que puede presentar los

Fuente: Elaboración propia del estudiante

Tiempo de Solución Real en Minutos: Esta variable es la que nos permite

2.4. Calidad de Datos:

Gracias a que los datos son tomados en el software de mesa de ayuda de

En el caso de las variables escogidas para hacer el análisis, las

PREPARACIÓN DE LOS DATOS

3.1. Selección de Datos

La base de datos que se tiene para hacer el análisis es bastante amplia, de

VARIABLE USO RAZÓN

2.4. Limpieza de Datos

Por venir de un software de mesa de ayuda como Aranda, ha pasado por

Se deben validar algunos registros, como el tiempo de solución en minutos en

En cuanto a las restricciones de valores que deben tener algunas de las

2.5. Construcción de nuevos datos

2.6. Integración de datos

En este caso particular no es necesario hacer integración de ningún tipo, ya que

2.7. Formato de datos

 La primera que el modelo escogido para realizar el análisis es el de clasificación,

3. MODELADO METODOLOGÍA CRISP-DM