Está en la página 1de 27

MODELADO EN MINERÍA DE DATOS

AUTORES:

EYNSO GUILLERMO GUAYARA VALENCIA, CÓDIGO 1511980812

KAREN ANGELICA BORJA BAUTISTA, CÓDIGO 1311980406

NELSON ORLANDO CHAUTA ARENAS, CÓDIGO 100124485

CLAUDIA PATRICIA ÁVILA GARAY, CÓDIGO 2012010392

WBALDO GUTIERREZ RUEDA, CÓDIGO 192201030

TUTOR: CAMILO GUILLERMO REY TORRES

INSTITUCIÓN UNIVERSITARIA POLITÉCNICO GRANCOLOMBIANO

ESPECIALIZACIÓN EN GERENCIA DE PROYECTOS EN INTELIGENCIA DE


NEGOCIOS

BOGOTÁ, D.C. 2020


1. COMPRENSIÓN DEL NEGOCIO

1.1. Determinación de los Objetivos Comerciales

La Empresa objetivo sobre la cuál vamos a desarrollar nuestro proyecto de


minería de datos, se dedica a la recepción y soporte de las fallas técnicas que se
puedan presentar sobre los sistemas de software y hardware que radica la Empresa
Cliente en el aplicativo Aranda.

Establecer acuerdos de niveles de servicio con el propósito de que se cumplan


unos tiempos acordes a la categorización de los casos, según su complejidad y
urgencia.

1.2. Evaluación de la situación

En la actualidad, dentro de los objetivos comerciales, la escala de prioridad y


asignación de tiempos para dar respuesta a los requerimientos que se reciben por la
aplicación Aranda, no se ajusta a las necesidades del Cliente.

La base de datos utilizada es una data con información puntual de los casos
atendidos en la mesa de ayuda de la compañía gubernamental, la cual es recibida por
diferentes canales, estos requerimientos son categorizados en la mesa de ayuda
según:

 El área a la que pertenezca, la cual es valorada con un nivel de impacto


 Según la trascendencia que posea el usuario en los procesos
 Según el nivel de complejidad de la solicitud del usuario,

Los cuales son atendidos en un número determinado de horas dependiendo del


estudio y procedimiento que el analista necesite ejecutar para su resolución.

Después de validar la metodología de trabajo y los datos con los que se cuentan,
concluimos que la técnica de clasificación es el modelo adecuado para el desarrollo de
nuestro proyecto teniendo en cuenta lo indicado en la lectura fundamental Unidad 1 /
Escenario 1 Introducción a la minería de datos “buscan crear unas funciones y reglas
que permitan ubicar futuros individuos u objetos en grupos ya predeterminados,
partiendo de que al pasar por la función, las variables dependientes o explicativas, diga
la probabilidad de que ese individuo u objeto pertenezca a determinado grupo”.

1.3. Establecimiento de los Objetivos de Minería de Datos

El proyecto busca predecir el impacto de los casos que llegarán a la mesa de


ayuda, por esta razón el impacto se denominará la variable Y, la cual depende de las
variables X que en este caso son, el número determinado de horas de respuesta, la
categoría, la jerarquía, el tipo de registro y el usuario analista.

Clasificar las solicitudes teniendo en cuenta las variables antes mencionadas,


con el fin de establecer tiempos de respuesta que se ajusten a las necesidades de la
Empresa Cliente y a los estándares de calidad.

2. COMPRENSIÓN DE LOS DATOS

 ESTADO DEL ARTE

MINISTERIO DE MINAS Y ENERGÍA

Historia

El ministerio de Minas y Energías nace en Colombia como consecuencia directa


al a Segunda Guerra mundial, ya que el conflicto internacional ocasionó problemas
económicos que afectó seriamente el desarrollo y progreso del país.

Con el decreto 968 del 18 de mayo de 1940 se estableció oficialmente el


Ministerio de Minas y Petróleos. Durante los años siguientes el ministerio fue
modificado hasta llegar a ser el Ministerio de Mina y Energías.

Con decretos adicionales del año 1973 el Ministerio se reorganizó, permitiéndole


tener facultades ejecutivas en el sector minero y energético del país, permitiéndole al
gobierno tener un desarrollo óptimo de los recursos naturales renovables y no
renovables, que abastecen de energía el país.
Visión

El Ministerio de Minas y Energía será reconocido por la formulación de políticas


que garanticen el desarrollo y aprovechamiento eficiente de los recursos mineros y
energéticos en Colombia, su explotación, abastecimiento y exportación de excedentes,
trabajando con eficiencia, innovación, calidad de su gestión y promoción de la
responsabilidad social y ambiental.

Misión

Formular y adoptar políticas dirigidas al aprovechamiento sostenible de los


recursos mineros y energéticos para contribuir al desarrollo económico y social del
país.

Hidrocarburos

El área de hidrocarburos del Ministerio de Minas y Energías apoya la


implementación de las políticas que involucran a las distintas operaciones de
exploración y explotación de hidrocarburos a los largo y ancho del territorio nacional,
formulando los lineamientos relacionados con la gestión integral del petróleo, gas y
biocombustibles. La dirección de Hidrocarburos se encarga de proyectar los planes,
programas y proyectos de desarrollo del sector de hidrocarburos. Dentro de sus tareas
se encuentra la preparación de reglamentos técnicos, la regulación del transporte de
crudos, el diseñar de mecanismos para la distribución de combustibles y el seguimiento
a las concesiones de áreas de servicios exclusivo de gas natural, entre otras funciones.

2.1. Recolección de Datos

Los usuarios de hidrocarburos en el territorio colombiano utilizan un sistema de


mesa de ayuda, para hacer diferente tipo de requerimientos al Ministerio de Minas y
energías, esto desde solicitar algún tipo de combustible líquido o gaseoso, hasta la
autorización para la creación de nuevas EDS (Estación de servicio).
En este sistema de mesa de ayuda se generan una gran cantidad de casos, los
cuales deben ser recibidos, estudiados y respondidos dependiendo de su criticidad e
impacto dentro de la operación de cada usuario, una vez se ha dado una respuesta se
debe buscar la solución al incidente que causó el caso y una vez ha sido solucionado
se debe cerrar.

Tomando una muestra de los casos de enero de 2020 a septiembre de 2020, se


pueden encontrar 24.155 casos registrados, los cuales tienen niveles de impacto dada
por el usuario que lo genera, una urgencia definida también por el usuario y una
prioridad que se genera de manera automática.

Al tener los usuarios la potestad de colocar esta información vital en los casos,
se producen desviaciones en la información, ya que lo que para una persona es vital,
para otra puede ser un problema con prioridad media o baja.

2.1.1 Variables para el análisis

Se requiere un análisis que nos proporcione el tiempo promedio de respuesta de


los casos, dependiendo de la prioridad, urgencia e impacto que cada uno de estos
tienen. De este análisis podemos saber cuál es el requerimiento más solicitado y el
usuario que más requerimientos genera.

Para este análisis las variables necesarias son Impacto, Prioridad, Urgencia,
Categoría, Usuario y Tiempo de Solución Real en Minutos.

Una vez se tengan estos datos, se deben cruzar con los ANS (acuerdo nivel de
servicio), para verificar si se cumplen o si es necesario hacer ajustes a la gestión de la
mesa de ayuda.

2.1.2 Variables a Excluir


Todas las demás variables que se tienen dentro de la base de datos se van a
excluir de este análisis. No porque no tengan información relevante, sino porque para el
análisis actual no se requieren o no es posible incluirlas. 

2.1.3 Cantidad de Registros

Los registros que se tienen para el análisis hacen parte de una base de datos de
24.155 casos, los cuales nos dan suficiente información para hacer un análisis del
comportamiento de estos.

Estos casos se tomaron de enero a septiembre, de manera que se tuvieran


meses con los efectos de la pandemia y mese en donde no se hubiera iniciado la
cuarentena, así se pueden medir y promediar los casos.

2.2. Descripción de Datos

Las variables que se van a tener en cuenta para el análisis se clasifican de la


siguiente manera: 

VARIABLE  TIPO 
Impacto  Nominal 
Prioridad  Nominal 
Urgencia  Nominal 
Categoría  Cadena 
Usuario  Cadena 
Tiempo de solución Real en Minutos  Continua 
Fuente: Elaboración propia del estudiante

2.3 Categorización de las variables de cadena

Las variables en cadena pueden tomar

La variable categoría, que es de tipo cadena, solo puede tomar los siguientes valores:
CATEGORÍAS DE CASOS 
ACTIVACIÓN O INACTIVACIÓN USUARIO 
ACTIVAR O INACTIVAR USUARIO 
ACTUALIZACIÓN DATOS DE AGREMIACIÓN  
ACTUALIZACIÓN DATOS DE GENERALES 
ACTUALIZACIÓN DE DATOS GENERALES 
ACTUALIZACIÓN DE DOCUMENTACIÓN 
ACTUALIZACIÓN DE REPRESENTANTE LEGAL 
ACTUALIZACIÓN DE RESOLUCIONES 
ACTUALIZACIÓN DE RESOLUCIONES 
ACTUALIZACIÓN DE TANQUES Y PRODUCTO 
ACTUALIZAR CONTRATO SUMINISTRO DE COMBUSTIBLE 
ACTUALIZAR CORREO ELECTRÓNICO 
ACTUALIZAR CORREO ELECTRÓNICO 
ACTUALIZAR DATOS DE AGREMIACIÓN  
ACTUALIZAR DATOS DE CONTACTO 
ACTUALIZAR REPRESENTANTE LEGAL 
AGREGAR PRODUCTO PARA DECLARACIÓN 
AJUSTE DE CUMPLIDOS ZF 
AJUSTE DE CUMPLIDOS ZONA DE FRONTERA 
AJUSTE DE INFORMACIÓN CUMPLIDO 
AJUSTE SOBRE ORDENES DE PEDIDO 
ANULACIÓN O RECHAZO ORDEN DE PEDIDO  
APLICATIVO MÓVIL GNCV  
APLICATIVO SICOM  
APLICATIVO WEB SERVICE 
ASIGNACIÓN DE CUPOS ZF 
AUTORIZACIÓN DE CUPOS A PRECIO NACIONAL  
AUTORIZACIÓN DE CUPOS A PRECIO NACIONAL  
CAMBIO DE DIRECCIÓN 
CAMBIO DE DIRECCIÓN NOMENCLATURA Y/O CORRESPONDENCIA 
CAMBIO DE DISTRIBUIDOR MAYORISTA 
CAMBIO DE NIT / RAZÓN SOCIAL  
CAMBIO DE NIT Y RAZÓN SOCIAL  
CAMBIO DE OPERADOR 
CAMBIO DE ORGANISMO CERTIFICADOR  
CAMBIO DE PROPIETARIO 
CAMBIO DE PROPIETARIO Y OPERADOR 
CAMBIO DE REPRESENTANTE LEGAL  
CAMBIO DISTRIBUIDOR MAYORISTA 
CAMBIO TEMPORAL DE MAYORISTA 
CAPACIDAD DISCO 
CAPACITACIÓN CERTIFICADO DE CAPACITACIÓN CLDP 
CAPACITACIÓN CERTIFICADOS DE CAPACITACIÓN GNCV 
CAPACITACIÓN COMERCIALIZADOR INDUSTRIAL CLDP 
CAPACITACIÓN ESTACIÓN DE SERVICIO PÚBLICA CLDP 
CAPACITACIÓN ESTACIONES DE SERVICIO GNCV 
CAPACITACIÓN GNCV 
CAPACITACIÓN GRUPO PRIMAX Y ENTIDADES CLDP 
CAPACITACIÓN MINORISTAS CLDP 
CAPACITACIÓN TALLER DE CONVERSIÓN GNCV 
CERTIFICADO DE CAPACITACIÓN CLDP 
CESIONES DE CUPO  
CIERRE ORDEN DE PEDIDO 
CÓDIGO SICOM GNCV  
CONFIGURACIÓN DE PRODUCTOS PARA COMPRA Y VENTA  
CONFIGURACIÓN DE TANQUES 
CONSULTA ESTADO DE RADICADO O TICKET 
CONSULTA ESTADO DE RADICADOS ASIGNADOS POR EL MME  
CONSULTA DE GESTION Y ANALISIS DE INFORMACION 
CONSULTA DE GESTIÓN Y ANÁLISIS DE INFORMACIÓN 
CONSULTA ESTADO DEL VEHICULO NACIONAL 
CONSULTA ESTADO TICKET  
CONSULTA TICKET  
CONSULTAS GENERALES 
CONTINGENCIAS  
CONTRATO PROVEEDORES 
CREACIÓN CÓDIGO SICOM GNCV 
CREACIÓN USUARIO GNCV 
CREACIÓN Y/O ACTUALIZACIÓN DE CONTRATO CLIENTES PARA
COMERCIALIZADOR INDUSTRIAL  
CREAR CÓDIGO SICOM  
CREAR CÓDIGO SICOM  
CREDENCIALES ARANDA 
CRUCE DE INFORMACIÓN CON MAYORISTAS 
DATOS GENERALES  
DECLARACIÓN DE INFORMACIÓN  
DECLARACIÓN DE INFORMACIÓN (CORRECCIONES E
INCONSISTENCIAS) 
DESBLOQUEO O ACTIVACION DE EDS 
DISPOSICIÓN Y/O ACTUALIZACIÓN DE TANQUES 
DUPLICIDAD ORDENES DE PEDIDO  
ELIMINAR VALIDACIÓN 
ENCUESTA SICOM 
ERROR EN LA VALIDACIÓN DE USUARIOS Y CONTRASEÑAS 
FALLA CORREO ELECTRÓNICO 
FALLA INGRESO A SICOM GNCV 
FALLA INGRESO A SICOM LÍQUIDOS 
FALLA TRANSMISIÓN DATOS WEB SERVICE SICOM GNCV 
FALLA TRANSMISIÓN DATOS WEB SERVICE SICOM LÍQUIDOS 
GAS GNCV  
GENERACIÓN ORDENES DE PEDIDO  
GESTOR P8 
INCONVENIENTES APLICACIÓN BI 
INCONVENIENTES CUPOS ZDF 
INCONVENIENTES FUNCIONALES SICOM GNCV 
INCONVENIENTES INGRESO AMBIENTE DE PRUEBAS GNCV 
INCONVENIENTES INGRESO AMBIENTE DE PRUEBAS SICOM 
INCONVENIENTES TÉCNICOS AGENTE DE LA CADENA 
INCONVENIENTES TÉCNICOS AGENTE DE LA CADENA GNCV 
INCONVENIENTES TÉCNICOS DEL AGENTE DE LA CADENA SICOM
GNCV  
INDISPONIBILIDAD DEL HOME DE SICOM 
INDISPONIBILIDAD DEL MODULO TRANSACCIONAL DE SICOM GNCV 
INDISPONIBILIDAD DEL PORTAL TRANSACCIONAL DE SICOM LÍQUIDOS 
INFORMACIÓN GENERAL  
LÍQUIDOS  
NO PERMITE CAMBIAR ESTADO DE LAS ÓRDENES DE PEDIDO 
NO PERMITE CAMBIAR ESTADO DE ÓRDENES DE PEDIDO WEB
SERVICE 
ORDENES DE PEDIDO  
PLANTILLA SOLICITUD DE DATOS DEL VEHÍCULO GNCV  
POR LÍQUIDOS 
POR SICOM GNCV 
POR SICOM LÍQUIDOS 
PROBLEMAS DE TRANSMISIÓN DE DATOS 
PROBLEMAS DE TRANSMISIÓN DE DATOS 
PUBLICACIÓN DE INFORMACIÓN 
REDISTRIBUCIÓN DE CUPOS ZF 
REDISTRIBUCIÓN DE CUPOS ZF 
REGISTRO DE PRECIO ACTUAL 
REGISTRO DE PRECIO ACTUAL (REGISTRO E INCONVENIENTES) 
REGISTRO INICIAL DE AGENTE  
RENOVACIÓN CERTIFICADO DE CONFORMIDAD  
RENOVACIÓN CERTIFICADO DE CONFORMIDAD  
RENOVACIÓN PÓLIZAS DE RESPONSABILIDAD CIVIL  
RENOVACIÓN PÓLIZAS DE RESPONSABILIDAD CIVIL  
RENOVACIÓN PÓLIZAS VEHICULARES 
RENUNCIA A TÉRMINOS DE CUPO ZF 
RENUNCIA A TÉRMINOS DE CUPO ZF 
REPORTE PARA LA CONCILIACIÓN DE INFORMACIÓN ENTRE AGENTES 
REPORTES DE INFORMACIÓN 
REPORTES DE INFORMACIÓN SOLICITADOS POR LOS AGENTES 
REPORTES DE INFORMACIÓN SOLICITADOS POR MME 
RESTABLECER CONTRASEÑA 
RESTABLECER CONTRASEÑA SICOM  
RESTABLECER CORREO ELECTRÓNICO  
RESTABLECER CORREO ELECTRÓNICO GNCV 
RESTABLECIMIENTO DE CONTRASEÑA DE USUARIO WEB SERVICE  
RESTABLECIMIENTO DE CONTRASEÑAS DE USUARIO DE WEB
SERVICE  
RESTABLECIMIENTO DE CORREO ELECTRÓNICO  
SEGURIDAD PERIMETRAL. 
SEGURIDAD SO LINUX o WINDOWS 
SOLICITUD CAPACITACIÓN COMERCIALIZADOR DE EQUIPOS 
SOLICITUD CAPACITACIÓN COMERCIALIZADOR INDUSTRIAL 
SOLICITUD CAPACITACIÓN DE ORGANISMO CERTIFICADOR  
SOLICITUD CAPACITACIÓN DE ORGANISMO
CERTIFICADOR(INSPECTOR) 
SOLICITUD CAPACITACIÓN DE TALLER DE CONVERSIÓN  
SOLICITUD CAPACITACIÓN EDS GNCV 
SOLICITUD CAPACITACIÓN EDS PUBLICA 
SOLICITUD CAPACITACIÓN GRUPO PRIMA Y ENTIDADES 
SOLICITUD CAPACITACIÓN MINORISTAS 
SOLICITUD CREACIÓN USUARIO GNCV 
SOLICITUD DE AJUSTE DE INFORMACIÓN CUMPLIDO  
SOLICITUD ESPECIAL DIRIGIDA AL MME  
SOLICITUDES MIN ENERGÍA 
VALIDACIÓN CERTIFICADO DE CONFORMIDAD GNCV 
VALIDACIÓN DE CERTIFICADO DE CONFORMIDAD GNCV 
VEHÍCULOS Y AUTORIZACIONES COMERCIALIZADOR INDUSTRIAL 
VENTANA MANTENIMIENTO APLICACIÓN WEB SERVICE 
VENTANA MANTENIMIENTO APLICACIÓN WEB SERVICE SICOM
LÍQUIDOS 
Fuente: Elaboración propia del estudiante

2.3. Entendimiento de las variables: 


Impacto: La variable de impacto en la base de datos que se va a analizar solo
puede tomar los valores Alto, Medio y Bajo. En este momento la estadística es la
siguiente: 

 Alto: 4.648 casos que representan el 19.24% del total. 


 Medio: 19.391 casos que representan el 80.28% del total. 
 Bajo: 116 casos que representan el 0.48% del total 

Prioridad: La variable prioridad solo puede tomar los valores: Low,


Medium, High y Critical. Esta tiene un comportamiento alto en los casos medios y
altos y muy bajos en los casos bajos y críticos. 

Urgencia: La urgencia indica el nivel de severidad que puede presentar los


casos para el usuario, lo que para uno es crítico, para otro puede ser algo de urgencia
media o baja. En el gráfico se ve el comportamiento de esta variable.

Fuente: Elaboración propia del estudiante


Categoría: En el punto anterior se hizo una descripción detallada de esta
variable y de sus posibles valores.

Usuarios: Son los registrados en Aranda y los que únicamente generan los
tickets.

Tiempo de Solución Real en Minutos: Esta variable es la que nos permite


enlazar el análisis ya que, dependiendo de los tiempos establecidos en los ANS
(ACUERDO NIVEL SERVICIO) para cada prioridad, se sabe si se están cumpliendo los
objetivos o si estos están desfazados.

2.4. Calidad de Datos:

Gracias a que los datos son tomados en el software de mesa de ayuda de


Aranda, se tienen la mayoría de los campos con la información requerida, son muy
pocos los campos en donde no hay algún dato o los que tengan un dato errado.

En el caso de las variables escogidas para hacer el análisis, las


correspondientes a Impacto, Urgencia y Prioridad se tienen al 100%. La Variable
categoría puede tomas uno de 156 valores, descritos en la tabla anexa y no se tienen
ninguno de los 24.155 casos sin su respectiva información.

La Variable Tiempo de Solución Real en Minutos tiene 7.143 campos con valor
cero, lo que equivale al 29,57% de los casos. Haciendo un estudio con la realidad, se
puede determinar que, dentro de este Universo de casos, hay unos cancelados, lo que
justifica el cero. También hay casos que están en gestión con el funcionario o con otra
entidad, lo que significa que no se ha cerrado y por lo tanto no tiene una fecha de
solución.

La variable Usuario, que también hace parte importante del análisis solo tiene un
registro en donde no aparece, todos los demás registros tienen este campo. Al tener
una base de datos con gran cantidad de registros, un campo en blanco no representa
una parte muy significativa, ni va a generar desviaciones representativas en las
estadísticas.

Ya que los datos han sido tomados en un software especializado en esta tarea,
la calidad que se tiene es bastante alta, se presentan muy pocos casos con problemas,
los cuales no producirán cambios en los resultados del análisis

PREPARACIÓN DE LOS DATOS

3.1. Selección de Datos

La base de datos que se tiene para hacer el análisis es bastante amplia, de


manera que hay campos que se pueden aprovechar para el análisis, pero también hay
algunas que por el momento es mejor no tener en cuenta.

VARIABLE  USO  RAZÓN 


Tipo de caso  No    
Número de caso  No    
Muestra el tipo de caso que el usuario está
Categoría  Si  generando 
Jerarquía  No    
Servicios  No    
Descripción  No    
Nombre autor  No    
Nombre del receptor  No    
Especialista  No    
Grupo de especialista  No    
Estado  No    
Razón  No    
Usuario  Si  Es quien solicita el servicio 
Alias del usuario  No    
Fecha de registro  No    
MES  No    
Tipo de registro  No    
Fecha de cierre  No    
Fecha real de solución  No    
Grado de afectación que genera el caso en la
Impacto  Si  operación 
Indica la velocidad que se debe tener para
Urgencia  Si  responder y solucionar el caso 
Calculo que nos da el grado de atención que
Prioridad  Si  requiere el caso 
Nombre del ANS
(ACUERDO NIVEL
SERVICIO)  No    
Tiempo de solución real Tiempo que se tomaron los agentes en dar
MINUTOS  Si  solución al caso 
Tiempo Solución Real
Horas  No    
> o < 72 HORAS  No    
Comentario de la solución  No    
Correo del cliente  No    
# RADICADO P8  No    
 Fuente elaboración propia

En el punto 2.2 se hizo una descripción de cada una de las variables, razón por
la que en esta sección solo se dirá cuales se tienen en cuenta para el análisis y cuales
quedan excluidas. Esto se hace tomando como base el objetivo de la investigación y
los resultados que se están esperando.

2.4. Limpieza de Datos

La base de datos que se tomó para hacer el análisis es bastante completa, tiene
una cantidad de registros bastante alta, lo que permite tener un punto de vista mucho
más acertado y cercano a la realidad.

Por venir de un software de mesa de ayuda como Aranda, ha pasado por


bastantes validaciones, lo que impide que información redundante, datos cruzados,
valores fuera de rango y hasta valores incompletos estén prácticamente ausentes.

Se deben validar algunos registros, como el tiempo de solución en minutos en


cero, pero esto no es debido a un error, si no a la misma dinámica y tiempo de vida que
debe tener cada uno de los casos generados en la mesa de ayuda. También existen
valores muy altos, que se pensaría están desfasados en esta variable, pero revisando
los casos puntuales se determina que es debido a que un tercero se tardó más de los
esperado en alguna respuesta o que alguno de los agentes especialistas dejó un caso
olvidado al que no le dio cierre dentro de un tiempo oportuno.

En cuanto a las restricciones de valores que deben tener algunas de las


variables nominales seleccionadas para el estudio, se verificaron y el nuevamente el
software de mesa de ayuda no permitió que quedaran campos vacíos o con
información fuera de dichos valores preestablecidos.

2.5. Construcción de nuevos datos

Hasta este momento del análisis, teniendo en cuenta la cantidad de registros con
los que se cuenta, las validaciones que el software de mesa de ayuda tiene al momento
de generar un nuevo caso y la calidad de los datos, no es necesario generar nuevas
variables o nuevos datos, los cálculos de tiempo, que en este caso son prioritarios, ya
hacen parte de la información suministrada y es suficiente para cumplir con el objetivo
del análisis.

2.6. Integración de datos

En este caso particular no es necesario hacer integración de ningún tipo, ya que


toda la información viene de una sola base datos.

2.7. Formato de datos

Para poder explicar el formato de los datos primero es necesario aclarar dos cosas: 

 La primera que el modelo escogido para realizar el análisis es el de clasificación,


ya que el objetivo es categorizar cada uno de los casos generados en la mesa
de ayuda, para obtener los tiempos de ejecución de estos y luego poderlos
comparar con ANS (ACUERDO NIVEL SERVICIO) preestablecidos. Al tener
este modelo, los datos entregados por el ente gubernamental son suficientes
para generar el análisis. 
 La segunda es que la herramienta seleccionada para ejecutar el análisis por
medio de los algoritmos programados en ella es Rapidminer, ya que cuenta con
un menú amable con el usuario y su manejo tiene mucha facilidad para personas
acostumbradas al funcionamiento de Excel. 

Por estas dos razones, los datos que se tiene no se deben modificar ni formatear
de ninguna manera, ya que son admitidos por la herramienta tal y como están, dan la
claridad suficiente para poder generar el análisis y al finalizar permitirán hacer los
comparativos que son el objetivo de este proyecto de minería de datos

3. MODELADO METODOLOGÍA CRISP-DM

3.1. Selección de técnicas de modelado

La base de datos utilizada para nuestro proyecto, es una data con información
puntual de los casos atendidos en una mesa de ayuda de una compañía
gubernamental, la cual es recibida por diferentes medios de atención, esta data, es
categorizada en la mesa de ayuda según el área a la que pertenezca el requerimiento,
la cual es valorada con un nivel de impacto, según la trascendencia que posea el
usuario en los procesos y según el nivel de complejidad de la solicitud del usuario, la
cual es atendida en un número determinado de horas dependiendo del nivel de análisis
y procedimientos que el analista necesite ejecutar para su resolución.

El proyecto busca clasificar o predecir el impacto de los casos que llegaran a la


mesa de ayuda, por esta razón el impacto se denominara la variable Y, la cual depende
de las variables X que en este caso son, el número determinado de horas de
respuesta, la categoría, la jerarquía y el tipo de registro.

Para el proyecto se decidió utilizar la herramienta de RAPIDMINER, gracias a su


menú amable con el usuario, y su facilidad de manejo.
4. CLASIFICACION DE LA BASE DE DATOS.

4.1. Selección de técnicas de modelado

Se realiza la preparación de la base de datos, asegurando la veracidad de la


información, la calidad de los datos, evitando espacios nulos y procurando nombrar las
columnas de una forma debida. Se establece en la base de datos cual criterio se
manejará como variable Y, la cual será la variable dependiente de las variables X, y
con esto llegar a predecir cual será el nivel de impacto que tendrá un caso según la
plataforma por a que ingrese y el número de resolución en horas que se utilicen.

4.2. Generación de un diseño de comprobación

XXXXXXXXXXXXXXXXXXXXXXXX

4.3. Generación del modelo

CARGUE DE BASE DE DATOS A LA PLATAFORMA KMINE

Abrimos la plataforma de KMINE y damos click en la parte superior derecha en FILE


seguido de NEW.

Seleccionamos NEW KNIME WORKFLOW.


Escribimos el nombre con el cual vamos a nombrar el proyecto y la localización
del archivo en el PC.

Y por último se da clic a FINISH.

Nos aparece el cuerpo del proyecto en blanco, y en la parte inferior izquierda en


NODE REPOSITORY, se seleccionan los nodos que utilizaremos para nuestro
proyecto.

Vamos a traer el nodo de lector de documento de Excel, ya que es el formato en


el que tenemos la base de datos.
Cargamos el documento de Excel, el cual nos muestra, que empezamos con una
base de datos. De 24155 datos y 31 columnas.

Ahora agregamos el nodo de filtrar columnas y lo enlazamos con el anterior de


Excel reader.

En este nodo filtramos las columnas que necesitamos y observamos la variable


dependiente.

Luego seleccionamos el nodo de Normalizer, el cual lo conectaremos con el


nodo de filtrar columnas.
En este nodo normalizamos las columnas que poseen un formato diferente, en
este caso, normalizamos la columna de tiempo de solución real en horas, con el fin de
contar con el mismo formato de tiempo, donde le adjudicamos un máximo y un mínimo.

Después de normalizar la columna, se selecciona el nodo de partitioning, con el


fin de destinar un porcentaje de datos a la técnica predictiva de clasificación y a al otro
porcentaje de datos lo utilizamos para unirlo a la predicción de la técnica predictiva en
este caso

Allí seleccionamos el porcentaje que entrara al nodo de la técnica de


clasificación, en nuestro caso escogimos el 70%.
En esta imagen observamos que 16908 datos saldrán por la parte de arriba) el
cual corresponden al 70% de los datos) con 5 columnas, y por la parte de abajo salen
7247 daros, (los cuales pertenecen al 30% de datos faltantes).

ARBOL DE DECISIÓN

Para aplicar esta técnica, vamos a seleccionar el nodo de árbol de decisión del
repositorio y lo vamos a conectar con la salida del 70% de los datos del nodo
partitioning.

Alli podemos observar el árbol de decisión el cual para nuestro análisis se despliega de
la siguiente forma.
En el cual, con el primer parámetro de tipo de registro observamos que, el impacto que
predomina es el MEDIO, presentándose ganador en 4 de 6 parámetros presentados.

Desglosando cada parámetro podemos observar que:

En el parámetro de correo electrónico, los casos que se atienden menor o igual a


0.0002 horas son de impacto medio, y que los casos atendido mayor a 0,0002 horas,
también pertenecen a un impacto medio.

En el parámetro portal cliente, los casos que son atendidos menor o igual a 0,0151
horas pertenecen a impacto medio, y los atendidos mayor a 0,0151 horas también
pertenecen a impacto medio.
Por el parámetro de llamada, los casos que entran y son atendidos menor o igual a
0,0254 horas, son de impacto medio, y que los casos que se solucionan mayor a
0,0254 horas son de impacto medio.

Por el parámetro P8 (Correspondencia física), se observa que los casos atendidos


menor o igual a 0,097 horas serán de impacto medio, y los casos atendido mayor a
0,097 horas también de tratan de impacto medio
En el parámetro PLATAFORMA DE GNCV, los casos que entran y son contestados
menor o igual a 1x34-5 horas, son de impacto medio, y los casos que son atendidos
mayor a 1x34-5 horas, son de impacto alto.

Para seguir con el proceso de predicción, ahora vamos a buscar el nodo de predictor
de árbol de decisión, y vamos a unir parte superior del nodo con la parte azul del nodo
de árbol de decisión, y la fecha de abajo la vamos a unir con el 30% de casos
sobrantes del nodo de partitioning.

Para obtener la predicción, vamos a unir el predictor de árbol de decisión con el nodo
de scorer.
Alli desplegamos la matriz de confusión, y observamos que la predicción de ocurrencia
que lleguen casos de impacto medio es de 80,088% con un porcentaje de error del
19,912%.

REGRESION LINEAL

Vamos al repositorio y escogemos el nodo de regresión logística, y lo unimos con la


salida del 70% de los datos del nodo de partitioning.

En este nodo, la plataforma KNIME, realiza la respectiva progresión logística, allí


vamos a seleccionar el nodo de predictor de regresión logística, y lo vamos a unir en la
parte de la salida azul con la salida del nodo de regresión lineal, y en la parte de abajo
lo vamos a unir con el 30 % de los datos que salen del nodo de partitioning, y por último
lo unimos con el nodo de scorer, para obtener predicción.

Según la matriz de confusión de la regresión lineal, afirma en una ocurrencia del


79,578% que los casos que llegaran son de impacto medio con un error de ocurrencia
de un 20,244%.

NAIVE BAYES

Este algoritmo, proporciona una manera fácil de construir modelos con un


comportamiento muy bueno debido a su simplicidad.
Para ejecutarlo vamos al repositorio de la plataforma y vamos a seleccionar el nodo de
Naive Bayes, y lo vamos a unir con la salida de datos del nodo de partitionig del 70%.

Este nodo lo vamos a unir con el nodo de predicción, el cual es el predictor de Naive
Bayes, el cual en la parte superior estará unido con la salida de datos del Naive Bayes
Learnes, y en la parte de abajo lo vamos a unir con el 30% de datos que salen del nodo
de partitioning, y lo vamos a unir con un nodo de scorer.

Por último, en la matriz de confusión del Naive Bayes podemos observar que la
posibilidad de ocurrencia, que prediga la llegada de casos de impacto medio es de
79,15% con un porcentaje de error del 20,84%.

Para terminar, podemos observar todo el proyecto construido de la siguiente forma.


4.7. Evaluación del modelo

Para evaluar el árbol decisión, se identifico las variables del problema, y se enumeraron
todos los factores, luego se procedió a priorizar los criterios de decisión, y se identifico
la importancia de cada uno, se observaron las variables de una forma ordenada y
gráfica, la cual nos lleva a una mejor interpretación de los datos, al observar el árbol de
decisión se profundiza en los datos mas convenientes y relevantes y al final evaluando
la efectividad de la decisión se toma como mejor modelo el árbol de decisión para la
clasificación ya que el nivel de ocurrencia es de 80.08% mayor al que se muestra en la
regresión lineal, y Naives Bayes.

También podría gustarte