Está en la página 1de 17

PROYECTO DE MINERIA DE DATOS PARA LA SEGMENTACION DEL CONJUNTO DE DATOS

ABIERTOS DE LA CONTRATACION DE LAS ENTIDADES PUBLICAS DEL ESTADO COLOMBIANO PARA


EL ANALISIS DE OFERTA Y DEMANDA DEL ESTUDIO DEL SECTOR

Alumnos

WILLIAM ELIAS SANABRIA ROMERO COD: 100258254

EDWIN MAURICIO RODRIGUEZ ROJAS COD 100071321

XIOMARA GONZÁLEZ CORTÉS COD 100076418

ASIGNATURA

MINERIA DE DATOS (GRUPO S01)

ESPECIALIZACION DE GERENCIA DE PROYECTOS CON BI

POLITECNICO GRAN COLOMBIANO

BOGOTA D.C. - COLOMBIA


Contenido
1 COMPRENSIÓN DEL NEGOCIO....................................................................................................3
1.1 Determinación de los objetivos comerciales......................................................................3
1.1.1 Compilación de la informacion de la empresa............................................................4
1.1.2 Definición de los objetivos comerciales......................................................................4
1.1.3 Criterios de rendimiento comercial............................................................................4
1.2 Valoración de la situación...................................................................................................4
1.2.1 Inventario de recursos................................................................................................5
1.2.2 Requisitos, supuestos y restricciones.........................................................................5
1.2.3 Riesgos y contingencias..............................................................................................5
1.2.4 Terminología...............................................................................................................6
1.2.5 Análisis de costes/beneficios......................................................................................6
1.3 Determinación de los objetivos de minería de datos.........................................................6
1.3.1 Objetivos de minería de datos....................................................................................6
1.4 Producción de un plan de proyecto....................................................................................6
1.4.1 Plan de proyecto de la muestra..................................................................................6
2 COMPRENSIÓN DE LOS DATOS...................................................................................................7
2.1 Recopilación de datos Iniciales...........................................................................................7
2.1.1 Categorías de las variables.........................................................................................8
2.1.2 Estadísticas del conjunto de datos............................................................................10
2.1.3 Estadística inicial por modalidad..............................................................................10
2.1.4 Estadística Inicial por departamento........................................................................11
2.2 Verificación de calidad de los datos.................................................................................13
3 PREPARACIÓN DE DATOS.........................................................................................................13
3.1 Selección de los datos......................................................................................................13
3.2 Limpieza de datos.............................................................................................................15
INDICE DE ILUSTRACIONES
Ilustración 1 Organigrama Comercial WS INGENIERIA SAS..........................................................................5
Ilustración 2 análisis estadístico inicial campo modalidad........................................................................12
Ilustración 3 análisis estadístico inicial campo departamento...................................................................14
INDICE TABLAS
Tabla 1 plan de trabajo proyecto de minería.............................................................................................. 8
Tabla 2 Datos conjunto de datos - Contratos Electrónicos SECOP II...........................................................9
Tabla 3 columnas y descripción conjunto de datos...................................................................................10
Tabla 4 tabla de categorización de variables............................................................................................ 12
Tabla 5 estadística inicial campo variable valor_del_contrato..................................................................12
Tabla 6 análisis estadístico inicial campo modalidad................................................................................13
Tabla 7 análisis estadístico inicial campo departamento..........................................................................14
Tabla 8 selección de datos....................................................................................................................... 17
1 COMPRENSIÓN DEL NEGOCIO
1.1 Determinación de los objetivos comerciales
WS INGENIERIA SAS, es una compañía que busca aportar conocimiento y experiencia en varios
campos aplicados a los sistemas y la información para la asesoría en la toma de decisiones de la
compra publica, a las entidades y proveedores del estado, lo que a la vez los convierte en
generadores de estrategias para cambios en el desarrollo y optimización desde la planeación,
elaboracion de estudios del sector, hasta la producción de contratos en el sector público e
identificación de oportunidades de negocio a aquellas personas que pretendan ser proveedores
del Estado colombiano.

Entre sus clientes actualmente se encuentran los siguientes:

• Alcaldía Municipal de Villeta


• Instituto Municipal Para El Turismo, La Cultura, La Recreación Y El Deporte De
Villeta
• Alcaldía Municipal de Tocancipá
• Langer Ingenieros ltda
• Cargo Compass

Las compras públicas en Colombia estan regidas por el Estatuto General de Contratación Pública y
sus normas concordantes, las cuales han establecido la obligatoriedad, particularmente el artículo
2.2.1.1.1.6.1 del Decreto 1082 de 2015, a las Entidades Estatales de realizar un análisis para
conocer el sector respectivo al objeto a contratar desde la perspectiva legal, comercial, financiera,
organizacional, técnica y de análisis de riesgos, es decir, que las entidades del Estado deben
realizar un estudio con el fin de identificar la demanda y la oferta del objeto a contratar.

Objetivo Comercial: Asesorar en la estructuración de la demanda y oferta de los objetos a


contratar a las entidades del estado mediante la minería de datos.

El rendimiento del proceso de minería de datos se considera exitoso cumpliendo los plazos
establecidos para el estudio y con el ahorro de tiempo en la estructuración del análisis de
demanda y oferta a las entidades del Estado, que permita optimizar la inversión de tiempo en
etapas como la planeación de los procesos de contratación y, por ende, lograr con tiempos de
ejecución más amplios, lo cual genera un valor agregado para las entidades ejecutoras de
presupuesto público.

1.1.1 Compilación de la informacion de la empresa


El organigrama comercial de WS INGENIERÍA SAS es el siguiente:
En el organigrama anterior se puede determinar que: (i). el área clave de la compañía es el área de
analítica de datos teniendo en cuenta que mediante esta se materializan todos los ejercicios de
análisis de informacion para entregar productos de alta calidad (estudios de análisis oferta y
demanda) a las entidades del Estado que solicitan el servicio.(ii). La Gerencia es el área
patrocinadora del estudio y, finalmente pero no menos importante el área de proyectos apoya el
proyecto desde la planificación y ejecución de los proyectos de análisis.

La problemática actual para realizar el estudio del sector es la complejidad y demoras en tiempos
en la materialización del análisis, teniendo en cuenta que se están realizando mediante la consulta
uno a uno, por medio de la consulta al ciudadano de la plataforma SECOP II, consulta secop II y
donde se evidencian que solo utilizan hasta 10 contratos para realizar dichos análisis.

1.1.2 Definición de los objetivos comerciales

 Disminuir los tiempos de análisis de datos para la estructuración de análisis de demanda y


oferta.
 Utilizar la totalidad de los datos de contratación del Estado para la estructuración de
análisis de oferta y demanda en los estudios del sector.

1.1.3 Criterios de rendimiento comercial


Con el fin de disminuir los tiempos de análisis de datos para la estructuración de análisis de oferta
y demanda en los estudios del sector, se pretende generar los estudios mediante la minería de
datos de todos los registros de la contratación del Estado y así generar un aumento significativo en
la cantidad de datos para estudio como la optimización de tiempos para generar los análisis de
estos.

1.2 Valoración de la situación


 Los datos disponibles para el análisis de oferta y demanda mediante la minería de datos se
encuentran presentes en el portal de datos.gov.co, en esta plataforma se aloja el conjunto
de datos de la contratación del Estado desde la vigencia 2018
 El personal que va a realizar el análisis es Ingeniero de Sistemas con experiencia en 15
años en manejo de datos contractuales y ha apoyado la estructuración de estudios de
mercado en el análisis de oferta y demanda a distintas entidades del estado.
 Los factores de riesgo son el no control de información de el conjunto de datos teniendo
en cuenta que es creado y administrado por el Ministerio de las Tics, aunque esta entidad
tiene sus políticas de continuidad del negocio en sus portales, existe el riesgo de caídas del
sistema, la contingencia es preservar los conjuntos de datos de manera local mientras se
restablece el sistema.

1.2.1 Inventario de recursos


 Recursos de hardware: para el manejo y extracción de datos de tiene los siguientes
equipos de Cómputo:
o Equipo de mesa: procesador RIZEN 5 5600G, 16 GB Ram, discos duros de estado
sólido 512 Gb y 1Tb mecánico.
o Portátil Asus Vivobook procesador Core i5 11va Generación, 8GB Ram y discos
duros de estado solido de 256Gb y 512GB
 Recursos de Conectividad: Internet de fibra óptica de 300 Mbps de velocidad.
 El origen de los datos se encuentran disponibles en el siguiente link:
https://www.datos.gov.co/Gastos-Gubernamentales/SECOP-II-Contratos-Electr-nicos/jbjy-
vk9h, los datos son visualizados mediante la estructura de dato abierto, por lo tanto su
acceso es publico y no se requiere de algún tipo de inicio de sesión o acceso con seguridad
para la consulta de los datos.
 El conjunto de datos cuenta con distintas formas de formatos para consultas y/o
descargue de información, JSON, Odata y exportes para almacenamiento local en
extensiones CSV, XLS, TSV, XLM.

1.2.2 Requisitos, supuestos y restricciones


 La ventaja de utilizar datos abiertos almacenados en los conjuntos de datos de la
plataforma del Ministerio de las Tics es que sus requisitos son mínimos, solo acceso a
internet.
 Al ser de consulta pública y estar en un portal web, no hay ninguna restricción para
visualizar descargar y analizar los contenidos de los registros que contienen estas bases de
datos.
 No existen restricciones legales para la consulta y manejo de los registros contenidos en el
conjunto de datos.
 Al ser datos tomados directamente de los contratos electrónicos firmados entre entidades
del Estado y proveedores mediante la plataforma transaccional SECOP II, la calidad de los
datos es real y consistentes.

1.2.3 Riesgos y contingencias


 Riesgo Programación: No conclusión del proyecto teniendo en cuenta que la
programación del proyecto es de 8 semanas dedicando 2 horas diarias.
 Contingencia Programación: Aumentar el esfuerzo en la cantidad de horas dedicadas para
la conclusión del proyecto
 Riesgo Datos: Caída de la plataforma de datos.gov.co en la web y no visualización de los
datos.
 Contingencia Datos: Almacenamiento del conjunto de datos a nivel local.

1.2.4 Terminología
1.2.5 Análisis de costes/beneficios
 Al completar el objetivo comercial del proyecto se disminuyen los tiempos de análisis de
oferta y demanda y aumentaría la cantidad de estudios del sector que se producirían para
las entidades del Estado que soliciten el servicio, a su vez, eso daría resultados más
efectivos y productos de mayor calidad a los que se presentan actualmente dando una
mayor credibilidad y profesionalismo a la empresa.
 La disminución en los tiempos en la realización de los productos de análisis, hace que la
empresa, WS INGENIERIA SAS, pueda abarcar mayor cantidad de solicitudes de servicios
de minería de datos en esta área y aumentaría la productividad que se traducirá en
mayores utilidades para la empresa.
1.3 Determinación de los objetivos de minería de datos
Teniendo en cuenta el objetivo comercial del proyecto de minería de datos los objetivos de la
minería de datos son los siguientes:

1.3.1 Objetivos de minería de datos


1.3.1.1 Objetivo principal
 Segmentar la información de los datos abiertos de la contratación pública para la
realización de análisis de demanda y oferta en los estudios del sector

1.3.1.1.1 Objetivos específicos


 Segmentar por entidad y producto la contratación publica desde la vigencia 2018.
 Segmentar por producto y modalidad la contratación publica registrada en Secop II desde
la vigencia 2018
 Crear medidas de tendencia poblacional, promedio y mediana segmentada por producto
de la contratación pública registrada en Secop II desde la vigencia 2018

1.4 Producción de un plan de proyecto


1.4.1 Plan de proyecto de la muestra
A continuación, se describen los tiempos para la elaboración del proyecto

SEMANAS
FASE RECURSOS 1 2 3 4 5 6 7 8
COMPRENSION DEL NEGOCIO ANALISTA MINERIA                
COMPRENSION DE LOS DATOS ANALISTA MINERIA                  
PREPARACION DE LOS DATOS ANALISTA MINERIA                  
MODELADO ANALISTA MINERIA                
EVALUACION ANALISTA MINERIA                
DISTRIBUCION ANALISTA MINERIA                
Tabla 1 plan de trabajo proyecto de minería

Las fases del proyecto se encuentran planificadas en el tiempo de duración de la materia de


Minería de datos.

2 COMPRENSIÓN DE LOS DATOS


2.1 Recopilación de datos Iniciales
Como bien se ha descrito anteriormente, la fuente de los datos se encuentra en el portal de datos
abiertos datos.gov.co, el conjunto de datos a visualizar y analizar es SECOP II - Contratos
Electrónicos y la información del conjunto de datos es la siguiente:

Información de acceso
https://www.datos.gov.co/Gastos-
Enlace de acceso Gubernamentales/SECOP-II-Contratos-
Electr-nicos/jbjy-vk9h
Información de la Entidad
Área o dependencia Subdirección de IDT
Agencia Nacional de Contratación Pública
Nombre de la Entidad
Colombia Compra Eficiente
Departamento Bogotá D.C.
Municipio Bogotá D.C.
Orden Nacional
Sector Planeación
Información de Datos
Idioma Español
Cobertura Geográfica Nacional
Frecuencia de Actualización Diaria
Fecha Emisión (aaaa-mm-dd) 1/10/2019
Temas
Categoría Gastos Gubernamentales
procesos de contratación,compra
Etiquetas
pública,contratos,secop
Licencia y atribución

Licencia

Enlace de la fuente https://colombiacompra.gov.co


Tabla 2 Datos conjunto de datos - Contratos Electrónicos SECOP II

Las variables del Conjunto de datos con las siguientes:


Nombre del Campo Descripción del campo Tipo campo
Nombre Entidad Nombre de la entidad del estado que publica el contrato Texto simple
Nit Entidad NIT de la entidad del estado que publica el contrato Número
Departamento Departamento en el cual se registró la entidad del estado que publica el contrato Texto simple
Ciudad Ciudad en el cual se registró la entidad del estado que publica el contrato Texto simple
Localización Ubicación completa de la entidad del estado que publica el contrato Texto simple
Orden Orden entidad del estado que publica el contrato Texto simple
Sector Sector entidad del estado que publica el contrato Texto simple
Rama Rama del estado de la entidad que publica el contrato Texto simple
Entidad Centralizada Define si la entidad es descentralizada o centralizada Texto simple
Proceso de Compra Identificador del proceso de compra publicado Texto simple
ID Contrato Identificador del contrato firmado, generado por la plataforma Texto simple
Referencia del Contrato Identificador del contrato firmado, generado por la entidad del estado Texto simple
Estado Contrato Estado del contrato, frente a su ejecución, firma o liquidación Texto simple
Codigo de Categoria Principal Codigo UNSPSC de la categoría principal para el contrato Texto simple
Descripcion del Proceso Descripción del objeto del proceso de compra Texto simple
Tipo de Contrato Tipo de contrato de acuerdo a su marco jurídico Texto simple
Modalidad de Contratacion Modalidad de contratación de acuerdo al modelo de selección Texto simple
Justificación de la modalidad, el escenario bajo el cual se toma la decisión de definir una u otra modalidad de
Justificacion Modalidad de Contratacion Texto simple
contratación
Fecha de Firma Fecha en que fué firmado digitalmente el contrato Fecha y hora
Fecha de Inicio del Contrato Fecha de inicio de las responsabilidades contractuales Fecha y hora
Fecha de Fin del Contrato Fecha de fin de las responsabilidades contractuales Fecha y hora
Fecha de Inicio de Ejecucion Fecha de inicio de la ejecución de las actividades del contrato Fecha y hora
Fecha de Fin de Ejecucion Fecha de fin de la ejecución de las actividades del contrato Fecha y hora
Condiciones de Entrega Condiciones bajo las cuales se entrega el producto o servicio Texto simple
TipoDocProveedor Tipo de documento del proveedor adjudicado Texto simple
Documento Proveedor Número de documento del proveedor adjudicado Texto simple
Proveedor Adjudicado Nombre del proveedor adjudicado Texto simple
Determina el proveedor es un grupo de entidades, existe un conjunto de datos de CCE que contiene la
Es Grupo Texto simple
conformación de los grupos
Es Pyme Determina si la empresa es una Pyme Texto simple
Habilita Pago Adelantado Determina si el contrato tiene habilitada la opción de pago de adelantos Texto simple
Liquidación Determina si el contrato ha sido liquidado Texto simple
Obligación Ambiental Determina si el contrato tiene compromisos de cumplimiento a obligaciones ambientales Texto simple
Nombre del Campo Descripción del campo Tipo campo
Determina si el contrato tiene compromisos de cumplimiento a obligaciones posteriores a la entrega del
Obligaciones Postconsumo Texto simple
producto o prestación del servicio
Reversion Determina si el contrato ha sido reversado Texto simple
Valor del Contrato Valor total del contrato Número
Valor de pago adelantado Valor del pago por adelantado Número
Valor Facturado Valor Facturado a la fecha Número
Valor Pendiente de Pago Valor Pendiente de Pago a la fecha Número
Valor Pagado Valor Pagado a la fecha Número
Valor Amortizado Valor Amortizado a la fecha Número
Valor Pendiente de Amortizacion Valor Pendiente de Amortizacion a la fecha Número
Valor Pendiente de Ejecucion Valor Pendiente de Ejecucion a la fecha Número
Estado BPIN Estado de asignación del código del Banco de Proyectos de Inversión Texto simple
Código BPIN Código asociado al Banco de Proyectos de Inversión Texto simple
Anno BPIN Año de asignación del código del Banco de Proyectos de Inversión Texto simple
Saldo CDP Saldo del CDP asignado al proceso y al contrato Número
Saldo Vigencia Saldo actual para la vigencia del CDP asignado al proceso y al contrato Número
EsPostConflicto Determina si el proceso está asociado a algún evento de acuerdo de paz Texto simple
URLProceso URL del proceso de compra en la plataforma SECOP II URL del sitio web
Destino Gasto Destino del gasto, a nivel presupuestal Texto simple
Origen de los Recursos Origen de los Recursos, a nivel presupuestal Texto simple
Dias Adicionados Número de días en que el contrato ha sido adicionado Número
En caso de ser un proceso que da cumplimiento a compromisos en el acuerdo de paz, determina a qué puntos
Puntos del Acuerdo Texto simple
da conformidad
En caso de ser un proceso derivado de compromisos del acuerdo de paz, define el pilar de acuerdo de paz al
Pilares del Acuerdo Texto simple
que corresponde
Nombre Representante Legal Nombre del Representante legal de la empresa proveedora Texto simple
Nacionalidad Representante Legal Nacionalidad del representante legal de la empresa proveedora Texto simple
Tipo de Identificación Representante
Tipo de identificación del representante legal de la empresa proveedora Texto simple
Legal
Identificación Representante Legal Número de identificación del representante legal Texto simple
Género Representante Legal Género del representante legal Texto simple
Presupuesto General de la Nacion – PGN Valor de origen de los recursos que corresponde al Presupuesto General de la Nacion – PGN Número
Sistema General de Participaciones Valor de origen de los recursos que corresponde al Sistema General de Participaciones Número
Sistema General de Regalías Valor de origen de los recursos que corresponde al Sistema General de Regalías Número
Recursos Propios (Alcaldías, Valor de origen de los recursos que corresponden a Recursos Propios (Alcaldías, Gobernaciones y Resguardos
Número
Gobernaciones y Resguardos Indígenas) Indígenas)
Recursos de Credito Valor de origen de los recursos que corresponde a Recursos de Credito Número
Recursos Propios Valor de origen de los recursos que corresponde a Recursos Propios Número
Ultima Actualizacion Fecha de actualización del registro Fecha y hora
Codigo Entidad Codigo generado en la plataforma para la entidad Texto simple
Fecha Inicio Liquidacion Fecha en la que se inicia el proceso de liquidación del contrato Texto simple
Fecha Fin Liquidacion Fecha en la que finaliza el proceso de liquidación del contrato Texto simple
Codigo Proveedor Texto simple
Objeto del Contrato Objeto de ejecución definido en la redacción del contrato Texto simple
Tabla 3 columnas y descripción conjunto de datos

2.1.1 Categorías de las variables


Con el fin de categorizar las variables del conjunto se datos se toma la jerarquía de cuatro niveles
de medición de Likert:

1 Datos nominales: El nivel de medición más débil que representa categorías sin
representación numérica.
2 Datos ordinales: Datos en los que es posible ordenar o clasificar las respuestas, pero
no es posible medir la distancia.
3 Datos de intervalo: En general, datos enteros en los que se pueden realizar
mediciones de pedidos y distancias.
4 Datos de relación: datos en los que es posible el ordenamiento significativo, distancia,
decimales y fracciones entre variables

Variable Escala
Nombre Entidad Relación
Nit Entidad Nominal
Departamento Relación
Ciudad Relación
Localización Relación
Orden Relación
Variable Escala
Sector Relación
Rama Relación
Entidad Centralizada Relación
Proceso de Compra Nominal
ID Contrato Nominal
Referencia del Contrato Nominal
Estado Contrato Relación
Codigo de Categoria Principal Relación
Descripcion del Proceso Nominal
Tipo de Contrato Relación
Modalidad de Contratacion Relación
Justificacion Modalidad de Contratacion Ordinal
Fecha de Firma Ordinal
Fecha de Inicio del Contrato Ordinal
Fecha de Fin del Contrato Ordinal
Fecha de Inicio de Ejecucion Nominal
Fecha de Fin de Ejecucion Nominal
Condiciones de Entrega Nominal
TipoDocProveedor Relación
Documento Proveedor Nominal
Proveedor Adjudicado Nominal
Es Grupo Nominal
Es Pyme Nominal
Habilita Pago Adelantado Nominal
Liquidación Nominal
Obligación Ambiental Nominal
Obligaciones Postconsumo Nominal
Reversion Nominal
Valor del Contrato Intervalo
Valor de pago adelantado Nominal
Valor Facturado Nominal
Valor Pendiente de Pago Nominal
Valor Pagado Nominal
Valor Amortizado Nominal
Valor Pendiente de Amortizacion Nominal
Valor Pendiente de Ejecucion Nominal
Estado BPIN Nominal
Código BPIN Nominal
Anno BPIN Nominal
Saldo CDP Nominal
Saldo Vigencia Nominal
EsPostConflicto Nominal
URLProceso Nominal
Destino Gasto Ordinal
Origen de los Recursos Ordinal
Dias Adicionados Nominal
Puntos del Acuerdo Nominal
Pilares del Acuerdo Nominal
Nombre Representante Legal Nominal
Nacionalidad Representante Legal Nominal
Tipo de Identificación Representante Legal Nominal
Identificación Representante Legal Nominal
Género Representante Legal Nominal
Presupuesto General de la Nacion – PGN Nominal
Sistema General de Participaciones Nominal
Sistema General de Regalías Nominal
Recursos Propios (Alcaldías, Gobernaciones y
Nominal
Resguardos Indígenas)
Recursos de Credito Nominal
Recursos Propios Nominal
Ultima Actualizacion Nominal
Codigo Entidad Ordinal
Variable Escala
Fecha Inicio Liquidacion Nominal
Fecha Fin Liquidacion Nominal
Codigo Proveedor Ordinal
Objeto del Contrato Nominal
Tabla 4 tabla de categorización de variables

2.1.2 Estadísticas del conjunto de datos


Con el fin de comprensión inicial del conjunto de manera estadística y teniendo en cuenta que el
análisis de demanda y oferta es de carácter económico, a continuación, se presenta un cuadro de
análisis estadístico con el campo que se tendrá en cuenta como variable, lo demás campos serán
para segmentación del análisis:

Variable N mínimo máximo Media Desv. Tip


valor_del_contrato 2.482.856 $ 0 $ 8.929.771.836.400.900,00 $ 66.880.329.107,09 $ 15.268.237.773.059,90
Tabla 5 estadística inicial campo variable valor_del_contrato

Del cuadro anterior se puede definir que hay 2.482.856 registros que en promedio de valor es de $
66.880.329.107,09

2.1.3 Estadística inicial por modalidad

Modalidad N
CCE-19-Concurso_Meritos_Con_Lista_Corta_1Sobre 3
CCE-20-Concurso_Meritos_Sin_Lista_Corta_1Sobre 3.159
Concurso de méritos abierto 4.965
Concurso de méritos con precalificación 1
Contratación directa 1.889.553
Contratación Directa (con ofertas) 45.522
Contratación régimen especial 290.638
Contratación régimen especial (con ofertas) 20.612
Enajenación de bienes con sobre cerrado 152
Enajenación de bienes con subasta 94
Licitación pública 7.632
Licitación Pública Acuerdo Marco de Precios 1.245
Licitación pública Obra Publica 4.515
Mínima cuantía 157.062
No Definido 4.587
Selección Abreviada de Menor Cuantía 28.010
Seleccion Abreviada Menor Cuantia Sin Manifestacion Interes 695
Selección abreviada subasta inversa 24.411
N total 2.482.856
Min 1
Max 1.889.553
Media 137.936
Desviación 443.322
Tabla 6 análisis estadístico inicial campo modalidad
Ilustración 2 análisis estadístico inicial campo modalidad

En el análisis inicial anterior se encuentra en modalidad un segmento “no definido” que evidencia
una inconsistencia y 4.587 datos que no están tipificados en modalidad y que ponen en riesgo el
análisis de los datos en esta segmentación.

2.1.4 Estadística Inicial por departamento

Departamento N

Amazonas 2.099

Antioquia 197.060

Arauca 10.266

Atlántico 79.259

Bolívar 59.360

Boyacá 45.501

Caldas 37.896

Caquetá 11.246

Casanare 27.859

Cauca 33.216

Cesar 23.059

Chocó 12.484

Córdoba 15.531

Cundinamarca 82.566
Departamento N

Distrito Capital de Bogotá 1.038.264

Guainía 1.103

Guaviare 1.964

Huila 39.771

La Guajira 10.253

Magdalena 30.298

Meta 50.155

Nariño 35.807

No Definido 11.342

Norte de Santander 50.578

Putumayo 13.690

Quindío 44.100

Risaralda 50.417
San Andrés, Providencia y Santa
19.953
Catalina
Santander 110.214

Sucre 21.965

Tolima 64.815

Valle del Cauca 245.548

Vaupés 688

Vichada 4.529

N Total 2.482.856

Min 688

Max 1.038.264

Media 73.025

Desviacion 178.376
Tabla 7 análisis estadístico inicial campo departamento
Ilustración 3 análisis estadístico inicial campo departamento

En el análisis inicial anterior se encuentra en departamento un segmento “no definido” que


evidencia una inconsistencia y 11.342 datos que no están tipificados en departamento y que
ponen en riesgo el análisis de los datos en esta segmentación.

2.2 Verificación de calidad de los datos


De acuerdo con los análisis iniciales al conjunto de datos se puede concluir:

 Existen inconsistencias en la calidad de los datos en el campo modalidad, teniendo en


cuenta que todos los contratos deben tener una modalidad de contratación, en total son
11.342
 Existen inconsistencias en la calidad de los datos en el campo departamento, teniendo en
cuenta que todos los contratos deben tener una modalidad de contratación, en total son
11.342
 Como hipótesis inicial se relaciona a registros nulos
 Se debe realizar una limpieza de datos para tener mayor consistencia en la calidad de los
datos.

3 PREPARACIÓN DE DATOS
Con el fin de realizar preparación y limpieza de datos se pretende realizar las siguientes acciones:
3.1 Selección de los datos
Teniendo en cuenta que el conjunto de datos contiene 71 campos, se procede a seleccionar las
columnas que se necesiten tanto para los objetivos comerciales como los objetivos principales y
específicos del proyecto y el ejercicio de análisis de datos, su selección se representa en el
siguiente cuadro:

Nombre del Campo Tipo campo Selección variable


Nit Entidad Número eliminado no hace parte del objetivo
Proceso de Compra Texto simple eliminado no hace parte del objetivo
ID Contrato Texto simple eliminado no hace parte del objetivo
Referencia del Contrato Texto simple eliminado no hace parte del objetivo
Descripcion del Proceso Texto simple eliminado no hace parte del objetivo
Justificacion Modalidad de
Texto simple eliminado no hace parte del objetivo
Contratacion
Fecha de Inicio de Ejecucion Fecha y hora eliminado no hace parte del objetivo
Fecha de Fin de Ejecucion Fecha y hora eliminado no hace parte del objetivo
Condiciones de Entrega Texto simple eliminado no hace parte del objetivo
Documento Proveedor Texto simple eliminado no hace parte del objetivo
Es Grupo Texto simple eliminado no hace parte del objetivo
Es Pyme Texto simple eliminado no hace parte del objetivo
Habilita Pago Adelantado Texto simple eliminado no hace parte del objetivo
Liquidación Texto simple eliminado no hace parte del objetivo
Obligación Ambiental Texto simple eliminado no hace parte del objetivo
Obligaciones Postconsumo Texto simple eliminado no hace parte del objetivo
Reversion Texto simple eliminado no hace parte del objetivo
Valor de pago adelantado Número eliminado no hace parte del objetivo
Valor Facturado Número eliminado no hace parte del objetivo
Valor Pendiente de Pago Número eliminado no hace parte del objetivo
Valor Pagado Número eliminado no hace parte del objetivo
Valor Amortizado Número eliminado no hace parte del objetivo
Valor Pendiente de Amortizacion Número eliminado no hace parte del objetivo
Valor Pendiente de Ejecucion Número eliminado no hace parte del objetivo
Estado BPIN Texto simple eliminado no hace parte del objetivo
Código BPIN Texto simple eliminado no hace parte del objetivo
Anno BPIN Texto simple eliminado no hace parte del objetivo
Saldo CDP Número eliminado no hace parte del objetivo
Saldo Vigencia Número eliminado no hace parte del objetivo
EsPostConflicto Texto simple eliminado no hace parte del objetivo
URLProceso URL del sitio web eliminado no hace parte del objetivo
Destino Gasto Texto simple eliminado no hace parte del objetivo
Origen de los Recursos Texto simple eliminado no hace parte del objetivo
Dias Adicionados Número eliminado no hace parte del objetivo
Puntos del Acuerdo Texto simple eliminado no hace parte del objetivo
Pilares del Acuerdo Texto simple eliminado no hace parte del objetivo
Nombre Representante Legal Texto simple eliminado no hace parte del objetivo
Nacionalidad Representante Legal Texto simple eliminado no hace parte del objetivo
Tipo de Identificación Representante
Texto simple eliminado no hace parte del objetivo
Legal
Identificación Representante Legal Texto simple eliminado no hace parte del objetivo
Género Representante Legal Texto simple eliminado no hace parte del objetivo
Presupuesto General de la Nacion –
Número eliminado no hace parte del objetivo
PGN
Sistema General de Participaciones Número eliminado no hace parte del objetivo
Sistema General de Regalías Número eliminado no hace parte del objetivo
Recursos Propios (Alcaldías,
Gobernaciones y Resguardos Número eliminado no hace parte del objetivo
Indígenas)
Recursos de Credito Número eliminado no hace parte del objetivo
Recursos Propios Número eliminado no hace parte del objetivo
Nombre del Campo Tipo campo Selección variable
Ultima Actualizacion Fecha y hora eliminado no hace parte del objetivo
Fecha Inicio Liquidacion Texto simple eliminado no hace parte del objetivo
Fecha Fin Liquidacion Texto simple eliminado no hace parte del objetivo
Codigo Proveedor Texto simple eliminado no hace parte del objetivo
Objeto del Contrato Texto simple eliminado no hace parte del objetivo
Nombre Entidad Texto simple seleccionado dependiente u objetivo
Departamento Texto simple seleccionado Independiente o explicativa
Ciudad Texto simple seleccionado Independiente o explicativa
Localización Texto simple seleccionado Independiente o explicativa
Orden Texto simple seleccionado Independiente o explicativa
Sector Texto simple seleccionado Independiente o explicativa
Rama Texto simple seleccionado Independiente o explicativa
Entidad Centralizada Texto simple seleccionado Independiente o explicativa
Estado Contrato Texto simple seleccionado Independiente o explicativa
Codigo de Categoria Principal Texto simple seleccionado Independiente o explicativa
Tipo de Contrato Texto simple seleccionado Independiente o explicativa
Modalidad de Contratacion Texto simple seleccionado dependiente u objetivo
Fecha de Firma Fecha y hora seleccionado Independiente o explicativa
Fecha de Inicio del Contrato Fecha y hora seleccionado Independiente o explicativa
Fecha de Fin del Contrato Fecha y hora seleccionado Independiente o explicativa
TipoDocProveedor Texto simple seleccionado Independiente o explicativa
Proveedor Adjudicado Texto simple seleccionado Independiente o explicativa
objetivo esta variable dicotomica y
Valor del Contrato Número seleccionado sus categorias son modalidad,
nombre entidad
Codigo Entidad Texto simple seleccionado Independiente o explicativa
Tabla 8 selección de datos

El anterior cuadro denota la selección de atributos o características(columnas) que implican la


toma de decisiones sobre el uso de características para el ejercicio del objetivo de minería de
datos.

3.2 Limpieza de datos


 Con el fin de aumentar la calidad de los datos se realiza la eliminación de los 11.342
registros nulos.
 En el análisis inicial y realizando la limpieza de datos con registros nulos, los campos
seleccionados no presentan errores de datos, incoherencias en la codificación o datos
perdidos.

También podría gustarte