Está en la página 1de 9

SIDIH: Cobertura Vivienda SISBEN con Alcantarillado APLICANDO MINERÍA

DE DATOS

ESTUDIANTES:
ANDRES FELIPE AVILA HERNANDEZ
MARIO DAVID MONTERO GALVAN

PROGRAMA DE INGENIERÍA DE SISTEMAS


FACULTAD DE INGENIERÍAS Y TECNOLOGÍAS

UNIVERSIDAD POPULAR DEL CESAR


VALLEDUPAR - 2017
SIDIH: Cobertura Vivienda SISBEN con Alcantarillado APLICANDO MINERÍA
DE DATOS

ANDRES FELIPE AVILA HERNANDEZ


MARIO DAVID MONTERO GALVAN

Trabajo de Minería de Datos presentado como requisito para aprobar el curso de


BASE DE DATOS II

Docente: ALVARO OÑATE BOWEN


Magister Sistemas y Computación
alvaroonate@unicesar.edu.co

PROGRAMA DE INGENIERÍA DE SISTEMAS


FACULTAD DE INGENIERÍAS Y TECNOLOGÍAS
UNIVERSIDAD POPULAR DEL CESAR
Valledupar – 2017
1. INTRODUCCION

El Sistema de Selección de Beneficiarios Para Programas Sociales (SISBEN) es


una herramienta, conformada por un conjunto de reglas, normas y procedimientos
para obtener información socioeconómica confiable y actualizada de grupos
específicos en todos los departamentos, distritos y municipios del país. Lo que se
busca con la información que arroja el SISBEN es focalizar el gasto público para
de esta manera garantizar que el gasto social sea asignado a los grupos de
población más pobres y vulnerables.

La minería de datos es un área relativamente “nueva” y prometedora, se puede


definir como el proceso de descubrir la información procesable de conjuntos
enormes de datos, encontrando patrones y tendencias; puede hacer uso de
estadística, Aprendizaje Automático (machine learning), Inteligencia Artificial y
técnicas de visualización de datos.

En este proyecto se pretende analizar los resultados obtenidos en la investigación,


cuyo objetivo es detectar cuántas viviendas beneficiadas con el sistema SISBEN
tienen acceso al servicio de alcantarillado aplicando en Colombia utilizando las
herramientas de Minería de Datos.
2. FASE I: COMPRENSION DEL NEGOCIO

2.1. DETERMINACION DE LOS OBJETIVOS COMERCIALES

2.1.1. INFORMACION DE LA EMPRESA

El Sisbén es el Sistema de Identificación de Potenciales Beneficiarios de


Programas Sociales que, a través de un puntaje, clasifica a la población de
acuerdo con sus condiciones socioeconómicas.

2.1.2. ESTRUCTURA DE LA ORGANIZACIÓN

● ENTIDADES ABSCRITAS

➢ EPS
➢ Ministerio de Salud y Protección Social
➢ DNP
➢ Gobierno en Línea
➢ Veeduría Distrital
➢ Procuraduría General de la Nación
➢ Contraloría General de la Nación
➢ Portal de Contratación - SECOP
2.1.3. AREA DE LA PROBLEMÁTICA

Identificar las viviendas que están registradas en el Sistema de Selección de


Beneficiarios Para Programas Sociales (SISBEN) que tienen el acceso al servicio
de alcantarillado

2.1.4. DEFINICION DE LOS OBJETIVOS COMERCIALES

con este proyecto se busca que se determine, a través del análisis de las
viviendas registradas en el Sisbén cuenten con el servicio de alcantarillado, con el
fin de:

● Permitir realizar análisis cualitativos y cuantitativos de los datos, para


gestionar planes de prevención a las viviendas que no tienen acceso al
servicio de alcantarillado

● Extraer las ciudades con mayor volumen de viviendas que tienen acceso al
servicio de alcantarillado

● extraer las ciudades con menor volumen de viviendas que tienen acceso al
servicio de alcantarillado

● extraer todas las viviendas del país que no tienen acceso al servicio de
alcantarillado

2.2. VALORACION DE LA SITUACION

También se dispone de un hardware que tiene a disposición un procesador AMD


A8 Quad Core x4. Este hardware puede ayudar en la visualización de la
información, como también en la realización de estadísticas para así lograr
obtener resultados que aporten a el análisis.

A continuación vemos la situación en la que se encuentra el proyecto:

2.2.1. PERSONAL

En cuanto al personal que se necesita para realizar el análisis, se dispone con dos
Integrantes, los cuales tienes los conocimientos necesarios del problema lo que
nos permite tener una mayor observación y mayor claridad de la información ya
que cuentan con las competencias requeridas para que se puedan realizar
propuesta y llegar a la toma de decisiones.
2.2.2. DATOS

Para el correspondiente análisis de los datos se cuenta con un archivo CSV el cual
dispone de una cantidad masiva de datos y un peso de 300kb el análisis se
enfocará en Colombia, así podemos tener resultados más precisión al momento
del estudio

2.2.3. RIESGOS

A pesar de que la cantidad de datos es elevada y de que los conceptos de minería


de datos son algo complejo, no existen riesgos que pongan en peligro este
proyecto, así que se puede realizar con toda seguridad teniendo en cuenta el
tiempo presupuestado.

2.2.4. INVENTARIO DE RECURSOS

2.2.4.1. RECURSOS DE HARDWARE

Los recursos tecnológicos que se utilizarán constan de equipos de cómputo con la


Suficiente capacidad de procesamiento, Red para acceso a Internet e IBM SPSS
STATISTICS, Excel y Rapidminer como software para el análisis de la base de
datos.

2.2.4.2. ORIGENES DE DATOS Y ALMACENES DE CONOCIMIENTOS

Los datos se encuentran organizados de manera estructurada y contiene un total


de 4472 datos correspondientes al total de viviendas registradas en el SISBEN en
Colombia, además se encuentran almacenados en un libro de Excel el cual no
tiene contraseñas de acceso y tampoco cuenta con claves de seguridad.

2.2.4.3. IDENTIFICAR RECURSOS PERSONALES

Se dispone de un Maestro, el cual es el que evalúa este proyecto y nos brinda las
pautas para su desarrollo gracias a su experiencia en las técnicas de minería de
datos.

2.2.5. REQUISITOS, SUPUESTOS Y RESTRICCIONES

2.2.5.1. DETERMINAR REQUISITOS

No existen ninguna restricción legal y de seguridad sobre los datos o resultados


del proyecto que se está llevando a cabo por el equipo de trabajo, los resultados
del análisis serán publicado en una base de datos de forma estructurada por los
estudiantes que realizan el proyecto.
2.2.5.2. DESCRIBIR LOS SUPUESTOS

El factor económico no afecta en la realización del proyecto ya que son datos


abiertos siniestrados por entidades del gobierno como los es el SISBEN, además
se cuenta con horarios de asesoría directa por parte de nuestro Maestro y
evaluador de proyecto, se pretende conocer el modelo usado para dar solución al
problema y poder así visualizar los datos encontrados.

2.2.5.3. COMPROBAR LAS RESTRICCIONES

No existen restricciones de ningún tipo para la realización de este proyecto en sus


datos

2.2.5.4. RIESGOS Y CONTINGENCIAS

El proyecto se encuentra previamente estudiado con base a eso se estimó el


tiempo necesario para llevarlo a cabo de forma completa, cualquier tipo de
resultado se considera como relevante en el análisis que se llevará a cabo con las
herramientas computacionales a utilizar.

2.2.5.5. ANALISIS DE COSTES/BENEFICIOS

La prioridad principal del proyecto es conocer los resultados y entender el modelo


de forma precisa, para sí poder tener certeza en las decisiones que se puedan
tomar gracias a esos resultados y todo esto aplicando minería de datos.

2.3. DETERMINACION DE LOS OBJETIVOS DE LA MINERIA DE


DATOS

2.3.1. OBJETIVOS DE LA MINERIA DE DATOS

● Realización de consultas mucho más complejas de sus datos que utilizando


métodos de consulta convencionales

● Proponer e implementar un modelo predictivo para el agrupamiento de los


datos.

● Realizar una evaluación sistemática del modelo propuesto y un análisis de


los resultados obtenidos.

2.3.2. CRITERIOS DE RENDIMIENTOS DE MINERIA DE DATOS


● Lograr explorar los datos aplicando las técnicas de la minería ya que
esta técnica nos va a permitir obtener unos resultados óptimos.

● Realizar cada una de las fases de la metodología CRISP-DM para tener


una documentación precisa al momento de necesitar una segunda
opinión.

● Garantizar que la población a la cual se le está aplicando el análisis de


minería de datos reciba la publicación de los resultados del análisis de
resultados del proyecto.

2.4. PRODUCCION DE UN PLAN DE PROYECTO

FASE TIEMPO RECURSOS RIESGO

indecisión al momento de
COMPRESIÓN DEL 1 ANDRES AVILA/MARIO
escoger los datos en los
NEGOCIO semana MONTERO
que se trabajara
ANDRES AVILA/MARIO no contar con el
COMPRESIÓN DE 3 MONTERO adecuado manejo de las
DATOS semanas herramientas de
desarrollo
ANDRES AVILA/MARIO
poca experiencia en el
PREPARACIÓN DE 3 MONTERO
manejo de la herramienta
LOS DATOS semanas
ETL
ANDRES AVILA/MARIO
MONTERO dilatación en seleccionar
2 de un modelo adecuado
MODELADO
semanas para los objetivos
planteados

ANDRES AVILA/MARIO
NO SER capaces de
2 MONTERO
EVALUACIÓN comprender fallas de los
semanas
resultados analizados
ANDRES AVILA/MARIO
3 MONTERO fallar en el proceso de
DISTRIBUCIÓN
semanas análisis de los datos

2.4.1. PLAN DE PROYECTO DE MUESTRA

Cronograma de actividades ordenados por semanas


3. FASE II: COMPRENSIÓN DE LOS DATOS

El conjunto de datos es tomado de la página web HDX, the humanitarian Data


Exchange donde lleva un registro de porcentaje de viviendas registradas en el
sisben que tienen acceso al servicio de alcantarillado.

3.1. DESCRIPCIÓN DE LOS DATOS

la estructura del DATASET es un archivo csv que a través del SISBEN contiene la
información de los porcentajes de viviendas tienen acceso al servicio de
alcantarillado en el país de colombia seleccionado por departamentos del 01 de
enero de 2004 hasta el 31 de mayo de 2013, por cual se le realizará el proceso de
minería de datos.

A continuación, le presentaremos la información original del archivo:

● Nombre del archivo: SIDIH: Cobertura Vivienda SISBEN con Alcantarillado


● Tipo de archivo: archivo delimitado por columnas (.csv)
● Tamaño del archivo: 228 KB
● Número total de columnas: 8
● Numero de filas: 4471

En la siguiente tabla se muestra todos los atributos con su respectiva descripción y


el tipo de dato.

También podría gustarte