Está en la página 1de 8

Minería de Datos

Momento 1

Informe taller preprocesamiento,


integración y limpieza de datos

Integrantes:

Andrés Felipe Castro Sanchez

María Alejandra Maldonado Rojas

Nicolas Felipe Reyes Carrillo

Instructor:

Fredys Alberto Simanca Herrera

Bogotá D.C

2020

Introducción:
En el presente proyecto se tiene como finalidad aplicar los conceptos adquiridos durante la

clase de minería de datos en el tema de procesamiento, integracion y limpieza de datos con

el fin de adquirir el conocimiento de la manipulación de la informacion como lo es Escala y

normalización.

En el cual se listará los procesos realizados desde la instalación del ambiente de trabajo

IDE, librerías y codificación necesaria.

Metodología:

1. En primer lugar, se debe tener instalado Python y algún IDE con las librerías

necesarias como lo son numpy, sklearn y pandas para poder ejecutar todo el código
propuesto, inmediatamente se debe descargar la base de datos de homicidios o hurtos

del año que se desee.

2. Una vez se descargue el archivo se abre el Excel y se guarda con formato cvs sin

comas y se pasa al sublime text para poder ser editado correctamente y quitarle los

datos adicionales.

3. Ya cuando se guarde el documento, se procede a abrir el spyder y se llamará la data

con el siguiente comando haciendo uso de la librería panda:

4. Se ejecutará este comando y se debe mostrar en la pestaña de variable Explorer un

visualizador de la data:
5. A continuación, se debe realizar la limpieza y adecuación de los datos ejecutando los

siguientes comandos:

 El primero sirve para eliminar en la columna de municipio todo lo que no sea

igual a BOGOTÁ D.C

 El segundo sirve para eliminar las columnas Departamento, Código DANE y

fecha hecho los cuales son datos no necesarios.

De esta manera solo quedan los datos solicitados.


6. El siguiente paso es crear variables las cuales van a recibir los elementos de la

matriz Homicidios.csv en posición 1,2,3 los cuales son “Armas

medios”,”Genero”,”agrupa edad personas” respectivamente

7. Se ejecutan las sentencias para el tratamiento de la data, de esta manera se

normaliza la informacion para ser manipulada mediante codificación.

8. En las siguientes imágenes podemos observar la relación directa entre la tabla

de principal y las subtablas:


 Para la variable x podemos observar la numeración asignada la cual es:

 0: Armas blanca/cortopunzante

 1: Armas de fuego

 2: Contundentes

 Para la sub matriz Y podemos evidenciar la asignación numérica para el

género el cual es

 0: Femenino

 1: Masculino
 Para la sub matriz Z podemos evidenciar la asignación numérica para la

agrupación de edades la cual es:

 0: Adolescentes

 1: Adultos

 2: Menores

También podría gustarte