Está en la página 1de 17

Universidad Cooperativa de Colombia.

Facultad de Ingeniería de sistemas.

Minería de datos.

Profesor: Ing. Fredys Alberto Simanca Herrera.

Alumnos: Juan Esteban De La Cruz Girón - Jhonn Andersson Luna Acosta.

Taller pre-procesamiento, integración y limpieza de datos.

Popayán, Cauca

26 de septiembre de 2020

EJERCICIO.
Elaborar en grupos de máximo tres (3) integrantes, el siguiente trabajo de taller de pre-
procesamiento, integración y limpieza de datos.

Descargue la data de estadísticas de Homicidios o de Hurtos de la Policía Nacional


(https://www.policia.gov.co/grupo-informaci%C3%B3n-criminalidad/estadistica-delictiva)

1. Realice la limpieza y adecuación de la data, para que quede lista, con los siguientes datos:

a. Solo un municipio (Preferible Bogotá)


b. Día (Escalar)
c. Hora (Escalar)
d. Solo urbana
e. Arma empleada (Escalar)
f. Edad (Escalar)
g. Tipo Empleado (Escalar)
h. Escolaridad (Escalar)

2. Se debe documentar el proceso y el código respectivo.


Inicialmente, se procede a ir al enlace de la Policía Nacional, el cual contiene las
estadísticas correspondientes a la criminalidad delictiva.

Ya estando en la página de la Policía Nacional, se procede a elegir la estadística en la cual


se piensa trabajar, en este caso se elige la Data correspondiente a Homicidios del año 2011.

Posteriormente, se proceden a importar las librerías necesarias para empezar a trabajar


sobre nuestra DATA. Por tal motivo, se importa la librería (PANDAS). Esta librería es un
paquete de Python que proporciona estructuras de datos. La librería (PANDAS) depende
directamente de (NUMPY), la cual añade un tipo matricial a Python. Con (PANDAS), se
pueden representar tipos de datos como, tubulares con columnas de tipo heterogéneo con
etiquetas en columnas y filas.
Y esto es precisamente lo que necesitamos para nuestro pre-procesamiento, integración y
limpieza de datos.

Ahora se procede a cargar el archivo CSV. Cabe aclarar que el archivo inicialmente se
encontraba en formato XLSX, por lo que fue necesario convertirlo a csv (formato separado
por comas), con el fin de lograr una mayor versatilidad para leer el archivo, a demás por el
espacio ocupado, el cual es mucho menor que un archivo de Excel convencional.
Ahora se procede a eliminar todas aquellas columnas que no sean necesarias ni de interés
para realizar el taller. Lo que se logra con esto es ir filtrando y limpiando la Data
correspondiente. Para ello, se usa el comando drop.
En la imagen se puede visualizar como en el Data-Frame, ya no aparecen las columnas que
se seleccionaron usando el comando drop. Quedaron únicamente las columnas que se piden
en el taller, eso es lo que queríamos.

Acá se observa claramente como antes se tenía un Data-Frame de tamaño de (23463 filas x
20 columnas) y posteriormente, realizando la depuración, se obtuvo un Data-Frame con
tamaño de (23463 filas x 8 columnas), logrando así el objetivo que se tenía.
A continuación, se realiza el procedimiento en el cual se va a hacer la limpieza de datos,
eliminando los municipios que no son necesarios, al igual que la zona.
En este caso, solo se desea que quede como municipio (Popayán) y la zona (urbana).
Algo que se debe tener muy en cuenta es que, en el código, en lugar de colocar lo que se
desea eliminar, se coloca lo que no se desea eliminar y se procede a la ejecución.
Cabe aclarar que se eligió el municipio de Popayán porque vivimos en esta ciudad y nos
parece muy pertinente conocer la información que se tiene de las actividades delictivas.

Se puede observar claramente como el tamaño del Data-Frame, ahora es de (310 filas x 8
columnas), logrando así el objetivo que se quería.
En esta imagen se puede observar directamente en el Data-Frame, como quedó únicamente
el municipio de Popayán y la zona urbana, logrando así el objetivo que se tenía pensado.

Se necesita que los datos que contemplan la columna edad, queden en formato escalar, por
lo cual, se procede a asignar diferentes rangos a las diferentes edades.
En la imagen se observa como los datos de la columna Edad, quedaron distribuidos en
diferentes rangos.

De igual forma, se realiza la misma actividad con la columna Dia. Se pasan los datos que
contiene la columna a escalar, de tal forma que esto permita identificar el día de la semana
de forma numérica, de acuerdo con la asignación que se le genera dentro de la lista.

En la imagen se puede observar como los valores que contempla la columna Día, ahora
están en escalar.
Ahora se procede a realizar el procedimiento en el cual a los datos pertenecientes a la
columna Clase de arma empleada, queden de forma escalar, asignándoles un valor
numérico dependiendo del tipo de arma que fue empleada.

Se puede apreciar claramente como los datos que se encuentran en la columna Clase de
arma, ahora están visibles de manera numérica.
Se realiza la misma operación con la columna Clase empleado, se debe pasar a escalar y
hacer la asignación numérica a los datos que contiene la columna.
En la imagen correspondiente, se puede observar como ahora la columna Clase de
empleado, contiene los números que hacen referencia a la profesión de la persona.

Bien, ahora se realiza el mismo procedimiento para reemplazar los datos de la columna
Escolaridad, con datos escalares.
Se puede observar como la respectiva asignación se realizó con éxito.
Por último, se procede a realizar el procedimiento por el cual se les asigna un rango a los
datos de la columna hora.

Pero antes, se debe cambiar el tipo de dato que contiene la columna hora, hay que pasarlo a
formato tipo date, con el fin de poder realizar correctamente el ejercicio.

Ahora se procede a realizar la respectiva asignación del rango a los datos de la columna
Hora.
A continuación, se puede observar en la imagen como los datos correspondientes a la
columna Hora quedaron asignados a un rango específico.
Análisis.

Es sumamente importante observar como el pre-procesamiento, integración y limpieza de


datos, juega un papel importante y determinante dentro del análisis de datos, ya que esto
revela tendencias y comportamientos que ayudan ampliamente a una toma de decisiones
correcta.
Con relación específica de la Data que se manejó, se puede evidenciar claramente como las
personas con una escolaridad entre Analfabeta, primaria y secundaria, son las personas con
el mayor número de homicidios que se presentan en el municipio de Popayán. Esto quiere
decir, que muy posiblemente, los homicidios se concentran en su gran mayoría en las
comunas en donde se presentan niveles sociales muy bajos.
Resulta interesante, como por medio del estudio de los datos, se puede llegar hasta resolver
problemas sociales que conlleven a la mejora continua de la sociedad.

También podría gustarte