Está en la página 1de 9

TALLER PREPROCESAMIENTO, INTEGRACIÓN Y LIMPIEZA

DE DATOS

GUSTAVO EDUARDO PENAGOS MORA


FELIPE MERCHÁN DIAZ
WISSNER JUNIOR ANGLASSNER GOMEZ GOMEZ

MINERÍA DE DATOS

FREDYS ALBERTO SIMANCA HERRERA

UNIVERSIDAD COOPERATIVA DE COLOMBIA


BOGOTÁ D.C
2021
Contenido
Tabla de ilustraciones ................................................................................................................. 2
Tablas ......................................................................................................................................... 2
INTRODUCCION ..................................................................................................................... 3
Justificación ................................................................................................................................ 3
METODOLOGIA ...................................................................................................................... 4
EXCEL Y SUBLIME TEXT ................................................................................................. 4
SPYDER................................................................................................................................. 5
import pandas as pd ............................................................................................................ 5
pd.read_csv ......................................................................................................................... 6
Filtro de MUNICIPIO ........................................................................................................ 6
Valores cualitativos a cuantitativos ........................................................................................ 7

Tabla de ilustraciones
Ilustración 1 Guardar Excel........................................................................................................ 4
Ilustración 2 Editar conSublime Text......................................................................................... 4
Ilustración 3 Reeplar (Sublime Text) ......................................................................................... 5
Ilustración 4 Spyder (pandas) ..................................................................................................... 5
Ilustración 5 import pandas ........................................................................................................ 5
Ilustración 6 importar datos (Spyder)......................................................................................... 6
Ilustración 7 Tabla de datos(Spyder) ......................................................................................... 6
Ilustración 8 Datos(Spyder) ....................................................................................................... 6
Ilustración 9 Solo datos Bogotá (Spyder) .................................................................................. 6
Ilustración 10 cualitativo-cuantitativo (Spyder) ......................................................................... 7
Ilustración 11 Cualitativo-Cuantitativo ...................................................................................... 7
Ilustración 12 Cualitativo-Cuantitativo ...................................................................................... 7
Ilustración 13 Elimnar columnas................................................................................................ 7
Ilustración 14 Codigo ................................................................................................................. 7
Ilustración 15 Tablas de datos .................................................................................................... 8

Tablas
Tabla 1 DataFrame seleccionado ............................................................................................... 8
Tabla 2 Reemplazo armas .......................................................................................................... 8
Tabla 3 Reemplazo genero ......................................................................................................... 9
Tabla 4 Reemplazo edad ............................................................................................................ 9
INTRODUCCION
La problemática presentada es la representación de los datos; en este caso de forma cualitativa
y la forma más precisa de “operar” estas bases de datos es de forma cuantitativa así que, se debe
cambiarlos datos de las columnas a productos escalares.
Es de vital importancia comprender los términos básicos de análisis de datos y sus aplicaciones
en problemas de extracción para la observación de datos. Los beneficios del uso sistemático de
técnicas de extracción de información es un proceso útil en el momento estudiar un conjunto
de datos, así mismo se deben elaborar modelos de análisis de datos y patrones predictivos y/o
descriptivos; todo de una forma cuantitativa, ya que es la forma de extraer la información con
el mayor número de aceptación.

Justificación
En este trabajo tendremos como alcance los resultados de análisis de datos para la ciudad de
Bogotá enfocada en la tasa de homicidios, esto nos permite identificar el comportamientos y
patrones en el proceso hallamos anomalías, patrones y correlaciones en grandes conjuntos de
datos para predecir resultados.
Para la solución del taller se implementó el lenguaje de programación Python y de esta forma
analizar brevemente los datos de homicidios, descargados previamente de la página de la policía
nacional. Adicionalmente se filtró la información y de esta forma, obtener los datos que
interesan para el análisis, además de reemplazar valores cualitativos a cuantitativos para obtener
datos con mayor especificación.
METODOLOGIA
EXCEL Y SUBLIME TEXT
El proceso para poder obtener el archivo Excel en un CSV es: guardar como “CSV (delimitado
por comas)”. No se debe guardar como “CSV UTF-8(delimitado por comas)”
Ilustración 1 Guardar Excel

Seguido de hacer este guardado nos topamos con el primer error; las “comas” por la que sebe
estar separado el documento se encuentran como “punto y coma” y es necesario tenerlo como
se pide (se parado por comas). Abrimos el CSV desde un editor de texto, se recomienda
Sublime Text para reemplazar “;” por “,”.
Ilustración 2 Editar conSublime Text
Reemplazar datos

Ilustración 3 Reeplar (Sublime Text)

Una vez reemplazado los “;” por “,” ya esta listo el documento para ser importado al Python
desde, en este caso, Spyder. A continuación los pasos para importar, filtrar y reemplazar los
datos.

SPYDER
Usando la librería “pandas” para importar la información desde un CSV a estructuras de datos
y las respectivas técnicas que se deban hacer a este.
import pandas as pd

Ilustración 4 Spyder (pandas)

Ilustración 5 import pandas


pd.read_csv
Insertar el comando que permite encontrar e importar el documento CSV (homicidios.csv).
d = pd.read_csv("DIRECCION DEL ARCHIVO")

Ilustración 6 importar datos (Spyder)

Ilustración 7 Tabla de datos(Spyder)

Ilustración 8 Datos(Spyder)

Filtro de MUNICIPIO
En los filtros implementados debíamos quitar los municipios que no nos daban grandes datos,
así deja la base de datos con el municipio que más datos tiene.
q_2 = d[d['NOMBRE DE COLUMNA']=='NOMBRE DE VARIABLE']

Ilustración 9 Solo datos Bogotá (Spyder)


Valores cualitativos a cuantitativos
En este paso se dan varios valores con datos no numéricos, lo cual no puede ser representado
en un análisis de datos, así que se debe proceder con reemplazar los datos por escalares sin .
q_3 = q_2.replace({"ARMA BLANCA / CORTOPUNZANTE": 1,
"CINTAS/CINTURON": 2,"CUERDA/SOGA/CADENA": 3
,"ARMA DE FUEGO": 4,"CONTUNDENTES": 5
,"VENENO": 6, "GRANADA DE MANO": 7})

Ilustración 10 cualitativo-cuantitativo (Spyder)

De esta forma procedemos a hacer lo mismo para las demás columnas con datos diferentes a
escalares.
q_4 = q_3.replace({"FEMENINO": 1, "MASCULINO": 2})

Ilustración 11 Cualitativo-Cuantitativo

q_5 = q_4.replace({"MENORES": 1, "ADOLESCENTES": 2, "ADULTOS": 3})

Ilustración 12 Cualitativo-Cuantitativo

Una vez finalizado los procesos de filtrado y reemplazo de todos los datos, tener los datos en
números y eliminar las columnas no relevantes.

Ilustración 13 Elimnar columnas

El código completo con los filtros aplicados.

Ilustración 14 Codigo
Por ultimo las tablas.

Ilustración 15 Tablas de datos

Tabla 1 DataFrame seleccionado

Tabla 2 Reemplazo armas


Tabla 3 Reemplazo genero

Tabla 4 Reemplazo edad

También podría gustarte