Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Informe Taller Pre-Procesamiento, Integración y Limpieza de Datos 1
Informe Taller Pre-Procesamiento, Integración y Limpieza de Datos 1
Minería de datos.
Popayán, Cauca
26 de septiembre de 2020
EJERCICIO.
Elaborar en grupos de máximo tres (3) integrantes, el siguiente trabajo de taller de pre-
procesamiento, integración y limpieza de datos.
1. Realice la limpieza y adecuación de la data, para que quede lista, con los siguientes datos:
Ahora se procede a cargar el archivo CSV. Cabe aclarar que el archivo inicialmente se
encontraba en formato XLSX, por lo que fue necesario convertirlo a csv (formato separado
por comas), con el fin de lograr una mayor versatilidad para leer el archivo, a demás por el
espacio ocupado, el cual es mucho menor que un archivo de Excel convencional.
Ahora se procede a eliminar todas aquellas columnas que no sean necesarias ni de interés
para realizar el taller. Lo que se logra con esto es ir filtrando y limpiando la Data
correspondiente. Para ello, se usa el comando drop.
En la imagen se puede visualizar como en el Data-Frame, ya no aparecen las columnas que
se seleccionaron usando el comando drop. Quedaron únicamente las columnas que se piden
en el taller, eso es lo que queríamos.
Acá se observa claramente como antes se tenía un Data-Frame de tamaño de (23463 filas x
20 columnas) y posteriormente, realizando la depuración, se obtuvo un Data-Frame con
tamaño de (23463 filas x 8 columnas), logrando así el objetivo que se tenía.
A continuación, se realiza el procedimiento en el cual se va a hacer la limpieza de datos,
eliminando los municipios que no son necesarios, al igual que la zona.
En este caso, solo se desea que quede como municipio (Popayán) y la zona (urbana).
Algo que se debe tener muy en cuenta es que, en el código, en lugar de colocar lo que se
desea eliminar, se coloca lo que no se desea eliminar y se procede a la ejecución.
Cabe aclarar que se eligió el municipio de Popayán porque vivimos en esta ciudad y nos
parece muy pertinente conocer la información que se tiene de las actividades delictivas.
Se puede observar claramente como el tamaño del Data-Frame, ahora es de (310 filas x 8
columnas), logrando así el objetivo que se quería.
En esta imagen se puede observar directamente en el Data-Frame, como quedó únicamente
el municipio de Popayán y la zona urbana, logrando así el objetivo que se tenía pensado.
Se necesita que los datos que contemplan la columna edad, queden en formato escalar, por
lo cual, se procede a asignar diferentes rangos a las diferentes edades.
En la imagen se observa como los datos de la columna Edad, quedaron distribuidos en
diferentes rangos.
De igual forma, se realiza la misma actividad con la columna Dia. Se pasan los datos que
contiene la columna a escalar, de tal forma que esto permita identificar el día de la semana
de forma numérica, de acuerdo con la asignación que se le genera dentro de la lista.
En la imagen se puede observar como los valores que contempla la columna Día, ahora
están en escalar.
Ahora se procede a realizar el procedimiento en el cual a los datos pertenecientes a la
columna Clase de arma empleada, queden de forma escalar, asignándoles un valor
numérico dependiendo del tipo de arma que fue empleada.
Se puede apreciar claramente como los datos que se encuentran en la columna Clase de
arma, ahora están visibles de manera numérica.
Se realiza la misma operación con la columna Clase empleado, se debe pasar a escalar y
hacer la asignación numérica a los datos que contiene la columna.
En la imagen correspondiente, se puede observar como ahora la columna Clase de
empleado, contiene los números que hacen referencia a la profesión de la persona.
Bien, ahora se realiza el mismo procedimiento para reemplazar los datos de la columna
Escolaridad, con datos escalares.
Se puede observar como la respectiva asignación se realizó con éxito.
Por último, se procede a realizar el procedimiento por el cual se les asigna un rango a los
datos de la columna hora.
Pero antes, se debe cambiar el tipo de dato que contiene la columna hora, hay que pasarlo a
formato tipo date, con el fin de poder realizar correctamente el ejercicio.
Ahora se procede a realizar la respectiva asignación del rango a los datos de la columna
Hora.
A continuación, se puede observar en la imagen como los datos correspondientes a la
columna Hora quedaron asignados a un rango específico.
Análisis.