Está en la página 1de 5

!

+34 691 225 633


Rev. Febrero 2021

Autor:
Rafael Nogales Vaquero

Proceso de limpieza de datos

Introducción
Al utilizar datos, la mayoría de personas están de acuerdo en que sus análisis y
decisiones dependen de la calidad de los datos que se utilicen. Básicamente,
“garbage in - garbage out”. Es decir, si los datos son basura, las decisiones que
tomemos a partir de ellos también lo serán. Aunque hayamos elaborado
sofisticados algoritmos para tomar las decisiones, no servirán de nada si los
datos no son lo suficientemente buenos.

Por este motivo, la limpieza de datos es uno de los pasos más importantes del
ciclo que los datos recorren desde su obtención hasta la elaboración de informes
o modelos. Cualquiera que desee crear una cultura en torno a la toma de
decisiones de datos de calidad debe tomarse este proceso muy en serio.

La limpieza de datos es el proceso de corregir o eliminar datos incorrectos,


corruptos, formateados incorrectamente, duplicados o incompletos dentro de
un conjunto de datos.

Al combinar varias fuentes de datos, hay una alta probabilidad de que los
datos se dupliquen o se etiqueten incorrectamente. Si los datos son
incorrectos, los resultados y los algoritmos no serán confiables, aunque
parezcan correctos. No existe una forma absoluta de prescribir los pasos
exactos en el proceso de limpieza de datos, pues los procesos variarán de un
conjunto de datos a otro. No obstante, resulta crucial establecer una plantilla
para su proceso de limpieza de datos, a fin de que sepa que lo está haciendo
de la manera correcta en todo momento.

Palabras clave
Limpieza de datos, Pandas, dataset


!
!
+34 691 225 633
Rev. Febrero 2021

Reto
Descarga uno de los datasets más famosos relacionados con el mundo de la
ciberseguridad (el que más te interese) y realiza en Jupyter Notebooks el
proceso de limpieza del dataset.

Aquí puede encontrarse la lista de datasets:

shramos/Awesome-Cybersecurity-Datasets: A curated list of amazingly awesome


Cybersecurity datasets (github.com)

Nota: El dataset que elijas se utilizará para todo lo relacionado con


procesamiento de datos a lo largo de las siguientes lecturas. Aunque vale
cualquiera, algunos son más grandes que otros y algunos son más interesantes
que otros desde el punto de vista técnico.

Nota 2: Algunos datasets son enormes; en ese caso, extrae solo un subconjunto
del dataset realizando un muestreo estratificado (si es que tienes mucho interés
en un dataset concreto y resulta que es gigantesco).

Desarrollo
Proceso general de limpieza de datos
Paso 1: Eliminar las muestras duplicadas o irrelevantes

Elimina las muestras no deseadas de tu conjunto de datos, incluidas las
muestras duplicadas o irrelevantes.

Las muestras duplicadas ocurrirán con mayor frecuencia durante la


recopilación de datos. Cuando se combinan conjuntos de datos de varios
lugares, se extraen o reciben datos de clientes o de varios departamentos, es
probable que aparezcan duplicidades. La deduplicación es una de las áreas más
importantes que debemos considerar en este proceso.

Las muestras irrelevantes se dan cuando se notan muestras que no encajan en el


problema específico que estás tratando de analizar. Por ejemplo, si deseas
analizar datos sobre clientes menores de 30 años, pero tu conjunto de datos
incluye generaciones anteriores, puedes eliminar esas muestras irrelevantes.
Esto hará que el análisis sea más eficiente y minimizará la distracción de su
objetivo principal; además de crear un conjunto de datos más manejable y de
mayor rendimiento.


!
!
+34 691 225 633
Rev. Febrero 2021

Paso 2: Corregir los errores de forma



Los errores de forma o errores estructurales ocurren cuando se miden o se
transfieren datos y se observan convenciones de nomenclatura extrañas, errores
tipográficos o mayúsculas incorrectas. Estas inconsistencias pueden causar
categorías o clases mal etiquetadas.

Por ejemplo, es posible que aparezcan "N/A" y "No aplicable", pero estos
deberán analizarse como la misma categoría. En el caso de la recopilación de
inmuebles, podría ser que aparezcan diferentes categorías para la misma región:
“Málaga”, “Malaga”, “málaga”, “malaga”.

Paso 3: Filtrar valores atípicos (outliers) no deseados



A menudo, habrá muestras únicas que, de un vistazo, no parecen encajar dentro
de los datos que se están analizando. Si existe una razón legítima para eliminar
un valor atípico, como una entrada de datos incorrecta, hacerlo ayudará al
rendimiento de los datos con los que está trabajando. Sin embargo, a veces es la
aparición de un valor atípico lo que probará una teoría en la que está
trabajando.

Recuerde; el hecho de que exista un valor atípico no significa que sea incorrecto.
Este paso es necesario para determinar la validez de ese número. Si un valor
atípico resulta ser un error o es irrelevante para el análisis, considera eliminarlo.

Por ejemplo, casas por 1 € son valores incorrectos; mansiones de 50 millones no


son valores incorrectos, pero sí atípicos.

Paso 4: Tratar con muestras incompletas



No se pueden ignorar los datos incompletos porque muchos algoritmos no
aceptan valores vacíos; sin embargo, existen algunas formas de lidiar con
muestras incompletas. Ninguna es óptima, pero se pueden considerar.

Como primera opción, puedes eliminar las muestras que tienen valores
perdidos; pero, al hacerlo, se eliminará o perderá información, así que ten esto
en cuenta antes de eliminarlo.

Como segunda opción, puedes ingresar valores perdidos estimando dichos


valores en base a otras muestras. Nuevamente, existe la oportunidad de perder
la integridad de los datos, porque puedes estar operando desde suposiciones y
no desde observaciones reales.


!
!
+34 691 225 633
Rev. Febrero 2021

Como tercera opción, puedes modificar la forma en que se utilizan los datos
para navegar de manera efectiva por los valores nulos.

Paso 5: Validación y control de calidad



Al final del proceso de limpieza de datos, deberías poder responder estas
preguntas como parte de la validación básica:

• ¿Tienen sentido los datos?

• ¿Los datos siguen las reglas apropiadas para su campo?

• ¿Prueban o refutan su teoría de trabajo, o sacan a la luz alguna idea?

• ¿Puedes encontrar tendencias en los datos que te ayuden a formar tu


próxima teoría?

Si no es así, cabría preguntarse si se debe a un problema de calidad de los datos.

Las conclusiones falsas debido a datos incorrectos o "sucios" pueden alterar una
estrategia de negocio por una toma de decisiones deficientes.

Conclusiones
¿Por qué es interesante la ciencia de datos en el ámbito de la
ciberseguridad y por qué estamos estudiando Python y Pandas?
Para un atacante, obtener acceso a una red puede no ser el mayor desafío. El
desafío será averiguar dónde están una vez que estén dentro de la red, y
rastrear y atacar el sistema. En esta fase, que generalmente se conoce como la
fase de reconocimiento, la mayoría de atacantes deja rastros de su ubicación o
de quiénes son.

Esta información se puede extraer, siendo este uno de los lugares donde se
puede aprovechar la ciencia de datos. A través de esto, también podemos
correlacionar con múltiples eventos que ya han ocurrido y encontrar similitudes
para descubrir un patrón y relacionarnos.

¿Significa esto que la ciencia de datos es la solución para todos los ataques?
Para todos desde luego que no; pero lo cierto es que tenemos gran cantidad de
datos relacionados con el campo de la seguridad. Actualmente, algunas de las
aplicaciones principales en las que aprovechamos esto con éxito son:


!
!
+34 691 225 633
Rev. Febrero 2021

• Detección de anomalías.

• Análisis de malware.

• Análisis de tráfico de red.

En la siguiente lectura, comenzaremos a explorar el procesamiento de datos


con Python.

Anexos
Python for Cybersecurity — Lesson 3: Data analysis with Pandas | by Johnsy
Vineela | cyberdefenders | Medium

shramos/Awesome-Cybersecurity-Datasets: A curated list of amazingly awesome


Cybersecurity datasets (github.com)

Preprocesado de Datos (um.es)

También podría gustarte