Documentos de Académico
Documentos de Profesional
Documentos de Cultura
L-Cib 21 001141 01
L-Cib 21 001141 01
Autor:
Rafael Nogales Vaquero
Introducción
Al utilizar datos, la mayoría de personas están de acuerdo en que sus análisis y
decisiones dependen de la calidad de los datos que se utilicen. Básicamente,
“garbage in - garbage out”. Es decir, si los datos son basura, las decisiones que
tomemos a partir de ellos también lo serán. Aunque hayamos elaborado
sofisticados algoritmos para tomar las decisiones, no servirán de nada si los
datos no son lo suficientemente buenos.
Por este motivo, la limpieza de datos es uno de los pasos más importantes del
ciclo que los datos recorren desde su obtención hasta la elaboración de informes
o modelos. Cualquiera que desee crear una cultura en torno a la toma de
decisiones de datos de calidad debe tomarse este proceso muy en serio.
Al combinar varias fuentes de datos, hay una alta probabilidad de que los
datos se dupliquen o se etiqueten incorrectamente. Si los datos son
incorrectos, los resultados y los algoritmos no serán confiables, aunque
parezcan correctos. No existe una forma absoluta de prescribir los pasos
exactos en el proceso de limpieza de datos, pues los procesos variarán de un
conjunto de datos a otro. No obstante, resulta crucial establecer una plantilla
para su proceso de limpieza de datos, a fin de que sepa que lo está haciendo
de la manera correcta en todo momento.
Palabras clave
Limpieza de datos, Pandas, dataset
!
!
+34 691 225 633
Rev. Febrero 2021
Reto
Descarga uno de los datasets más famosos relacionados con el mundo de la
ciberseguridad (el que más te interese) y realiza en Jupyter Notebooks el
proceso de limpieza del dataset.
Nota 2: Algunos datasets son enormes; en ese caso, extrae solo un subconjunto
del dataset realizando un muestreo estratificado (si es que tienes mucho interés
en un dataset concreto y resulta que es gigantesco).
Desarrollo
Proceso general de limpieza de datos
Paso 1: Eliminar las muestras duplicadas o irrelevantes
Elimina las muestras no deseadas de tu conjunto de datos, incluidas las
muestras duplicadas o irrelevantes.
!
!
+34 691 225 633
Rev. Febrero 2021
Por ejemplo, es posible que aparezcan "N/A" y "No aplicable", pero estos
deberán analizarse como la misma categoría. En el caso de la recopilación de
inmuebles, podría ser que aparezcan diferentes categorías para la misma región:
“Málaga”, “Malaga”, “málaga”, “malaga”.
Recuerde; el hecho de que exista un valor atípico no significa que sea incorrecto.
Este paso es necesario para determinar la validez de ese número. Si un valor
atípico resulta ser un error o es irrelevante para el análisis, considera eliminarlo.
Como primera opción, puedes eliminar las muestras que tienen valores
perdidos; pero, al hacerlo, se eliminará o perderá información, así que ten esto
en cuenta antes de eliminarlo.
!
!
+34 691 225 633
Rev. Febrero 2021
Como tercera opción, puedes modificar la forma en que se utilizan los datos
para navegar de manera efectiva por los valores nulos.
Las conclusiones falsas debido a datos incorrectos o "sucios" pueden alterar una
estrategia de negocio por una toma de decisiones deficientes.
Conclusiones
¿Por qué es interesante la ciencia de datos en el ámbito de la
ciberseguridad y por qué estamos estudiando Python y Pandas?
Para un atacante, obtener acceso a una red puede no ser el mayor desafío. El
desafío será averiguar dónde están una vez que estén dentro de la red, y
rastrear y atacar el sistema. En esta fase, que generalmente se conoce como la
fase de reconocimiento, la mayoría de atacantes deja rastros de su ubicación o
de quiénes son.
Esta información se puede extraer, siendo este uno de los lugares donde se
puede aprovechar la ciencia de datos. A través de esto, también podemos
correlacionar con múltiples eventos que ya han ocurrido y encontrar similitudes
para descubrir un patrón y relacionarnos.
¿Significa esto que la ciencia de datos es la solución para todos los ataques?
Para todos desde luego que no; pero lo cierto es que tenemos gran cantidad de
datos relacionados con el campo de la seguridad. Actualmente, algunas de las
aplicaciones principales en las que aprovechamos esto con éxito son:
!
!
+34 691 225 633
Rev. Febrero 2021
• Detección de anomalías.
• Análisis de malware.
Anexos
Python for Cybersecurity — Lesson 3: Data analysis with Pandas | by Johnsy
Vineela | cyberdefenders | Medium