Está en la página 1de 12

Suscríbete a DeepL Pro para poder editar este

Entra en www.DeepL.com/pro para más información.

Revista de la Universidad Rey Saud - Informática y Ciencias de la Información 33 (2021) 436-446

Aprendizaje automático semisupervisado basado en clustering para la


clasificación de ataques DDoS
Mohammed Misbahuddin ⇑, Syed Mustafa Ali Zaidi
Instituto de Ciencia y Tecnología Shaheed Zulfikar Ali Bhutto, Karachi, Pakistán

artículose nformac abstracto


ión
El aprendizaje automático semisupervisado puede utilizarse para obtener subconjuntos de datos no etiquetados o parcialmente
Historia del artículo: etiquetados en función de las métricas de disimilitud aplicables. En una etapa posterior, se asignan completamente las etiquetas
Recibido el 10 de octubre de 2018 a los datos según la diferenciación observada. Este trabajo proporciona un enfoque basado en la agrupación para distinguir los
Revisado el 28 de enero de 2019 datos que representan los flujos de tráfico de red que incluyen tanto el tráfico normal como el de denegación de servicio
Aceptado el 3 de febrero de 2019 distribuido (DDoS). Las características se toman para la identificación de los ataques en el extremo de la víctima y el trabajo se
Disponible en línea el 5 de febrero de demuestra con tres características que pueden ser monitoreadas en la máquina objetivo. Los métodos de clustering incluyen el
2019
aglomerativo y el K-means con extracción de características bajo Análisis de Componentes Principales (PCA). También se
propone un método de votación para etiquetar los datos y obtener clases para distinguir los ataques del tráfico normal. Tras el
etiquetado, se aplican algoritmos de aprendizaje automático supervisado de k-Nearest Neighbors (kNN), Support Vector
Palabras clave:
Machine (SVM) y Random Forest (RF) para obtener los modelos entrenados para la futura clasificación. En los resultados
Agrupación
Ataques DDoS experimentales, los modelos kNN, SVM y RF proporcionan un 95%, un 92% y un 96,66% de precisión, respectivamente, con
Aprendizaje automático un ajuste optimizado de los parámetros dentro de los conjuntos de valores dados. Al final, el esquema también se valida utilizando
Semisupervisado un subconjunto de datos de referencia con nuevos vectores de ataque.
2019 Los autores. Producción y alojamiento por Elsevier B.V. en nombre de la Universidad Rey Saud. Este es un artículo de
acceso abierto bajo la licencia CC BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/4.0/).
1. Introducción de las víctimas. Por lo tanto, este ataque ha abarcado muchos dominios,
incluyendo las redes tradicionales, así como el nivel más avanzado de las redes
La denegación de servicio distribuida (DDoS) es uno de los casos más (Aamir y Zaidi, 2015).
comunes de ataques web en los que el objetivo final de un adversario es En un escenario típico de DDoS, el atacante dispone de potencia informática
degradar o denegar los servicios de un objetivo para los usuarios legítimos de alto nivel para ejecutar la función de comando y control (C&C) que se utiliza
(Aamir y Zaidi, 2013). Una de las principales razones de su alta frecuencia es para pasar instrucciones a la siguiente capa de máquinas llamadas handlers. Los
el número de formas en que se puede crear y lanzar este ataque. De hecho, el manipuladores se utilizan para escanear servidores y hosts vulnerables en
ataque DDoS se puede generar en cada capa del modelo de comunicación OSI. Internet, e instalar malware para controlar esas máquinas vulnerables. Las
Por lo tanto, el atacante encuentra varias formas de producir una denegación de máquinas comprometidas se llaman entonces zombis y toda esta red se
servicio exitosa en una víctima objetivo. Aunque este ataque existe desde hace denomina botnet. Los zombis de la red de bots se utilizan para atacar
muchos años, las técnicas utilizadas para lanzar con éxito el ataque a las directamente al objetivo final y crear una denegación de servicio. Los zombis
víctimas objetivo han ido cambiando constantemente. Debido a este hecho, el también recogen información de la víctima y la transmiten a los manipuladores
DDoS sigue siendo uno de los principales ataques a tener en cuenta en los para la comunicación ascendente con el C&C y el atacante. Debido a esta
estudios de ciberseguridad actuales. Según las estadísticas de akamai.com para arquitectura distribuida de la red de bots que contiene un número de máquinas
el verano de 2018 (Content Delivery Network, 2018), los ataques DDoS han comprometidas (zombis) para lanzar el ataque a la víctima, este ataque se llama
aumentado un 16% en comparación con el último verano de 2017. El DDoS Denegación de Servicio Distribuida. En la Fig. 1 se muestra un flujo común de
tiene una gran adaptabilidad para ajustarse y generar tráfico según la naturaleza ataque DDoS.
La comunidad investigadora ha contribuido significativamente a proponer
soluciones para frustrar los ataques DDoS, que incluyen análisis a nivel de
Autor correspondiente. paquete, análisis a nivel de flujo, análisis de comportamiento, minería de tráfico
Dirección de correo electrónico: aamir.nbpit@gmail.com (M. Misbahuddin). e inspección profunda de paquetes, por nombrar algunas. De hecho, existen
Revisión por pares bajo la responsabilidad de la Universidad Rey Saud. diferentes variantes de protección DDoS en los sistemas tradicionales de
1319-1578/ 2019 Los autores.
Producción y alojamiento por
Elsevier B.V. en nombre de la
Universidad Rey Saud.
Este es un artículo de acceso
abierto bajo la licencia CC BY-
https://doi.org/10.1016/j.jksuci.2019.02.003 NC-ND
(http://creativecommons.org/licenses/by-nc-nd/4.0/).
M. Misbahuddin, Syed Mustafa Ali Zaidi / Journal of King Saud University - Computer and Information Sciences 33 (2021) 436-446
437

Fig. 1. Flujo común de un ataque DDoS.


así como sistemas avanzados de detección/prevención de intrusiones. Del Utilizar diferentes aplicaciones de clustering en el mismo conjunto de datos
mismo modo, con el desarrollo de modelos de aprendizaje automático y sus
para observar las diferencias y registrar las variaciones.
exitosas implementaciones para abordar las áreas de problemas críticos de
varios campos, la protección contra DDoS a través de enfoques basados en el Se propone un método de votación para decidir las etiquetas de los puntos de
aprendizaje automático y la inteligencia artificial también ha sido un área de datos obtenidos en los clusters generados por más de un algoritmo. Se
interés para los investigadores. La necesidad del aprendizaje automático en
demuestra que somos capaces de asignar 'k + 1' etiquetas a los datos de 'k'
este ámbito está motivada por el hecho de que los ataques DDoS son ahora
más sofisticados y engañosos que nunca. Las características específicas de los clusters tras la votación.
paquetes, como la dirección IP y las banderas, contienen muy poca Optimizar y validar los modelos de aprendizaje, es decir, encontrar la
información para detectar ataques recientes, ya que el estado real de los combinación óptima de parámetros dentro de un conjunto de valores
paquetes puede ocultarse fácilmente. Por ejemplo, la dirección IP puede ser determinado, además de aplicar la validación cruzada K-fold para mejorar el
falsificada o cambiada con alta frecuencia dentro del mismo flujo utilizando
rendimiento del modelo.
una técnica llamada fast flux (Hu et al., 2011). Mientras que el aprendizaje
automático supervisado ha sido la variante más común para realizar
La idea central de este trabajo es que el enfoque de clustering conduce
aportaciones utilizando conjuntos de datos de referencia en los que los datos
intrínsecamente a altos falsos positivos (Berkhin, 2006). Por lo tanto, aplicar
ya están etiquetados, los enfoques no supervisados y semisupervisados han
diferentes esquemas de clustering y luego analizarlos a través de la votación
experimentado recientemente un gran auge en este ámbito, en el que el primer
puede aportar confianza para que un punto de datos esté en una clase específica.
paso consiste en etiquetar los datos observándolos en un espacio separable
Si diferentes algoritmos de clustering votan para que una instancia de datos se
dirigido por una o más métricas de disimilitud. El enfoque más habitual
sitúe en la misma clase, puede inducir un elemento de confianza al tiempo que
consiste en aplicar algún tipo de algoritmo de agrupación. Los datos
se reduce el problema de falsos positivos inherente al método de clustering único.
agrupados pueden utilizarse entonces para etiquetar los puntos. En el caso del
Por otro lado, si diferentes algoritmos de clustering no se ponen de acuerdo para
enfoque semisupervisado, se aplica la fase posterior de aprendizaje
que un punto de datos esté en la misma clase, hay un elemento de incertidumbre
automático supervisado para clasificar las etiquetas (clases) de los puntos de
que lleva a la instancia de datos a una categoría sospechosa. En última instancia,
datos desconocidos (Miller y Busby-Earle, 2016; Kim et al., 2018).
el sistema tiende a reducir los falsos positivos, mientras que los puntos de datos
En este trabajo, aplicamos el aprendizaje automático semisupervisado
sospechosos son llevados a la nueva clase para su posterior inspección y
para, en primer lugar, obtener clusters de datos de tráfico de red divididos en
categorización en consecuencia. Se trata efectivamente de un método de
el número deseado de clases mediante un método no supervisado; a
agrupación en conjunto con un enfoque de agrupación en bolsas en el que la
continuación, etiquetamos los puntos mediante un método de votación para
votación en un método de agrupación es independiente del otro, mientras que los
marcar el tráfico normal, el tráfico DDoS y el tráfico sospechoso y, por
resultados de la votación colectiva deciden que un punto de datos esté en la clase
último, detectamos la clase de tráfico desconocido mediante un enfoque
específica.
supervisado. Durante la fase de aprendizaje no supervisado, también
El resto de este documento se organiza como sigue: La sección 2 presenta los
aplicamos la técnica de extracción de características del Análisis de
antecedentes y los trabajos relacionados con esta área de investigación. La
Componentes Principales (PCA) para proyectar los puntos de datos en un
sección 3 explica los diferentes pasos de nuestro enfoque de aprendizaje
espacio de baja dimensión. Asimismo, durante la fase de aprendizaje
automático semisupervisado propuesto. La sección 4 muestra el análisis
supervisado, utilizamos la optimización dentro de un conjunto determinado
experimental en detalle. Finalmente, la Sección 5 concluye el artículo.
de valores y técnicas de validación para encontrar una mejor configuración
de los parámetros de los modelos de aprendizaje automático. Las demás
investigaciones basadas en el aprendizaje automático semisupervisado sobre 2. Antecedentes y trabajos relacionados
el etiquetado y la clasificación del tráfico DDoS han propuesto algunos
enfoques de agrupación complejos, así como modelos supervisados con El aprendizaje automático semisupervisado es un enfoque que incorpora tanto
esfuerzos de optimización limitados. Por otro lado, las contribuciones de este el aprendizaje automático no supervisado como el supervisado (Fitriani et al.,
trabajo son: 2016). Cuando las etiquetas de la clase objetivo no están disponibles en los datos,
438 M. Misbahuddin, Syed Mustafa Ali Zaidi / Journal of King Saud University - Computer and Information Sciences 33 (2021) 436-446

los puntos pueden agruparse en diferentes clústeres. Para las clasificaciones de IP no se utiliza en la fase de aprendizaje supervisado mediante RF. Idhammad et
futuras instancias de datos en una etapa posterior, se tienen en cuenta los métodos al. (2018) proponen un método semisupervisado en el que el coclustering inicial,
de aprendizaje supervisado para obtener los modelos entrenados. La técnica de la relación de ganancia de información y los análisis de entropía se utilizan para
clustering del aprendizaje automático no supervisado se utiliza para la reducir la cantidad de tráfico normal en un esfuerzo por mejorar la detección de
segmentación de los datos en puntos no etiquetados pero separables. Las DDoS mediante la eliminación del componente ruidoso de los datos. Los
instancias similares de los datos se agrupan en el mismo clúster, mientras que los clústeres formados con variaciones de entropía basadas en el tiempo
clústeres se separan mediante una métrica de disimilitud aplicada. En el modo proporcionan flujos de tráfico diferenciados. La parte posterior del aprendizaje
semisupervisado, los clusters se obtienen para etiquetar los datos en la fase supervisado se basa en el algoritmo extra-trees (ET) para detectar los ataques
posterior, de forma que sea posible la detección de futuras instancias. Los DDoS. Afirman que su análisis sobre el mecanismo de ventanas temporales
métodos semi-supervisados tienen diferentes tipos para procesar los datos para propuesto proporciona más precisión que la aplicación directa del algoritmo ET
el aprendizaje (Zhu, 2006), como el Modelo Generativo es para la identificación en algunos conjuntos de datos de referencia, así como otros dos enfoques
de muestras de datos para el etiquetado de una mezcla de distribución como la propuestos tomados del estudio de la literatura y aplicados en el conjunto de datos
gaussiana, Modelo basado en gráficos es para identificar los nodos para los datos de referencia NSL-KDD. Sin embargo, su análisis se limita al algoritmo ET en
etiquetados y no etiquetados, Auto-entrenamiento o Bootstrapping utiliza tanto la fase de aprendizaje supervisado. Kato y Klyuev (2014) analizan patrones de
los puntos de datos etiquetados y no etiquetados para aprender de las propias ataques DDoS para cada dirección IP. También utilizan otras características para
detecciones y mejorar el aprendizaje para las iteraciones posteriores. Por lo tanto, el cálculo de bps (bytes por segundo) en el análisis de patrones. Para la fase de
es un proceso iterativo de autoaprendizaje. Por último, el Co-training es un detección, utilizan el aprendizaje supervisado SVM. Posteriormente en Kato y
método de aprendizaje que utiliza un algoritmo multivista para la ordenación de Klyuev (2017), utilizan las plataformas Apache Spark y Hadoop para la
los puntos de datos en subconjuntos para entrenar con diferentes clasificadores. detección de intrusiones en tiempo real incluyendo métodos no supervisados y
Los tipos de enfoque de clustering (Xiang y Min, 2010) bajo el aprendizaje semi- supervisados. Boroujerdi y Ayat (2013) proponen un conjunto de clasificadores
supervisado incluyen el basado en restricciones para una dirección para asignar neurofuzzy adaptativos con una técnica de arranque llamada Marliboost.
clusters a los puntos de datos de acuerdo con la restricción de pares (must-link o Encuentran una buena precisión de detección utilizando el conjunto de datos
cannot-link). Si la restricción es must-link entre dos muestras, se les asigna el NSL-KDD.
mismo cluster. Si se trata de una restricción de no poder enlazar, las muestras se Como los conjuntos de datos de referencia están disponibles con clases
colocan en clusters diferentes. También tenemos el método basado en la etiquetadas, tenemos un enfoque más realista de generar tráfico sin clasificar,
distancia, que sólo sigue la restricción de pares para formar clusters basados en manteniendo las características más comunes a nivel de flujo bajo supervisión,
la métrica de la distancia. Las medidas de distancia se evalúan repetidamente proponiendo un método de votación para el etiquetado de 'k + 1' tipos de
para mejorar la agrupación. Por último, tenemos el método basado en la distancia tráfico de 'k' clusters, y aplicando tres algoritmos diferentes para la
y la restricción, que es la combinación de los dos métodos anteriores. clasificación de los ataques DDoS. Se observa que los enfoques no
En esta investigación, trabajamos con un conjunto de datos 'D' de 'm' filas supervisados y semisupervisados, en los que el primer paso es distinguir los
(instancias de datos) y 'n' columnas (características). El conjunto de datos se datos observándolos en un espacio separable, están menos disponibles en la
compone de flujos de red que transportan una mezcla de tráfico normal y DDoS. literatura que los enfoques supervisados que tienen conjuntos de datos
Nuestro objetivo es aplicar el aprendizaje automático semisupervisado de forma etiquetados. Esto complementa el hecho de que se dispone de conjuntos de
sistemática para poder identificar los ataques DDoS en el tráfico mixto. La datos de referencia con clases etiquetadas sobre los que se han presentado la
agrupación se basa en la distancia y se utiliza la métrica más común de la mayoría de las contribuciones de la comunidad investigadora. Utilizando
distancia euclidiana (Davies y Bouldin, 1979) dada en la ecuación (1). Aquí datos de naturaleza no supervisada inicialmente en nuestro esquema
"d(a,b)" es la distancia euclidiana (línea recta) entre "a" y "b", donde (a 1,a 2) y propuesto, las altas probabilidades inherentes de la tasa de falsos positivos se
(b 1,b 2) son los puntos en un espacio bidimensional. reducen aplicando diferentes formas de agrupación y observando después el
resultado dominante mediante un método de votación.

d að ; bÞ ¼
3. El esquema propuesto
qffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffi
ffiffiffiffiða1 b Þ12 2 ð1Þ2 2 3.1. Agrupación aglomerativa

Gu et al. (2017) proponen múltiples características basadas en la restricción Comenzamos aplicando el clustering aglomerativo (AC) en 'D'. El AC es
de Kmeans (MF-CKM) para la detección de ataques DDoS. Su método produce una variante del clustering jerárquico (Kaufman y Rousseeuw, 2009) que
el vector de características para detectar ataques. Las características básicas forma los clusters de datos considerando cada punto como un cluster en sí
utilizadas para obtener el vector incluyen las IP de origen y de destino mismo al principio (el enfoque ascendente). Así que inicialmente tenemos 'm'
(características a nivel de paquete). Sin embargo, las IP de origen suelen ser clusters en el espacio de datos. En el siguiente paso, los dos clústeres más
falsificadas, por lo que el vector de características puede verse afectado en su cercanos se unen para formar un clúster. Así que ahora tenemos 'm1' clusters.
rendimiento. Además, necesitan inicialmente algunos datos etiquetados para El proceso continúa hasta que tenemos un gran cluster que cubre todos los
guiar su técnica no supervisada para agrupar los datos no etiquetados. Soheily- puntos de datos. La importancia de AC radica en la memoria que se construye
Khah et al. (2018) proponen una técnica híbrida que utiliza la combinación de K- durante todo el proceso. Así que al final, tenemos un dendrograma para
means y bosque aleatorio (kM-RF) para clasificar la detección de intrusiones en observar el proceso y encontrar un número óptimo de clusters posibles a partir
sistemas de red. Su análisis se realiza sobre el conjunto de datos de referencia del conjunto de datos. Utilizamos la métrica de la distancia euclidiana para
ISCX. El trabajo contiene una parte importante de limpieza de datos en la que un encontrar los clusters más cercanos durante este proceso. La distancia
número de instancias normales calculadas se eliminan inicialmente utilizando la euclidiana es la distancia en línea recta entre dos puntos.
agrupación de K-means como una representación de control de la cantidad de big
data para la minería y el análisis. Para la fase de detección, utilizan el aprendizaje 3.2. Análisis de componentes principales con clustering K-Means
supervisado RF (Random Forest). Sus precisiones y detecciones no se hacen
sobre todo el conjunto de datos para la imagen colectiva, sino que los flujos se El análisis de componentes principales (PCA) (Jolliffe, 2011) es el
clasifican sobre la base de los protocolos de la capa de aplicación (HTTP, DNS algoritmo que reduce las dimensiones (espacio de características) de un
y SSH, etc.). Mediante un análisis experimental, afirman que kM-RF es mejor en conjunto de datos de 'n' a 'p', donde p < n. No reduce las características exactas,
precisión y detección que los algoritmos tradicionales de aprendizaje automático sino que reduce las dimensiones mediante la extracción de características. El
(Naïve Bayes, Red Neural y Árbol de Decisión, etc.). Cada flujo en su algoritmo realiza la extracción para mantener la mayor varianza de los valores
experimento está representado por 50 características. Sin embargo, la dirección de las características. Obtiene los vectores propios y los valores propios de la
M. Misbahuddin, Syed Mustafa Ali Zaidi / Journal of King Saud University - Computer and Information Sciences 33 (2021) 436-446 439

matriz de covarianza para elegir "p" vectores propios correspondientes a los sistemas de protección contra DDoS, como la inspección profunda de
"p" mayores valores propios, donde "p" es el número de dimensiones en el paquetes o el análisis de flujos. Por lo tanto, se demuestra que somos capaces
nuevo espacio de características. Como el PCA no necesita clases etiquetadas de asignar "k + 1" etiquetas a los datos de "k" clusters utilizando este método
para la extracción de características, es bastante aplicable a los datos no de votación. El Algoritmo 1 especifica este enfoque de votación.
supervisados. Otro método, llamado K-means clustering, es uno de los más
comunes para formar clusters observando la distancia de los puntos de datos Algoritmo 1: Método de votación para etiquetar clases
desde los centroides inicialmente seleccionados. A lo largo de este proceso,
los centroides se actualizan con la reubicación de los nuevos centros a medida Para cada punto de datos: Hacer
que los clusters son remodelados por el algoritmo. En nuestro trabajo, la Observe los segmentos en los que cada algoritmo de agrupación coloca los
agrupación de K-means se aplica a los componentes principales obtenidos puntos de datos:
mediante PCA. La distancia utilizada en los cálculos es la distancia euclidiana Si todos los segmentos son iguales:
dada en la ecuación (1). Elegimos un método de clustering diferente del AC Asignar la clase correspondiente al punto de datos (Normal O
que aplicamos inicialmente sobre 'D' para aportar diversidad e imparcialidad DDoS)
en el análisis, de modo que las variaciones en los resultados del clustering Otra cosa:
puedan ser observadas y registradas para los siguientes pasos. Otra razón para Asignar la clase recién introducida al punto de datos
aplicar un clustering diferente es el coste computacional. La complejidad (Sospechoso) Acabado
computacional (análisis del peor caso) de AC es O(m 2), que es un complejo
de segundo grado, independientemente del número de clusters. Aquí "m"
representa el número de puntos de datos (Koga et al., 2007). Por otro lado, la
complejidad de K-means es O (mnk) que es lineal en 'm' ya que m >> n & k
en nuestro caso. Aquí "m" es el número de instancias, "n" es el número de
3.4. Clasificación de los ataques
dimensiones (características) y "k" es el número de clusters (Xu y Wunsch,
2005). La baja complejidad de la agrupación de K-means es, por tanto,
Tras la asignación de etiquetas a los puntos de datos, se aplican métodos de
razonable para utilizarla con PCA, que ya conlleva su propia complejidad de
aprendizaje supervisado para entrenar los modelos y detectar las clases de las
O(m 3 + m 2n). Contiene los componentes del cálculo de la matriz de
instancias desconocidas. En este análisis, utilizamos los algoritmos k-Nearest
covarianza (O(m n2)) así como la descomposición de valores propios (O(m
3 Neighbors (kNN), Support Vector Machine (SVM) y Random Forest (RF). El
)). Aquí "m" es el número de puntos de datos y "n" es el número de
dimensiones del conjunto de datos original (Du y Fowler, 2008). modelo kNN detecta la clase de un punto de datos desconocido midiendo su
distancia a los puntos existentes (entrenados) (Larose y Larose, 2014). La
La métrica llamada Suma de Cuadrados dentro del Clúster (WCSS) puede
mayoría de los puntos más cercanos de la misma clase entre los puntos más
utilizarse para encontrar el número óptimo de clústeres posibles utilizando K-
cercanos es el factor decisivo para saber a qué clase pertenece el punto de datos.
means. Sin embargo, como ya tenemos el número de clústeres para nuestra
La métrica de distancia utilizada en nuestro caso es la distancia euclidiana
área de problemas (es decir, 2 clústeres), podemos utilizar alternativamente la
mencionada en la ecuación (1). El modelo SVM detecta la clase de una nueva
misma medida para encontrar la extensión de la métrica de disimilitud
instancia de datos creando hiperplanos óptimos para cada característica del
(distancia en este caso) cubierta con el aumento del número de clústeres
conjunto de datos durante el entrenamiento. Separa cada dimensión de los datos
utilizando la Ec. (2), donde 'dist' es la métrica de distancia, la suma de
de tal manera que el margen de los puntos más cercanos a través de los
cuadrados se toma para cada punto ith en el clúster, y todos los clústeres de 1
hiperplanos se maximiza. El truco del kernel puede utilizarse para la
a 'j' se toman en consideración.
optimización en los modelos SVM, en los que la función de base radial (RBF) se
utiliza habitualmente para obtener las clasificaciones en conjuntos de datos no
WCSS ¼ X distðP i; C Þ12 þ þ X distðP i; C Þj ð2Þ2 lineales. La SVM es popular para manejar datos complejos y de alta dimensión.
ii Sin embargo, sigue siendo sensible al ruido y al sobreajuste (Suthaharan, 2016).
El modelo RF se basa en los votos de clasificación de los árboles de decisión
individuales que trabajan detrás del algoritmo. Los resultados de los árboles de
3.3. Método de votación decisión se procesan a través de un método de conjunto específicamente
configurado, como el bagging o el boosting. En la configuración del modelo RF
El método de votación se introduce para tratar los resultados de la en este trabajo, utilizamos el enfoque de árboles en bolsa que es esencialmente
agrupación que parecen ser opuestos cuando utilizamos diferentes algoritmos un método en el que un árbol de decisión clasifica los datos independientemente
de agrupación. Por ejemplo, una instancia de datos puede ser agrupada como de otros árboles (Breiman, 2001). Al final, el resultado es compilado por el
flujo normal por un algoritmo y como DDoS por el otro. Por lo tanto, algoritmo RF con el voto mayoritario. La Fig. 2 muestra el diagrama de flujo del
argumentamos que puede haber diferentes enfoques de la estrategia de esquema de aprendizaje automático semisupervisado propuesto para la
votación para tratarla, de manera que (1) la clase final debe ser la que, si clasificación de ataques DDoS.
existe, es agrupada en el mismo segmento por todos los algoritmos. Si al
menos un algoritmo produce un resultado diferente (o se puede establecer un
4. Análisis y resultados experimentales
umbral para el número de algoritmos diferentes), la instancia de datos puede
marcarse como una clase adicional, o (2) la clase final debe ser la que, si
existe, es agrupada en un segmento por la mayoría de los algoritmos. Si hay
más de un valor mayoritario, la instancia de datos puede marcarse como una
clase adicional.
Los dos criterios mencionados se aplican cuando elegimos k = 2 como
número de clusters. Como utilizamos tanto AC como K-means con PCA,
tenemos dos resultados de dos tipos diferentes de enfoques de agrupación. Si
ambos enfoques colocan una instancia de datos en el mismo segmento, es
decir, normal o DDoS, marcamos la clase apropiada para ese punto de datos.
Sin embargo, si uno de los algoritmos coloca un punto de datos en un
segmento mientras que el otro lo coloca en el opuesto, introducimos una clase
adicional, etiquetada como "Sospechoso", con el argumento de que ese tipo
de flujos de tráfico puede ser objeto de un análisis posterior por parte de los
440 M. Misbahuddin, Syed Mustafa Ali Zaidi / Journal of King Saud University - Computer and Information Sciences 33 (2021) 436-446

4.1. Simulación y agrupación registros para formar el conjunto de datos. Para imitar el tráfico de red del mundo
real, una parte significativa de los flujos normales en el tráfico simulado toma
El conjunto de datos utilizado en esta investigación se obtiene con el tráfico alrededor del 60-70% de utilización del servidor web con el protocolo de capa de
de red generado en el simulador OPNET Modeler 14.5 (SteelCentral Riverbed transporte subyacente de TCP. La distribución del tráfico también es Poisson
Modeler, xxxx) (ahora llamado ''Riverbed Modeler") utilizando la configuración para reflejar el escenario del mundo real de aleatoriedad en el tráfico. Sin
de simulación que se indica en la Fig. 3. La "botnet" se incluye para generar embargo, este escenario simulado puede analizarse más a fondo con tráfico
tráfico DDoS, sin lo cual tenemos el escenario normal con un servidor web, 10 diversificado, como el uso del protocolo UDP para aplicaciones sensibles al
usuarios locales en una red de área local (LAN) y 15 usuarios públicos que retraso. El conjunto de datos se convierte en un estado normalizado, donde el
acceden al servidor. Sin embargo, una vez que añadimos la red de bots de 125 propósito de la normalización es poner los valores dispersos de las diferentes
nodos remotamente comprometidos (100 usuarios en una LAN remota y 25 características en la misma escala para representarlos de manera justa en los
cálculos realizados por los algoritmos de aprendizaje automático bajo el capó.

Fig. 2. Diagrama de flujo del aprendizaje automático semisupervisado para la clasificación de ataques DDoS.

Fig. 3. Configuración de la red en OPNET.


usuarios individuales con máquinas de alta gama) para crear un escenario de Hemos elegido un enfoque de normalización mínimo-máximo en el rango de
ataque, se genera un tráfico masivo que produce un efecto de ataque DDoS en el {0,1} (ambos inclusive) que es muy común. Todas las características del
servidor web (víctima en este caso). No obstante, el tráfico global sigue siendo conjunto de datos se normalizan mientras que el conjunto de datos se mantiene
una mezcla de flujos normales y DDoS. En las Figs. 4 y 5, se ofrecen en un pequeño número de instancias para reducir la sobrecarga de rendimiento
comparaciones del tráfico recibido por el servidor con escenarios normales y de durante la fase de aprendizaje automático y hacer hincapié en la presentación del
ataque, y la utilización de la CPU del servidor con ambos escenarios, esquema propuesto de ponderación votada asignada a los resultados de la
respectivamente. Se observa un gran aumento en el tráfico recibido, mientras que agrupación. Las características que registramos para el conjunto de datos son las
la utilización de la CPU también alcanza el 100%, especialmente al principio y siguientes:
al final, cuando se acumula más tráfico en el lado del servidor.
OPNET es un simulador basado en eventos. El tráfico que recogimos en este Tasa de tráfico: La tasa de llegada del tráfico de red al servidor web en bytes
experimento está configurado para registrar 100 eventos por minuto. Por lo tanto,
por segundo.
para un período de 10 minutos de ejecución de la simulación, se recogen 1000
M. Misbahuddin, Syed Mustafa Ali Zaidi / Journal of King Saud University - Computer and Information Sciences 33 (2021) 436-446 441

Retraso de procesamiento: El retraso del procesamiento de los paquetes de red relacionadas con los paquetes individuales, como el direccionamiento IP, el
estado de la bandera TCP y la longitud de la carga útil, etc. Aunque casi todos
en el servidor web en segundos.
los conjuntos de datos de referencia incluyen ambos tipos de características y
Utilización: El porcentaje de utilización (carga actual a la carga máxima las clasificaciones se realizan teniendo en cuenta ambos tipos de
características, se ha identificado que las características a nivel de flujo son
que puede soportar la CPU) de la CPU del servidor web en el momento
mejores clasificadores y conjuntos de datos más pequeños que consisten sólo
en que se registró el evento. en características a nivel de flujo pueden detectar eficazmente los ataques

Fig. 4. Tráfico recibido por el servidor web (víctima) en escenarios normales y de ataque.

Fig. 5. Utilización de la CPU del servidor web (víctima) en escenarios normales y de ataque.
Aquí argumentamos que incluso con un conjunto de características tan DDoS (Kirubavathi y Anitha, 2016; Gao et al., 2016). Según el estudio
pequeño, podemos clasificar eficazmente los ataques DDoS con un flujo realizado en Jonker et al. (2017) para los últimos años, los servidores web son
estratégico de agrupación, etiquetado y aprendizaje supervisado, siempre que los objetivos más comunes de los ataques DDoS. Además, en la defensa del
el conjunto de características relevante se elija cuidadosamente para priorizar extremo de la víctima, el tráfico legítimo y el de ataque pueden distinguirse
las características a nivel de flujo sobre las características a nivel de paquete más claramente en comparación con las defensas del extremo de la fuente y
(Miller y Busby-Earle, 2016). Las características a nivel de flujo cubren las del núcleo (Beitollahi y Deconinck, 2012). Por lo tanto, los escenarios
estadísticas de flujo, como las características de retardo, tasa y utilización. Por aplicados son bastante relevantes para observar la presencia de ataques DDoS.
otro lado, las características a nivel de paquete se ocupan de las características
442 M. Misbahuddin, Syed Mustafa Ali Zaidi / Journal of King Saud University - Computer and Information Sciences 33 (2021) 436-446

Utilizamos la librería de aprendizaje automático scikit-learn en Python 3 para


demostrar el enfoque semisupervisado propuesto. Para la agrupación
aglomerativa, obtenemos el dendrograma mencionado en la Fig. 6. Nuestro
número requerido de clusters es 2, y el dendrograma también proporciona una
buena división con 2 clusters si extendemos una horizontal virtual

Fig. 7. Análisis WCSS de los clusters impulsados por K-means.


Tabla 1
Valores de entropía acumulada de los clusters normales y DDoS.
Enfoque de agrupación Entropía del cluster etiquetado Entropía del cluster
como Normal etiquetado como DDoS
Fig. 6. Dendrograma con agrupación aglomerativa.
Aglomerativo 18.09 18.75

PCA + K-means 18.01 19.42

línea que corta el brazo vertical más largo del dendrograma, ya que corta dos
líneas verticales (una de las técnicas utilizadas en la interpretación del
dendrograma (Data Mining, xxxx). De forma similar, con Kmeans sobre PCA,
obtenemos clusters bidimensionales en los que el análisis WCSS utilizando la
Ec. (2) revela que casi el 80% de la disimilitud se cubre simplemente con dos
Cuadro 2
clusters, como se muestra en la Fig. 7. Las clases se asignan inicialmente teniendo
Puntos de datos agrupados antes y después de la
en cuenta el hecho de que el tráfico normal tiene comparativamente menos votación.
entropía (desorden) en la distribución del tráfico, lo que debe reflejarse en las StatusClassesPuntos de datos agrupados
características del conjunto de datos. En otras palabras, los ataques DDoS
introducen más perturbaciones en el flujo de la red que el tráfico normal, ya que
los zombis envían un gran número de paquetes aleatorios hacia la víctima. Por lo
tanto, calculamos la entropía de cada característica dentro de un cluster, y el Aglomerativo
cluster con más entropía acumulada se etiqueta como DDoS. La ecuación (3)
representa la entropía 'H(d)', donde 'p i' es la probabilidad del componente de Antes de votarNormal455
información en el vector 'd' y 'N' es el número total de valores de información DDoS545530
que contiene el vector 'd'. Los valores de entropía de los clusters DDoS y Después de votarNormal455
normales, observados en ambas formas de algoritmos de clustering, se DDoS470
proporcionan en la Tabla 1. Sospechoso75

H dð Þ ¼ X p ilog 2p ð3Þi
i¼1 AC y K-means sobre algoritmos PCA respectivamente. Después de aplicar el
método de votación, obtenemos las etiquetas finales, es decir, 470 casos de
El método de votación descrito en el Algoritmo 1 se aplica para obtener el DDoS, 455 normales y 75 sospechosos. Esto se muestra en la Tabla 2.
conjunto de datos etiquetados con 3 clases. Por lo tanto, introducimos otra clase Con los algoritmos kNN, SVM y RF, inicialmente ejecutamos los modelos
llamada "Sospechoso" para etiquetar los puntos de datos que se colocan en con la configuración por defecto de la biblioteca scikit-learn, y luego con
clusters opuestos durante el aprendizaje no supervisado. Con los resultados de la configuraciones optimizadas dentro de conjuntos de valores dados. En este
agrupación, obtenemos 545 y 530 instancias de datos agrupadas como DDoS por trabajo, se utilizan más de un modelo de clasificación para demostrar que las
etiquetas asignadas contienen información valiosa y esto puede utilizarse para
crear los modelos basados en diferentes algoritmos para la clasificación de los
ataques DDoS. Los parámetros optimizados dentro de los conjuntos de valores
dados se obtienen con el método Elbow para kNN y la función GridSearchCV
de scikit-learn para los modelos SVM y RF respectivamente. Se observa que
los modelos proporcionan precisiones competitivas, donde el modelo RF
clasifica con mayor precisión y con mejor rendimiento. La división de los
datos entre entrenamiento y prueba se divide con un porcentaje de 70-30. El
conjunto de datos de prueba contiene 300 instancias (143 DDoS, 137
normales y 20 sospechosas).
M. Misbahuddin, Syed Mustafa Ali Zaidi / Journal of King Saud University - Computer and Information Sciences 33 (2021) 436-446 443

4.2. Modelos de clasificación 4.2.2. Modelo SVM


El experimento con el modelo SVM consiste en probar diferentes
4.2.1. Modelo kNN combinaciones de parámetros relacionados con la SVM para encontrar la
Nuestro experimento con el modelo kNN consiste en optimizar el valor k respuesta óptima dentro de un conjunto de valores determinado. Con la
dentro de un conjunto determinado de valores mediante el método del codo. función de núcleo más utilizada para los datos no lineales, es decir, la "función
Con el valor por defecto de 5 vecinos (k = 5), la puntuación de precisión del de base radial (RBF)", se analizan cuatro valores diferentes de cada uno de
conjunto de datos etiquetados es del 91,66% con 25 detecciones incorrectas. los parámetros "C" (parámetro de penalización de la SVM) y "gamma" (el
Sin embargo, el valor por defecto de 5 vecinos no es un valor óptimo si no se coeficiente del núcleo). Los valores de los parámetros 'C' y 'gamma'
prueba. El conjunto de datos se estudia para diferentes valores de k que van examinados se mencionan a continuación:
de 1 a 25 frente a la tasa de error media. Las variaciones del parámetro 'k' se
analizan frente al error mediante el método del codo, como se muestra en la C = 1, 10, 100, 1000
Fig. 8. Se observa que el valor óptimo de k del modelo dentro de un rango
gamma = 1, 0,1, 0,01, 0,001
determinado es 11 para el que la tasa de error es de 0,049.
La precisión se considera la principal métrica de la eficacia de un modelo
de aprendizaje automático. Calculamos la precisión obteniendo la relación Para automatizar el proceso de obtención de la mejor combinación de
entre las detecciones correctas en el conjunto de datos de prueba y el total de estos parámetros, se utiliza la clase 'GridSearchCV' del paquete
instancias en el conjunto de datos. En el Algoritmo 2, se proporciona el código 'sklearn.model_selection' en Python. En el Algoritmo 3, se proporciona el
Python del método del codo para obtener el valor k óptimo dentro de un rango código Python de GridSearchCV para obtener los valores óptimos de los
de valores determinado. Las tasas de error se almacenan en la matriz err_rate. parámetros 'C' y 'gamma' dentro del conjunto de valores dado. El diccionario
Al final, el índice de la matriz que contiene el menor valor de error param_grid contiene los valores de los parámetros a probar. Al final, la matriz
proporciona el valor k óptimo dentro del rango dado. El conjunto de datos de grid_svm contiene los valores óptimos de los parámetros.
entrenamiento de características, el conjunto de datos de entrenamiento de
salida, el conjunto de datos de prueba de características y el conjunto de datos
de prueba de salida están representados por las variables X_train, y_train, Algoritmo 3: Código Python para encontrar los valores óptimos de los
X_test e y_test respectivamente. parámetros en

Fig. 8. Valor k frente a la tasa de error utilizando el método del codo.

Algoritmo 2: Código Python del método del codo para encontrar el valor k Modelo SVM
óptimo en el modelo kNN

From sklearn.model_selection import GridSearchCV From


From sklearn.neighbors import KNeighborsClassifier sklearn.svm import SVC
err_rate = [ ] param_grid = {'C': [1, 10, 100, 1000], 'gamma': [1, 0.1, 0.01,
Para k en range(1, 26): knn = 0.001], 'kernel': ['rbf']} grid_svm = GridSearchCV(SVC(),
KNeighborsClassifier(n_neighbors = k) param_grid, refit = True)
knn.fit(X_train, y_train) k_opt =
knn.predict(X_test) 4.2.3. Modelo RF
err_rate.append(np.mean(k_opt != y_test)) El experimento con el modelo RF consiste en utilizar diferentes números de
árboles de decisión embolsados para encontrar la respuesta óptima dentro de un
conjunto de valores determinado. Bajo el criterio de decisión por defecto de
'Impureza de Gini', se analizan cuatro valores diferentes del parámetro
444 M. Misbahuddin, Syed Mustafa Ali Zaidi / Journal of King Saud University - Computer and Information Sciences 33 (2021) 436-446

Cuadro 3
Resultados de la clasificación (por defecto).
ModeloComponente decisivoParámetros por Precisión por defecto Precisión media Número de detecciones
defecto incorrectas
Distancia kNNEuclidianak =5 91.66% 92% 25

SVMF Función de base radial (RBF) kernelC = 1.0, 88.66% 89% 34


gamma = 'auto'
Árboles de decisión RFBagged n_est = 10 96.00% 96% 12

Tabla 4
Resultados de la clasificación (optimizados).
Parámetros optimizados por el modelo Precisión optimizada Precisión media de la validación cruzada Precisión media Número de detecciones
incorrectas
kNNk = 11 95.00% 94.70% 96% 15

SVMC = 100,0, gamma = 1,0 92.00% 91.56% 92% 24


RFn_est = 100 96.66% 96.14% 97% 10

'n_estimadores' (nº de árboles de decisión). Los valores del parámetro


'n_estimadores' examinados se mencionan a continuación:

n_estimadores = 10, 100, 500, 1000

Para automatizar el proceso de obtención de la cantidad óptima de árboles de


decisión embolsados dentro de un conjunto dado de valores para el problema
considerado, se utiliza la clase 'GridSearchCV' del paquete 'sklearn.model_selec
tion' en Python. En el Algoritmo 4, se proporciona el código Python de
GridSearchCV para obtener el valor óptimo del parámetro 'n_estimators' dentro
del conjunto de valores dado. El diccionario param_grid contiene los números de
árboles que se van a probar. Al final, la matriz grid_rf contiene la respuesta
óptima.

Algoritmo 4: Código Python para encontrar el número óptimo de árboles de Fig. 9. Análisis del área bajo la curva de los modelos de clasificación optimizados.
decisión en el modelo RF

From sklearn.model_selection import GridSearchCV From


cambian dentro de un rango corto de valores. Por ejemplo, la precisión del
sklearn.ensemble import RandomForestClassifier param_grid = modelo kNN con un ajuste óptimo de los parámetros es del 95%. Con una
{'n_estimators': [10,100,500,1000], 'criterion': validación cruzada de K = 10, la precisión media es del 94,7%. Como esta
['gini']} precisión se acerca a la precisión óptima que obtuvimos inicialmente, se valida
grid_rf = GridSearchCV(RandomForestClassifier(), param_grid, que la precisión óptima es la verdadera precisión sin sobreajuste. En las Tablas 3
refit = True) y 4, se presentan los resultados de los modelos de clasificación en los estados
predeterminado y optimizado, respectivamente. Aquí, 'k' es el número de vecinos
más cercanos, 'C' es el parámetro de penalización de la SVM, 'gamma' es el
coeficiente del núcleo, y 'n_est' es el número de árboles de decisión. Los
resultados optimizados también se validan con la validación cruzada K-fold
4.2.4. Resultados (donde K = 10) para confirmar que la precisión media se acerca a la optimizada.
Las puntuaciones de precisión en nuestros experimentos también se validan Para SVM, el valor de gamma = 'auto' es el estado por defecto del objeto SVC
mediante la validación cruzada de K veces. En esta técnica, la división de la clase 'sklearn.svm' en Python. El término 'auto' representa un valor igual a
entrenamiento-prueba se aplica aleatoriamente con un número "K" de divisiones 1/n donde 'n' es el número de características de entrada en un conjunto de datos
del conjunto de datos bajo "K" rondas totales de ajuste del modelo. Hay "K1" dado.
divisiones de datos para el entrenamiento y una división reservada para las La idoneidad de los modelos de clasificación se valida además con los análisis
pruebas. En cada ronda, se cambia la división de prueba y se mide la puntuación del Área Bajo la Curva (AUC) obteniendo la Característica Operativa del
de precisión. Se puede validar que las configuraciones aplicadas no conducen a Receptor (ROC) que se muestra en la Fig. 9. La matriz de confusión puede
un problema de sobreajuste si las precisiones son sólo marginalmente manipular los hechos del aprendizaje del modelo y proporcionar valores de
clasificaciones verdaderas y falsas en un único punto operativo. Esta condición
puede llevar a una paradoja en la que el valor de precisión dado puede no ser
válido para otros puntos de operación o cambios en el rendimiento del modelo.
Esto se conoce como la paradoja de la precisión. Para evitar esta paradoja, se
traza el gráfico ROC (Receiver Operating Characteristic) entre las tasas de
verdaderos y falsos positivos. El estadístico Área bajo la curva (AUC)
proporciona la precisión real de la clasificación de un modelo para variar las tasas
de verdaderos y falsos positivos. Aquí se muestra en la Fig. 9 que los modelos
M. Misbahuddin, Syed Mustafa Ali Zaidi / Journal of King Saud University - Computer and Information Sciences 33 (2021) 436-446 445

kNN, SVM y RF han aprendido efectivamente de los datos y, por lo tanto, los Fig. 10. Dendrograma del subconjunto CICIDS2017.
valores del área bajo la curva bajo el rendimiento óptimo están cerca de las
precisiones calculadas obtenidas de las matrices de confusión en Python. El
modelo RF clasifica los datos con mayor precisión que kNN y SVM.

4.3. Validación del esquema con el conjunto de datos de referencia

Para probar la eficacia de nuestro esquema con nuevos vectores de ataque


(características) explicados por conjuntos de datos de referencia, utilizamos
un subconjunto de CICIDS2017 que es un conjunto de datos de detección de
intrusiones de referencia de 2017 publicado por CIC (Instituto Canadiense de
Ciberseguridad) en 2018 (Sharafaldin et al., 2018). Los datos se utilizan desde
el escenario de ataques DDoS viernes - horas de trabajo y se toma un
subconjunto de 10.000 instancias para el análisis (10 veces de nuestro
conjunto de datos simulado). Se toman en consideración las cuatro
características más importantes de la clasificación entre las 78 variables
totales, como mencionan los creadores del conjunto de datos en (Sharafaldin
et al., 2018) a través de un examen preliminar, es decir, 'Bwd Packet Length
Std', 'Average Packet Size', 'Flow Duration', y 'Flow IAT Std'. Aunque son Fig. 11. Análisis WCSS del subconjunto CICIDS2017.
variables diferentes de las características de nuestro conjunto de datos, el
esquema puede validarse con las nuevas variables de ataque si se obtienen
etiquetas razonablemente precisas con el enfoque de agrupación y votación
Cuadro 5
propuesto. El escenario de "ataques DDoS viernes - horas de trabajo" de
Entropías acumuladas de los clusters en el subconjunto CICIDS2017.
CICIDS2017 contiene originalmente 225.745 instancias, de las cuales 97.718
Algoritmo de Entropía acumulada de DDoS Entropía acumulada de la
están etiquetadas como "benignas", mientras que las 128.027 restantes son agrupación racimos agrupación normal
"DDoS". Para reducir la sobrecarga en el ordenador de experimentación 1 ,
Aglomerativo 60.471 29.319
extraemos 10.000 instancias de datos con barajado y aleatorización de datos
de manera independiente a través de la clase shuffle del paquete sklearn.utils PCA + K-means 60.531 29.080
en Python. Este subconjunto de 10.000 puntos de datos contiene una la entropía acumulada más baja se coloca finalmente en la categoría normal.
proporción de tráfico similar a la del conjunto de datos completo, es decir, Las puntuaciones de entropía se muestran en la Tabla 5. También se observa
4.355 instancias benignas y 5.645 DDoS. Sin embargo, este subconjunto en el análisis WCSS que más del 88% de la disimilitud se cubre con los tres
también se reduce en el espacio de características con cuatro variables más clusters sugeridos.
importantes como se ha descrito anteriormente. Nuestro objetivo es demostrar Después de aplicar el método de votación explicado en la sección 3.3,
que se puede obtener un nivel aceptable de precisión al etiquetar el conjunto obtenemos 3851 etiquetas benignas, 5444 DDoS y 705 sospechosas. Al
de datos con el esquema propuesto. Por ello, se prueba con un conjunto de comparar esto con las etiquetas originales del subconjunto de datos
datos de referencia representativo con vectores de ataque recientes (sólo CICIDS2017, calculamos que las puntuaciones de precisión son del 78,53%
cuatro características más importantes a nivel de flujo). El comportamiento de para las etiquetas benignas
AC y WCSS se muestra en las Figs. 10 y 11 respectivamente. Se puede
observar que tres clusters representan una mejor diferenciación del
subconjunto de datos dado. Sin embargo, como estamos interesados en dos
clústeres con etiquetas normales y DDoS, extraemos tres clústeres como Cuadro 6
sugieren los algoritmos de agrupación, 2 pero colocamos dos clústeres en la
categoría DDoS que contienen puntuaciones más altas de entropía
acumulativa en comparación con el clúster restante. El tercer clúster con

1
Los experimentos se llevan a cabo en Intel CoreTM i7, 7500U CPU @2.70 GHz con 4 núcleos
y 8GB de almacenamiento primario (RAM).
2
Dendrograma para AC, y WCSS para K-means.
446 M. Misbahuddin, Syed Mustafa Ali Zaidi / Journal of King Saud University - Computer and Information Sciences 33 (2021) 436-446

Comparación del etiquetado con el subconjunto CICIDS2017. 5. Conclusión


Etiqueta Número original de Número correcto de etiquetas tras el método Número de etiquetas clasificadas como Número de etiquetas clasificadas como
original instancias de votación categoría opuesta categoría sospechosa

Benigno 4355 3420 654 281


DDoS 5645 4790 431 424
Total 10,000 8210 1085 705

y el 84,85% para las etiquetas DDoS. La puntuación de precisión global parece En este trabajo, aplicamos un enfoque de aprendizaje automático
ser del 82,10%, como se muestra en la Tabla 6. Se observa que el esquema semisupervisado para clasificar los ataques DDoS. Comienza con estadísticas de
propuesto es prometedor ya que obtenemos más del 82% en la precisión del tráfico no etiquetadas obtenidas frente a tres características para la defensa del
etiquetado. Puede mejorarse y perfeccionarse aún más introduciendo métodos extremo de la víctima, es decir, el servidor web. Las características incluyen la
adicionales de aprendizaje no supervisado, como los mapas autoorganizados tasa de tráfico, el retraso de procesamiento y la utilización de la CPU. Los datos
(SOM). Sin embargo, los elementos de computación neural no se consideran en no etiquetados se agrupan mediante dos algoritmos de agrupación diferentes y un
este trabajo y lo dejamos para futuras investigaciones. También para la método de votación decide el etiquetado final de los flujos de tráfico. Las
clasificación, podemos entrenar modelos basados en redes neuronales como el instancias que caen en clústeres opuestos se etiquetan con una clase adicional
perceptrón multicapa. llamada "sospechosa". Los algoritmos de aprendizaje supervisado de kNN, SVM
y RF se aplican a los datos etiquetados para clasificar los ataques DDoS. Los
4.4. Comparación con enfoques de trabajos relacionados resultados experimentales del 95%, 92% y 96,66% de precisión se obtienen con
los modelos kNN, SVM y RF, respectivamente, bajo ajustes optimizados de los
En la Tabla 7, se ofrece una comparación del enfoque de este trabajo con parámetros dentro de los conjuntos de valores dados. El esquema también se
otros trabajos relacionados mencionados en la Sección 2. Se observa que la valida para la precisión de las asignaciones de etiquetas utilizando un
precisión media de detección de este trabajo es competitiva con respecto a otros subconjunto representativo del conjunto de datos de referencia CICIDS2017 con
enfoques. Además de esto, nuestro trabajo ofrece más diversidad al tener nuevos vectores de ataque. Parece prometedor ya que obtenemos más de un 82%
múltiples algoritmos de clasificación y múltiples agrupaciones para los datos no de precisión en las etiquetas. En el futuro, planeamos buscar métodos mejorados
etiquetados para reducir los falsos positivos. Por lo tanto, el análisis de los datos de votación para el etiquetado de datos e incluir más algoritmos de aprendizaje
a través del método de votación propuesto después de múltiples capas de automático durante la agrupación y la clasificación.
agrupación aporta una confianza para que una instancia de datos en particular
esté en una determinada clase. Si diferentes algoritmos de clustering votan un Declaración de interés
punto de datos para la misma clase, puede inducir un elemento de confianza y
reducir el problema inherente de falsos positivos de usar un solo método de Ninguna.
clustering (el enfoque distinguido adoptado en este trabajo). Por otro lado, si
diferentes algoritmos de clustering no se ponen de acuerdo para colocar una
instancia de datos en la misma clase, hay un elemento de incertidumbre que lleva
la instancia de datos a una categoría sospechosa.

Cuadro 7
Comparación con los enfoques de investigación de trabajos relacionados.
Investigar Análisis del tráfico Análisis de clasificación Detección media Puntos fuertes Limitaciones
Precisión (%)

Soheily-Khah et K-means kM-RF, Naïve Bayes, red 99,97 (kM-RF) Simplicidad, Múltiples Clasificación basada únicamente
al. (2018) neuronal, árbol de decisión, algoritmos de clasificación en los protocolos de la capa de
1NN, SVM, RF aplicación

Idhammad et al. Variaciones de la entropía de la Árboles adicionales 99.88 Variaciones de entropía, filtrado Análisis complejo de datos no
(2018) ventana deslizante basadas en el de ruido etiquetados, Algoritmo de
tiempo clasificación único
Esta obra Agrupación múltiple (AC, kNN, SVM, RF 96,66 (RF) Enfoque diversificado, Bajo número de características
Kmeans sobre PCA) algoritmos de clasificación (sin embargo, el esquema de
múltiples y agrupación múltiple etiquetado se valida con un
para reducir los falsos positivos, subconjunto del reciente
método de votación para el conjunto de datos de referencia
etiquetado final CICIDS2017 que tiene un alto
número de características
originalmente y muestra buenos
resultados de etiquetado)
Kato y Klyuev K-means OCSVM 94.3 Sistema de detección de Problemas de eficacia y
(2017) intrusos en tiempo real detección de datos no vistos,
compatible con plataformas de Alta tasa de falsos positivos
big data, escalabilidad
Boroujerdi y ANFIS Árbol aleatorio, J48, Naïve 96,38 (Marliboost) Algoritmos de clasificación Bajo número de características,
Ayat (2013) Bayes, SVM, RF, árbol NB, múltiple, método de detección Análisis complejo
MLP, conjunto propuesto con conjunto
boosting (Marliboost)

Referencias Jonker, M., King, A., Krupp, J., Rossow, C., Sperotto, A., Dainotti, A., 2017. ''Millones de
objetivos atacados: una caracterización macroscópica del ecosistema DoS".
Actas de la Conferencia de Medición de Internet 2017, pp. 100-113.
Aamir, M., Zaidi, M.A., 2013. Un estudio sobre los ataques DDoS y las estrategias de defensa: de
Kato, K., Klyuev, V., 2014. Un sistema inteligente de detección de ataques DDoS mediante
paquetes
esquemas tradicionales a las técnicas actuales. Interdisciplinary Inf. Sci. 19 (2), 173- análisis y Support Vector Machine. Int. J. Intell. Comput. Res. IJICR 14 (5), 3. 200.
Kato, K., Klyuev, V., 2017. ''Desarrollo de un sistema de detección de intrusiones en la red''.
Aamir, M., Zaidi, S.M.A., 2015. Denegación de servicio en contenidos centrados (datos con nombre) usando Apache Hadoop y Spark", en Dependable and Secure Computing. IEEE
M. Misbahuddin, Syed Mustafa Ali Zaidi / Journal of King Saud University - Computer and Information Sciences 33 (2021) 436-446 447

redes: un tutorial y un estudio del estado del arte. Seguridad Comun. Redes
Conferencia sobre 2017, 416-423.
8 (11), 2037–2059.
Kaufman, L., Rousseeuw, P.J., 2009. Finding Groups in Data: An Introduction to
Beitollahi, H., Deconinck, G., 2012. Análisis de las contramedidas conocidas contra
Análisis de clústeres. John Wiley & Sons.
ataques distribuidos de denegación de servicio. Comput. Commun. 35 (11), 1312–1332.
Kim, J., Sim, A., Tierney, B., Suh, S., Kim, I., 2018. ''Tráfico de red multivariante
Berkhin, P., 2006. Estudio de las técnicas de extracción de datos en clústeres".. En: Agrupación analysis using clustered patterns" (Análisis de agrupación mediante patrones
agrupados).. Computing, 1-23.
Datos multidimensionales. Springer, pp. 25-71.
Kirubavathi, G., Anitha, R., 2016. Detección de botnets a través de la minería del flujo de tráfico
Boroujerdi, A.S., Ayat, S., 2013. ''A, robust ensemble of neuro-fuzzy classifiers for características. Comput. Electr. Eng. 50, 91–101.
Detección de ataques DDoS", en. En: Ciencias de la Computación y Tecnología de Redes
Koga, H., Ishibashi, T., Watanabe,T., 2007.Fast agglomerative hierarchical clustering (ICCSNT),
2013 3rd International Conference on, pp. 484-487. algorithm using Locality-Sensitive Hashing. Knowl. Inf. Syst. 12 (1), 25–53.
Breiman, L., 2001. Bosques aleatorios. Machine Learn. 45 (1), 5–32.
Larose, D.T., Larose, C.D., 2014. Descubrir el conocimiento en los datos: Una Introducción a la
''Red de Entrega de Contenidos (CDN) y Servicios de Computación en la Nube | Akamai". [En línea].
Minería de datos. John Wiley & Sons.
Disponible: https://content.akamai.com/us-en-PG11224-summer-2018-soti-
Miller S. y Busby-Earle C., ''The role of machine learning in botnet detection", en
web-attack-report.html.
Tecnología de Internet y Transacciones Aseguradas (ICITST), 2016 11th International
DataMining " [en línea]. Disponible: http://www.stat.cmu.edu/
Conferencia para, 2016, pp. 359-364.
~ryantibs/datamining/.
Sharafaldin, I., Lashkari, A.H., Ghorbani, A.A., 2018. ''Toward generating a new
Davies, D.L., Bouldin, D.W., 1979. A cluster separation measure. IEEE Trans. Pattern intrusion detection dataset and intrusion traffic characterization". ICISSP, 108- Anal.Mach. Intell. 2, 224–227.
116.
Du, Q., Fowler, J.E., 2008.Análisis de componentes principales de baja complejidad para
Soheily-Khah S., Marteau P.-F., Béchet N., ''Intrusion Detection in Network Systems
compresión de imágenes hiperespectrales. Int. J. High Perf. Comput. Appl. 22 (4), 438-
Mediante un proceso de aprendizaje automático híbrido supervisado y no supervisado: A
448.
Estudio de caso sobre el conjunto de datos ISCX", en Data Intelligence and Security
(ICDIS), 2018.
Fitriani S., Mandala S., Murti M.A. ''Review of semi-supervised method for Intrusion
1ª Conferencia Internacional sobre, 2018, 219-226.
Sistema de detección" en Multimedia y Radiodifusión (APMediaCast) Asia Pacífico
SteelCentralRiverbedModeler ", Riverbed. [en línea]. Disponible: https://www.
Conferencia sobre, 2016, 2016, 36-41. riverbed.com/sg/products/steelcentral/steelcentral-riverbed-modeler.html.
Gao Y., Feng Y., Kawamoto J., y Sakurai K., ''A machine learning based approach
Suthaharan, S., 2016. ''Máquina de vectores de apoyo". En: Modelos de aprendizaje automático
y
para detectar ataques DRDoS y su evaluación de rendimiento", en Information
Algoritmos para la clasificación de Big Data. Springer, pp. 207-235.
Security (AsiaJCIS), 2016 11th Asia Joint Conference on, 2016, pp. 80-86.
G. Xiang y W. Min, ''Applying Semi-supervised cluster algorithm for anomaly
Gu, Y., Wang, Y., Yang, Z., Xiong, F., Gao, Y., 2017. Detección basada en múltiples características", en Information Processing (ISIP), 2010 Third International
Método de detección de DDoS por clustering semisupervisado. Math. ProblemsEng. 2017.
Simposio sobre, 2010, pp. 43-45.
Hu, X., Knysz, M., Shin, K.G., 2011. ''Measurement and analysis of global IP-usage
Xu, R., Wunsch, D., 2005. Survey of clustering algorithms. IEEE Trans. Neural
patterns of fast-flux botnets", en INFOCOM. Proc. IEEE 2011, 2633-2641.
Redes 16 (3), 645-678.
Idhammad, M., Afdel, K., Belouch, M., 2018. ''Aprendizaje automático semisupervisado''.
Zhu, X., 2006. Semi-supervised learning literature survey. Computer Sci., Univ.
para la detección de DDoS". Appl. Intell., 1-16
Wisconsin-Madison 2 (3), 4.
Jolliffe, I., 2011. ''Análisis de componentes principales''. En: Enciclopedia Internacional de la Ciencia Estadística. Springer, pp. 1094-1096.

También podría gustarte