Está en la página 1de 14

Revista Ibérica de Sistemas e Tecnologias de Informação

Recebido/Submission: 20/03/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 30/06/2019

Análisis de seguridad en tráfico de redes empleando


minería de datos

Toshiro Nagata Bolivar1, Fancy U. Rivas Almonte2, Yury A. Toro Flores3

tnagata@unsa.edu.pe, frivas@unsa.edu.pe, ytoro@unsa.edu.pe

1
Escuela Profesional de Ingeniería de Sistemas, Universidad Nacional de San Agustín, Arequipa, Perú
2,3
Escuela Profesional de Educación, Universidad Nacional de San Agustín, Arequipa, Perú
Pages: 314–326

Resumen: En la actualidad los delitos informáticos que generan un riesgo


exponencial en las organizaciones son realizados por personal interno, siendo la
medida de seguridad más usual la implementación de sistemas de detección de
intrusos para detectar incidentes de seguridad, así como la restricción de acceso
a cierto tipo de información o dominios web. El propósito del presente documento
es usar los algoritmos de data mining j48 y expectación–maximización (EM) para
realizar un análisis del tráfico generado en los laboratorios del EPIS en busca de
incidentes de seguridad, así como el análisis del conjunto de datos de Kyoto2006+.
Para dicho análisis se utilizará la metodología de seguridad informática según
Benson. En los resultados se observa patrones diferentes entre el tráfico clasificado
como ataque y normal. Como conclusión se puede diferenciar claramente el
comportamiento de tráfico malicioso para evaluar futuras conexione.
Palabras-clave: Expectación–maximización (EM); j48; Sistema de detección de
intrusos (IDS); Minería de datos.

Security analysis in network traffic using data mining

Abstract: At present the computer crimes that generate an exponential risk in the
organizations are carried out by internal personnel, being the most usual security
measure the implementation of intrusion detection systems to detect security
incidents, as well as the restriction of access to a certain type of information or web
domains. The purpose of this document is to use the data mining algorithms j48
and expectation-maximization (EM) to perform an analysis of the traffic generated
in the EPIS laboratories in search of security incidents, as well as the analysis of
the Kyoto2006 data set. For this analysis, the computer security methodology
according to Benson will be used. In the results, different patterns are observed
between traffic classified as attack and normal traffic. In conclusion you can clearly
differentiate the behavior of malicious traffic to evaluate future connections.
Keywords: Expectation–maximization (EM); j48; Intrusion detection system
(IDS); Data mining

314 RISTI, N.º E21, 07/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

1. Introducción
Los ataques cibernéticos han sido una amenaza cada vez mayor para las personas y las
organizaciones, lo que ha generado un impacto desagradable y masivo, como se investiga
en (Al-Mohannadi et al., 2018) , investigación que presenta los problemas y falsos positivos
de los sistemas de seguridad tanto de los Sistemas de Detección de Intrusos (IDS) como
de los Sistemas de Prevención de Intrusos (IPS), dicho documento propone examinar
el conocimiento de la amenaza de la seguridad cibernética entre todos los empleados
de TI, centrándose en tres dominios: conocimiento, monitoreo y prevención. Como se
puede apreciar en (Abdullah, Zainal, Maarof, & Nizam Kassim, 2019), investigación q
tiene como objetivo proponer un esquema para detectar las noticias relacionadas con
los ciberataques, dicha investigación propone un esquema el cual también incluye
un enfoque de aprendizaje automático que utiliza el clasificador de campo aleatorio
condicional (CRF) y el análisis semántico latente (LSA) para un análisis más detallado.
De igual manera un punto importante en las nuevas tecnologías es la automatización del
hogar, como se investiga en (Ur Rehman & Gruhn, 2018) en el cual se explica que los
piratas informáticos no necesitan viajar a hogares específicos, ya que pueden acercarse
virtualmente para atacar casas inteligentes, en el artículo mencionado, se proponemos
una arquitectura segura para hogares inteligentes, brindando un firewall, así como el
ocultamiento de hogares inteligentes. Continuando con los delitos informáticos se
puede apreciar en (Shalaginov, Johnsen, & Franke, 2018) que es extremadamente difícil
procesar o incluso almacenar parte del tráfico de la red, sin embargo, las investigaciones
criminales deben resolver los crímenes de manera oportuna. Si bien el Big Data es un
desafío para los investigadores criminales, también puede ayudarles a crear y detectar
patrones para prevenir y resolver crímenes. Esta última investigación se puede relacionar
con (Khan, Pradhan, & Fatima, 2017) en donde se explica que existen varios tipos de
ataques que se producen desde Internet, de la misma manera se enfocan en los ataques de
denegación de servicio (DoS) con la ayuda de técnicas de reconocimiento de patrones en
la minería de datos, a través de la cual se identifica el ataque de Denegación de Servicio.
Estos problemas de seguridad son llevados al campo del terrorismo tal cual se puede leer
en la investigación (Bicak & Bogdanova, 2019), donde se explica que uno de los campos
más destacado es el terrorismo. Actualmente hay disputas entre las personas sobre qué
ataques deberían llamarse ataques terroristas, en la investigación mencionada se analiza
el terrorismo cibernético de acuerdo con la ley turca y la ley rusa

1.1. Objetivos
•• Detección temprana de ataques nuevos en la red para poder optar por medidas
correctivas.
•• Análisis de tráfico para hallar patrones de comportamiento en base a tiempo.
•• Encontrar las vulnerabilidades en los sistemas de comunicaciones.
•• Control de acceso a servicios restringidos mediante políticas de seguridad.
•• Relacionar las diferentes formas de prevención a los diversos ataques a las
infraestructuras de red.
•• Control de tráfico por parte del personal para evaluación del desempeño.

RISTI, N.º E21, 07/2019 315


Análisis de seguridad en tráfico de redes empleando minería de datos

1.2. Estado del arte


El aprendizaje automático está ganando terreno para su uso en los sistemas de detección
de intrusos en redes basados en anomalías (A-NIDS), como se puede apreciar en (Divekar,
Parekh, Savla, Mishra, & Shirole, 2018),la investigación en este dominio se realiza con
frecuencia utilizando el conjunto de datos KDD CUP 99 como punto de referencia, la
investigación mencionada se compara el rendimiento de las alternativas KDD-99 cuando
se entrena usando modelos de clasificación comúnmente encontrados en la literatura
como red neuronal, árbol de decisión, bosque aleatorio y K-Means, aplicando la técnica
de muestreo excesivo de SMOTE y el submuestreo aleatorio, logran crear una versión
equilibrada de NSL-KDD. De igual manera existen muchos trabajos de investigación
que intentan abordar el problema de capacidad de detección de IDS utilizando varios
métodos, como se puede apreciar en (Mohd, Zuhairi, Shadil, & Dao, 2017), investigación
que analiza un enfoque híbrido para IDS de red, que puede minimizar el tráfico malicioso
en la red mediante el aprendizaje automático, la investigación mencionada proporciona
una revisión de los métodos disponibles para mejorar aún más la anomalía de los Sistemas
de detección de intrusos basados en la red, luego de discutir distintos enfoques de
aprendizaje automático para mejorar el NIDS se obtiene como resultado que el algoritmo
de aprendizaje automático puede ayudar a mejorar el problema de falso positivo de NIDS.
Esta misma problemática se puede analizar en (Chio, 2016), investigación en la cual
se analiza que una de las principales ventajas de aplicar el aprendizaje automático a la
detección de intrusiones en la red es que no se necesita conocimientos expertos, sino el
modelo de lista blanca o negra. Investigación en la cual se aplica el aprendizaje maquina
extremo basado en la optimización con restricciones de igualdad para la detección de
intrusión en la red, dicha investigación muestra en los resultados experimentales que el
enfoque propuesto es efectivo en la construcción de modelos con buenas tasas de detección
de ataques y velocidad de aprendizaje rápida. Una investigación para hacer frente a
los distintos tipos de ataques se puede apreciar en (Mehta, Bahadur, Kapoor, Singh, &
Rajpoot, 2015) la misma que examina la arquitectura de los marcos que pueden predecir
amenazas utilizando Honeypot como fuente de datos y varios algoritmos de aprendizaje
automático para hacer predicciones precisas utilizando OSSEC como Sistema de detección
de intrusión de host [HIDS], SNORT para el Sistema de detección de intrusión de red
[ NIDS] y Honeyd un Honeypot de código abierto. En (Nids, Vidal, Orozco, Villalba, &
Member, 2015) se presenta un sistema de correlación de alertas para mitigar el problema
de los falsos positivos en los sistemas de detección de intrusos, cuando se aplican técnicas
de detección de anomalías. El sistema permite la evaluación cuantitativa de la probabilidad
de que una alerta emitida a causa de una anomalía se convierte en una amenaza real,
en (Chandrasekhar, 2014) se propone un modelo de detección de intrusiones eficiente
mediante la mezcla de técnicas de minería de datos pertinentes, como es el sistema Fuzzy
C-means clustering, redes neuronales artificiales (ANN), en este artículo se usa un lote de
datos KDD cup 99 así como el uso de matlab para el análisis, así mismo en (Processing
et al., 2015) se propone un sistema basado en las reglas del firewall y los NIDS para el
análisis de malware el mismo que puede generar reglas de forma rápida y precisa sin que
se requiera la primera colección de muchas muestras de malware para el agrupamiento.
Investigaciones como (Sacramento, Medeiros, Bota, & Correia, 2018), presenta un sistema

316 RISTI, N.º E21, 07/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

capaz de analizar el tráfico de redes más rápidas, como los enlaces de conexión rápida de
los proveedores de servicios de Internet (ISP), dicho sistema se basa en el análisis de los
flujos de red, lo que lo hace capaz de analizar dichos enlaces de conexión. Una combinación
de técnicas de extracción de datos para la extracción de características de flujos de red
y técnicas de aprendizaje automático para el análisis de datos permite la detección de
comportamientos maliciosos

1.3. Materiales y Metodos


La metodología de seguridad informática según Benson específicamente fue diseñada
para apoyar a quienes trabajan con el desarrollo de la seguridad, las estrategias y planes
para la protección de la disponibilidad, integridad y confidencialidad de los datos de los
sistemas informáticos.

Figure 1 – Metodología de seguridad informática según Benson

Existen cuatro pasos a seguir dentro de esta metodología.


•• Identificar métodos, herramientas y técnicas de ataques probables: Métodos,
herramientas y técnicas de ataques que pueden abarcar desde algo como los
diversos virus existentes hasta las nuevas metodologías de implantación
codificada de sistemas que alteran e infringen contra la integridad y estabilidad
de los datos.

RISTI, N.º E21, 07/2019 317


Análisis de seguridad en tráfico de redes empleando minería de datos

•• Establecer estrategias pro-activas y reactivas: Nos encamina a reducir al mínimo


las directivas de seguridad, así como de desarrollar planes de contingencia.
•• Pruebas: Se debe llevar a cabo luego de que se haya puesto en marcha las
estrategias pro-activas y reactivas, con el fin de mejorar las directivas y controles
de seguridad a implementar posteriormente.
•• Formar equipos de respuestas a incidentes: Se identifican herramientas de
software para responder a incidentes, realización de actividades formativas,
junto con la ejecución de estudios a ataques al sistema.

2. Resultados y Discussiones
Al iniciar la herramienta bettercap para realizar el ataque de hombre al medio
(MITM) el cual nos permitirá tomar determinadas acciones sobre el tráfico que se está
transmitiendo, en esta investigación el procedimiento fue la recolección de datos para su
posterior análisis, en la Fig.1. se puede observar el resultado de los hosts intervenidos.

Figure 2 – Intervención de hosts con mitm

318 RISTI, N.º E21, 07/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

El fichero de configuración del sistema de detección de intrusos se configuro para que


pueda mostrar alertas al intervenir tráfico que tenga como destino algunas redes sociales
como Facebook, twitter, youtube. Las reglas sobre la eliminación de paquetes fueron
comentadas ya que no es motivo de este trabajo tomar acción sobre el tráfico registrado.

Figure 3 – Configuración de alertas

La revisión de los logs generados por los IDS tras evaluar el tráfico recolectado se puede
observar de las alertas configuradas en cuanto a redes sociales.

Figure 4 – Intervención de hosts con mitm

Tras la evaluación de alertas en redes sociales se observa la generación de un log adicional


el cual contiene información relevante acerca de las conexiones de los hosts intervenidos,
se muestra que existen nodos los cuales han sido infectados por un malware que el IDS
calificó como “Network Trojan”, los mismos que reportan tráfico a distintas conexiones
ip dentro de la red.

Figure 5 – Alerta del IDS “Network Trojan”

Al contar con todo el tráfico se configuro el IDS en el modo en el que guarda cualquier
tipo de imagen, luego estas fueron evaluadas con el algoritmo OCR para extraer el texto

RISTI, N.º E21, 07/2019 319


Análisis de seguridad en tráfico de redes empleando minería de datos

de la imagen y poder considerar alertas en caso de que tengan información categorizada


como confidencial.

Figure 6 – Resultado al evaluar una imagen con el algoritmo OCR

Se observa la totalidad de los detalles de las tramas transmitidas lo cual ofrece una
ventaja al momento de analizar cierto tipo de comportamientos

Figure 7 – Porción de detalles de una trama

320 RISTI, N.º E21, 07/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

En la Fig. 8. se observa la transmisión de información sensible por la red, credenciales


de seguridad del servicio de Hotmail están siendo transmitidas después de realizar una
intervención donde se evade los mecanismos de seguridad de HSTS

Figure 8 – Credenciales de seguridad dentro del tráfico

Tras analizar el tráfico en los laboratorios informáticos del EPIS escogimos un conjunto
de datos de un honeypot de la universidad de kyoto (kyoto 2006+) los cuales han sido
analizados bajo una arquitectura de seguridad y puestos los datos a disposición para su
análisis, volcamos los datos en una base de datos postgreSQL, para el análisis de dichos
datos extraeremos la duración, así como las banderas (flags) y la clasificación que se dio
para su posterior análisis con minería de datos en weka.
Con la función avg en postgreSQL obtenemos el tiempo promedio de demora del tráfico
que fue clasificado como normal, así como el que fue clasificado como ataques, ambos
considerados en milisegundos, en la Fig.10. se puede observar el primer valor (2.37)
correspondiente al tiempo de demora de las conexiones clasificadas como ataques, así
como el tiempo promedio (19.788) de las conexiones consideradas como tráfico normal.
Para establecer un patrón de características primero se aplicó el algoritmo J48 donde
se analizará la matriz de confusión, como se observa en la Fig.11. para las instancias
calificadas como ataques tenemos un 99.9% de confiabilidad, así como un 99.8% de
confiabilidad en las instancias categorizadas como tráfico normal y un 13.1% en la
matriz de desconocidos, también se observa que la mayoría de tráfico desconocido fue
clasificado como ataque y no como tráfico normal por lo que hay que tener cautela al
evaluar tráfico con estas características.

RISTI, N.º E21, 07/2019 321


Análisis de seguridad en tráfico de redes empleando minería de datos

Figure 9 – Selección de los campos una vez ingresados a la base de datos

Figure 10 – Tiempo promedio de duración de conexiones

322 RISTI, N.º E21, 07/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Figure 11 – Matriz de confusión del algoritmo J48

En la evaluación de la data con el algoritmo de expectación maximización (EM), se


generaron 3 clústeres donde se analizó el atributo duración observando que el promedio
de duración del clúster 0 y 1 es menor al promedio del clúster 2.

Figure 12 – Resultados del algoritmo NM- Respecto al atributo duración

El resultado respecto a la clasificación se observa que los clústeres 0 y 1 poseen 35964


y 47359 instancias respectivamente clasificadas como ataques, lo cual al compararlo

RISTI, N.º E21, 07/2019 323


Análisis de seguridad en tráfico de redes empleando minería de datos

con la variable de duración podemos distinguir que existe una mayor probabilidad de
que se considere tráfico malicioso una conexión con menor tiempo de duración, estos
resultados son contrastados con los resultados obtenidos al realizar la función avg de
postgreSQL para obtener el tiempo promedio de duración.

Figure 13 – Resultados del algoritmo NM-Respecto a los Flags y clasificación

3. Conclusiones
•• Los sistemas de detección de intrusos muchas veces no tienen en cuenta los
detalles de la conexión para clasificarla como ataques o tráfico normal, es por
ello que la implementación con algoritmos de minería de datos da un mayor
detalle acerca de la probabilidad de que una conexión sea maliciosa.
•• Obteniendo los detalles de las conexiones se puede evaluar los usuarios que se
encuentran constantemente conectados a redes sociales.
•• Teniendo en cuenta las características de tráfico malformado que podrían ser
considerados ataques se puede tener una mejor gestión de seguridad en la red.
•• Identificar los patrones de tramas clasificadas como maliciosas puede suponer
una gran ventaja para el análisis de seguridad de conexiones actuales o pasadas
para evaluar el comportamiento de los usuarios en la red.

Referencias
Abdullah, M. S., Zainal, A., Maarof, M. A., & Nizam Kassim, M. (2019). Cyber-Attack
Features for Detecting Cyber Threat Incidents from Online News. Proceedings of
the 2018 Cyber Resilience Conference, CRC 2018, 1–4. https://doi.org/10.1109/
CR.2018.8626866

324 RISTI, N.º E21, 07/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Al-Mohannadi, H., Awan, I., Al Hamar, J., Al Hamar, Y., Shah, M., & Musa, A.
(2018). Understanding awareness of cyber security threat among IT employees.
Proceedings - 2018 IEEE 6th International Conference on Future Internet of Things
and Cloud Workshops, W-FiCloud 2018, 188–192. https://doi.org/10.1109/W-
FiCloud.2018.00036
Al-Qatf, M., Lasheng, Y., Al-Habib, M., & Al-Sabahi, K. (2018). Deep Learning Approach
Combining Sparse Autoencoder with SVM for Network Intrusion Detection. IEEE
Access, 6(c), 52843–52856. https://doi.org/10.1109/ACCESS.2018.2869577
Bicak, M. B., & Bogdanova, D. (2019). Fighting Cyber Terrorism: Comparison of Turkey
and Russia. International Congress on Big Data, Deep Learning and Fighting Cyber
Terrorism, IBIGDELFT 2018 - Proceedings, 98–101. https://doi.org/10.1109/
IBIGDELFT.2018.8625270
Chandrasekhar, A. M. (2014). Confederation ofFCM Clustering , ANN and SVM
Techniques to Implement Hybrid NIDS Using Corrected KDD Cup 99 Dataset.
672–676.
Chio, C. (2016). Machine learning based techniques for network intrusion detection.
HackInParis, 79–83. Retrieved from https://hackinparis.com/archives/2016/#talk-
2016-machine-learning-techniques-network-intrusion-detection
Divekar, A., Parekh, M., Savla, V., Mishra, R., & Shirole, M. (2018). Benchmarking
datasets for Anomaly-based Network Intrusion Detection: KDD CUP 99 alternatives.
Proceedings on 2018 IEEE 3rd International Conference on Computing,
Communication and Security, ICCCS 2018, 1–8. https://doi.org/10.1109/
CCCS.2018.8586840
Gao, Y., Liu, Y., Jin, Y., Chen, J., & Wu, H. (2018). A Novel Semi-Supervised Learning
Approach for Network Intrusion Detection on Cloud-Based Robotic System. IEEE
Access, 6(c), 50927–50938. https://doi.org/10.1109/ACCESS.2018.2868171
Khan, M. A., Pradhan, S. K., & Fatima, H. (2017). Applying Data Mining techniques in
Cyber Crimes. 2017 2nd International Conference on Anti-Cyber Crimes, ICACC
2017, 213–216. https://doi.org/10.1109/Anti-Cybercrime.2017.7905293
Maniriho, P., & Ahmad, T. (2018). Analyzing the Performance of Machine Learning
Algorithms in Anomaly Network Intrusion Detection Systems. Proceedings -
2018 4th International Conference on Science and Technology, ICST 2018, 1, 1–6.
https://doi.org/10.1109/ICSTC.2018.8528645
Mehta, V., Bahadur, P., Kapoor, M., Singh, P., & Rajpoot, S. (2015). Threat prediction
using honeypot and machine learning. 2015 1st International Conference on
Futuristic Trends in Computational Analysis and Knowledge Management, ABLAZE
2015, 278–282. https://doi.org/10.1109/ABLAZE.2015.7155011
Mohd, R. Z. A., Zuhairi, M. F., Shadil, A. Z. A., & Dao, H. (2017). Anomaly-based NIDS:
A review of machine learning methods on malware detection. ICICTM 2016 -
Proceedings of the 1st International Conference on Information and Communication
Technology, (May), 266–270. https://doi.org/10.1109/ICICTM.2016.7890812

RISTI, N.º E21, 07/2019 325


Análisis de seguridad en tráfico de redes empleando minería de datos

Nids, A., Vidal, J. M., Orozco, A. L. S., Villalba, L. J. G., & Member, S. (2015). Quantitative
Criteria for Alert Correlation of Anomaly-based NIDS. 13(10), 3461–3466.
Processing, M. S., Kao, C., Chang, Y., Huang, N., Liao, I., Liu, R., … Lin, C. (2015).
Automatic NIDS Rule Generating System for Detecting HTTP-like Malware
Communication. 3–6. https://doi.org/10.1109/IIH-MSP.2015.10
Sacramento, L., Medeiros, I., Bota, J., & Correia, M. (2018). FlowHacker: Detecting
Unknown Network Attacks in Big Traffic Data Using Network Flows. Proceedings
- 17th IEEE International Conference on Trust, Security and Privacy in Computing
and Communications and 12th IEEE International Conference on Big Data Science
and Engineering, Trustcom/BigDataSE 2018, 567–572. https://doi.org/10.1109/
TrustCom/BigDataSE.2018.00086
Shalaginov, A., Johnsen, J. W., & Franke, K. (2018). Cyber crime investigations in the era
of big data. Proceedings - 2017 IEEE International Conference on Big Data, Big Data
2017, 2018-Janua, 3672–3676. https://doi.org/10.1109/BigData.2017.8258362
Ur Rehman, S., & Gruhn, V. (2018). An approach to secure smart homes in cyber-physical
systems/Internet-of-Things. 2018 5th International Conference on Software
Defined Systems, SDS 2018, 126–129. https://doi.org/10.1109/SDS.2018.8370433
Yan, J., Jin, D., Lee, C. W., & Liu, P. (2018). A Comparative Study of Off-Line Deep
Learning Based Network Intrusion Detection. International Conference on
Ubiquitous and Future Networks, ICUFN, 2018-July, 299–304. https://doi.
org/10.1109/ICUFN.2018.8436774

326 RISTI, N.º E21, 07/2019


© 2019. This work is published under
https://creativecommons.org/licenses/by-nc-nd/4.0(the
“License”). Notwithstanding the ProQuest Terms and
Conditions, you may use this content in accordance with the
terms of the License.

También podría gustarte