Está en la página 1de 15

APLICACIÓN DE SOM (SELF-ORGANIZING MAPS) A SISTEMAS DE DETECCION DE INTRUSOS

(IDS) USANDO WEKA

Marco Garcia
mgarcia56@cuc.edu.co

RESUMEN

La seguridad en sistemas informáticos es un tópico de alta importancia hoy en día, debido a


que nuestros sistemas de información están interconectados con otros sistemas a través de
internet o redes propietarias. La información como activo de una organización debe cuidarse
de accesos no autorizados, o intentos de modificación.

Por esta y otras razones, se han realizado trabajos en cuanto a brindar seguridad en redes a
través de diversos métodos, entre ellos se tienen los sistemas de detección de intrusos – IDS
[1], [2],[3], por tal motivo los Sistemas de Detección de Intrusos (IDS, por sus siglas en inglés)
comerciales actuales clasifican el tráfico de red, detectando conexiones normales e
intrusiones, mediante la aplicación de métodos basados en firmas; ello conlleva problemas
pues solo se detectan intrusiones previamente conocidas y existe desactualización periódica
de la base de datos de firmas. Esta dinámica lleva a entender los ataques y la mejor manera
de contrarrestarlos, ya sea previniéndolos o detectándolos a tiempo, procurando que su
impacto sea menor al esperado por el atacante.

Esta propuesta presenta la aplicación de SOM en IDS, utilizando el conjunto de datos NSL-
KDD, y mostrando las mejoras encontradas en la detección de ataques en el proceso de
búsqueda. Evaluando la eficiencia de un modelo de detección de intrusiones de red usando
métricas de sensibilidad y especificidad, mediante un proceso de simulación que emplea el
dataset NSL KDD DARPA, entrenando una red neuronal que haga uso de un algoritmo de
aprendizaje no supervisado basado en mapas auto-organizativos, con el propósito de
clasificar el tráfico de la red en conexiones normales y ataques de forma automática.

La simulación implementada en weka generó métricas de precision de 82.5%, exactitud de


65.05%, especificidad de 93.80% y sensibilidad de 32.31% utilizando todas las 41
características, respectivamente.

PALABRAS CLAVE:

KDD-NSL DARPA, WEKA, SOM, RNA, IDS


APPLYING SOM (SELF-ORGANIZING MAPS) TO INTRUSION DETECTION SYSTEMS (IDS) USING
WEKA

Marco Garcia
mgarcia56@cuc.edu.co

ABSTRACT

The information systems security is a topic of high importance today because our
information systems are interconnected with other systems via the Internet or proprietary
networks. Information as an asset of an organization should take care of unauthorized access
or modification attempts.

For this and other reasons, work has been done in terms of providing network security
through various methods, among them have intrusion detection systems - IDS [1], [2], [3],
for that reason the Intrusion Detection Systems (IDS, for its acronym in English) classified
existing commercial network traffic, detecting normal connections and intrusions, by
applying signature-based methods; It entails problems because only previously known
intrusions are detected and there periodic outdated database of signatures. This dynamic
leads to understand the attacks and how best to counter them either preventing them or
detecting them on time, ensuring that its impact is less than expected by the attacker.

This proposal presents the application of SOM in IDS, using the NSL-KDD set of data, and
showing the improvements found in detecting attacks on the search process. Evaluating the
efficiency of a model of intrusion detection network using metrics sensitivity and specificity
using a simulation process that uses the dataset NSL KDD DARPA, training a neural network
that makes use of a learning algorithm not supervised map-based auto -organizativos, in
order to classify network traffic and attacks normal connections automatically.

The implemented weka generated simulation of 0.825 metric precision, accuracy of


0.650587 0.938053 specificity and sensitivity of 32.31% using all 41 features, respectively.

KEYWORDS:

KDD-NSL DARPA, WEKA, SOM, RNA, IDS


INTRODUCCIÓN investigadores toman colecciones de
datos o datasets y los someten a un
Las organizaciones requieren proteger la proceso que implica varias fases: pre-
información contenida en sus redes procesamiento, normalización,
informáticas; sin embargo, el hecho de entrenamiento y clasificación, con el
que en la actualidad tanto usuarios objeto de evaluar la eficiencia de los
internos como externos al contexto de la algoritmos de entrenamiento usados para
red puedan conectarse de forma local o desarrollar los IDS.
remota, incrementa considerablemente la
probabilidad de que ésta sea atacada, Si los algoritmos generan altas métricas de
razón por la cual se han desarrollado eficiencia en la detección, podrían luego
diferentes herramientas y estrategias, ser implementados en IDS reales. Por otra
tanto de hardware como de software, para parte, cada ataque en la red es
detectar y prevenir accesos intrusivos a la identificado como un registro de conexión
red con intenciones maliciosas. del dataset, y cada registro posee un total
de 41 dataset, y cada registro posee un
Para evitar ataques procedentes de total de 41 características que
fuentes externas existen cortafuegos posibilitarán la identificación del ataque.
(firewalls) y Redes Privadas Virtuales
(VPNs); tales herramientas restringen el Para poder identificar con precisión la
tráfico de servicios desconocidos, en el magnitud del problema y las posibles
caso de los cortafuegos, mediante el alternativas de solución, se deben abordar
bloqueo de puertos. Queda aún un hueco con detalle: la fundamentación referida a
de seguridad desde el exterior y es los Sistemas de Detección de Intrusos, las
encapsular los ataques en el tráfico de características inherentes a los dataset
servicios permitidos por el dispositivo. DARPA, las técnicas o algoritmos
existentes en relación con la extracción de
Los IDS pueden detectar ataques con una características, la funcionalidad de los
metodología basada en firmas SOM (mapas autorganizativos) y la
(comparando los ataques con una base de integración de estos fundamentos en un
datos de firmas o rules) o con una proceso de reproducción de experiencias
metodología basada en anomalías de simulación.
(empleando un algoritmo de aprendizaje),
los primeros se han implementado DEFINICION DE IDS
ampliamente en IDS comerciales, sin
embargo presentan la limitante de no Los IDS son eficaces herramientas de
detectar ataques nuevos; los segundos protección de datos que complementan
detectan ataques nuevos con cierto en gran medida el uso de otras técnicas de
porcentaje de exactitud. seguridad.

El compromiso de los investigadores ha Los sistemas informáticos pueden estar


sido elevar los niveles de exactitud en la expuestos a diversidad de ataques que
detección. Para ello, inicialmente en viajan por la red informática, en forma de
contextos de simulación, los conexiones. Las dos finalidades
primordiales de los IDS son la prevención y numerosos trabajos [10] ,[11]. La
la reacción. clasificación más común se realiza en base
a tres criterios funcionales de los IDS. Estos
La primera implica la “escucha” del tráfico son:
en la red o de una computadora en
particular, con la intención de identificar el Fuentes de información. Se refiere al
ataque, aplicando técnicas de origen de los datos que se usan para
reconocimiento de patrones o técnicas determinar si una intrusión se ha
inteligentes basadas en modelos llevado a cabo. Puede ser una máquina
estadísticos y soportados en redes o los paquetes capturados en una red.
neuronales, informando en tiempo real al Análisis. Se trata del método de
sistema sobre los intentos de ataques o de detección utilizado. La información
actividades sospechosas. recogida en el paso anterior puede ser
analizada mediante diferentes
Como complemento a ello la segunda estrategias. Puede ser detección de
finalidad hace posible la elaboración de anomalías o detección de uso indebido.
respuestas defensivas implementadas a Tipo de respuesta. Una vez se ha
través de scripts, ante la materialización determinado si ha sucedido alguna
de los ataques. Esto es posible mediante el intrusión, los IDS pueden o bien
análisis de archivos logs en los sistemas. responder de forma activa ante la
misma, o bien registrar la detección y
Se ha tratado de estandarizar la no realizar acción alguna. Se puede
arquitectura de los IDS inicialmente presentar ambos tipos de respuesta en
mediante las propuestas efectuadas por algunos IDS.
CIDF (Marco común de Detección de
Intrusiones) definido en [4], [5] y [6], y
autopost de AusCERT (Equipo australiano
de Respuestas a Emergencias en
Computación) que puede ser consultado
en [7]; ambos proyectos culminaron
infructuosamente, razón por la cual los
esfuerzos de estandarización actuales se
han encaminado por IDWG (Grupo de
Trabajo en Detección de Intrusiones,
presentado por el Grupo de Trabajo de
Ingeniería en Internet - IETF) que se define
en [8] y CVE (Exposiciones y
Vulnerabilidades Comunes) que puede ser Los IDS se clasifican de acuerdo con los
consultado en [9]. criterios de enfoque o tipo de análisis,
origen de los datos o fuentes de
CLASIFICACIÓN DE LOS IDS información, por su estructura y según su
respuesta o comportamiento. Apréciese el
La clasificación de los sistemas de esquema de clasificación en la Fig. 1.
detección de intrusos ha sido tratada en Información detallada sobre estos
sistemas puede ser consultada en [12], ataques inexistentes en dicha base de
[13] y[14]. datos.

En relación con el enfoque o tipo de La detección de intrusos basada en


análisis, los IDSs se clasifican en detección anomalías funciona asumiendo que los
de intrusos basada en abusos (Misuse- ataques son diferentes a la actividad
based Intrusion Detection) y detección de normal; se puede llegar a esta inferencia
intrusos basada en anomalías (Anomaly- luego de un proceso de entrenamiento, en
based Intrusion Detection); en la Fig. 2 se el cual se identificará “¿qué se considera
aprecia su arquitectura funcional. Mayor como actividad normal?, analizando
información en relación con los algoritmos comportamientos inusuales tanto en los
utilizados como estrategia de análisis, por host como en el tráfico de la red. Para ello
cada uno de estos enfoques, puede ser se construyen perfiles generados a partir
consultada en [15] y [16]. del análisis de asociación de patrones;
estos perfiles representan el
comportamiento normal de los usuarios,
hosts o conexiones de red.

Las medidas y técnicas comúnmente


utilizadas en los IDS para la detección de
anomalías son: la detección de umbral y el
uso de medidas estadísticas. Las técnicas
de detección de anomalías como la
aplicación de IDES (Sistema Experto de
Detección de Intrusos), redes neuronales,
el uso de algoritmos genéticos, la
modelación de un sistema inmune y NIDES
(Next-generation Intrusion Detection
Expert), no son empleadas en la actualidad
La detección de intrusos basada en abusos en los IDS con fines comerciales debido a
monitoriza las actividades que ocurren en que aún siguen siendo objeto de
un sistema y las compara con una base de investigación.
datos de firmas de ataques predefinida,
generando una alerta si la actividad es REDES NEURONALES
identificada como ataque.
Son sistemas artificiales que van a copiar la
Según [17] esta técnica es muy utilizada en estructura de las redes neuronales
productos comerciales, debido a su biológicas con el fin de alcanzar una
previsibilidad y alta precisión; sin funcionalidad similar. Las redes
embargo, para que el método sea efectivo, neuronales artificiales [18] tratan de
es necesario mantener actualizada la base emular tres conceptos claves:
de datos de firmas. La deficiencia de este
método es que no identifica nuevos PROCESAMIENTO PARALELO, derivado
de que los miles de millones de
neuronas que intervienen, por ejemplo igual que en [20], utilizan redes
en el proceso de ver, están operando neuronales para predecir el siguiente
en paralelo sobre la totalidad de la comando basado en una secuencia de
imagen. comandos previos ejecutados por un
MEMORIA DISTRIBUIDA, mientras usuario.
que en un computador la
información está en posiciones de El aprendizaje lo realizan mediante redes
memoria bien definidas, en las redes neuronales recurrentes (parte de la salida
neuronales biológicas dicha se realimenta como entrada a la red en la
información está distribuida por la siguiente iteración) por lo que la red está
sinapsis de la red, existiendo una continuamente observando y tiene la
redundancia en el almacenamiento, capacidad de “olvidar” comportamientos
para evitar la pérdida de antiguos. Debar y Dorizzi presentan un
información en caso de que una sistema de filtrado basado en redes
sinapsis resulte dañada. neuronales recurrentes que actúa para
filtrar los datos que no se corresponden
ADAPTABILIDAD AL ENTORNO, por con la tendencia observada en el
medio de la información de las comportamiento de las actividades de
sinapsis. Por medio de esta usuarios [21].
adaptabilidad se puede aprender de
la experiencia y es posible Ryan et al. Desarrollaron NNID (Neural
generalizar conceptos a partir de Network Intrusion Detection) para la
casos particulares. identificación de usuarios legítimos
basado en la distribución de los comandos
REDES NEURONALES E IDS que ejecutaban. Escogieron una
arquitectura de red neuronal multicapa de
Se han realizado numerosos trabajos con tipo backpropagation de tres capas para su
redes neuronales artificiales en detección cometido [22]. David Endler utilizó un
de intrusos tratando de dar una alternativa perceptrón multicapa tanto para la
a los sistemas expertos gracias a su detección de uso indebido como para la
flexibilidad y adaptación a los cambios detección de anomalías a partir de datos
naturales que se pueden dar en el entorno de auditoría procedentes del BSM (Basic
y, sobre todo, a la capacidad de detectar Security Module) de Solaris [23].
instancias de los ataques conocidos. La
mayor deficiencia que tienen las redes Lippmann y Cunningham realizaron un
neuronales es que son un modelo no proyecto que mejoraba el rendimiento de
descriptivo, es decir; actúan como una caja la detección de ataques de tipo U2R
negra sin que se pueda conocer la razón de realizados mediante el uso de palabras
la decisión tomada. clave [24]. Una vez obtenidas las palabras
clave, se usaba una red de tipo perceptrón
El primer modelo de detección de intrusos multicapa (sin ninguna capa oculta) para la
basado en redes neuronales lo realizaron detección de ataques. Más tarde, se utilizó
Fox et al.como método para crear perfiles otra red neuronal similar para su
de comportamiento de usuarios [19]. Al clasificación. Una red de tipo perceptrón
multicapa (sin ninguna capa oculta) mide Service) donde un módulo de detección de
inicialmente el número de palabras clave, anomalías basado en análisis estadístico se
proporcionando una estimación de la ha sustituido por otro que utiliza mapas
probabilidad posterior de un ataque en autoorganizativos [26].
cada sesión telnet. La otra Lippmann y
Cunningham realizaron un proyecto que DATASET DARPA
mejoraba el rendimiento de la detección
de ataques de tipo U2R realizados El dataset se utiliza para la evaluación de
mediante el uso de palabras clave [24]. la eficiencia de los sistemas de detección
de intrusos en redes informáticas. Los
Una vez obtenidas las palabras clave, se criterios medibles son la probabilidad de
usaba una red de tipo perceptrón detección y la probabilidad de falsas
multicapa (sin ninguna capa oculta) para la alarmas del respectivo sistema testeado.
detección de ataques. Más tarde, se utilizó
otra red neuronal similar para su Los dataset publicados por LL-MIT en su
clasificación. Una red de tipo perceptrón web oficial, son los resultados de las
multicapa (sin ninguna capa oculta) mide evaluaciones en detección de intrusiones
inicialmente el número de palabras clave, efectuada por DARPA en 1998 y 1999.
proporcionando una estimación de la También se encuentran experimentos
probabilidad posterior de un ataque en dirigidos a escenarios específicos
cada sesión telnet. La otra red, del mismo realizados en 2000. El LL-MIT distribuye
tipo, se utilizaba posteriormente para libremente los dataset, la documentación,
tratar de clasificar ataques conocidos y de publicaciones, evaluaciones de resultados
esa manera facilitar el nombre de dicho y herramientas de software relacionadas,
ataque. disponibles en [27].

Ghosh y Schwartzbard presentan un El dataset DARPA 1998 contiene un


trabajo muy similar a los anteriores, pero conjunto de ataques realistas, integrados
en lugar de utilizar redes neuronales para a un conjunto de conexiones normales, lo
crear perfiles del comportamiento de cual suministra el insumo de datos que
usuarios, utilizan la red para crear perfiles permite evaluar las falsas alarmas y las
del comportamiento del software de tasas de detección de IDS; para construir
modo que tratan de distinguir entre este dataset se efectuaron dos
comportamiento de software normal y evaluaciones: una off-line y otra en tiempo
malicioso [25]. Utilizan una red neuronal real.
de tipo backpropagation (perceptrón
feed-forward multicapa) con el fin de La primera consta de tráfico de red y logs
generalizar datos incompletos y de auditoría recogidos en una red de
posteriormente realizar la clasificación. simulación, para la segunda se insertaron
sistemas de detección de intrusión en el
En la Universidad de Ohio se ha banco de pruebas de la red AFRL con la
desarrollado un IDS de red llamado intensión de identificar sesiones de ataque
INBOUNDS(Integrated Network-Based en medio de actividades normales, en
Ohio University Network Detective tiempo real.
no contienen ataques, la segunda semana
A partir de todos los datos recolectados se contiene un subconjunto selecto de
organizaron distintos subconjuntos de ataques que van desde los ataques de
datos que componen el dataset DARPA 1998 a otros ataques nuevos), datos de
1998, tales como: datos de ejemplo, test (dos semanas de ataques basados en
cuatro horas de subconjuntos de datos de red en medio de actividad normal en
entrenamiento, datos de entrenamiento segundo plano).
(contienen siete semanas de ataques
basados en red en medio de datos en
segundo plano, normales) y datos de test
(contiene dos semanas de ataques
basados en red en medio de actividad
normal en segundo plano).

El dataset DARPA 1999, al igual que su


predecesor, está constituido por una
evaluación off-line y una evaluación en
tiempo real, basándose en los mismos
principios que en el conjunto de datos del
año anterior e incluyendo adicionalmente
las siguientes características: ataques y
tráfico desde ordenadores que ejecutan
Windows NT, ataques en la red interna,
archivos de sistema dump que
proporcionan importantes componentes
desde sistema de ficheros de cinco
víctimas cada noche, incluyendo logs de
auditoría de Windows NT y archivos de
sniffing que proporcionan datos de
sniffing de la red interna.

DARPA 1999 centra la evaluación de


actividades de estaciones de trabajo UNIX,
Windows NT y a partir de los siguientes
eventos: Denegación de Servicios (DoS),
Remoto a Local (R2L), Usuario a Root El dataset NSL-KDD es una colección de
(U2R) y acceso desautorizado o datos construido con el objeto de
modificación de datos en un host local o solventar los problemas que presenta el
remoto. conjunto KDD’99 [28], pese a no ser una
representación perfecta de los datos
Quedando el dataset DARPA 1999 reales, debido a que no contiene
constituido por: datos de entrenamiento conjuntos de datos públicos de los IDS; sin
(tres semanas de ataques, teniendo en embargo, demuestra mucha utilidad al ser
cuenta que la primera y la tercera semana aplicado como un conjunto de datos de
referencia eficaz para ayudar a los Los Mapas Autorganizativos SOM [31],
investigadores en el proceso de [32] fueron concebidos por Teuvo
comparación de diferentes métodos de Kohonen, investigador del Centro de
detección de intrusos. Investigación de Tecnologías en Redes
Neuronales de la Universidad de Helsinki,
El número de registros que contiene el en Finlandia. Estos mapas hacen posible la
data set NSL-KDD es razonable, lo cual se representación de datos
constituye en una ventaja a la hora de multidimensionales en espacios de
realizar los experimentos con la colección dimensiones mucho menores, por lo
de datos completa, para efectos de tiempo general de dimensión 1, 2 o 3. La
de procesamiento de la información, sin reducción de la dimensionalidad de los
necesidad de elegir al azar a una pequeña vectores es una técnica de compresión de
porción de los datos, lo que datos conocida como cuantificación
consecuentemente conlleva a que los vectorial. Los SOM crean una red que
resultados de la evaluación de los trabajos almacena la información de tal manera
de investigación lleguen a ser consistentes que todas las relaciones topológicas en el
y comparables. conjunto de entrenamiento se mantienen.

En [29] se encuentran los archivos de La característica más preponderante de


datos del NSL_KDD tanto en formato .txt los SOM es que aprende a clasificar los
como en formato .arff, cuya descripción se datos mediante un algoritmo de
aprecia en la Tabla V. aprendizaje NO supervisado (un SOM
aprende a clasificar los datos de
Este último formato “Attribute Relation entrenamiento sin ningún tipo de control
File Format” es usado por compatibilidad externo). En el enfoque SOM, un vector de
con el software WEKA (Waikato entrada se presenta a la red (normalmente
Environment for Knowledge Analysis) [30], una red multicapa feedforward) y este
con el objeto de poder efectuar el análisis vector es comparado iterativamente con
de datos de los dataset KDDTrain+ y cada uno de los vectores de pesos
KDDTest+. asociados a los nodos de la estructura del
mapa, de tal forma que los pesos de cada
WEKA es un entorno de trabajo vector se recalculen en relación con el
desarrollado por la Universidad de vector de entrada.
Waikato (Nueva Zelanda), construido en
JAVA y con licenciamiento GPL, que se Esto se repite muchas veces y con varios
utiliza para procesos de experimentación conjuntos de pares de vectores hasta que
de análisis de datos que hagan posible la la red converja en el resultado deseado.
aplicación, análisis y evaluación, sobre un Una red SOM es usualmente creada a
dataset empleando técnicas relativas al partir de un entramado de nodos en dos
aprendizaje automático. dimensiones (2D), donde cada uno de ellos
está completamente conectado a la capa
SOM (MAPAS AUTO ORGANIZATIVOS) de entrada. La Fig. 2 ilustra una pequeña
red SOM de 3X3 nodos conectados a la
capa de entrada que representa un vector
de tres entradas. Cada nodo posee una Fig.2
posición topológica específica con
coordenadas (x,y) en el entramado y APLICACIONES DE SOM
contiene un vector de pesos de la misma
dimensión que los vectores de entrada. Los Mapas Autorganizativos de Kohonen
facilitan la comprensión de las relaciones
Los datos empleados para el existentes en grandes colecciones de
entrenamiento usan vectores “V” con una datos, poseen aplicaciones en una variada
dimensión“n”, de la forma: V1, V2, gama de áreas, como: la clasificación de
V3,...,Vn. información bibliográfica, exploración y
análisis de imágenes, diagnóstico médico,
interpretación de la actividad sísmica,
reconocimiento de la voz, compresión de
datos, separación de fuentes de sonido,
modelización ambiental y otras más.

Algunos ejemplos puntuales de aplicación


de los SOM se refieren a: el agrupamiento
gráfico basado en SOM para la extracción
de ideas principales en documentos [33];
un sistema de correlación basado en la
ingeniería de kansei y en la evaluación de
FIGURA 1 características reales de automóviles,
como soporte a la compra de coches,
Además, cada nodo del entramado basado en SOM [34]; sistema híbrido
contendrá el correspondiente vector de basado en mapas auto-organizativos de
pesos W, de tamaño igual a la dimensión Kohonen, para la predicción de variación
del vector de la capa de entrada, “n”, con de precios de las acciones de la bolsa de
la forma siguiente: W1, W2, W3...Wn. valores [35]; sistema sistólico de alto
rendimiento SOM sobre núcleo IP en
Las líneas que conectan los nodos en la Fig. FPGAs, para el procesamiento de miles de
2 solo representan adyacencia, no significa elementos en tiempo real, clasificando
que exista una conexión como se indica datos relacionados con la genómica o
normalmente cuando se habla de una red proteómica [36]; reconocimiento de
neuronal. patrones de falla en sistemas
termodinámicos basados en SOM,
aplicados a centrales de energía térmica
[37]; extracción automática de caminos
mediante el censado de imágenes de alta
resolución, basado en SOM [38];
aplicación de mapas auto-organizativos
(SOM) para determinar la descomposición
de productos químicos [39]; sistemas de
detección de intrusiones anormales en
redes informáticas, basados en SOM [40]; balanceo del dataset antes mencionado,
técnicas para visualización de ADN, seleccionando aleatoriamente 23.486
basadas en SOM, usando Microarrays para registros de conexiones de éste,
el análisis de datos [41] y modelamiento distribuidos en un 50% a conexiones
del contorno de imágenes basado en SOM normales y otro 50% a conexiones de
[42]. ataques.

Por otra parte, existe una gran variedad de


SOM que pueden ser consultadas en
Redes SOM constructivas [43], Red de
crecimiento en malla incremental [44],
Mapas autorganizativos de crecimiento
[45], redes GAS de crecimiento neural
[46], red GAS neural [47], red GAS de
crecimiento neural basada en densidad
[48], [49], Aprendizaje Hebbiano Una vez entrenada la red neuronal, para la
Competitivo [50] y Mapas Auto- fase de clasificación se utilizó el archivo
organizativos de Crecimiento Jerárquico KDDTest+.txt del cual se extrajeron 22.544
[51]. registros de conexión de red, cada uno de
los cuales contiene 41 características y se
DATASET EMPLEADO EN LA SIMULACIÓN realizó el proceso de clasificación con tales
registros.
Los registros de conexión de red utilizados
en las fases de entrenamiento y
clasificación de las simulaciones proceden
del dataset NSL-KDD DARPA. Para el
entrenamiento se utilizó el archivo
KDDTrain+_20Percent.txt del cual se
extrajeron 25.192 registros de conexiones
de red, cada uno de los cuales contiene 41
características.

Con el propósito de que el algoritmo de


entrenamiento aprendiese a identificar
equitativamente tanto conexiones
normales como ataques, se realizó un
REGISTROS DEL DATASET (DARPA-KDD NSL)
REFERENCIAS [11]Zurutuza, U. Revisión del estado actual
de la investigación en el uso de data
[1] H.Debar, M.Dacier and A.Wespi. mining para la detección de intrusiones.
Towards a taxonomy of intrusion- Escuela Politécnica Superior de
detection systems. Chalmers University of Mondragón. 2005.
Technology. 1999. [12] Prelude Technologies. Disponible en:
[2] Mira Alfaro, José. Implantación de un http://www.prelude-technologies.com/
Sistema de Detección de Intrusos en la [13] National Institute of Standards and
Universidad de Valencia. Universidad de Technology - National Computer Security
Valencia. 2003. Center.
[3] Ferreira, E. y Parra, C. Detección de National Computer Security Conference.
intrusos en redes utilizando Snort. Tesis DIANE Publishing Company. October 1992.
Esp. UIS. 2003. p. 272.
[4] USC Information Sciences Intitute. [14] SRI - International a real-time
“Common Intrusion Detection Intrusion- Detection Expert System (IDES).
Framework”, Disponible en: Disponible en: http://www.csl.sri.com/
http://gost.isi.edu/cidf/ papers/9sri/9sri.pdf
[5] CIDF Working Group (Clifford Kahn, [15] S. Noel, D. Wijesekera, and C.
Don Bolinger and Dan Youman. “Modern Intrusion Detection,
Schnackenberg).DRAFT Specification. Data Mining, and Degrees of Attack Guilt”.
Communication in the Common Intrusion In Applications of Data Mining in
Detection Frameworkv 0.7. 8 June 1998. Computer Security, D. Barbarà and S.
Disponible en: http://gost.isi.edu/cidf Jajodia (eds.), Kluwer Academic Publisher,
/drafts/ communication.txt 2002.
[6] Rich Feiertag, Cliff Kahn, Phil Porras, [16] A. Lazarevic, J. Srivastava, and V. A.
Dan Schnackenberg et al. A Common Kumar, “Survey of Intrusion Detection
Intrusion Specification Language (CISL). 11 techniques”. book Managing Cyber
June 1999. Disponible en: Threats: Issues, Approaches and
http://gost.isi.edu/cidf/drafts/language.tx Challenges, to be published by Kluwer in
t spring 2004.
[7] Australian Computer Emergency [17] M. Tavallaee, E. Bagheri, W. Lu, and A.
Response Team. Disponible en: A. Ghorbani. “A Detailed Analysis of the
http://www. auscert.org.au/ KDD CUP 99 Data Set”, IEEE Symposium on
[8] Internet Engineering Task Force. Computational Intelligence for Security
Disponible en: http://datatracker.ietf.org and Defense Applications, 2009. CISDA
/wg/idwg/ 2009, pp. 1-6, july 2009.
[9] Common Vulnerabilities and Exposures [18] Haykin S. Neural Networks, Mc
- CVE. Disponible en: http://cve.mitre .org/ Master University , Ontario, Canada 1994.
about/index.html [19] Fox, K., Henning, R., Reed, J., and
[10] Axelsson, S. Intrusion Detection Simonian, R. A Neural Network Approach
Systems: A Taxonomy and Survey. Towards Intrusion Detection. Proc. of the
Technical Report. Chalmers University of 13th National Computer Security
Technology. 2000.
Conference, Washington, D.C., Oct. 1990, [27] Lincoln Laboratory of Massachusetts
125-134. Institute Tecnology - MIT. Disponible en:
[20] H. Debar and Dorizzi, B. An http://www.ll.mit.edu/mission/communic
Application of a Recurrent Network to an ations/ist/corpora/ideval/data/index.html
Intrusion Detection System. In IEEE, editor, [28] KDD Cup 1999. Disponible en: http://
International Joint Conference on Neural kdd.ics.uci.edu/databases/kddcup99/
Networks 1992, pp 478-483. kddcup99.html
[21] H. Debar, M Becker, D. Siboni. A [29] The NSL-KDD Data Set. Disponible en:
Neural Network Component for an http://nsl.cs.unb.ca/NSL-KDD/
Intrusion DetectionSystem. Proceedings, [30] The University of Waikato. Disponible
IEEE Symposium on Research in Computer en:http://www.cs.waikato.ac.nz/~ml/wek
Security and Privacy, 1992. pp 240-250. a/ index.html
[22] Jake Ryan, Meng-Jang Lin, and Risto [31]T. Kohonen. “Self-organizing Maps”.
Miikkulainen. Intrusion Detection with Springer Series in Information Sciences.
Neural Networks. In Advances in Neural Volume 30, 1997. 2nd edition.
Information Processing Systems 10 [32] Kohonen’s Self Organizing Feature
(Proceedings of NIPS'97, Denver, CO). Maps. Disponible en: http://www.ai-
Cambridge, MA: MIT Press, 1998 junkie.com/ ann/som/som1.html
[23] D. Endler. Intrusion detection: [33] Do Phuc, and Mai Xuan Hung, “Using
Applying machine learning to solaris audit SOM based Graph Clustering for Extracting
data. In Proceedings of the 1998 Annual Main Ideas from Documents”. Research,
Computer Security Applications Innovation and Vision for the Future,
Conference (ACSAC'98), pp 268--279, Los 2008. RIVF 2008. IEEE Internatio-nal
Alamitos, CA, December 1998. IEEE Conference on. pp. 209-214. July 2008.
Computer Society, IEEE Computer [34] I. Nakaoka, J.-I. Kushida and K. Kamei,
Society Press. Scottsdale, AZ. “Proposal of Group Decision Support
[24] Lippmann, R. P. and Cunningham, R. System Using “SOM” for Purchase of
K. (1999). Improving Intrusion Detection Automobiles”. Innovative Computing
Performance using Keyword Selection and Information and Control, 2008. ICICIC ‘08.
Neural Networks. Web proceedings of the 3rd International Conference on p. 482.
2nd International Workshop on Recent June 2008.
Advances in Intrusion Detection (RAID'99). [35] M. O. Afolabi and O. Olude,
[25] Ghosh, A. and Schwartzbard, A. “Predicting Stock Prices Using a Hybrid
(1999a). A Study in Using Neural Networks Kohonen Self Organizing Map (SOM)”.
for Anomaly and Misuse Detection. In System Sciences, 2007. HICSS 2007. 40th
Proceedings of the 8th USENIX Security Annual Hawaii International Conference
Symposium (SEC'99). on. p. 48. Jan. 2007.
[26] M. Ramadas, S. Ostermann and B. [36] I. Manolakos and E. Logaras, “High
Tjaden. Detecting Anomalous Network throughput systolic SOM IP core for
Traffic with Self-Organizing Maps. Web FPGAs”.Acoustics, Speech and Signal
proceedings of the 6th International Processing, 2007. ICASSP 2007. IEEE
Workshop on Recent Advances in International Conference on. pp. II-61 - II-
Intrusion Detection RAID, 2003 . 64. April 2007.
[37] Kuang Yin and Luo Gang, “Fault Department of Computer Science -
Pattern Recognition of Thermodynamic University of Sao Paulo. 2004.
System Based on SOM”. Electrical and [44] J. Blackmore and R. Miikkulainen,
Control Engineering (ICECE), 2010. “Incremental grid growing: Encoding high
International Conference on. pp. 3742- dimensional structure into a twodimen
3745. June 2010. sional feature map”. In Proceedings of the
[38] Hao Ying, Wang Li-qiang and Zhao International Conference on Neural
Xi’an. “Automatic Roads Extraction From Networks ICNN93, 1993, volume I, pp.
Highresolution Remote Sensing Images 450- 455, Piscataway, NJ. IEEE Service
Based on SOM”. Natural Computation Center.
(ICNC), 2010 Sixth International [45] D. Alahakoon, S. K. Halgamuge and B.
Conference on. pp. 1194-1198. Aug. 2010. Srinivasan, “A structure adapting feature
[39] H. Tokutaka, K. Yoshihara, K. Fujimura, map for optimal cluster representation”.
K. Iwamoto, T. Watanabe and S. In International Conference on Neural
Kishida,“Applications of Self-organizing Information Processing ICONIP98, 1998.
Maps (SOM) to the Composition pp. 809-812.
Determination of Chemical Products”. [46] B. Fritzke, “A growing neural gas
Neural Networks Proceedings, 1998. IEEE network learns topologies”. In G. Tesauro,
World Congress on Computational D. S. Touretzky and T. K. Leen, editors,
Intelligence. The 1998 IEEE International Advances in Neural Information
Joint Conference on. pp. 301-305 vol. 1. Processing Systems 7, 1995, pp. 625-632.
May 1998. MIT Press, Cambridge MA.
[40] Li Min and Wang Dongliang, [47] T. Martinetz and K. Schulten,
“Anormaly Intrusion Detection Based on “Topology representing networks”. Neural
SOM”. Information Engineering, 2009. ICIE Networks, 1994. 7(3):507-522.
‘09. WASE International Conference on. [48] A. Ocsa, C. Bedregal and E. Cuadros-
pp. 40-43. July 2009. Vargas, “DB-GNG: A constructive self-
[41] J.C. Patra, J. Abraham, P.K. Meher, and organizing map based on density”. In
G. Chakraborty, “An Improved SOM-based Proceedings of the International Joint
Visualization Technique for DNA Conference on Neural Networks
Microarray Data Analysis”. Neural Net (IJCNN07). IEEE, 2007.
works (IJCNN), The 2010 International [49] Y . Prudent and A. Ennaji, A k nearest
Joint Conference on. pp. 1-7. July 2010. classifier design. ELCVIA, 2005. 5(2): 58-
[42] Y . V. Venkatesh, S.K. Raja, and N. 71.
Ramya, “A Novel SOM-based Approach for [50] R. H. White, “Competitive hebbian
Active Contour Modeling”. Intelligent learning: algorithm and demonstrations”.
Sensors, Sensor Networks and Informa- Neural Networks, 1992. 5(2): 261-275.
tion Processing Conference, 2004. [51] The Growing Hierarchical Self-
Proceedings of the 2004. pp. 229-234. Organizing Map. Department of Software
Dec. 2004. Technology.
[43] E. Cuadros-Vargas, Recuperação de Vienna University of Technology.
informação por similaridad e utilizando Septiembre 2011. Disponible en: http://
técnicas inteligentes. PhD thesis, www.ifs.tuwien.ac.at/~and

También podría gustarte