Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Modelo de Detección de Intrusiones en Sistemas de Red, Realizando Selección de Características Con FDR y Entrenamiento y Clasificación Con SOM
Modelo de Detección de Intrusiones en Sistemas de Red, Realizando Selección de Características Con FDR y Entrenamiento y Clasificación Con SOM
85-116
Artículo de Investigación - Fecha de recepción: 8 de agosto de 2012 - Fecha de aceptación: 28 de septiembre de 2012
Emiro De la Hoz
Magíster en Ingeniería de Computadores y Redes, Corporación Universidad de la Costa - CUC. Barranquilla, Colombia,
edelahoz@cuc.edu.co
Andrés Ortiz
Doctor en Tecnologías de la Información y las Comunicaciones, Universidad de Málaga. Madrid, España, aortiz@ic.uma.es
Julio Ortega
Doctor en Tecnologías de la Información y las Comunicaciones, Universidad de Granada. Granada, España, julio@atc.ugr.es
Resumen
Los Sistemas de Detección de Intrusos (IDS, por sus siglas en inglés) comerciales actuales
clasifican el tráfico de red, detectando conexiones normales e intrusiones, mediante la aplica-
ción de métodos basados en firmas; ello conlleva problemas pues solo se detectan intrusiones
previamente conocidas y existe desactualización periódica de la base de datos de firmas. En
este artículo se evalúa la eficiencia de un modelo de detección de intrusiones de red propuesto,
utilizando métricas de sensibilidad y especificidad, mediante un proceso de simulación que
emplea el dataset NSL-KDD DARPA, seleccionando de éste las características más relevan-
tes con FDR y entrenando una red neuronal que haga uso de un algoritmo de aprendizaje no
supervisado basado en mapas auto-organizativos, con el propósito de clasificar el tráfico de la
red en conexiones normales y ataques, de forma automática. La simulación generó métricas
de sensibilidad del 99,69% y de especificidad del 56,15% utilizando 20 y 15 características,
respectivamente.
Palabras clave
IDS (Sistema de Detección de Intrusos), FDR (Razón Discriminante de Fisher), SOM (Mapas
Auto-organizativos), dataset NSL-KDD DARPA.
1. Artículo derivado del proyecto de investigación titulado: Preprocesamiento en sistemas de detección de intrusos
(IDS) con Mapas Auto-organizativos (SOM), gestado desde la labor investigativa realizada a nivel de la maestría en
Ingeniería de Computadores y Redes, Universidad Nueva Granada, España.
85
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM
Keywords
IDS (Intrusion Detection System), FDR (Fisher Discriminant Ratio), SOM (Self-Organizing
Map), dataset NSL-KDD DARPA.
86
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116
87
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM
88
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116
89
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM
Intrusion Detection) y detección de intrusos [1], NFR (Network Flight Recorder) [2],
basada en anomalías (Anomaly-based In- NSM (Network Security Monitor) [3], Cis-
trusion Detection); en la Fig. 2 se aprecia su co Intrusion Detection (NetRanger) [4] y
arquitectura funcional. Mayor información RealSecure [5].
en relación con los algoritmos utilizados
La detección de intrusos basada en ano-
como estrategia de análisis, por cada uno
malías funciona asumiendo que los ata-
de estos enfoques, puede ser consultada en
ques son diferentes a la actividad normal;
[17] y [18].
se puede llegar a esta inferencia luego de
un proceso de entrenamiento, en el cual se
identificará “¿qué se considera como acti-
vidad normal?”, analizando comportamien-
tos inusuales tanto en los host como en el
tráfico de la red. Para ello se construyen
perfiles generados a partir del análisis de
asociación de patrones; estos perfiles re-
presentan el comportamiento normal de los
usuarios, hosts o conexiones de red. Las
medidas y técnicas comúnmente utilizadas
en los IDS para la detección de anomalías
son: la detección de umbral y el uso de me-
didas estadísticas. Las técnicas de detección
de anomalías como la aplicación de IDES
(Sistema Experto de Detección de Intru-
Fig. 2 Arquitectura de los IDS de acuerdo con el enfoque
sos), redes neuronales, el uso de algoritmos
La detección de intrusos basada en abusos genéticos, la modelación de un sistema in-
monitoriza las actividades que ocurren en mune y NIDES (Next-generation Intrusion
un sistema y las compara con una base de Detection Expert), no son empleadas en la
datos de firmas de ataques predefinida, ge- actualidad en los IDS con fines comerciales
nerando una alerta si la actividad es identi- debido a que aún siguen siendo objeto de
ficada como ataque. Según [6] esta técnica investigación.
es muy utilizada en productos comerciales,
debido a su previsibilidad y alta precisión;
sin embargo, para que el método sea efec- Ataques
tivo, es necesario mantener actualizada la Son métodos mediante los cuales se intenta
base de datos de firmas. La deficiencia de tomar el control de un sistema informático
este método es que no identifica nuevos con el objeto de dañarlo o desestabilizarlo,
ataques inexistentes en dicha base de datos. haciendo uso de aplicaciones especialmente
Ejemplos de IDS que emplean las técnicas diseñadas para ello. Se agrupan en cuatro
de detección de intrusos basadas en abusos, categorías principales: DoS (Denial Of Ser-
ya mencionados anteriormente, son: Snort vice - Ataques de Denegación de Servicios),
90
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116
R2L (Remote to Local - Ataques de acceso Los ataques Probing escanean redes de da-
Remoto a Local), U2R (User to Root - Ata- tos con el objeto de identificar direcciones
ques de Usuario a Súper usuario) y Probing IP válidas y recopilar información acerca
(Sondeo de redes). de ellas. Este tipo de ataque busca detec-
tar qué servicios se ofrecen y cuáles son los
Los ataques de DoS propician la pérdida de
sistemas operativos que utilizan. A partir de
conectividad de un sistema de cómputo o
esto el atacante identifica una lista de vulne-
red informática, debido a la sobrecarga de
rabilidades potenciales para lanzar ataques
los recursos computacionales (por ejemplo,
tanto a los servicios como a las respectivas
ancho de banda) de la red víctima. Durante
máquinas sobre las que éstos se ejecutan.
este tipo de ataques se saturan los puertos de
Los ataques categorizados como Probing
comunicación con excesivo flujo de datos,
son: ipsweep, mscan, nmap, portsweep,
de tal forma que la sobrecarga del sistema
saint y satan.
haga imposible la correcta prestación del
servicio, denegando las diferentes peticio- Cualquiera de los ataques mencionados en
nes efectuadas por los clientes que las so- las categorías anteriores implican el estable-
licitan. Los ataques del tipo DoS son: apa- cimiento de conexiones y cada una de éstas
che2, back, land, mailbomb, neptune, pod, genera un registro que ocupa 100 bytes y
processtable, smurf, teardrop y udpstorm. está compuesto por 41 atributos. Tales atri-
butos permiten identificar si la conexión es
Los ataques R2L se producen cuando un ata-
normal o si es algún tipo de ataque.
cante que no posee cuenta de usuario en una
máquina remota, logra autenticarse como
súper usuario (root) o como usuario con res-
tricciones, en tal máquina, accediendo a ella Atributos o características
a través de la web. Los ataques de la categoría Existe una clasificación de los atributos en
R2L son: ftp_write, guess_passwd, httptun- relación con el tipo de evaluación que po-
nel, imap, multihop, named, phf, sendmail, sibilitan las conexiones: Los “atributos de
snmpgetattack, snmpguess, spy, warez- contenido” permiten evaluar el número de
client, warezmaster, worm, xlock y xsnoop. intentos de acceso fallidos; los atributos de
“mismo host” tienen en cuenta solo las co-
Los ataques de U2R se producen cuando un
nexiones en los dos últimos segundos que
atacante que ya dispone de una cuenta en un
tengan el mismo destino que la conexión
sistema informático, obtiene mayores privi-
actual y estadísticas relacionadas con el
legios de los inicialmente establecidos para
protocolo y los servicios; los atributos de
él. Esto sucede debido a las vulneraciones
“mismo servicio” examinan solo las co-
existentes en los sistemas operativos o a la
nexiones en los dos últimos segundos que
previa instalación de programas espías que
tienen el mismo servicio que la conexión
posibiliten el acceso intrusivo. Los ataques
actual. Tanto los atributos de “mismo host”
del tipo U2R son: buffer_overflow, loadmo-
como los de “mismo servicio” permiten la
dule, perl, ps, rootkit, sqlattack y xterm.
evaluación del tráfico de las conexiones en
el tiempo.
91
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM
Dado que los ataques de Probing escanean de ataques solo requieren de una única co-
los puertos con un intervalo de tiempo mu- nexión; contrario a esto, los ataques de las
cho mayor de dos segundos (posiblemente categorías DoS y Probing requieren muchas
una vez por minuto). Se debe hacer una cla- conexiones con un mismo host en un pe-
sificación de los registros por host de desti- ríodo muy corto de tiempo, lo que permite
no, produciendo una serie de atributos de- evaluar patrones secuenciales frecuentes.
nominados “tráfico basado en host”.
En las Tablas I, II y III se aprecia una lista
Los ataques de las categorías R2L y U2R de atributos clasificados por atributos bási-
generan registros de conexión en los cuales cos, especiales y aquellos que hacen posible
los atributos no generan patrones secuen- la evaluación con una ventana de tiempo de
ciales frecuentes, debido a que tales tipos dos segundos.
Tabla I
Atributos básicos de las conexiones
Tabla II
Atributos especiales de las conexiones
92
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116
Tabla III
Atributos con ventana de dos segundos
93
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM
94
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116
Tabla IV
Relación de métricas de desempeño de un clasificador binario
Condición
(según lo determinado por el “Gold Standard”)
Condición Positiva Condición Negativa
Valor predictivo positivo (precisión)=
Resultados
Falso Positivo
Positivos de la Verdadero Positivo ∑VerdaderosPositivos
(error tipo I)
prueba
Resultado de
∑ Re sultadosPositivos
la prueba Valor predictivo negativo=
Resultados
Falso Negativo
Negativos de la Verdadero Negativo ∑VerdaderosNegativos
(error tipo II)
prueba
∑ Re sultadosNegativos
Sensibilidad= Especificidad= Exactitud=
una solución IDS cada vez más eficiente; colección de conexiones. El dataset se utili-
para ello se requiere de un ambiente que za para la evaluación de la eficiencia de los
permita simular el tráfico de red de la for- sistemas de detección de intrusos en redes
ma más real posible. Razón por la cual el informáticas. Los criterios medibles son la
MIT (Instituto Tecnológico de Massachu- probabilidad de detección y la probabilidad
setts) y DARPA (la Agencia de Proyectos de falsas alarmas del respectivo sistema tes-
de Investigación Avanzada de Defensa) han teado.
simulado tal escenario, alimentando colec-
ciones de datos, con el propósito de dotar a Los dataset publicados por LL-MIT en su
los investigadores de una base de datos de web oficial, son los resultados de las eva-
tráfico de red, que sirva de insumo para el luaciones en detección de intrusiones efec-
desarrollo de investigaciones en el ámbito tuada por DARPA en 1998 y 1999. También
de la detección y prevención de intrusos. se encuentran experimentos dirigidos a es-
cenarios específicos realizados en 2000. El
LL-MIT distribuye libremente los dataset,
EL DATASET DARPA la documentación, publicaciones, evalua-
ciones de resultados y herramientas de soft-
El Grupo de Tecnología de Sistemas de In- ware relacionadas, disponibles en [20].
formación (IST), del Laboratorio Lincoln
del Instituto Tecnológico de Massachusetts El dataset DARPA 1998 contiene un con-
LL-MIT, con la cooperación de la Agencia junto de ataques realistas, integrados a un
de Proyectos de Investigación Avanzada conjunto de conexiones normales, lo cual
de Defensa (DARPA ITO) y el Laborato- suministra el insumo de datos que permite
rio de Investigación de las Fuerzas Aéreas evaluar las falsas alarmas y las tasas de de-
(AFRL/SNHS), recopiló el primer dataset tección de IDS; para construir este dataset
que contiene tráfico de red con una variada se efectuaron dos evaluaciones: una off-line
95
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM
96
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116
Estos ataques ocurren en el contexto de uso palmente por: datos de auditoría de log
normal de computadores y redes en una de eventos NT, datos Tcpdump de la red
base militar. La organización de los datos externa, datos Tcpdump de la red inter-
utiliza un esquema similar al seguido por el na y archivo con altos niveles de ata-
dataset DARPA de 1998 con algunas mo- ques reales.
dificaciones (no hay datos de ejemplo ni
subconjuntos de datos de entrenamiento). El dataset NSL-KDD es una colección de
Quedando el dataset DARPA 1999 consti- datos construido con el objeto de solven-
tuido por: datos de entrenamiento (tres se- tar los problemas que presenta el conjunto
manas de ataques, teniendo en cuenta que KDD’99 [21], pese a no ser una representa-
la primera y la tercera semana no contie- ción perfecta de los datos reales, debido a
nen ataques, la segunda semana contiene que no contiene conjuntos de datos públicos
un subconjunto selecto de ataques que van de los IDS; sin embargo, demuestra mucha
desde los ataques de 1998 a otros ataques utilidad al ser aplicado como un conjunto
nuevos), datos de test (dos semanas de ata- de datos de referencia eficaz para ayudar a
ques basados en red en medio de actividad los investigadores en el proceso de compa-
normal en segundo plano). ración de diferentes métodos de detección
de intrusos.
En DARPA 2000 los datos se obtuvieron a
partir de varios escenarios: El número de registros que contiene el data
set NSL-KDD es razonable, lo cual se cons-
• Escenario 1: LLDOS 1.0. Este escenario
tituye en una ventaja a la hora de realizar
está compuesto de múltiples sesiones
los experimentos con la colección de datos
de red y auditoría. Estas sesiones están
completa, para efectos de tiempo de proce-
agrupadas en cinco fases de ataques, en
samiento de la información, sin necesidad
las cuales el atacante testea la red, in-
terrumpe la vulnerabilidad de un host de elegir al azar a una pequeña porción de
ejecutando Solaris, instala el software los datos, lo que consecuentemente conlle-
del troyano mstream DDoS, y lanza un va a que los resultados de la evaluación de
ataque de DDoS en un servidor del sitio los trabajos de investigación lleguen a ser
desde el host comprometido. consistentes y comparables.
• Escenario 2: LLDOS 2.0.2. (igual que Las mejoras que presenta el NSL-KDD res-
el anterior). pecto a sus predecesores, son las siguientes:
97
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM
está sesgado por los métodos que tienen necesidad de seleccionar al azar una pe-
mejores tasas de detección en los regis- queña porción de éste.
tros frecuentes.
En [22] se encuentran los archivos de da-
• El número de registros seleccionados de tos del NSL_KDD tanto en formato .txt
cada grupo de nivel de dificultad es in- como en formato .arff, cuya descripción
versamente proporcional al porcentaje se aprecia en la Tabla V. Este último for-
de registros en el conjunto original de mato “Attribute Relation File Format ”
datos KDD. Como resultado, las tasas es usado por compatibilidad con el soft-
de clasificación de los distintos métodos ware WEKA (Waikato Environment for
de aprendizaje de máquinas varían en Knowledge Analysis) [23], con el objeto
un rango más amplio, lo que hace que de poder efectuar el análisis de datos de los
sea más eficiente para tener una evalua- dataset KDDTrain+ y KDDTest+. WEKA
ción precisa de las diferentes técnicas es un entorno de trabajo desarrollado por la
de aprendizaje. Universidad de Waikato (Nueva Zelanda),
construido en JAVA y con licenciamiento
• El número de registros tanto en la colec-
GPL, que se utiliza para procesos de expe-
ción completa de datos como en el por-
rimentación de análisis de datos que hagan
centaje del dataset es razonable, lo cual
posible la aplicación, análisis y evaluación,
hace posible realizar los experimentos
sobre un dataset empleando técnicas relati-
con el conjunto de datos completo sin
vas al aprendizaje automático.
Tabla V
Archivos del dataset DARPA NSL-KDD
Archivo Descripción
El conjunto de datos completo para el entrenamiento (train NSL-KDD), con
KDDTrain+.arff
etiquetas binarias y en formato ARFF.
El conjunto de datos completo para el entrenamiento (train NSL-KDD),
KDDTrain+.txt incluyendo etiquetas de tipos de ataques y el nivel de dificultad, en formato
CSV.
KDDTrain+_20Percent.arff Un subconjunto del 20% del archivo KDDTrain+.arff
KDDTrain+_20Percent.txt Un subconjunto del 20% del archivo KDDTrain+.txt
El conjunto de datos completo para el test con etiquetas binarias y en
KDDTest+.arff
formato ARFF.
El conjunto de datos completo para el test, incluyendo etiquetas de tipos de
KDDTest+.txt
ataques y el nivel de dificultad, en formato CSV.
Un subconjunto del archivo KDDTest+.arff el cual no contiene registros con
KDDTest-21.arff
el nivel de dificultad 21 de un total de 21.
Un subconjunto del archivo KDDTest+.txt el cual no contiene registros con
KDDTest-21.txt
el nivel de dificultad 21 de un total de 21.
98
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116
FASES DEL PROCESO DE SIMULACIÓN que ofrece en relación con la variedad y de-
DE DETECCIÓN DE INTRUSIONES puración de sus datos con respecto a otros
dataset de su misma familia y de otras orga-
La eficacia del proceso de detección del
nizaciones. La Tabla VI muestra un listado
tráfico malicioso en una red informática,
de los dataset más destacados en procesos
mediante la aplicación de un IDS que utili-
de simulación de sistemas de detección de
ce técnicas de reducción de características,
intrusiones.
algoritmos de aprendizaje de máquina y
detección de tráfico anómalo, es suscepti-
ble de ser evaluada mediante simulación de
laboratorio. Ello requiere de la ejecución de Fase de preprocesamiento
varias fases: escogencia de la colección de Los datos procedentes del dataset deben es-
datos (dataset), preprocesamiento, normali- tar en el rango de [0 a 1] o de [-1 a 1]. Sin
zación, entrenamiento (training) y clasifica- embargo no lo están, debido a que todas las
ción. La Fig. 4 ilustra dichas fases. conexiones en sus 41 características poseen
valores continuos, discretos o simbólicos y
Colección de Datos en diferentes rangos de significancia. Con
el propósito de estandarizar dichos valores
para que puedan ser eficazmente procesa-
Preprocesamiento dos por los algoritmos de aprendizaje de
máquina, se debe hacer un preprocesamien-
to y normalización de los datos contenidos
Normalización
i en las conexiones.
Para la conversión de los símbolos en for-
Entrenamiento mato numérico, a cada símbolo se asigna un
código entero. Por ejemplo, en el caso de la
característica protocol_type, se asigna “0”
Clasificación a tcp, “1” a udp y “2” a icmp. De forma
similar los nombres de ataque son mapea-
Fig. 4. Fases del proceso de simulación de detección de
dos asignando valores enteros a las cinco
intrusiones categorías así: “0” para tráfico normal, “1”
para el ataque de sondeo (probe), “2” para
la Denegación de Servicios (DoS), “3” para
Fase de elección de la colección de datos U2R y “4” para R2L.
En esta fase inicial se debe seleccionar la Por otra parte, debido a que existen carac-
colección de datos que se va a usar para terísticas cuyos valores se extienden por un
las fases subsiguientes. Aunque existe una rango de números enteros muy grande, es
amplia variedad de datasets los investiga- decir, src_bytes toma valores entre [0 y 1.3
dores comúnmente se han decantado por el billones] igual que dst_bytes. Se aplica en-
uso de DARPA NSL-KDD, por las ventajas tonces una escala logarítmica (de base 10) a
99
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM
Tabla VI
Datasets utilizados en procesos de simulación de Sistemas de Detección de Intrusiones
Patrocinadores:
ARIN (American Registry for Internet Numbers), CISCO, Endance
Datasets CAIDA Measurement Systems, U.S. Departament of Homeland Security, NSF
Asociación Cooperativa (National Science Fundation).
para el Análisis de Datos en
Internet Miembros:
Digital Envoy, Intel, NTT (Nippon Telegraph and Telephone
Corporation), Ripe NCC, University of California San Diego.
Datasets CRAWDAD
• ACM SIGMOBILE.
Comunidad de recurso para
• Intel Corporation.
archivar datos inalámbricos en
• Fundación Nacional de Ciencias.
Dartmouth
100
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116
101
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM
102
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116
103
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM
componentes aditivos suponiendo la mutua los componentes. Esto se puede hacer a tra-
independencia estadística de tales señales vés de un proceso iterativo.
de origen no gaussiana.
Dado un conjunto de vectores n-dimensio-
En ICA se encuentran los componentes in- nales, las componentes independientes son
dependientes mediante la maximización de las direcciones (vectores) a lo largo de los
la independencia estadística de los compo- cuales las estadísticas de las proyecciones
nentes estimados. Se puede elegir una de de los vectores de datos son independientes
las muchas maneras de definir la indepen- uno del otro. Formalmente “A” es una trans-
dencia, y esta elección gobierna la forma formación del marco de referencia dado ha-
de los algoritmos de ICA. Las dos defini- cia el marco de referencia de componentes
ciones más amplias de la independencia de independientes. Donde X=AS indica que es
ICA son: la reducción al mínimo de infor- la distribución marginal:
mación redundante y la maximización de la
no-gaussianidad. En el estudio de los IDS (8)
basados en detección de anomalías se usa
la primera definición con el propósito de “P(s)” es la distribución conjunta en el
emplearla como técnica de reducción de ca- vector n-dimensional “s”. Por lo general,
racterísticas. la técnica para la realización del Análisis
de Componentes Independientes - ICA se
La metodología de ICA puede ser descrita expresa como la técnica para derivar un
de la siguiente forma: cada una de las “h” determinado “W”, y=Wx, tal que los com-
señales mezcladas x1(k), x2(k), ..., xh(k) es ponentes de “y” son independientes el uno
una combinación lineal de “q” componen- del otro. Si las distribuciones marginales
tes independientes s1(k), s2(k), ..., sq(k), es individuales son no gaussianas entonces la
decir, X=AS, donde “A” es una matriz de derivada de las densidades marginales llega
mezcla. Dada “X”, el problema es calcular a una permutación a escala de las funcio-
A y S. Con base en las siguientes dos hipó- nes de densidad original si, por ejemplo, un
tesis estadísticas, ICA obtiene con éxito los “W” se puede obtener. Una de las técnicas
resultados: generales de aprendizaje para encontrar una
• Los componentes son independientes adecuada “W” es:
entre sí.
(9)
• Cada componente sigue una distribu-
ción no gaussiana. Por X=AS, tenemos
Donde Φ(y) es una función no lineal de la
S=A-1, es decir, S=A inversa de X; de
salida del vector “y”.
otra forma X=WX (donde W es la in-
versa de A).
La tarea consiste en seleccionar una “W”
Análisis de componentes principales
adecuada que se aplica en la “X” para maxi- PCA, definido en [31], es una de las técnicas
mizar el comportamiento no gaussiano de de reducción de dimensionalidad más utili-
104
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116
105
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM
(λ2, μ2) ... (λm, μm) son “m” pares de vecto- de tal manera que todas las relaciones topo-
res propios de la muestra covarianza de la lógicas en el conjunto de entrenamiento se
matriz “C”. Los “k” vectores propios tie- mantienen.
nen que ser los más grandes valores propios
La característica más preponderante de los
seleccionados. La dimensionalidad del sub-
SOM es que aprende a clasificar los datos
espacio “k” se puede determinar por:
mediante un algoritmo de aprendizaje NO
supervisado (un SOM aprende a clasificar
los datos de entrenamiento sin ningún tipo
(13) de control externo). En el enfoque SOM, un
vector de entrada se presenta a la red (nor-
malmente una red multicapa feedforward)
Dónde “α” es la razón de la variación en el y este vector es comparado iterativamente
subespacio a la variación total en el espacio con cada uno de los vectores de pesos aso-
original. Se forma una matriz “U” con di- ciados a los nodos de la estructura del mapa,
mensión m×k y cuyas columnas constan de de tal forma que los pesos de cada vector
los vectores propios “k”. se recalculen en relación con el vector de
Luego del preprocesamiento y normali- entrada. Esto se repite muchas veces y con
zación del dataset se debe seleccionar el varios conjuntos de pares de vectores hasta
método apropiado para realizar la fase de que la red converja en el resultado deseado.
entrenamiento. En este artículo se aborda el Una red SOM es usualmente creada a partir
método estadístico basado en Redes Neuro- de un entramado de nodos en dos dimensio-
nales, denominado SOM (Self-Organizing nes (2D), donde cada uno de ellos está com-
Map), para la ejecución de esta fase. pletamente conectado a la capa de entrada.
La Fig. 5 ilustra una pequeña red SOM de
4x4 nodos conectados a la capa de entrada
SOM que representa un vector de tres entradas.
Los Mapas Autorganizativos SOM [33], Cada nodo posee una posición topológica
[34] fueron concebidos por Teuvo Koho- específica con coordenadas (x,y) en el en-
nen, investigador del Centro de Investiga- tramado y contiene un vector de pesos de
ción de Tecnologías en Redes Neuronales la misma dimensión que los vectores de
de la Universidad de Helsinki, en Finlandia. entrada. Los datos empleados para el en-
Estos mapas hacen posible la representa- trenamiento usan vectores “V” con una di-
ción de datos multidimensionales en espa- mensión “n”, de la forma: V1, V2, V3,...,Vn.
cios de dimensiones mucho menores, por lo Además, cada nodo del entramado conten-
general de dimensión 1, 2 o 3. La reducción drá el correspondiente vector de pesos W,
de la dimensionalidad de los vectores es de tamaño igual a la dimensión del vector
una técnica de compresión de datos conoci- de la capa de entrada, “n”, con la forma si-
da como cuantificación vectorial. Los SOM guiente: W1, W2, W3...Wn. Las líneas que
crean una red que almacena la información conectan los nodos en la Fig. 5 solo repre-
106
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116
107
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM
Fig. 6. Vecindario de una SOM 5x5 La tasa de aprendizaje, al igual que el radio
del vecindario, usan una función exponen-
cial decreciente para determinar su valor en
El área del vecindario se contrae con el la variación del tiempo. Tal como se mues-
tiempo, dado que es directamente propor- tra en (17).
cional al radio del vecindario, el cual se
108
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116
109
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM
110
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116
111
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM
112
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116
113
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM
114
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116
[34] Kohonen’s Self Organizing Feature Maps. (SOM) to the Composition Determination
Disponible en: http://www.ai-junkie.com/ of Chemical Products”. Neural Networks
ann/som/som1.html Proceedings, 1998. IEEE World Congress
on Computational Intelligence. The 1998
[35] Do Phuc, and Mai Xuan Hung, “Using
IEEE International Joint Conference on.
SOM based Graph Clustering for Extract-
pp. 301-305 vol. 1. May 1998.
ing Main Ideas from Documents”. Re-
search, Innovation and Vision for the Fu- [42] Li Min and Wang Dongliang, “Anormaly
ture, 2008. RIVF 2008. IEEE International Intrusion Detection Based on SOM”. In-
Conference on. pp. 209-214. July 2008. formation Engineering, 2009. ICIE ‘09.
WASE International Conference on. pp.
[36] I. Nakaoka, J.-I. Kushida and K. Kamei,
40-43. July 2009.
“Proposal of Group Decision Support Sys-
tem Using “SOM” for Purchase of Automo- [43] J.C. Patra, J. Abraham, P.K. Meher, and G.
biles”. Innovative Computing Information Chakraborty, “An Improved SOM-based
and Control, 2008. ICICIC ‘08. 3rd Inter- Visualization Technique for DNA Micro-
national Conference on p. 482. June 2008. array Data Analysis”. Neural Networks
(IJCNN), The 2010 International Joint
[37] M. O. Afolabi and O. Olude, “Predicting
Conference on. pp. 1-7. July 2010.
Stock Prices Using a Hybrid Kohonen Self
Organizing Map (SOM)”. System Scienc- [44] Y. V. Venkatesh, S.K. Raja, and N. Ramya,
es, 2007. HICSS 2007. 40th Annual Ha- “A Novel SOM-based Approach for Ac-
waii International Conference on. p. 48. tive Contour Modeling”. Intelligent Sen-
Jan. 2007. sors, Sensor Networks and Information
Processing Conference, 2004. Proceed-
[38] I. Manolakos and E. Logaras, “High
ings of the 2004. pp. 229-234. Dec. 2004.
throughput systolic SOM IP core for FP-
GAs”. Acoustics, Speech and Signal Pro- [45] E. Cuadros-Vargas, Recuperação de infor-
cessing, 2007. ICASSP 2007. IEEE Inter- mação por similaridad e utilizando técni-
national Conference on. pp. II-61 - II-64. cas inteligentes. PhD thesis, Department
April 2007. of Computer Science - University of Sao
Paulo. 2004.
[39] Kuang Yin and Luo Gang, “Fault Pattern
Recognition of Thermodynamic System [46] J. Blackmore and R. Miikkulainen, “In-
Based on SOM”. Electrical and Control cremental grid growing: Encoding high-
Engineering (ICECE), 2010. International dimensional structure into a two-dimen-
Conference on. pp. 3742-3745. June 2010. sional feature map”. In Proceedings of the
International Conference on Neural Net-
[40] Hao Ying, Wang Li-qiang and Zhao Xi’an.
works ICNN93, 1993, volume I, pp. 450-
“Automatic Roads Extraction From High-
455, Piscataway, NJ. IEEE Service Center.
resolution Remote Sensing Images Based
on SOM”. Natural Computation (ICNC), [47] D. Alahakoon, S. K. Halgamuge and B.
2010 Sixth International Conference on. Srinivasan, “A structure adapting feature
pp. 1194-1198. Aug. 2010. map for optimal cluster representation”. In
International Conference on Neural Infor-
[41] H. Tokutaka, K. Yoshihara, K. Fujimura,
mation Processing ICONIP98, 1998. pp.
K. Iwamoto, T. Watanabe and S. Kishida,
809-812.
“Applications of Self-organizing Maps
115
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM
[48] B. Fritzke, “A growing neural gas network on Neural Networks (IJCNN07). IEEE,
learns topologies”. In G. Tesauro, D. S. 2007.
Touretzky and T. K. Leen, editors, Ad-
[51] Y. Prudent and A. Ennaji, A k nearest clas-
vances in Neural Information Processing
sifier design. ELCVIA, 2005. 5(2): 58-71.
Systems 7, 1995, pp. 625-632. MIT Press,
Cambridge MA. [52] R. H. White, “Competitive hebbian learn-
ing: algorithm and demonstrations”. Neu-
[49] T. Martinetz and K. Schulten, “Topology
ral Networks, 1992. 5(2): 261-275.
representing networks”. Neural Networks,
1994. 7(3):507-522. [53] The Growing Hierarchical Self-Organiz-
ing Map. Department of Software Tech-
[50] A. Ocsa, C. Bedregal and E. Cuadros-Var-
nology. Vienna University of Technology.
gas, “DB-GNG: A constructive self-orga-
Septiembre 2011. Disponible en: http://
nizing map based on density”. In Proceed-
www.ifs.tuwien.ac.at/~andi/ghsom/de-
ings of the International Joint Conference
scription.html#insertion
116