Está en la página 1de 32

Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp.

85-116

Modelo de detección de intrusiones en sistemas


de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM
1

Artículo de Investigación - Fecha de recepción: 8 de agosto de 2012 - Fecha de aceptación: 28 de septiembre de 2012

Emiro De la Hoz
Magíster en Ingeniería de Computadores y Redes, Corporación Universidad de la Costa - CUC. Barranquilla, Colombia,
edelahoz@cuc.edu.co

Eduardo Miguel De la Hoz


Magíster en Ingeniería de Computadores y Redes, Corporación Universidad de la Costa - CUC. Barranquilla, Colombia,
edelahoz6@cuc.edu.co

Andrés Ortiz
Doctor en Tecnologías de la Información y las Comunicaciones, Universidad de Málaga. Madrid, España, aortiz@ic.uma.es

Julio Ortega
Doctor en Tecnologías de la Información y las Comunicaciones, Universidad de Granada. Granada, España, julio@atc.ugr.es

Resumen
Los Sistemas de Detección de Intrusos (IDS, por sus siglas en inglés) comerciales actuales
clasifican el tráfico de red, detectando conexiones normales e intrusiones, mediante la aplica-
ción de métodos basados en firmas; ello conlleva problemas pues solo se detectan intrusiones
previamente conocidas y existe desactualización periódica de la base de datos de firmas. En
este artículo se evalúa la eficiencia de un modelo de detección de intrusiones de red propuesto,
utilizando métricas de sensibilidad y especificidad, mediante un proceso de simulación que
emplea el dataset NSL-KDD DARPA, seleccionando de éste las características más relevan-
tes con FDR y entrenando una red neuronal que haga uso de un algoritmo de aprendizaje no
supervisado basado en mapas auto-organizativos, con el propósito de clasificar el tráfico de la
red en conexiones normales y ataques, de forma automática. La simulación generó métricas
de sensibilidad del 99,69% y de especificidad del 56,15% utilizando 20 y 15 características,
respectivamente.

Palabras clave
IDS (Sistema de Detección de Intrusos), FDR (Razón Discriminante de Fisher), SOM (Mapas
Auto-organizativos), dataset NSL-KDD DARPA.

1. Artículo derivado del proyecto de investigación titulado: Preprocesamiento en sistemas de detección de intrusos
(IDS) con Mapas Auto-organizativos (SOM), gestado desde la labor investigativa realizada a nivel de la maestría en
Ingeniería de Computadores y Redes, Universidad Nueva Granada, España.

85
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM

Intrusion detection model in network systems, making feature


selection with fdr and classification-training stages with som
Abstract
Current commercial IDSs classify network traffic, detecting both intrusions and normal con-
nections by applying signature-based methods. This leads to problems since only intrusion
detection previously known is detected and signature database is periodically outdated. This
paper evaluates the efficiency of a proposed network intrusion detection model, using sen-
sitivity and specificity metrics through a simulation process that uses the dataset NSL-KDD
DARPA, selecting from this, the most relevant features with FDR and training a neural net-
work that makes use of an unsupervised learning algorithm based on SOMs, in order to au-
tomatically classify network’s traffic into normal and attack connections. Metrics generated
by simulation were: sensitivity 99.69% and specificity 56.15%, using 20 and 15 features
respectively.

Keywords
IDS (Intrusion Detection System), FDR (Fisher Discriminant Ratio), SOM (Self-Organizing
Map), dataset NSL-KDD DARPA.

86
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116

INTRODUCCIÓN mas o rules) o con una metodología basada


en anomalías (empleando un algoritmo de
Las organizaciones requieren proteger la
aprendizaje), los primeros se han imple-
información contenida en sus redes infor-
mentado ampliamente en IDS comerciales,
máticas; sin embargo, el hecho de que en la
sin embargo presentan la limitante de no de-
actualidad tanto usuarios internos como ex-
tectar ataques nuevos; los segundos detec-
ternos al contexto de la red puedan conec-
tan ataques nuevos con cierto porcentaje de
tarse de forma local o remota, incrementa
exactitud. El compromiso de los investiga-
considerablemente la probabilidad de que
dores ha sido elevar los niveles de exactitud
ésta sea atacada, razón por la cual se han
en la detección. Para ello, inicialmente en
desarrollado diferentes herramientas y es-
contextos de simulación, los investigadores
trategias, tanto de hardware como de soft-
toman colecciones de datos o datasets y los
ware, para detectar y prevenir accesos in-
someten a un proceso que implica varias
trusivos a la red con intenciones maliciosas.
fases: preprocesamiento, normalización,
Para evitar ataques procedentes de fuentes entrenamiento y clasificación, con el objeto
externas existen cortafuegos (firewalls) y de evaluar la eficiencia de los algoritmos de
Redes Privadas Virtuales (VPNs); tales he- entrenamiento usados para desarrollar los
rramientas restringen el tráfico de servicios IDS. Si los algoritmos generan altas métri-
desconocidos, en el caso de los cortafuegos, cas de eficiencia en la detección, podrían
mediante el bloqueo de puertos. Queda aún luego ser implementados en IDS reales. Por
un hueco de seguridad desde el exterior y otra parte, cada ataque en la red es identifi-
es encapsular los ataques en el tráfico de cado como un registro de conexión del da-
servicios permitidos por el dispositivo. Au- taset, y cada registro posee un total de 41
nada a esta situación, estas herramientas no características que posibilitarán la identifi-
controlan los ataques que se generan des- cación del ataque.
de el interior de la red. Para subsanar este
Producto de las evaluaciones efectuadas, los
inconveniente se han desarrollado Sistemas
investigadores han detectado que una varia-
de Detección de Intrusos (IDS) que identi-
ble que incide directamente en la eficiencia
fican tráfico malicioso en la red y Sistemas
del algoritmo de aprendizaje seleccionado
de Prevención de Intrusos (IPS) que una
es la escogencia de las características que
vez detectado y aprendido el ataque por
se van a evaluar durante la fase de prepro-
parte del sistema, lo bloquean, documentan
cesamiento, debido a que la escogencia de
e incluso contrarrestan tomando represalias
la totalidad de características o algunas de
contra el posible atacante. En el presente
ellas que no sean las apropiadas, generará
artículo se mencionará IDS para referirse
largos tiempos de respuesta computacional,
indistintamente a los sistemas de detección
incidiendo negativamente en la evaluación
y prevención de intrusos.
final del algoritmo de aprendizaje. Se uti-
Los IDS pueden detectar ataques con una lizan entonces algoritmos de reducción de
metodología basada en firmas (comparan- características, durante la fase de preproce-
do los ataques con una base de datos de fir- samiento, que posibiliten la adecuada esco-

87
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM

gencia de las características más relevantes de entrenamiento y la data correspondiente


que permitan diferenciar el tráfico normal al nuevo dataset cargado. En la fase final se
del que se constituye como ataque. El pro- calculan las métricas de desempeño de sen-
blema radica en analizar qué métodos de sibilidad y especificidad que van a indicar
reducción o extracción de características la eficiencia del modelo planteado.
generan mejores resultados.
El tema de estudio genera un positivo im-
Para poder identificar con precisión la mag- pacto científico, mediante la implementa-
nitud del problema y las posibles alternati- ción del modelo propuesto de detección de
vas de solución, se deben abordar con deta- intrusiones en sistemas de red, en IDS co-
lle: la fundamentación referida a los Siste- merciales, lo que posibilitará y favorecerá
mas de Detección de Intrusos, las caracte- los procesos de detección y clasificación de
rísticas inherentes a los dataset DARPA, las tráfico normal y anómalo, de forma no su-
técnicas o algoritmos existentes en relación pervisada, suprimiendo la necesidad de una
con la extracción de características, la fun- actualización manual de la base de datos de
cionalidad de los SOM (mapas autorganiza- ataques, por parte de un especialista huma-
tivos) y la integración de estos fundamentos no. El modelo entrena una red neuronal que
en un proceso de reproducción de experien- posteriormente, de forma automática, efec-
cias de simulación. túa el proceso de clasificación de flujos de
datos. Tal red neuronal es capaz de identi-
Como estrategia de investigación se imple-
ficar el tipo de tráfico, independientemente
mentaron varios escenarios de simulación,
de si se generan nuevos tipos de ataques.
los cuales comprendieron tres fases (entre-
namiento, clasificación y métricas); se rea- Dado que a la fecha no se han implemen-
lizó variación de la cantidad de caracterís- tado IDS a nivel comercial que hagan uso
ticas por implementar en cada simulación. de técnicas de detección de intrusos sin
En la fase de entrenamiento se cargó un da- supervisión (o basadas en anomalías), esta
taset de DARPA (con conexiones normales investigación ha tomado como referentes
y ataques), luego se efectuó la reducción de algunos antecedentes en materia de imple-
características aplicando la tasa discrimi- mentación comercial de IDS que utilizan
nante de Fisher (FDR), seleccionándolas técnicas de detección de intrusos basadas
por orden de relevancia y finalmente se rea- en firmas (o basadas en abuso) tales como:
liza el entrenamiento del SOM. En la fase Snort [1], NFR (Network Flight Recorder)
de clasificación se carga otro dataset de [2], NSM (Network Security Monitor) [3],
DARPA, diferente del conjunto de datos de Cisco Intrusion Detection (NetRanger) [4]
entrenamiento, se reducen las característi- y RealSecure [5]. Por otra parte, algunos
cas de la nueva colección de datos usando referentes en materia de investigación en
FDR, teniendo en cuenta la misma cantidad cuanto al uso de técnicas de inteligencia
de características de la fase de entrenamien- artificial en la detección de intrusiones pue-
to y, por último, se clasifican los datos, ba- den ser consultados en [6] y [7].
sándose en el mapa generado en el proceso
El propósito inicial de esta investigación es

88
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116

evaluar un modelo de detección de intru- gencias en Computación) que puede ser


siones en sistemas de red propuesto, el cual consultado en [11]; ambos proyectos culmi-
luego de su afinamiento futuro —se vis- naron infructuosamente, razón por la cual
lumbra— podrá ser implementado en IDS los esfuerzos de estandarización actuales se
comerciales capaces de clasificar flujos de han encaminado por IDWG (Grupo de Tra-
datos de conexiones normales y ataques, de bajo en Detección de Intrusiones, presenta-
forma no supervisada. do por el Grupo de Trabajo de Ingeniería
en Internet - IETF) que se define en [12] y
CVE (Exposiciones y Vulnerabilidades Co-
SISTEMAS DE DETECCIÓN DE INTRUSOS munes) que puede ser consultado en [13].
Los IDS son eficaces herramientas de pro- Los IDS se clasifican de acuerdo con los
tección de datos que complementan en gran criterios de enfoque o tipo de análisis, ori-
medida el uso de otras técnicas de seguri- gen de los datos o fuentes de información,
dad. Los sistemas informáticos pueden es- por su estructura y según su respuesta o
tar expuestos a diversidad de ataques que comportamiento. Apréciese el esquema de
viajan por la red informática, en forma de clasificación en la Fig. 1. Información deta-
conexiones. llada sobre estos sistemas puede ser consul-
tada en [14], [15] y [16].
Las dos finalidades primordiales de los IDS
son la prevención y la reacción. La prime-
ra implica la “escucha” del tráfico en la red
o de una computadora en particular, con la
intención de identificar el ataque, aplicando
técnicas de reconocimiento de patrones o
técnicas inteligentes basadas en modelos es-
tadísticos y soportados en redes neuronales,
informando en tiempo real al sistema sobre
los intentos de ataques o de actividades sos-
pechosas. Como complemento a ello la se-
gunda finalidad hace posible la elaboración
de respuestas defensivas implementadas
a través de scripts, ante la materialización
de los ataques. Esto es posible mediante el
análisis de archivos logs en los sistemas.
Se ha tratado de estandarizar la arquitec-
tura de los IDS inicialmente mediante las Fig. 1 Clasificación de los IDS
propuestas efectuadas por CIDF (Marco co-
mún de Detección de Intrusiones) definido En relación con el enfoque o tipo de análi-
en [8], [9] y [10], y autopost de AusCERT sis, los IDSs se clasifican en detección de
(Equipo australiano de Respuestas a Emer- intrusos basada en abusos (Misuse-based

89
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM

Intrusion Detection) y detección de intrusos [1], NFR (Network Flight Recorder) [2],
basada en anomalías (Anomaly-based In- NSM (Network Security Monitor) [3], Cis-
trusion Detection); en la Fig. 2 se aprecia su co Intrusion Detection (NetRanger) [4] y
arquitectura funcional. Mayor información RealSecure [5].
en relación con los algoritmos utilizados
La detección de intrusos basada en ano-
como estrategia de análisis, por cada uno
malías funciona asumiendo que los ata-
de estos enfoques, puede ser consultada en
ques son diferentes a la actividad normal;
[17] y [18].
se puede llegar a esta inferencia luego de
un proceso de entrenamiento, en el cual se
identificará “¿qué se considera como acti-
vidad normal?”, analizando comportamien-
tos inusuales tanto en los host como en el
tráfico de la red. Para ello se construyen
perfiles generados a partir del análisis de
asociación de patrones; estos perfiles re-
presentan el comportamiento normal de los
usuarios, hosts o conexiones de red. Las
medidas y técnicas comúnmente utilizadas
en los IDS para la detección de anomalías
son: la detección de umbral y el uso de me-
didas estadísticas. Las técnicas de detección
de anomalías como la aplicación de IDES
(Sistema Experto de Detección de Intru-
Fig. 2 Arquitectura de los IDS de acuerdo con el enfoque
sos), redes neuronales, el uso de algoritmos
La detección de intrusos basada en abusos genéticos, la modelación de un sistema in-
monitoriza las actividades que ocurren en mune y NIDES (Next-generation Intrusion
un sistema y las compara con una base de Detection Expert), no son empleadas en la
datos de firmas de ataques predefinida, ge- actualidad en los IDS con fines comerciales
nerando una alerta si la actividad es identi- debido a que aún siguen siendo objeto de
ficada como ataque. Según [6] esta técnica investigación.
es muy utilizada en productos comerciales,
debido a su previsibilidad y alta precisión;
sin embargo, para que el método sea efec- Ataques
tivo, es necesario mantener actualizada la Son métodos mediante los cuales se intenta
base de datos de firmas. La deficiencia de tomar el control de un sistema informático
este método es que no identifica nuevos con el objeto de dañarlo o desestabilizarlo,
ataques inexistentes en dicha base de datos. haciendo uso de aplicaciones especialmente
Ejemplos de IDS que emplean las técnicas diseñadas para ello. Se agrupan en cuatro
de detección de intrusos basadas en abusos, categorías principales: DoS (Denial Of Ser-
ya mencionados anteriormente, son: Snort vice - Ataques de Denegación de Servicios),

90
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116

R2L (Remote to Local - Ataques de acceso Los ataques Probing escanean redes de da-
Remoto a Local), U2R (User to Root - Ata- tos con el objeto de identificar direcciones
ques de Usuario a Súper usuario) y Probing IP válidas y recopilar información acerca
(Sondeo de redes). de ellas. Este tipo de ataque busca detec-
tar qué servicios se ofrecen y cuáles son los
Los ataques de DoS propician la pérdida de
sistemas operativos que utilizan. A partir de
conectividad de un sistema de cómputo o
esto el atacante identifica una lista de vulne-
red informática, debido a la sobrecarga de
rabilidades potenciales para lanzar ataques
los recursos computacionales (por ejemplo,
tanto a los servicios como a las respectivas
ancho de banda) de la red víctima. Durante
máquinas sobre las que éstos se ejecutan.
este tipo de ataques se saturan los puertos de
Los ataques categorizados como Probing
comunicación con excesivo flujo de datos,
son: ipsweep, mscan, nmap, portsweep,
de tal forma que la sobrecarga del sistema
saint y satan.
haga imposible la correcta prestación del
servicio, denegando las diferentes peticio- Cualquiera de los ataques mencionados en
nes efectuadas por los clientes que las so- las categorías anteriores implican el estable-
licitan. Los ataques del tipo DoS son: apa- cimiento de conexiones y cada una de éstas
che2, back, land, mailbomb, neptune, pod, genera un registro que ocupa 100 bytes y
processtable, smurf, teardrop y udpstorm. está compuesto por 41 atributos. Tales atri-
butos permiten identificar si la conexión es
Los ataques R2L se producen cuando un ata-
normal o si es algún tipo de ataque.
cante que no posee cuenta de usuario en una
máquina remota, logra autenticarse como
súper usuario (root) o como usuario con res-
tricciones, en tal máquina, accediendo a ella Atributos o características
a través de la web. Los ataques de la categoría Existe una clasificación de los atributos en
R2L son: ftp_write, guess_passwd, httptun- relación con el tipo de evaluación que po-
nel, imap, multihop, named, phf, sendmail, sibilitan las conexiones: Los “atributos de
snmpgetattack, snmpguess, spy, warez- contenido” permiten evaluar el número de
client, warezmaster, worm, xlock y xsnoop. intentos de acceso fallidos; los atributos de
“mismo host” tienen en cuenta solo las co-
Los ataques de U2R se producen cuando un
nexiones en los dos últimos segundos que
atacante que ya dispone de una cuenta en un
tengan el mismo destino que la conexión
sistema informático, obtiene mayores privi-
actual y estadísticas relacionadas con el
legios de los inicialmente establecidos para
protocolo y los servicios; los atributos de
él. Esto sucede debido a las vulneraciones
“mismo servicio” examinan solo las co-
existentes en los sistemas operativos o a la
nexiones en los dos últimos segundos que
previa instalación de programas espías que
tienen el mismo servicio que la conexión
posibiliten el acceso intrusivo. Los ataques
actual. Tanto los atributos de “mismo host”
del tipo U2R son: buffer_overflow, loadmo-
como los de “mismo servicio” permiten la
dule, perl, ps, rootkit, sqlattack y xterm.
evaluación del tráfico de las conexiones en
el tiempo.

91
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM

Dado que los ataques de Probing escanean de ataques solo requieren de una única co-
los puertos con un intervalo de tiempo mu- nexión; contrario a esto, los ataques de las
cho mayor de dos segundos (posiblemente categorías DoS y Probing requieren muchas
una vez por minuto). Se debe hacer una cla- conexiones con un mismo host en un pe-
sificación de los registros por host de desti- ríodo muy corto de tiempo, lo que permite
no, produciendo una serie de atributos de- evaluar patrones secuenciales frecuentes.
nominados “tráfico basado en host”.
En las Tablas I, II y III se aprecia una lista
Los ataques de las categorías R2L y U2R de atributos clasificados por atributos bási-
generan registros de conexión en los cuales cos, especiales y aquellos que hacen posible
los atributos no generan patrones secuen- la evaluación con una ventana de tiempo de
ciales frecuentes, debido a que tales tipos dos segundos.

Tabla I
Atributos básicos de las conexiones

Atributo Descripción Tipo


Duration Longitud (número de segundos) de la conexión. Continuo
protocol_type Tipo de protocolo (tcp...). Discreto
Service Tipo de servicio de destino (HTTP, Telnet, SMTP...). Discreto
src_bytes Número de bytes de datos de fuente a destino. Continuo
dst_bytes Número de bytes de datos de destino a la fuente. Continuo
Flag Estado de la conexión (SF, SI, REJ...). Discreto
Land 1 si la conexión corresponde mismo host/puerto; 0 de otro modo. Discreto
wrong_fragment Número de fragmentos erróneos. Continuo
Urgent Número de paquetes urgentes. Continuo

Tabla II
Atributos especiales de las conexiones

Atributo Descripción Tipo


Hot Número de indicadores “hot”. Continuo
num_failed_logins Número de intentos de acceso fallidos. Continuo
logged_in 1 si acceso exitoso; 0 de otro modo. Discreto
num_compromised Número de condiciones “sospechosas”. Continuo
root_shell 1 si se obtiene superusuario para acceso a root; 0 de otro modo. Discreto
su_attempted 1 si se intenta el comando “su root”; 0 de otro modo. Discreto
num_root Número de accesos a root. Continuo
num_file_creations Número de operaciones de creación de ficheros. Continuo
num_shells Número de shell prompts. Continuo
num_access_files Número de operaciones de control de acceso a ficheros. Continuo
num_outbound_cmds Número de comandos de salida en una sesión ftp. Continuo
is_hot_login 1 si el login pertenece a la lista “hot”; 0 de otro modo. Discreto
is_guest_login 1 si el acceso es un “guest” login; 0 de otro modo. Discreto

92
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116

Tabla III
Atributos con ventana de dos segundos

Atributo Descripción Tipo


Número de conexiones a la misma máquina que la conexión
Count Continuo
actual en los dos últimos segundos.
Los siguientes atributos se refieren a las conexiones de mismo host
serror_rate Porcentajes de conexiones que tienen errores “SYN”. Continuo
rerror_rate Porcentaje de conexiones que tienen errores “REJ”. Continuo
same_srv_rate Porcentaje de conexiones con el mismo servicio. Continuo
diff_srv_rate Porcentaje de conexiones con diferentes servicios. Continuo
Número de conexiones al mismo servicio que la conexión actual
srv_count Continuo
en los dos últimos segundos.
Los siguientes atributos se refieren a las conexiones de mismo servicio
srv_serror_rate Porcentaje de conexiones que tienen errores “SYN”. Continuo
srv_rerror_rate Porcentaje de conexiones que tienen errores “REJ”. Continuo
srv_diff_host_rate Porcentaje de conexiones a diferentes hosts. Continuo

Los atributos anteriormente descritos pue- desempeño de una prueba de clasificación


den ser de dos tipos: continuos o numéricos binaria, también conocida en las estadís-
(toman valores reales o enteros) y discretos ticas como la función de clasificación. La
o simbólicos (toman valores a partir de una sensibilidad (también llamada tasa de re-
lista especificada). Por ejemplo: el atributo cuperación - recall rate) mide la proporción
“protocol_type” toma los valores tcp, udp de “verdaderos positivos” que son correcta-
e icmp; el atributo “service” toma los va- mente identificados como tales. La especi-
lores http, mtp, smtp, finger, domain, etc; ficidad mide la proporción de “verdaderos
el atributo “flag” toma los valores SF, S1, negativos” que se han identificado correc-
REJ, S2, etc. y el atributo “class” toma los tamente.
valores back, buffer_overflow, ftp_write,
Un predictor perfecto sería descrito con un
guess_passwd, etc.
100% de sensibilidad y un 100% de especi-
Para efectuar la detección de intrusiones se ficidad, sin embargo teóricamente cualquier
requiere evaluar las diferentes característi- predictor poseerá un error de límite (bound)
cas o atributos que constituyen a las respec- mínimo, conocido como la tasa de error de
tivas conexiones que hacen referencia a los Bayes.
ataques. Un IDS 100% efectivo no existe en
Para el proceso de clasificación de tráfico
la actualidad; para determinar su eficiencia
“normal” y “ataques”, es necesario evaluar
se deben valorar diferentes métricas.
las siguientes métricas:
• Verdaderos Positivos (VP): ataque co-
Métricas de desempeño
rrectamente identificado como ataque.
La sensibilidad (sensitivity) y especificidad
(specificity) son medidas estadísticas del • Falsos Positivos (FP): tráfico normal

93
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM

identificado incorrectamente como ata- exacto y preciso, sin embargo un sistema de


que. medición puede ser exacto pero no preciso,
preciso pero no exacto, ninguno de los dos,
• Verdaderos Negativos (VN): tráfi-
o ambos. La Fig. 3 describe estas dos mé-
co normal correctamente identificado
tricas.
como tráfico normal.
• Falso Negativo (FN): ataque identifica- Valor de
referencia
do incorrectamente como tráfico nor- Exactitud
Densidad de
mal. probabilidad

A partir de lo anterior, entendiendo que la


“sensibilidad” es la capacidad de una prue-
ba para identificar resultados verdaderos Exactitud
Precisión
positivos y que la “especificidad” se refiere
a la capacidad de la prueba para identificar Fig. 3. Exactitud y precisión

los resultados negativos, se tiene que: La exactitud es la proporción de resulta-


dos verdaderos (tanto verdaderos positivos
VP
Sensibilidad = (1) como verdaderos negativos) en la pobla-
VP + FN ción. Una exactitud del 100% significa que
los valores medidos son exactamente los
VN mismos que los valores dados. La exactitud
Especificidad = (2)
VN + FP es definida a partir de (3).
Si una prueba tiene una “sensibilidad” del VP + VN
100% significa que la prueba reconoce to- Exactitud = (3)
VP + FP + FN + VN
dos los verdaderos positivos, es decir, todos
los ataques se detectan efectivamente como Por otra parte, el valor de la precisión o valor
ataques. En contraste, una prueba que tiene predictivo positivo se define como la pro-
un 100% de “especificidad”, detecta todos porción de verdaderos positivos contra to-
los verdaderos negativos, es decir, todo el dos los resultados positivos, definida en (4).
tráfico normal es correctamente identifica-
do como tal.
VP
Precisión= (4)
Por otra parte, en los sistemas de medición VP + FP
la “exactitud” (accuracy) [19] es el grado de
cercanía de las mediciones de una cantidad En la Tabla IV se muestra la relación exis-
al valor de la magnitud real y la “precisión, tente entre las métricas de desempeño de
reproducibilidad o repetibilidad” (preci- los sistemas de clasificación, de acuerdo
sion) [19] es el grado en que las mediciones con los resultados y condiciones.
repetidas en condiciones iguales muestran
los mismos resultados. Un sistema de me- Se siguen valorando diferentes metodolo-
dición se denomina válido si es a la vez gías y técnicas con el objeto de desarrollar

94
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116

Tabla IV
Relación de métricas de desempeño de un clasificador binario

Condición
(según lo determinado por el “Gold Standard”)
Condición Positiva Condición Negativa
Valor predictivo positivo (precisión)=
Resultados
Falso Positivo
Positivos de la Verdadero Positivo ∑VerdaderosPositivos
(error tipo I)
prueba
Resultado de
∑ Re sultadosPositivos
la prueba Valor predictivo negativo=
Resultados
Falso Negativo
Negativos de la Verdadero Negativo ∑VerdaderosNegativos
(error tipo II)
prueba
∑ Re sultadosNegativos
Sensibilidad= Especificidad= Exactitud=

∑VerdaderosPositivos ∑VerdaderosNegativos ∑Verdaderos


∑ CondiciónPositiva ∑ CondiciónNegativa ∑ Re sultadosVerdaderosyNegativos

una solución IDS cada vez más eficiente; colección de conexiones. El dataset se utili-
para ello se requiere de un ambiente que za para la evaluación de la eficiencia de los
permita simular el tráfico de red de la for- sistemas de detección de intrusos en redes
ma más real posible. Razón por la cual el informáticas. Los criterios medibles son la
MIT (Instituto Tecnológico de Massachu- probabilidad de detección y la probabilidad
setts) y DARPA (la Agencia de Proyectos de falsas alarmas del respectivo sistema tes-
de Investigación Avanzada de Defensa) han teado.
simulado tal escenario, alimentando colec-
ciones de datos, con el propósito de dotar a Los dataset publicados por LL-MIT en su
los investigadores de una base de datos de web oficial, son los resultados de las eva-
tráfico de red, que sirva de insumo para el luaciones en detección de intrusiones efec-
desarrollo de investigaciones en el ámbito tuada por DARPA en 1998 y 1999. También
de la detección y prevención de intrusos. se encuentran experimentos dirigidos a es-
cenarios específicos realizados en 2000. El
LL-MIT distribuye libremente los dataset,
EL DATASET DARPA la documentación, publicaciones, evalua-
ciones de resultados y herramientas de soft-
El Grupo de Tecnología de Sistemas de In- ware relacionadas, disponibles en [20].
formación (IST), del Laboratorio Lincoln
del Instituto Tecnológico de Massachusetts El dataset DARPA 1998 contiene un con-
LL-MIT, con la cooperación de la Agencia junto de ataques realistas, integrados a un
de Proyectos de Investigación Avanzada conjunto de conexiones normales, lo cual
de Defensa (DARPA ITO) y el Laborato- suministra el insumo de datos que permite
rio de Investigación de las Fuerzas Aéreas evaluar las falsas alarmas y las tasas de de-
(AFRL/SNHS), recopiló el primer dataset tección de IDS; para construir este dataset
que contiene tráfico de red con una variada se efectuaron dos evaluaciones: una off-line

95
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM

y otra en tiempo real. La primera consta de de servicios, acceso desautorizado, transi-


tráfico de red y logs de auditoría recogidos ción desautorizada, obtención de privile-
en una red de simulación, para la segunda gios de root por un usuario sin privilegios
se insertaron sistemas de detección de intru- (para esto fue necesario efectuar vigilancia
sión en el banco de pruebas de la red AFRL y testeo) y en general diferentes comporta-
con la intensión de identificar sesiones de mientos anómalos de usuarios.
ataque en medio de actividades normales,
A partir de todos los datos recolectados se
en tiempo real.
organizaron distintos subconjuntos de da-
La red física usada para la simulación inclu- tos que componen el dataset DARPA 1998,
ye una subred interna y una externa sepa- tales como: datos de ejemplo, cuatro horas
radas por un enrutador. La externa incluye de subconjuntos de datos de entrenamiento,
dos estaciones de trabajo que simulan ga- datos de entrenamiento (contienen siete se-
teways en un Internet exterior virtual. Una manas de ataques basados en red en medio
estación de trabajo simula varias estaciones de datos en segundo plano, normales) y da-
usando modificaciones del software cliente tos de test (contiene dos semanas de ataques
del kernel de Linux, proporcionados por el basados en red en medio de actividad nor-
grupo Air Force ESC. Un gateway contro- mal en segundo plano).
la a cien estaciones y otro a miles de sitios
El dataset DARPA 1999, al igual que su
web cuyo contenido se actualiza diariamen-
predecesor, está constituido por una eva-
te. La subred interna incluye máquinas crí-
luación off-line y una evaluación en tiempo
ticas de muchos tipos (Linux, Solaris, Sun
real, basándose en los mismos principios
OS) y un gateway para muchas otras esta-
que en el conjunto de datos del año anterior
ciones de trabajo internas. Los datos fueron
e incluyendo adicionalmente las siguien-
recogidos desde un host interno que ejecuta
tes características: ataques y tráfico desde
Solaris y desde un sniffer externo.
ordenadores que ejecutan Windows NT,
En el escenario anteriormente descrito se ataques en la red interna, archivos de sis-
enviaron emails, broadcasts, correo simple, tema dump que proporcionan importantes
y listas de servidores de dominio, así como componentes desde sistema de ficheros de
tráfico ftp a través de la descarga de usuarios cinco víctimas cada noche, incluyendo logs
de variedad de código original y archivos de de auditoría de Windows NT y archivos de
documentación de sitios ftp anónimos, tanto sniffing que proporcionan datos de sniffing
internos como externos. Se registró además de la red interna.
la actividad de seis usuarios con identida-
DARPA 1999 centra la evaluación de ac-
des específicas profesionales (programador,
tividades de estaciones de trabajo UNIX,
secretario, administrador de sistema y ge-
Windows NT y a partir de los siguientes
rente), los cuales diariamente realizaron se-
eventos: Denegación de Servicios (DoS),
siones telnet ejecutando tareas, accediendo
Remoto a Local (R2L), Usuario a Root
con su identidad; algunas de esas acciones
(U2R) y acceso desautorizado o modifica-
pueden considerarse actividades anómalas.
ción de datos en un host local o remoto.
Tales actividades comprenden: denegación

96
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116

Estos ataques ocurren en el contexto de uso palmente por: datos de auditoría de log
normal de computadores y redes en una de eventos NT, datos Tcpdump de la red
base militar. La organización de los datos externa, datos Tcpdump de la red inter-
utiliza un esquema similar al seguido por el na y archivo con altos niveles de ata-
dataset DARPA de 1998 con algunas mo- ques reales.
dificaciones (no hay datos de ejemplo ni
subconjuntos de datos de entrenamiento). El dataset NSL-KDD es una colección de
Quedando el dataset DARPA 1999 consti- datos construido con el objeto de solven-
tuido por: datos de entrenamiento (tres se- tar los problemas que presenta el conjunto
manas de ataques, teniendo en cuenta que KDD’99 [21], pese a no ser una representa-
la primera y la tercera semana no contie- ción perfecta de los datos reales, debido a
nen ataques, la segunda semana contiene que no contiene conjuntos de datos públicos
un subconjunto selecto de ataques que van de los IDS; sin embargo, demuestra mucha
desde los ataques de 1998 a otros ataques utilidad al ser aplicado como un conjunto
nuevos), datos de test (dos semanas de ata- de datos de referencia eficaz para ayudar a
ques basados en red en medio de actividad los investigadores en el proceso de compa-
normal en segundo plano). ración de diferentes métodos de detección
de intrusos.
En DARPA 2000 los datos se obtuvieron a
partir de varios escenarios: El número de registros que contiene el data
set NSL-KDD es razonable, lo cual se cons-
• Escenario 1: LLDOS 1.0. Este escenario
tituye en una ventaja a la hora de realizar
está compuesto de múltiples sesiones
los experimentos con la colección de datos
de red y auditoría. Estas sesiones están
completa, para efectos de tiempo de proce-
agrupadas en cinco fases de ataques, en
samiento de la información, sin necesidad
las cuales el atacante testea la red, in-
terrumpe la vulnerabilidad de un host de elegir al azar a una pequeña porción de
ejecutando Solaris, instala el software los datos, lo que consecuentemente conlle-
del troyano mstream DDoS, y lanza un va a que los resultados de la evaluación de
ataque de DDoS en un servidor del sitio los trabajos de investigación lleguen a ser
desde el host comprometido. consistentes y comparables.

• Escenario 2: LLDOS 2.0.2. (igual que Las mejoras que presenta el NSL-KDD res-
el anterior). pecto a sus predecesores, son las siguientes:

• Conjunto de Datos de Ataques NT. En • La colección de datos no incluye regis-


enero del 2000 se realizó un experimen- tros redundantes; por lo tanto los clasi-
to con un elevado nivel de auditoría de ficadores no realizarán correcciones con
NT. En este dataset se presentan las tra- tanta frecuencia.
zas recogidas del tráfico de un día y el
• No existen registros duplicados en los
ataque que afecta a la máquina de NT.
conjuntos de pruebas propuestos; por lo
Este escenario está compuesto princi-
tanto, el rendimiento del aprendizaje no

97
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM

está sesgado por los métodos que tienen necesidad de seleccionar al azar una pe-
mejores tasas de detección en los regis- queña porción de éste.
tros frecuentes.
En [22] se encuentran los archivos de da-
• El número de registros seleccionados de tos del NSL_KDD tanto en formato .txt
cada grupo de nivel de dificultad es in- como en formato .arff, cuya descripción
versamente proporcional al porcentaje se aprecia en la Tabla V. Este último for-
de registros en el conjunto original de mato “Attribute Relation File Format ”
datos KDD. Como resultado, las tasas es usado por compatibilidad con el soft-
de clasificación de los distintos métodos ware WEKA (Waikato Environment for
de aprendizaje de máquinas varían en Knowledge Analysis) [23], con el objeto
un rango más amplio, lo que hace que de poder efectuar el análisis de datos de los
sea más eficiente para tener una evalua- dataset KDDTrain+ y KDDTest+. WEKA
ción precisa de las diferentes técnicas es un entorno de trabajo desarrollado por la
de aprendizaje. Universidad de Waikato (Nueva Zelanda),
construido en JAVA y con licenciamiento
• El número de registros tanto en la colec-
GPL, que se utiliza para procesos de expe-
ción completa de datos como en el por-
rimentación de análisis de datos que hagan
centaje del dataset es razonable, lo cual
posible la aplicación, análisis y evaluación,
hace posible realizar los experimentos
sobre un dataset empleando técnicas relati-
con el conjunto de datos completo sin
vas al aprendizaje automático.

Tabla V
Archivos del dataset DARPA NSL-KDD

Archivo Descripción
El conjunto de datos completo para el entrenamiento (train NSL-KDD), con
KDDTrain+.arff
etiquetas binarias y en formato ARFF.
El conjunto de datos completo para el entrenamiento (train NSL-KDD),
KDDTrain+.txt incluyendo etiquetas de tipos de ataques y el nivel de dificultad, en formato
CSV.
KDDTrain+_20Percent.arff Un subconjunto del 20% del archivo KDDTrain+.arff
KDDTrain+_20Percent.txt Un subconjunto del 20% del archivo KDDTrain+.txt
El conjunto de datos completo para el test con etiquetas binarias y en
KDDTest+.arff
formato ARFF.
El conjunto de datos completo para el test, incluyendo etiquetas de tipos de
KDDTest+.txt
ataques y el nivel de dificultad, en formato CSV.
Un subconjunto del archivo KDDTest+.arff el cual no contiene registros con
KDDTest-21.arff
el nivel de dificultad 21 de un total de 21.
Un subconjunto del archivo KDDTest+.txt el cual no contiene registros con
KDDTest-21.txt
el nivel de dificultad 21 de un total de 21.

98
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116

FASES DEL PROCESO DE SIMULACIÓN que ofrece en relación con la variedad y de-
DE DETECCIÓN DE INTRUSIONES puración de sus datos con respecto a otros
dataset de su misma familia y de otras orga-
La eficacia del proceso de detección del
nizaciones. La Tabla VI muestra un listado
tráfico malicioso en una red informática,
de los dataset más destacados en procesos
mediante la aplicación de un IDS que utili-
de simulación de sistemas de detección de
ce técnicas de reducción de características,
intrusiones.
algoritmos de aprendizaje de máquina y
detección de tráfico anómalo, es suscepti-
ble de ser evaluada mediante simulación de
laboratorio. Ello requiere de la ejecución de Fase de preprocesamiento
varias fases: escogencia de la colección de Los datos procedentes del dataset deben es-
datos (dataset), preprocesamiento, normali- tar en el rango de [0 a 1] o de [-1 a 1]. Sin
zación, entrenamiento (training) y clasifica- embargo no lo están, debido a que todas las
ción. La Fig. 4 ilustra dichas fases. conexiones en sus 41 características poseen
valores continuos, discretos o simbólicos y
Colección de Datos en diferentes rangos de significancia. Con
el propósito de estandarizar dichos valores
para que puedan ser eficazmente procesa-
Preprocesamiento dos por los algoritmos de aprendizaje de
máquina, se debe hacer un preprocesamien-
to y normalización de los datos contenidos
Normalización
i en las conexiones.
Para la conversión de los símbolos en for-
Entrenamiento mato numérico, a cada símbolo se asigna un
código entero. Por ejemplo, en el caso de la
característica protocol_type, se asigna “0”
Clasificación a tcp, “1” a udp y “2” a icmp. De forma
similar los nombres de ataque son mapea-
Fig. 4. Fases del proceso de simulación de detección de
dos asignando valores enteros a las cinco
intrusiones categorías así: “0” para tráfico normal, “1”
para el ataque de sondeo (probe), “2” para
la Denegación de Servicios (DoS), “3” para
Fase de elección de la colección de datos U2R y “4” para R2L.

En esta fase inicial se debe seleccionar la Por otra parte, debido a que existen carac-
colección de datos que se va a usar para terísticas cuyos valores se extienden por un
las fases subsiguientes. Aunque existe una rango de números enteros muy grande, es
amplia variedad de datasets los investiga- decir, src_bytes toma valores entre [0 y 1.3
dores comúnmente se han decantado por el billones] igual que dst_bytes. Se aplica en-
uso de DARPA NSL-KDD, por las ventajas tonces una escala logarítmica (de base 10) a

99
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM

Tabla VI
Datasets utilizados en procesos de simulación de Sistemas de Detección de Intrusiones

Dataset Patrocinadores - Miembros

• IST-LLMIT (Grupo de Tecnologías de Sistemas de Información -


Laboratorio del Instituto de Tecnología de Massachusetts).
Dataset DARPA • DARPA ITO (Agencia de Proyectos de Investigación Avanzada de
Defensa - Oficina de Tecnología de la Información).
• AFRL/SNHS (Laboratorio de Investigación de las Fuerzas Aéreas).

Datasets USC/ISI ANT • ANT (Grupo de Investigación de Análisis de Tráfico de Red).


Programa PREDICT • ISI (Instituto de Ciencias de la Información).
(Repositorio de Protección • USC (Universidad del Sur de California).
para la Defensa de la • Departamento de Ciencias Computacionales de la Universidad
infraestructura frente a las Estatal de Colorado.
amenazas informáticas). • Departamento de Ingeniería Eléctrica de USC.
Proyecto LANDER. • Servicios de Tecnologías de la Información de la USC.

Patrocinadores:
ARIN (American Registry for Internet Numbers), CISCO, Endance
Datasets CAIDA Measurement Systems, U.S. Departament of Homeland Security, NSF
Asociación Cooperativa (National Science Fundation).
para el Análisis de Datos en
Internet Miembros:
Digital Envoy, Intel, NTT (Nippon Telegraph and Telephone
Corporation), Ripe NCC, University of California San Diego.

Datasets CRAWDAD
• ACM SIGMOBILE.
Comunidad de recurso para
• Intel Corporation.
archivar datos inalámbricos en
• Fundación Nacional de Ciencias.
Dartmouth

Dataset DRDC • Sección de Operaciones de Información de Red (NIO) de la DRDC


Defense Research and Ottawa, Canadá.
Development Canada • Red de Establecimiento para la Investigación y Defensa (DREnet).

NIST SAMATE Reference


Dataset Project
NIST : National Institute for
Standard and Technology Departamento de Estado de EE.UU.
SAMATE : Software
Assurance Metrics and Tools
Evaluation

MERIT NETWORK INC.


Virtual Dataset Repository Programa PREDICT (Protected Repository for the Defense of
Infrastructure against Cyber Threats).

100
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116

estas características para reducir el rango de Fase de entrenamiento


[0.0 a 9.14]. Todas las demás características
En esta fase se entrena la red neuronal a
son booleanas, en el rango de [0.0 a 1.0].
Por lo tanto, el escalado no es necesario partir del algoritmo de aprendizaje selec-
para estos atributos. cionado y tomando como insumo el archivo
procedente del dataset para tal fin. Normal-
En la fase de preprocesamiento también mente se usa un archivo que contiene una
se debe identificar la técnica de reducción cantidad de registros equivalente al 20% del
de características que se van a utilizar, de-
total de los datos contenidos en el dataset
bido a que no es conveniente efectuar el
(KDDTrain+_20Percent).
entrenamiento de la red con la totalidad de
características, dado que ello podría ralen-
tizar considerablemente el procesamiento,
sin añadir una significativa exactitud en la Fase de clasificación
clasificación del tráfico. Posteriormente se Una vez la red neuronal ha sido entrenada,
abordarán las técnicas de reducción de ca-
se procede con la fase de clasificación en la
racterísticas más utilizadas en la actualidad.
cual, de forma autónoma, el algoritmo cla-
sificador determina qué tráfico es normal y
cuál es un ataque, efectuando la subsiguien-
Fase de normalización
te clasificación de cada una de las conexio-
Para normalizar los valores de las caracte- nes del dataset. Gracias a esto se podrá pre-
rísticas, se requiere efectuar un análisis es- sentar la información de resumen del pro-
tadístico sobre los valores de cada una de ceso, de forma estadística, mediante gráfi-
ellas en función de los datos existentes en el
cos por estado (tráfico normal o ataques),
dataset, teniendo en cuenta el valor máximo
agrupados por tipo de ataque y listando las
aceptable que se ha determinado para cada
métricas de desempeño para valorar la efi-
característica.
ciencia del sistema.
De acuerdo con los valores máximos y la
fórmula enunciada a continuación, se cal- Una vez la red neuronal está entrenada, se
cula la normalización de los valores de las procede con la prueba, la cual se realiza con
características en el intervalo de [0 a 1], así: el 100% de los datos contenidos en el data-
set; para ello usualmente se utiliza el data-
Si (f > MaxF) Nf = 1, Si no Nf = (f / MaxF) set KDDTest+.
donde:
Dado que el énfasis de este artículo es la
F: Característica - f: Valor de la característica fase de preprocesamiento y en particular las
técnicas de extracción de características, a
MaxF: Máximo valor aceptable para la característica
continuación se abordarán éstas con mayor
Nf: Valor normalizado o escala de F. detalle, puntualizando en la razón discrimi-
nante de Fisher (FDR).

101
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM

Técnicas de extracción de características Principales (PCA - Principal Component


Analysis).
El proceso de extracción de características
documentado en [24], implica el mapeado La razón discriminante de Fisher
de un espacio multidimensional a un espa-
cio de menos dimensiones. Esto significa Definida en [25], encuentra la matriz de
que el espacio de características original es transformación óptima preservando la ma-
transformado mediante la aplicación de una yor parte de la información que se puede
técnica de reducción de características, por utilizar, para discriminar entre las diferentes
ejemplo utilizando la transformación lineal categorías. Por lo tanto, el análisis requiere
del Análisis de Componentes Principales que los datos tengan etiquetas de categoría,
PCA. a fin de formular matemáticamente el pro-
cedimiento de optimización o reducción.
El proceso de extracción de características
FDR, también conocido como Análisis de
simplifica la cantidad de recursos necesarios
Discriminante Lineal (LDA), fue original-
para describir con precisión un amplio con-
mente desarrollado en 1936 por R.A. Fis-
junto de datos. Lo que es necesario cuando
her, como un método clásico que se utiliza
se realiza un análisis de datos complejos,
para la clasificación (es decir, con una va-
debido a que uno de los principales proble-
riable categórica objetivo). Mayor informa-
mas del proceso de clasificación deriva del
ción puede ser consultada en [26]-[29].
número de variables involucradas.
Es un método utilizado en la estadística para
Cuando se evalúa un considerable número
el reconocimiento de patrones y de aprendi-
de variables consecuentemente se requiere
zaje de máquina, para encontrar una com-
una gran cantidad de memoria y potencia
binación lineal de las características que
de cálculo, por ello es importante controlar
determinan o separan dos o más clases de
la cantidad de características que participan
objetos o acontecimientos. La combinación
en el proceso de clasificación.
resultante puede ser utilizada como un cla-
La extracción de características, efectuando sificador lineal, o más frecuentemente, para
reducción de dimensionalidad, en relación la reducción de la dimensionalidad antes de
con el número de características por eva- la clasificación.
luar, hace posible la construcción de combi-
Este método requiere que se calcule el vec-
naciones de variables que minimicen estos
tor de medias y la matriz de covarianza para
problemas y al mismo tiempo describan los
cada categoría y para el conjunto completo
datos con suficiente precisión. A continua-
de datos (con todas las clases agrupadas). A
ción se presentan tres técnicas de reducción
partir de esto, se puede formular el criterio
de la dimensionalidad: Razón Discriminan-
de optimización.
te de Fisher (FDR - Fisher Discriminant
Ratio), Análisis de Componentes Indepen- El numerador representa la covarianza de
dientes (ICA - Independent Component los datos de entrenamiento agrupados en el
Analysis) y el Análisis de Componentes espacio de características transformado. El

102
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116

denominador representa la covarianza pro-


medio dentro de cada clase en el espacio de
características transformado. Por lo tanto, (7)

el criterio de verdad trata de maximizar la
“distancia” entre las clases, mientras se mi- donde los subíndices i, j se refieren a la me-
nimiza el “tamaño” de cada una de estas, al dia y la varianza correspondiente a la fun-
mismo tiempo. Este criterio garantiza con- ción bajo investigación para las clases wi,
servar la mayor parte de la información dis- wj, respectivamente.
criminante en el espacio de características
transformado. En (6) se muestra la fórmula
que determinar FDR, a partir de los puntos Análisis
de componentes independientes
de datos “x” en el espacio m-dimensional y
suponiendo que éstos se originan a partir de ICA, definido en [30], es un caso especial
dos clases. El objetivo es generar una fun- de BSS (Blind Signal Separation). En ICA
ción “y” como una combinación lineal de una característica relevante se define como
los componentes de las “x”, de esta manera, una característica cuya eliminación deterio-
se espera “exprimir” la información rela- ra el rendimiento o exactitud del clasifica-
cionada con la clasificación que reside en dor, mientras que una característica redun-
“x” en un número menor de características dante es irrelevante. Características irrele-
(en este caso una). vantes podrían deteriorar el rendimiento del
clasificador, por lo tanto la motivación del
Consecuente con lo anterior, dada una xϵRm, selector de características es:
el escalar:
• Simplificar el clasificador mediante la
selección de características.
(5)

• No reducir significativamente la exacti-
es la proyección de “x” a lo largo de “w”.
tud del clasificador.
Escalar todos los vectores de características
por el mismo factor no añade ninguna infor- • Reducir la dimensionalidad de los datos
mación relacionada con la clasificación, ig- para que un clasificador pueda manejar
norando el factor de escalado ||w||; se adopta grandes volúmenes de estos.
la relación de Fisher discriminante (FDR).
Las técnicas ICA proporcionan las herra-
mientas para el procesamiento de señales
(6) estadísticas para óptimas transformaciones
lineales de datos multivariantes. Estos mé-
donde μ1 y μ2 son los valores medios y σ12,
todos son adecuados para la extracción de
σ22 las varianzas de “y” en las dos clases w1,
características, la reducción del ruido, la es-
w2 respectivamente, después de la proyec-
timación de la densidad y la regresión.
ción a lo largo de w.
Es un método computacional para la sepa-
En (7) se muestra la fórmula que determina
ración de una señal multivariante en sub-
LDA multiclase.

103
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM

componentes aditivos suponiendo la mutua los componentes. Esto se puede hacer a tra-
independencia estadística de tales señales vés de un proceso iterativo.
de origen no gaussiana.
Dado un conjunto de vectores n-dimensio-
En ICA se encuentran los componentes in- nales, las componentes independientes son
dependientes mediante la maximización de las direcciones (vectores) a lo largo de los
la independencia estadística de los compo- cuales las estadísticas de las proyecciones
nentes estimados. Se puede elegir una de de los vectores de datos son independientes
las muchas maneras de definir la indepen- uno del otro. Formalmente “A” es una trans-
dencia, y esta elección gobierna la forma formación del marco de referencia dado ha-
de los algoritmos de ICA. Las dos defini- cia el marco de referencia de componentes
ciones más amplias de la independencia de independientes. Donde X=AS indica que es
ICA son: la reducción al mínimo de infor- la distribución marginal:
mación redundante y la maximización de la
no-gaussianidad. En el estudio de los IDS (8)
basados en detección de anomalías se usa
la primera definición con el propósito de “P(s)” es la distribución conjunta en el
emplearla como técnica de reducción de ca- vector n-dimensional “s”. Por lo general,
racterísticas. la técnica para la realización del Análisis
de Componentes Independientes - ICA se
La metodología de ICA puede ser descrita expresa como la técnica para derivar un
de la siguiente forma: cada una de las “h” determinado “W”, y=Wx, tal que los com-
señales mezcladas x1(k), x2(k), ..., xh(k) es ponentes de “y” son independientes el uno
una combinación lineal de “q” componen- del otro. Si las distribuciones marginales
tes independientes s1(k), s2(k), ..., sq(k), es individuales son no gaussianas entonces la
decir, X=AS, donde “A” es una matriz de derivada de las densidades marginales llega
mezcla. Dada “X”, el problema es calcular a una permutación a escala de las funcio-
A y S. Con base en las siguientes dos hipó- nes de densidad original si, por ejemplo, un
tesis estadísticas, ICA obtiene con éxito los “W” se puede obtener. Una de las técnicas
resultados: generales de aprendizaje para encontrar una
• Los componentes son independientes adecuada “W” es:
entre sí.
(9)
• Cada componente sigue una distribu-
ción no gaussiana. Por X=AS, tenemos
Donde Φ(y) es una función no lineal de la
S=A-1, es decir, S=A inversa de X; de
salida del vector “y”.
otra forma X=WX (donde W es la in-
versa de A).
La tarea consiste en seleccionar una “W”
Análisis de componentes principales
adecuada que se aplica en la “X” para maxi- PCA, definido en [31], es una de las técnicas
mizar el comportamiento no gaussiano de de reducción de dimensionalidad más utili-

104
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116

zada para el análisis y compresión de datos. por la descomposición de valores propios


Esta técnica identifica patrones en los datos, de una matriz de covarianza de datos o de
y los expresa en términos de sus semejanzas la descomposición de valor singular de una
y diferencias. Una vez que los patrones son matriz de datos, por lo general después de la
localizados a partir de la colección de datos, media de centrar los datos de cada atributo.
dichos datos pueden ser comprimidos redu- Los resultados de la PCA se suelen tratar en
ciendo el número de dimensiones, sin una términos de puntuaciones de los componen-
pérdida significativa de información. tes (los valores de las variables transforma-
das correspondientes a un caso particular
El Análisis de Componentes Principales
de los datos) y cargas (el peso por el cual
(PCA) es un procedimiento matemático que
debe ser cada variable original estándar,
utiliza una transformación ortogonal para
multiplicado para obtener la puntuación del
convertir un conjunto de observaciones de
componente).
variables correlacionadas, en un conjunto
de valores de variables no correlaciona- Si cada dato tiene “N” características re-
das llamadas componentes principales. El presentadas por ejemplo por x11 x12 ... x1N,
número de componentes principales es in- x22 x21 ... x2N., el conjunto de datos puede
ferior o igual al número de variables origi- ser representado mediante una matriz Xn×m.
nales. Esta transformación se define de tal Para la aplicación del método se utiliza el
manera que el primer componente principal siguiente fundamento matemático. La ob-
tiene la más alta variación posible, y cada servación promedio se define como:
componente de éxito, a su vez, tiene la ma-
(10)
yor variación posible con la restricción de
que sea ortogonal o correlacionado con los
componentes anteriores. La desviación de la media se define como:
Los componentes principales son garan- (11)
tizados para ser independientes solo si el
conjunto de datos es una distribución nor-
mal. PCA es sensible a la escala relativa de La matriz de covarianza de la muestra del
las variables originales. Dependiendo del conjunto de datos se define como:
ámbito de aplicación, también es llama-
do la transformada Karhunen-Loéve dis-
creta (KLT), la transformada de Hotelling
o la descomposición ortogonal adecuada
(POD). (12)
PCA fue inventado en 1901 por Karl Pear-
son [32] y en la actualidad se utiliza más Valores y vectores propios de la muestra de
que todo como una herramienta en el aná- covarianza matriz “C” son generalmente
lisis exploratorio de datos y para hacer mo- calculados por la descomposición en va-
delos predictivos. PCA se puede generar lores singulares. Suponiendo que (λ1, μ1),

105
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM

(λ2, μ2) ... (λm, μm) son “m” pares de vecto- de tal manera que todas las relaciones topo-
res propios de la muestra covarianza de la lógicas en el conjunto de entrenamiento se
matriz “C”. Los “k” vectores propios tie- mantienen.
nen que ser los más grandes valores propios
La característica más preponderante de los
seleccionados. La dimensionalidad del sub-
SOM es que aprende a clasificar los datos
espacio “k” se puede determinar por:
mediante un algoritmo de aprendizaje NO
supervisado (un SOM aprende a clasificar
los datos de entrenamiento sin ningún tipo
(13) de control externo). En el enfoque SOM, un
vector de entrada se presenta a la red (nor-
malmente una red multicapa feedforward)
Dónde “α” es la razón de la variación en el y este vector es comparado iterativamente
subespacio a la variación total en el espacio con cada uno de los vectores de pesos aso-
original. Se forma una matriz “U” con di- ciados a los nodos de la estructura del mapa,
mensión m×k y cuyas columnas constan de de tal forma que los pesos de cada vector
los vectores propios “k”. se recalculen en relación con el vector de
Luego del preprocesamiento y normali- entrada. Esto se repite muchas veces y con
zación del dataset se debe seleccionar el varios conjuntos de pares de vectores hasta
método apropiado para realizar la fase de que la red converja en el resultado deseado.
entrenamiento. En este artículo se aborda el Una red SOM es usualmente creada a partir
método estadístico basado en Redes Neuro- de un entramado de nodos en dos dimensio-
nales, denominado SOM (Self-Organizing nes (2D), donde cada uno de ellos está com-
Map), para la ejecución de esta fase. pletamente conectado a la capa de entrada.
La Fig. 5 ilustra una pequeña red SOM de
4x4 nodos conectados a la capa de entrada
SOM que representa un vector de tres entradas.
Los Mapas Autorganizativos SOM [33], Cada nodo posee una posición topológica
[34] fueron concebidos por Teuvo Koho- específica con coordenadas (x,y) en el en-
nen, investigador del Centro de Investiga- tramado y contiene un vector de pesos de
ción de Tecnologías en Redes Neuronales la misma dimensión que los vectores de
de la Universidad de Helsinki, en Finlandia. entrada. Los datos empleados para el en-
Estos mapas hacen posible la representa- trenamiento usan vectores “V” con una di-
ción de datos multidimensionales en espa- mensión “n”, de la forma: V1, V2, V3,...,Vn.
cios de dimensiones mucho menores, por lo Además, cada nodo del entramado conten-
general de dimensión 1, 2 o 3. La reducción drá el correspondiente vector de pesos W,
de la dimensionalidad de los vectores es de tamaño igual a la dimensión del vector
una técnica de compresión de datos conoci- de la capa de entrada, “n”, con la forma si-
da como cuantificación vectorial. Los SOM guiente: W1, W2, W3...Wn. Las líneas que
crean una red que almacena la información conectan los nodos en la Fig. 5 solo repre-

106
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116

sentan adyacencia, no significa que exista El entrenamiento ocurre en varios pasos y


una conexión como se indica normalmente en muchas iteraciones; éstos se enuncian a
cuando se habla de una red neuronal. continuación:
1. Cada nodo es inicializado con su res-
pectivo vector de pesos, éstos se esta-
blecerán en pequeños valores aleatorios
estandarizados.
2. Un vector es elegido al azar entre el
conjunto de datos de entrenamiento y se
presenta al entramado (vector de entra-
da).
3. Cada nodo se examina para calcular
cuál es el peso que más se “aproxima”
al vector de entrada. El nodo ganador
se conoce comúnmente como la mejor
unidad de coincidencia (BMU - Best
Matching Unit).
4. Se calcula el radio de la vecindad del
BMU, que es un valor inicialmente
grande, asociado al tamaño del entra-
mado, y va disminuyendo con el pasar
del tiempo. Los nodos que se localizan
dentro de este radio se consideran veci-
nos de la BMU.
Fig. 5 Arquitectura SOM 4x4 5. Cada nodo vecino a la BMU ajusta sus
pesos para hacerlos coincidir más con
el vector de entrada. Cuanto más cerca
El algoritmo de aprendizaje esté el nodo de la BMU, más será alte-
El proceso comienza con una distribución rado su peso.
inicial de pesos al azar en cada nodo del en-
6. Se repite el paso 2 para “n” iteraciones.
tramado, y luego de muchas iteraciones, el
SOM eventualmente se asienta en un mapa Para determinar la mejor unidad de coinci-
de zonas estables. Cada zona es un clasi- dencia BMU, se efectúa un proceso de ite-
ficador de características y una representa- ración a través de cada uno de los nodos del
ción gráfica de este es pensar en la salida entramado y se calcula la distancia eucli-
como un mapa de características del espa- diana entre el vector de peso de cada nodo
cio de entrada. y el vector de entrada actual. El nodo con
un vector de pesos más cercano al vector de

107
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM

entrada se etiqueta como BMU. La distan- calcula a partir de la función exponencial


cia euclidiana se calcula en (14). decreciente, definida en (15).
n
 t
Dist.Euclidiana = ∑ (V − W )
i i
2
(14) σ (t ) = σ 0 exp − , t = 1,2,3... (15)
i =0
 λ
Donde “V” es el vector de entrada actual y Donde sigma sub cero (σ0) denota el ancho
“W” es el vector de pesos de cada nodo del del entramado en el tiempo “t0” y lambda
entramado. (λ) denota un tiempo constante “t” que es el
actual paso de tiempo.
Luego de determinar cuál es la BMU, el
paso siguiente es calcular cuál de los otros Luego de varias iteraciones la vecindad
nodos del entramado, que no son la BMU, se ajustará al tamaño de un solo nodo, la
están en el vecindario. Una vez identifica- BMU, que determinará el valor del radio,
dos dichos nodos, se procederá a alterar sus lo cual se requiere para poder identificar si
vectores de peso. Por lo tanto, se calcula el un nodo está o no dentro del vecindario. Si
radio de la vecindad, aplicando Pitágoras un nodo se encuentra dentro de la vecindad,
para determinar si cada nodo está dentro de entonces su vector de pesos se debe ajustar.
la distancia radial o no. En la Fig. 6, supo-
Tanto el nodo BMU como cada uno de los
niendo que la BMU posee la coordenada
nodos ubicados en la vecindad, tienen un
3.3 y la distancia radial es 2, los nodos del
vector de pesos ajustado de acuerdo con (16).
vecindario son los contenidos dentro de la
circunferencia punteada, dichos nodos es-
W (t + 1) = W (t ) + Θ(t ) L(t )(V (t ) − W (t ))
tán sombreados con gris claro.
(16)
Donde “t” es el paso del tiempo y “L” es
una variable pequeña llamada la tasa de
aprendizaje, la cual disminuye en el tiem-
po; (16) indica que el peso en el instante
“t+1” se ajusta para los nodos del vecin-
dario a partir del peso en el instante actual
“W(t)”, más una fracción “L(t)”, de la dife-
rencia entre el peso actual del nodo “W(t)”
y el peso del vector de entrada en el instante
actual “V(t)”.

Fig. 6. Vecindario de una SOM 5x5 La tasa de aprendizaje, al igual que el radio
del vecindario, usan una función exponen-
cial decreciente para determinar su valor en
El área del vecindario se contrae con el la variación del tiempo. Tal como se mues-
tiempo, dado que es directamente propor- tra en (17).
cional al radio del vecindario, el cual se

108
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116

 t la predicción de variación de precios de las


L(t ) = L0 exp − , t = 1,2,3... (17)
 λ acciones de la bolsa de valores [37]; siste-
ma sistólico de alto rendimiento SOM sobre
En (16) Θ(t), representa la cantidad de in- núcleo IP en FPGAs, para el procesamiento
fluencia que la distancia de un nodo a la de miles de elementos en tiempo real, clasi-
BMU tiene en su aprendizaje, en el instante ficando datos relacionados con la genómica
de tiempo actual. Θ(t) se calcula mediante o proteómica [38]; reconocimiento de pa-
(18). trones de falla en sistemas termodinámicos
 dist 2  basados en SOM, aplicados a centrales de
Θ(t ) = exp − , t = 1,2,3... (18) energía térmica [39]; extracción automáti-
 2σ (t ) 
2
ca de caminos mediante el censado de imá-
Donde “dist” es la distancia de un nodo a genes de alta resolución, basado en SOM
la BMU y “σ” es el radio de la vecindad, [40]; aplicación de mapas auto-organizati-
anteriormente enunciado. La función Θ(t) vos (SOM) para determinar la descomposi-
también decrece en el tiempo. ción de productos químicos [41]; sistemas
de detección de intrusiones anormales en
redes informáticas, basados en SOM [42];
Aplicaciones de SOM técnicas para visualización de ADN, basa-
Los Mapas Autorganizativos de Kohonen das en SOM, usando Microarrays para el
facilitan la comprensión de las relaciones análisis de datos [43] y modelamiento del
existentes en grandes colecciones de datos, contorno de imágenes basado en SOM [44].
poseen aplicaciones en una variada gama de Por otra parte, existe una gran variedad de
áreas, como: la clasificación de información SOM que pueden ser consultadas en Redes
bibliográfica, exploración y análisis de imá- SOM constructivas [45], Red de crecimien-
genes, diagnóstico médico, interpretación to en malla incremental [46], Mapas autor-
de la actividad sísmica, reconocimiento de ganizativos de crecimiento [47], redes GAS
la voz, compresión de datos, separación de de crecimiento neural [48], red GAS neural
fuentes de sonido, modelización ambiental [49], red GAS de crecimiento neural basada
y otras más.
en densidad [50], [51], Aprendizaje Heb-
Algunos ejemplos puntuales de aplicación biano Competitivo [52] y Mapas Auto-or-
de los SOM se refieren a: el agrupamien- ganizativos de Crecimiento Jerárquico [53].
to gráfico basado en SOM para la extrac-
ción de ideas principales en documentos
[35]; un sistema de correlación basado en EXPERIENCIA DE SIMULACIÓN
la ingeniería de kansei y en la evaluación de
Los experimentos de simulación se efec-
características reales de automóviles, como
tuaron sobre un tipo de datos. Se analizaron
soporte a la compra de coches, basado en
registros de conexiones de red, procedentes
SOM [36]; sistema híbrido basado en ma-
del dataset NSL-KDD DARPA.
pas auto-organizativos de Kohonen, para

109
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM

Modelo propuesto tura de datos generada en la fase anterior,


calculando falsos positivos, verdaderos po-
El modelo comprende tres fases: entrena-
sitivos, falsos negativos y verdaderos ne-
miento, clasificación y cálculo de métricas
gativos, los cuales permiten determinar las
de desempeño. Para su aplicación se imple-
métricas de sensibilidad y especificidad que
mentaron varios escenarios de simulación
van a indicar la eficiencia del modelo plan-
variando la cantidad de características por
teado. Una descripción gráfica de lo ante-
evaluar en las dos primeras fases; para ello
riormente expuesto se aprecia en la Fig. 7.
se priorizó la escogencia de las caracterís-
ticas mediante su razón discriminante de
Fisher (FDR). En la fase de entrenamiento
se carga el dataset KDDTrain+_20Percent Medidas de desempeño utilizadas
de DARPA, ya balanceado por tipo de co- Para evaluar el modelo propuesto se em-
nexión (normal o ataque), este dataset re- plearon dos medidas de desempeño: la
presenta el flujo de datos de entrada; a conti- sensibilidad (sensitivity) y la especificidad
nuación se aplica el algoritmo de reducción (specificity), utilizadas en pruebas de cla-
de características FDR y se seleccionan las sificación binaria, como es nuestro caso
características por orden de relevancia y, (conexiones normales y ataques). La sen-
por último, se realiza el entrenamiento del sibilidad mide la proporción de “verdade-
SOM, lo cual implica una normalización, ros positivos” que son correctamente iden-
creación de la estructura de datos, iniciali- tificados como tales, entendiendo que un
zación del mapa, entrenamiento del mismo “verdadero positivo” es un ataque que ha
y un etiquetado de los datos. sido correctamente identificado como tal.
La especificidad en cambio, mide la pro-
En la fase de clasificación se carga el dataset
porción de “verdaderos negativos” que se
KDDTest+ de DARPA, el cual representa el
han identificado correctamente, entendien-
flujo de datos que se va a clasificar, diferen-
do por “verdadero negativo” una conexión
te del conjunto de datos de entrenamiento;
de tráfico normal correctamente identifica-
se reducen las características usando la tasa
da como tal. Las fórmulas que definen tales
discriminante de Fisher generada a partir
métricas han sido enunciadas anteriormente
del nuevo dataset, teniendo en cuenta la
en (1) y (2).
misma cantidad de características seleccio-
nadas en la fase de entrenamiento y se pro-
cede por último a clasificar los datos, gene-
rando una estructura de datos que contiene Dataset empleado en la simulación
tanto el etiquetado de la nueva data como Los registros de conexión de red utilizados
el etiquetado predictivo a partir del cálculo en las fases de entrenamiento y clasificación
de las BMU basado en el mapa creado en la de las simulaciones proceden del dataset
fase de entrenamiento. NSL-KDD DARPA. Para el entrenamiento
se utilizó el archivo KDDTrain+_20Percent.
En la fase final se calculan las métricas de
txt del cual se extrajeron 25.192 registros
desempeño; para ello se recorre la estruc-

110
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116

Fig. 7 Modelo de detección de intrusiones propuesto

de conexiones de red, cada uno de los cua- Montaje y resultados experimentales


les contiene 41 características. Con el pro-
Se generaron ocho (8) escenarios de simu-
pósito de que el algoritmo de entrenamien-
lación aplicando el modelo propuesto, para:
to aprendiese a identificar equitativamente
5, 10, 15, 20, 25, 30, 35 y 40 características,
tanto conexiones normales como ataques,
identificadas por el orden de prioridad es-
se realizó un balanceo del dataset antes
tablecido por FDR, teniendo en cuenta que
mencionado, seleccionando aleatoriamen-
durante el entrenamiento se normalizó utili-
te 23.486 registros de conexiones de éste,
zando la operación lineal de varianza, se ini-
distribuidos en un 50% a conexiones nor-
cializó el mapa con un tamaño de 4x4, el ra-
males y otro 50% a conexiones de ataques.
dio inicial del entrenamiento fue de 4, el ra-
Una vez entrenada la red neuronal, para la
dio final del entrenamiento fue de 0,00001,
fase de clasificación se utilizó el archivo
se utilizó una longitud de entrenamiento de
KDDTest+.txt del cual se extrajeron 22.544
2000 y un nivel de seguimiento de 1. Se uti-
registros de conexión de red, cada uno de
lizó el algoritmo de procesamiento por lotes
los cuales contiene 41 características y se
(batch) descrito en la sección “El Algoritmo
realizó el proceso de clasificación con tales
de Aprendizaje”, de este documento, para el
registros.
entrenamiento del mapa auto-organizativo.

111
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM

A partir de todo lo anteriormente indicado CONCLUSIONES


se obtuvieron los resultados que se aprecian
El método de extracción de características
en la Tabla VII.
FDR es más susceptible a la detección de
Tabla VII ataques (Verdaderos Positivos) que a la de-
Simulación de reducción de características usando
tección de tráfico normal (Verdaderos Ne-
FDR y comparando las métricas Sensibilidad y
Especificidad gativos). Pese a esto es considerablemente
útil cuando se aplica en IDS dado que éstos
Cantidad de Métricas
tienen como finalidad primordial la detec-
características Sensibilidad Especificidad
ción de ataques.
5 99,36 53,36
10 97,06 50,48 El modelo propuesto debe ser mejorado con
15 98,47 56,15 miras en una futura implementación a nivel
20 99,69 51,21 comercial en un IDS, ya que la tasa de espe-
25 44,09 15,23 cificidad es muy baja, lo que indica que se
30 39,34 12,88 debe fortalecer la detección de verdaderos
35 34,49 36,06 negativos.
40 81,99 44,10
Los Sistemas de Detección y Prevención
A partir de lo anterior se ha determina- de Intrusos no deben ser vistos como una
do que al utilizar las 20 características de solución totalitaria en la identificación de
mayor prioridad, identificadas con FDR, el ataques o tráfico malicioso, más bien ha-
clasificador presenta la mayor tasa de detec- cen parte de la solución, coexistiendo con
ción de ataques, es decir, una sensibilidad otros mecanismos de prevención y actua-
del 99,69%, y que al utilizar las 15 carac- ción como VPN (Redes Privadas Virtuales),
terísticas de mayor prioridad, identificadas Cortafuegos y Listas de Control de Acceso,
con FDR, el clasificador presenta la mayor entre otros.
tasa de detección de tráfico normal, es de-
cir, una especificidad del 56,15%. Es im-
portante resaltar que en un IDS el objetivo TRABAJOS FUTUROS
primordial es la identificación de ataques o Generar un escenario comparativo de eva-
tráfico malicioso, por ello es preponderante luación de las técnicas de reducción de ca-
lograr altos porcentajes de acierto en la sen- racterísticas FDR, ICA y PCA aplicados a
sibilidad. Se aprecia además que con la es- colecciones de datos de IDS entrenados con
cogencia de 5 características el porcentaje SOM y GHSOM (Mapas Auto-organizati-
de sensibilidad es del 99,36%, que es muy vos de Jerarquía Creciente).
cercano al porcentaje que se lograr usando
20 características. Se debe tener en cuen- Plantear un sistema híbrido que identifique
ta que la carga computacional generada en ataques con base en abusos y anomalías,
tiempo real haciendo uso de 5 característi- capaz de comparar conexiones en tiempo
cas es comparativamente inferior que hacer real con una base de datos de firmas, y de
uso de 20 características. detectar nuevos ataques mediante el uso de

112
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116

algoritmos de aprendizaje no supervisado, support/entry/portal/Overview/Software/


posibilitando la evaluación de tráfico proce- Tivoli/ RealSecure_Network_Sensor
dente de host y de red, de forma distribuida. [6] M. Tavallaee, E. Bagheri, W. Lu, and A.
A. Ghorbani. “A Detailed Analysis of the
KDD CUP 99 Data Set”, IEEE Sympo-
AGRADECIMIENTOS sium on Computational Intelligence for
Este artículo pudo desarrollarse gracias al Security and Defense Applications, 2009.
apoyo del Departamento de Arquitectura y CISDA 2009, pp. 1-6, july 2009.
Tecnología de Computadores y a la Escuela [7] M. Shyu, S. Chen, K. Sarinnapakorn, and
Técnica Superior de Ingenierías Informáti- L. Chang. “A novel anomaly detection
ca y de Telecomunicación de la Universi- scheme based on principal component clas-
dad de Granada, España y a diferentes esta- sifier,” Proceedings of the IEEE Founda-
mentos de la Corporación Universidad de la tions and New Directions of Data Mining
Workshop, in conjunction with the Third
Costa de Barranquilla, Colombia, como son
IEEE International Conference on Data
la dirección del programa de Ingeniería de
Mining (ICDM03), pp. 172-179, 2003.
Sistemas, la Facultad de Ingeniería, el gru-
po de Investigación de Ingeniería del Soft- [8] USC Information Sciences Intitute. “Com-
ware - Redes y el Centro de Investigaciones mon Intrusion Detection Framework”,
de la Facultad de Ingenierías. Disponible en: http://gost.isi.edu/cidf/
[9] CIDF Working Group (Clifford Kahn,
Don Bolinger and Dan Schnackenberg).
REFERENCIAS DRAFT Specification. Communication in
the Common Intrusion Detection Frame-
[1] SourceFire - Snort. Disponible en: http:// work v 0.7. 8 June 1998. Disponible en:
www.snort.org/ http://gost.isi.edu/cidf/drafts/communica-
[2] CheckPoint® Software Technologies Ltd. tion.txt
NFR (Network Flight Recorder). Dis- [10] Rich Feiertag, Cliff Kahn, Phil Porras,
ponible en: http://www.checkpoint.com/ Dan Schnackenberg et al. A Common In-
corporate/nfr/index.html trusion Specification Language (CISL). 11
[3] L. T. Heberlein. Network Security Moni- June 1999. Disponible en: http://gost.isi.
tor, Final Report. Lawrence Livermore edu/cidf/drafts/language.txt
National Laboratory (LLNL) and the Uni- [11] Australian Computer Emergency Re-
versity of California, Davis (UCD). Feb- sponse Team. Disponible en: http://www.
ruary 1995. Disponible en: http://seclab. auscert.org.au/
cs.ucdavis.edu/papers/NSM-final.pdf
[12] Internet Engineering Task Force. Dis-
[4] CISCO System. Cisco Intrusion Detection ponible en: http://datatracker.ietf.org/wg/
(NetRanger). Disponible en: http://www. idwg/
cisco.com/warp/public/cc/pd/sqsw/sqidsz/
index.shtml [13] Common Vulnerabilities and Exposures -
CVE. Disponible en: http://cve.mitre.org/
[5] IBM. RealSecure Network Sensor. Dis- about/index.html
ponible en: http://www-947.ibm.com/

113
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM

[14] Prelude Technologies. Disponible en: http://www.cs.waikato.ac.nz/~ml/weka/


http://www.prelude-technologies.com/ index.html
[15] National Institute of Standards and Tech- [24] D. Graupe, Principles of Artificial Neural
nology - National Computer Security Cen- Networks, World Scientific Publishing Co.
ter. National Computer Security Confer- Pte. Ltd., Singapore. pp. 191-222, 1997.
ence. DIANE Publishing Company. Octo-
[25] S. Balakrishnama and A. Ganapathiraju,
ber 1992. p. 272.
Linear Discriminant Analysis - A Brief Tu-
[16] SRI - International a real-time Intru- torial, Institute for Signal and Information
sion-Detection Expert System (IDES). Processing, Department of Electrical and
Disponible en: http://www.csl.sri.com/ Computer Engineering, Mississippi State
papers/9sri/9sri.pdf University. 1998.
[17] S. Noel, D. Wijesekera, and C. Youman. [26] R. Fisher. “The Use of Multiple Measure-
“Modern Intrusion Detection, Data Min- ments in Taxonomic Problems” In: Annals
ing, and Degrees of Attack Guilt”. In Ap- of Eugenics, 7, p. 179-188. 1936.
plications of Data Mining in Computer
[27] McLachlan. “Discriminant Analysis and
Security, D. Barbarà and S. Jajodia (eds.),
Statistical Pattern Recognition” In: Wiley
Kluwer Academic Publisher, 2002.
Interscience. 2004.
[18] A. Lazarevic, J. Srivastava, and V. A. Ku-
[28] Martinez & Kak. “PCA versus LDA” In:
mar, “Survey of Intrusion Detection tech-
IEEE Transactions on Pattern Analysis
niques”. book Managing Cyber Threats:
and Machine Intelligence, 23(2): 228-233.
Issues, Approaches and Challenges, to be
2004.
published by Kluwer in spring 2004.
[29] V. Venkatachalam and S. Selvan. “Perfor-
[19] Working Group 2 of the Joint Committee
mance comparison of intrusion detection
for Guides in Metrology (JCGM/WG 2).
system classifiers using various feature re-
International vocabulary of metrology -
duction techniques”. International journal
Basic and general concepts and associated
of simulation, 2008 - Citeseer.
terms (VIM). 3rd edition. 2008. Disponible
en: http://www.bipm.org/utils/common/ [30] A. Hyvärinen and E. Oja, “Independent
documents/jcgm/JCGM_200_2008.pdf Component Analysis: Algorithms and Ap-
plications”, Neural Networks, Volume 13,
[20] Lincoln Laboratory of Massachusetts In-
Issue 4-5 pp. 411-430. 2000.
stitute Tecnology - MIT. Disponible en:
http://www.ll.mit.edu/mission/communi- [31] I. T. Jolliffe, Principal Component Analy-
cations/ist/corpora/ideval/data/index.html sis, Springer Verlag, New York, NY, third
edition. 2002.
[21] KDD Cup 1999. Disponible en: http://
kdd.ics.uci.edu/databases/kddcup99/kdd- [32] K. Pearson, “On Lines and Planes of Clos-
cup99.html est Fit to Systems of Points in Space”
(PDF). Philosophical Magazine 2 (6):
[22] The NSL-KDD Data Set. Disponible en:
559-572. 1901.
http://nsl.cs.unb.ca/NSL-KDD/
[33] T. Kohonen. “Self-organizing Maps”.
[23] The University of Waikato. Disponible en:
Springer Series in Information Sciences.
Volume 30, 1997. 2nd edition.

114
Revista INGE CUC,Volumen 8, Número 1, Octubre de 2012, pp. 85-116

[34] Kohonen’s Self Organizing Feature Maps. (SOM) to the Composition Determination
Disponible en: http://www.ai-junkie.com/ of Chemical Products”. Neural Networks
ann/som/som1.html Proceedings, 1998. IEEE World Congress
on Computational Intelligence. The 1998
[35] Do Phuc, and Mai Xuan Hung, “Using
IEEE International Joint Conference on.
SOM based Graph Clustering for Extract-
pp. 301-305 vol. 1. May 1998.
ing Main Ideas from Documents”. Re-
search, Innovation and Vision for the Fu- [42] Li Min and Wang Dongliang, “Anormaly
ture, 2008. RIVF 2008. IEEE International Intrusion Detection Based on SOM”. In-
Conference on. pp. 209-214. July 2008. formation Engineering, 2009. ICIE ‘09.
WASE International Conference on. pp.
[36] I. Nakaoka, J.-I. Kushida and K. Kamei,
40-43. July 2009.
“Proposal of Group Decision Support Sys-
tem Using “SOM” for Purchase of Automo- [43] J.C. Patra, J. Abraham, P.K. Meher, and G.
biles”. Innovative Computing Information Chakraborty, “An Improved SOM-based
and Control, 2008. ICICIC ‘08. 3rd Inter- Visualization Technique for DNA Micro-
national Conference on p. 482. June 2008. array Data Analysis”. Neural Networks
(IJCNN), The 2010 International Joint
[37] M. O. Afolabi and O. Olude, “Predicting
Conference on. pp. 1-7. July 2010.
Stock Prices Using a Hybrid Kohonen Self
Organizing Map (SOM)”. System Scienc- [44] Y. V. Venkatesh, S.K. Raja, and N. Ramya,
es, 2007. HICSS 2007. 40th Annual Ha- “A Novel SOM-based Approach for Ac-
waii International Conference on. p. 48. tive Contour Modeling”. Intelligent Sen-
Jan. 2007. sors, Sensor Networks and Information
Processing Conference, 2004. Proceed-
[38] I. Manolakos and E. Logaras, “High
ings of the 2004. pp. 229-234. Dec. 2004.
throughput systolic SOM IP core for FP-
GAs”. Acoustics, Speech and Signal Pro- [45] E. Cuadros-Vargas, Recuperação de infor-
cessing, 2007. ICASSP 2007. IEEE Inter- mação por similaridad e utilizando técni-
national Conference on. pp. II-61 - II-64. cas inteligentes. PhD thesis, Department
April 2007. of Computer Science - University of Sao
Paulo. 2004.
[39] Kuang Yin and Luo Gang, “Fault Pattern
Recognition of Thermodynamic System [46] J. Blackmore and R. Miikkulainen, “In-
Based on SOM”. Electrical and Control cremental grid growing: Encoding high-
Engineering (ICECE), 2010. International dimensional structure into a two-dimen-
Conference on. pp. 3742-3745. June 2010. sional feature map”. In Proceedings of the
International Conference on Neural Net-
[40] Hao Ying, Wang Li-qiang and Zhao Xi’an.
works ICNN93, 1993, volume I, pp. 450-
“Automatic Roads Extraction From High-
455, Piscataway, NJ. IEEE Service Center.
resolution Remote Sensing Images Based
on SOM”. Natural Computation (ICNC), [47] D. Alahakoon, S. K. Halgamuge and B.
2010 Sixth International Conference on. Srinivasan, “A structure adapting feature
pp. 1194-1198. Aug. 2010. map for optimal cluster representation”. In
International Conference on Neural Infor-
[41] H. Tokutaka, K. Yoshihara, K. Fujimura,
mation Processing ICONIP98, 1998. pp.
K. Iwamoto, T. Watanabe and S. Kishida,
809-812.
“Applications of Self-organizing Maps

115
Modelo de detección de intrusiones en sistemas de red, realizando selección de características
con FDR y entrenamiento y clasificación con SOM

[48] B. Fritzke, “A growing neural gas network on Neural Networks (IJCNN07). IEEE,
learns topologies”. In G. Tesauro, D. S. 2007.
Touretzky and T. K. Leen, editors, Ad-
[51] Y. Prudent and A. Ennaji, A k nearest clas-
vances in Neural Information Processing
sifier design. ELCVIA, 2005. 5(2): 58-71.
Systems 7, 1995, pp. 625-632. MIT Press,
Cambridge MA. [52] R. H. White, “Competitive hebbian learn-
ing: algorithm and demonstrations”. Neu-
[49] T. Martinetz and K. Schulten, “Topology
ral Networks, 1992. 5(2): 261-275.
representing networks”. Neural Networks,
1994. 7(3):507-522. [53] The Growing Hierarchical Self-Organiz-
ing Map. Department of Software Tech-
[50] A. Ocsa, C. Bedregal and E. Cuadros-Var-
nology. Vienna University of Technology.
gas, “DB-GNG: A constructive self-orga-
Septiembre 2011. Disponible en: http://
nizing map based on density”. In Proceed-
www.ifs.tuwien.ac.at/~andi/ghsom/de-
ings of the International Joint Conference
scription.html#insertion

116

También podría gustarte