Está en la página 1de 15

Artificial Imnume sytem for spam

filtering

M. H. Haggag
I . E . F a tt o h
¿Cuál es el problema?

El problema de filtrado de spam es


un problema de filtrado de
información, donde se busca clasificar
los correos electronicos dependiendo
si son marcados como spam o no.
¿Por qué es importante
resolverlo?
Este es un problema que ha estado planteado
durante bastante tiempo y ofrecer una
solución con un enfoque diferente es de
bastante utilidad, por otra parte el desarrollo de
un sistema de clasificación de spam es algo muy
valioso en la actualidad para los usuarios de
correos electronicos
¿Qué se ha hecho al
respecto?

•Enfoques: 
• Pistas visuales junto el cuerpo del
mensaje.
• Modelos estadisticos adaptativos de
comprension de datos.
• Sistema inmunológico artificial para
la clasificación de correo
electrónico (AISEC).
• Sistema inmunológico artificial para la
clasificación colaborativa de spam.
• Sistema inmunológico artificial basado
en el comportamiento de los servidores
de correo electrónico.
¿Cuál fue la idea
de solución?
Sistema inmunológico artificial para el filtrado de
spam (AISSF).

•Representación de los detectores: son los elementos


necesarios para validar el contenido del mensaje y
están descritos por un vector de atributos. 

•Afinidad ponderada:  enfoque basado en


ponderaciones en lugar de la cantidad de palabras
similares entre los dos correos. Esta afinidad es
comparada contra un umbral para determinar la clase
del correo.

•Biblioteca de genes: esta biblioteca se utiliza para


realizar mutaciones y los elementos de entrenamiento
y las células de memoria se mantienen en la biblioteca
genética
• Umbral dinamico: se utliza una función de umbral que
depende  directamente del número de palabras similares
en los dos correos a comparar. 

• Cobro de anticuerpos: Las palabras de mayor peso de la


biblioteca genética se ingresan en una capa de buffer de
anticuerpos. 

• Ordenamiento de detectores: Los detectores son


ordenados después de cierto número de veces. Este
ordenamiento mejora el rendimiento del proceso de
filtrado. 

• Evaluación de los usuarios: no se eliminan los correos


electrónicos clasificados como spam, sino que se
almacenan en una carpeta temporal. Si el usuario elimina
el correo de esta carpeta, la célula es recompensada 
permitiendole reproducirse. Por otra parte, si el usuario no
borra el correo, las células que reconocieron el antígeno o
correo son eliminadas. 

• Muerte de las celulas: El sistema le da a cada célula un


tiempo de vida cuando se crea y esta se alarga
reconociendo nuevos correos spam, si la celula reconoce
falsamente un correo no spam es eliminada y cuando una
celula de memoria es añadida, la vida útil de las demas
células de memoria que reconocen la nueva célula de
memoria es reducida.
¿Cuál fue la
solución? 
Algoritmo AISSF 
• Entrenar los detectores
usando correos spam y
no spam
• Al terminar el
entrenamiento cada
anticuerpo representa
un ejemplo de un email
spam predefinido
• Los emails
entrantes (Antigenos)
se presentan a los
anticuerpos y
dependiendo si su
afinidad sobrepasa un
umbral se clasifica
como spam o no.
Algoritmo AISSF 
• Si se reconoce como
spam se mueve a una
carpeta de spam 
• Ajustar el conjunto de
entrenamiento según
estimulos del usuario
• El anticuerpo exitoso
con mas afinidad es
guardado en la
memoria , alli es
seleccionado para
hacer seleccion clonal
• La  seleccion clonal
acaba con las celulas
con poca vida util
El algoritmo se divide en dos partes:
• Entrenamiento: realizado con seleccion
negativa , resulta con un conjunto de solo
emails spam
• Pruebas(Monitoreo): clasificar los emails
entrantes y actualizar las librerias del sistema
de acuerdo a los estimulos del usuario
¿Qué resultados
han obtenido?
•En la fase de entrenamiento y
pruebas se usó un dataset el cual
contiene cuatro corpus, el
sistema fue entrenado con el 15% de
los mensajes de spam y el 10% de los
mensajes no spam del cuarto corpus
junto con los siguientes parametros
•Umbral  = (1/número de palabras
comunes).
•Constante clonal =5.
•Constante de mutación = 5.
•Vida útil inicial AB = 100.
•Vida útil inicial MC = 25
AISSF vs. Naïve Bayes., Flexible Bayes, SVM, LogitBoost,
and HOVOLD
• Se evaluó la solución propuesta contra estos modelos utilzando el mismo dataset. En esta parte el 90% de cada corpus se
utilizó para el entrenamiento y el 10% para las pruebas.
• Como metricas se usaron la precisión, recuerdo y exactitud.
• Resultados:
• La solución propuesta muestra los mejores resultados en todas las medidas en el tercer corpus el cual tiene el mayor
número de correos electrónicos, lo que implica que la precisión aumenta a medida que aumenta el número de correos
electrónicos.
• Presenta una mayor precisión en la mayoría de las medidas del experimento.
• Presenta el promedio más alto en todas las medidas, precisión, recuerdo y exactitud.
¿Qué podemos aprender
de los resultados?
• Los sistemas inmunes presentan
buenos resultados en este tipo de
problemas

• La unión de varios AIS permite


conseguir mejores resultados

• Una buena interacción entre estos


algoritmos puede llevar a los
sistemas a ser dinámicos y mejorar
con el tiempo
¿Cuáles son las
contribuciones
principales?
•Se introdujo un enfoque para el filtrado de
spam inspirado en el sistema inmunológico
natural donde la clasificación se basa en el
cuerpo del texto de los correos  en lugar del
encabezado, lo que asegura resultados de
clasificación más precisos.

•Comparando la precisión de la solución con


diferentes algoritmos, se obtienen buenos
resultados incluso con un número pequeño
de elementos de entrenamiento.

•El modelo propone contribuciones a la


representación de los detectores, la
evaluación de la afinidad y la función de
umbral dinamica.
Gracias por su
atención.

También podría gustarte