Está en la página 1de 12

SCIENTIAMERICANA, Revista Multidisciplinaria

Volumen 3 Número 2, 2016

Implementación de técnicas de lógica difusa para el control


Antispam en empresas con servidores de correo

Implementation of diffuse logic techniques for the control antispam in companies with
mail servers

Andrea Riego1

Artículo Recibido: 05/06/2016


Aceptado para Publicación: 15/07/2016

Resumen: El propósito de esta investigación fue presentar la implementación de un


software para demostrar el funcionamiento de la técnica de la lógica difusa aplicada como
control antispam para analizar los mensajes de correo electrónico de manera a disminuir el
falso positivo y así evitar perder información importante para el usuario y encontrar
recomendación alternativa, a fin de realizar actividades en un ambiente confiable en una
organización. Se recolectaron los datos necesarios por medio de encuestas realizadas por
Kaspersky Lab. Con los datos de dichas encuestas se determinó que la rápida evolución de
las técnicas de los spammers, pone en peligro la información transmitida por los medios de
comunicación y transmisión de información como es el servicio de correo electrónico que
va en aumento debido a su facilidad de uso y eficiencia, desafortunadamente, por éstas
características es utilizado para enviar correos masivos no solicitados (SPAM).

Palabras Claves: Correo Electrónico, Spam, Falso Positivo, Lógica difusa, Control, Filtro
Anti-Spam.

Abstract:The purpose of this research was to present the implementation of software to


demonstrate the performance of the technique of fuzzy logic applied as control to analyze
spam emails so as to reduce the false positive and avoid losing important information for
the user and find alternative recommendation, to engage in a trusted environment in an
organization. Necessary data were collected through intoaccount by Kaspersky Lab. Whith
data form these surveys was determined that the rapid development of the techniques of
spammers,endangers the information conveyed by the media and transmitting information
such as your email service is increasing due to its ease of use and efficiency, unfortunately,
for these features is used to send unsolicited bulk email (SPAM).
Keywords: Email, Spam, False Positive, Fuzzy logic, Control, Anti-Spam Filter.

1
Ingeniera informática, docente investigadora, Universidad Americana.
SCIENTIAMERICANA, Revista Multidisciplinaria
Volumen 3 Número 2, 2016

Introducción

Las aplicaciones de la Lógica Difusa se han ido consolidando desde su aparición


en la década de los 60’s hasta nuestros días, con un crecimiento en estos últimos cinco
años. Se encuentran en soluciones a problemas de control industrial, metodologías de
archivo y búsqueda de Bases de Datos, en Investigación Operacional y en otros campos
más.
Entre las principales razones para tal dispersión de aplicaciones posiblemente sean
la sencillez conceptual de los Sistemas basados en Lógica Difusa, su facilidad para
adaptarse a casos particulares, su habilidad para combinar en forma unificada expresiones
lingüísticas con datos numéricos, y el no requerir de algoritmos muy sofisticados para su
implementación.
Esta técnica se ha empleado con bastante éxito en la industria, principalmente en
Japón, y cada vez se está usando en gran multitud de campos. La primera vez que se usó de
forma importante fue en el metro japonés, con excelentes resultados. A continuación se
citan algunos ejemplos de su aplicación: Sistemas de control de acondicionadores de aire,
Sistemas de foco automático en cámaras fotográficas, electrodomésticos familiares
(frigoríficos, lavadoras...), optimización de sistemas de control industriales, sistemas de
reconocimiento de escritura, mejora en la eficiencia del uso de combustible en motores,
Sistemas expertos del conocimiento (simular el comportamiento de un experto humano),
Tecnología informática, bases de datos difusas: Almacenar y consultar información
imprecisa.
El propósito fundamental de esta investigación es presentar la implementación de
las técnicas de la lógica difusa, de manera a encontrar una solución alternativa, para
SCIENTIAMERICANA, Revista Multidisciplinaria
Volumen 3 Número 2, 2016

mejorar el control del spam disminuyendo en algunos casos el falso positivo y así evitar
perder información importante para el usuario.

Problema de la Investigación

El problema se presenta cuando el filtro anti spam de un correo electrónico no


identifica eficientemente el origen de correo electrónico falso del verdadero, de esta manera
se producen los falsos positivos. Los falsos positivos son mensajes marcados como spam
pero en realidad no lo son, de esta forma se puede perder o dejar de leer mensajes
importantes para el usuario; Sin embargo los falsos negativos son mensajes no identificados
como spam aunque en realidad sí lo son. Por ende esto afecta los recursos de los servidores
haciendo lento el procesamiento del correo normal al procesar spam, causa pérdida de
confianza en el servicio de correo electrónico teniendo en cuenta que representa una
amenaza a la viabilidad del internet como un medio efectivo de comunicación y
transmisión de información.
Es necesario realizar la investigación porque los usuarios envían y reciben
informaciones importantes que pueden verse afectadas si están expuestas a este tipo de
amenazas que afecten su confidencialidad, además los mensajes contienen virus u otros
códigos maliciosos que pueden ocasionar daños en la integridad de los datos o la pérdida de
los mismos. Afecta el tiempo empleado por los usuarios en la detección, lectura y
eliminación de los mensajes spam. Se presentan también problemas como servidores
saturados y casillas incontrolables. Es importante resguardar las informaciones permitiendo
desarrollar actividades en un ambiente confiable para los usuarios de correo electrónico.
Objetivos de la Investigación

Objetivo General

Demostrar las técnicas de lógica difusa en la implementación de un software


que permita el control anti spam a una red determinada.
SCIENTIAMERICANA, Revista Multidisciplinaria
Volumen 3 Número 2, 2016

Objetivos Específicos


Investigar y explicar las técnicas existentes de la lógica difusa que intervienen en
los sistemas a implementar.

Comparar las herramientas detectando fortalezas y debilidades.

Especificar y utilizar la herramienta más productiva y conveniente.

Implementar una herramienta basada en la lógica difusa.

Demostrar la eficiencia del antispam.

Marco metodológico

Descripción de la profundidad y el diseño de la Tesis:


Esta investigación se inició como exploratoria, donde se investigó la técnica de la
lógica difusa enfocada al área de la informática con la utilización del Matlab, que es un
programa interactivo para computación numérica y visualización de datos. Además dispone
de programas de apoyo especializados, denominados Toolboxes, que extienden
significativamente el número de funciones incorporadas en el programa principal, cubren
áreas como: matemáticas simbólicas, lógica difusa, redes neuronales, etc. Luego, la
investigación pasó a ser descriptiva dado que se presentaron los datos obtenidos de la
recolección realizada por Kaspersky Lab.
El tipo de diseño correspondió al cuantitativo, porque se obtuvo una encuesta
realizada por Kaspersky Lab. Se analizaron los datos que fueron recolectados.

Estudio realizado

El material que usaron para realizar el análisis fueron fragmentos, diversos por
su calidad y densidad, de los flujos de correo proporcionados por nuestros clientes y socios,
además del spam que llega a "trampas" especiales. Todo el spam se clasifica de forma
automática. Una parte del tráfico entrante se analiza también manualmente. Un rubricador
SCIENTIAMERICANA, Revista Multidisciplinaria
Volumen 3 Número 2, 2016

único en su género permite estudiar la distribución porcentual y temática de los mensajes


spam.

Universo

Kaspersky Lab analizó cerca de un millón y medio de mensajes spam cada día. Los
Temas del spam fueron Educación, Fármacos y otros bienes y servicios para la salud, casas
de juego online y pornografía, estafas informáticas, entre otros.

Población

Comprobación de varios parámetros del mensaje de correo electrónico para detectar


la presencia de signos típicos del spam, comprobando direcciones del remitente y
destinatario del mensaje, sus distintas cabeceras así como también filtrado de contenido del
mensaje (incluyendo la cabecera y asunto) y archivos adjuntos.
Muestra

De los aproximadamente 82,2% del porcentaje de la media de spam en el tráfico de


correo, porcentaje de encuesta realizada por Kaspersky Lab, el volumen de spam se
incrementó en un 1,1% en relación a enero del año en curso, alcanzando un 78,7%, en el
período del año se comprobó un brusco crecimiento con la cantidad de mensajes spam en
archivos adjuntos.

Método utilizado en la investigación

El método utilizado fue el análisis sobre las técnicas utilizadas actualmente por los
filtros anti-spam como palabras, frases claves y análisis de contenidos.

Implementación de la herramienta

Se realizó la implementación de la técnica de la lógica difusa en la herramienta más


conveniente que fue el Matlab por contar con una función incorporada en el programa
principal destacada particularmente en la lógica difusa para demostrar su funcionamiento y
características.
SCIENTIAMERICANA, Revista Multidisciplinaria
Volumen 3 Número 2, 2016

Resultados
Análisis del Control Anti-Spam

Figura 1. Sistemas de Inferencia de Difusa

Las técnicas basadas en contenido emplean características extraídas de la cabecera


o del cuerpo del mensaje para realizar la clasificación de un correo. En este campo, las
técnicas de aprendizaje automático gozan de un interés merecido por su habilidad probada
en la clasificación de textos.
Se realizó un análisis de la cabecera a nivel de listas negras de direcciones
conocidas y el cuerpo (Asunto y Adjunto) del mensaje de correo electrónico basado en una
lista de palabras clave para buscar características de correo spam y una lista de frases clave,
las cuales definen por sí solas a los mensajes como spam de manera a comprobar la
detección y el filtrado del correo spam en un filtro Anti-spam.
SCIENTIAMERICANA, Revista Multidisciplinaria
Volumen 3 Número 2, 2016

Análisis de mensajes basado en palabras clave

Se definen como palabras clave aquellas palabras que representan características


de correos spam. Mediante palabras clave, en algunos casos es posible clasificar a un cierto
mensaje como spam después de analizar su contenido y concluir que contiene una cierta
cantidad de palabras clave. Las palabras clave se buscan tanto en el tema como en el cuerpo
de los mensajes. Para el análisis es indispensable tener actualizada la lista de palabras clave.
La actualización se logra con un historial suficiente de mensajes spam. A cada palabra
clave se lo asocia un valor que significa la penalización de que sea parte de mensajes spam,
dicho valor se da en un rango de 1 a 4, a mayor valor mayor penalización. El proceso de
análisis basado en palabras claves se describe de la siguiente manera, al momento de llegar
un mensaje al servidor, el mensaje es agrupado en tokens. Cada token es buscado en la lista
de palabras clave, por cada token encontrado se toma el valor asociado a dicho token y se
suma al valor acumulado de todos los tokens, así mismo, se evalúa si se ha alcanzado el
umbral mínimo para que un mensaje sea considerado spam. El valor acumulado mayor a un
cierto límite (UmbralSpam) define a los mensajes como spam y un valor menor los define
como no spam. Una ventaja es la adaptabilidad del análisis al criterio del usuario. Otra
ventaja es la rapidez del proceso de análisis, debido a que termina en el momento en que se
alcanza el valor mínimo del umbral que define a un mensaje como spam.
Comportamiento de variables de entrada y Visualizador de Reglas
SCIENTIAMERICANA, Revista Multidisciplinaria
Volumen 3 Número 2, 2016

Figura 2. Visualizador de Reglas

Análisis de mensajes basado en frases clave


Una frase clave es la asociación de n tokens y representa una característica
suficiente para definir a un correo como spam. Para el análisis basado en la heurística de
frases clave se requiere de un proceso de selección de frases antes de ser almacenadas en
una lista de frases, dicha selección se hace de una gran cantidad de mensajes de tipo spam.
Es indispensable tener actualizada la lista de frases clave. La actualización consiste en
observar, identificar y definir correctamente las frases clave. Las frases pueden ser de
tamaño variado. El proceso de análisis basado en la heurística de frases clave se describe de
la siguiente manera, al momento de que un mensaje llega al servidor, se busca en el
mensaje algunas de las frases clave tomadas de la lista de frases. Al encontrar alguna frase
en el mensaje se termina el análisis, concluyendo que el mensaje es Spam y se coloca en el
buzón de mensajes Spam. Si al término del análisis no se encontró ninguna frase clave, se
continúa el análisis con otro módulo del sistema.
Argentina, Brasil y México entre los Top 15 países fuentes de spam a nivel mundial

Según el último boletín de seguridad de Kaspersky Lab, los Estados Unidos sigue
siendo la mayor fuente de spam (15.2%), seguido por Rusia (6.15%) y Vietnam (6.13%),
que pasó a China (6.12%) para ocupar el tercer puesto. De los países Latinoamericanos,
Argentina (2.90%), ocupó el lugar número nueve, seguido por Brasil (2.85%) en el puesto
SCIENTIAMERICANA, Revista Multidisciplinaria
Volumen 3 Número 2, 2016

número diez. México (1.93%) también figuró en la lista ocupando el puesto número 15. En
la lista de los países víctimas de spam, Alemania figuró en el primer puesto con 19.06% de
los ataques de spam– un aumento del 9.84% con respecto a 2014, seguido por Brasil con
7.64% que registró un incremento del 4.09% y subió del sexto lugar en 2014. Rusia subió al
tercer lugar desde la octava posición, con un incremento de 3.06% al 6.03% de todos los
ataques de spam en 2015.

El estudio también reveló que el volumen de correos electrónicos no deseados en el


año 2015 se redujo hasta el 55.28% del total del tráfico de correo electrónico– una caída del
11.48% respecto al año anterior. La caída significativa en los correos electrónicos de spam
se puede atribuir a la creciente popularidad de las plataformas legales de publicidad en
redes sociales, servicio de recorte de cupones y etc.
SCIENTIAMERICANA, Revista Multidisciplinaria
Volumen 3 Número 2, 2016

Conclusión

Debido a su gran utilidad y beneficios, el correo electrónico es uno de los medios


esenciales de comunicación electrónica para cualquier empresa y usuario particular.

Pero se han presentado abusos en este servicio, haciendo referencia a la presencia


del correo Spam en los buzones de los usuarios, estos mensajes provocan pérdida de tiempo
para ser eliminados, así como también la disminución del rendimiento de los recursos
computacionales.
El trabajo de investigación se estableció en la aplicación de una herramienta
basada en la técnica de lógica difusa para analizar los mensajes de manera a detectar y
poder disminuir en algunos casos el falso positivo y así evitar perder información
importante para el usuario.
Con relación al objetivo general “Demostrar las técnicas de lógica difusa en la
implementación de un software que permita el control antispam a una red determinada” se
cumplió el objetivo implementando en el software denominado matlab las variables y
modificadores difusos a tener en cuenta en un control antispam mediante las técnicas de la
lógica difusa.
Con respecto al objetivo específico “Investigar y explicar las técnicas existentes de
la lógica difusa” se cumplió con el objetivo permitiendo con el software la definición de
sistemas complejos de manera flexible no limitando el número de variables lingüísticas,
funciones de pertenencia, reglas difusas, etc. Los sistemas pudieron ser definidos mediante
bases de reglas jerárquicas y las bases de reglas que pueden expresar relaciones complejas
entre las variables lingüísticas usando las conectivas AND y OR y modificadores
lingüísticos como mayor que, más pequeño que, distinto a, etc. Estas nuevas funciones
fueron usadas como funciones de pertenencia, conectivas difusas, modificadores
lingüísticos y métodos de defuzzificación.
Referente al objetivo específico “Comparar las herramientas detectando las
fortalezas y debilidades” se cumplió con el objetivo teniendo en cuenta que se evaluaron
herramientas como Xfuzzy 3.0 que es un entorno de desarrollo para sistemas de inferencia
basados en lógica difusa; se decidió no utilizar esta herramienta porque el objetivo no fue
desarrollar un sistema de inferencia difusa por eso se optó por utilizar el matlab como
SCIENTIAMERICANA, Revista Multidisciplinaria
Volumen 3 Número 2, 2016

herramienta porque este software cubre las diferentes etapas del proceso de diseño del
sistema difuso.

Con relación al objetivo específico “Especificar y utilizar la herramienta más


productiva y conveniente” se cumplió el objetivo definiendo el matlab como herramienta
más conveniente y productiva porque incluyó herramientas gráficas para la definición del
sistema difuso hasta la etapa de verificación que estuvo compuesta por herramientas de
representación gráfica del comportamiento del sistema.
Con respecto al objetivo específico “Implementar una herramienta basada en la
lógica difusa” se cumplió el objetivo teniendo en cuenta que se aplicaron las diferentes
etapas del proceso de diseño de sistemas difusos, desde su representación inicial hasta la
implementación final como fue la representación gráfica del comportamiento del sistema.
Acerca del objetivo específico “Demostrar la eficiencia del antispam”, se cumplió
el objetivo demostrando las técnicas de la lógica difusa basadas en contenido de la cabecera
o del cuerpo del mensaje para realizar la clasificación de un correo mediante la
clasificación de textos para el cuerpo del mensaje de correo electrónico basado en una lista
de palabras clave para buscar características de correo spam y una lista de frases claves, las
cuales definen por sí solas a los mensajes como spam, para la cabecera se tuvo en cuenta el
nivel de listas negras de direcciones conocidas de manera a comprobar la detección y el
filtrado del correo spam.
SCIENTIAMERICANA, Revista Multidisciplinaria
Volumen 3 Número 2, 2016

Referencia

Frawley William J., Piatetsky-Shapiro Gregory, Matheus Cristopher J, (1991)"Knowledge


Discovery in Databases: An Overview" pages 1--27. AAAI/MIT Press,

Martínez de Pisón Ascacibar F. Javier, (2003)"Optimización Mediante Técnicas de Minería


de Datos del Ciclo de recocido de una línea de galvanizado" Tesis Doctoral,
Universidad de la Rioja.

También podría gustarte