Está en la página 1de 7

Anlisis de los mtodos bayesianos aplicados a la deteccin del spam

Prez Garca J. C. 1, vila Camacho F. J. 2


1,2

ISC-TESE, Av. Tecnolgico s/n, Col. Valle de Anhuac, CP 55210


1

karloz.garcia24@gmail.com 2 jacob@avilacamacho.com

Resumen El uso del correo electrnico como medio de comunicacin y transmisin de informacin va en aumento debido a su eficiencia y facilidad de uso. Desafortunadamente, por estas mismas caractersticas es utilizado para enviar correos masivos no solicitados (SPAM). Los ndices de correo SPAM van en aumento, y por ello son necesarias tcnicas y mtodos para abatir este problema. En este trabajo se hace un anlisis de los mtodos predictivos y en particular del mtodo Naive Bayes con el fin de determinar la factibilidad de ser utilizado para la deteccin de spam en mensajes que sern enviados al destinatario.

Palabras clave: spam, bayesiano, correo electrnico.

1 Introduccin
En el entorno de la red Internet se cuenta con una variedad de servicios, entre los que destaca el servicio de correo electrnico, el cual permite comunicarnos con rapidez y de forma sencilla con otros usuarios. Entre otras ventajas se tiene el ahorro de recursos, debido a que sustituye el uso del correo ordinario. Por todas sus aportaciones en la comunicacin y el envo de informacin, es sin duda de gran trascendencia en los medios de comunicacin electrnica (Hugo & Marn, 2005). La presencia del correo SPAM causa disminucin en el rendimiento de la red Internet y de los sistemas de cmputo. Entre los efectos dainos

tenemos, la saturacin de mensajes en los servidores Web y en las cuentas de correo, el incremento en el trfico en Internet, y la disminucin de la productividad por el tiempo dedicado a atender otros mensajes, entre otros efectos. La forma de este fenmeno es que sin ser solicitados llegan correos SPAM al buzn de un usuario. Esto es muy perjudicial para los usuarios, ya que sus buzones de entrada comienzan a llenarse de informacin que ellos no han solicitado y pierden mucho tiempo en tratar de identificar si los correos que les llegan son legtimos o correo spam. Los trminos asociados habitualmente en Internet a estos tipos de abuso son spamming, mail bombing, unsolicited bulk email(UBE), unsolicited

commercial email(UCE) o junk mail (Jess, Martos, & Lpez, 2005). Por esta razn dentro del campo de la Inteligencia Artificial, se han tomado medidas para poder analizar dicho contenido de los mensajes aplicando tcnicas de aprendizaje automtico y de esta manera clasificarlos como correo legtimo o correo no deseado. Algunas de las alternativas para combatir al fenmeno del SPAM son el uso de la heurstica lista negra, dicho mtodo consiste en bloquear los mensajes de remitentes que estn incluidos en la lista negra, otra alternativa ms eficientes es el mtodo probabilstico, el cual es un mtodo predictivo basado en datos estadsticos tomados de mensajes SPAM para predecir si un cierto mensaje es SPAM (Fdez-riverola & Juan, 2007). Para solucionar el problema del correo electrnico no deseado se pueden utilizar una gran variedad de algoritmos de clasificacin. Los algoritmos de aprendizaje son usados en numerosos mbitos y las mtricas de rendimiento son apropiadas para cada dominio (Caruana & Niculescu-Mizil, 2006). En esta investigacin se utilizar el algoritmo de clasificacin Naive Bayes que est enmarcado dentro de los mtodos bayesianos. Para solventar este problema se plantean diversas alternativas, unas preventivas, otras disuasorias, y, como medida final, alternativas denunciantes. Las alternativas preventivas van orientadas a evitar, en la medida de lo posible, la recepcin de Spam (Jess et al., 2005).

Las redes bayesianas formalmente son grficos a cclicos dirigidos, cuyos nodos representan variables y los arcos que los unen representan dependencias entre las variables. La estructura de una red Bayesiana provee informacin sobre las relaciones de dependencia e independencia condicional existentes entre las variables. Estas relaciones simplifican la representacin de la funcin de probabilidad conjunta como el producto de las funciones de probabilidad condicional de cada variable (Heckerman & Chickering, 1993). Nave Bayes es el algoritmo ms conocido propuesto para la clasificacin de textos mediante modelos de aprendizaje automtico. En el mbito del filtrado de correos spam, los filtros con base terica sustentada en el teorema de Bayes han sido las primeras propuestas encabezadas por el trabajo de Graham (Graham., 2002). El clasificador de Naive Bayes es un clasificador probabilstico basado en el teorema de Bayes. Desde la perspectiva del aprendizaje automtico, el problema del correo electrnico no deseado puede ser tratado como un problema de clasificacin binaria, es decir cuando el correo electrnico es clasificado como legtimo, es considerado como una instancia negativa (-) y cuando el correo electrnico es clasificado como spam o no deseado, es considerado como una instancia positiva (+) (Song, Kocz, & Giles, 2009). A continuacin se presenta el teorema de Bayes en la ecuacin. ( | ) ( ) ( | ) (1) ( ) Donde: ( ) Es la probabilidad a priori de la hiptesis h.

2 Mtodo Naive Bayes

( )Es la probabilidad de observar el conjunto de entrenamiento D, cuando es usado para clasifica r. ( | ) Es la probabilidad de observar el conjunto de entrenamiento D en un universo donde se verifica la hiptesis h: ( | ) Es la probabilidad a posteriori de h, cuando se ha observado el conjunto de entrenamiento D. Se puede apreciar en la formulacin del teorema que: La probabilidad a posteriori de h, que en el caso del problema del correo electrnico seria la probabilidad de clasificar un nuevo correo como legtimo o spam, observando el conjunto de entrenamiento D, es directamente proporcional a la probabilidad de que se d h ( ( )). La probabilidad a posteriori de h es tambin directamente proporcional a la probabilidad de que se d el conjunto de entrenamiento D, siendo correcta ( ( | )). El aprendizaje bayesiano puede verse como el proceso de encontrar la hiptesis ms probable, dada un conjunto de ejemplos de entrenamiento D y un conocimiento a priori sobre la probabilidad de cada hiptesis (Antonio & Ruiz, n.d.). En la ecuacin 2 se Muestra el clculo de la hiptesis con mayor probabilidad a posteriori. ( | ) ( ) (2) ( ) En donde D son los datos de entrenamiento y h cada una de las hiptesis, en este caso correos electrnicos que se tiene que clasificar. El subndice MAP es el Mximo Posteriori. Es decir, se clasifica la instancia como aquella que tiene mxima probabilidad a posteriori. Lamentablemente el clculo de esta

ecuacin no se la puede tomar para un nmero suficientemente grande de ejemplos, por lo que es necesario simplificar la ecuacin como se muestra en la ecuacin 3. ( | ) ( | ) (3) Donde , son cada una de las clases que se quiere clasificar y son los valores de los datos con lo que se clasificar.

3 El spam en el correo electrnico


Actualmente se denomina spam, o correo basura a todo tipo de comunicacin no solicitada o no deseada, que se realiza por va electrnica. Es decir, se entiende por spam cualquier mensaje no solicitado o no deseado y que normalmente tiene el fin de oferta, comercializar o tratar de despertar el inters respecto de un producto, servicio o empresa. Esta prctica se puede hacer por distintas vas siendo la ms utilizada entre el pblico en general la herramienta del correo electrnico. El correo basura (en ingls tambin conocido como Junk-mail o spam) es una forma de inudar la internet con muchas copias (incluso millones) del mismo mensaje, en un intento por llegar a ms personas que de otra forma nunca accedera a recibirlo y menos de leerlo. La mayor parte del corro basura est constituido por anuncios comerciales, normalmente de productos dudosos, mtodos para hacerse rico o servicios en la frontera de la legalidad. No deja de

amargar la existencia a los usuarios de internet cuando encuentran sus buzones llenos de corros del estilo como: Gane millones trabajando desde casa, Dieta milagrosa-pierde 10 kilos en una semana Chicas xxx sensuales te estn esperando, por mencionar algunos ejemplos. Las listas de correo basura con las direcciones de correo electrnico de los clientes potenciales (o victimas seguras) se crean frecuentemente de los mensajes de Usenet (saleas de discusin), robando direcciones en las listas de distribucin o comprndolas en las bases de datos de los servicios en lnea de internet o bien buscando direcciones por la red. Algunas de las caractersticas ms comunes que presentan este tipo de mensajes de correo electrnico son: La direccin que aparece como remitente del mensaje no resulta conocida para el usuario, y es habitual que est falseada. El mensaje no suele tener direccin Reply. Presentan un asunto llamativo. El contenido es publicitario: anuncios de sitios web, frmulas para ganar dinero fcilmente, productos milagro, ofertas inmobiliarias, o simplemente listados de productos en venta en promocin. La mayor parte del spam est escrito en ingls y se origina en Estados Unidos o Asia, pero empieza a ser comn el spam en espaol.

En esta investigacin se utilizar el mtodo bayesiano. Los mtodos bayesianos son de gran importancia porque no solamente ofrecen un anlisis cualitativo de los atributos y valores que pueden intervenir en el problema, sino porque dan gran importancia al anlisis cuantitativo de esos atributos. Entre las caractersticas que poseen los mtodos bayesianos en tareas de aprendizaje son: Cada ejemplo observado va a modificar la probabilidad de que la hiptesis formulada sea correcta ya sea aumentndola o disminuyndola. Es decir, una hiptesis que no concuerda con un conjunto de ejemplos ms o menos grande no es desechada por completo sino que lo que harn ser disminuir esa probabilidad estimada para la hiptesis. Estos mtodos son robustos al posible ruido presente en los ejemplos de entrenamiento y a la posibilidad de tener entre esos ejemplos de entrenamiento datos incompletos o posiblemente errneos. Los mtodos bayesianos permiten tener en cuenta en la prediccin de la hiptesis el conocimiento a priori o el conocimiento del dominio en forma de probabilidades. El problema puede surgir al tener que estimar ese conocimiento estadstico sin disponer de datos suficientes.

4 Nayve Bayes aplicado a la deteccin del spam

5 Problemtica
Para los destinatarios el spam es de fcil reconocimiento, por lo general al leer su correo desechan aquellos no deseados. Para solucionar el problema del correo electrnico no deseado se pueden utilizar una gran variedad de algoritmos de aprendizaje que son usados en numerosos mbitos y las mtricas de rendimiento son apropiadas para cada dominio. En esta investigacin se utilizar el mtodo bayesiano. Tambin se debe evitar errores en la clasificacin. Es decir, que no obtenga correos falsos positivos, este tipo de correos son clasificados como SPAM sin serlo. Por otro lado, que tampoco obtenga correos falsos negativos, es decir cuando un correo es clasificado como vlido, sin serlo (Valladolid, s.f.).

los incautos e inocentes, y abusan de los recursos del Internet estuvo, est y estar, condenado al ms rotundo de los fracasos (Juergen, 2011).

6.2 Algoritmos de aprendizaje automtico


El Aprendizaje Automtico es una rama de la Inteligencia Artificial cuyo objetivo es desarrollar tcnicas que permitan a las computadoras aprender. Se trata de crear programas capaces de generalizar comportamientos a partir de una algoritmos informacin no estructurada suministrada en forma de ejemplos (Hsu, Chang, & Lin, 2010). Los sistemas comerciales disponibles actualmente utilizan algoritmos de aprendizaje bayesianos simples. Los sistemas experimentales suelen utilizar otros ms complejos basados tanto en aprendizaje bayesiano como en otros sistemas automticos de clasificacin. Trabajos recientes en el filtrado de spam, hacen uso del algoritmo de aprendizaje SVM con unos resultados satisfactorios.

6 Fundamentos tericos
6.1 Spam
Se conoce como SPAM, correo basura o correo indeseado al uso del correo como un mecanismo de distribucin masiva de mensajes, generalmente con contenido comercial, propagandstico o incluso malicioso (Universidad Politctica de Valencia, s.f.). El spam se fundamenta en: robo de servicios, fraude y engao, mediante la transferencia del costo de quien lo enva (el spammer) a quien lo recibe (la vctima). Aunque la mayor parte de los productos y servicios que se ofrecen no fuesen de dudosa legalidad, un negocio que toma algo de sus potenciales clientes sin su autorizacin previa, que se aprovecha de

7 Conclusiones
Desgraciadamente, el fenmeno del spam en Internet y, especficamente, el del envo de correo no solicitado seguir existiendo en tanto en cuanto siga siendo un negocio lucrativo para unos pocos y seguir extendindose a servicios y protocolos que no incluyan las medidas suficientes para garantizar su mala utilizacin.

El mtodo de Regresin Logstica Bayesiana es muy adecuado para la tarea de Spam, ya que se podran obtener resultados de un 90% en la deteccin de Spam y en unos tiempos de entrenamiento de 102 seg. en el peor de los casos. (Jess et al., 2005). Una cuestin importante a la hora de elegir el algoritmo ms interesante para tratar el filtrado de Spam es determinar la estrategia ms adecuada: filtrar el mayor nmero posible de correos vlidos.

Hsu, C., Chang, C., & Lin, C. (2010). A Practical Guide to Support Vector Classification. Bioinformatics, 1(1), 116. doi:10.1177/02632760022050997 Hugo, V., & Marn, Q. (2005). El SPAM y otros abusos del correo electrnico., 143170. Jess, A., Martos, O., & Lpez, L. A. U. (2005). Deteccin automtica de Spam utilizando Regresin Logstica Bayesiana, 35, 127133. Song, Y., Kocz, A., & Giles, C. L. (2009). Better Naive Bayes classification for high-precision spam detection, (April), 10031024. doi:10.1002/spe

8 Referencia
Antonio, P., & Ruiz, A. (n.d.). Algoritmos de Clasificacin: Comparacin del Algoritmo Naive Bayes con Otras Metodologas Para la Clasificacin de Correo Electrnico No Deseado, 18. Caruana, R., & Niculescu-Mizil, A. (2006). An empirical comparison of supervised learning algorithms. Proceedings of the 23rd international conference on Machine learning ICML 06, 161168. doi:10.1145/1143844.1143865 Fdez-riverola, F., & Juan, M. (2007). Sistemas inteligentes para la deteccin y filtrado de correo spam: una revisin, 34(34), 6381. Heckerman, D., & Chickering, D. M. (1993). Learning Bayesian Networks: The Combination of Knowledge and Statistical Data Metrics for Belief Networks:

Graham., P. (2002). paulgraham. Obtenido de A plan for spam: http://www.paulgraham.com/spam.html. Juergen, H. (2011). Problema del Spam. Obtenido de Problema del Spam: http://www.cauce.org.ar/ProblemaDelSp am Universidad Politctica de Valencia. (s.f.). Obtenido de Identificacin del SPAM: http://www.upv.es/sta/Manuales/spam/ Valladolid, U. d. (s.f.). Universidad de Valladolid. Obtenido de Qu son los falsos positivos y los falsos negativos?: http://www.uva.es/opencms/contenidos /serviciosAdministrativos/infraestructura s/serviciosTecnologiasInformacion/3Catal ogoDeServicios/serviciosDeRed/correoEl ectronico/spamfaq/falsosposyneg