Está en la página 1de 17

Tecnolgico de Estudios Superiores de Ecatepec

15 de marzo de 2013

Diseo de un modelo basado en tcnicas de aprendizaje bayesiano aplicado a la prevencin del spam
Lic. Jos Carlos Prez Garca

Director: M. Francisco Jacob vila Camacho

CAPITULO I CONSTRUCCION DEL OBJETO DE ESTUDIO............................................................... 2 1.1 1.2 1.3 1.4 1.5 1.6 Problemtica ....................................................................................................................... 2 Justificacin ......................................................................................................................... 3 Objetivo general .................................................................................................................. 3 Objetivos especficos ........................................................................................................... 3 Objetivos particulares ......................................................................................................... 4 Organigrama ........................................................................................................................ 4

CAPITULO II ESTADO DEL ARTE .................................................................................................... 5 2.1 2.2 2.3 2.4 2.5 2.6 Algoritmos para la deteccin de correo spam .................................................................... 5 BBR (Bayesian Binary Regression) ....................................................................................... 5 SVM ..................................................................................................................................... 6 PLAUM (Perceptron Algorithm with Uneven Margins) ...................................................... 6 Clustering............................................................................................................................. 7 K-Means .............................................................................................................................. 8

CAPITULO III MARCO TEORICO .................................................................................................... 8 3.1 3.2 3.3 3.4 3.5 Correo electrnico ............................................................................................................... 8 Cmo funciona el correo electrnico? .............................................................................. 8 Qu es el SPAM? .................................................................................................................. 9 Caractersticas del SPAM ................................................................................................... 10 Tipos de SPAM ................................................................................................................... 11 Spam por correo electrnico ..................................................................................... 11 Spam por mensajera instantnea............................................................................. 11 Spam en grupos de noticias ...................................................................................... 12 Spam en foros............................................................................................................ 12 Spam por telefona mvil .......................................................................................... 12 Spam por telefona IP ................................................................................................ 13 Spam en mensajera de juegos en lnea .................................................................... 13

3.5.1 3.5.2 3.5.3 3.5.4 3.5.5 3.5.6 3.5.7 3.6 4

Cmo identificar un spam?.............................................................................................. 13

CAPITULO IV METODOLOGIA .................................................................................................... 14 4.1 4.2 4.3 Aprendizaje Bayesiano ...................................................................................................... 14 Caractersticas de los mtodos bayesianos ....................................................................... 14 Teorema de Bayes ............................................................................................................. 15

Bibliografa................................................................................................................................. 16

CAPITULO I CONSTRUCCION DEL OBJETO DE ESTUDIO

1.1 Problemtica
Durante la ltima dcada hemos asistido al uso generalizado del correo electrnico como herramienta de comunicacin en nuestra sociedad. Su utilizacin dentro de las organizaciones no escapa a esa tendencia y buena parte del flujo de informacin interno de una compaa se realiza de esta forma. El correo basura cuesta dinero, tanto por el tiempo que se pierde examinndolo, como por los recursos de hardware y software necesarios para manejarlo (ancho de banda, servidores de correo ms potentes, software de filtrado.), y los costes que deben ser soportados por las organizaciones en forma de inversiones y horas de trabajo de sus empleados, para evitar que sus buzones se saturen a causa de la recepcin de correo no til para la labor empresarial. Es claro que esto no slo presenta perjuicios a nivel empresarial; tambin para aquellos que hacen uso de una computadora personal en sus hogares es poco agradable encontrarse con su bandeja de entrada llena de correos basura. Adems, el costo derivado del problema del spam es cargado a los titulares de las cuentas de correo, quienes tienen que afrontar dos costos principales. Primero son cargados con altas tarifas por los proveedores de servicios de Internet los cuales deben invertir recursos para mejorar el equipamiento dedicado al manejo de alto volumen de correo electrnico, lidiar con las quejas de los usuarios y crear retos legales a los remitentes de correo basura. Y segundo, pueden incurrir adems en costos derivados del tiempo invertido en leer y/o borrar dichos correos. As, dichos costos producidos por el spam son asumidos por los receptores de los mismos y no por sus originadores.

1.2 Justificacin
Pocos son los resultados positivos que se han logrado al enfocarse en la solucin del problema, por eso es posible pensar en que la cultura y el conocimiento, son las armas ms eficaces para atraer resultados ptimos en la lucha contra el spam y sus mltiples implicaciones negativas, pues es as, como se puede exigir a los usuarios de los medios tecnolgicos un manejo responsable de estos. El combate contra el spam, y en general contra todas las prcticas negativas que involucra el uso de la red y las comunicaciones electrnicas, representa para la mayora de los pases y regiones afectadas un tema de fundamental atencin. Sin embargo, para aquellos con menor desarrollo resulta no slo una intensa lucha contra quienes desarrollan dichas prcticas negativas, sino adems contra la falta de conocimiento y su lento desarrollo tecnolgico, social, econmico y cultural. El spam es una prctica de innegable naturaleza negativa, cuya incidencia, cada vez mayor, y grado de impacto es motivo de preocupacin mundial. No obstante, en cada caso el impacto generado por el spam adquiere rasgos particulares de acuerdo a cada pas, pero esto no quiere decir que no se pueda trabajar conjuntamente en tratar de erradicar esta problemtica. De aqu parte nuestro inters por desarrollar nuestro proyecto de grado alrededor de este tema, porque es absolutamente necesario conocer el problema a fondo y estudiarlo intensamente para saber cmo atacarlo, como defendernos y pensar en posibles soluciones a proponer en beneficio de todos.

1.3 Objetivo general


Diseo de un modelo para la prevencin de spam basado en el mtodo aprendizaje Bayesiano.

1.4 Objetivos especficos


Contar con un mecanismo que permita borrar o liberar los mensajes de correo que han sido calificados como mensajes SPAM.

Tambin nos permite mantener la lista blanca y la lista negra para nuestro buzn de correo, para permitir o bloquear respectivamente las direcciones de remitentes de confianza o de remitente de los cuales no deseamos recibir mensajes en nuestro buzn de correo.

1.5 Objetivos particulares


EL tema de Tesis va a estar estructurado de la siguiente forma: Captulo 1: Es una introduccin donde se presenta el tema principal que se va a tratar a lo largo del proyecto, adems de los objetivos y la estructuracin del mismo. Captulo 2: Estudio de los diferentes mtodos para la deteccin de correos no deseados (spam). Captulo 3: Consiste en una presentacin acerca del spam, sus orgenes y su evolucin hasta la actualidad. Captulo 4: Explicacin del mtodo Aprendizaje Bayesiano para la deteccin del spam, realizando una clasificacin en funcin del tipo de tcnica empleada. Captulo 5: En este ltimo captulo se presentan las conclusiones obtenidas ms relevantes en este campo.

1.6 Organigrama
Actividad Marco conceptual Diseo Desarrollo y sistema Periodo Febrero 2013 a Agosto 2013 Septiembre 2013 a Febrero 2014 Marzo 2014 a Agosto 2014

Conclusiones y pruebas

Septiembre 2014 a Febrero 2015

CAPITULO II ESTADO DEL ARTE

2.1 Algoritmos para la deteccin de correo spam


En esta seccin se realiza una revisin del conjunto de aproximaciones empleadas para la deteccin de correo spam. Las tcnicas analizadas estn basadas en distintas heursticas o en la observacin concreta de atributos extrados de los correos electrnicos. A continuacin se revisan los modelos basados en contenido, que aplican distintas tcnicas supervisadas de aprendizaje automtico para la deteccin de correo no legtimo. Finalmente, se identifican modelos creados a partir de la combinacin de distintas estrategias.

2.2 BBR (Bayesian Binary Regression)


Se trata de una implementacin de la regresin logstica bayesiana, aplicada a la clasificacin binaria. La clave de este algoritmo es la utilizacin de una distribucin de probabilidad previa (ver ecuacin 1) y algoritmos de optimizacin sucesiva de los ejemplos de entrenamiento suministrados.

Este algoritmo inicialmente realiza una regresin logstica de los datos de entrenamiento a partir de la distribucin de probabilidad elegida (Gausiana o Laplace), por medio de una funcin de enlace (ver ecuacin 2).

Una vez obtenido el modelo de regresin, se va optimizando sucesivamente a travs de la aplicacin de un algoritmo de regresin logstica en cadena. Se trata de un algoritmo de optimizacin de coordenada cclica descendente. Se comienza poniendo todas las variables a algn valor inicial, y se busca qu valor de la primera variable minimiza la funcin objetivo, asumiendo que todas las otras variables mantienen constantes sus valores iniciales. Este es un problema de optimizacin unidimensional. El mismo mtodo se lleva a cabo con la segunda variable, y as sucesivamente hasta que se han cruzado todas las variables. Este proceso se repite varias pasadas hasta encontrar un criterio de convergencia.

2.3 SVM
El algoritmo SVM (Support Vector Machine) fue utilizado por primera vez en la Clasificacin de Texto en 1998 por T. Joachims. En trminos geomtricos, se puede ver como el intento de encontrar un espacio n-dimensional, que permita separar los ejemplos positivos de entrenamiento de los negativos, permitiendo especificar el margen ms amplio posible. El objetivo perseguido por este algoritmo es encontrar el hiperplano ptimo que maximice la distancia entre los casos positivos y los casos negativos. Como argumenta Joachims, las mquinas de vectores de soporte ofrecen dos grandes ventajas para la categorizacin de texto: Evita los problemas de sobrecarga de pruebas en espacios de grandes dimensiones. Realiza una optimizacin global, sin ptimos locales.

2.4 PLAUM (Perceptron Algorithm with Uneven Margins)

Se trata de algoritmo rpido y eficaz para realizar clasificaciones lineales. El algoritmo PLAUM es una extensin del algoritmo del Perceptron, adaptada para tratar problemas de separacin lineal de datos a travs de un hiperplano. Tal como SVM se basa en la idea de encontrar un margen entre hiperplanos, y sus autores aseguran que funciona mejor que SVM para tareas de clasificacin de texto. Este algoritmo requiere: Un conjunto de entrenamiento linealmente separable de la forma:

Un ndice de aprendizaje Un nmero mximo de iteraciones T.

Dos parmetros que limitan los ejemplos negativos y positivos:

2.5 Clustering
Clustering es el proceso de agrupar datos en clases o clusters de tal forma que los objetos de un cluster tengan una similaridad alta entre ellos, y baja (sean muy diferentes) con objetos de otros clusters. Caractersticas: 1. Escalabilidad: normalmente corren con pocos datos. 2. Clusters de formas arbitrarias: lo basados en distancias numricas tienden a encontrar cluster esfricos. 3. Capacidad de manejar diferentes tipos de atributos: numricos (lo ms comn), binarios, nominales, ordinales, etc. 4. Capacidad de aadir restricciones. 5. Manejo de ruido: muchos son sensibles a datos errneos. 6. Poder funcionar eficientemente con alta dimensionalidad. 7. Requerimientos mnimos para especificar parmetros, como el nmero de clusters. 8. Independientes del orden de los datos. 9. Que los clusters sean interpretables y utilizables

2.6 K-Means
El algoritmo K-means, creado por MacQueen en 1967 es el algoritmo de clustering mas conocido y utilizado ya que es de muy simple aplicacin y eficaz. Sigue un procedimiento simple de clasificacin de un conjunto de objetos en un determinado nmero K de clusteres, K determinado a priori. El nombre de K-means viene porque representa cada uno de los clusters por la media (o media ponderada) de sus puntos, es decir, por su centroide. La representacin mediante centroides tiene la ventaja de que tiene un significado grfico y estadstico inmediato. Cada cluster por tanto es caracterizado por su centro o centroide que se encuentra en el centro o el medio de los elementos que componen el cluster. Kmeans es traducido como K-medias.

CAPITULO III MARCO TEORICO

3.1 Correo electrnico


Correo electrnico, o en ingls e-mail, es un servicio de red para permitir a los usuarios enviar y recibir mensajes mediante sistemas de comunicacin electrnicos. Principalmente se usa este nombre para denominar al sistema que provee este servicio en Internet, mediante el protocolo SMTP, aunque por extensin tambin puede verse aplicado a sistemas anlogos que usen otras tecnologas. Por medio de mensajes de correo electrnico se puede enviar, no solamente texto, sino todo tipo de documentos La mayora de los sistemas de correo electrnico de hoy en da utilizan Internet, siendo el correo electrnico uno de los usos ms populares de Internet. (pergaminovirtual, s.f.)

3.2 Cmo funciona el correo electrnico?


Miguel, con direccin de correo electrnico miguel@hotmail.com quiere enviar una pregunta a faq@masadelante.com. Tiene dos opciones:

Conectarse a su servidor de correo va webmail , escribir el mensaje y pulsar enviar. Utilizando un cliente de email, escribir el mensaje y, al pulsar enviar, enviarlo a su servidor de correo va protocolo SMTP. El mensaje se almacena en el servidor de correo de Miguel. Cuando el mensaje se almacena, el servidor solicita al servidor de correo de masadelante el nombre de los servidores a los que tiene que enviar el mensaje de Miguel (mx.masadelante.com?). El servidor de correo de masadelante responde al de Miguel con un record mx, que incluye una lista de los nombres de los servidores a los que pueden enviarse los mensajes dirigidos a masadelante.com (mx.masadelante.com). El servidor de correo de Miguel entonces enva el mensaje a uno de los servidores> de ms adelante va protocolo SMTP. El mensaje llega al servidor de masadelante y se almacena. Desde masadelante podemos leer el mensaje enviado por Miguel de tres formas distintas: Conectndonos a nuestro servidor va webmail leemos el mensaje en el servidor. Utilizando un cliente de email: Mediante el protocolo POP3, descargamos el mensaje a nuestro ordenador y lo leemos. Mediante el protocolo IMAP, descargamos el mensaje a nuestro ordenador o lo leemos en el servidor (masadelante, s.f.).

3.3 Qu es el SPAM?
Se define SPAM a los mensajes no solicitados, habitualmente de tipo publicitario, enviados en forma masiva. La va ms utilizada es la basada en el correo electrnico pero puede presentarse por programas de mensajera instantnea o por telfono celular. El Spam es el correo electrnico no solicitado, normalmente con contenido publicitario, que se enva de forma masiva.

El trmino spam tiene su origen en el jamn especiado (SPiced hAM), primer producto de carne enlatada que no necesitaba frigorfico para su conservacin. Debido a esto, su uso se generaliz, pasando a formar parte del rancho habitual de los ejrcitos de Estados Unidos y Rusia durante la Segunda Guerra Mundial. Posteriormente, en 1969, el grupo de actores Monthy Python protagoniz una popular escena, en la cual los clientes de una cafetera intentaban elegir de un men en el que todos los platos contenan...jamn especiado, mientras un coro de vikingos canta a voz en grito "spam, spam, spam, rico spam, maravilloso spam" (segu-info, 2009).

3.4 Caractersticas del SPAM


Algunas de las caractersticas ms comunes que presentan este tipo de mensajes de correo electrnico son: La direccin que aparece como remitente del mensaje no resulta conocida para el usuario, y es habitual que est falseada. El mensaje no suele tener direccin Reply. Presentan un asunto llamativo. El contenido es publicitario: anuncios de sitios web, frmulas para ganar dinero fcilmente, productos milagro, ofertas inmobiliarias, o simplemente listados de productos en venta en promocin. La mayor parte del spam est escrito en ingls y se origina en Estados Unidos o Asia, pero empieza a ser comn el spam en espaol.

Aunque el mtodo de distribucin ms habitual es el correo electrnico, existen diversas variantes, cada cual con su propio nombre asociado en funcin de su canal de distribucin: Spam: enviado a travs del correo electrnico. Spim: especfico para aplicaciones de tipo Mensajera Instantnea (MSN Messenger, Yahoo Messenger, etc). Spit: spam sobre telefona IP. La telefona IP consiste en la utilizacin de Internet como medio de transmisin para realizar llamadas telefnicas.

Spam SMS: spam destinado a enviarse a dispositivos mviles mediante SMS (Short Message Service).

3.5 Tipos de SPAM 3.5.1 Spam por correo electrnico


El correo electrnico es, con diferencia, el medio ms comn de spamming en internet. Involucra enviar mensajes idnticos o casi idnticos a un gran nmero de direcciones. A diferencia de los correos electrnicos comerciales legtimos, el spam generalmente es enviado sin el permiso explcito de los receptores, y frecuentemente contiene varios trucos para sortear los filtros de spam. Las computadoras modernas generalmente vienen con cierta capacidad para enviar spam. El nico ingrediente necesario es la lista de direcciones objetivo.

3.5.2 Spam por mensajera instantnea


El spam por mensajera instantnea, tambin conocido como spim, utiliza los sistemas de mensajera instantnea, tales como ICQ o MSN Messenger. Muchos sistemas de mensajera ofrecen un directorio de usuarios, incluyendo informacin demogrfica tal como edad y sexo. Los publicistas pueden reunir esta informacin, conectarse al sistema, y enviar mensajes no solicitados. Para enviar mensajes instantneos a millones de usuarios de la mayora de los servicios de mensajera instantnea slo se requiere software de scripting y los nombres de usuario de los receptores. Los spammers tambin apuntan hacia los canales IRC, utilizando bots IRC que se conectan a los canales y los bombardean con mensajes publicitarios. Debido a que la mayora de los protocolos de mensajera instantnea son propietarios, resulta ms simple realizar cambios unilaterales para dificultar la tarea del spammer. Un tipo similar de spam puede ser enviado utilizando el Servicio de Mensajera de Windows. El Servicio de Mensajera es una utilidad SMB que permite a los servidores enviar alertas pop-up a las estaciones de trabajo de Windows. Cuando un sistema Windows se conecta a Internet con este servicio iniciado y sin un firewall adecuado, el mismo puede ser utilizado para enviar spam. El Servicio de Mensajera puede, sin embargo, ser fcilmente desactivado.

3.5.3 Spam en grupos de noticias


El spam en grupos de noticias precede al spam por correo electrnico, y apunta a grupos de noticias Usenet. La antigua convencin de Usenet define al spamming como publicacin excesiva de mltiples mensajes, es decir, la publicacin repetida de un mensaje (o mensajes sustancialmente similares). Debido a que publicar mensajes en grupos de noticias es casi tan simple como enviar e-mails, los grupos de noticias son un objetivo popular para los spammers. El ndice Breidbart fue desarrollado para brindar una medida objetiva del "nivel de spam" de un mensaje multi-publicado en Usenet.

3.5.4 Spam en foros


1. Spam en un foro de internet es cuando un usuario publica algo que no tiene nada que ver con el tema de conversacin. 2. Tambin, en algunos casos, un mensaje que no contribuye de ninguna forma al tema es considerado spam. Un caso particular es el de resucitar tpicos muy antiguos o de das festivos si no se tiene nada realmente importante que acotar al tema en cuestin. 3. Una tercera forma de Spamming en foros es cuando una persona publica repetidamente mensajes acerca de un tema en particular en una forma indeseable (y probablemente molesta) para la mayor parte del foro. 4. Tambin existe el caso en que una persona publique mensajes nicamente con el fin de incrementar su rango, nivel o nmero de mensajes en el foro. 5. Tambin, publicitar en foros donde no corresponde es conocido como spamming y es generalmente visto como algo molesto. Un caso particular es el de resucitar topicos muy antiguos o de das festivos si no se tiene nada realmente importante que acotar al tema en cuestin. 6. Otra manera de publicar Spam en un foro, es anotndose en la lista de usuarios incluyendo como dato personal un website que se desea promocionar (generalmente de pornografa, productos de farmacia, servicios para celulares o crditos).

3.5.5 Spam por telefona mvil


El spam por telefona mvil se da a travs del servicio de Servicio de mensajes cortos (SMS) de un telfono mvil. Esto puede resultar especialmente

irritante para los consumidores no slo por la molestia sino tambin porque muchas veces deben pagar para recibir el mensaje de texto.

3.5.6 Spam por telefona IP


Se ha predicho que las comunicaciones de Voz sobre IP (VoIP) sern vulnerables a ser spammeadas por mensajes pregrabados. A pesar de que se han reportado muy pocos incidentes, muchas compaas ya han comenzado a intentar vender defensas contra ello. [2] (en ingls)

3.5.7 Spam en mensajera de juegos en lnea


Muchos juegos en lnea permiten a los jugadores contactarse entre ellos via mensajera peer-to-peer o salas de chat. Estos servicios de mensajera tambin estn siendo utilizados por jugadores inescrupulosos para promover ciertos sitios web y tiendas en lnea, sin preocuparse por violar directamente el acuerdo de usuario final del juego, el cual prohbe utilizar las comunicaciones dentro del juego para tales propsitos. (publispain, s.f.)

3.6 Cmo identificar un spam?


Los mensajes spam pueden tener los siguientes contenidos: 1. Rumores o bulos (Hoax): Como el nombre lo indica, son historias falsas. Historias de un nio que va a hacer trasplantado o que toda la Amazona ser destruida. Esos mensajes son creados para que el usuario crea que son verdad y reenve el e-mail, pero en realidad no son ms que rumores. Si recibes mensajes de este tipo, ya sabes que hacer... 2. Cadenas (chain letters): Son mensajes que terminan diciendo "Enve este mensaje a 10 personas en los prximos 10 minutos y tendrs buena suerte, en caso contrario tendrs mala suerte de por vida". Cuando recibas un email de este tipo basta con eliminarlo. 3. Propagandas: Ofrecen un producto a un precio mucho ms bajo que el real y se te solicita acceder a un link que se encuentra en el e-mail. Este tipo de

mensajes pueden llevarte a una web con contenido inmoral, a programas maliciosos o a links con ms propagandas. Nunca accedas a ese tipo de links y acude al botn eliminar. 4. Estafas (scam): Son propagandas falsas. Son los tpicos e-mails que ofrecen la maravilla de trabajar en tu casa, oportunidades milagrosas de empleo o estudio, incluyendo un fcil acceso a prstamos financieros. Nada de esto es real. 5. Timos (phising): La forma ms sutil. Los spammers (los creadores del spam), crean un e-mails que te informa que tus documentos son invlidos o que tu registro en alguna tienda virtual (que tal vez nunca hayas accedido) se encuentra desactualizado, entonces cuando haces clic en el link del email automticamente eres llevado a una pgina para actualizar esos datos. En ese momento, es cuando tus datos con robados en una pgina clonada. El phising es muy usado para robar datos y usarlos. O sea, es una de las tcticas ms sutiles pero tambin ms peligrosas de Internet.

CAPITULO IV METODOLOGIA

4.1 Aprendizaje Bayesiano


Aprendizaje Bayesiano es importante por: ser prctico provee un enfoque de comprensin (y diseo) de otros algoritmos Algunas caractersticas: Cada nuevo ejemplo puede aumentar o disminuir la estimacin de una hiptesis (flexibilidad - incrementalidad) Conocimiento a priori se puede combinar con datos para determinar la probabilidad de las hiptesis Da resultados con probabilidades asociadas Puede clasificar combinando las predicciones de varias hiptesis Sirve de estandar de comparacin de otros algoritmos

4.2 Caractersticas de los mtodos bayesianos

Cada caso de entrenamiento cambia la probabilidad estimada de que una hiptesis sea correcta. El conocimiento previo puede ser utilizado para determinar la probabilidad de una hiptesis. Pueden dar predicciones probabilsticas. Pueden clasificar nuevas instancias combinando probabilsticamente distintas hiptesis. Se precisa conocer varias probabilidades. Los algoritmos tienen un costo alto.

4.3 Teorema de Bayes


Podemos caracterizar la mejor hiptesis como la hiptesis ms probable dados los datos. Esto es, buscamos obtener las hiptesis de H que maximizan P(h|D). Las hiptesis que cumplen esto son llamadas Maximum A El teorema de Bayes nos permite obtener la probabilidad a posteriori de una hiptesis:

Aplicndolo a nuestro problema:

Si las hiptesis son equiprobables: Por ejemplo:

Si el test da positivo: qu deberamos diagnosticar?

El diagnstico ms probable es que el paciente est sano. Esto lo puedo afirmar con una seguridad del 79% [0.0298/ (0.0298+0.0078)]

Bibliografa

masadelante. (s.f.). Obtenido de Cmo funciona el correo electrnico: http://www.masadelante.com/faqs/como-funciona-el-correo-electronico pergaminovirtual. (s.f.). Obtenido de Correo electrnico : http://www.pergaminovirtual.com.ar/definicion/Correo_electronico.html publispain. (s.f.). Obtenido de Tipos de Spam: http://www.publispain.com/antivirus/tipos_de_spam.html segu-info. (2009). Obtenido de SPAM: http://www.segu-info.com.ar/malware/spam.htm