Está en la página 1de 5

Articulo Deteccin automtica de Spam utilizando Regresin Logstica Bayesiana (Antonio Jess Ortiz Martos, 2005)

Problemtica Actualmente existe un serio problema que afecta tanto al destinatario de los correos electrnicos como a las comunicaciones a travs de Internet: el envo masivo de correo no deseado o Spam.

Metodologa Regresin Logstica Bayesiana (BBR) como tcnica de aprendizaje automtico, sobre la coleccin de correos electrnicos SPAMBASE. A modo de comparativa se han aplicado otros dos algoritmos de aprendizaje: el algoritmo SVM (Support Vector Machine), y el algoritmo PLAUM (Perceptron Algorithm with Uneven Margins).

Text Mining Aplicado A La Clasificacin Y Distribucin Automtica De Correo Electrnico Y Deteccin De Correo Spam (Altamirano Valarezo, 2007)

En la actualidad el correo electrnico es un medio de comunicacin cada vez ms popular. al ser extremadamente econmico y fcil de usar, es tambin un medio para el comercio electrnico. Desafortunadamente esto ha causado que vendedores de todo tipo bombardeen los buzones de correo con mensajes no solicitados y no desados.

Sistemas inteligentes para la deteccin y filtrado de correo spam: una revisin (Jos R. Mndez, 2007)

Presentar una revisin general de los modelos de deteccin y filtrado de correo spam existentes en la actualidad. En concreto, se realiza una subdivisin de las tcnicas existentes en dos grandes tipos:

Los correos Spam sern detectados mediante la deteccin de un filtro anti-Spam basado en el algoritmo de Naive Bayes, el filtro obtendr los datos de una base de datos que contiene palabras Spam y palabras no Spam, las cuales han sido obtn idas de mensajes Spam y mensajes legtimos respectivamente. Posteriormente se realiza el anlisis del contenido de correo haciendo uso de la minera de texto para luego determinar si dicho contenido es o no un Spam. Formato estndar de intercambio de correo electrnico (RFC 822). Esta norma internacional permite especificar con considerable detalle las cabeceras, el cuerpo y los archivos adjuntos de cada

Solucin El algoritmo BBR consigue unos resultados ms que aceptables, en torno a un 90% de acierto en la deteccin de Spam. La mayor Precisin y el mayor Recall son alcanzados por el algoritmo BBR. BBR es el algoritmo de entrenamiento ms rpido (en el peor de los casos, 102 seg.), mientras el ms lento, con diferencia, es el SVM (en el peor de los casos, 2 horas y 45 minutos). Se optimiz la capacidad de clasificar el contenido de los correos recibidos como Spam o no, permitiendo as que el espacio de disco no sea ocupado por correos basura utilizando el algoritmo de Naive Bayes, mediante el filtro bayesiano.

Revisin de las tcnicas de IA empleadas en la actualidad para la deteccin y filtrado de mensajes no legtimos.

modelos basados en la colaboracin de usuarios y modelos basados en el anlisis de contenido. Se presentan las caractersticas especficas del problema y se analizan los corpus pblicos disponibles, as como las tcnicas habituales empleadas en su pre procesamiento.

correo, lo que posibilita el acceso a toda la informacin original contenida en los mensajes. SpamAssassin versin 02 y versin 03: SpamAssasin implementa un software de filtrado spam desarrollado por el grupo Apache que consulta varias redes de intercambio de firmas de mensajes spam.Spambase: el repositorio de aprendizaje automtico UCI, aglutina un conjunto de bases de datos con informacin sobre la cual se pueden aplicar tcnicas de aprendizaje automtico. Sistema IBR (Instante-Based Reasoning, Sistema de Razonamiento Basado en Instancias) que incorpora una estructura de indexacin de mensajes, una estrategia de votacin, un mecanismo para el clculo de la calidad de las soluciones generadas y una tcnica para la identificacin y eliminacin del conocimiento irrelevante, con el objetivo de obtener un alto nivel de precisin y permitir una adaptacin rpida ante cambios que se produzcan en el entorno. Filtro bayesiano implementado sobre el lenguaje de alto nivel Apache Pig, que opera sobre Apache En el sistema propuesto, cada correo electrnico se representa mediante un descriptor. ste est formado por una serie de valores numricos y textuales que se obtienen de forma automtica a partir del contenido del mensaje objetivo y de los mensajes recibidos por el sistema. Para cada descriptor, el sistema debe llevar a cabo un ciclo completo de razonamiento.

Sistema Adaptativo con Etiquetado Inteligente para la Clasificacin de Correo Spam (Sistema de Informacin Cientfica Redaly, 2006)

Presentar un sistema hbrido de Inteligencia Artificial capaz de detectar y filtrar mensajes spam. Debido a la naturaleza voltil del concepto spam resulta importante contar con herramientas capaces de adquirir dinmicamente conocimiento sobre el dominio, descartando aquel que, con el paso del tiempo, se vuelve obsoleto.

Utilizacin de la plataforma Hadoop para la implementacin de un programa que permita determinar mensajes spam

En el transcurso de los aos de la ltima dcada las cuentas de correo electrnico han sido afectadas por Spam de correo

Las pruebas se realizaron en dos ambientes: stand alone y multinodo. En cada ambiente se procesaron la misma cantidad

(Gustavo Crespo P., 2013)

no solicitado, annimo y masivo, los cuales han sido combatidos con diferentes filtros de spam. Dichos spam usan direcciones de correo falsas o que pertenecen a otros.

Hadoop para el almacenamiento y computacin paralela, as como Apache Tika, como parser principal para los datos de entrada, que siguen un formato RFC822.

Mtodos para la seleccin y el ajuste de caractersticas en el problema de la deteccin de spam (Lorenzetti, 2010)

La identificacin de spam puede verse como un problema de clasificacin. Por lo tanto proponemos un algoritmo que utiliza un clasificador como uno de sus componentes. Nuestra propuesta no incluye el desarrollo de un clasificador en s mismo, sino que plantea un ajuste en los datos de entrada del conjunto de entrenamiento del clasificador con el objetivo de mejorar su rendimiento.

La utilizacin de un algoritmo de clustering que dividir a los documentos en sub tpicos ms pequeos esperando con esto una mejora en el rendimiento global del algoritmo.

de correos. Para la implementacin se dise el script tesis.pig. En stand alone se realiz una prueba con los 52790 spam y 32990. Por los datos obtenidos en las pruebas, donde lo que cambia son la cantidad de mquinas esclavo, se puede verificar que el porcentaje de eficacia del filtro para detectar correos spam es del 88.99%, esto de acuerdo a el anlisis de aplicar el filtro nicamente a los mensajes spam, para correlacionar las pruebas totales contra los datos reales contenidos en los corpus, mientras que el porcentaje de falsos negativos asciende a 11.01% lo que representa que toda esta cantidad de mensajes electrnicos no fueron filtrados Mejorar la representacin de los documentos mediante el uso de vocabularios ms representativos, as como el ajuste de los datos realizado a travs de la deteccin de buenos descriptores y discriminadores ha mostrado ser efectivo en otras reas de recuperacin de informacin.

Bibliografa
Altamirano Valarezo, Z. V. (5 de Enero de 2007). dspace. Obtenido de Text Mining Aplicado A La Clasificacin Y Distribucin Automatica De Correo Electronico Y Deteccin De Correo Spam: http://www.dspace.espol.edu.ec/handle/123456789/3225 Antonio Jess Ortiz Martos, M. T. (2005). dialnet. Obtenido de Deteccin automtica de spam utilizando regresin logstica bayesiana: http://dialnet.unirioja.es/servlet/articulo?codigo=2326676 Gustavo Crespo P., S. V. (23 de Febrero de 2013). dspace. Obtenido de Utilizacin de la plataforma Hadoop para la implementacin de un programa : http://www.dspace.espol.edu.ec/handle/123456789/24140 Jos R. Mndez, F. F. (2007). dialnet. Obtenido de Sistemas inteligentes para la deteccin y filtrado de correo spam: una revisin: http://dialnet.unirioja.es/servlet/articulo?codigo=2386320 Lorenzetti, C. M. (Mayo de 2010). Servicio de Difusin de la Creacin Intelectual . Obtenido de Mtodos para la seleccin y el ajuste de caractersticas en el problema de la deteccn de spam: http://sedici.unlp.edu.ar/handle/10915/19434 Martnez, R. C. (01 de 2009). scielo. Obtenido de Herramienta software para el anlisis de canasta de mercado sin seleccin de candidatos: http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-56092009000100008&lang=pt redaly. (s.f.). Obtenido de UN MODELO PARA LA REVISIN DE LA CALIDAD DE LA INFORMACIN : http://redalyc.uaemex.mx/redalyc/src/inicio/ArtPdfRed.jsp?iCve=94403402

redaly. (s.f.). Obtenido de SISTEMAS DE INFORMACIN GEOGRFICA APLICADOS A LA GESTIN DEL TERRITORIO: http://redalyc.uaemex.mx/redalyc/src/inicio/ArtPdfRed.jsp?iCve=30003607 redalyc. (s.f.). Obtenido de UN MODELO ESPACIAL DE RENTA PER CAPITA REGIONAL: EVIDENCIAS : http://redalyc.uaemex.mx/redalyc/src/inicio/ArtPdfRed.jsp?iCve=28900405 Sistema de Informacin Cientfica Redaly. (2006). Obtenido de Sistema Adaptativo con Etiquetado Inteligente para la Clasificacin de Correo Spam: http://www.redalyc.org/articulo.oa?id=92503211