Está en la página 1de 9

X Foro de Maestra en Ingeniera en Sistemas Computacionales

Diseo de un modelo basado en tcnicas de aprendizaje bayesiano aplicado a la prediccin del spam

Lic. Jos Carlos Prez Garca

M. en I.S.C. Francisco Jacob vila Camacho

14/06/2013 Tecnolgico de Estudios Superiores de Ecatepec

X Foro de Maestra en Ingeniera en Sistemas Computacionales

Objetivo general

Permitir calificar los mensajes de correo que se generen, haciendo uso del mtodo bayesiano, para predecir si los mensajes son correos spam antes de ser enviados al destinatario.

Tecnolgico de Estudios Superiores de Ecatepec

X Foro de Maestra en Ingeniera en Sistemas Computacionales

Objetivos especficos
Detectar el correo SPAM haciendo un anlisis del tema y cuerpo del mensaje, basado en una lista de palabras clave para buscar caractersticas de correo SPAM. Detectar el correo SPAM cuyo emisor ha sido previamente identificado como fuente de correo SPAM. Detectar el correo SPAM haciendo un anlisis estadstico, basado en el Teorema de Bayes, para calcular la probabilidad de frases de tamaos variables pertenezcan a un correo SPAM.

Tecnolgico de Estudios Superiores de Ecatepec

X Foro de Maestra en Ingeniera en Sistemas Computacionales

Problemtica
Para solucionar el problema del correo electrnico no deseado se pueden utilizar una gran variedad de algoritmos de aprendizaje que son usados en numerosos mbitos y las mtricas de rendimiento son apropiadas para cada dominio. La creciente demanda de usuarios de correo electrnico y el envo masivo de estos por parte de las empresas surge la necesidad de realizar esta investigacin, ya que es posible aplicar la Inteligenciar Artificial, especficamente las tcnicas de aprendizaje automtico para mitigar este problema.

Tecnolgico de Estudios Superiores de Ecatepec

X Foro de Maestra en Ingeniera en Sistemas Computacionales

Problemtica
Cabe indicar, que la clasificacin de correos electrnicos no siempre tendr una precisin del 100% y por esta razn los clasificadores de correo electrnico que existen en la actualidad en la mayor parte de los clientes de correo electrnico como gmail, yahoo, etc., estn siempre sujetos a errores y a clasificar correos legtimos como no deseados o viceversa.

Tecnolgico de Estudios Superiores de Ecatepec

X Foro de Maestra en Ingeniera en Sistemas Computacionales

Metodologa
Las redes bayesianas formalmente son grficos acclicos dirigidos, cuyos nodos representan variables y los arcos que los unen representan dependencias entre las variables. La estructura de una red Bayesiana provee informacin sobre las relaciones de dependencia e independencia condicional existentes entre las variables. Estas relaciones simplifican la representacin de la funcin de probabilidad conjunta como el producto de las funciones de probabilidad condicional de cada variable (Heckerman & Chickering, 1993).

Tecnolgico de Estudios Superiores de Ecatepec

X Foro de Maestra en Ingeniera en Sistemas Computacionales

Metodologa
El clasificador de Naive Bayes es un clasificador probabilstico basado en el teorema de Bayes. Desde la perspectiva del aprendizaje automtico, el problema del correo electrnico no deseado puede ser tratado como un problema de clasificacin binaria, es decir cuando el correo electrnico es clasificado como legtimo, es considerado como una instancia negativa (-) y cuando el correo electrnico es clasificado como spam o no deseado, es considerado como una instancia positiva (+) (Song, Kocz, & Giles, 2009). A continuacin se presenta el teorema de Bayes en la ecuacin =

(1)

Tecnolgico de Estudios Superiores de Ecatepec

X Foro de Maestra en Ingeniera en Sistemas Computacionales

Conclusiones
Desgraciadamente, el fenmeno del spam en Internet y, especficamente, el del envo de correo no solicitado seguir existiendo en tanto en cuanto siga siendo un negocio lucrativo para unos pocos y seguir extendindose a servicios y protocolos que no incluyan las medidas suficientes para garantizar su mala utilizacin. El mtodo de Regresin Logstica Bayesiana es muy adecuado para la tarea de Spam, ya que se obtienen resultados de un 90% en la deteccin de Spam y en unos tiempos de entrenamiento de 102 seg. en el peor de los casos. (Jess et al., 2005). Una cuestin importante a la hora de elegir el algoritmo ms interesante para tratar el filtrado de Spam es determinar la estrategia ms adecuada: filtrar el mayor nmero posible de correos vlidos.
Tecnolgico de Estudios Superiores de Ecatepec

X Foro de Maestra en Ingeniera en Sistemas Computacionales

Referencias
Antonio, P., & Ruiz, A. (n.d.). Algoritmos de Clasificacin: Comparacin del Algoritmo Naive Bayes con Otras Metodologas Para la Clasificacin de Correo Electrnico No Deseado. Fdez-riverola, F., & Juan, M. (2007). Sistemas inteligentes para la deteccin y filtrado de correo spam: una revisin Heckerman, D., & Chickering, D. M. (1993). Learning Bayesian Networks: The Combination of Knowledge and Statistical Data Metrics for Belief Networks. Hsu, C., Chang, C., & Lin, C. (2010). A Practical Guide to Support Vector Classification. Bioinformatics Hugo, V., & Marn, Q. (2005). El SPAM y otros abusos del correo electrnico. Jess, A., Martos, O., & Lpez, L. A. U. (2005). Deteccin automtica de Spam utilizando Regresin Logstica Bayesiana Song, Y., Kocz, A., & Giles, C. L. (2009). Better Naive Bayes classification for high-precision spam detection. Juergen, H. (2011). Problema del Spam. Obtenido de Problema del Spam: http://www.cauce.org.ar/ProblemaDelSpam Universidad Politctica de Valencia. Obtenido de Identificacin del SPAM: http://www.upv.es/sta/Manuales/spam/ Valladolid, U. d. (s.f.). Universidad de Valladolid. Obtenido de Qu son los falsos positivos y los falsos negativos?: http://www.uva.es/opencms/contenidos/serviciosAdministrativos/infraestructuras/serviciosTecnologiasInfor macion/3CatalogoDeServicios/serviciosDeRed/correoElectronico/spamfaq/falsosposyneg

Tecnolgico de Estudios Superiores de Ecatepec