Está en la página 1de 3

Generacin de un clasificador automtico Como antes menciono las tcnicas bayesianas fueron las que se escogieron para el desarrollo

de este proyecto, las cuales son usadas en la generacin de clasificador automtico. Un clasificador automtico, se genera mediante la aplicacin de un conjunto de ejemplos de clasificacin, constituido por documentos ya clasificados. Generalmente existe una fase de entrenamiento durante la cual el clasificador ajusta sus parmetros de operacin sobre la base de los errores cometidos hasta lograr un nivel de efectividad aceptable. Los documentos presentados en esta fase se consideran correctamente clasificados. La finalidad del clasificador de correo electrnico es que utilice el conjunto de mensajes que estn clasificados (bandeja de entrada y correo SPAM) para as instruirse del ejemplo para efectuar las tareas respectivas. El propsito del sistema es que parta sin conocimiento y que a futuro aprenda a descartar mediante la intervencin del usuario. Ya que la clasificacin es un proceso que sufre alteraciones no solo de forma, ni de fondo sino tambin por los cambios de intereses que tienen los usuarios; es necesarios que sea ajustado despus de algn tiempo de uso. Clasificador probabilstico naive bayes

Los clasificadores bayesianos son clasificadores estadsticos, que puede predecir tanto las probabilidades del nmero de miembros de la clase, como la probabilidad de que una muestra dada pertenezca a una clase particular. Los clasificadores probabilsticos estn basados en la idea de que existe una distribucin de probabilidad para definir la pertenencia de un documento con respecto a un conjunto de clases. El clasificador supone que la aparicin de una palabra en un documento es independiente de la aparicin de las dems palabras. Esto es lo que se conoce como la aproximacin bag of words, utilizada en tcnicas de recuperacin de la informacin para simplificar el tratamiento matemtico del problema. La clasificacin bayesiana se basa en el teorema de bayes y los clasificadores bayesianos han demostrado un alta exactitud y velocidad cuando se han aplicado a grandes bases de datos. Filtros bayesianos Los filtros bayesianos se basan en estadsticas de palabras que aparecen en los correos no deseados, lo que hace el filtro es leer todos los correos que nos llegan y una vez analizado su contenido, determinar segn las palabras que contengan en la base de datos si son correos SPAM o no, si son correos SPAM, son enviados a su respectiva carpeta del mismo nombre de lo contrario son enviados a la bandeja de entrada. Para que un filtro bayesiano funcione, lo que tenemos que hacer es ensearle, marcando poco a poco todo el corro basura que recibimos. Para que comience a ser efectivo el filtro debemos de proporcionarles mensajes SPAM y no SPAM (mensajes buenos), de este modo sabrn diferenciar su contenido.

Filtrado bayesiano Utilizamos este mtodo para la realizacin del SPAM, en nuestra base de datos tenemos dos tablas llamadas palabrasSPAM y palabrasnoSPAM en las cuales en una de ellas se almacena la palabras ms comunes catalogadas como SPAM como son: VIAGRA, HIPOTECA, PESO, etc. Y la otra las palabras que no son catalogadas como SPAM, despus se las compara con el contenido del mensaje entrante, es decir a medida que se va realizando las comparaciones entre el contenido del correo electrnico con el contenido de las tablas de la base de datos antes mencionadas, se van obteniendo las probabilidades para luego determinar si dicho correo es SPAM o no, pero a lo largo de este trabajo el lector podr encontrar con ms detalle cmo funciona el filtro bayesiano desarrollado en este proyecto.

Qu es el SPAM? En pocas palabras el SPAM quiere decir envi indiscriminado de mensajes de correo electrnico no solicitadas, estos generalmente se trata de publicidad de ofertas de productos, bienes y servicios, de pginas web, etc. Actualmente, se calcula entre el 60 y el 80% de los correos que se envan son SPAM. El SPAM es perjudicial para todos, hasta para las empresas que lo envan. Pero el SPAM puede servir como medio de propagacin de un peligro mayor, como son los llamados virus informticos.

Caractersticas

Los usuarios deben conocer las caractersticas comunes que tienen los correos basura denominados tambin como correos SPAM tales como asuntos llamativos y contenido publicitario entre otras. Las principales caractersticas son las que se presentan a continuacin: La direccin que aparece como remitente del mensaje no resulta conocida para el usuario. El mensaje no suele tener direccin para reenviar. Presentan un asunto llamativo. El contenido es publicitario. Aunque el mtodo de distribucin ms habitual de este tipo de malware (software malicioso), es el correo electrnico, existen diversas variantes, las cuales son: SPAM, SPIM, SPIT y los SPAM SMS.

Los enviados a travs del correo electrnico son los SOAM; los que se usan en aplicaciones de tipo mensajera instantnea son llamados SPIM; tambin tenemos los de publicidad a travs de telefona sobre internet llamados SPIT y por ltimo el SPAM destinado a enviarse a dispositivos mviles mediante SMS (Short Message Service) se les denomina SPAM SMS.

Tipos de Spam La llegada de internet a nuestras vidas han trado una serie de beneficios pero este enorme crecimiento de la red tambin ha acarreado una serie de problemas para quienes se comunican a travs de este medio y para quienes brindan servicios de acceso a internet. Hoy en da SPAM es una palabra familiar, ya que el 70-80% de todo trfico de correo SPAM. En la mayor parte de los casos el SPAM es publicidad y la experiencia nos muestra que los spammers escogen bienes y servicios para promoverlos. El SPAM se ha convertido en una va para promocionar productos o servicios ilegales o rechazables, como cadenas de dinero, acceso pornografa, difusin de pornografa infantil y otros. Tambin se basan en el engao a los clientes y en falsas promociones para conseguir direcciones de usuarios.