Está en la página 1de 3

Clasicadores bayesianos.

El algoritmo Nave Bayes


Constantino Malagn Luque 14 de mayo de 2003

Resumen
Este trabajo es una introduccin al aprendizaje automtico basado en el algoritmo Nave Bayes.

1 Introduccin
Las redes bayesianas, junto con los rboles de decisin y las redes neuronales articiales, han sido los tres mtodos ms usados en aprendizaje automtico durante estos ltimos aos en tareas como la clasicacin de documentos o ltros de mensajes de correo electrnico. Es un mtodo importante no slo porque ofrece un anlisis cualitativo de las atributos y valores que pueden intervenir en el problema, sino porque da cuenta tambin de la importancia cuantitativa de esos atributos. En el aspecto cualitativo podemos representar cmo se relacionan esos atributos ya sea en una forma causal, o sealando simplemente de la correlacin que existe entre esas variables (o atributos). Cuantitativamente (y sta es la gran aportacin de los mtodos bayesianos), da una medida probabilstica de la importancia de esas variables en el problema (y por lo tanto una probabilidad explcita de las hiptesis que se formulan). Esta es quiz una de las diferencias fundamentales que ofecen las redes bayesianas con respecto a otros mtodos -como puedan ser los rboles de decisin y las redes neuronales-, que no dan una medida cuantitativa de esa clasicacin. Adems de estas consideraciones, el aprendizaje basado en redes bayesianas es especialmente adecuado en ciertas tareas como puede ser la clasicacin de textos, siendo incluso ms eciente que los otros mtodos ya reseados, y ofrece una medida para el estudio y comprensin de stos otros mtodos [1]. Entre las caractersticas que poseen los mtodos bayesianos en tareas de aprendizaje se pueden resaltar las siguientes:

Cada ejemplo observado va a modicar la probabilidad de que la hiptesis formulada sea correcta (aumentndola o disminuyndola). Es decir, una hiptesis que no concuerda con un conjunto de ejemplos ms o menos grande no es desechada por completo sino que lo que harn ser disminuir esa probabilidad estimada para la hiptesis.

Estos mtodos son robustos al posible ruido presentes en los ejemplos de entrenamiento y a la posibilidad de tener entre esos ejemplos de entrenamiento datos incompletos o posiblemente errneos.

Los mtodos bayesianos permiten tener en cuenta en la prediccin de la hiptesis el conocimiento a prior o conocimiento del dominio en forma de probabilidades. El problema puede surgir al tener que estimar ese conocimiento estadstico sin disponer de datos sucientes. Esta dicultad ha sido estudiada por Kanehmann y Tversky [3], que analizaron los sesgos que se producen en los sujetos en la estimacin subjetiva de las probabilidades de un suceso.

2 Clasicacin de patrones
Cualquier sistema de clasicacin de patrones se basa en lo siguiente: dado un conjunto de datos (que dividiremos en dos conjuntos de entrenamiento y de test) representados por pares <atributo, valor>, el problema consiste en encontrar una funcin f(x) (llamada hiptesis) que clasique dichos ejemplos. La idea de usar el teorema de Bayes en cualquier problema de aprendizaje automtico (en especial los de clasicacin) es que podemos estimar las probabilidades a posteriori de cualquier hiptesis consistente con el conjuntro de datos de entrenamiento para as escoger la hiptesis ms probable. Para estimar estas probabilidades se han propuesto numerosos algoritmos, entre los que cabe detacar el algoritmo Nave Bayes.

2.1 Clasicador basado en el algoritmo Nave Bayes


Dado un ejemplo

x representado por k valores el clasicador nave Bayes se < a1 , a2 , .., an >,

basa en encontrar la hiptesis ms probable que describa a ese ejemplo. Si la descripcin de ese ejemplo viene dada por los valores la hiptesis ms probable ser aquella que cumpla:

vM AP = argmaxvj V P (vj |a1 , ...an )


es decir, la probabilidad de que conocidos los valores que describen a ese ejemplo, ste pertenezcan a la clase de clasicacin

vj

(donde

vj

es el valor de la funcin

f (x)

en el conjunto nito V). Por el teorema de Bayes:

vM AP = argmaxvj V
Podemos estimar

P (a1 , ...an |vj )p(vj ) = argmaxvj V P (a1 , ...an |vj )p(vj ) P (a1 , ...an )
en el

P (vj ) contando las veces que aparece el ejemplo vj P (a1 , ...an |vj ),

conjunto de entrenamiento y dividndolo por el nmero total de ejemplos que forman este conjunto. Para estimar el trmino es decir, las veces en que para cada categora aparecen los valores del ejemplo x, debo recorrer todo el conjunto de entrenamiento. Este clculo resulta impracticable para un nmero sucientemente grande de ejemplos por lo que se hace necesario siplicar la expresin. Para ello se recurre a la hiptesis de independencia condicional con el objeto de poder factorizar la probabilidad. Esta hipteis dice lo siguiente:

Los valores aj que describen un atributo de un ejemplo cualquiera x son independientes entre s conocido el valor de la categora a la que pertenecen
As la probabilidad de observar la conjuncin de atributos dades de cada valor por separado:

aj

dada una

categora a la que pertenecen es justamente el producto de las probabili-

P (a1 , ...an |vj ) =

P (ai |vj )

Referencias
[1] Mitchell, Tom, Machine Learning, Ed. McGraw-Hill (1997).

También podría gustarte