Está en la página 1de 2

1

Clasificador Bayes Ingenuo (Naı̈ve Bayes)

I. D ERIVACI ÓN
A. Clasificación Bayesiana: Maximum A-Posteriori (MAP).
Asuma que tenemos un vector de datos x = (x1 , x2 , ..., xd )T , donde d es la cantidad de features (descriptores).
De acuerdo al teorema de Bayes, podemos calcular la probabilidad de que el vector de datos x pertenezca a la
clase CK ∈ {1, ..., K} de acuerdo con la expresión

P (CK |x1 , x2 , ..., xd ) = P (CK |x)


P (CK )P (x|CK )
= (1)
P (x)
Entonces, la regla de decisión MAP para clasificación es aquella que maximiza la expresión (1). Más formalmente

M AP : argmax P (CK |x) = argmax P (CK )P (x|CK ), (2)


CK CK

debido a que el denominador P (x) de la expresión (1) es una constante y no afecta la operación de maximización.

B. Bayes Ingenuo.

M AP :argmax P (CK )P (x|CK )


CK
argmax P (CK , x)
CK
argmax P (CK , x1 , x2 , ..., xd ) Por regla de la cadena:
CK
argmax P (x1 |x2 , ..., xd , CK )P (x2 , ..., xd , CK )
CK
argmax P (x1 |x2 , ..., xd , CK )P (x2 |x3 , ..., xd , CK ) ... P (xd−1 |xd , CK )P (xd |CK )P (CK ).
CK

En Bayes ingenuo adoptamos la asunción que la probabilidad de cada feature es condicionalmente independiente
de cualquier otro, dada la etiqueta de la clase (i.e., P (xi |xi+1 , ..., xd , CK ) = P (xi |CK ). Esta es una asunción
ingenua porque no conocemos realmente las probabilidades conjuntas y/o condicionales entre los features, pero
conveniente para reducir la complejidad de la estimación de estas probabilidades. Interesantemente, Naı̈ve Bayes
ha logrado buen desempeño en la práctica. Al implementar esta asunción:

M AP :argmax P (CK |x)


Naı̈ve CK
argmax P (x1 |CK )P (x2 |CK ) ... P (xd |CK )P (CK ).
CK
d
Y
M AP :argmax P (CK ) P (xi |CK ). (3)
Naı̈ve CK i=1

Nótese que en la ecuación (3), los P (CK ) son los llamados priors de las clases y los P (xi |CK ) son las
probabilidades de los valores de los features xi dentro de cada clase CK .
2

II. S UMARIO
A. Función de Desempeño (Métrica Exactitud (Accuracy)).

N
1 X
I(g(xt |θ) = rt ) (4)
N
t=1

donde xt ∈ X son las muestras y rt ∈ X , son las etiquetas de las clases correspondientes, N = |X |,
I(·) es una función indicadora que resulta en 1 si su argumento es verdadero y 0 de otro modo, y la función
g(xt |θ) especificada por (6) es nuestro estimador, que depende de los parámetros particulares del modelo
θ : {P (x1 |C1 ), P (x2 |C1 ), ... , P (xd |C1 ), ... , P (xd |CK ), P (C1 ), ... , P (CK )}.

B. Aprendizaje.
Al trabajar con features de valores discretos, estimamos las probabilidades necesarias computando la frecuencia
relativa de los datos.

Cuando trabajamos con fatures de valores continuos, una asunción tı́pica es que los valores continuos asociados
con cada clase poseen una distribución Gaussiana. De modo que, primeramente segmentamos los datos por clase y
entonces computamos la media µK K
i y desviación estándar σi de los valores en xi asociados con la clase CK para
calcular las probabilidades como sigue:

1 −(xi − µKi )
2
P (xi |CK ) = √ exp (5)
2πσiK 2(σiK )2
Otra técnica común para manejar features de valores continuos es usar la técnica de binning para discretizar los
valores de los features y obtener un grupo de valores con distribución Bernoulli.

C. Ejecución.

d
Y
g(xt |θ) = argmax P (CK ) P (xti |CK ). (6)
CK i=1

También podría gustarte