Naive Bayes

Primer Parcial -> Tema 1
Minería de Datos
Universidad del Cauca
 Enfoque probabilístico al aprendizaje
 Competitivo:las hipótesis compiten entre si,

venciendo la que tenga mayor probabilidad
 Supervisado: necesitamos conocer la clase de

los ejemplos para estimar la probabilidad a
posteriori de las observaciones
Supone que
 Lashipótesis están gobernadas por una distribución

de probabilidad
 Esposible tomar decisiones óptimas razonando con

estas probabilidades y las observaciones
 Algunosmétodos bayesianos se encuentran
entre los más eficientes
 Permiten
interpretar el funcionamiento de otros
métodos en términos probabilísticos
 Inclusocuando no son aplicables, proporcionan

un estándar de toma de decisión óptima, frente
al que comparar otros métodos
 Dado un conjunto de entrenamiento D, más
conocimiento a priori de la probabilidad de
las distintas hipótesis de H, ¿Cuál es la
hipótesis más probable?
 P(h|D)es la probabilidad a posteriori de h
Probabilidad de que h sea cierta después de observar D
 P(D|h) es la probabilidad a posteriori de D

Es la probabilidad de observar el conjunto de entrenamiento D
en un universo donde se verifica la hipótesis h.
 P(h) es la probabilidad a priori de la hipótesis h

Probabilidad de h sin ninguna observación
 P(D)es la probabilidad a priori de D

Probabilidad de observar D, sin saber que hipótesis se verifica
 Hipótesis hMAP: máxima posteriori
 Si queremos clasificar un nuevo caso (a1,…an) y

la variable clase C tiene k posibles categorías
ΩC={c1,…,ck}, lo que nos interesa es identificar
la más probable y devolverla como clasificación
 Problema: Hay que trabajar con la distribución

conjunta y eso normalmente es inmanejable
 Dadoespacio de hipótesis H y las
observaciones D ¿Cuál es la hipótesis h Hmás
probable?
 1.
Para cada hipótesis calcular la probabilidad a
posteriori
 2.
Devolver la hipótesis hMAP con la máxima
probabilidad a posteriori
 Esel modelo de red bayesiana orientada a
clasificación más simple
 Supone que todos los atributos son
independientes conocida la variable clase.
 En
un Naïve Bayes (NB) la hipótesis MAP queda
como:
A pesar de la suposición poco realista realizada

en el NB, este algoritmo se considera un
estándar y sus resultados son competitivos con
la mayoría de los clasificadores
 Se basa en frecuencia de aparición que obtendremos en la base de
datos. así n(Xi,Pa(Xi)) es el numero de registros en la BD en que la
variable Xi toma el valor Xi y los padres de Xi (Pa(Xi)).
 Estimación por máxima verisimilitud (EMV). el número de veces que

aparece Xi en la BD dividido por el numero de casos totales.
 Suavizando por la corrección de Laplace: número de casos favorables

mas uno dividido por el numero de casos totales mas el numero de
valores posibles.
 P(x|ci)se estima mediante una función de
densidad gaussiana. Se asume que los valores
numéricos siguen una distribución normal, es
decir, para cada categoría de la variable clase se
estima una distribución normal (de media μ y
desviación estándar σ )
Aprendizaje_Bayesiano_Naive(instancia)
Para cada posible valor del resultado vj
Obtener estimación p’(vj) de la probabilidad p(vj)
Para cada valor ai de cada atributo a
Obtener estimación p’(ai/vj) de la
probabilidad P(ai/vj)
Clasificar instancia(x)
devolver
 <soleado, fría, alta, cierto>
 p'(jugar=si) = 9/14 = 0,64 (ver)
 p'(jugar=no) = 5/14 = 0,36 (ver)
 p'(Cielo=soleado / jugar=si) = 2/9 = 0,22 (ver)
 p'(Cielo=soleado / jugar=no) = 3/5 = 0,6 (ver)
 p'(Temp=fría / jugar=si) = 3/9 = 0,33 (ver)
 p'(Temp=fría / jugar=no) = 1/5 = 0,2 (ver)
 p'(Humedad=alta / jugar=si) = 3/9 = 0,33 (ver)
 p'(humedad=alta / jugar=no) = 4/5 = 0,8 (ver)
 p'(Viento=cierto / jugar=si) = 3/9 = 0,33 (ver)
 p'(Viento=cierto / jugar=no) = 3/5 = 0,6 (ver)
0,64 * 0,22 * 0,33 * 0,33 * 0,33
 Uno de los algoritmos de aprendizaje más
prácticos, junto a árboles, redes de neuronas y
K-NN
 Condiciones de uso
Conjunto de entrenamiento grande
Atributos razonablemente independientes
 Aplicaciones
Diagnosis
Clasificación de texto
Ventajas:
 Es fácil de implementar
 Obtiene buenos resultados en gran parte de los casos
Desventajas:
 Asumir que las variables tienen independencia condicional respecto a la clase
lleva a una falta de precisión
 En la práctica, existen dependencias entre las variables.

ejemplo.: en datos hospitalarios:
􀂃 Perfil: edad, historia familiar, etc.
􀂃 Síntomas: fiebre, tos, etc.
􀂃 Enfermedad: cáncer de pulmón, diabetes, etc.
Con un clasificador Naïve Bayes no se pueden modelar estas dependencias
 Solución: Redes de creencia bayesianas, que combinan razonamiento bayesiano

con relaciones causales entre los atributos
 Ejemplo: Diseño de un Clasificador para Iris
 Problema simple muy conocido: clasificación de lirios.
 Tres clases de lirios: setosa, versicolor y virginica.
 Cuatro atributos: longitud y anchura de pétalo y sépalo,
respectivamente.
 150 ejemplos, 50 de cada clase.
 Disponible en: http://archive.ics.uci.edu/ml/datasets/Iris
Setosa Versicolor virginica

volver
volver
volver
volver
volver
volver
volver
volver
volver
volver

Naive Bayes

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Naive Bayes

Cargado por

Copyright:

Formatos disponibles

Primer Parcial -> Tema 1

 Competitivo:las hipótesis compiten entre si,

 Supervisado: necesitamos conocer la clase de

 Lashipótesis están gobernadas por una distribución

 Esposible tomar decisiones óptimas razonando con

 Inclusocuando no son aplicables, proporcionan

 P(D|h) es la probabilidad a posteriori de D

 P(h) es la probabilidad a priori de la hipótesis h

 P(D)es la probabilidad a priori de D

 Si queremos clasificar un nuevo caso (a1,…an) y

 Problema: Hay que trabajar con la distribución

A pesar de la suposición poco realista realizada

 Estimación por máxima verisimilitud (EMV). el número de veces que

 Suavizando por la corrección de Laplace: número de casos favorables

 En la práctica, existen dependencias entre las variables.

Con un clasificador Naïve Bayes no se pueden modelar estas dependencias

 Solución: Redes de creencia bayesianas, que combinan razonamiento bayesiano

Setosa Versicolor virginica

También podría gustarte