Está en la página 1de 31

Primer Parcial -> Tema 1

Minería de Datos
Universidad del Cauca
 Enfoque probabilístico al aprendizaje

 Competitivo:las hipótesis compiten entre si,


venciendo la que tenga mayor probabilidad

 Supervisado: necesitamos conocer la clase de


los ejemplos para estimar la probabilidad a
posteriori de las observaciones
Supone que

 Lashipótesis están gobernadas por una distribución


de probabilidad

 Esposible tomar decisiones óptimas razonando con


estas probabilidades y las observaciones
 Algunosmétodos bayesianos se encuentran
entre los más eficientes

 Permiten
interpretar el funcionamiento de otros
métodos en términos probabilísticos

 Inclusocuando no son aplicables, proporcionan


un estándar de toma de decisión óptima, frente
al que comparar otros métodos
 Dado un conjunto de entrenamiento D, más
conocimiento a priori de la probabilidad de
las distintas hipótesis de H, ¿Cuál es la
hipótesis más probable?
 P(h|D)es la probabilidad a posteriori de h
Probabilidad de que h sea cierta después de observar D

 P(D|h) es la probabilidad a posteriori de D


Es la probabilidad de observar el conjunto de entrenamiento D
en un universo donde se verifica la hipótesis h.

 P(h) es la probabilidad a priori de la hipótesis h


Probabilidad de h sin ninguna observación

 P(D)es la probabilidad a priori de D


Probabilidad de observar D, sin saber que hipótesis se verifica
 Hipótesis hMAP: máxima posteriori

 Si queremos clasificar un nuevo caso (a1,…an) y


la variable clase C tiene k posibles categorías
ΩC={c1,…,ck}, lo que nos interesa es identificar
la más probable y devolverla como clasificación

 Problema: Hay que trabajar con la distribución


conjunta y eso normalmente es inmanejable
 Dadoespacio de hipótesis H y las
observaciones D ¿Cuál es la hipótesis h Hmás
probable?
 1.
Para cada hipótesis calcular la probabilidad a
posteriori

 2.
Devolver la hipótesis hMAP con la máxima
probabilidad a posteriori
 Esel modelo de red bayesiana orientada a
clasificación más simple
 Supone que todos los atributos son
independientes conocida la variable clase.
 En
un Naïve Bayes (NB) la hipótesis MAP queda
como:

A pesar de la suposición poco realista realizada


en el NB, este algoritmo se considera un
estándar y sus resultados son competitivos con
la mayoría de los clasificadores
 Se basa en frecuencia de aparición que obtendremos en la base de
datos. así n(Xi,Pa(Xi)) es el numero de registros en la BD en que la
variable Xi toma el valor Xi y los padres de Xi (Pa(Xi)).

 Estimación por máxima verisimilitud (EMV). el número de veces que


aparece Xi en la BD dividido por el numero de casos totales.

 Suavizando por la corrección de Laplace: número de casos favorables


mas uno dividido por el numero de casos totales mas el numero de
valores posibles.
 P(x|ci)se estima mediante una función de
densidad gaussiana. Se asume que los valores
numéricos siguen una distribución normal, es
decir, para cada categoría de la variable clase se
estima una distribución normal (de media μ y
desviación estándar σ )
Aprendizaje_Bayesiano_Naive(instancia)
Para cada posible valor del resultado vj
Obtener estimación p’(vj) de la probabilidad p(vj)
Para cada valor ai de cada atributo a
Obtener estimación p’(ai/vj) de la
probabilidad P(ai/vj)

Clasificar instancia(x)
devolver
 <soleado, fría, alta, cierto>
 p'(jugar=si) = 9/14 = 0,64 (ver)
 p'(jugar=no) = 5/14 = 0,36 (ver)
 p'(Cielo=soleado / jugar=si) = 2/9 = 0,22 (ver)
 p'(Cielo=soleado / jugar=no) = 3/5 = 0,6 (ver)
 p'(Temp=fría / jugar=si) = 3/9 = 0,33 (ver)
 p'(Temp=fría / jugar=no) = 1/5 = 0,2 (ver)
 p'(Humedad=alta / jugar=si) = 3/9 = 0,33 (ver)
 p'(humedad=alta / jugar=no) = 4/5 = 0,8 (ver)
 p'(Viento=cierto / jugar=si) = 3/9 = 0,33 (ver)
 p'(Viento=cierto / jugar=no) = 3/5 = 0,6 (ver)
0,64 * 0,22 * 0,33 * 0,33 * 0,33
 Uno de los algoritmos de aprendizaje más
prácticos, junto a árboles, redes de neuronas y
K-NN
 Condiciones de uso
Conjunto de entrenamiento grande
Atributos razonablemente independientes
 Aplicaciones
Diagnosis
Clasificación de texto
Ventajas:
 Es fácil de implementar
 Obtiene buenos resultados en gran parte de los casos

Desventajas:
 Asumir que las variables tienen independencia condicional respecto a la clase
lleva a una falta de precisión

 En la práctica, existen dependencias entre las variables.


ejemplo.: en datos hospitalarios:
􀂃 Perfil: edad, historia familiar, etc.
􀂃 Síntomas: fiebre, tos, etc.
􀂃 Enfermedad: cáncer de pulmón, diabetes, etc.

Con un clasificador Naïve Bayes no se pueden modelar estas dependencias

 Solución: Redes de creencia bayesianas, que combinan razonamiento bayesiano


con relaciones causales entre los atributos
 Ejemplo: Diseño de un Clasificador para Iris
 Problema simple muy conocido: clasificación de lirios.
 Tres clases de lirios: setosa, versicolor y virginica.
 Cuatro atributos: longitud y anchura de pétalo y sépalo,
respectivamente.
 150 ejemplos, 50 de cada clase.
 Disponible en: http://archive.ics.uci.edu/ml/datasets/Iris

Setosa Versicolor virginica


volver
volver
volver
volver
volver
volver
volver
volver
volver
volver

También podría gustarte