Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1
Teorı́a de Decisión Bayesiana
1. Introducción
2. El Teorema de Bayes. Decisores MAP y ML
2
Introducción
Introducción
• La teorı́a de decisión bayesiana se basa en dos asumciones:
? El problema de decisión se puede describir en términos probabilı́sticos:
∗ Dado un conjunto de datos, D, cuál es la mejor hipótesis h del
cunjunto de hipótesis H
∗ La mejor hipótesis es la hipótesis más probable
? Todos los valores de las probabilidades del problema son conocidas
• Decisiones tomadas en función de ciertas observaciones
3
Introducción
Ejemplo: el Caso de la Moneda Trucada
• Espacio de hipótesis: {cara, cruz}
• Espacio de observaciones: {brillo, mate}
• Lanzo una moneda, recibo la observación, D, y genero una hipótesis, h
• Preguntas:
? ¿Cuál es la mejor hipótesis?
? ¿Cuál es la hipótesis más probable?
? ¿Cuál es la probabilidad de obtener cara?
? ¿Cuál es la probabilidad de obtener cruz?
? ¿Cuál es la probabilidad de obtener cara, habiéndo recibido como
observación brillo?
? ¿Cuál es la probabilidad de obtener cruz, habiéndo recibido como
observación mate?
4
Teorı́a de Decisión Bayesiana
1. Introducción
2. El Teorema de Bayes. Decisores MAP y
ML
3. Funciones Discriminantes y Fronteras de
Decisión
4. Estimadores Paramétricos
5. Clasificadores Bayesianos
5
El Teorema de Bayes
Notación
• P (h): Probabilidad de que la hipótesis h sea cierta o Probabilidad a
priori de la hipótesis h
? Refleja el conocimiento que tenemos sobre las oportunidades de que
la hipótesis h sea cierta antes de recibir ninguna observación
? Si no tenemos ningún conocimiento a priori, se le podrı́a asignar la
misma probabilidad a todas las hipótesis
• P (D): Probabilidad de que recibamos la observación D o Probabilidad
a priori de la observación D
? Refleja la probabilidad de recibir la observación D, cuando no tenemos
ninguna idea sobre cuál es la hipótesis real
• P (D|h): Probabilidad de observar el dato D, cuando se cumple la
hipótesis h o Probabilidad a posteriori de la observación D
• P (h|D): Probabilidad de que se cumpla la hipótesis h, dado que se ha
obtenido el dato D, o Probabilidad a posteriori de la hipótesis h
6
El Teorema de Bayes
Teorema de Bayes
• En aprendizaje inductivo, estamos interesados en calcular las
probabilidades de las hipótesis a posteriori, ya que son las que se
obtienen tras recibir observaciones o ejemplos de entrenamiento.
• Teorema de Bayes:
P (D|h)P (h)
P (h|D) =
P (D)
7
El Teorema de Bayes
Decisor MAP
• Decisor máximo a posteriori:
P (D|h)P (h)
arg máx P (h|D) = =
h∈H P (D)
arg máx P (h|D) = P (D|h)P (h)
h∈H
• El decisor de máxima verosimilitud, ML (maximum likelihood), asume
que todas las hipótesis son equiprobables a priori:
8
El Teorema de Bayes
Ejemplo: el Caso de la Moneda Trucada
• Probabilidades a priori:
? P (cara) = 0,2, P (cruz) = 0,8
• Probabilidades a posteriori:
? P (brillo|cara) = 0,9, P (mate|cara) = 0,1
? P (brillo|cruz) = 0,6, P (brillo|cara) = 0,4
• Tiro la moneda y obtengo brillo:
9
El Teorema de Bayes
Ejemplo: el Caso de la Moneda Trucada
• Sin embargo:
10
El Teorema de Bayes
Clasificador MAP de Fuerza Bruta
• Caso general:
1. Para cada hipótesis—clase h ∈ H , calcular la probabilidad a posteriori:
~
P (D|h)P (h)
~
P (h|D) =
~
P (D)
~ =
hM AP = arg máx P (h|D)
h∈H
• Dos hipótesis/clases:
~ = P (D|h
g1(D) ~ 1)P (h1) − P (D|h
~ 2)P (h2)
1 g(x) ≥ 0
hM AP = (1)
0 g(x) < 0
11
El Teorema de Bayes
Probabilidades de Error: Ejemplo
• Un clasificador de, por ejemplo, dos categorı́as, divide el espacio en dos
regiones, R1 para la categorı́a h1, y R2 para la categorı́a h2.
• Errores de clasificación de una instancia ~x:
1. ~x pertenece a categorı́a w1 pero cae en la región R2
2. ~x pertenece a categorı́a w2 pero cae en la región R1
• Probabilidad de Error de un clasificador MAP:
12
El Teorema de Bayes
Probabilidades de Error
x
R1 R2
¿Cuál es el punto de división entre las regiones que minimiza el error de
clasificación?
13
Teorı́a de Decisión Bayesiana
1. Introducción
2. El Teorema de Bayes. Decisores MAP y ML
14
Fronteras de Decisión
Fronteras de Decisión
• Dadas dos clases, ω1 y ω2, tenemos sus funciones discriminantes:
15
Fronteras de Decisión
Función de Densidad Normal
• Función de densidad normal unidimensional:
" 2 #
1 1 x−µ
p(x) = √ exp − = N (µ, σ 2) (3)
2πσ 2 σ
Donde: 0.5
N(0, 1)
0.4
Z ∞
E[x] = xp(x)dx = µ 0.3
−∞
0.2
Z ∞
2 2 2
E[(x−µ)) ] = (x − µ) p(x)dx = σ 0.1
−∞
0
−4 −2 0 2 4
16
Fronteras de Decisión
Función de Densidad Normal
• Función de densidad normal multidimensional:
1 1 t −1
p(~x) = d/2 1/2
exp[− (~
x − µ
~ ) Σ (~x − µ
~ )] = N [µ, Σ] (4)
(2π) |Σ| 2
Donde:
? µ
~ : vector de medias
? µ
~ = E[~x]; µi = E[xi]
? Σ: matriz de covarianzas d × d
? Σ = E[(~x − µ ~ )t]; σij = E[(xi − µi)(xj − µj )]
~ )(~x − µ
? σii: varianza de xi
? Si σij = 0, para i 6= j, entonces xi es estadı́sticamente independiente
de xj
? |Σ|: determinante de Σ
~ )t: transpuesta de (~x − µ
? (~x − µ ~)
17
Fronteras de Decisión
Función Discriminante de una Densidad Normal
• Recordamos la función discriminante:
1 d 1
~ i)tΣ−1
gi(~x) = − (~x − µ i (~
x − µ
~ i ) − log 2π − log |Σi| + log P (ωi) (5)
2 2 2
18
Fronteras de Decisión
Caso Particular: Σi = ~σ 2I
• Si Σi = ~σ 2I:
? Las caracterı́sticas son estadı́sticamente independientes
? Todas las caracterı́sticas tienen la misma varianza, σ 2
? |Σi| = σ 2d
? Σ−1
i = (1/σ )I
2
• Entonces:
~ i||2
||~x − µ
gi(~x) = − + log P (ωi) (6)
2σ 2
Donde ||.|| es la norma euclı́dea:
d
X
~ i||2 = (~x − µ
||~x − µ ~ i)t =
~ i)(~x − µ (xj − µij )2
j=1
19
Fronteras de Decisión
Caso Particular: Σi = ~σ 2I
• Si desarrollamos la función discriminante:
1 t t t
gi(~x) = − 2
[~
x ~
x − 2~
µ i ~
x + µ
~ iµ~ i] + log P (ωi) (7)
2σ
20
Fronteras de Decisión
Ejemplo
x2 g 1(x)=g2(x)
R1
R2
x1
21
Teorı́a de Decisión Bayesiana
1. Introducción
2. El Teorema de Bayes. Decisores MAP y ML
22
Estimación de Parámetros
Estimación de Parámetros y Aprendizaje
Supervisado
• Hemos visto que se pueden construir clasificadores óptimos si se
conocen las probabilidades a priori, P (ωj ), y las densidades de clases
condicionales, p(~x|ωj )
• Desafortunadamente, esas probabilidades son raramente conocidas
• En cambio, en la mayorı́a de las ocasiones se dispone de cierto
conocimiento del modelo, ası́ como de un número de ejemplos
representativos de dicho modelo
• Por tanto, una buena aproximación es utilizar el conocimiento del
dominio y los ejemplos para diseñar el clasificador:
? Probabilidades a priori parece sencillo
? Para las probabilidades a posteriori, se necesita demasiada
información, sobre todo cuando crece la dimensión de los datos
de entrada.
23
Estimación de Parámetros
Estimación de Parámetros y Aprendizaje
Supervisado
• Utilizar conocimiento del problema para parametrizar las funciones de
densidad
? Asumir que la función de densidad sigue una distribunción dada, por
ejemplo N (~µj , Σj )
? Traspasar el problema de aproximar la función p(~x|ωj ) a estimar los
parámetros µ~ j y Σj .
? Añadir más simplificaciones, por ejemplo, que Σj es conocida.
24
Estimación de Parámetros
Estimación de Máxima Verosimilitud
(Maximum Likelihood Estimation)
• Suponer que podemos separar todas las instancias de acuerdo con su
clase, de forma que generamos c conjuntos de ejemplo, χ1, . . . , χc
• Los ejemplos en χ han sido generados independientes siguiendo una
distribución p(~x|ωj )
• Asumimos que p(~x, ωj ) se puede parametrizar unı́vocamente por un
vector de parámetros θ~j
? Por ejemplo, podemos asumir que p(~x, ωj ) ∼ N (µ~j , Σj ), donde
θ~j =< µ~j , Σj >
? Esa dependencia de p(~x|ωj ) con θ~j la representamos explı́citamente
con p(~x|ωj , θ~j )
• Objetivo: utilizar los conjuntos de ejemplos χ1, . . . , χc para estimar
θ~1, . . . , θ~c
25
Estimación de Parámetros
Estimador de Máxima Verosimilitud
• Idea: utilizar el conjunto de ejemplos χ, generados independientemente
~ para estimar el vector de
siguiendo la densidad de probabilidad p(χ|θ),
parámetros desconocido θ.~
• Si que χ contiene n ejemplos, χ = {~x1, . . . , ~xn}, dado que fueron
generados independientemente:
n
Y
~ =
p(χ|θ) ~
p(~xk |θ) (9)
k=1
26
Estimación de Parámetros
Estimador de Máxima Verosimilitud: Ejemplo
p(χ| θ )
θ
^θ
Por tanto, estamos planteando el problema de encontrar el máximo de la
~
función p(χ|θ)
27
Estimación de Parámetros
Estimador de Máxima Verosimilitud para una
Densidad de Probabilidad Normal, dada Σ
• Como Σ viene dada, intentamos estimar µ̂
• Dado que la función logaritmo es monótona creciente, el estimador de
máxima verosimilitud coincide con el estimador de máxima verosimilitud
de su logaritmo
p(x~k |~
µ) = 1
(2π)d/2 |Σ|1/2
~ )tΣ−1(~xk − µ
exp[− 12 (~xk − µ ~ )]
log p(x~k |~ ~ )tΣ−1(~xk − µ
µ) = − 21 (~xk − µ ~ ) − d2 log 2π − 12 log |Σ| (10)
∇µ~ log p(x~k |~µ) = Σ−1(~xk − µ ~)
~ Qn ~ =
∇µ~ p(χ|
Pn θ) = ∇ µ
~ k=1 p(~xk |θ)
k=1 ∇µ ~ log p(x~k |~
µ) = (11)
P n −1
k=1 Σ (~xk − µ~)
28
Estimación de Parámetros
Estimador de Máxima Verosimilitud para una
Densidad de Probabilidad Normal, dada Σ
• Ahora igualamos a 0 para obtener el máximo:
n
X
Σ−1(~xk − µ̂) = 0 (12)
k=1
n
1X
µ̂ = ~xk (13)
n
k=1
• Igualmente, se puede calcular el estimador de la matriz de covarianzas
cuando dicha matriz es desconocida:
1X
Σ̂ = (x~k − µ̂)(x~k − µ̂)t (14)
n
k=1
29
Teorı́a de Decisión Bayesiana
1. Introducción
2. El Teorema de Bayes. Decisores MAP y ML
30
Clasificadores Bayesianos
Clasificador Bayesiano
• Necesitamos aprender las probabilidades a posteri, P (ωi|~x)
• Por teorema de Bayes:
31
Clasificadores Bayesianos
Clasificador Bayesiano
• La regla de Bayes para clasificación desde ejemplos queda como:
32
Clasificadores Bayesianos
El Caso Discreto
|χi |
• Para toda clase ωi, P (ωi|χ) = |χ|
• Para toda posible instancia ~x
? Sea Mi el conjunto de todas las ocurrencias de ~x en χi
? p(~x|ωi, χi) = |M i|
|χi |
? Bayes(~x) = argωi máx |Mi|
• El problema de la dimensionalidad:
? Cada ejemplo ~x debe aparencer en χi un número suficientemente
grande de veces como para obtener estadı́sticas significativas.
? Si la dimensión de ~x crece, el número de posibles valores de ~x crece
exponencialmente, haciendo el problema intratable
? ¿Qué ocurre si el nuevo ejemplo a clasificar, ~x, no se habı́a dado en
χ?
33
Clasificadores Bayesianos
Ejemplo: Jugar al tenis
34
Clasificadores Bayesianos
Solución de la Clasificación Bayesiana
• Consulta: (outlook=sunny, Temperature=cool, Humidity=hig,
Wind=strong)
• Clasificador Bayesiano:
35
Clasificadores Bayesianos
El Clasificador Naive Bayes
• Naive Bayes asume independencia lineal entre los distintos atributos
• Eso implica que:
• Por tanto:
K
Y
N aiveBayes(~x) = ω = argi máx p(xk |ωi, χi)P (ωi) (23)
k=1
36
Clasificadores Bayesianos
Solución al Ejemplo con Naive Bayes
• Consulta: (outlook=sunny, Temperature=cool, Humidity=high,
Wind=strong)
• Probabilidades a priori:
9
P (ωyes|χ) = 14 = 0,64
5 (24)
P (ωno|χ) = 14 = 0,35
37
Clasificadores Bayesianos
Solución al Ejemplo con Naive Bayes
• Probabilidades a posteriori:
• Entonces:
P (yes)p(sunny|yes)p(cool|yes)p(high|yes)p(strong|yes) =
0,64 × 0,22 × 0,33 × 0,33 × 0,33 = 0,005
P (no)p(sunny|no)p(cool|no)p(high|no)p(strong|no) = (26)
0,35 × 0,6 × 0,2 × 0,44 × 0,6 = 0,01
N aiveBayes(< sunny, cool, high, strong >) = no
38
Clasificadores Bayesianos
Resumen
• Teorı́a Bayesina nos da mecanismos para generar clasificadores basándose
en las probabilidades a priori y las distribuciones de probabilidad a
posteriori
• Las probabilidades pueden ser desconocidas: aprendizaje paramétrico
• Estimación de parámetros en distribuciones conocidas
• Clasificador Bayesiano
• Naive Bayes
39
Clasificadores Bayesianos
Bibliografı́a
• Pattern Classification and Scene Analysis, Duda and Hart. Capı́tulo 2
• Machine Learning, Tom Mitchell. Capı́tulo 6
40