Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Aprendizaje Bayesiano
6.1 Probabilidad
Interpretaciones de Probabilidad
Probabilidad
1. 0 ≤ P (A) ≤ 1
2. P (S) = 1
127
3. P (A ∪ B) = P (A) + P (B), si A y B mutuamente exclusivos
Teorema 1:
P (∅) = 0
Teorema 2:
P (A) = 1 − P (A)
Teorema 3:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Probabilidad Condicional
Ejemplo:
Similarmente:
P (B | A) = P (A ∩ B)/P (A)
De donde:
128
El denominador se le conoce como el teorema de la probabilidad total.
Teorema 4:
P (A) = P (A | Bj )P (Bj )
P
j
Eventos independientes
P (A ∩ B) = P (A)P (B)
P (A | B) = P (A)
P (B | A) = P (B)
Independencia condicional
P (A | B, C) = P (A | C)
Ejemplo:
• A - regar el jardı́n
129
• C - lluvia
Variables Aleatorias
F (x) = P {X ≤ x}
Propiedades:
1. 0 ≤ F (x) ≤ 1
3. F (−∞) = 0
130
4. F (+∞) = 1
Momentos
Momentos “centrales”
• varianza:
σ 2 (X) = (xi − E{X})2 P (xi )
P
• desviación estandar:
√
σ(x) = σ 2 (x)
131
1. P (xi , yj ) ≥ 0
2. P (xi , yj ) = 1
P P
i j
Probabilidad marginal
P (X) = P (xi , yj )
P
y
Probabilidad condicional
P (X | Y ) = P (X, Y )/P (Y )
Variables independientes
Correlación
Distribución Binomial
132
Una distribución binomial de la probabilidad de observar r eventos (e.g.,
soles) de n muestras independientes con dos posibles resultados (e.g., tirar
monedas).
n!
P (r) = pr (1 − p)(n−r)
r!(n − r)!
1 1 x−µ 2
p(x) = √ e− 2 ( σ )
2πσ 2
• ser práctico
• provee un enfoque de comprensión (y diseño) de otros algoritmos
133
Algunas caracterı́sticas:
Problemas:
Teorema de Bayes:
P (D | h)P (h)
P (h | D) =
P (D)
hM AP = argmaxh∈H (P (h | D))
P (D|h)P (h)
= argmaxh∈H P (D)
134
Ya que P (D) es una constante independiente de h.
hM L = argmaxh∈H (P (D | h))
Ejemplo:
Esto es:
P (cancer) = 0.008
P (¬cancer) = 0.992
P (⊕|cancer) = 0.98
P ( |cancer) = 0.02
P (⊕|¬cancer) = 0.03
P ( |¬cancer) = 0.97
135
También para hacerlo, necesitamos especificar los valores para P (h) y
para P (D | h).
Si asumimos que no hay ruido y que todas las hipótesis son igualmente
1
probables (i.e., P (h) = |H| ∀h ∈ H), P (D | h) = 1 sii D es consistente con h.
Esto es:
1
P (h | D) =
| V SH,D |
donde, V SH,D es el subconjunto de hipótesis de H que es consistente con D
(su espacio de versiones).
Los métodos más usados para buscar funciones con variables continuas
a partir de datos con cierto ruido, son regresiones lı́neales, ajustes de poli-
nomios y redes nueronales.
136
De nuevo lo que queremos es encontrar la hipótesis más probable:
hM L = argmaxh∈H (p(D | h))
Asumiento que los datos son independientes entre sı́ dado h, la proba-
bilidad se puede expresar como el producto de varias p(di | h) para cada
dato:
m
!
Y
hM L = argmaxh∈H p(di | h)
i=1
Como el ruido sigue una distribución Gaussiana con media cero y vari-
anza σ 2 , cada di debe de seguir la misma distribución pero ahora centrada
alrededor de f (xi ).
m
!
1 1 2
e− 2σ2 (di −µ)
Y
hM L = argmaxh∈H √
2πσ 2
i=1
m
!
1 1 2
e− 2σ2 (di −h(xi ))
Y
hM L = argmaxh∈H √
2πσ 2
i=1
m
!
1 1
) − 2 (di − h(xi ))2
X
hM L = argmaxh∈H ln( √
i=1 2πσ 2 2σ
m
!
1
− 2 (di − h(xi ))2
X
hM L = argmaxh∈H
i=1 2σ
m
!
2
X
hM L = argminh∈H (di − h(xi ))
i=1
137
Lo que nos dice que la hipótesis de máxima verosimilitud es la que min-
imiza la suma de los errores al cuadrado entre los datos observados (di ) y
los datos predichos (h(xi )), siempre y cuando el error siga una distribución
Normal con media cero.
Todo esto asume que el error está dado únicamente en el valor meta y no
en los atributos que describen la meta.
m
Y
P (D | h) = P (xi , di | h)
i=1
m
Y
P (D | h) = P (di | h, xi )P (xi )
i=1
Por lo que:
m
h(xi )di (1 − h(xi ))1−di P (xi )
Y
P (D | h) =
i=1
138
La máxima verosimilitud es entonces:
m
!
di 1−di
Y
hM L = argmaxh∈H h(xi ) (1 − h(xi )) P (xi )
i=1
139
hM AP = argmaxh∈H (P (D | h)P (h))
X
P (vj | D) = P (vj | hi )P (hi | D)
hi ∈H
140
Y la clasificación óptima será:
X
argmaxvj ∈V P (vj | hi )P (hi | D)
hi ∈H
Ejemplo:
X
P (⊕ | hi )P (hi | D) = 0.4
hi ∈H
X
P ( | hi )P (hi | D) = 0.6
hi ∈H
X
argmaxvj ∈{⊕, } P (vj | hi )P (hi | D) =
hi ∈H
141
6.3 Clasificador Bayesiano naive
vM AP = argmaxvj ∈V (P (vj | a1 , . . . , an ))
Usando Bayes:
P (a1 ,...,an |vj )P (vj )
vM AP = argmaxvj ∈V P (a1 ,...,an )
P (vj ) se puede estimar con la frecuencia de las clases, pero para P (a1 , . . . , an |
vj ) tenemos muy pocos elementos. El clasificador Bayesiana naive, también
llamado a veces idiot Bayes, asume que los valores de los atributos son condi-
cionalmente independientes dado el valor de la clase.
Por lo que:
!
Y
vN B = argmaxvj ∈V P (vj ) P (ai | vj )
i
Ejemplo:
142
Ambiente=soleado, Temperatura=baja, Humedad=alta, Viento=si
P (Clase = P ) = 9/14
P (Clase = N ) = 6/14
P (V iento = si | P ) = 3/9 = 0.33
P (V iento = si | N ) = 3/5 = 0.60
Estimación de Probabilidades
Una valor tı́pico para p es asumir que se tiene una distribución uniforme,
por lo que: p = k1 cuando existen k posibles valores.
Ejemplo
143
Podemos usar un clasificador Bayesiano naive para aprender a clasificar
textos de acuerdo a las preferencias de un usuario.
Suponemos que los ejemplos son documentos en texto asociados con una
clase (e.g., me interesa y no me interesa, o polı́tica, deportes, espectáculos,
sociales, etc.). Suponiendo que las palabras son idependientes entre sı́ y de
su posición en el texto (lo cual no es cierto, pero de todos modos se tienen
buenos resultados):
!
Y
vN B = argmaxvj ∈V P (vj ) P (ai | vj )
i
Introducción
144
• Nodo: Variable proposicional.
• Arcos: Dependencia probabilı́stica.
Definición:
145
En general, el conjunto de variables A es independiente del conjunto B
dado C si al remover C hace que A y B se desconecten . Es decir, NO
existe una trayectoria entre A y B en que las siguientes condiciones sean
verdaderas.
Propagación de Probabilidades
• Árboles
• Poliárboles
• Redes multiconectadas
Propagación en Árboles
146
Dada cierta evidencia E —representada por la instanciación de ciertas
variables— la probabilidad posterior de cualquier variable B, por el teorema
de Bayes:
Entonces:
P (E + )
P (Bi |E) = P (E)
P (Bi |E + )P (E − |Bi )
P (Ai |E + ) = P (Ai )
λ(Bi ) = P (E − |Bi )
π(Bi ) = P (Bi |E + )
Entonces:
147
P (Bi |E) = απ(Bi )λ(Bi )
P (Ek− |Bi ) =
Y Y
λ(Bi ) = λk (Bi )
k k
P (Bi |E + , Aj )P (Aj |E + )
X
π(Bi ) =
j
148
De nuevo usamos:
P (A) = P (A | Bj )P (Bj )
P
j
" #
X Y
π(Bi ) = P (Bi |Aj ) απ(Aj ) λk (Aj )
j k
X
λB (Ai ) = P (Bj |Ai )λ(Bj )
j
Y
πk (Bi ) = απ(Bj ) λl (Bj )
l6=k
149
instanciado. Ası́ que la propagación se hace en un solo paso en un tiempo
proporcional al diámetro de la red.
Propagación en poliárboles
• Condicionamiento
• Simulación estocástica
• Agrupamiento
150
Condicionamiento: Si instanciamos una variable, ésta bloquea las trayec-
torias de propagación. Entonces asumiendo valores para un grupo selec-
cionado de variables podemos descomponer la gráfica en un conjunto de SCG.
Propagamos para cada valor posible de dichas variables y luego promediamos
las probabilidades ponderadas.
3. Se ordenan los cliques de forma que todos los nodos comunes estén en
un solo clique anterior (su padre).
151
6.4.1 Redes Bayesianas en Minerı́a de Datos
Las redes bayesianas son una alternativa para minerı́a de datos, la cual tiene
varias ventajas:
Aprendizaje Paramétrico
152
nodos raı́z, y las condicionales se obtienen de las conjuntas de cada nodo con
su(s) padre(s).
Para que se actualizen las probabilidades con cada caso observado, éstas
se pueden representar como razones enteras, y actualizarse con cada obser-
vación. En el caso de un árbol, las fórmulas para modificar las probabilidades
correspondientes son:
Probabilidades previas
P (Ai ) = ai /(s + 1)
i 6= k
Probabilidades condicionales
Variables no observadas
153
1. Instanciar todas las variables observables.
Aprendizaje Estructural
Naive Bayes
154
• TAN: clasificador bayesiano simple aumentado con un árbol.
1. eliminar un atributo,
3. Probar las 3 operaciones básicas (i) eliminación, (ii) unión, (iii) in-
serción.
155
Árboles
n
Y
P (X1 , X2 , . . . , Xn ) = P (Xi )P (Xi | Xj(i) ))
i=1
156
2. Ordenar las informaciones mutuas de mayor a menor.
Por ejemplo, para el ejemplo de la tabla 2.2 para jugar golf nos queda la
tabla 6.1.
Tabla 6.1: Información mutua entre pares de variables para el ejemplo del
golf.
No. Var 1 Var 2 Info. mutua
1 temp. ambiente .2856
2 juega ambiente .0743
3 juega humedad .0456
4 juega viento .0074
5 humedad ambiente .0060
6 viento temp. .0052
7 viento ambiente .0017
8 juega temp. .0003
9 humedad temp. 0
10 viento humedad 0
Poliárboles
157
n
Y
P (X) = P (Xi | Xj1(i) , Xj2(i) , ..., Xjm(i) )
i=1
• Arcos divergentes: X ← Y → Z.
• Arcos secuenciales: X → Y → Z.
• Arcos convergentes: X → Y ← Z.
2. Recorrer la red hasta encontrar una tripleta de nodos que sean conver-
gentes (tercer caso) -nodo multipadre-.
158
Redes Generales
1. Una medida para evaluar que tan buena es cada estructura respecto a
los datos.
2. Un método de búsqueda que genere diferentes estructuras hasta encon-
trar la óptima, de acuerdo a la medida seleccionada.
P (Es | D)
159
1. Representación de la estructura,
2. Representación del error de la estructura respecto a los datos.
Y el peso (exactitud) total está dado por la suma de los pesos de cada
nodo: X
W = w(xi, F xi)
i
160
Para utilizar la medida MDL se puede hacer un hill-climbing iniciando
con una estructura simple (por ejemplo un árbol construido con Chow-Liu)
y agregando las ligas que mejoren la medida MDL hasta alcanzar un mı́nimo
local.
161
La desventaja es que pueden generarse muchos arcos “innecesarios”, por lo
que se incorporan formas de luego eliminar arcos. Hay diferentes variantes de
este enfoque que consideran diferentes medidas de dependencia y diferentes
etrategias para eliminar arcos innecesarios.
162