Está en la página 1de 49

Redes Bayesianas

CC52A - Inteligencia Articial


Gonzalo Ros D.
DCC - UChile
Otoo 2011
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 1 / 49
Redes Bayesianas
Introduccin
Dado un vector de variables aleatorias X=(x
1
, ..., x
n
), tenemos una medida
de probabilidades conjunta:
Pr : dom(X) [0, 1]
donde dom(X) = dom(x
1
) ... dom(x
n
). Si conocemos la probabilidad
conjunta, podemos calcular cualquier probabilidad sobre las variables
x
1
...x
n
Proposicin
Regla de Probabilidad Condicional: Pr(X[Y) =
Pr(X,Y )
Pr(Y )
Regla de Marginacin: Pr(A) =

i I
Pr(A, B
i
),
B
i
disjuntos,
S
i I
B
i
=
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 2 / 49
Redes Bayesianas
Teoremas de Bayes
El siguiente teorema muestra una simple pero poderosa relacin entre
probabilidades condicionales, que ser la base de nuestra teora.
Teorema
Teorema de Bayes
Pr(C = c[X = x) =
Pr(X = x[C = c) + Pr(C = c)
Pr(X = x)
Pr(C = c[X = x) : Posterior
Pr(X = x[C = c) : Verosimilitud
Pr(C = c) : Prior
Pr(X = x) : Evidencia
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 3 / 49
Redes Bayesianas
Independencia
Denicin
Se dice que X,Y vas son independientes ssi
\x, y Pr(X = x, Y = y) = Pr(X = x) + Pr(Y = y)
Se dice que X,Y vas son independientes dada la evidencia E ssi
Pr(X, Y[E) = Pr(X[E) + Pr(Y[E)
Proposicin
X e Y son indep. ssi Pr(X[Y) = Pr(X)
X e Y son indep. dada la evidencia E ssi Pr(X[Y, E) = Pr(X[E)
La independencia entre variables permite reducir la complejidad de la
funcin de probabilidades conjunta, y en vez de modelar una nica
funcin, la separamos en partes ms simples.
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 4 / 49
Redes Bayesianas
Clasicacin Bayesiana
Supongamos que tenemos datos de la forma (X
1
, ..., X
n
, C), donde C
es la variable de la clase, y deseamos predecir el valor de la clase para
un vector (x
1
, ..., x
n
).
El enfoque probabilistico asignar la clase ms probable, es decir:
c = arg max
c
Pr(C = c[X
1
= x
1
, ..., X
n
= x
n
)
Luego, si aplicamos el teorema de Bayes, obtenemos
c = arg max
c
Pr(X
1
= x
1
, ..., X
n
= x
n
[C = c) + Pr(C = c)
Pr(X
1
= x
1
, ..., X
n
= x
n
)
Luego, para cada clase c
i
, basta modelar las funciones
g
i
(x
1
, ..., x
n
) = Pr(X
1
= x
1
, ..., X
n
= x
n
[C = c
i
) + Pr(C = c
i
)
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 5 / 49
Redes Bayesianas
Clasicador Bayesiano Naive
Supongamos que las variables X
i
son binarias.
Luego para estimar Pr(X
1
= x
1
, ..., X
n
= x
n
[C = c
i
) + Pr(C = c
i
),
necesitaremos 2
n
parmetros.
Podemos ver que el problema ms simple se convierte en exponencial.
Si las variables son discretas o continuas, el problema se vuelve ms
complejo an.
Pero si las variables son independientes, entonces el problema se
simplica signicativamente:
Pr(X
1
= x
1
, ..., X
n
= x
n
[C = c
i
)
= Pr(X
1
= x
1
[C = c
i
) + ... + Pr(X
n
= x
n
[C = c
i
)
Luego, si las variables X
i
son binarias, bajo el supuesto de
independencia, necesitaremos n parmetros, es decir, el problema se
vuelve lineal.
Este modelo se conoce como Bayes Naive
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 6 / 49
Redes Bayesianas
Clasicador Bayesiano Naive
Los cantidad de parmetros que debemos estimar es 13, versus los 71 sin
el supuesto de independencia.
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 7 / 49
Redes Bayesianas
Clasicador Bayesiano Naive
La estimacin ms simple es por frecuencias:
Pr(Play = yes) =
9
14
Pr(Outlook = sunny[Play = yes) =
2
9
Pr(Outlook = overcast[Play = yes) =
4
9
Pr(Outlook = sunny[Play = no) =
3
5
Pr(Outlook = overcast[Play = no) =
0
5
Pr(Temperature = cold[Play = yes) =
3
9
Pr(Temperature = mild[Play = yes) =
4
9
Pr(Temperature = cold[Play = no) =
1
5
Pr(Temperature = mild[Play = no) =
2
5
Pr(Humidity = normal [Play = yes) =
6
9
Pr(Humidity = normal [Play = no) =
1
5
Pr(Wind = weak[Play = yes) =
6
9
Pr(Wind = weak[Play = no) =
2
5
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 8 / 49
Redes Bayesianas
Clasicador Bayesiano Naive
Red Bayesiana Naive
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 9 / 49
Redes Bayesianas
Suposiciones de Independencia Errneas
Recordemos que hicimos la suposicin de independencia, qu sucede
si esto no es verdad para todas las variables?
Podriamos encontrar ciertas dependencias entre las variables, como
por ejemplo, entre Outlook y Temperature
Pr(Outlook = rain, Temperature = hot[Play = y) = 0
Pr(Outlook = rain[Play = y) + Pr(Temperature = hot[Play = y)
=
3
9
+
2
9
,= 0, luego no son independientes
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 10 / 49
Redes Bayesianas
Denicin de Redes Bayesianas
Las Redes Bayesianas son un tipo de modelos denominados modelos
de grafos, que codican ecientemente la probabilidad conjunta,
evitando suposiciones de independencia errneas.
Una Red Bayesiana consta de dos partes:
Grafo dirigido acclico (DAG) que contiene un nodo por variable (G).
Tablas de probabilidades condicionales (TPC), que almacenan los
parmetros del modelo (P).
Los arcos entre nodos indican dependencia entre las variables.
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 11 / 49
Redes Bayesianas
Regla de la Cadena
Proposicin
Regla de la Cadena
Pr(x
1
, ..., x
n
) =
n

i =1
Pr(x
i
[x
1
, ..., x
i 1
)
Para cada orden de las variables, podemos reformular Pr usando la regla
de la cadena. Tenemos n! reformulaciones distintas.
Usando el orden F,E,S,G,J tenemos
Pr(f , e, s, g, j ) = Pr(f ) Pr(e[f ) Pr(s[f , e) Pr(g[f , e, s) Pr(j [f , e, s, g)
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 12 / 49
Redes Bayesianas
Independencia Condicional en Redes Bayesianas
Usando el orden F,E,S,G,J tenemos
La independencia de algunos variables nos lleva a una expresin ms
simple de codicar. Un buen ordenamiento har uso de estas
independencias, mientras que ordenamientos inecientes no.
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 13 / 49
Redes Bayesianas
Independencia Condicional en Redes Bayesianas
Pr(e[f ) = Pr(e)
E y F son independientes
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 14 / 49
Redes Bayesianas
Independencia Condicional en Redes Bayesianas
Pr(s[f , e) = Pr(s)
S es independiente de F,E
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 15 / 49
Redes Bayesianas
Independencia Condicional en Redes Bayesianas
Pr(g[f , e, s) = Pr(g[f )
G es independiente de E,S dado F
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 16 / 49
Redes Bayesianas
Independencia Condicional en Redes Bayesianas
Pr(j [f , e, s, g) = Pr(j [f , e, s)
J es independiente de G dado F,E,S
Podemos ver que este ordenamiento es eciente. Concidere el
ordenamiento J,G,S,E,F y verique que no se puede eliminar ningn arco
de la red bayesiana.
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 17 / 49
Redes Bayesianas
Inferencia Bayesiana
Como vimos, una red bayesiana es una forma eciente de codicar la
probabilidad conjunta de un conjunto de variables, pero a nosotros nos
interesa inferir distintas probabilidades.
Pr(y
1
) = Pr(y
1
[x
1
) + Pr(x
1
) + Pr(y
1
[x
2
) + Pr(x
2
)
= 0.9 + 0.4 + 0.8 + 0.6 = 0.84
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 18 / 49
Redes Bayesianas
Inferencia Bayesiana
Pero que sucede si nosotros conocemos algunos de los datos?
Si sabemos que Y=y
1
, entonces Pr
+
(y
1
) = Pr(y
1
[y
1
) = 1 y
Pr
+
(y
2
) = 0
Luego, Pr
+
(z
1
) = Pr(z
1
[y
1
) = 0.7
Entonces, Pr
+
(z
2
) = 0.3
Pr
+
(x
1
) = Pr(x
1
[y
1
) =
Pr(y
1
[x
1
)+Pr(x
1
)
Pr(y
1
)
=
0.9+0.4
0.84
= 0.428 57
Al instanciar una variable, la informacin debe propagarse por la red. Se
puede observar que la informacin uye a los hijos y a los padres de la
variable instanciada, de forma distinta:
A los hijos se aplica la regla de marginacin
A los padres se aplica el teorema de bayes
Veamos como realizar este ujo de informacin en redes ms complejas.
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 19 / 49
Redes Bayesianas
Inferencia Bayesiana en Arboles
Denicin
Sea (G, P) una red bayesiana donde G=(V,E) es un rbol. Sea a un
conjunto de instancias de un subconjunto A _ V. Para cada variable X
denimos:
1
mensaje
Para cada hijo Y de X :
Y
(x) =

y
Pr(y[x)(y)
2
valor
1 Si X A y el valor de X es x: (x)=1 , (x)=0, \x ,=x
2 Si X / A, y X es una hoja: (x)=1
3 Si X / A, y X no es una hoja: (x) =

Uhijos(X)

U
(x)
3
mensaje
Si Z es el padre de X :
X
(z) = (z)

Uhijos(Z)X

U
(z)
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 20 / 49
Redes Bayesianas
Inferencia Bayesiana en Arboles
Denicin
4. valor
1 Si X A y el valor de X es x: (x)=1 , (x)=0, \x ,=x
2 Si X / A, y X es la raiz: (x) = Pr(x)
3 Si X / A, y X no es la raiz: (x) =

z
Pr(x[z)
X
(z)
Teorema
Dadas las deniciones anteriores, tenemos que para cada variable X
Pr
+
(x) = Pr(x[a) = (x)(x)
donde es una constante de normalizacin.
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 21 / 49
Redes Bayesianas
Inferencia Bayesiana en Arboles
A=Y, a={y1}
Pr
+
(x
1
) = (x
1
)(x
1
) = + 0.9 + 0.4 = 0.36
Pr
+
(x
2
) = + 0.8 + 0.6 = 0.48
0.36 +0.48 = 0.84 = 1 == =
1
0.84
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 22 / 49
Redes Bayesianas
Inferencia Bayesiana en Arboles
Pr
+
(x
1
) =
0.36
0.84
= 0.428 57, Pr
+
(x
2
) =
0.48
0.84
= 0.571 43
Pr
+
(y
1
) = 1, Pr
+
(y
2
) = 0
Pr
+
(z
1
) = 0.7, Pr
+
(z
2
) = 0.3 == = 1
Pr
+
(z
1
) = 0.7, Pr
+
(z
2
) = 0.3
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 23 / 49
Redes Bayesianas
Inferencia Bayesiana en Redes Simplemente Conectadas
El teorema anterior solo funciona para el caso que el DAG de la red
bayesiana sea un rbol, pero esto no sucede en muchos casos.
Denicin
Una red se dice simplemente conectada si, para todo par de nodos existe a
lo ms una cadena que los conecta. En caso contrario, se dice que la red
es multiplemente conectada.
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 24 / 49
Redes Bayesianas
Inferencia Bayesiana en Redes Simplemente Conectadas
Teorema
Para el caso de redes simplemente conectadas, se debe modicar los
mensaje y valor :
Denicin
1
mensaje
Para cada hijo Y de X, donde W
1
, .., W
k
son los otros padres de Y :

Y
(x) =


w1,...,w
k

Pr(y[x, w
1
, ..., w
k
)
k

i =1

Y
(w
i
)

(y)
2
valor
Si X / A, X no es una raiz y Z
1
, ..., Z
j
son los padres de X:
(x) =

z
1
,..,z
j

Pr(x[z
1
, .., z
j
)
j

i =1

X
(z
i
)

Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 25 / 49


Redes Bayesianas
Inferencia Bayesiana en Redes Simplemente Conectadas

A
(f
1
) = (0.992 + 0.005 + 0.2 + 0.995) + 1
+(0.008 + 0.005 + 0.8 + 0.995) + 0 - 0.204

A
(f
2
) = 0.99 + 0.005 + 0.003 + 0.995 - 0.008
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 26 / 49
Redes Bayesianas
Induccin de Redes Bayesianas
Existen tres escenarios en la induccin de Redes Bayesianas:
1
Estructura y TPCs se denen por expertos
2
Estructura Fija y TPCs inducidas de datos
3
Estructura y TPCs inducidas de datos
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 27 / 49
Redes Bayesianas
Induccin de Redes Bayesianas con Estructura Fija
El problema se reduce a estimar las distribuciones de probabilidades de
cada TPC. Esta estimacin puede ser:
Paramtrica: suponemos que la distribucin es de un cierto tipo y
estimamos sus parmetros.
No Paramtrica: no hay suposicin del tipo de la distibucin.
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 28 / 49
Redes Bayesianas
Estimacin paramtrica
Variable continua: en general se supone distribucin Normal
N(x; , ) =
1
_
2
exp

(x )
2
2
2

Variable discreta: en general se supone distribucin Multinomial


Pr(Y
1
= y
1
, ..., Y
k
= y
k
) =
n!
y
1
!...y
k
!
p
y
1
1
...p
y
k
k
, donde
k

i =1
y
i
= n
Estimacin de Mxima Verosimilitud
Los datos determinan completamente los parmetros
Problema: sobreajuste.
Estimacin Bayesiana
Tenemos informacin a priori de los parmetros (prior)
Los datos nos aportan informacin adicional para ajustar los parmetros
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 29 / 49
Redes Bayesianas
Estimador de Mxima Verosimilitud
Denicin
Sean los datos de entrenamiento D = (x
1
, ..., x
n
) y los parmetros . La
funcin de verosimilitud es L( : D) = Pr(D[). Se llama el estimador de
mxima verosimilitud (EMV) a

= arg max

L( : D)
Proposicin
Si los datos son iid tenemos L( : D) =
n

i =1
Pr(x
i
[)
Se cumple que el EMV

= arg max

log L( : D), y en el caso iid,


log L( : D) =
n

i =1
Pr(x
i
[)
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 30 / 49
Redes Bayesianas
Estimador de Mxima Verosimilitud
Cada dato x
i
D es una instancia de una variable X, dom(X) =
{v
1
,...,v
k
}
Sea Pr(X = v
i
) = p
i
Y=(Y
1
, ..., Y
k
) ~Multinomial(p
1
, ..., p
k
, n), donde Y
i
es el nmero de
ocurrencias del valor v
i
en D
= (p
1
, ..., p
k
)
L( : D) =
n

i =1
Pr(x
i
[) =
k

i =1
p
n
i
i
, donde n
i
es el nmero de datos en
la instancia v
i
log L( : D) =
k

i =1
n
i
log p
i
=
k1

i =1
n
i
log p
i
+n
k
log(1
k1

i =1
p
i
)
d(log L(:D))
dp
j
=
n
j
p
j

n
k
p
k
= 0 == p
j
=
n
j
c
k

i =1
p
i
= 1 ==
k

i =1
n
i
= c = n == p
j
=
n
j
n
, j = 1..k
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 31 / 49
Redes Bayesianas
Estimador de Mxima Verosimilitud
En el caso continuo, suponiendo distribucin normal, tenemos que
log L(D : ) =
n
2
log(2) n log
n

i =1
(x
i
)
2
2
2
d(log L(D:))
d
=

n
i =1
(x
i
)

2
= 0 == =
1
n

n
i =1
x
i
d(log L(D:))
d
=
n

+ 2

n
i =1
(x
i
)
2
2
3
= 0 ==
2
=

n
i =1
(x
i
)
2
n
Los EMV pueden llevar a sobreajuste
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 32 / 49
Redes Bayesianas
Estimacin Bayesiana
Los EMV pueden llevar a sobreajuste.
La estimacin Bayesiana intenta solucionar este problema usando info
a priori.
La idea es que partimos con conocimiento de los parmetros y los
datos modican ese conocimiento.
Por Teo. de Bayes tenemos Pr([D) =
Pr(D[) Pr()
Pr(D)
=
Pr(D[) Pr()
R

Pr(D[) Pr()
Denicin
Estimador Mximo Posterior (MAP):

MAP
= arg max

Pr([D)
Estimador de Bayes:

Bayes
= E([D)
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 33 / 49
Redes Bayesianas
Estimacin Bayesiana
Recordemos la distribucin Binomial: probabilidad de tener s xitos
Pr(s[p, n) =

n
s

p
s
(1 p)
ns
, n jo
Pr(p[D) =
Pr(D[p) Pr(p)
R

Pr(D[p) Pr(p)
=
p
s
(1p)
ns
Pr(p)
R

p
s
(1p)
ns
Pr(p)dp
Si no tenemos info a priori, asumimos que p ~ U[0, 1]
Pr(p[D) =
p
s
(1p)
ns
1
R
0
p
s
(1p)
ns
dp
== p[D ~ Beta(s + 1, n s + 1)
d(p
s
(1p)
ns
)
dp
= sp
s1
(1 p)
ns
(n s)p
s
(1 p)
ns1
= 0
p
MAP
=
s
n
== igual al EMV
p
Bayes
=
R
1
0
p
s+1
(1p)
ns
dp
1
R
0
p
s
(1p)
ns
dp
=
(n+2)(s+2)
(n+3)(s+1)
=
s+1
n+2
==estimador de Laplace
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 34 / 49
Redes Bayesianas
Estimacin Bayesiana
En general, si tenemos el prior p ~ Beta(s
/
, n
/
s
/
)
Obtenemos el posterior p[D ~ Beta(s +s
/
, n +n
/
s s
/
)
p
Bayes
=
s+s
/
n+n
/
p
MAP
=
s+s
/
1
n+n
/
2
Supongamos que tenemos una moneda cargada y la lanzamos 30
veces, obteniendo 10 caras.
Con prior uniorme obtenemos: p[D
1
~ Beta(10, 20) == p
Bayes
=
10
30
Supongamos que lanzamos la moneda nuevamente 100 veces y
observamos 50 caras.
Obtenemos el posterior:
p[D
2
~ Beta(10 + 50, 20 + 50) == p
Bayes
=
60
130
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 35 / 49
Redes Bayesianas
Estimacin Bayesiana
El mtodo de inferencia Bayesiano es una generalizacin del caso
binominal.
Se usa la distribucin de Dirichlet que generaliza la distribucin Beta.
En general, tenemos el prior: (p
1
, ..., p
k
) ~ Dir (s
/
1
, ..., s
/
k
)
Obtenemos el posterior: (p
1
, ..., p
k
)[D ~ Dir (s
1
+s
/
1
, ..., s
k
+s
/
k
)
p
iBayes
=
s
i
+s
/
i
n+n
/
p
iMAP
=
s
i
+s
/
i
1
n+n
/
k
Se puede usar el estimador simple: p
i Si mple
=
s
i
+
n+k
Si = 0 ==obtenemos el EMV
Si = 1 ==obtenemos el Laplaciano
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 36 / 49
Redes Bayesianas
Induccin de la Estructura de la Red Bayesiana
La estructura de la red bayesiana determinar la eciencia de la red y
las suposiciones de independencia condicional.
Si la estructura tiene un ordenamiento de las variables que no es
adecuado, entonces la red puede no aprovechar las independencias
condicionales de las variables, y hacer muy complejo el modelo.
Si la estructura tiene arcos de sobra, el modelo es ms complejo y se
genera sobreajuste
Si la estructura tiene arcos faltantes, el modelo har falsas
suposiciones de independencia, generando error por sesgo.
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 37 / 49
Redes Bayesianas
Induccin de la Estructura de la Red Bayesiana
Existen dos tipos principales de mtodos para la induccin de estructuras
Mtodos basados en puntaje
Cada posible estructura tiene un puntaje
El puntaje indica que tan bien la estructura representa los datos
Encontrar estructura que maximice el puntaje
Mtodos basados en test de independencia
Comienzan con una red completa e intentan eliminar arcos cuando se
verica independencia
Comienza con una red vaca e intenta agregar arcos cuando no se
verica independencia
El test ms usuado para vericar independencia es el test de
chi-cuadrado
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 38 / 49
Redes Bayesianas
Mtodos basados en puntaje
Denicin
Dada una estructura G y datos de entrenamiento D, tenemos:
Prob. conjunta observada: Pr
D
Prob. conjunta de la red: Pr
G,D
Puntajes Locales
Miden qu tan bien la estructura representa la probabilidad conjunta
Es decir qu tanto se parecen Pr
D
y Pr
G,D
Puntaje de Versosimilitud
Puntaje MDL (Minimum Description Length)
Puntajes Globales
Miden qu tan bien la estructura se comporta para predecir
Por ejemplo, se puede usar error de clasicacin
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 39 / 49
Redes Bayesianas
Puntaje de Verosimilitud
Bajo suposicin de que los datos son idd, obtenemos:
L(G : D) =

x
i
D
Pr
G,D
(x
i
)
Aplicamos logaritmo: log L(G : D) =

x
i
D
log Pr
G,D
(x
i
)
Luego

x
i
D
log Pr
G,D
(x
i
) =

x
i
dom(X)
n
i
log Pr
G,D
(x
i
),
donde n
i
es la cantidad de datos x
i
Finalmente, como Pr
D
(x
i
) =
n
i
n
log L(G : D) = n

x
i
dom(X)
Pr
D
(x
i
) log Pr
G,D
(x
i
)
Funcin de prdida de informacin:
fpi(Pr
0
, Pr
1
) =
R
X
Pr
0
(x) log Pr
1
(x)dx
Mide similitud entre dos distribuciones de probabilidad
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 40 / 49
Redes Bayesianas
Puntaje de Verosimilitud
La red que maximiza el puntaje de verosimilitud es la red completa.
El puntaje de verosimilitud no considera la complejidad de la red, sino
solo la codicacin de los datos en la red.
Esto lleva a sobreajuste
Este puntaje se debe usar en un conjunto reducido de estructuras, y
no sobre el espacio completo.
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 41 / 49
Redes Bayesianas
Costo de Descripcin
Denicin
El costo de descripcin es la cantidad de informacin necesaria para
codicar modelo y codicar los datos usando el modelo.
Costo(M, D) = Costo(M) +Costo(D[M)
Supongamos que transmitimos en un canal (o codicamos) smbolos
en x
1
, ..., x
n

A primera vista, necesitamos log n bits por mensaje.


Si el emisor y el receptor conocen la distribucin de los datos
Pr (X = x
i
) = p
i
se puede elabrar un cdigo que requiera menos bits
por mensaje.
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 42 / 49
Redes Bayesianas
Entropa
Si usamos este cdigo (Human) para enviar mensajes (A,B,C,D), en
promedio cada mensaje require 1.75 bits, versus los 2 bits usuales.
M cod long prob prom
A 000 3 0.125 0.375
B 001 3 0.125 0.375
C 01 2 0.25 0.5
D 1 1 0.5 0.5
Denicin
La entropa es el mnimo terico de bits promedio necesarios para trasmitir
un conjunto de mensajes sobre x
1
, ..., x
n
con distribucin de prob.
Pr (X = x
i
) = p
i
. Es la informacin asociada a la distribucin de
probabilidades P.
Entropy(P) =

p
i
log(p
i
)
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 43 / 49
Redes Bayesianas
Entropa
Mientras ms uniforme es P, mayor es su entropa
Si P es (0.5, 0.5), Entropy(P) = 1
Si P es (0.67, 0.33), Entropy(P) = 0.92
Si P is (1, 0), Entropy(P)=0
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.5
1.0
x
y
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 44 / 49
Redes Bayesianas
Puntaje de Descripcin Mnima
Proposicin
Costo(D[M) = n +

p
D
i
log(p
M,D
i
) = n + fpi (Pr
D
, Pr
M,D
), donde
Pr
D
es la distribucin observada en los datos y Pr
M,D
es la
distribucin del modelo.
Costo(M) =
dim(M)+log n
2
Denicin
PuntajeMDL(G:) = n + fpi (Pr
D
, Pr
M,D
) +
dim(G)+log n
2
Mide el costo de codicar los datos usando la probabilidad de la red
ms el costo de codicar la red.
PuntajeAIC(G:) = n + fpi (Pr
D
, Pr
M,D
) +dim(G)
Entropa: H(G:) = log L(G : )
Los puntajes anteriores son "costos" de los modelos.
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 45 / 49
Redes Bayesianas
Bsqueda de Estructuras
Entrada
Datos de Entrenamiento
Funcin de puntaje
Posibles estructuras
Salida
Red que maximiza (o minimiza) puntaje
TPC
Espacio de bsqueda
Estados son posibles estructuras
Operaciones modican la red y generan nuevos estados a evaluar
Algoritmos de Bsqueda
Recorren el espacio en busca de estructuras con mejor puntaje
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 46 / 49
Redes Bayesianas
Bsqueda de Estructuras
Las operaciones ms comunes al realizar la bsqueda son:
Agregar arco
Eliminar arco
Invertir arco
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 47 / 49
Redes Bayesianas
Bsqueda de Estructuras
Algunos de los Algoritmos de Bsqueda en Weka son:
Bsqueda local
Hill Climbing
Reapeated Hill Climbing
LAGD Hill Climbing
K2: Hill Climbing con un orden jo de variables
Bsqueda Heurstica
Simmulated Annealing
Tabu Search
Genetic Search
TAN: bsqueda de estructuras de rbol
Mtodos Basados en Test de Independencia
CISearchAlgorithm
ICSSearchAlgorithm
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 48 / 49
Redes Bayesianas
Bsqueda de Estructuras
La Bsqueda de estructuras con puntaje mximo, para redes con al
menos k > 1 padres por nodo es NP-hard.
Este problema es un problema de Optimizacin Combinatorial.
Para k=1 (rboles) se puede resolver en tiempo polinomial.
Arboles tienen pocos parmetros por lo que en general evitan
sobreajuste, pero no permiten codicar funciones muy complejas
La prueba nal siempre debe ser con un conjunto separado de datos,
el conjunto test, que evala el desempeo de la estructura y sus TPCs
en la prediccin de la red
Gonzalo Ros D. (DCC - UChile) Redes Bayesianas Otoo 2011 49 / 49