Está en la página 1de 70

Mtodos de Inteligencia Artificial

L. Enrique Sucar (INAOE) esucar@inaoep.mx ccc.inaoep.mx/esucar


Tecnologas de Informacin UPAEP

Redes Bayesianas: Parte I


Introduccin Representacin Inferencia
Propagacin en rboles

Representacin
Las redes bayesianas son una representacin grfica de dependencias para razonamiento probabilstico, en la cual los nodos y arcos representan:
Nodos: Variables proposicionales. Arcos: Dependencia probabilstica

La variable a la que apunta el arco es dependiente (causa-efecto) de la que est en el origen de ste.

Ejemplo de una red bayesiana

Vino Borracho
Sed Dolor-Cabeza

Otro ejemplo

Contagio Inuenza
Fiebre

Dolor-Cabeza

MGP - RB I, L.E. Sucar

Podemos interpretar a una RB de dos formas: 1. Distribucin de probabilidad: Representa la distribucin de la probabilidad conjunta de las variables representadas en la red. Por ejemplo: P(C, I, F, D) = P(C) P(I | C) P(F | I) P (D | I)

2. Base de reglas: Cada arco representa un conjunto de reglas que asocian las variables involucradas, Por ejemplo: Si I entonces F Dichas reglas estn cuantificadas por las probabilidades respectivas.

Otro ejemplo

Estructura
La topologa o estructura de la red nos da informacin sobre las dependencias probabilsticas entre las variables. La red tambin representa las independencias condicionales de una variable (o conjunto de variables) dada otra variable(s).

Ejemplo
Para el caso del domo: {Fva} es cond. indep. de {Fv, Fe, Nd} dado {Fb} Esto es: P(Fva | Fv, Fe, Nd, Fb)= P(Fva | Fb) Esto se representa grficamente por el nodo Fb separando al nodo Fva del resto de las variables.

Independencias condicionales
En una RB todas la relaciones de independencia condicional representadas en el grafo corresponden a relaciones de independencia en la distribucin de probabilidad. Dichas independencias simplifican la representacin del conocimiento (menos parmetros) y el razonamiento (propagacin de las probabilidades).

Representacin Grfica
Una red bayesiana representa en forma grfica las dependencias e independencias entre variables aleatorias, en particular las independencias condicionales Independencia en la distribucin
P(X | Y,Z) = P(X | Z)

Independencia en el grafo
X separada de Y por Z

Representacin Grfica
Notacin: Independencia en la distribucin
I(X,Z,Y)

Independencia en el grafo
<X|Z|Y> X Z Y

Separacin D
El conjunto de variables A es independiente del conjunto B dado el conjunto C, si no existe trayectoria entre A y B en que
1. Todos los nodos convergentes estn o tienen descendientes en C 2. Todos los dems nodos estn fuera de C

Separacin D
Tres casos bsicos
Arcos divergentes Arcos en secuencia Arcos convergentes

Separacin D casos bsicos


caso 1: Secuencia:
X Z Y

caso 2: Divergentes:
X Z Y

caso 3: Convergentes:
X Z Y

Ejemplos Separacin-D
A D B E I(A,CD,F)? I(A,CD,B)? I(BD,A,C)? I(A,G,B)? I(A,D,G)? I(C,BEG,D)?

C F

Especificacin Estructural
En una RB, cualquier nodo X es independiente de todos los nodos que no son sus descendientes dados sus nodos padres Pa(X) contorno de X La estructura de una RB se especifica indicando el contorno (padres) de cada variable

Especificacin Estructural
A D B E Pa(A) = 0 Pa(B) = 0 Pa(C) = A Pa(D) = A, B Pa(E) = B Pa(F) = C, D Pa(G) = D

C F

Cobija de Markov
La cobija de Markov de un nodo es el conjunto de nodos que lo hacen independiente del resto de la red Para una RB la cobija de Markov est formada por:
Nodos padre Nodos hijo Otros padres de los hijos

Cobija de Markov
A D B E

C F

CM (D) ?

Parmetros
Complementan la definicin de una red bayesiana las probabilidades condicionales de cada variable dados sus padres.
Nodos raz: vector de probabilidades marginales Otros nodos: matriz de probabilidades condicionales dados sus padres

Ejemplo
P(C) P(T|C)

Comida
P(G)

Tifoidea Fiebre
P(F|T,G)

Gripe

Reacciones
P(R|T)

Dolor
P(D|T,G)

Ejemplo
P(T|C)

P(C)

Ins 0.2

Sal 0.8

Comida
P(G)

Tifoidea Fiebre
P(F|T,G)

Gripe

Reacciones
P(R|T)

Dolor
P(D|T,G)

Ins Sal Si .7 .1 No .3 .9
P(T|C)

P(C)

Ins 0.2

Sal 0.8

Comida
P(G)

Tifoidea Fiebre
P(F|T,G)

Gripe

Reacciones
P(R|T)

Dolor
P(D|T,G)

Ins Sal Si .7 .1 No .3 .9
P(T|C)

P(C)

Comida

Ins 0.2
P(G)

Sal 0.8

Tifoidea
P(R|T)

Gripe
P(D|T,G)

Reacciones

Fiebre Si, Si 0.8 0.2

Dolor

P(F|T,G) F

~F

Si,No No,Si No,No 0.6 0.5 0.1 0.4 0.5 0.9

Especificacin Paramtrica
Dado que los contornos (padres) de cada nodo especifican la estructura, mediante las probabilidades condicionales de dichos nodos podemos especificar tambin las probabilidades requeridas Aplicando la regla de la cadena y las independencias condicionales, se puede verificar que con dichas probabilidades se puede calcular la probabilidad conjunta

Especificacin Paramtrica
A D B E

C F

P(A,B,C,D,E,F,G) = P(G|F,E,D,C,B,A) P(F|E,D,C,B,A) P(E|D,C,B,A) P(D|C,B,A) P(C|B,A) P(B|A) P(A) = P(G|D) P(F|D,C) P(E|B) P(D|B,A) P(C|A) P(B) P(A)

Especificacin Paramtrica
En general, la probabilidad conjunta se especifica por el producto de las probabilidades de cada variable dados sus padres: P(X1,X2, ..., Xn) = P(Xi | Pa(Xi))

Inferencia probabilstica
En RB, la inferencia probabilstica consiste en: dadas ciertas variables conocidas (evidencia), calcular la probabilidad posterior de las dems variables (desconocidas) Es decir, calcular: P(Xi | E), donde:
E es un subconjunto de variables de la RB (posiblemente vaci) Xi es cualquier variable en la RB, no en E

Inferencia bayesiana
C P(H|C) H P(E|H) E Causal: C H Evidencial: E H Mixta: C, E H

Tipos de Tcnicas
Calcular probabilidades posteriores:
Una variable, cualquier estructura: algoritmo de eliminacin (variable elimination) Todas las variable, estructuras sencillamente conectadas (rboles, polirboles): propagacin Todas las variables, cualquier estructura:
Agrupamiento (junction tree) Simulacin estocstica Condicionamiento

Tipos de Tcnicas
Obtener variable(s) de mayor probabilidad dada cierta evidencia abduccin:
Abduccin total Abduccin parcial

Tipos de estructuras
Sencillamente conectadas
rboles

Polirboles

Multiconectadas

Propagacin en rboles
Cada nodo corresponde a una variable discreta, B (B 1, B 2,, B m) con su respectiva matriz de probabilidad condicional, P(B|A)=P(Bj| Ai)

Propagacin en rboles
H A C D F B I

E G

Dada cierta evidencia E -representada por la instanciacin de ciertas variables- la probabilidad posterior de cualquier variable B, por el teorema de Bayes: P( Bi | E)=P( Bi ) P(E | Bi) / P( E )

Evidencia
A C D F

H I B

E G

E = {I,F,E}

Evidencia
Ya que la estructura de la red es un rbol, el Nodo B la separa en dos subrboles, por lo que podemos dividir la evidencia en dos grupos: E-: Datos en el rbol que cuya raz es B E+: Datos en el resto del rbol

Evidencia
A C D F

E+
I

E G

E-

Entonces: P( Bi | E ) = P ( Bi ) P ( E-,E+ | Bi ) / P(E) Pero dado que ambos son independientes y aplicando nuevamente Bayes: P( Bi | E ) = P ( Bi | E+ ) P(E- | Bi ) Donde es una constante de normalizacin

Definiciones: Si definimos los siguientes trminos:


(Bi) = P ( E- | Bi)

(Bi) = P (Bi | E+ )
Entonces: P(Bi | E ) = (B i) (B i)

Desarrollo
En base a la ecuacin anterior, se puede integrar un algoritmo distribuido para obtener la probabilidad de un nodo dada cierta evidencia Para ello se descompone el clculo de cada parte:
Evidencia de los hijos () Evidencia de los dems nodos ()

Evidencia de los hijos (l )


Dado que los hijos son condicionalmente independientes dado el padre:
(Bi) = P ( E- | Bi) = k P ( Ek- | Bi)

Donde Ek- corresponde a la evidencia del subrbol del hijo k

Evidencia hijos
A C

H I B

E-(D) D
F G

E-(E)

Evidencia de los hijos ()


Condicionando respecto a los posibles valores de los hijos de B:
(Bi)= k [

j P ( Ek- | Bi, Sjk) P(Sjk | Bi) ]

Donde Sk es el hijo k de B, y la sumatoria es sobre los valores de dicho nodo (teorema de probabilidad total)

Evidencia de los hijos ()


Dado que B es condicionalmente independiente de la evidencia dados sus hijos:
(Bi) = k [ j P ( Ek- | Sjk) P(Sjk | Bi) ]

Substituyendo la defincin de :
(Bi)= k [ j P(Sjk | Bi) (Sjk)]

Evidencia hijos
A C

H I B

(D) D
F G

(E)

Evidencia de los hijos (l )


Recordando que es un vector (un valor por cada posible valor de B), lo podemos ver en forma matricial:

P (S | B)

Evidencia de los dems nodos ()


Condicionando sobre los diferentes valores del nodo padre (A):

(Bi) = P (Bi | E+ ) = j P (Bi | E+ , Aj) P(Aj | E+ )


Donde Aj corresponde a los diferentes valores del nodo padre de B

Evidencia padre
A C D F

E+
B

E G

Evidencia de los dems nodos (p)


Dado que B es independiente de la evidencia arriba de A, dado A:

(Bi) = j P (Bi | Aj) P(Aj | E+ )


La P(Aj | E+ ) corresponde a la P posterior de A dada toda la evidencia excepto B y sus hijos, por lo que se puede escribir como: P(Aj | E+ ) = (A i) k B k (A i)

Evidencia padre
A C (C) D F

(A)
I

(B)
G

Evidencia de los dems nodos ()


Substituyendo P(Aj | E+ ) en la ecuacin de :

(Bi) = j P (Bi | Aj) [ (A i) k B k (A i) ]


De forma que se obtiene combinando la de del nodo padre con la de los dems hijos

Evidencia de los dems nodos (p)


Dado que tambin es un vector, lo podemos ver en forma matricial (donde PA es el producto de la evidencia de padre y otros hijos):

P (B | A)

PA

Algoritmo
Mediante estas ecuaciones se integra un algoritmo de propagacin de probabilidades en rboles. Cada nodo guarda los valores de los vectores y , as como su matriz de probabilidad condicional (CPT), P. La propagacin se hace por un mecanismo de paso de mensajes, en donde cada nodo enva los mensajes correspondientes a su padre e hijos

Mensaje al padre (hacia arriba) nodo B a su padre A:

Mensaje a los hijos (hacia abajo) nodo B a su hijo Sk :

Algoritmo
Al instanciarse ciertos nodos, stos envan mensajes a sus padres e hijos, y se propagan hasta a llegar a la raz u hojas, o hasta encontrar un nodo instanciado. As que la propagacin se hace en un solo paso, en un tiempo proporcional al dimetro de la red.

Propagacin

A(H)
A

I (H)
I

C(A)
C

B(A)
B

D(B)
D

E(B)
E

F(D)
F

G(D)
G

Propagacin

H(A)
A

H(I)
I

A(C)
C

A(B)
B

B(D)
D

B(E)
E

D(F)
F

D(G)
G

Condiciones Iniciales
Nodos hoja no conocidos:

(Bi) = [1,1, ]
Nodos asignados (conocidos):

(Bi) = [0,0, ..1, 0, , 0] (1 para valor asignado) (Bi) = [0,0, ..1, 0, , 0] (1 para valor asignado)
Nodo raz no conocido:

(A) = P(A), (probabilidad marginal inicial)

Ejemplo
Comida P(E|C) 0.9 0.7 0.1 0.3 Fiebre Enf. Dolor P(D|E) 0.7 0.4 0.3 0.6 P(C) 0.8 0.2

P(F|E) 0.9 0.5 0.1 0.5

Ejemplo
Comida Enf. F=si =[1,0] Fiebre Dolor =[1,1]

Ejemplo
Comida Enf. Fiebre P(F|E) 0.9 0.5 0.1 0.5 Dolor D= [1,1] * [.7 .4 | .3 .6] = [1 1]

F= [1,0] * [.9 .5 | .1 .5] = [.9 .5]

P(D|E) 0.7 0.4 0.3 0.6

Ejemplo
(C) = [.9 .5] * [.9 .7| .1 .3] Comida = [.86 .78] (E) = [.9 .5] * [1 1] = [.9 .5] Fiebre P(F|E) 0.9 0.5 0.1 0.5 Enf. Dolor P(D|E) 0.7 0.4 0.3 0.6 P(E|C) 0.9 0.7 0.1 0.3

Ejemplo
(C) = [.8 .2] (E) = [.8 .2] * [.9 .7| .1 .3] = [.86 .14] Enf. Fiebre P(F|E) 0.9 0.5 0.1 0.5 Comida P(E|C) 0.9 0.7 0.1 0.3 Dolor P(D|E) 0.7 0.4 0.3 0.6

Ejemplo
(C) = [.8 .2] Comida (E) = [.86 .14] Enf. (D) = [.86 .14] * [.9 .5] [.7 .4| .3 .6] = [.5698 .2742] Dolor P(D|E) 0.7 0.4 0.3 0.6

Fiebre

Ejemplo
(E) = [.86 .14] (E) = [.9 .5] P(E)=[.774 .070] P(E)= [.917 .083] Fiebre Enf. (C) = [.8 .2] Comida (C) = [.86 .78] P(C)=[.688 .156] P(C)= [.815 .185] (D) = [.57 .27] (D)=[1,1] P(D)=[.57 .27] P(D)= [.67 .33]

Dolor

Tarea
Leer sobre redes bayesianas (captulo en la pgina)

También podría gustarte