Está en la página 1de 20

Razonamiento Probabilístico

Dr Jesús Antonio González Bernal


Dr.
Razonamiento Probabilístico
í
 Explicamos como construir modelos de redes para razonar
bajo incertidumbre de acuerdo a las leyes de la teoría de la
pprobabilidad.
o a a . R&N,
& , pg. 49
492..

2
Redes Bayesianas
 Son una forma gráfica,
gráfica simple para representar afirmaciones
de independencia y por tanto, una forma compacta de
especificar
espec ca distribuciones
st uc o es coconjuntas
ju tas co
completas
p etas
 i.e. P(Tiempo, Caries)
 Representación
p con tabla de pprobabilidades de 4X2
 Tiempo: Soleado, Lluvioso, Nublado, Nevado
 Caries: Cierto, Falso
 Distribución
b ó de d probabilidad
b b l d d conjunta de
d Tiempo y Caries

3
Redes Bayesianas
 Sintaxis
 Un conjunto de nodos, uno por variable
 Un grafo acíclico dirigido (liga ≈ “influencia
influencia directamente
directamente”))
 Distribución de probabilidad para cada nodo dados sus padres:
 P(X
( i||Parents(X
( i))
 Las distribuciones condicionales se representan con una tabla
de pprobabilidad condicional (CPT)
( ) dada la distribución sobre
Xi para cada combinación de valores de los padres

4
Ejemplo
 La topología de la red codifica las afirmaciones de
independencia condicional

 Weather es independiente de las demás variables


 Toothache y Catch son condicionalmente independientes
p dada
Cavity

5
Ejemplo
 Estoy en el trabajo,
trabajo el vecino John llama para decirme que mi
alarma esta sonando, pero la vecina Mary no me llama.
Algunas
gu as veces se eenciende
c e e co
con te
temblores
o es ligeros.
ge os. ¿¿Habrá
a á uun
ladrón en casa?
 Variables: Burglar, Earthquake, Alarm, JohnCalls, MaryCalls
 Topología de la red refleja conocimiento “causal”:
 Un ladrón puede encender la alarma
 Un temblor puede encender la alarma
 La alarma puede causar que Mary llame
 La alarma puede causar que John llame

6
Ejemplo

7
Compactes
 U C ppara Xi booleana con k ppadres booleanos tiene 2k renglones
Una CPT g para
p las
combinaciones de valores de los padres
 En cada renglón tenemos un número p para Xi = true
 El número para Xi = false es solo 1 – p
 Si cada variable tiene no más de k padres, la red completa tendrá O(n · 2k)
números
 Crece linealmente con n, vs O(2n) para la distribución conjunta completa
 En la red anterior (burglary): 1 + 1 + 4 + 2 + 2 = 10
 Versus 25 = 32

8
Semántica
á Global
 La semántica global define la distribución conjunta completa
como el producto de las distribuciones condicionales locales:
P ( x1 ,..., xn )  i 1 P( xi | parents ( X i ))
n

 Por ejemplo:

P ( j  m  a  b  e )
 P( j | a ) P(m | a ) P(a | b, e) P(b) P (e)
 0.9  0.7  0.001 0.999  0.998)
 0.00063

9
Construcción
ó de Redes Bayesianas
 Necesitamos un método para que una serie de afirmaciones
probadas localmente de independencia condicional,
garanticen
ga a t ce laa se
semántica
á t ca gglobal
o a requerida
eque a
1. Elegir un orden de las variables X1, …, Xn
2. For i = 1 to n
Añadir Xi a la red
Seleccionar ppadres de X1, …,, Xi-1 tal qque
P(Xi|Parents(Xi)) = P(Xi|X1, …, Xi-1)
 Esta elección de los ppadres garantiza
g la semántica gglobal

P( X 1 ,..., X n )  i 1 P( X i | X 1 ,..., X i 1 ) (regla de la cadena)


n

 i 1 P( X i | Parents( X i )) (por construcción)


n

10
Construcción
ó de Redes Bayesianas
A ppartir de la ecuación 14.1:
. :

P( X 1 ..., X n )  i 1 P( X i | Parents( X i ))
n

Implica relaciones de independencia condicional que guían en la construcción de la


topología de la red. Reescribimos la distribución conjunta en términos de una
probabilidad condicional con una conjunción más pequeña
pequeña. Usando la regla
del producto
P ( x1 ..., x n )  P ( x n | x n 1 ..., x1 ) P ( x n 1 ..., x1 )

Se repite el proceso, reduciendo cada probabilidad con conjunciones a una


probabilidad con conjunciones a una probabilidad condicional con una
conjunción
j más ppequeña.
q .
P( x1 ..., xn )  P ( x n | x n 1 ..., x1 ) P( x n 1 | x n 2 ..., x1 )... P ( x2 | x1 ) P( x1 )  i 1 P( X i | X 1 ,..., X i 1 )
n

P( X 1 ,..., X n )  i 1 P( X i | X 1 ,..., X i 1 ) (regla de la cadena)


n

11
 i 1 P( X i | Parents( X i )) (por construcción)
n
Orden Correcto de las Variables
 Agregar primero las “causas
causas raíces
raíces”
 Luego, las “variables que influyen”
 Continuar
C ti con este
t proceso hhasta
t llllegar a llas “h
“hojas”,
j ” que no
tienen influencia causal directa sobre las demás variables

12
Ejemplo --- Red Incorrecta
 Suponemos que elegimos el orden M,
M J,
J A,
A B,
B E

 P(J|M) = P(J)?

13
Ejemplo --- Red Incorrecta
 Suponemos que elegimos el orden M,
M J,
J A,
A B,
B E

 P(J|M) = P(J)? No
 P(A|J,M)
( |J ) = P(A|J)?
( |J) P(A|J,M)=P(A)?
( |J ) ( )

14
Ejemplo --- Red Incorrecta
 Suponemos que elegimos el orden M,
M J,
J A,
A B,
B E

 P(J|M) = P(J)? No
 P(A|J,M) = P(A|J)? P(A|J,M)=P(A)? No
 P(B|A,
P(B|A JJ, M) = P(B|A)?
 P(B|A, J, M) = P(B)?

15
Ejemplo --- Red Incorrecta
 Suponemos
p qque elegimos
g el orden M,, J, A,, B,, E

 P(J|M) = P(J)? No
 P(A|J,M)
( |J, ) = P(A|J)?
( |J) P(A|J,M)=P(A)?
( |J, ) ( ) No
 P(B|A, J, M) = P(B|A)? Sí
 P(B|A, J, M) = P(B)? No
 P(E|B, A, J, M) = P(E|A)?
 P(E|B, A, J, M) = P(E|A, B)?

16
Ejemplo --- Red Incorrecta
 Suponemos
p qque elegimos
g el orden M,, J, A,, B,, E

 P(J|M) = P(J)? No
 P(A|J,M)
( |J, ) = P(A|J)?
( |J) P(A|J,M)=P(A)?
( |J, ) ( ) No
 P(B|A, J, M) = P(B|A)? Sí
 P(B|A, J, M) = P(B)? No
 P(E|B, A, J, M) = P(E|A)? No
 P(E|B, A, J, M) = P(E|A, B)? Sí

17
Ejemplo --- Red Incorrecta

 Decidir sobre la independencia condicional es difícil en direcciones no causales


 Difíciles de entender para nosotros
 Estimar probabilidades condicionales es difícil en direcciones no causales
 Red menos compacta: 1 + 2 + 4 + 2 + 4 = 13 números requeridos

18
Tareas de Inferencia
 Queries simples: calcular la marginal posterior P(Xi|E
P(Xi|E=e)
e)
 i.e., P(NoGas|Bomba=vacía, Luces=Encendidas, Enciende=falso)
 Queries conjuntos: P(Xi, Xj|E
Xj|E=e)
e) = P(Xi|E
P(Xi|E=e)P(Xj|Xi,
e)P(Xj|Xi, E
E=e)
e)
 Decisiones óptimas: Redes de decisión incluyen información de
utilidad;; se requiere
q inferencia probabilística
p para
p P(salida|acción,
( | ,
evidencia)
 Valor de información: ¿Cuál evidencia buscar en el siguiente
g paso?
 Análisis de sensibilidad: ¿Cuáles valores de probabilidad son más
críticos?
 Explicación: ¿Porqué necesito un nuevo motor de ignición?

19
Variables Irrelevantes
 C
Considerando el qqueryy P(JohnCalls
(J C | Burglary=true)
g y )
P ( J | b)  P(b) P(e) P(a | b, e) P( J | a ) P(m | a )
e a m

 La suma sobre m es idéntica a 1; M es irrelevante al query

 Teorema 1: Y es irrelevante al menos que Y  Ancestros({X}E)


 Aquí, X = JohnCalls, E={Burglary}, y Ancestros({X}E) = {Alarm, Earthquake},
entonces MaryCalls es irrelevante

20

También podría gustarte